Luận văn Đánh giá, phân tích và so sánh hiệu suất của hai bộ mã hoá video H.265 và H.264

Nói chung, tất cả các k thuật thực hi n trong H.265/HEVC được cải tiến dựa trên H.264 AVC. Một số k thuật phức tạp hơn so với k thuật trước, ví dụ 64x64 CTU, dự đoán nội ảnh với 35 chế độ có sẵn, bộ lọc vòng trong có bộ lọc 7 hoặc 8 van, vv. Kích thước khối tăng lên đến tối đa 64x64, gấp 16 so với khối macro trong H264, là một trong những cải tiến quan trọng. Ngoài ra, H.265/HEVC được thiết kế để ứng dụng k thuật song song. Tính năng mới nhất tuy t với nhất trong tiêu chuẩn nén video giúp đẩy nhanh thời gian mã hóa và giải mã, dựa trên công ngh ph n cứng đã được cải tiến. H u như tất cả các cú pháp và cấu trúc của H.265/HEVC đ u hỗ trợ bộ mã hóa và giải mã một cách độc lập. Dù tính phức tạp trong thuật toán và tính toán, thời gian mã hóa và giải mã giảm nhờ k thuật song song.

58 trang | Chia sẻ: yenxoi77 | Lượt xem: 887 | Lượt tải: 0Free

Bạn đang xem trước 20 trang tài liệu Luận văn Đánh giá, phân tích và so sánh hiệu suất của hai bộ mã hoá video H.265 và H.264, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

m soát quá trình mã hoá hình ảnh đó) tạo ra một gói truy cập của H.265/HEVC. Do đó, gói truy cập của H.265/HEVC bao gồm nhi u hơn một gói VCL NAL, do đa số các trường hợp một gói NAL kh ng thể chứa được dữ li u mã hoá của một hình ảnh, trường hợp đặc bi t là một gói trong trường hợp hình ảnh được mã hóa kh ng được phân vùng (nhi u slice). Tất cả các gói NAL đ u có một tiêu đ (header) và ph n dữ li u (payload). Tiêu đ của gói NAL có độ dài là 2 byte, được thiết kế để dễ dàng phân tích và xác định mục đích chính của gói NAL, hoặc t ng mã hoá video (layer) mà ph n dữ li u của nó mang theo. Tuy nhiên, bit đ u tiên là lu n được để "0" để tránh giả lập (emulation prevention bytes) hoặc ngăn ngừa vi c một mẫu dữ li u bị lặp lại một cách ngẫu nhiên bên trong ph n dữ li u tải. Sáu bit tiếp theo được s dụng để xác định loại dữ li u trong ph n tải của gói NAL, sau đó là ID của t ng video đã được đ cập ở trên. Ba bit cuối cùng hiển thị một trong bảy giá trị nhận dạng tạm thời. Loại gói VCL NAL được phân loại dựa trên các gói truy cập và loại hình ảnh. Có ba loại hình ảnh cơ bản trong H.265/HEVC: IRAP (Intra Random Access Point – tạm dịch: Hình ảnh điểm truy cập ngẫu nhiên nội ảnh), leading pictures and trailing pictures (tạm dịch: hình ảnh đ u tiên và hình ảnh cuối cùng của một nhóm ảnh trong một đoạn video); và một vài loại ảnh khác, STSA (Step-wise Temporal Sublayer Access – tạm dịch: hình ảnh truy cập t ng phụ tạm thời), TRAIL (Ordinary Trailing– tạm dịch: ảnh cuối gốc), IDR (Instantaneous Decoding Refresh – tạm dịch: ảnh giải mã tức thời), CRA (Clean Random Access – tạm dịch: hình ảnh truy cập ngẫu nhiên), vv. Tất cả các loại hình ảnh đ u có vai trò riêng trong vi c mã hóa video. Bên cạnh đó, các loại gói phi VCL NAL được phân loại dựa vào tập tham số, dấu phân tách, bộ lọc Hình 2-1: Cấu trúc tiêu đ gói NAL [1] 13 dữ li u, SEI (Supplemental Enhancement Information – tạm dịch: th ng tin tăng cường bổ sung). Bảng 2-1: Các loại gói Non-VCL NAL[1] Bảng 2-2: Các loại gói VCL NAL[1] 14 2.1.2. Các tập tham số Các tập tham số trong H.265/HEVC v cơ bản là giống với các tập tham số trong H.264/AVC, ngoại trừ một tập mới được gọi là tập tham số video (VPS – Video Parameter Set), các tập khác giữ nguyên: tập tham số chuỗi (SPS – Sequence Parameter Set), tập tham số hình ảnh (PPS – Picture Parameter Set). Mục tiêu của vi c s dụng các tập tham số là làm tăng hi u quả tỷ l bit, khả năng phục hồi lỗi, và cung cấp các giao di n lớp cho h thống. Cụ thể là những tham số có thể được s dụng nhi u l n ở trong quá trình mã hoá những ảnh khác nhau, mảnh (slice) khác nhau... nên tuỳ vào phạm vi s dụng của các tham số mà phân chia vào các tập khác nhau, tránh truy n lặp đi lặp lại nhi u l n – bit-rate tăng. Một mảnh hoặc mẫu (sample) có thể dễ dàng lấy được giá trị của tham số c n dùng bằng cách truy cập vào các tập tham số th ng qua ID, như thể hi n trong hình trên (hình 2-2). - Tập tham số video (VPS) là một tập mới được xác định trong H.265/HEVC. Các th ng số của nó được áp dụng trong quá trình mã hoá toàn bộ video. - Tập tham số chuỗi (SPS) chứa th ng tin áp dụng cho quá trình mã hoá một nhóm các hình ảnh. - Tập tham số hình ảnh (PPS) chứa các th ng số áp dụng cho quá trình mã hoá một hình ảnh cụ thể. PPS thay đổi theo hình ảnh, nhưng những hình ảnh khác vẫn có thể tham chiếu tới PPS đó (th ng qua ID). Hình 2-2: Các tập tham số trong H.265/HEVC[1] 15 2.2. Cấu trúc mã hoá Theo hình 2-4, ta có thể thấy rằng mã hoá H.265/HEVC được xây dựng dựa trên n n tảng cơ bản của H.264/AVC. Tất cả những bước x lý chính đ u được giữ nguyên, như mã hoá nội ảnh, mã hoá liên ảnh, các bộ lọc, lượng t hoá.... Tuy nhiên bên cạnh đó, H.265/HEVC đã có những thay đổi. Dễ nhận biết nhất là sự tách bi t của mã hoá nội ảnh thành 2 khối là dự đoán nội ảnh (intra-picture prediction) và ước tính nội ảnh Hình 2-4: Cấu trúc mã hóa video Hybrid của phiên bản H.265/HEVC đ u tiên Hình 2-3: Cấu trúc mã hóa video của H.264/AVC 16 (intra-picture estimation). Ph n sơ đồ của H.265/HEVC chỉ có 1 x lý mới duy nhất là: phân tích đi u kiển bộ lọc (filter control analysis). Đi u quan trọng ta rút ra được là có rất nhi u sự cải tiến trong H.265/HEVC từ H.264/AVC, nhưng nó chỉ được cải tiến v k thuật trong từng bước x lý của bộ mã hoá. Cụ thể những sự thay đổi sẽ được giải thích chi tiết trong các ph n sau. Sự tăng kích cỡ của khối và cấu trúc của nó sẽ được m tả ngay ph n tiếp theo. Sau đó sẽ là một trong những cải tiến quan trọng nhất của H.265/HEVC, đó là x lý song song. Chương 3 sẽ m tả v sự khác nhau của dự đoán nội ảnh và liên ảnh của hai chuẩn nén. Ph n cuối cùng là những so sánh v bộ lọc trong, và chức năng kh rung, kh blocked của nó. 2.3. Cấu trúc khối và kỹ thuật song song H.265/HEVC là một phương pháp mã hóa video hỗn hợp theo khối, n n tảng của mã hoá video, giống như những chuẩn mã hoá trước. Cũng như H.264/AVC, hình ảnh được chia thành nhi u khối. Tuy nhiên, H.265/HEVC đ xuất một cấu trúc dữ li u, có thể cải thi n đáng kể khả năng dự đoán và chuyển đổi của tiêu chuẩn nén H.265/HEVC này. 2.3.1. Phân vùng khối 2.3.1.1. Khối mã hóa cây và đơn vị mã hóa cây Thay vì s dụng khối macroblock như H.264/AVC và tất cả các tiêu chuẩn mã hóa video trước, trong H.265/HEVC, một hình ảnh được phân chia thành nhi u khối vu ng, gọi là khối mã hóa cây (CTB – Coding Tree Blocks), như thể hi n trong hình 2-5 (macroblock) và 2-6 (CTB). Những khối vu ng CTB trong H.265/HEVC có kích thước từ 4x4 đến 64x64, lớn hơn so với kích thước lớn nhất của một macroblock (16x16) được s dụng trong H.264/AVC. Một CTB, chính nó có thể chia ra các CTB khác dựa trên độ phức tạp của ảnh theo cấu trúc dữ li u dạng cây (quad-tree structure). Những CTB nhỏ hơn này giống nhau v cả thành ph n độ sáng (luma) và màu sắc (chroma) . Do đó, một thành ph n sáng CTB và 2 thành ph n màu CTB tương ứng sẽ tạo ra một đơn vị mã hóa cây (CTU – Coding Tree Units) nếu định dang nén video là 17 4:2:0, giống như macroblock, là đơn vị x lý trong H.265/HEVC. Một nhóm các CTU li n k cùng nhau cấu thành nên một mảnh, tương tự nhi u macroblock tạo nên mảnh trong H.264/AVC. Do kích thước khối lớn, vi c mã hóa của H.265/HEVC trở lên hi u quả hơn, nhưng đòi hỏi bộ nhớ tốt hơn, làm tăng độ trễ và sự phức tạp trong tính toán ở cả hai bộ mã hóa và giải mã. Tuy nhiên, kích thước khối lớn hơn cho phép cấu trúc mã hóa của H.265/HEVC phù hợp với đặc điểm nội dung video có độ phân giải cao, so với tất cả Hình 2-5: Ví dụ phân vùng hình ảnh thành nhi u khối macro 16x16[1] Hình 2-6: Ví dụ v phân vùng hình ảnh thành nhi u CTU 64x64[1] 18 các tiêu chuẩn mã hóa trước đó. Cụ thể như trong hình 2-6, hình ảnh có nhi u vùng giống nhau nên vi c s dụng khối kích thước lớn sẽ hi u quả hơn, bao phủ được rộng hơn so với khối kích thước nhỏ, từ đó giảm số khối, giảm số x lý mã hóa. Bộ mã hoá sẽ cân bằng giữa đi u ki n ph n cứng và yêu c u của định dạng video mã hoá mà chia ảnh ra thành các CTB một cách hợp lý. Kích thước CTU được xác định bởi bộ mã hóa, sau đó truy n đến bộ giải mã th ng qua các tập tham số chuỗi (SPS). Cũng như CTB, CTU thể được phân chia thêm thành các đơn vị hình vu ng nhỏ hơn, được gọi là đơn vị mã hóa (CU – Coding Unit) dựa theo cấu trúc dữ li u dạng cây để giải quyết một số vấn đ : như vi c lựa chọn chế độ dự đoán cho khối là nội ảnh (intra) hay liên ảnh (inter) là kh ng thích hợp do gặp vấn đ bất lợi trong quá trình dự đoán tỷ l biến dạng (rate-distortion). Phân vùng đ quy chia CTU thành nhi u CU có kích thước khối khác nhau, nhỏ hơn, làm cho H.265/HEVC có thể quyết định một cách linh hoạt và hi u quả v dự đoán nội ảnh hay liên ảnh, đặc bi t là làm giảm mối tương quan giữa các khối trong cùng một ảnh. 2.3.1.2. Khối dự đoán và đơn vị dự đoán Trường hợp CU được mã hóa theo dự đoán liên ảnh (inter-picture prediction), thành ph n sáng (luma) và màu (chroma) của CU đó có thể được chia thành các đơn vị nhỏ hơn làm cơ sở để dự đoán, gọi là các khối dự đoán (PB – Prediction Blocks). Do đó, PB được định nghĩa là các mẫu chứa thành ph n sáng hoặc màu mà s dụng th ng số chuyển động (motion parameters) giống nhau. Trong đó, các th ng số chuyển động Hình 2-7: Ví dụ v phân vùng CTU theo thứ tự chi u sâu 19 bao gồm các vector chuyển động được dự đoán và những ảnh tham chiếu của các vector đó. Tương tự với cú pháp của CU, một đơn vị dự đoán (PU – Prediction Units) được tạo ra bởi một PB độ sáng và PB màu sắc tương ứng của nó. Một CU có thể chứa nhi u đơn vị dự đoán, trường hợp đặc bi t là khi kích thước của PU bằng với gốc CU nên CU chỉ có một PU. Bên trong một PU, tất cả quá trình dự đoán được thực hi n và th ng tin được truy n đến bộ giải mã. Theo chế độ dự đoán liên ảnh, H.265/HEVC có tám hình dạng chia tách từ CU thành PU, xem hình 2-8. Với số lượng kích thước PU đa dạng hơn thì hi u quả mã của của H.265/HEVC cũng cao hơn. Hi u quả dự đoán bù chuyển động trong H.265/HEVC cao hơn. Tuy nhiên, có sự cân nhắc giữa số lượng nhỏ hơn các phương thức dự đoán và hi u quả mã hóa. Kích thước khối tối thiểu của PU trong H.265/HEVC là 4x4. Hình 2-8: Tất cả các kích thước của PU trong H.265/HEVC[1] 20 2.3.1.3. Khối biến đổi và đơn vị biến đổi Một block mã hóa (CB) có thể được chia thành nhi u khối biến đổi (TB – Transform Blocks). Một TBs được m tả là một khối hình vu ng chứa thành ph n sáng hoặc màu, mà tại đó ánh xạ hai chi u được s dụng để mã hóa. Vi c chia CB thành nhi u TB được dựa trên cấu trúc dạng cây, như trên hình 2-9. Trong đó, vị trí gốc là CB và các lá là các TB. Một nút lá được xác định trong RQT (Residual Quad- tree Structure) khi kích thước khối biến đổi nhỏ nhất, tuy nhiên sự phân chia RQT bị hạn chế bởi độ sâu tối đa. Ví dụ, nếu độ sâu tối đa của RQT là 1, thì CB 2Nx2N chỉ có thể được phân chia một l n thành 1 TB có cùng kích thước hoặc 4 NxN. Trường hợp đặc bi t nếu độ sâu tối đa là 0, kích thước của CB hi n tại là 64x64, trong khi kích thước biến đổi tối đa là 32. Tại thời điểm này, CB bị ép chia thành 4 TB 32x32 để đáp ứng giới hạn v kích thước biến đổi tối đa. Cũng như CB, TB sáng và các TB màu tương ứng cấu thành nên đơn vị chuyển đổi (TU – Transform Unit). Bảng 2-3: Kích thước khối bù chuyển động đã được hỗ trợ trong H.265/HEVC và trong k thuật trước đây[1] Hình 2-9: Ví dụ v chia một CTB thành nhi u TBs 21 2.3.2. Phân vùng hình ảnh 2.3.2.1. Mảnh (slice), phân mảnh (slice fragmentation), phân đoạn mảnh (slice segments) và tập hợp phân đoạn mảnh(slice segment subsets) Giống như tiêu chuẩn mã hóa H.264/AVC trước đây, trong H.265/HEVC, một hình ảnh được phân chia thành một hoặc nhi u mảnh (slice). Nó chứa một hoặc nhi u CTU, như macroblock trong H.264/AVC. Sự khác bi t trong H.265/HEVC là một mảnh có thể giải mã độc lập mà kh ng phụ thuộc vào những mảnh khác trong cùng một ảnh. Các mảnh được chia sao cho thỏa mãn được ba mục đích: có khả năng khắc phục lỗi, khớp với kích thước đơn vị truy n tải tối đa (MTU – Maximum Transmittion Units), và x lý song song. Hình 2-11: Cấu trúc các mảnh độc lập trong H.265/HEVC[1] Hình 2-10: Mối quan h giữa CU, PU và TU trong H.265/HEVC 22 Một mảnh có hai ph n: tiêu đ và dữ li u. Tất cả các th ng tin, th ng số, h số liên quan tới quá trình giải mã của mảnh và CTU của nó chứa trong tiêu đ mảnh. Nhi u mảnh trong một hình ảnh có thể có cùng một header, giúp cho vi c mã hóa hi u quả hơn và giảm tốc độ bit. Như tên gọi của nó, dữ li u mảnh chứa dữ li u mã hóa của mảnh. Trong một mảnh, tất cả các CTU trực thuộc được mã hóa theo thứ tự quét mành, từ trái sang phải, từ trên xuống dưới. Cũng giống như H.264/AVC, có ba loại mảnh ứng với ảnh chứa nó: mảnh I (tất cả các CTU bên trong những mảnh này được mã hoá bằng cách chỉ s dụng dự đoán nội ảnh), mảnh P (tất cả các CTU bên trong những mảnh này được mã hoá bằng cách s dụng dự đoán liên ảnh (đi u ki n: tất cả các hình ảnh tham chiếu của nó đ u phải được mã hoá trước hình ảnh hi n tại, là hình ảnh trong danh mục danh sách hình ảnh tham chiếu 0 – list 0) và mảnh B (tương tự như mảnh P nhưng mảnh B có thể s dụng hình ảnh trong danh sách 1 làm hình ảnh tham chiếu – list 1)). Như đ cập ở trên, một mảnh có thể được chia thành nhi u mảnh nhỏ, gọi là các phân đoạn mảnh phụ thuộc. Tiêu đ của những mảnh này s dụng chung với mảnh đ u tiên, qua đó mảnh đ u tiên bao giờ cũng là mảnh độc lập. Các đoạn mảnh khác là phụ thuộc, do đó kh ng có ph n tiêu đ . Trong cùng một mảnh, kh ng có hạn chế v dự đoán và mã hóa entropy của ph n phụ thuộc CTU qua các ranh giới phân khúc mảnh. Ngoài ra, một ph n dữ li u mảnh có thể được chia thành các ph n nhỏ hơn, gọi là các nhóm phân đoạn mảnh (slice segments). Những nhóm này được chia sao cho thích hợp nhất đối với vi c s dụng các c ng cụ song song trong H.265/HEVC. 2.3.3. Xử lý song song trong H.265/HEVC 2.3.3.1. Mức độ song song Song song là một trong những k thuật quan trọng tạo nên sự khác bi t v hi u quả mã hóa trong H.265/HEVC, so với những tiêu chuẩn mã hóa khác trước đó. Đa luồng kh ng phải là khái ni m mới trong lập trình, nhưng đến giờ nó mới được áp dụng vào tiêu chuẩn nén video. Nhờ các bộ x lý nhi u nhân trong một CPU, một hình ảnh, một mảnh hay một khối có thể được mã hóa một cách độc lập trong một lõi. Đi u này làm cho quá trình mã hóa có thể thực hi n kh ng đồng bộ, do đó làm giảm thời gian mã 23 hóa, giảm độ trễ mã hóa trong H.265/HEVC, so với quá trình mã hóa đồng bộ của các tiêu chuẩn cũ. Trong H.265/HEVC, có ba cấp độ cấu trúc có thể thực hi n theo x lý song song: - Song song cấp hình ảnh: nhi u hình ảnh có thể được mã hóa cùng một lúc. Do đó, các thành ph n phụ thuộc thời gian cho dự đoán bù chuyển động được đáp ứng. Mỗi lõi trong một bộ x lý có trách nhi m mã hóa một hình ảnh. - Song song cấp mảnh: Như đã thảo luận, trong H.265/HEVC, một hình ảnh được phân chia thành nhi u mảnh. Những mảnh này có thể được mã hóa một cách độc lập với những mảnh khác trong cùng một hình ảnh, do đó các mảnh có thể được s dụng để song song hóa. Tất cả các dữ li u c n thiết để giải mã chứa trong tiêu đ mảnh, dữ li u mảnh và các loại tập tham số. - Song song cấp khối: dựa vào các quá trình độc lập của một khối mã hóa, song song cấp khối có nghĩa là một khối có thể được dự đoán trong một lõi, trong vòng lọc trong một lõi, và entropy được mã hóa trong một lõi khác. Mỗi bước mã hóa một khối có thể được x lý đồng thời trên các lõi khác nhau. Có ba mức mã hóa song song trong H.265/HEVC. Kh ng phải tất cả đ u hi u quả mà vẫn có những hạn chế. Song song cấp hình ảnh chỉ có thể áp dụng tốt trong dự đoán nội ảnh, mà kh ng hi u quả trong dự đoán liên ảnh, vì nếu một hình ảnh tham chiếu của hình ảnh hi n tại kh ng được mã hóa đúng thời gian, quá trình này phải dừng lại cho đến khi tất cả các hình ảnh tham chiếu đã sẵn sàng. Song song cấp hình ảnh làm tăng tốc độ x lý nhưng kh ng làm giảm thời gian chờ vì thời gian mã hóa / giải mã giữa các ảnh khác nhau. Song song cấp mảnh có bất lợi trong vi c dự đoán, mã hóa entropy, xung đột ở danh giới các mảnh. Song song cấp khối làm tăng bộ nhớ, cũng như làm giảm thời gian giải mã đoạn mã hóa entrop. Phiên bản H.265/HEVC đ u tiên đã cung cấp hai c ng cụ song song để giải quyết các vấn đ trên: title và song song sóng trước (WPP - Wave-front parallel processing) 24 2.3.3.2. Các công cụ song song cấp cao sử dụng trong H.265/HEVC 1. Tiles Tile là một trong những tính năng mới được s dụng trong H.265/HEVC. Nó có một số điểm tương đồng với nhóm mảnh, được s dụng trong H.264/AVC. Tile là nhằm mục đích đạt được hi u quả x lý song song mà kh ng ảnh hưởng nhi u đến chất lượng video, và kiểm soát cân bằng giữa các lõi trong bộ mã hóa/giải mã. Nếu tile được kích hoạt, hình ảnh sẽ được chia thành nhi u khu vực hình chữ nhật (phân nhóm hình ảnh). Dựa trên cơ chế phân vùng theo độ phức tạp của ảnh một cách linh hoạt, vi c bố trí các khu vực hình chữ nhật (tile), bao gồm ranh giới của chúng, khác nhau giữa mỗi bức ảnh. Độ phức tạp của ảnh càng cao, càng c n nhi u x lý, càng nhi u vùng hình chữ nhật được chia. Tuy nhiên, số tile là giới hạn, được xác định bởi một số biến được truy n trong PPS. Điểm đ u của mỗi tile cũng được truy n trong tiêu đ mảnh. Tile phải tuân theo ít nhất một trong hai đi u ki n. Đ u tiên là tất cả CTU trong một phân đoạn mảnh phải thuộc v một tile, và thứ hai là tất cả CTU của một tile thuộc cùng một phân khúc mảnh. Khi s dụng tile, thứ tự mã hóa các CTU trong một bức ảnh thay đổi theo thứ tự quét mành dựa vào tile. Đi u đó có nghĩa là CTU được x lý theo hàng từ trái sang phải trong phạm vi tile. Do hai đi u ki n trên, nếu điểm khởi đ u của một mảnh kh ng giống với một tile, mảnh có thể kh ng có nhi u tile bên trong. Mặc dù những loại tile này có thể được x lý độc lập trong cả hai bộ mã hóa và giải mã, vi c cài đặt lại mã hóa entropy tại các điểm đ u của tile, phá vỡ các thành ph n phụ thuộc như trong dự đoán nội ảnh, có thể tạo ra các hi n vật trực quan tại danh giới Tile, và do đó làm giảm chất lượng mã hóa. Bộ lọc vòng (Bỏ chặn và SAO) có thể chặn các hi n vật tại danh giới Tile, các bộ lọc này sẽ được giải thích trong ph n sau. S dụng Tile, dự báo nội ảnh có cả lợi thế và bất lợi. Ưu điểm là giảm khoảng cách kh ng gian, tăng hi u suất khai thác các mối tương quan kh ng gian giữa các mẫu, 25 CTU bên trong một ngói. Hơn nữa, có thể giúp giảm các th ng tin tiêu đ mảnh đã báo hi u nếu kh ng phải là phải s dụng cơ chế mỗi mảnh mỗi Tile. Ngược lại, những bất lợi của vi c s dụng Tile là tạo ra hi n vật trực quan, phá vỡ sự phụ thuộc như đã đ cập ở trên, đặc bi t là nếu có nhi u Tile trong một hình ảnh, sẽ khởi tạo với nhi u tile. Hình 2-12: Ví dụ v s dụng tile chia hình ảnh thành 9 vùng, đường gạch thể hi n ranh giới các vùng. [1] Hình 2-13: Quy trình của tiles 26 2. X lý song song sóng trước (WPP - Wave-front parallel processing) X lý song song sóng trước (WPP – Wave-front parallel processing ) là một c ng cụ song song chủ yếu, thực hi n trong H.265/HEVC. Khác với tile, WPP chia một hình ảnh thành các hàng riêng bi t. Những hàng này cũng có thể được mã hóa hay giải mã một cách độc lập, như tile. Nếu WPP được kích hoạt, mỗi hàng được x lý trong theo thứ tự quét mành, và bắt đ u ngay sau khi hai CTU ở các dòng trước đó được mã hoá. WPP lưu trữ tốt hơn so với Tile vì nó kh ng phá vỡ sự phụ thuộc như Tile. CABAC (Context-Adaptive Binary Arithmetic Coding) bị chấm dứt ở mỗi hàng để cho phép x lý song song. Để giảm bớt những thi t hại do quá trình khởi tạo CABAC truy n thống tại điểm bắt đ u một hàng, nội dung của CABAC đã được thích ứng được truy n từ bộ mã hóa hoặc giải mã tới cái khác. Do đó, tổn thất là nhỏ dựa trên WPP. So với tile, WPP đạt hi u quả mã hóa cao hơn. Lý do là nó kh ng phá vỡ sự phụ thuộc như trên, kh ng thay đổi thứ tự mã hóa, và quá trình tái thiết. Số luồng bằng với số hàng trong một hình ảnh. Do đó, nếu có đi u xấu xảy ra ỏ dòng trước, tất cả các hàng dưới dòng có thể kh ng được mã. Đó là nhược điểm của vi c s dụng WPP. Hình 2-14: X lý song song sóng trước 27 2.4. Kết luận V cơ bản, H.265/HEVC có phương pháp mã hóa giống với chuẩn H.264/AVC. Sự khác nhau nằm ở cấu trúc khối của H.265/HEVC đã có sự thay đổi hoàn toàn, từ macroblock chuyển sang CTU, PU, TU.... Thay đổi này nhắm tới những x lý song song của H.265/HEVC mà nó sẽ được đ cập tới trong ph n sau. Đặc bi t, kích thước khối đã được tăng lên từ 16x16 thành 64x64 là điểm nhấn trong chuẩn mã hóa mới này. Kích thước lớn giúp cho H.265/HEVC có khả năng mã hóa, nén những video có độ phân giải cao trong khi độ nén những video này với H.264/AVC chưa tốt. H.265/HEVC sẽ mã hóa nén video có độ phân giải cao tốt hơn H.264/AVC do kích thước khối cũng như k thuật nén của H.265/HEVC phức tạp hơn. Tuy nhiên, với những video có độ phân giải dưới HD, H.264/AVC sẽ tốt hơn vì kích thước khối nhỏ hơn và x lý ít phức tạp hơn H.265/HEVC. Do x lý trong H.265/HEVC phức tạp, nên quá trình mã hóa nén sẽ khéo dài hơn H.264/AVC. Vì vậy, áp dụng s lý song song sẽ giảm bớt đáng kể thời gian x lý, nhưng yêu c u phải có một h thống x lý mạnh hơn. 28 Chương 3 Dự đoán nội ảnh và dự đoán liên ảnh 3.1. Dự đoán nội ảnh Dự đoán nội ảnh là một trong những tính năng quan trọng nhất trong mã hóa video. Phương pháp chính của dự đoán nội ảnh là s dụng các mẫu li n k được mã hóa trong nội bộ ảnh để dự đoán mẫu hi n tại, dựa trên khái ni m v các mẫu lân cận có cấu trúc tương tự với nhau. Trong H.265/HEVC, với vi c thực hi n k thuật song song, dự đoán nội ảnh có 3 bước: xây dựng mảng mẫu tham chiếu, dự đoán mẫu, và x lý sau dự đoán. Sau đó, dự đoán nội ảnh được chia thành 2 loại: phương pháp dự đoán góc (angular prediction), cung cấp khả năng dự đoán các mẫu chính xác bằng cách đựa trên các cạnh hướng; dự đoán phẳng (DC prediction) và dự đoán planar cung cấp các khả năng ước lượng, làm mịn ảnh. Số hướng góc trong H.265/HEVC là 34, nhi u hơn rất nhi u hướng so với 8 hướng trong H.264/AVC. Với kích thước CTU lớn hơn, điểm cốt lõi của thiết kế H.265/HEVC là nhằm đạt hi u quả mã hóa cao hơn so với tiêu chuẩn nén trước đó th ng qua giảm tương quan kh ng gian. Tuy nhiên, những tính toán trong dự đoán nội ảnh trong H.265/HEVC phức tạp hơn nhi u. 29 3.1.1. Thiết lập mẫu tham chiếu Khác với H.264/AVC, H.265/HEVC giới thi u một k thuật mới được gọi là mẫu tham chiếu thay thế, tạo ra một bộ các chế độ dự đoán nội ảnh hoàn chỉnh s dụng các mẫu tham chiếu lân cận. Do đó, để tăng số lượng các mẫu dự đoán, một quá trình lọc thích ứng được áp dụng, giúp lọc các mẫu tham chiếu theo phương thức dự đoán nội ảnh. Hình 3-1: Ví dụ v các chế độ dự đoán nội ảnh của H.265/HEVC[1] Bảng 3-1: Sự khác nhau cơ bản của dự đoán nội ảnh giữa H.265/HEVC và H.264/AVC[1] 30 3.1.1.1. Thay thế mẫu tham chiếu Dự đoán nội ảnh s dụng nhi u mẫu li n k để mẫu dự đoán hi n tại. Tuy nhiên, trong một số trường hợp, có các mẫu không có sẵn, chẳng hạn như mẫu bên ngoài hình ảnh, mảnh hoặc tile; hoặc mẫu thuộc v một PU với chế độ dự đoán liên ảnh. Tất cả các tham chiếu không có sẵn được thay thế bằng cách quét theo hướng kim đồng hồ và s dụng các mẫu có đã có sẵn mới nhất. Quá trình thay thế là: - Nếu p [-1] [2N-1] không có, nó sẽ được thay thế bằng mẫu tham chiếu có sẵn đ u tiên khi quét các mẫu theo thứ tự chi u dọc p [-1] [2N-2] tới p [-1] [-1], sau đó theo hướng ngang từ p [0] [-1] tới p [0] [2N-1]. - Tất cả các mẫu không có sẵn theo chi u dọc của p [-1] [y] (y = {2N-2, ..., -1}) được thay thế bằng các mẫu tham chiếu dưới đây p [-1] [y + 1] - Tất cả các mẫu không có sẵn theo chi u ngang của p [x][- 1] (x = {0, ..., 2N-1}) được thay thế bằng các mẫu tham chiếu dưới đây p [x-1] [- 1] 3.1.1.2. Quá trình lọc các mẫu tham chiếu Để tránh các hướng không mong muốn giữa các mẫu được mã hóa nội ảnh, dựa trên phương thức dự đoán nội ảnh và kích thước của mẫu hi n tại, bộ lọc mịn được áp dụng trong H.265/HEVC. Nó cũng giống như khối dự đoán nội ảnh 8x8 của H.264. Hình 3-2: Quá trình thay thế mẫu (a) Mẫu tham chiếu trước khi thực hi n quá trình, các mẫu kh ng có sẵn ký hi u bằng màu xám (b) Mẫu tham chiếu sau khi thực hi n quá trình[1] 31 Tuy nhiên, quá trình lọc được thực hi n với một số khối cụ thể và chế độ dự đoán nội ảnh. Trong trường hợp chế độ dự đoán nội ảnh là DC hoặc kích thước của khối là 4x4, quá trình này sẽ không sảy ra. Đối với các mẫu dự đoán 8x8, quá trình này chỉ áp dụng theo ba hướng: chế độ góc 2, 18 và 34. Đối với các khối dự đoán 16x16, quá trình này được áp dụng cho h u hết các phương thức dự đoán nội ảnh, ngoại trừ: 9, 10, 11, 25, 26 và 27. Đối với các khối dự đoán 32x32, quá trình này kh ng áp dụng cho hai chế độ dự đoán nội ảnh: hướng ngang (chế độ 10), và hướng dọc (chế độ 26). Quá trình lọc có hai bước tùy thuộc kích thước khối và tính liên tục của các mẫu tham chiếu. Các p [-1] [2N-1] và p [2N-1] [1] kh ng được thay đổi trong quá trình này. Tất cả các khối khác là các bộ lọc: [ ][ ] [ ][ ] [ ][ ] [ ][ ] [ ][ ] [ ][ ] [ ][ ] [ ][ ] [ ][ ] [ ][ ] [ ][ ] [ ][ ] Trong đó x = y = {0,, 2N-2}. Đối với khối dự đoán 32x32, sau khi áp dụng quy trình đ u tiên, nếu các mẫu tham chiếu là phẳng, quá trình thứ hai được áp dụng. Độ phẳng được phát hi n bằng cách s dụng phương trình này: | [ ][ ] [ ][ ] [ ][ ]| | [ ][ ] [ ][ ] [ ][ ]| 32 Trong đó b là mẫu độ sâu bit. Nếu 2 phương trình trên là đúng. Các mẫu tham chiếu được tiếp tục s a đổi như sau: [ ][ ] ( [ ][ ] [ ][ ] ) [ ][ ] ( [ ][ ] [ ][ ] ) Hình 3-3: Quá trình lọc mịn (a) Bước thứ nhất (b) bước thứ hai[1] 33 3.1.2. Dự đoán mẫu nội ảnh 3.1.2.1. Dự đoán góc H.265/HEVC cung cấp 33 chế độ dự đoán góc, với độ chính xác là 1/32 mẫu. Vi c tăng số lượng các chế độ giúp tăng hi u quả của H.265/HEVC trong vi c dự đoán hướng phù hợp nhất cho các mẫu dự đoán, giảm dư thừa mẫu dự đoán gốc. Để giảm bớt sự phức tạp của dự đoán nội ảnh trong k thuật H.265/HEVC, các mẫu tham chiếu trên p[x][-1] và khối p[-1][y] được s a đổi, sau đó được sắp xếp thành mảng một chi u, bằng các phương trình thay thế: - Chế độ dọc: [ ] { [ ][ ] [ ][ - Chế độ ngang: [ ] { [ ][ ] [ ][ ] Hình 3-4: Các chế độ góc trong dự đoán nội ảnh [1] 34 Trong đó B là góc nghịch đảo của tham số góc A. Cụ thể, tham số A cho biết số 1/32 đơn vị lưới mẫu mỗi hàng của mẫu phải được đổi chỗ với hàng trước đó. Sau khi tạo ra mảng mẫu tham chiếu, quá trình tiếp theo là xây dựng các mẫu dự đoán. S dụng phương pháp nội suy, các mẫu dự đoán được tạo ra như sau: - Chế độ ngang: [ ][ ] ( [ ] [ ] ) Trong đó và - Chế độ dọc: [ ][ ] ( [ ] [ ] ) Trong đó và Bảng 3-2: Giá trị của tham số A[1] Bảng 3-3: Giá trị của tham số B[1] 35 3.1.2.2. Dự đoán DC và Dự đoán Planar Nếu chế độ dự đoán DC được chọn, mẫu được dự đoán là giá trị trung bình của hai mẫu tham chiếu: ngay bên trái và phía trên của khối đang được dự đoán hi n tại. Mục đích của dự đoán DC là làm m m các cạnh trái và đỉnh của khối đang được dự đoán. Dự đoán Planar của H.265/HEVC được thiết kế để làm mịn các khối cứng nhắc quan sát được khi chế độ dự đoán DC được áp dụng hoặc video có tốc độ bit thấp hơn. Phương pháp dự đoán planar là để dự đoán ra một b mặt mà không làm ngắt quãng các ranh giới. Giá trị của các mẫu được tạo ra là giá trị trung bình, như sau: [ ][ ] [ ][ ] [ ][ ] Trong đó: [ ][ ] [ ][ ] [ ][ ] [ ][ ] [ ][ ] [ ][ ] Hình 3-5: Ví dụ v vi c đổi chỗ mấu tham chiếu bên trái đểm ở rộng hàng tham chiếu dọc ở chế độ nội ảnh 23[1] 36 3.1.2.3. Hậu xử lý các mẫu dự đoán Còn tồn tại một số ranh giới bị gián đoạn của một số mẫu dự đoán nội ảnh, đặc bi t là với chế độ dự đoán DC, dự đoán dọc trực tiếp (chế độ góc 26) hoặc dự đoán ngang (chế độ góc 10). Sự gián đoạn xảy ra dọc ranh giới khối. Hậu x lý là quá trình này được thực hi n trong H.265/HEVC sau khi thực hi n dự đoán nội ảnh để giải quyết những vấn đ này. 3.1.3. Chế độ mã hóa nội ảnh Dự đoán nội ảnh trong H.265/HEVC có không chỉ giúp dự đoán tốt hơn vì chế độ số hướng đã tăng lên 35, mà còn đảm bảo chế độ đã chọn được truy n một cách chính xác chỉ với lượng dữ li u tối thiểu. 3.1.3.1. Chế độ dự đoán nội ảnh sáng Đối với các thành ph n sáng, so với H.264, H.265/HEVC có ba chế độ thay vì một. Ba chế độ được dựa trên các chế độ bên trái và PU lân cận. Nếu một trong các khối được mã hóa là chế độ tín hi u, hoặc được mã hóa là chế độ đi u chế xung mã (PCM – Pulse Code Modulation), khối hi n thời sẽ được thiết lập áp dụng chế độ DC. Giả s rằng các chế độ dự đoán nội ảnh của các khối bên trái và trên là A và B, tương ứng. Trong trường hợp đó A hoặc B nằm ngoài CTU, khối được đự đoán với chế độ DC. Hình 3-6: Ví dụ v vi c s dụng chế độ dự đoán planar nội ảnh (a) Tính thành ph n ngang (b) Tính thành ph n dọc (c) giá trị trung bình của (a) và (b) [1] 37 Nếu A khác với B, chế độ đ u tiên và thứ hai dễ xảy ra nhất được thiết lập bằng với A và B. Chế độ cuối cùng MPM [2] được xác định như sau: - Chế độ Planar, nếu A hoặc B kh ng ở chế độ Planar - Chế độ DC, nếu A hoặc B kh ng ở chế độ DC mode. - Chế độ dọc (chế độ góc 26), nếu A hay B được dự đoán với chế độ DC và khối còn lại được dự đoán với chế độ planar. Nếu A có chế độ dự đoán nội ảnh giống B thì 3 chế độ dự đoán có khả năng cao nhất được quy định như sau: - Nếu A và B cả hai ở chế độ kh ng góc cạnh. Thì:  MPM[0] là chế độ planar;  MPM[1] là chế độ DC;  MPM[2] là chế độ góc 26 - Nếu A và B cả hai ở chế độ góc. Thì:  MPM[0] = A  MPM[1] = 2 + ((A – 2 – 1 + 32) % 32)  MPM[2] = 2 + ((A – 2 – 1) % 32) Sau khi tạo ra MPM, các chế độ này được sắp xếp theo thứ tự tăng d n của số chế độ. Nếu chế độ dự đoán nội ảnh của khối hi n thời bằng chính xác với một ph n t của MPM, chỉ có chỉ số của ph n t đó được truy n đến bộ giải mã. Nếu kh ng, chế độ dự đoán được biến đổi thành một mã từ CABAC (Context-Adaptive Binary Arithmetic Coding) 5-bit, sau đó truy n đến bộ giải mã. 3.1.3.2. Chế độ dự đoán nội ảnh màu Trong mã hóa video, g n như tất cả các trường hợp, chế độ dự đoán nội ảnh của mẫu màu diễn ra sau mẫu sáng. Theo kinh nghi m, H.265/HEVC áp dụng một phương pháp mới để xác định chế độ mẫu màu. Cụ thể, chế độ dự đoán nội ảnh của mẫu màu là một trong năm chế độ: phẳng, góc 26, góc 10, DC hoặc chế độ dẫn xuất. Chế độ dẫn xuất là chế độ dự đoán nội ảnh sáng. Phương pháp này được s dụng để tăng khả năng 38 định hướng trong dự đoán màu nội ảnh và hạn chế tối đa các dữ li u báo hi u. Cụ thể hơn, nó thể hi n trong hình dưới đây: 3.2. Dự đoán liên ảnh Trong khi dự đoán nội ảnh s dụng các mối tương quan kh ng gian của các khối li n k để dự đoán khối hi n tại, dự đoán liên ảnh s dụng các khối được mã hóa của các hình ảnh trước. Ví dụ một vật chuyển động trong một video, hình ảnh của nó là như nhau, nhưng nó lại ở những vị trí mới khi di chuyển từ hình ảnh này đến hình ảnh khác, vì vậy bộ giải mã có thể dự đoán chính xác vật chuyển động nếu nó có hình ảnh trước đó và một vector chuyển động. Do đó, dự đoán liên ảnh một khối là một quá trình lựa chọn các khối ứng viên phù hợp nhất và vector chuyển động liên quan của nó. Khái ni m cơ bản của dự đoán liên ảnh được giải thích trong hình bên dưới, trong đó Δt là chỉ số hình ảnh tham chiếu trước, Δx và Δy là các h số ngang và dọc của vector bù chuyển động, tương ứng. Bảng 3-4: Chế độ dự đoán nội ảnh màu dựa theo chế độ dự đoán nội ảnh[1] Hình 3-7: Khái ni m cơ bản v dự đoán liên ảnh[1] 39 Mặc dù dự đoán liên ảnh trong H.265/HEVC v cơ bản giống như người ti n nhi m H.264, nó vẫn có hai k thuật cải tiến mới. Đ u tiên là cách tiếp cận mới, được gọi là dự đoán vector chuyển động tiên tiến (AMVP – Advance Motion Vector Prediction ), là quá trình cải tiến v vi c tạo ra vector chuyển động. Thứ hai là k thuật nhập khối dự đoán liên ảnh, trong đó khối c viên thay thế hoàn toàn khối hi n thời, nếu chế độ dự đoán của nó được quyết định là chế độ trực tiếp hoặc bỏ qua như H.264. Hình 24 thể hi n quá trình dự đoán liên ảnh trong H.265/HEVC. 3.2.1. Dự đoán vector chuyển động tiên tiến (AMVP) Dự đoán vector chuyển động được s dụng để có được dự đoán vector bù chuyển động (MCP – Motion Compensated Prediction). Như ví dụ trên v một đối tượng chuyển động, vì đối tượng này thường lớn hơn một khối, do đó đối tượng đang chuyển động có nghĩa là một nhóm các khối lân cận cũng đang chuyển động. Vì vậy, vector chuyển động của khối hi n tại là g n giống với khối li n k của nó. Đó là lý do tại sao vector dự đoán chuyển động (MVP – Motion Vector Predictor) thường được tạo ra từ các khối li n k v mặt kh ng gian. K thuật dự đoán vector chuyển động đã được áp dụng trong h u hết tất cả các tiêu chuẩn mã hóa trước. Trong H.265/HEVC, vector được dẫn xuất bằng cách thực hi n một k thuật mới, gọi là cạnh tranh vector chuyển động. Bộ mã hóa tạo ra một danh sách các MVP, sau đó chọn một trong số chúng để truy n đến bộ giải mã. Dự đoán vector chuyển động tiên tiến (AMVP) tăng khả năng linh hoạt của k thuật cạnh tranh vector chuyển động. Hình 3-8: Quá trình dự đoán liên ảnh trong H.265/HEVC[1] 40 Bước đ u tiên trong AMVP là tạo ra một danh sách vector gồm 5 ứng viên. Những ứng viên được lựa chọn là: ba trong năm vectơ chuyển động của khối kh ng gian lân cận (A0, A1, and B0, B1, B2), thứ 4 là vector trung bình của ba vector trên, và vector chuyển động của khối cùng vị trí với khối hi n tại nhưng của ảnh trước (C0 or C1). Những khối được đ cập ở trên nếu được mã hóa là dự đoán nội ảnh thì sẽ bị loại bỏ. Sau đó, sau khi phân loại danh sách theo thứ tự khả năng chính xác, loại bỏ một số yếu tố ở vị trí sau trong danh sách, danh sách ứng viên chính thức có hai MVP, là một hoặc hai ứng viên kh ng gian (vector chuyển động liên quan tới các khối lân cận), một trong những ứng viên thời gian (vector chuyển động liên quan tới khối cùng vị trí ở ảnh trước) nếu hai ứng viên kh ng gian giống nhau hoặc kh ng có sẵn, hoặc vector kh ng nếu tất cả các vector ứng viên trước đ u bị loại bỏ. 3.2.2. Nhập khối dự đoán liên ảnh Do cấu trúc phân vùng dạng cây của H.265/HEVC, mỗi khối mã hóa có th ng tin dự đoán của riêng mình, được truy n độc lập với bộ mã hóa đến bộ giải mã. Đây là nhược điểm của cấu trúc này. Vẫn tồn tại một số khối có chế độ dự đoán giống nhau, do đó sẽ kh ng hi u quả nếu bộ mã hóa ra hi u l nh cho tất cả th ng tin. Để giảm bớt các tập tham số mã hóa dư thừa, k thuật nập khối dự đoán liên ảnh được áp dụng. K thuật này tập hợp tất cả các khối lân cận có cùng th ng tin chuyển động. Quá trình sáp nhập ở chừng mực nào đó giống như AMVP. Bước đ u tiên là lựa chọn danh sách ứng viên hợp nhất, sau đó truy n những chỉ số xác định ứng viên đến bộ giải mã. Hình 3-9: Các khối có các ứng viên vector chuyển động[1]. 41 Danh sách ứng viên hợp nhất chỉ có một tính năng khác với các danh sách vector ứng viên chuyển động. Đó là thành ph n ứng viên hợp nhất phải chứa tất cả các dữ li u chuyển động có tất cả các thông tin dự đoán, chẳng hạn như loại dự đoán liên ảnh (P hoặc B), trong khi danh sách vector ứng viên chuyển động chỉ chứa các vector chuyển động. Các ứng viên hợp nhất được lựa chọn bởi: - Tối đa bốn ứng viên được chọn từ năm khối lân cận không gian (A1, B1, B0, A0, B2) - Một ứng viên thời gian, giống như ứng viên thời gian trong danh sách ứng viên vector chuyển động. - Các ứng viên bổ sung được tạo ra bằng cách kết hợp thông tin chuyển động đã tồn tại trong danh sách, hoặc không có ứng c viên nào. Ví dụ v các ứng viên bổ sung được minh họa trong hình 2-20. - Tất cả các ứng viên được mã hóa s dụng dự đoán liên ảnh. 3.2.3. Nội suy mẫu phân số Tương tự với H.264, H.265/HEVC hỗ trợ dự đoán với độ chính xác một ph n tám pixel với thành ph n màu, một ph n tư pixel với thành ph n sáng. Cụ thể, phép nội suy mẫu phân số được s dụng để tạo ra các mẫu tham chiếu nếu các h số vectơ dự đoán chuyển động kh ng phải là số nguyên. Hình 3-10: (a) Các ứng viên có thể chọn trong danh sách sát nhập của khối X, chúng sáp nhập thành cùng dòng đậm, (b) Các bước kiểm tra dư để thêm ứng viên vào danh sách. [1] 42 Quá trình nội suy tạo mẫu tứ điểm ảnh của H.264 có 3 giai đoạn. Giai đoạn đ u tiên là tạo ra n a mẫu, s dụng bộ lọc 6-tap, có độ trễ pha kh ng đổi là 0,5, sau đó làm tròn kết quả trước khi trung bình nó với mẫu số nguyên g n nhất để tạo tứ điểm ảnh giữa chúng. Quá trình này được thay đổi trong H.265/HEVC. Các mẫu tứ điểm ảnh được tạo ra trực tiếp bằng cách s dụng bộ lọc 7-tap hoặc 8-tap trên các điểm ảnh nguyên. Đi u này giúp tăng hi u quả mã hóa trong dự đoán, độ chính xác cao vì loại bỏ quá trình làm tròn, lỗi làm tròn. Ví dụ, a0,0 được tạo ra bằng cách s dụng bộ lọc 7-tap, như c0,0, e0,0, g0,0trong khi b0,0, f0,0.. được tạo ra bằng cách s dụng bộ lọc 8-tap, như thể hi n trong hình 2-21. Do s dụng bộ lọc có số tap nhi u hơn, H.265/HEVC có thể dự đoán chính xác hơn so với bộ lọc 6-tap s dụng trong H.264, nhưng nó làm tăng số lượng các dữ li u c n phải được lưu cũng như sự phức tạp của bộ mã hóa. Vì thế. H.265/HEVC có một hạn chế để giảm băng th ng bộ nhớ. Thay vì mẫu 4x4, kích thước khối dự đoán nhỏ nhất là 8x4 hoặc 4x8, để có thể được dự đoán đơn lẻ. Hình 3-11: Vị trí mẫu và phân số để nội suy [1] 43 3.3. Bộ lọc vòng trong Bộ lọc vòng trong là một trong những ph n quan trọng nhất của H.265/HEVC. Hai bộ lọc vòng trong là deblocking filter và độ l ch tương thích mẫu (SAO – Sample Adaptive Offset). Do H.265/HEVC là k thuật mã hóa video hybrid dựa theo khối, nó tạo ra các khối và gián đoạn ở ranh giới dự đoán và khối trong suốt toàn bộ quá trình mã hóa. Bộ lọc deblocking làm giảm tất cả các nhiễu khối vu ng, trong khi SAO làm giảm các nhiễu rung và thay đổi cường độ của một số mẫu. Cả hai đ u được áp dụng như là bước cuối cùng sau quá trình tái xây dựng hình ảnh trước khi lưu vào bộ đ m hình ảnh được giải mã, theo thứ tự SAO được thực hi n sau bộ lọc deblocking filter. Ngoài ra, bộ lọc deblocking filter và SAO kh ng phụ thuộc vào cấu hình của bộ mã hóa. Mục đích của bộ lọc vòng trong là nâng cao chất lượng của hình ảnh được giải mã, do đó nâng cao hi u quả nén. Trong H.265/HEVC, bộ lọc deblocking filter được s dụng trên ranh giới giữa các đơn vị mã hóa (CU), các đơn vị dự đoán (PU) và các đơn vị biến đổi (TU). Vi c quyết định li u khối có được lọc hay kh ng dựa vào chế độ dự đoán, các khối li n k , các vector chuyển động, cụ thể hơn một biến gọi là sức mạnh ranh giới (Bs – Boundary strength). - Bs = 2 nếu tồn tại ít nhất một trong các khối li n k trong ảnh. - Bs = 1 nếu: o Một trong các khối li n k có h số biến đổi khác kh ng Hình 3-12: De-blocking filter và SAO trong H.265/HEVC[1] 44 o Các khối li n k có khác bi t tuy t đối v vectơ chuyển động đó là lớn hơn một mẫu sáng số nguyên o Các khối li n k có các vectơ chuyển động liên quan đến các hình ảnh khác nhau, hoặc số lượng vector giữa các khối kh ng giống nhau. - Nếu kh ng, Bs = 0. Trong H.264, Bs có thể có 5 mức {0, 1, 2, 3, 4} trong nhi u hoàn cảnh, trong khi H.265/HEVC chỉ hỗ trợ 3 mức Bs. Ngoài ra, vì kích thước khối lớn hơn, có nghĩa là số khối nhỏ hơn, sự phức tạp của bộ lọc deblocking filter trong H.265/HEVC cũng giảm đi so với H.264. Bộ lọc deblocking filter được s dụng trên ranh giới của khối nếu Bs của các khối lớn hơn 0. Tuy nhiên, c n thực hi n một bước thẩm định trước khi s dụng bộ lọc. Đối với các ranh giới khối chói, các căn cứ quyết định bộ lọc dựa trên mỗi phân đoạn bốn mẫu. Theo biểu thức sau: | | | | | | | | Trong đó là các căn cứ ngưỡng v tham số số lượng t hóa. Hình 3-13: 4 mẫu và vị trí của chúng giữa vùng ranh giới của 2 khối P và Q[1] 45 Có 2 chế độ lọc deblocking filter: chế độ bình thường và chế độ mạnh. Chế độ mạnh được áp dụng nếu cả ba biểu thức dưới đây là đúng: | | | | | | | | | | Chức năng chính của SAO là giảm nhiễu rung giữa các ảnh trước khi ảnh được lưu vào bộ đ m (Decoded Picture Buffer). Nếu bộ lọc SAO được kích hoạt, quá trình của nó sẽ được thực hi n sau bộ lọc de-blocking. Trong H.265/HEVC, bộ lọc SAO cũng có 2 chế độ là EO (Edge Offset) và BO (Band Offset). 3.4. Kết luận Dự đoán nội ảnh và dự đoán trong ảnh là hai k thuật x lý quan trọng nhất trong nén video của tất cả các chuẩn từ trước tới nay. Trong H.265/HEVC, dự đoán nội ảnh đã được cải tiến hơn nhi u so với H.264/AVC để thích hợp với mã hóa nén video có độ phân giải cao. Đ u tiên, tập hợp kích thước của block dự đoán đã được mở rộng tới 32x32, trong khi H.264/AVC chỉ là 16x16. Cùng với cấu trúc khối thay đổi, khối dự đoán sẽ được tái cấu trúc giúp hình ảnh được trơn tru hơn. Thứ hai là số hướng trong dự đoán góc tăng từ 8 tới 33 hướng. Độ phức tạp tính toán cao hơn nhưng bù lại dự đoán nội ảnh trong H.265/HEVC sẽ dự đoán chuẩn xác hơn H.264/AVC. Nhiễu block ở ranh giới khối cũng được x lý tốt hơn với bộ lọc nhiễu block, bộ lọc vòng trong. X lý thiết lập mẫu tham chiếu giúp cho dự đoán nội ảnh có thể được x lý song song, đặc bi t là những mẫu ở ranh giới các tile khi s dụng k thuật song song tile. Dự đoán liên ảnh trong H.265/HEVC chỉ phát triển hơn một chút so với H.264/AVC. Vector chuyển động được dự đoán nhanh và chính xác hơn với k thuật AMVP. K thuật nhập khối dự đoán liên ảnh giúp cho x lý giải mã nhanh hơn và hình ảnh sẽ mượt mà hơn ở ranh giới khối khi đã được nhập. Cuối cùng là x lý dự đoán trực tiếp mẫu phân số của H.265/HEVC giảm đáng kể sai số mẫu so với chẩn mã hóa trước, H.264/AVC. 46 Chương 4 Những sửa đổi đề xuất về dự đoán nội ảnh 4.1. Chế độ dự đoán nội ảnh cơ bản trong H.265/HEVC Hình 4-1: Quá trình quyết định chế độ dự đoán nội ảnh trong H.265/HEVC[5] 47 Ph n này giải thích chi tiết quá trình lựa chọn chế độ dự đoán nội ảnh của một PU. Con số trên cho thấy toàn bộ bước quyết định chế độ dự đoán nội ảnh trong H.265/HEVC. Sau khi đã tạo ra các khối tham chiếu, tất cả 33 chế độ góc cạnh được móc nối lại để tính toán quyết định chế độ th (RMD - Rough Mode Decision) bằng cách biến đổi Hadamard, trong khi H.264/AVC s dụng cách biến đổi cosin rời rạc (DCT - Discrete Cosine Transform). Nó làm giảm sự phức tạp của thuật toán. Trong quá trình RMD, biểu thức là: Trong đó, ∑∑| | HSAD là tổng tuy t đối của số dư biến đổi Hadamard, Rmode là các bit chế độ dự đoán, λ là Lagrange multiplier, là khối hi n tại và p là yếu tố dự đoán là điểm ảnh lân cận tương ứng với chế độ dự đoán. W và H là chi u rộng và chi u cao của khối hi n nay tương ứng. Ma trận H, là hạt nhân biến Hadamard, được xác định như sau: | | | | Bước cuối cùng là tính chi phí biến dạng theo tỷ l đủ (CFRD): 48 Trong đó SSD (Sum of Square Difference) là tổng chênh l ch vu ng giữa khối đã được tái xây dựng và khối ban đ u, và Rbits là số bit của khối hi n tại. Sau khi thực hi n tất cả các bước, tất cả các giá trị CFRD được sắp xếp trong thứ tự tăng d n. Các chế độ tốt nhất được sắp xếp ở đ u danh sách. Có 8 chế độ ứng viên tốt nhất cho khối 8x8 và 4x4, các khối khác có 3 chế độ tốt nhất. 4.2. Thuật toán chọn chế độ nội ảnh nhanh Ph n 4.1 thể hi n tính phức tạp và mức tiêu thụ thời gian của chế độ dự đoán nội ảnh cơ bản của H.265/HEVC. Cụ thể, có hai l n 35 hướng. Vòng một là tính RMD, sau đó vòng hai là để đánh giá chi phí RD, và giữa mỗi vòng lặp là hai quá trình phân loại. Ngoài ra, sự phức tạp trong tính toán chi phí RD rất cao. Do đó, để cải thi n tốc độ lựa chọn chế độ nội ảnh trong H.265/HEVC. Một lý tưởng đã được tìm ra. Trong [5] và [6] đ u đồng ý rằng chế độ nội ảnh tốt nhất của một khối có mối quan h với danh sách đã được sắp xếp sau khi tính RMD. Tỷ l lựa chọn các chế độ tốt nhất trong danh sách là 90%. Như đ cập ở trên, có 3 chế độ nội ảnh tốt nhất cho các khối, có kích thước là 8x8 và 4x4, và 8 chế độ cho các kích thước khác. Vì vậy, thuật toán cơ bản được thay đổi như sau: sau khi tính toán và phân loại tất cả 35 kết quả RMD, một số chế độ ở trên cùng của danh sách đã sắp xếp được giữ để đánh giá chi phí RD phụ thuộc vào kích thước của khối hi n tại (PU). Các chế độ khác đ u bị loại. 49 Thuật toán đ xuất là: Áp dụng thuật toán mới này, số l n lặp được giảm nhi u nhất có thể, giống như tính phức tạp của quá trình tính chi phí RD. Thuật toán này có thể đơn giản hơn nếu nó giữ 8 chế độ ứng viên mà kh ng tính đến kích thước của PU, hoặc thay đổi số chế độ để tăng cơ hội tìm được chế độ tốt nhất. 4.3. Quá trình dự đoán nội ảnh nhanh bằng kỹ thuật song song Trong ph n 2.3.3, WPP được giải thích chi tiết. Nó là một trong những công cụ song song được s dụng trong H.265/HEVC, và phù hợp với dự đoán nội ảnh. Một hình ảnh được chia thành nhi u hàng. Mỗi luồng nội ảnh được x lý tất cả các CTU trong hàng đó, bắt đ u từ CTU ở bên trái sang cuối cùng bên phải. Do ràng buộc với khối tham chiếu trong ảnh, hàng được bắt đ u dự đoán ngay khi tất cả các khối trên của khối hi n thời đ u tiên kết thúc quá trình dự đoán. Ví dụ, tất cả các khối được chia Hình 4-2: Quá trình lựa chọn chế độ nội ảnh đã được s a đổi 50 cùng kích thước, quá trình dự đoán hàng hi n tại có thể bắt đ u ở cùng thời điểm với khối thứ ba của hàng trên, xem hình 4-3. H.265/HEVC được thiết kế để thực hi n song song. H u hết tất cả các quy trình, đơn vị thuộc H.265/HEVC có thể thực hi n song song. Ph n này giải thích quá trình song song. Quá trình này bao gồm 2 bước: x lý song song và mã hóa entropy. Bước đ u tiên là WPP, là quá trình dự đoán nội ảnh của một hàng. Ngay sau khi hoàn thành bước đ u tiên, thông tin nội ảnh được lưu lại, sau đó bước thứ hai được bắt đ u bằng vi c tạo ra một luồng mới để mã hóa entropy. Theo cách đơn giản, phương pháp kết hợp quá trình dự đoán nội ảnh với quá trình mã hóa entropy. Hình 4-3: WPP bước thứ nhất Hình 4-4: Luồng 4 bắt đ u quá trình đồng thời với bước đ u tiên 51 Thuật toán này có một số thuận lợi. Thuận lợi đ u tiên là tối đa hóa tỷ l tăng tốc ở bước WPP. Công cụ song song đẩy nhanh quá trình dự đoán nội ảnh. Thuận lợi thứ hai là giảm thiểu hao hụt hi u suất. Quá trình mã hóa Entropy được x lý theo thứ tự quét màng tự để nó có thể được khởi động và chạy liên tục với các luồng WPP, do đó thuận lợi thứ ba là: tốc độ nhanh. Hình 4-5: Luồng 4, mã hóa entropy đang chạy theo thứ tự quét 52 Chương 5 Tổng kết 5.1. Kết luận Nói chung, tất cả các k thuật thực hi n trong H.265/HEVC được cải tiến dựa trên H.264 AVC. Một số k thuật phức tạp hơn so với k thuật trước, ví dụ 64x64 CTU, dự đoán nội ảnh với 35 chế độ có sẵn, bộ lọc vòng trong có bộ lọc 7 hoặc 8 van, vv. Kích thước khối tăng lên đến tối đa 64x64, gấp 16 so với khối macro trong H264, là một trong những cải tiến quan trọng. Ngoài ra, H.265/HEVC được thiết kế để ứng dụng k thuật song song. Tính năng mới nhất tuy t với nhất trong tiêu chuẩn nén video giúp đẩy nhanh thời gian mã hóa và giải mã, dựa trên công ngh ph n cứng đã được cải tiến. H u như tất cả các cú pháp và cấu trúc của H.265/HEVC đ u hỗ trợ bộ mã hóa và giải mã một cách độc lập. Dù tính phức tạp trong thuật toán và tính toán, thời gian mã hóa và giải mã giảm nhờ k thuật song song. 53 5.3. Hướng phát triển tiếp theo Mặc dù H.265/HEVC được công bố vào đ u năm 2013, tiêu chuẩn mã hóa video phổ biến nhất vẫn là H.264. G n đây, có rất nhi u nghiên cứu để nâng cấp H.265/HEVC, cả thuật toán cho ph n m m và ph n cứng. Do đó, bài toán đặt ra là c n phải tìm ra một ý tưởng để phát triển H.265/HEVC trở lên tốt hơn, đặc bi t trong dự đoán nội ảnh là ph n mà tôi tập trung phân tích. Trong luận án, có những phân tích chỉ mang tính khái ni m mà không có mô hình và mô phỏng. Do đó, trong tương lai g n, đi u phải làm là thực hi n những k thuật đ xuất đã được đ cập trong chương trước. Đặc bi t, những bước phát triển sau, ph n m m mã nguồn mở HM (https://hevc.hhi.fraunhofer.de/) sẽ được s dụng để thực hi n mô phỏng. 54 ANH MỤC TÀI IỆU THAM HẢO [1] . Vivienne Sze, Madhukar Budagavi, Gary J.Sullivan, “High Efficiency Video Coding (HEVC) Algorithms and Architectures”, USA. [2] . Gary J.Sullivan, Jens-Rainer Ohm, Woo-Jin Han, Thomas Weigand, “Overview of the High Efficiency Video Coding (HEVC) standard”, IEEE Transactions of recruiting. [3] . Marta Merlo Serrano, “Improved Intra-Prediction for Video Coding”, Master Thesis, Queen Mary University of London, July 2014. [4] . Frank Bossen, Benjamin Bross, Karsten Suhring, “HEVC Complexity and Implementation Analysis”, Circuits and Systems For Video Technology, Dec. 2012. [5] . Liang Zhao, Li Zang, Siwei Ma, Debin Zhao, “Fast Mode Decision Algorithm for Intra Prediction in HEVC”. [6] . Do Kyung Lee, Je-Chang Jeong, “Fast Intra Coding by using RD Cost Candidate Elimination for High Efficiency Video Coding”, the World Congress on Engineering and Computer science 2014, Vol. I, San Francisco, USA. [7] . Yanan Zhao, Li Song, Xiangwen Wang, Min Chen, Jia Wang, “Efficient realization of parallel HEVC intra coding”. [8] . Qin Yu, Liang Zhao, Siwei Ma, “Parallel AMVP Candidate list construction for HEVC”. [9] . Mauricio Alvarez Mesa, Chi Ching Chi, Thomas Schierl and Ben Juurlink, “Evaluation of parallelization strategies for the emerging HEVC standard”, Heinrich Hertz Institute, Berlin, Germany. [10] . H. Brahmasury Jain and K.R. Rao, “Fast intra mode decision in High Efficiency Video Coding” [11] . Heming Sun, Dajiang Zhou, Satoshi Goto, “A low-complexity HEVC intra prediction algorithm based on level and mode filtering”, IEEE International Conference on Multimedia and Expo, 2012. [12] . Roman I. Chernyak, “Analysis of the intra prediction in H.265/HEVC”, Mathematical Sciences, Vol. 8, 2014. [13] . Xu X., Cohen R., Vetro, Sun H., “Predictive coding of intra prediction modes for High Efficiency Video Coding”, Mistubishi electric research laboratories, May 2012. [14] . Haijun Lei, Zhongwang Yang, “Fast intra prediction mode decision for High Efficiency Video Coding”, 2nd International Symposium on Computer, Communication, Control and Automation, 2013. 55 [15] . Shohei Matsuo, Seishi Takamura and Atsushi Shimizu, “Modification of intra angular prediction in HEVC”, NTT Media Intelligence Laboratories, NTT Corporation, Yokosuka, Japan. [16] . Younhee Kim, DongSan Jun, Soon-heung Jung, Jin Soo Choi, and Jinwoong Kim, “A fast intra-prediction method in HEVC using rate-distortion estimation based on hadamard transform”, ETRI Journal, Vol. 35, Num. 2, April 2013. [17] Thomas Wiegand, Gary J. Sullivan, “The H.264/AVC Video Coding Standard”, IEEE Signal processing magazine, 03/2007.

Các file đính kèm theo tài liệu này:

luan_van_danh_gia_phan_tich_va_so_sanh_hieu_suat_cua_hai_bo.pdf