Tổng quan về các kỹ thuật nén audio chất lượng cao mp3 và AAC dùng trong thiết bị số hiện nay

Cảhai chuẩn mã hóa MP3 và MPEG-2 AAC đều có thểnén tín hiệu audio với chất lượng gần chất lượng của CD. Trong hai chuẩn trên, MP3 ít phức tạp hơn AAC, AAC cung cấp chất lượng tốt hơn MP3 với cùng tần sốlấy mẫu và tỷlệnén. Hướng nghiên cứu tiếp theo: tìm hiểu và phát triển các chuẩn nén audio mới dựa trên MPEG-4, thực hiện đầy đủcác phương pháp đánh giá chất lượng như: single stimulus rating, paired rating with reference, multiple stimulus rating, ITU-R BS.1116-1, MUSHRA.

pdf7 trang | Chia sẻ: lylyngoc | Lượt xem: 3060 | Lượt tải: 0download
Bạn đang xem nội dung tài liệu Tổng quan về các kỹ thuật nén audio chất lượng cao mp3 và AAC dùng trong thiết bị số hiện nay, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010 235 TỔNG QUAN VỀ CÁC KỸ THUẬT NÉN AUDIO CHẤT LƯỢNG CAO MP3 VÀ AAC DÙNG TRONG THIẾT BỊ SỐ HIỆN NAY OVERVIEW OF HIGH QUALITY AUDIO COMPRESSION TECHNOLOGIES MP3 AND AAC FOR TODAY’S DIGITAL MEDIA Hoàng Lê Uyên Thục, Phạm Văn Tuấn Trường Đại học Bách khoa, Đại học Đà Nẵng TÓM TẮT Trong vài năm gần đây, chúng ta đã chứng kiến sự gia tăng không ngừng của kỹ thuật nén tín hiệu audio số, đặc biệt là MP3 (Moving Picture Experts Group 1 - Layer 3) và AAC (Moving Picture Experts Group 2 - Advanced Audio Coding). MP3 và AAC là hai chuẩn nén audio số chất lượng cao, tín hiệu audio khôi phục nghe được gần giống với tín hiệu gốc trước khi nén. Tùy thuộc vào yêu cầu về chất lượng mà tỷ lệ nén có thể được chọn lựa thích hợp. Với chất lượng gần giống CD, tỷ lệ nén có thể đạt được khoảng 11:1. Bài báo trình bày tổng quan về cách thực hiện mã hóa/giải mã MP3 và AAC trên cơ sở lợi dụng những đặc điểm cảm quan của tai người. Đồng thời tiến hành so sánh MP3 và AAC về chất lượng tín hiệu audio, tốc độ bit và tỷ lệ nén bằng phương pháp đánh giá chất lượng chủ quan là nghe thử. Kết quả thực nghiệm hoàn toàn phù hợp với các nghiên cứu đã được công bố trước đó. ABSTRACT There has been a widespread proliferation of digital audio signal compression technologies in the past few years, especially MP3 (Moving Picture Experts Group 1 - Layer 3) and AAC (Moving Picture Experts Group 2 - Advanced Audio Coding). The MP3 and AAC standards are two high quality compression technologies in which AAC performs better than MP3. The reconstructed audio signal almost sounds similarly to the original one before compression. The compression ratio can be chosen according to the sound quality requirement. The near-CD sound quality can be reached at the compression ratio of 11:1. This article presents an overview of human perception of sound, based on which, the encoding and decoding of MP3 and AAC are implemented. The article also makes the comparison of several properties of MP3 and AAC, such as audio quality, bit rate, compression ratio using the subjective evaluation which is based on the listening test. The experimental results are quite in accordance with previous publications. 1. Đặt vấn đề Năm 1982, hai công ty điện tử Philips và Sony đã thành công vang dội với việc tung ra thị trường phương tiện mới để lưu trữ tín hiệu audio dưới dạng số - đĩa compact (CD). Yêu cầu dung lượng cần thiết để ghi âm tín hiệu audio số vào khoảng 1.411 Mbps, nghĩa là: 44100 (mẫu/giây) x 16 (bit/mẫu) x 3600 (giây/giờ) x 2 kênh = 1.411 Mbps. Sự phát triển nhanh chóng của các phương tiện nghe nhạc bỏ túi, các dịch vụ chia sẻ file audio giữa các máy tính qua internet, các dịch vụ truyền hình số (đi kèm audio)… đã TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010 236 gây ảnh hưởng sâu sắc đến các ứng dụng truyền/lưu trữ audio. Điều này thúc đẩy các chuẩn mã hóa nén audio mới ra đời; trong đó phổ biến nhất là chuẩn MP3 và AAC. Chuẩn MP3 được ứng dụng để truyền tín hiệu audio qua internet và để lưu trữ tín hiệu audio trong các thiết bị nghe nhạc bỏ túi. Chuẩn AAC là chuẩn nén audio tiếp theo MP3, đang được sử dụng trong cửa hàng âm nhạc trực tuyến của Apple là iTunes. 2. Mã hóa cảm quan tín hiệu audio Mã hóa audio cảm quan (perceptual encoding) là một kỹ thuật lợi dụng những đặc điểm cảm quan của tai người để đạt được tỷ lệ nén cao với chất lượng nén tốt. Nghiên cứu [1] cho thấy: độ nhạy của tai khác nhau đối với các thành phần tần số khác nhau, nên có thể lợi dụng điều này để lượng tử hóa tín hiệu audio với số bit khác nhau cho mỗi băng con, dẫn đến số bit trung bình giảm xuống (hình 1) Khi nghe hai âm thanh mạnh yếu khác nhau với tần số khác nhau xảy ra cùng lúc, âm mạnh hơn có thể “che khuất” khiến tai không nghe được âm yếu hơn. Hiệu ứng này gọi là mặt nạ tần số (frequency masking). Tương tự như vậy, nếu âm yếu hơn được phát ra ngay trước hoặc ngay sau âm mạnh hơn thì cũng bị “che khuất”. Hiệu ứng này gọi là mặt nạ thời gian (temporal masking). Hình 2 minh họa sự kết hợp hai hiệu ứng này. 2.1. Chuẩn mã hóa audio MP3 MPEG là nhóm các chuẩn mã hóa audio cảm quan chất lượng cao. MPEG-1 hoạt động ở ba chế độ khác nhau gọi là lớp (layer), với mức độ phức tạp và hiệu quả tăng dần từ lớp 1 đến lớp 3 [1]. MPEG-1 lớp 3 (còn gọi là MP3) là nhóm MPEG-1 phức tạp nhất, cung cấp chất lượng audio gần với chất lượng CD ở tốc độ bit thấp. MP3 hỗ trợ các tần số lấy mẫu khác nhau như 32kHz, 44.1kHz và 48kHz; tốc độ bit có thể thay đổi từ 32 đến 448 kbps; mode mã hóa có thể thay đổi, bao gồm: mono, dual mono, stereo và joint stereo. Hình 3 là sơ đồ khối của một bộ mã hóa MP3 điển hình. Hình 1. Phân chia dải tần nghe được thành các băng con và lượng tử hóa các mẫu trong từng băng với số bit khác nhau [1] Hình 2. Kết hợp hiệu ứng mặt nạ tần số với mặt nạ thời gian [1] TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010 237 - Giàn lọc (Filterbank): phân tích tín hiệu vào thành 32 băng con, đầu ra của các bộ lọc băng con được nối với bộ biến đổi Cosin rời rạc MDCT (Modified Discrete Cosine Transform). MDCT chia tiếp các đầu ra của giàn lọc thành 576 băng con nhằm đạt độ phân giải tốt hơn trong miền tần số. Việc phân chia băng con là nhằm lợi dụng đặc điểm độ nhạy của tai thay đổi đối với các thành phần tần số khác nhau. - Lập mô hình cảm quan (Psychoacoustic model): khâu này quyết định chất lượng của tín hiệu MP3. Bộ mã hóa MP3 tiến hành ánh xạ từ miền thời gian sang miền tần số bằng phép biến đổi Fourier nhanh FFT (Fast Fourier Trasform) 1024 điểm, để giúp phân giải tần số tốt hơn nhằm ước lượng ngưỡng mặt nạ chính xác hơn. Hình 3. Sơ đồ khối bộ mã hóa audio theo chuẩn MP3 [2] - Lượng tử hóa và mã hóa (Quantization and Coding): thực hiện lượng tử hóa và mã hóa các thành phần phổ với yêu cầu nhiễu lượng tử hóa thấp hơn ngưỡng mặt nạ. Các giá trị lượng tử hóa được mã hóa Huffman với bảng mã thay đổi đối với những dải tần số khác nhau, để thích nghi tốt hơn với tín hiệu. Vì mã Huffman là mã có độ dài từ mã thay đổi và cần giữ cho nhiễu thấp hơn ngưỡng mặt nạ nên phải tính độ lợi và các hệ số tỷ lệ trước khi lượng tử hóa. Để tìm được độ lợi và các hệ số tỷ lệ tối ưu đối với một khối cho trước, MP3 dùng hai vòng lặp lồng vào nhau. - Vòng lặp trong hay vòng lặp điều khiển tốc độ (rate control loop): hiệu chỉnh độ lợi để tăng dần kích thước bước lượng tử hóa, giảm dần số mức lượng tử hóa cho đến khi số bit yêu cầu cho mã hóa Huffman đủ nhỏ, dẫn đến bit tốc độ bit của tín hiệu MP3 đủ nhỏ. - Vòng lặp ngoài hay vòng lặp điều khiển nhiễu (distortion control loop): hiệu chỉnh hệ số tỷ lệ để giảm dần nhiễu lượng tử hóa, lúc đó số mức lượng tử hóa tăng dần lên, làm tốc độ bit tăng dần lên, dẫn đến vòng lặp trong phải hiệu chỉnh độ lợi. Nếu không đồng thời thỏa mãn được yêu cầu về tốc độ bit và chất lượng TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010 238 audio thì hai vòng lặp sẽ không có điểm hội tụ. Để tránh trường hợp này, phải hiệu chỉnh các thông số mã hóa khi bộ mã hóa hoạt động ở các tốc độ bit khác nhau. - Định dạng dòng bit (bitstream formatting): dòng bit MP3 được định dạng theo từng khung, gồm các hệ số phổ đã được mã hóa, đầu khung là header gồm: từ mã đồng bộ, tốc độ bit, tần số lấy mẫu, lớp, mode mã hóa. Do các thông tin trên được lặp lại trong tất cả các khung nên ta có thể giải mã vào bất cứ lúc nào. 2.2. Chuẩn mã hóa audio AAC AAC có kiến trúc tương tự như MP3 nhưng khác với MP3 ở chỗ AAC dùng phương pháp modul hóa (hình 4), phát triển thêm nhiều công cụ mã hóa mới, giúp cải thiện chất lượng audio ở tốc độ bit thấp: - Giàn lọc: AAC thay giàn lọc trong MP3 bằng MDCT với kích thước cửa sổ dài 1024 (thay cho 576 trong MP3). Điều này làm tăng độ phân giải tần số so với MP3. Hình 4. Sơ đồ khối bộ mã hóa audio theo chuẩn MPEG-2 AAC [2] - TNS (Temporal Noise Shaping): là một công nghệ mới rất thành công trong việc cải thiện chất lượng tiếng nói ở tốc độ bit thấp. TNS tạo dạng nhiễu trong miền thời gian bằng một vòng lặp hở dự đoán trong miền tần số [1] - Dự đoán (prediction): có thể dùng khối dự đoán để tăng tỷ lệ nén bằng cách hướng cho bộ lượng tử hóa tập trung vào những mẫu tín hiệu đáng quan tâm [1]. - Mã hóa audio: mã hóa M/S (mid/side) và ghép cặp (coupling) mềm dẻo hơn trong MP3, cho phép giảm tốc độ bit. - Mã hóa Huffman: dùng từ mã có độ dài thay đổi để giảm hơn nữa độ dư trong hệ số tỷ lệ và trong giá trị của các vạch phổ lượng tử hóa. - Bitstream multiplexer: tương tự MP3, dòng bit AAC được định dạng thành TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010 239 các khung, trong khung AAC cũng có từ mã đồng bộ và các tham số mã hóa nhưng không gắn liền với nhau mà thay đổi tùy ứng dụng cụ thể. Ví dụ như: ADIF (Audio Data Interchange Format) đặt tất cả thông tin điều khiển giải mã vào trong một header đơn trước dòng audio, giúp cho việc trao đổi file dễ dàng hơn, nhưng không thể giải mã vào bất cứ lúc nào ta muốn. Hay ADTS (Audio Data Transport Stream) định dạng header tương tự như MP3, cho phép giải mã bất cứ lúc nào cần. 3. So sánh MP3 và AAC 3.1. Chất lượng mã hóa Để đánh giá chất lượng mã hóa tín hiệu audio, về cơ bản có ba phương pháp là: nghe thử (đánh giá chủ quan), đánh giá khách quan và đo cảm quan. Cho đến nay thì nghe thử vẫn là phương pháp đơn giản và hiệu quả để đánh giá chất lượng của các thuật toán mã hóa audio khác nhau. ITU-R (International Telecommunications Union, Radiocommunications sector) cùng với các phát thanh viên và nhóm MPEG audio đã đề xuất một loạt các quy tắc phức tạp để đánh giá chất lượng bằng cách nghe thử. Đánh giá khách quan là phương pháp dựa vào tỷ số tín hiệu trên nhiễu SNR. Tuy nhiên làm thế này có thể xem là không tuân theo mục đích của mã hóa cảm quan, vì mã hóa cảm quan cải thiện chất lượng audio bằng cách tạo thêm nhiễu miền thời gian và tần số dựa trên cơ chế cảm quan của tai, nên có thể dẫn đến SNR thấp. ITU-R đã chuẩn hóa một phương pháp đánh giá chất lượng dựa gọi là đo cảm quan, dựa vào mô hình cảm quan của tai để đánh giá chất lượng của tín hiệu audio nén [5]. 3.2. Tốc độ bit MPEG không làm việc với tốc độ bit cố định mà người dùng có thể tùy chọn tốc độ bit. Tốc độ bit thấp hơn sẽ dẫn đến tỷ lệ nén tốt hơn nhưng chất lượng thấp hơn. Tuy nhiên, ta có thể tìm được những tốc độ bit đặc biệt gọi là “sweet spots”, tại đó thuật toán có thể làm việc tốt nhất. Tại các tốc độ bit lớn hơn “sweet spots”, chất lượng tín hiệu audio tăng rất chậm, trong khi đó tại các tốc độ bit thấp hơn, chất lượng lại giảm rất nhanh. 3.3. Kết quả so sánh MP3 và AAC bằng thực nghiệm Dùng chức năng “Recoring” trong module “Audio Compression” của chương trình [1] để ghi âm 20 file âm nhạc ở dạng *.wav, trong đó có 10 file nhạc cổ điển và 10 file nhạc Rap. Chế độ thu được chọn là stereo, tần số lấy mẫu lần lượt là 32kHz và 44.1kHz. Sau đó tiến hành nén các file wav bằng chức năng “Audio codec”, lần lượt chọn thuật toán nén MP3 và AAC. Đối với MP3, tiến hành nén ở tốc độ bit 32kbps, 64kbps và 128kbps. Đối với AAC, tiến hành nén ở tốc độ bit 64kbps, 128kbps và 192kbps. Sau đó, so sánh chất lượng bằng phương pháp nghe thử nhằm kiểm tra tiếng ồn, độ méo, cao độ của các nốt, sự ổn định,…, chúng tôi nhận thấy kết quả như sau: TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010 240 Bảng 1. Kết quả so sánh chất lượng của các file MP3 Tốc độ bit Nhạc cổ điển lấy mẫu ở 32kHz Nhạc cổ điển lấy mẫu ở 44.1kHz Nhạc Rap lấy mẫu ở 32kHz Nhạc Rap lấy mẫu ở 44.1kHz 32kbp s Rất méo, rất ồn và những nốt dài bị đứt đoạn Không cải thiện mấy so với tần số lấy mẫu 32kHz Rất méo, rất ồn và những đoạn nói dài bị đứt đoạn Không cải thiện mấy so với tần số lấy mẫu 32kHz 64kbp s Vẫn méo và ồn, những nốt dài ít bị đứt đoạn hơn Méo và bị đứt đoạn một ít ở các nốt dài, tốt hơn so với tần số lấy mẫu 32kHz, tốc độ 64kbps Vẫn còn méo và ồn, những đoạn nói dài bớt bị đứt đoạn Tốt hơn so với rap lấy mẫu ở tần số 32kHz, nhưng vẫn còn nhận ra méo, ồn và đứt đoạn 128kb ps Còn méo một ít, nhưng hầu như các nốt dài không còn bị đứt đoạn Chất lượng gần với file gốc, khó phân biệt với file wav Còn méo, ổn và bị đứt đoạn nhưng có thể chấp nhận được Chất lượng gần với file gốc, khó phân biệt với file gốc 3.4. Nhận xét Kết quả đánh giá chất lượng đối với file nén MP3 ở bảng 1 cho thấy: khi thu âm ở tần số lấy mẫu 32kHz thì chất lượng âm nhạc tất tệ. Cả hai loại nhạc thử nghiệm đều đạt chất lượng chấp nhận được ở tần số lấy mẫu 44.1kHz và tốc độ bit 64kbps, nhưng muốn chất lượng khá phải nén ở tốc độ bit 128kbps. Lúc này tỷ lệ nén đạt được khá cao là: 1.411 (Mbps) : 128 (kbps) = 11 : 1. Đối với AAC, như kết quả trình bày trong bảng 2, nhạc cổ điển thu âm ở tần số lấy mẫu 44.1kHz và nén ở tốc độ bit 64kbps có chất lượng chấp nhận được và tốt hơn so với Rap, vì những nốt cao nghe rõ và trong hơn; hơn nữa những đoạn nói trong nhạc Rap bị méo nhiều hơn so với nhạc. Cả hai loại nhạc thử nghiệm khi thu âm ở tần số lấy mẫu 44.1kHz và nén ở tốc độ bit 128kbps và 192kbps đều cho chất lượng rất tuyệt, đặc biệt rất khó phân biệt chất lượng giữa tốc độ 128kbps và 192kbps. Bảng 2. Kết quả so sánh chất lượng của các file AAC Tốc độ bit Nhạc cổ điển lấy mẫu ở 32kHz Nhạc cổ điển lấy mẫu ở 44.1kHz Nhạc Rap lấy mẫu ở 32kHz Nhạc Rap lấy mẫu ở 44.1kHz 64kbps Có ồn một ít và một số nốt cao bị phô Rất ít nhiễu, còn ít méo, nghe khá tốt Có ồn một ít và một số nốt cao bị phô Có ồn một ít và một số nốt cao bị phô 128kbps Gần với chất lượng gốc, khó phân biệt với file wav Gần với chất lượng gốc, khó phân biệt với file wav Gần với chất lượng gốc, khó phân biệt với file wav Gần với chất lượng gốc, khó phân biệt với file wav 192kbps Gần với chất lượng gốc, khó phân biệt với tốc độ 128kbps Gần với chất lượng gốc, khó phân biệt với tốc độ 128kbps Gần với chất lượng gốc, khó phân biệt với tốc độ 128kbps Gần với chất lượng gốc, khó phân biệt với tốc độ 128kbps TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010 241 Như vậy, kết quả đánh giá chất lượng của các file nhạc nén bằng MP3 và AAC bằng thực nghiệm là phù hợp với các kết quả nghiên cứu được công bố tại [1], [2], [3]. 4. Kết luận Cả hai chuẩn mã hóa MP3 và MPEG-2 AAC đều có thể nén tín hiệu audio với chất lượng gần chất lượng của CD. Trong hai chuẩn trên, MP3 ít phức tạp hơn AAC, AAC cung cấp chất lượng tốt hơn MP3 với cùng tần số lấy mẫu và tỷ lệ nén. Hướng nghiên cứu tiếp theo: tìm hiểu và phát triển các chuẩn nén audio mới dựa trên MPEG-4, thực hiện đầy đủ các phương pháp đánh giá chất lượng như: single stimulus rating, paired rating with reference, multiple stimulus rating, ITU-R BS.1116-1, MUSHRA. TÀI LIỆU THAM KHẢO [1] Jenq-Neng Hwang, “Multimedia Networking”, Cambridge University Press 2009. [2] Karl-Heinz Brandenburg, “MP3 and AAC explained”, AES 17th International Conference on High Quality Audio Coding. [3] Stephen Bunting, “A subjective comparison of MPEG-4 AAC codecs”, 4B Technical Project 2004. [4] Serkan Kiranyaz, Mathieu Aubazac, Moncef Gabbouj, “Unsupervised Segmentation and Classification over MP3 and AAC Audio Bitstreams”, WIAMIS 2003. [5] C. Colomes, C. Schmidmer, and W.C. Treurniet, “Perceptual quality assessment for digital audio: PEAQ-the proposed ITU standard for objective measurement of perceived audio quality”, AES 17th International Conference.

Các file đính kèm theo tài liệu này:

  • pdfso39bai32_0248.pdf
Luận văn liên quan