Luận văn Nghiên cứu trên phương diện lý thuyết kết hợp với mô phỏng qua Matlab và phương pháp thống kê với nhiều file âm thanh khác nhau

Trên cơ sở kết quả của luận văn vấn đề về mã hóa băng con tiếp tục được nghiên cứu theo các hướng sau: + Nghiên cứu phát triển tiếp các bộmã hóa băng con với các tổhợp phân chia theo phương pháp mới của luận văn cho các mô hình sốkênh lớn hơn đểtăng hệsốnén nhưng chất lượng tín hiệu không thay đổi có thểáp dụng cho phát thanh sốthay cho phát thanh tương tựcũ. + Nghiên cứu các bộmã hóa băng con với các tổhợp phân chia mới đảm bảo tính kết hợp giữa các tham sốtỷlệnén, chất lượng âm thanh với độphức tạp của bank lọc, tùy theo từng mục đích cụthể, từng ngôn ngữ, cũng nhưâm thanh cụ thểcho từng nhu cầu.

pdf104 trang | Chia sẻ: lvcdongnoi | Lượt xem: 2294 | Lượt tải: 0download
Bạn đang xem trước 20 trang tài liệu Luận văn Nghiên cứu trên phương diện lý thuyết kết hợp với mô phỏng qua Matlab và phương pháp thống kê với nhiều file âm thanh khác nhau, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
9 cos() 40 21 cos() 4 cos() 2 cos(402 pipipipipi pi Áp dụng công thức (2.2.41), đáp ứng tần số của bộ lọc theo thang tần số chuẩn hóa F là: ∑ =                   − −     −−+ += N n jF B Fn N nN nnnn n eH 1 2 )2cos(2.)(cos46,054,0 ) 40 9 cos() 40 21 cos() 4 cos() 2 cos(40 40 11)( pi pi pipipipi pi Hình 2.2.9 và hình 2.2.10 là đặc tuyến tần số GB(F) và GdBB(F) của bộ lọc BPF trong hai trường hợp N = 20 và N = 40. Hình 2.2.9: Đặc tuyến biên độ của BPF khi thiết kế bằng phương pháp dải chuyển tiếp - cửa sổ với N = 20, tgα=40/π, cửa sổ Hamming. 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0 0.2 0.4 0.6 0.8 1 1.2 1.4 Tan so chuan hoa F G ia tri G Dac tuyen bien do G cua BPF voi N = 20, k = 10 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 -120 -100 -80 -60 -40 -20 0 20 Tan so chuan hoa F G ia tri Gd B Dac tuyen bien do GdB cua BPF voi N = 20, k = 10 60 So sánh phương pháp dải chuyển tiếp cửa sổ và các phương pháp trước, độ gợn sóng trong dải thông và dải chắn giảm đi rất nhiều. Đây chính là ưu điểm của phương pháp cửa sổ. Hình 2.2.10: Đặc tuyến biên độ của BPF khi thiết kế bằng phương pháp dải chuyển tiếp - cửa sổ với N = 40, tgα=40/π, cửa sổ Hamming. 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0 0.2 0.4 0.6 0.8 1 1.2 1.4 Tan so chuan hoa F G ia tri G Dac tuyen bien do G cua BPF voi N = 40, k = 10 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 -160 -140 -120 -100 -80 -60 -40 -20 0 20 Tan so chuan hoa F G ia tri G dB Dac tuyen bien do GdB cua BPF voi N = 40, k = 10 61 Chương 3: Mã hóa băng con ứng dụng trong xử lý tiếng nói 3.1. Giới thiệu Nội dung của chương 3 đưa ra mô hình các dạng của bank lọc theo phân tích Wavelet và thuật toán dùng mã hóa băng con đã ứng dụng trong thực tế theo chuẩn MPEG/Audio. Phân tích một số ưu nhược điểm của từng dạng, từ đó đề xuất phương pháp xác định và lựa chọn lại tổ hợp phân chia tối ưu và giải pháp thiết kế tính toán các bộ lọc trong bank lọc dùng phương pháp kết hợp dải chuyển tiếp – cửa sổ như đã phân tích ở chương 2. Phương pháp này đảm bảo không bị mất thông tin trong miền chuyển tiếp giữa 2 bộ lọc trong bank lọc. So sánh một số ưu điểm giữa đa phân giải tương đối 3 kênh đã ứng dụng trong thực tế với tổ hợp phân chia [4,4,2] và tổ hợp mới đề xuất [6,3,2] thông qua kết quả kiểm chứng bằng matlab để khẳng định ưu điểm vượt trội. Đồng thời tìm ra một số luận điểm cơ bản và đề xuất mới phục vụ cho hướng phát triển tiếp theo của đề tài. 3.2. Bank lọc theo phân tích Wavelet Trong thực tế, mã hoá băng con đã ứng dụng trong mã hoá âm thanh đều dùng bank lọc nhiều nhịp theo phân tích Wavelet. Dưới đây xét tổng quát các bank lọc nhiều nhịp theo phân tích Wavelet. 3.2.1. Bank lọc nhiều nhịp đơn phân giải 3.2.1.1. Bank lọc phân tích Bank lọc phân tích nhiều nhịp đơn phân giải phân chia băng tần của tín hiệu vào thành các băng con có độ rộng bằng nhau, như hình 3.2.1. y0(n) Hình 3.2.1: Các băng con tại đầu ra bank lọc phân tích nhiều nhịp đơn phân giải Tần số f Biên độ y1(n) yM-1(n) 0 ∆f/M 2∆f/M ∆f 62 Sơ đồ khối của bank lọc phân tích nhiều nhịp đơn phân giải như hình 3.2.2. Quá trình phân chia thực hiện theo từng cấp. Mỗi cấp phân chia bao gồm một bộ lọc thông thấp (LPF), một bộ lọc thông cao (HPF) và hai bộ phân chia với hệ số bằng 2. Bộ lọc thông thấp lấy ra nửa băng tần dưới, bộ lọc thông cao lấy ra nửa băng tần trên của tín hiệu vào. Trong mỗi cấp phân chia, băng tần tín hiệu vào cấp đó được phân chia thành hai băng con có độ rộng bằng nhau. Nếu bank lọc phân tích M kênh thì có p = log2M cấp phân chia. Gọi độ rộng băng tần của tín hiệu vào x(n) là ∆f, tần số lấy mẫu là fs, chu kỳ lấy mẫu là Ts = 1/fs. Các thông số của tín hiệu băng con tại các đầu ra bank lọc phân tích nhiều nhịp đơn phân giải M kênh là: - Hệ số phân chia của tất cả các băng con đều bằng nhau: M = 2p (3.2.1) - Độ rộng của tất cả các băng con đều bằng: LPF x(n) ↓2 HPF ↓2 LPF ↓2 HPF ↓2 LPF ↓2 HPF ↓2 LPF ↓2 HPF ↓2 LPF ↓2 HPF ↓2 LPF ↓2 HPF ↓2 LPF ↓2 HPF ↓2 Cấp 1 Cấp 2 Cấp p y0(n) y1(n) yM-1(n) Hình 3.2.2: Bank lọc phân tích nhiều nhịp đơn phân giải 63 pi 2 f M ∆f ∆f ∆== , i = 0,1,2,…,M-1 (3.2.2) - Chu kỳ lấy mẫu của tín hiệu tất cả các băng con đều bằng: s p ss .T2M.TT i == , i = 0,1,2,…,M-1 (3.2.3) - Tần số lấy mẫu của tín hiệu tất cả các băng con đều bằng: p ss s 2 f M ff i == , i = 0,1,2,…,M-1 (3.2.4) Tín hiệu ra y0(n) chiếm băng tần thấp nhất của tín hiệu vào, tín hiệu ra yM-1(n) chiếm băng tần cao nhất của tín hiệu vào. Như vậy theo công thức (2.2.53), bank lọc đơn phân giải theo phân tích Wavelet có hệ số phân chia phải là luỹ thừa của 2. 3.2.1.2. Bank lọc tổng hợp Sơ đồ khối của bank lọc tổng hợp nhiều nhịp đơn phân giải như hình 3.2.3. Bank lọc tổng hợp (hình 3.2.3) thực hiện ngược lại với bank lọc phân tích. Bank lọc tổng hợp bao gồm các bộ nội suy với hệ số bằng 2 và các bộ lọc tương LPF y(n) ↑2 HP F ↑2 LPF ↑2 HP F ↑2 LPF ↑2 HPF ↑2 LPF HP F LPF HP F LPF HP F LPF HP F ↑2 ↑2 ↑2 ↑2 ↑2 ↑2 ↑2 ↑2 Cấp p y0(n) y1(n) yM-1(n) Cấp 2 Cấp 1 Hình 3.2.3: Bank lọc tổng hợp nhiều nhịp đơn phân giải 64 ứng với các băng con để loại bỏ thành phần ảnh và các thành phần hư danh. Các tín hiệu băng con qua bank lọc tổng hợp để khôi phục lại tín hiệu gốc băng rộng có băng tần ∆f và tần số lấy mẫu fs. 3.2.2. Bank lọc nhiều nhịp đa phân giải 3.2.2.1. Bank lọc phân tích Bank lọc phân tích nhiều nhịp đa phân giải phân chia băng tần của tín hiệu vào thành nhiều băng con có độ rộng không bằng nhau. Độ rộng và phân bố của các băng con mô tả trên hình 3.30. Sơ đồ khối của bank lọc phân tích nhiều nhịp đa phân giải biểu diễn trên hình 3.2.5. HPF ↓2 LPF ↓2 HPF ↓2 LPF ↓2 HPF ↓2 LPF ↓2 y0(n) y1(n) yM-2(n) yM-1(n) x(n) Cấp 1 Cấp 2 Cấp p Hình 3.2.5: Bank lọc phân tích nhiều nhịp đa phân giải y0(n) Hình 3.2.4:Các băng con tại đầu ra bank lọc phân tích nhiều nhịp đa phân giải Tần số f Biên độ y1(n) yM-1(n) 0 ∆f yM-2(n) 12 − ∆ M f 12 − ∆ M f 22 − ∆ M f 12 f∆ 65 Bank lọc phân tích nhiều nhịp đa phân giải thực hiện theo từng cấp. Mỗi cấp phân chia gồm bộ lọc thông thấp (LPF), bộ lọc thông cao (HPF) và hai bộ phân chia với hệ số bằng 2. Bộ lọc thông thấp lấy ra nửa băng tần của tín hiệu vào. Bộ lọc thông cao lấy ra nửa băng tần trên của tín hiệu vào. Như vậy, trong mỗi cấp phân chia, băng tần tín hiệu vào cấp đó được phân chia thành hai băng con có độ rộng bằng nhau. Khác với bank lọc đơn phân giải, bank lọc đa phân giải chỉ có băng tần thấp của tín hiệu đầu vào được phân chia ở các cấp tiếp theo. Nếu bank lọc có M kênh thì có p = M-1 cấp phân chia. Các thông số của tín hiệu băng con tại các đầu ra bank lọc phân tích nhiều nhịp đa phân giải M kênh là: - Hệ số phân chia của băng con thứ i là:     ≤≤= == = +−− 1-Mi1 ,22 0i ,22 n 1ipiM p1-M i (3.2.5) - Độ rộng băng con thứ i là:       ≤≤= == = +− − 1-Mi1 , 2 ∆f 2 ∆f 0i , 2 ∆f 2 ∆f ∆f 1i-piM p1M i (3.2.6) - Chu kỳ lấy mẫu của tín hiệu băng con thứ i là:     ≤≤= == = +−− 1-Mi1 ,.T2T.2 0i ,.T2T.2 T s 1ip s iM s p s 1-M s i (3.2.7) - Tần số lấy mẫu của tín hiệu băng con thứ i là:       ≤≤= == = +− − 1-Mi1 , 2 f 2 f 0i , 2 f 2 f f 1i-p s iM s p s 1M s s i (3.2.8) Như vậy, căn cứ vào hai công thức (3.2.5) và (3.2.6), hai băng con i=0 và i=1 có hệ số phân chia bằng nhau, tức chúng có độ rộng bằng nhau vì có số lần phân chia như nhau. Cũng như bank lọc đơn phân giải, theo công thức (2.2.53) bank lọc đa phân giải có các hệ số phân chia phải là luỹ thừa của 2. 3.2.2.2. Bank lọc tổng hợp 66 Bank lọc tổng hợp (hình 3.2.6) thực hiện ngược với bank lọc phân tích. Bank lọc tổng hợp bao gồm các bộ lọc và các bộ nội suy với hệ số bằng 2 để khôi phục lại băng tần và tần số lấy mẫu của tín hiệu ban đầu. Trong quá trình tổng hợp, các bộ lọc loại bỏ các thành phần ảnh và thành phần hư danh, đảm bảo khôi phục đúng và đủ băng tần tín hiệu gốc. Từ các phân tích trên ta thấy, bank lọc nhiều nhịp theo phân tích Wavelet có thể sử dụng bank lọc gương cầu phương (QMF) để phân chia băng tần tín hiệu vào. Ưu điểm của bank lọc gương cầu phương là loại bỏ thành phần ảnh và thành phần hư danh, đảm bảo khôi phục hoàn hảo tín hiệu. 3.3. Mã hoá băng con đã ứng dụng trong xử lý âm thanh số 3.3.1. Chuẩn âm thanh số MPEG/audio Chuẩn âm thanh số MPEG/audio (Motion Picture Experts Group/audio) ra đời năm 1992 là chuẩn nén âm thanh phổ biến, dùng mã hoá cảm giác. MPEG/audio có nhiều phiên bản khác nhau, với nhiều tốc độ dữ liệu tương ứng với nhiều cấp độ chất lượng âm thanh, được ứng dụng rộng rãi trong đó có phát thanh số vô tuyến. Các chuẩn âm thanh số MPEG/audio đều dùng mã hóa băng con đơn phân giải 32 kênh (M = 32 = 25). Nó chia băng tần của tín hiệu âm thanh thành 32 băng con, chất lượng âm thanh tương đương chất lượng CD. Chuẩn MPEG-1/audio là chuẩn mã hoá - nén âm thanh ứng dụng phổ biến nhất trên thực tế. Chuẩn âm thanh số MPEG-1/audio nén dòng bit PCM với các tần số lấy mẫu 32; 44,1 hoặc 48kHz và mã hóa nó với tốc độ bit từ 32kbps đến 192kbps cho mỗi kênh âm thanh HPF ↑2 LPF ↑2 y0(n) y1(n) Cấp p HPF ↑2 LPF ↑2 Cấp 2 HPF ↑2 LPF ↑2 Cấp 1 y(n) yM-2(n) yM-1(n) Hình 3.2.6: Bank lọc tổng hợp nhiều nhịp đa phân giải 67 (tùy theo lớp). MPEG-1/audio có ba lớp mã hóa, mỗi lớp có các ứng dụng khác nhau và giữa chúng có tính tương thích. Lớp 1 là đơn giản nhất, nhưng tỷ lệ nén nhỏ nhất. Lớp 3 là phức tạp và khó khăn để tính toán nhất, nhưng cho ta một tỷ lệ nén tốt nhất. Lựa chọn lớp nào của MPEG-1/audio trong các ứng dụng sao cho cân bằng giữa gánh nặng tính toán và hiệu suất nén. Âm thanh có thể được mã hóa trong bất kỳ lớp nào. Một bộ giải mã MPEG tiêu chuẩn cho bất kỳ lớp nào cũng có thể giải mã các lớp âm thanh thấp hơn được mã hóa. MPEG-1 đặt nền móng cho mọi kỹ thuật nén âm thanh hiện đại. Hình 3.3.1 mô tả tổng quát sự phân chia băng tần tín hiệu vào thành 32 băng con và quá trình tạo khung dữ liệu của 3 lớp. Cấu trúc bộ mã hóa MPEG-1 mô tả trên hình 3.3.2. Trên hình 3.3.2, Bank lọc 32 băng con chia tín hiệu âm thanh thành 32 băng con bằng nhau trong miền tần số. Mô hình tâm lý – thính giác làm nhiệm vụ tính toán tương quan của các tín hiệu âm thanh. Bộ lọc băng con 0 Bộ lọc băng con 1 Bộ lọc băng con 2 Bộ lọc băng con 31 12 mẫu 12 mẫu 12 mẫu 12 mẫu 12 mẫu 12 mẫu 12 mẫu 12 mẫu 12 mẫu 12 mẫu 12 mẫu 12 mẫu Tín hiệu âm thanh PCM Khung lớp 1 Khung lớp 2 và 3 Hình 3.3.1: Phân chia băng con và tạo khung dữ liệu của các lớp MPEG-1/audio 68 Bộ cấp phát bit làm nhiệm vụ cấp phát bit cho các băng con tùy thuộc vào đầu vào từ mô hình tâm lý - thính giác. Bộ định dạng dòng bit (tạo khung) tạo ra một dòng bit dạng MPEG-1. - Chuẩn âm thanh số MPEG-1/audio lớp 1 (thường gọi là MP1) có tốc độ dữ liệu tương đối lớn, chất lượng âm thanh cao, bộ mã hóa và giải mã đơn giản nhất. Lớp 1 dùng bank lọc phân chia tín hiệu vào dải rộng thành 32 dải con có độ rộng bằng nhau. Lớp 1 mô hình tâm lý - thính giác sử dụng FFT 512 điểm để có được thông tin chi tiết về phổ tín hiệu. Đầu ra của FFT được sử dụng để tìm thấy cả âm tone và mặt nạ che trong tín hiệu. Mỗi mặt nạ che tạo ra một ngưỡng mặt nạ tùy thuộc vào tần số, cường độ của nó và âm điệu. Đối với mỗi băng con các ngưỡng mặt nạ độc lập được kết hợp để tạo thành một ngưỡng mặt nạ tổng. Ngưỡng mặt nạ được so sánh với mức tín hiệu tối đa của các băng con, tạo ra SMR là đầu vào của bộ lượng tử hóa. Lớp 1 lượng tử hóa/mã hóa đầu tiên kiểm tra mẫu của mỗi băng con, tìm giá trị lớn nhất tuyệt đối của các mẫu và lượng tử hóa thang 6 bit (64 mức). Đây được gọi là các yếu tố thang đo cho băng con này. Sau đó, nó quyết định phân bổ bit cho mỗi băng con bằng cách giảm thiểu tỷ lệ tiếng ồn/ ngưỡng mặt nạ tổng đối với các bit được phân bổ cho mỗi băng con. Đối với các băng con có ngưỡng mặt nạ che lớn có thể kết thúc với bit zero, do đó không có mẫu được mã hóa. Cuối cùng, mẫu băng con được lượng tử hóa tuyến tính tạo ra bit cho băng con đó. Đóng gói khung cho lớp một khá dễ dàng. Mỗi khung bắt đầu với Header cho đồng bộ hóa và quản lý, 16bit CRC để phát hiện lỗi và sửa lỗi. Mỗi một băng Bank lọc 32 băng con Tín hiệu âm thanh PCM Cấp phát bit, lượng tử hóa và mã hóa. Định dạng dòng bit Tín hiệu âm thanh nén. Mô hình tâm lý-thính giác Dữ liệu phụ Hình 3.3.2: Bộ mã hóa MPEG-1/audio 69 con trong số 32 băng con có 4 bit để mô tả bit định vị và 6 bit cho các yếu tố thang đo. Những bit còn lại trong khung được sử dụng cho mẫu băng con. Lớp 1 xử lý tín hiệu đầu vào trong các khung có 384 mẫu PCM. Tần số lấy mẫu 48kHz, mỗi khung mang 8ms của âm thanh. Tín hiệu vào x(n) có fs = 48kHz, mã hóa 16bit/mẫu PCM tốc độ bit là 48000mẫu/s×16bit/mẫu=768kbit/s. Trong SBC đơn phân giải 32 kênh, sau khi qua bộ phân chia, tần số lấy mẫu các tín hiệu băng con là 48kHz/32=1,5kHz. MPEG chất lượng cao nhất đạt được với tốc độ 192kbps, do đó số bit trung bình là: 4 48000 192000 ==TBb bit/mẫu Như vậy, tỷ lệ nén dữ liệu là: 4 192000 768000 ==TBη Ứng dụng tiêu biểu của lớp 1 bao gồm ghi âm kỹ thuật số trên băng, đĩa cứng, hoặc đĩa từ quang, có thể đáp ứng tốc độ bit cao. - Chuẩn âm thanh số MPEG-1/audio lớp 2 (thường gọi là MP2) dựa trên cơ sở của lớp 1. Mô hình tâm lý - thính giác ở lớp 2 tương tự như lớp 1 nhưng nó sử dụng FFT 1024 điểm cho độ phân giải tần số lớn hơn. Lớp 2 lượng tử hóa/mã hóa cũng tương tự như được sử dụng trong lớp 1, tạo ra thang 6bit cho mỗi băng con. So với lớp 1, kích thước khung âm thanh lớp 2 gấp 3 lần, tức là có 12 mẫu/băng con × 32băng con × 3 = 1152 mẫu/khung. Khung của lớp 2 dài bằng 3 lần khung lớp 1, do đó lớp 2 cho phép mỗi băng con một chuỗi của ba thang đo kế tiếp, và bộ mã hóa sử dụng một, hai hoặc cả ba, tùy thuộc vào các yếu tố khác nhau. Bit phân bổ được tính toán một cách tương tự như lớp 1. Bộ đóng gói khung cho lớp 2 sử dụng cùng một tiêu đề và cấu trúc CRC như lớp 1. Số bit được sử dụng để mô tả phân bổ bit thay đổi theo các băng con: 4 bit cho các băng con thấp, 3 bit cho các băng con giữa và 2 bit cho các băng con cao (phụ thuộc vào băng thông quan trọng). Thang đo (một, hai hoặc ba tùy thuộc vào dữ liệu) được mã hóa cùng với một mã 2 bit mô tả sự kết hợp của các thang đo đang được sử dụng. Các mẫu băng con được lượng tử hóa theo bit phân bố và sau đo kết 70 hợp thành nhóm ba (gọi là hạt). Mỗi hạt được mã hóa với một từ mã, điều này cho phép lớp 2 nắm bắt nhiều thông tin tín hiệu hơn so với lớp 1. Lớp 2 xử lý tín hiệu đầu vào trong các khung có 1152 mẫu PCM. Với tần số lấy mẫu 48kHz, mỗi khung mang 24ms của âm thanh, chất lượng cao nhất đạt được với tốc độ bit là 128kbps/kênh, nhưng chất lượng tốt vẫn được đảm bảo khi tốc độ xuống 64kbps/kênh. Ứng dụng tiêu biểu của lớp 2 bao gồm phát sóng truyền hình, phát thanh số (DAB), CD-ROM (video và audio), Video CD. Tập tin âm thanh trên World Wide Web với phần mở rộng .mpeg2 hoặc .mp2 được mã hóa với MPEG-1 lớp 2. - Chuẩn âm thanh số MPEG-1/audio lớp 3 (thường gọi là MP3) thường được dùng để truyền âm thanh qua ISDN. Trong cả 3 lớp, lớp 3 phức tạp nhất, tốc độ bit thấp nhất (32kbps/kênh), chất lượng âm thanh cao nhất. Lớp 3 sử dụng biến đổi cosin rời rạc cải biên (MDCT) với các cửa sổ có kích thước thay đổi để cân bằng giữa phân giải thời gian và phân giải tần số. Chuẩn MPEG/audio tiếp tục phát triển với nhiều phiên bản như MPEG-2, MPEG-3, MPEG-4, chúng có một số cải tiến trên nền chuẩn gốc. Một số biến thể của MPEG đã xuất hiện như chuẩn MPEGplus và MP3 Pro. 3.3.2. Thuật toán PASC Thuật toán PASC (Precision Adaptive Subband Coding) cho phép giảm tốc độ bit từ 1,41Mbps xuống còn 384kbps, nhưng tai người không thể cảm nhận được độ trung thực của âm thanh bị giảm. Thuật toán PASC dùng trong DCC (Digital Compact Cassette). Thuật toán PASC là phiên bản tương thích của chuẩn MPEG- 1/audio lớp 1. Nói chung, thuật toán PASC với tốc độ bit 384kbps đạt chất lượng âm thanh ngang với MPEG-1/audio lớp 2 tốc độ bit 256kbps. Thuật toán PASC có các tần số lấy mẫu 32; 44,1 và 48kHz, mã hóa 16bit/mẫu. Khi fs = 32kHz thì băng tần âm thanh là 32kHz/2 = 16kHz, mỗi băng con rộng 16kHz/32 = 500Hz. Tương tự, tần số lấy mẫu 44,2kHz và 48kHz thì độ rộng mỗi băng con tương ứng là 689,06Hz và 750Hz. 71 Khi tần số lấy mẫu là 44,1kHz, 48kHz thì thời gian một khung âm thanh tương ứng là 8,7ms và 8ms. Bank lọc chia băng tần âm thanh thành 32 băng con bằng nhau. Trong trường hợp fs = 48kHz, mỗi băng con có độ rộng 750Hz, cửa sổ của bộ lọc phải dịch đi 32 điểm để tất cả 384 mẫu trong khung 8ms đều được phân tích. Tốc độ lấy mẫu của một băng con giảm đi 32 lần, tức là tần số giảm từ 48kHz xuống còn 48kHz/32 = 1,5kHz. Một khung âm thanh PASC có 384 mẫu (12mẫu/dải con×32dải con). Khung âm thanh PASC chứa: thông tin đồng bộ, các bit mã hóa cho các mẫu, các hệ số cân bằng, thông tin cấp phát bit, thông tin về tần số lấy mẫu, các thông tin hệ thống,… Tổng số bit trong khung âm thanh PASC (2 kênh stereo, 384 mẫu, 8ms, tần số lấy mẫu 48kHz) là 3072. Tốc độ truyền 3072bit/8ms=384kbps trong DCC. Sau khi dùng mã phát hiện lỗi và sửa lỗi, điều chế 8/10, thì tốc độ bit cuối cùng tới băng từ là 768kbps. Tín hiệu ghi lên băng từ với 8 rãnh dữ liệu chính, nên tốc độ bit của mỗi rãnh là 768kbps/8=96kbps. 3.3.3. Thuật toán ATRAC ATRAC (Adaptive Transform Acoustic Coding) là SBC áp dụng trong mã hóa âm thanh. Mã hóa ATRAC có hai phiên bản chính ATRAC1 và ATRAC3. Phiên bản ATRAC1 dùng SBC có ba dải con với tổ hợp phân chia [4, 4, 2], ứng dụng trong ghi âm trên MiniDisc (MD). Phiên bản ATRAC3 dùng SBC có 4 dải con với tổ hợp phân chia [8, 8, 4, 2], ứng dụng trong phần mềm đọc âm thanh RealAudio8 trên PC, các máy ghi – đọc âm thanh hoặc phát thanh số trên Internet. a. Mã hóa băng con với tổ hợp phân chia [4, 4, 2] ATRAC1 - Sơ đồ khối bộ SBC(442) Mã hóa băng con SBC(442), dùng tổ hợp phân chia [4, 4, 2], là mã hóa băng con đơn phân giải tương đối 3 kênh. SBC(442) dùng phân tích Wavelet để phân chia băng tần của tín hiệu vào, có hai băng con cùng hệ số phân chia là 4, tức là có hai băng con có độ rộng bằng nhau. Sơ đồ khối bộ mã hóa băng con đa phân giải tương đối 3 kênh dùng tổ hợp phân chia [4, 4, 2] mô tả trên hình 3.3.3. 72 Thuật toán ATRAC sử dụng các bank lọc gương cầu phương (QMF) để phân chia dải tần tín hiệu vào thành các dải con. Hình 3.3.4 là sơ đồ khối mã hóa âm thanh theo thuật toán ATRAC1. Giả sử, tín hiệu vào x(n) được lấy mẫu từ tín hiệu tương tự, với tần số lấy mẫu fs bằng tần số Nyquist fNy. Do vậy, phổ tần của tín hiệu x(n) được biểu diễn như trên hình 3.3.5. LPF ↓4 ↑4 LPF BPF ↓4 ↑4 x(n) Hình 3.3.3: Sơ đồ khối bộ SBC(442) BPF HPF ↓2 ↑2 )(ny HPF Q, b0 Q, b1 Q, b2 Bank lọc phân tích QMF 1 PCM Bank lọc phân tích QMF 2 Trễ MDCT-H MDCT-M MDCT-L Xác định kích thước khối 11 – 22kHz 5.5 - 11kHz 0 – 5.5kHz phổ tần số cao phổ tần số trung phổ tần số thấp Phân tích Biến đổi Hình 3.3.4: Sơ đồ khối mã hóa âm thanh theo thuật toán ATRAC1 ω 0 X(ejω) Hình 3.3.5: Phổ tần của tín hiệu vào x(n) π 2 π 3 π 4 π 5 π 73 Bank lọc phân tích phân chia toàn bộ băng tần của tín hiệu vào thành ba băng con có độ rộng lần lượt bằng 1/4, 1/4, 1/2 độ rộng băng tần của tín hiệu vào. Phổ tần của các băng con lần lượt là: X0(ejω), X1(ejω), X2(ejω) như mô tả trên hình 3.3.6. Sau đó, ba tín hiệu băng con lần lượt đi qua ba bộ phân chia với các hệ số 4, 4, 2. Quan hệ tín hiệu vào và tín hiệu ra bộ phân chia là: )(1)( 21 0 D mjD m i j i eXD eV piω ω − − = ∑= (3.3.1) Trong đó, D là hệ số phân chia. Phổ của tín hiệu qua bộ phân chia hệ số D sẽ bị giãn rộng gấp D lần. Thành phần đầu tiên m = 0 là thành phần tín hiệu có ích, (D- 1) thành phần còn lại là các thành phần hư danh. Trong quá trình tổng hợp cần phải loại bỏ các thành phần này để tránh gây nhiễu cho các tín hiệu có ích. Tín hiệu của 3 kênh tại đầu ra các bộ phân chia lần lượt như sau. - Tín hiệu kênh thứ nhất:         +++== −−−− = ∑ )()()()(4 1)( 4 1)( 4 6 0 4 4 0 4 2 0 4 0 4 23 0 00 piωpiωpiωωpiω ω jjjjmj m j eXeXeXeXeXeV (3.3.2) - Tín hiệu kênh thứ hai:         +++== −−−− = ∑ )()()()(4 1)( 4 1)( 4 6 0 4 4 0 4 2 0 4 0 4 23 0 11 piωpiωpiωωpiω ω jjjjmj m j eXeXeXeXeXeV (3.3.3) ω 0 X0(ejω) Hình 3.3.6: Phổ tần của ba tín hiệu băng con tại đầu ra các bộ lọc ω 0 X1(ejω) ω 0 X2(ejω) π 2 π 3 π 4 π 5 π π 2 π 3 π 4 π 5 π π 2 π 3 π 4 π 5 π 74 - Tín hiệu kênh thứ ba:         +== −− = ∑ )()(2 1)( 2 1)( 2 2 0 2 0 2 21 0 33 piωωpiω ω jjmj m j eXeXeXeV (3.3.4) Số hạng đầu tiên trong biểu thức (3.3.2) và (3.3.3) là thành phần tín hiệu có ích, ba số hạng còn lại là các thành phần hư danh. Số hạng đầu tiên trong biểu thức (3.3.4) là thành phần tín hiệu có ích, số hạng còn lại là thành phần hư danh. Phổ tần của ba tín hiệu băng con sau khi qua các bộ phân chia với các hệ số tương ứng 4,4,2 sẽ dãn rộng với số lần bằng hệ số phân chia và được biểu diễn trên hình 3.3.7. Trong mỗi một kênh, thành phần tín hiệu có ích biểu diễn bằng đường đạm nét, thành phần hư danh biểu diễn bằng đường nét đứt. Tiếp theo, tín hiệu các băng con qua quá trình lượng tử hóa Q và mã hóa với số bit khác nhau b0, b1, b2. Trong thực tế, có nhiều thuật toán cấp bit. Tất cả các thuật toán đều nhằm mục đích cấp phát số bit phù hợp với năng lượng tín hiệu của từng băng con, để cho tỷ lệ nén tín hiệu cao nhất có thể. Sau đó, tín hiệu số với tốc độ bit thấp, có thể được lưu trữ hoặc truyền dẫn. Quá trình khôi phục lại tín hiệu ngược với quá trình phân tích tín hiệu. Các tín hiệu băng con qua bank lọc tổng hợp nhiều nhịp (bao gồm các bộ nội suy và các ω 0 V0(ejω) Hình 3.3.7: Phổ tần của ba tín hiệu băng con tại đầu ra các bộ phân chia ω 0 V1(ejω) ω 0 V2(ejω) π 2 π 3 π 4 π 5 π π 2 π 3 π 4 π 5 π π 2 π 3 π 4 π 5 π 75 bộ lọc) để khôi phục lại băng tần gốc của tín hiệu. Trong miền tần số, phổ tần của các tín hiệu băng con qua bộ nội suy bị co hẹp với hệ số bằng hệ số nội suy. Quan hệ giữa tín hiệu vào và tín hiệu ra của bộ nội suy hệ số L là: )()( ωω jLiji eVeY = (3.3.5) Do đó, tín hiệu đầu ra của các bộ nội suy là: )()( 400 ωω jj eVeY = (3.3.6) )()( 411 ωω jj eVeY = (3.3.7) )()( 222 ωω jj eVeY = (3.3.8) Hệ số nội suy của ba bộ lọc lần lượt là 4, 4, 2, phổ tần của ba tín hiệu băng con tại đầu ra của các bộ nội suy được biểu diễn trên hình 3.3.8. Trong phổ cuả chúng, ngoài thành phần có ích (đường đậm nét) còn xuất hiện thêm các thành phần ảnh (đường nét đứt). Phổ tần tại đầu ra của bộ nội suy thứ nhất và thứ 2 có thêm 4-1=3 thành phần ảnh, đầu ra bộ nội suy còn lại xuất hiện thêm 2- 1=1 thành phần ảnh. Để đảm bảo khôi phục tín hiệu hoàn hảo, các thành phần ảnh phải được loại bỏ trong quá trình khôi phục tín hiệu. Tiếp theo, các tín hiệu băng con được đi qua các bộ lọc trong bank lọc tổng hợp để loại bỏ thành phần ảnh và các thành phần hư danh, chỉ lấy ra các thành phần tín hiệu có ích. Khi đó phổ tần của tín hiệu tại đầu ra của các bộ lọc trong bank lọc tổng ω 0 Y0(ejω) Hình 3.3.8: Phổ tần của ba tín hiệu băng con tại đầu ra các bộ nội suy ω 0 Y1(ejω) ω 0 Y2(ejω) π 2 π 3 π 4 π 5 π π 2 π 3 π 4 π 5 π π 2 π 3 π 4 π 5 π 76 hợp giống với phổ tần của tín hiệu tại đầu ra của các bộ lọc trong bank lọc phân tích. Cuối cùng, phổ tần của các băng con được tổng hợp với nhau để khôi phục lại toàn bộ băng tần của tín hiệu ban đầu. - Cấp phát bit Trong mã hóa băng con nhiều thuật toán cấp phát bit đã được ứng dụng. Luận văn dùng thuật toán cấp phát bit theo công thức (2.1.4). Mã hóa băng con với hệ số phân chia [4, 4, 2] có M = 3 kênh, số bit trung bình mã hóa cho tín hiệu băng con thứ i là: ( ) 0,1,2)(i ..log2 1 3 1 2 2 2 1 2 0 2 2 =+= σσσ σ i TBTBi bb (3.3.9) Trong đó, bTB (bít/mẫu) là số bit trung bình của SBC(4,4,2) được tính theo công thức (3.2), 2iσ là phương sai của tín hiệu băng con thứ i (i = 0,1,2). b. Mã hóa băng con với tổ hợp phân chia [8, 8, 4, 2] ATRAC 3 - Sơ đồ khối bộ SBC(8842) Mã hóa băng con SBC(8842), dùng tổ hợp phân chia [8, 8, 4, 2], là mã hóa băng con đa phân giải tương đối 4 kênh. SBC(8842) dùng phân tích Wavelet để phân chia băng tần của tín hiệu vào, có hai băng con cùng hệ số phân chia là 8, tức là có hai băng con có độ rộng bằng nhau. LPF ↓8 ↑8 LPF BPF1 ↓8 ↑8 x(n) Hình 3.3.5: Sơ đồ khối bộ SBC(8842) BPF1 BPF2 ↓4 ↑4 BPF2 Q, b0 Q, b1 Q, b2 HPF ↓2 ↑2 )(ny HPF Q, b3 77 Sơ đồ khối bộ mã hóa băng con đa phân giải tương đối 4 kênh dùng tổ hợp phân chia [8, 8, 4, 2] mô tả trên hình 3.3.5. Tín hiệu các băng con qua quá trình lượng tử hóa Q và mã hóa với số bit khác nhau b0, b1, b2, b3. Thuật toán ATRAC sử dụng các bank lọc gương cầu phương (QMF) để phân chia dải tần tín hiệu vào thành các dải con. 3.4 Đề xuất phương pháp xác định tổ hợp phân chia Như đã trình bày ở mục 3.2 Bank lọc phân tích theo wavelet có một số hạn chế như là có 2 dạng đơn phân giải và đa phân giải . Tuy nhiên trong đa phân giải tương đối luôn có ít nhất 2 dải con có độ rộng bằng nhau, đồng thời hệ số phân chia trong phân tích wavelet luôn là lũy thừa của 2. Để khắc phục hạn chế đó luận văn đưa ra phương pháp xác định lại hệ số phân chia tổng quan hơn phân tích wavelet. 3.4.1 Phương pháp phân chia liên tiếp cộng cuối Cơ sở của phương pháp này dựa vào biểu thức sau: (với a là số nguyên dương bất kỳ) Ví dụ: Phương pháp phân chia liên tiếp cộng cuối có thể được phát biểu như sau: Tập hợp M số nguyên dương ni, i = 0, 1, 2,…., M-1 là các hệ số phân chia nếu thỏa mãn: ni = (3.4.1) - Chứng minh: Để chứng minh một tập hợp số nguyên dương là các hệ số phân chia, ta phải chứng minh chúng thỏa mãn điều kiện phân chia cực đại theo công thức (2.1.8) Xét tổng sau: = +…..+ + (3.4.2) Mặt khác, với a nguyên dương, luôn có: Do vậy khai triển biểu thức (3.4.2) ta được: 78 = (3.4.3) Như vậy các hệ số chọn theo công thức (3.4.1) sẽ thỏa mãn điều kiện phân chia cực đại. Do đó để thỏa mãn điều kiện phân chia cực đại, các hệ số là tích liên tiếp các số nguyên và phải thêm hệ số cuối cùng bằng đúng số kênh M. Chính vì vậy, phương pháp này gọi là phương pháp liên tiếp cộng cuối. Ví dụ: - Với M= 2 kênh có 2 hệ số phân chia là: n0= 1.2, n1= 2.3, đây là trường hợp đơn phân giải. - M= 3 kênh có 3 hệ số phân chia là: n0= 1.2, n1= 2.3, n3= 3. Trường hợp đặc biệt, khi M= 1 có một hệ số phân chia bằng 1, đây là trường hợp không phân chia giải tần tín hiệu, trường hợp này không xét. 3.4.2 Xác định tổ hợp phân chia tối ưu Bằng phép hoán vị, một nhóm các hệ số phân chia thỏa mãn điều kiện phân chia cực đại, sẽ tạo ra nhiều tổ hợp phân chia khác nhau. Trong trường hợp tổng quát, khi tất cả M hệ số trong nhóm khác nhau hoàn toàn sẽ tạo ra M! tổ hợp phân chia khác nhau. Mỗi tổ hợp ứng với một bank lọc đa phân giải tuyệt đối M kênh. Ví dụ nhóm 3 hệ số (2, 3, 6) sẽ tạo 3!= 1.2.3= 6 tổ hợp phân chia khác nhau [2,6,3], [2,3,6], [3,6,2], [6,3,2], [6,2,3], [3,2,6] tương ứng với 6 bank lọc đa phân giải tuyệt đối 3 kênh. Dựa trên phân bố năng lượng âm thanh và đặc tính nghe của tai người ta chọn tổ hợp phân chia tối ưu với M= 3kênh là [6,3,2] thỏa mãn công thức Hình 3.4.1: Các dải con ứng với tổ hợp phân chia [6,3,2] Trong phạm vi nghiên cứu của đề tài luận văn chỉ đưa ra ứng dụng cụ thể vào mã hóa 3 kênh SBC(632) 79 3.4.3 Ứng dụng vào mã hóa băng con SBC(632) 3.4.3.1 Mã hóa băng con 3 kênh với tổ hợp phân chia [6, 3, 2] - Sơ đồ khối bộ SBC(632) Trong luận văn đưa ra khái niệm mã hóa băng con SBC(632), dùng tổ hợp phân chia [6, 3, 2], là mã hóa băng con đa phân giải tuyệt đối 3 kênh để so sánh với SBC(442) đã úng dụng trong thực tế. Bank lọc phân tích bao gồm ba bộ lọc để lấy ra ba tín hiệu băng con. Bộ lọc thông thấp LPF lọc ra dải con 0, chiếm 1/6 dải tần tín hiệu vào vùng tần số thấp nhất. Bộ lọc thông dải lọc ra dải con 1, chiếm 1/3 dải tần tín hiệu vaofvungf tần số trung bình. Bộ lọc thông cao HPF lọc ra dải con 2, chiếm 1/2 dải tần tín hiệu vao vùng tần số cao nhất, phân bố dải tần tín hiệu mô tả trên hình (3.4.1). Theo hình vẽ thì tần số cắt của ba bộ lọc phân tích và tổng hợp là: + Bộ lọc thông thấp (LPF) có tần số cắt là: FcL= 1/6 (3.4.4) + Bộ lọc thông dải (BPF) có tần số cắt là: FcB1 = 1/6 và FcB2= 1/2 (3.4.5) + Bộ lọc thông cao (HPF) có tần số cắt là: FcH= 1/2 (3.4.6) 3.4.3.2 Thiết kế bank lọc trong SBC (632) - Yêu cầu về các tham số như sau: + Độ rộng dải chuyển tiếp của tất cả các bộ lọc trong bank lọc bằng nhau và được tính qua góc α theo công thức 2.2.4 tức là góc α trong tất cả các bộ lọc đều bằng nhau. + Độ rộng dải thông của bộ lọc thỏa mãn: G(F)≥1/√2 (3.4.7) Hay: G(dB)≥ -3dB (3.4.8) + Độ gợn sóng trong dải thông δp: trong thực tế yêu cầu: LPF ↓6 ↑6 LPF BPF ↓2 ↑2 x(n) Hình 3.4.2: Sơ đồ khối bộ mã hóa băng con SBC(632) BPF HPF ↓2 ↑2 )(ny HPF Q, b0 Q, b1 Q, b2 80 δp≤ 0,1. (3.4.9) Hay: 1-δp ≤ G(F) ≤ 1+δp (3.4.10) Tức là: 0,9 ≤ G(F) ≤1,1 (3.4.11) + Độ gợn sóng trong dải chắn δs : trong thực tế δs≤ 0,1 Tức là: G(F)≤ 0,1 (3.4.12) GdB(F)≤ -20dB (3.4.13) Ưu điểm quan trọng nhất của phương pháp dải chuyển tiếp-cửa sổ là ấn định góc α chung cho cả 3 bộ lọc trong bank lọc. Do đó theo công thức 2.2.4, độ rộng dải chuyển tiếp Btr bằng nhau đối với tất cả bộ lọc. Hơn nữa với đáp ứng biên độ thỏa mãn công thức 3.4.8 thì thông tin không bị mất ở vùng tần số tiếp giáp giữa hai bộ lọc. Trong mã hóa băng con yêu cầu độ rộng Btr càng nhỏ càng tốt, phương pháp dải chuyển tiếp rất phù hợp để thiết kế các bộ lọc trong bank lọc phân tích. Phương pháp này thì độ rộng dải chuyển tiếp ấn định trước, sau đó tăng bậc của bộ lọc đến khi các tham số đạt yêu cầu. 3.4.3.3 Thiết kế bộ lọc thông thấp (LPF) Theo công thức (3.4.4) bộ lọc LPF trong SBC(632) có tần số cắt FcL=1/6, tức là ω= pi/6. Theo công thức (2.2.16) độ rộng dải thông: BL=ωcL= pi/6 (3.4.14) Theo công thức (2.2.18), tần số giới hạn: α αpi ω tg tg sL 6 6+ = (3.4.15) Theo công thức (2.2.54) và (2.2.55) hệ số bộ lọc là: + Khi n=0: αpi αpi tg tgLbk 6 3 0 + = (3.4.16) + Khi n≠0:     − −      + −= N nN tg tg nn n tgLbk cLn )( cos46,054,0.) 6 6 cos()cos(2 pi α αpi ω pi α (3.4.17) Theo công thức (2.2.56) đáp ứng tần số của bộ lọc LPF theo trục tần số đã chuẩn hóa F là: 81 ∑ =                   − −             + − + + = N n jF L Fn N nN tg tgnn n tg tg tg eH 1 2 )2cos(2.)(cos46,054,0. 6 )6( cos) 6 cos( 6 3)( pi pi α αpipi pi α αpi αpi (3.4.18) 3.4.3.3 Thiết kế bộ lọc thông dải (BPF) Theo công thức (3.4.5) bộ lọc thông dải (BPF) có tần số cắt dưới là: FcB1 = 1/6 và tần số cắt trên FcB2= 1/2, tức là ωcB1=pi/2, ωcB2=pi/2. Theo công thức (2.2.27) độ rông dải thông của BPF là: BB=ωcB2 - ωcB1 = pi/2 - pi/2 = pi/3 (3.4.19) Theo công thức (2.2.29) và (2.2.30) tần số giới hạn của BPF là: α αpi ω tg tg sB 6 6 1 − = (3.4.20) α αpi ω tg tg sB 2 2 2 + = (3.4.21) Theo các công thức (2.2.57) và (2.2.58) hệ số của bộ lọc BPF là: + n=0: αpi αpi tg tgBbk 3 3 0 + = (3.4.22) + n≠0:     − −                   − − − + − −+ = N nN tg tgn tg tgn nn n tgBbkn )( cos46,054,0. ) 6 )6( cos( ) 2 )2( cos( ) 6 cos() 2 cos( 2 pi α αpi α αpi pipi pi α (3.4.23) Theo công thức (2.2.59) đáp ứng tần số bộ lọc thông dải BPF theo trục tần số chuẩn hóa F là: ∑ =                       − −             − − + − −+ + + = N n jF B Fn N nN tg tgn tg tgn nn n tg tg tg eH 1 2 )2cos(2.)(cos46,054,0 . ) 6 )6( cos() 2 )2( cos( ) 6 cos() 2 cos( 3 3)( pi pi α αpi α αpi pipi pi α αpi αpi (3.4.24) 82 3.4.3.3 Thiết kế bộ lọc thông cao (HPF) Theo công thức (3.4.6) bộ lọc thông cao (HPF) có tần số cắt là: FcH= 1/2 Tức là: ωcH= pi/2. Theo công thức (2.2.42) độ rộng dải thông của LPF là: BH= pi - ωcH= pi - pi/2= pi/2. (3.4.25) Theo công thức (2.2.44) tần số giới hạn là: α αpi ω tg tg sH 2 2− = (3.4.26) Theo công thức (2.2.60) và (2.2.62) các hệ số của bộ lọc là: + n=0: αpi αpi tg tgHbk 2 1 0 + = (3.4.27) + n≠0:     − −      − −= N nN tg tgnn n tgHbkn )( cos46,054,0.) 2 )2( cos() 6 cos(2 pi α αpipi pi α (3.4.28) Theo công thức (2.2.63) đáp ứng tần số theo trục tần số chuẩn hóa F là: ∑ =                   − −       − − + + = N n jF H Fn N nN tg tgnn n tg tg tg eH 1 2 )2cos(2.)(cos46,054,0 ) 2 )2( cos() 2 cos( 2 1)( pi pi α αpipi pi α αpi αpi (3.4.29) Chương trình thiết kế các bộ lọc trong SBC(632) bằng phương pháp dải chuyển tiếp – cửa sổ mô tả trong phụ lục P3.4. Các hình (3.4.4), (3.4.5), (3.4.6), (3.4.7), (3.4.8), là đáp ứng biên độ G(F), GdB(F) của 3 bộ lọc trong SBC(632) 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0 0.2 0.4 0.6 0.8 1 1.2 1.4 Tan so chuan hoa F G ia tri G Dac tuyen bien do G cua bank loc SBC(632) LPF BPF HPF 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 -140 -120 -100 -80 -60 -40 -20 0 20 Tan so chuan hoa F G ia tri G dB Dac tuyen bien do GdB cua bank loc SBC(632) LPF BPF HPF 83 Hình 3.4.4: Đặc tuyến biên độ G(F), GdB(F) của 3 bộ lọc khi chọn N= 10, α= 750 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0 0.2 0.4 0.6 0.8 1 1.2 1.4 Tan so chuan hoa F G ia tri G Dac tuyen bien do G cua bank loc SBC(632) LPF BPF HPF 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 -140 -120 -100 -80 -60 -40 -20 0 20 Tan so chuan hoa F Gi a tri Gd B Dac tuyen bien do GdB cua bank loc SBC(632) LPF BPF HPF Hình 3.4.5: Đặc tuyến biên độ G(F), GdB(F) của 3 bộ lọc khi chọn N= 12, α= 780 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0 0.2 0.4 0.6 0.8 1 1.2 1.4 Tan so chuan hoa F G ia tri G Dac tuyen bien do G cua bank loc SBC(632) LPF BPF HPF 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 -120 -100 -80 -60 -40 -20 0 20 Tan so chuan hoa F G ia tri G dB Dac tuyen bien do GdB cua bank loc SBC(632) LPF BPF HPF Hình 3.4.6: Đặc tuyến biên độ G(F), GdB(F) của 3 bộ lọc khi chọn N= 20, α= 82,50 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0 0.2 0.4 0.6 0.8 1 1.2 1.4 Tan so chuan hoa F G ia tri G Dac tuyen bien do G cua bank loc SBC(632) LPF BPF HPF 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 -120 -100 -80 -60 -40 -20 0 20 Tan so chuan hoa F G ia tri G dB Dac tuyen bien do GdB cua bank loc SBC(632) LPF BPF HPF Hình 3.4.7: Đặc tuyến biên độ G(F), GdB(F) của 3 bộ lọc khi chọn N= 35, α= 85,50 84 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0 0.2 0.4 0.6 0.8 1 1.2 1.4 Tan so chuan hoa F G ia tri G Dac tuyen bien do G cua bank loc SBC(632) LPF BPF HPF 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 -140 -120 -100 -80 -60 -40 -20 0 20 Tan so chuan hoa F G ia tri G dB Dac tuyen bien do GdB cua bank loc SBC(632) LPF BPF HPF Hình 3.4.8: Đặc tuyến biên độ G(F), GdB(F) của 3 bộ lọc khi chọn N= 100, α= 88,50 Dựa vào công thức (3.4.18), (3.4.23), (3.4.29) thay N= 20, α= 82,50 - Đáp ứng tần số của bộ lọc thông thấp LPF trong SBC(632) là: ∑ =                   − −             + − + + = N n jF L Fn N nN tg tgnn n tg tg tg eH 1 2 )2cos(2.)(cos46,054,0. 6 )6( cos) 6 cos( 6 3 )( pi pi α αpipi pi α αpi pi (3.4.30) - Đáp ứng tần số của bộ lọc thông dải BPF trong SBC(632) là: ∑ =                             − −                 − − + − −+ + + = 20 1 2 )2cos(2. 20 )20( cos46,054,0 . ) 24 116 )6 24 11( cos() 2 )2 24 11( cos( ) 6 cos() 2 cos( 24 11 24 113 3 24 11 )( n jF B Fnn tg tgn tg tgn nn n tg tg tg eH pi pi pi pi pi α pi pi pipi pi pi pi pi pi pi (3.4.31) - Đáp ứng tần số của bộ lọc thông cao HPF trong SBC(632) là: ∑ =                         − −             − − + + = 20 1 2 )2cos(2. 20 )20( cos46,054,0 ) 24 112 )2 24 11( cos() 2 cos(24 11 24 112 24 111 )( n jF H Fnn tg tgn n n tg tg tg eH pi pi pi pi pi pi pi pi pi pi pi pi (3.4.32) 85 3.4.4 Biến đổi hệ số và so sánh kết quả SBC(632) với SBC(442) 3.4.4.1 Giải pháp biến đổi hệ số Để loại bỏ các thành phần hư danh gây ra trong các bộ phân chia và loại bỏ các thành phần ảnh sinh ra trong các bộ nội suy, luận văn đưa ra giải pháp biến đổi hệ số của bộ phân chia và nội suy. Tức là các hệ số của bộ phân chia và nội suy (6,3,2) biến đổi thành (6,2,2), đây là giải pháp hiệu quả bởi 2 lý do sau: + Bank lọc phân tích vẫn giữ nguyên với hệ số phân chia (6,3,2) các hệ số vẫn đảm bảo thỏa mãn điều kiện phân chia cực đại, tỷ lệ độ rộng các băng con không thay đổi hay độ phân giải tần số trong mã hóa băng con không thay đổi. + Đảm bảo được điều kiện khôi phục hoàn hảo Để thấy được ưu điểm của giải pháp trên ta phân tích quá trình phân chia và nội suy trong SBC(632) mô tả trong miền tần số như sau: Giả sử tín hiệu vào x(n) được lấy mẫu từ tín hiệu tương tự với fs = fNy(gấp đôi tần số cực đại của tín hiệu tương tự) do đó phổ của tín hiệu x(n) biểu diễn như hình (3.4.4) Hình 3.4.4: Phổ tần của tín hiệu vào x(n) khi fs = fNy Ba bộ lọc trong bank lọc phân tích phân chia toàn bộ dải tần của tín hiệu vào thành ba dải con có độ rộng lần lượt bằng 1/6, 1/3, ½ độ rộng dải tần tín hiệu vào, phổ tín hiệu Y0(ejω), Y1(ejω), Y2(ejω) mô tả hình (3.4.5). Sau đó ba tín hiệu dải con lần lượt đi qua ba bộ phân chia với các hệ số 6,2,2, quan hệ tín hiệu vào ra theo hình (2.1.10) : ∑ − = − −         = 1 0 21)( D m D mjj eY D eV piω ω (3.4.30) Trong đó D là hệ số phân chia. Phổ của tín hiệu qua bộ phân chia sẽ bị giãn rộng gấp D lần. Thành phần đầu tiên m=0 là thành phần tín hiệu có ích, (D-1)thành phần 86 còn lại là các thành phần hư danh. Trong quá trình tổng hợp phải loại bỏ các thành phần này để tránh gây nhiễu cho tín hiệu có ích. Hình 3.4.5: Phổ tần của tín hiệu băng con tại đầu ra bank lọc phân tích Tín hiệu của 3 kênh tại đầu ra các bộ phân chia của SBC(632) lần lượt như sau: ∑ − = − −         = 1 0 2 00 1)( D m D mjj eY D eV piω ω = ∑ = − −        5 0 6 2 06 1 m mj eY piω (3.4.31) ∑ − = − −         = 1 0 2 11 1)( D m D mjj eY D eV piω ω = ∑ = − −        1 0 2 2 12 1 m mj eY piω (3.4.32) ∑ − = − −         = 1 0 2 20 1)( D m D mjj eY D eV piω ω = ∑ = − −        1 0 2 2 22 1 m mj eY piω (3.4.33) Khai triển các biểu thức trên ta được tín hiệu đầu ra các bộ phân chia SBC(632) là: - Tín hiệu kênh thứ nhất: )(0 ωjeV = ∑ = − −        5 0 6 2 06 1 m mj eY piω =                               +        + +        +        + +                − − − − − − − − − −− 6 10 0 6 8 0 6 6 0 6 4 0 6 2 0 6 0 6 1 piωpiω piωpiω piωω jj jj jj eYeY eYeY eYeY (3.4.34) - Tín hiệu kênh thứ hai: 87 )(1 ωjeV = ∑ = − −        1 0 2 2 12 1 m mj eY piω =         +                −−− 2 2 1 2 12 1 piωω jj eYeY (3.4.35) - Tín hiệu kênh thứ ba: )(2 ωjeV = ∑ = − −        1 0 2 2 22 1 m mj eY piω =         +                −−− 2 2 2 2 22 1 piωω jj eYeY (3.4.36) Số hạng đầu tiên trong biểu thức (3.4.34) là thành phần tín hiệu có ích, 5 số hạng còn lại là các thành phần hư danh. Số hạng đầu tiên trong biểu thức (3.4.35) và (3.4.36) là thành phần tín hiệu có ích, số hạng còn lại là thành phần hư danh. Phổ tần của tín hiệu dải con sau khi qua các bộ phân chia với các hệ số tương ứng 6,2,2 được biểu diễn trên hình (3.4.6). Trong đó thành phần tín hiệu có ích biểu diễn bằng đường nét đậm, thành phần hư danh biểu diễn bằng đường nét đứt. Hình 3.4.6: Phổ tần của tín hiệu băng con tại đầu ra bộ phân chia Quá trình khôi phục tín hiệu ngược với quá trình phân tích. Các tín hiệu dải con qua bank lọc tổng hợp nhiều nhịp (bao gồm các bộ nội suy và bộ lọc) để khôi phục dải tần gốc tín hiệu. Trong miền tần số, phổ tần của các tín hiệu dải con qua bộ nội suy bị co hẹp với hệ số nội suy. Hệ số nội suy của ba bộ nội suy lần lượt là 6,2,2 Căn cứ vào hình (2.1.13) quan hệ giữa tín hiệu vào ra bộ nội suy hệ số I )()( Ijiji eVeP ωω = 88 Do đó tín hiệu ra của các bộ nội suy là: )()( 600 ωω jj eVeP = (3.4.37) )()( 211 ωω jj eVeP = (3.4.38) )()( 222 ωω jj eVeP = (3.4.39) Phổ tần dải con của ba bộ nội suy với các hệ số 6,2,2 được biểu diễn trên hình (3.4.7). Trong phổ của chúng ngoài thành phần có ích (đường nét đậm) còn xuất hiện thêm các thành phần ảnh (đường nét đứt). Để đảm bảo khôi phục tín hiệu hoàn hảo, các thành phần ảnh phải được loại bỏ trong quá trình khôi phục giống hoàn toàn phổ tần gốc tín hiệu vào. Hình 3.4.7: Phổ tần của 3 tín hiệu dải con sau khi qua các bộ lọc nôi suy Tiếp theo các tín hiệu dải con đi qua các bộ lọc trong bank lọc tổng hợp để loại bỏ các thành phần ảnh và hư danh, chỉ lấy ra các thành phần có ích. Phổ tần của tín hiệu ra mô tả trên hình (3.4.8). Cuối cùng, phổ tần của các dải con được tổng hợp với nhau để khôi phục toàn bộ dải tần của tín hiệu ban đầu. Phổ đầu ra cuối cùng mô tả trên hình (3.4.9) 89 Hình 3.4.8: Phổ tần của 3 tín hiệu dải con sau khi qua các bộ lọc tổng hợp Hình 3.4.9: Phổ tần của 3 tín hiệu ra y(n) 3.4.4.2 Cấp phát bit Trong luận văn dùng thuật toán cấp phát bit theo công thức (2.1.4) . Mã hóa dải con đa phân giải tuyệt đối SBC(632) có M= 3 kênh, số bít trung bình mã hóa cho dải con thứ i là: 3 1 2 2 2 1 2 0 2 2 )( log 2 1 σσσ σ i TBTBi bb += (i= 0,1,2) (3.4.50) Trong đó, bTB (bit/mẫu) là số bit trung bình của SBC(632) được tính theo công thức(2.1.2), σi2 là phương sai dải con thứ i (i= 0,1,2) 3.4.4.3 So sánh SBC(632) với SBC(442) Mã hóa băng con SBC(442), dùng tổ hợp phân chia [4,4,2] là mã hóa dải con đa phân dải tương đối 3 kênh. SBC(442) phân chia dải tần của tín hiệu vào thành 3 dải con, có 2 dải con cùng hệ số, tức là có 2 dải con có độ rộng bằng nhau, SBC(442) đã được áp dụng trong ghi âm trên MiniDisc. 90 So sánh với các điều kiện sau đây: + Cả 2 bộ mã hóa SBC(632), SBC(442) có cùng số kênh, tức là có cùng độ phức tạp bank lọc + SBC(632) là mã hóa dải con đa phân dải tuyệt đối là nội dung nghiên cứu của luận văn, trong khi đó SBC(442) đã được ứng dụng thực tế. + Khẳng định tổ hợp phân chia mới có một số ưu điểm hơn so với SBC(442) 1- Phép so sánh thứ nhất: + Điều kiện so sánh: - Cùng các file âm thanh đầu vào - Cùng lỗi khôi phục ε(442)= ε(632) - Cùng số kênh M= 3 - Cùng chất lượng bank lọc + Tham số cần so sánh: - Số bít trung bình bTB Chương trình tính số bít trung bình khi lỗi khôi phục của SBC(632) và SBC(442) là bằng nhau, áp dụng chương trình này với 20 file âm thanh khác nhau kết quả cho trong phụ lục P3.8. Kết quả cho thấy SBC(442) cần số bít trung bình lớn hơn so với SBC(632). Tính giá trị trung bình cho 20 file âm thanh khác nhau kết quả trong phụ lục P3.9: bTB(632)= 8bit/mẫu bTB(442)= 9.30287 bit/mẫu Chứng tỏ SBC(632) tối ưu hơn 2- Phép só sánh thứ 2: + Điều kiện so sánh: - Cùng các file âm thanh đầu vào - Cùng số bit trung bình - Cùng số kênh M= 3 - Cùng chất lượng bank lọc - Cùng lỗi khôi phục +Tham số cần so sánh: - Tốc độ bit trung bình RTB - Hệ số nén dữ liệu trung bình ηTB 91 Trong mã hóa băng con SBC(442), trước khi ghi âm lên MiniDisc, tín hiệu vào x(n) có fs = 44100Hz, mã hóa 16bit/mẫu PCM, tốc độ bit đối với 2 kênh stereo là 44100mẫu/s×16bit/mẫu×2kênh = 1411200bps. Trong SBC(442), sau khi qua bộ phân chia, tần số lấy mẫu của tín hiệu các băng con là: +Tần số lấy mẫu của băng con 0 là: HzHzf s 11025 4 44100 4 == +Tần số lấy mẫu của băng con 1 là: HzHzf s 11025 4 44100 4 == +Tần số lấy mẫu của băng con 2 là: HzHzf s 22050 2 44100 2 == Tốc độ bit trung bình trong SBC(442) là RTB(442) = 292Kbps, do đó số bit trung bình bTB(442) là: 62,6 44100 292000 244 )442()442( == ++ = sss TB TB fff Rb bít/mẫu. Tỷ lệ nén dữ liệu trong SBC(442) là: 8329,4 292000 1411200)442( ==TBη Thuật toán ATRAC giảm tốc độ dữ liệu xuống còn 292kbps, xấp xỉ 1/5 tốc độ dữ liệu ban đầu, chất lượng âm thanh cao. Chương trình so sánh trong phụ lục P3.10. Nếu tính trung bình, được kết quả như trong phụ lục P3.11: + Số bít trung bình: bTB(632)= 5.31844 bít/mẫu. + Tốc độ bít trung bình: RTB(632)= 273634 bps =273,6Kbps + Tỷ lệ nén dữ liệu trung bình: ηTB(632)= 5.166575 Với kết quả trên ta thấy SBC(632) tối ưu hơn SBC(442). 92 KẾT LUẬN Luận văn nghiên cứu về mã hóa băng con dùng trong xử lý tiếng nói là một lĩnh vực có tính ứng dụng cao và phổ biến hiện nay. Luận văn trình bày khá đầy đủ về cơ sở lý thuyết của mã hóa băng con đặc biệt trong nén âm thanh số. Đưa ra mô hình SBC đã ứng dụng trong thực tế để mã hóa âm thanh, cụ thể là chuẩn MPEG/audio và thuật toán ATRAC của Sony. Trong luận văn đã đưa ra phương pháp phân tích mới khác với phân tích wavelet, phân tích wavelet chỉ tạo ra tổ hợp phân chia đơn và đa phân giải tương đối. Phương pháp mới của luận văn đưa ra không những tạo ra tổ hợp giống phân tích wavelet mà còn tạo ra các tổ hợp phân chia không phải là lũy thừa của 2. Đó là cơ sở để xây dựng lên SBC đa phân giải có thể gọi là tuyệt đối, có khả năng nén tín hiệu cao và ưu điểm hơn. Hơn nữa các bộ lọc trong bank lọc cong thiết kế phương pháp kết hợp dải chuyển tiếp - cửa sổ. Đây cũng là phương pháp mới, dựa trên những công thức và đặc tính cơ bản của bộ lọc, khi kết hợp phương pháp cửa sổ nó sẽ làm giảm được độ gợn sóng của đặc tuyến biên độ của bộ lọc. Tuy nhiên vì kiến thức và thời gian có hạn nên luận văn không thể tránh khỏi những hạn chế và thiếu sót, rất mong sự đóng góp ý kiến, xây dựng của thầy, cô giáo và các bạn đồng nghiệp. Cuối cùng, em xin chân thành cảm ơn thầy giáo PGS- TS Nguyễn Quốc Trung đã hướng dẫn, giúp đỡ em. Qua đây em xin chân thành cảm ơn các thầy giáo, cô giáo tận tình giảng dạy và giúp đỡ em trong quá trình học tập, nghiên cứu tại trường Đại học Bách khoa Hà nội, đồng cảm ơn các đồng nghiệp tại trường ĐHSPKT-Hưng yên để em hoàn thành luận văn này. 93 KIẾN NGHỊ Trên cơ sở kết quả của luận văn vấn đề về mã hóa băng con tiếp tục được nghiên cứu theo các hướng sau: + Nghiên cứu phát triển tiếp các bộ mã hóa băng con với các tổ hợp phân chia theo phương pháp mới của luận văn cho các mô hình số kênh lớn hơn để tăng hệ số nén nhưng chất lượng tín hiệu không thay đổi có thể áp dụng cho phát thanh số thay cho phát thanh tương tự cũ. + Nghiên cứu các bộ mã hóa băng con với các tổ hợp phân chia mới đảm bảo tính kết hợp giữa các tham số tỷ lệ nén, chất lượng âm thanh với độ phức tạp của bank lọc, tùy theo từng mục đích cụ thể, từng ngôn ngữ, cũng như âm thanh cụ thể cho từng nhu cầu. TÀI LIỆU THAM KHẢO Tài liệu tham khảo tiếng Việt [1] Đặng Văn Chuyết, Nguyễn Tuấn Anh (2000), Cơ sở lý thuyết truyền tin – tập 1 và 2, NXB Giáo dục Hà Nội. [2] Nguyễn Quốc Trung (2008), Xử lý tín hiệu và lọc số - tập 1và 2- tập 3(2011), NXB khoa học và kỹ thuật, Hà Nội. [3] Nguyễn Xuân Trường (2009), Xử lý tín hiệu áp dụng trong phát thanh số, Luận án Tiến sĩ Kỹ thuật, Đại học Bách Khoa Hà Nội, Hà Nội. [4] Nguyễn Xuân Trường, Nguyễn Quốc Trung, (2009), “Xử lý tín hiệu âm thanh số bằng mã hóa dải con 4 kênh với tổ hợp hệ số phân chia [12 6 4 2]”, “Chuyên san các công trình nghiên cứu, phát triển và ứng dụng Công nghệ thông tin và Truyền thông”, tập V-1, số1(21), tr.13-19 Tài liệu tham khảo tiếng Anh [5] Jusub Kim (2003), Fiter bank design and subband coding, ENEE624 Advanced Digital Processing Instrutor: Dr. Babis Papadopoulos. [6] Martin Vetterli & Jelena Kovacevic (2007), Wavelet and Subband Coding, Originally published by Prentice Hall PTR, Englewood Cliff, New Jersey. University of Berlin, Germany. [7] Peter Noll (2000), MPEG digital audio coding standards, Technical University of Berlin, Germany.

Các file đính kèm theo tài liệu này:

  • pdfma_hoa_bang_con_ung_dung_trong_xu_ly_tieng_noi_3912.pdf