Trên cơ sở kết quả của luận văn vấn đề về mã hóa băng con tiếp tục được
nghiên cứu theo các hướng sau:
+ Nghiên cứu phát triển tiếp các bộmã hóa băng con với các tổhợp phân
chia theo phương pháp mới của luận văn cho các mô hình sốkênh lớn hơn đểtăng
hệsốnén nhưng chất lượng tín hiệu không thay đổi có thểáp dụng cho phát thanh
sốthay cho phát thanh tương tựcũ.
+ Nghiên cứu các bộmã hóa băng con với các tổhợp phân chia mới đảm
bảo tính kết hợp giữa các tham sốtỷlệnén, chất lượng âm thanh với độphức tạp
của bank lọc, tùy theo từng mục đích cụthể, từng ngôn ngữ, cũng nhưâm thanh cụ
thểcho từng nhu cầu.
104 trang |
Chia sẻ: lvcdongnoi | Lượt xem: 2401 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Luận văn Nghiên cứu trên phương diện lý thuyết kết hợp với mô phỏng qua Matlab và phương pháp thống kê với nhiều file âm thanh khác nhau, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
9
cos()
40
21
cos()
4
cos()
2
cos(402
pipipipipi
pi
Áp dụng công thức (2.2.41), đáp ứng tần số của bộ lọc theo thang tần số
chuẩn hóa F là:
∑
=
−
−
−−+
+=
N
n
jF
B
Fn
N
nN
nnnn
n
eH
1
2
)2cos(2.)(cos46,054,0
)
40
9
cos()
40
21
cos()
4
cos()
2
cos(40
40
11)(
pi
pi
pipipipi
pi
Hình 2.2.9 và hình 2.2.10 là đặc tuyến tần số GB(F) và GdBB(F) của bộ lọc BPF
trong hai trường hợp N = 20 và N = 40.
Hình 2.2.9: Đặc tuyến biên độ của BPF khi thiết kế bằng phương pháp dải
chuyển tiếp - cửa sổ với N = 20, tgα=40/π, cửa sổ Hamming.
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
0
0.2
0.4
0.6
0.8
1
1.2
1.4
Tan so chuan hoa F
G
ia
tri
G
Dac tuyen bien do G cua BPF voi N = 20, k = 10
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
-120
-100
-80
-60
-40
-20
0
20
Tan so chuan hoa F
G
ia
tri
Gd
B
Dac tuyen bien do GdB cua BPF voi N = 20, k = 10
60
So sánh phương pháp dải chuyển tiếp cửa sổ và các phương pháp trước, độ
gợn sóng trong dải thông và dải chắn giảm đi rất nhiều. Đây chính là ưu điểm của
phương pháp cửa sổ.
Hình 2.2.10: Đặc tuyến biên độ của BPF khi thiết kế bằng phương pháp dải
chuyển tiếp - cửa sổ với N = 40, tgα=40/π, cửa sổ Hamming.
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
0
0.2
0.4
0.6
0.8
1
1.2
1.4
Tan so chuan hoa F
G
ia
tri
G
Dac tuyen bien do G cua BPF voi N = 40, k = 10
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
-160
-140
-120
-100
-80
-60
-40
-20
0
20
Tan so chuan hoa F
G
ia
tri
G
dB
Dac tuyen bien do GdB cua BPF voi N = 40, k = 10
61
Chương 3: Mã hóa băng con ứng dụng trong xử lý tiếng nói
3.1. Giới thiệu
Nội dung của chương 3 đưa ra mô hình các dạng của bank lọc theo phân tích
Wavelet và thuật toán dùng mã hóa băng con đã ứng dụng trong thực tế theo chuẩn
MPEG/Audio. Phân tích một số ưu nhược điểm của từng dạng, từ đó đề xuất
phương pháp xác định và lựa chọn lại tổ hợp phân chia tối ưu và giải pháp thiết kế
tính toán các bộ lọc trong bank lọc dùng phương pháp kết hợp dải chuyển tiếp – cửa
sổ như đã phân tích ở chương 2. Phương pháp này đảm bảo không bị mất thông tin
trong miền chuyển tiếp giữa 2 bộ lọc trong bank lọc. So sánh một số ưu điểm giữa
đa phân giải tương đối 3 kênh đã ứng dụng trong thực tế với tổ hợp phân chia
[4,4,2] và tổ hợp mới đề xuất [6,3,2] thông qua kết quả kiểm chứng bằng matlab để
khẳng định ưu điểm vượt trội. Đồng thời tìm ra một số luận điểm cơ bản và đề xuất
mới phục vụ cho hướng phát triển tiếp theo của đề tài.
3.2. Bank lọc theo phân tích Wavelet
Trong thực tế, mã hoá băng con đã ứng dụng trong mã hoá âm thanh đều
dùng bank lọc nhiều nhịp theo phân tích Wavelet. Dưới đây xét tổng quát các bank
lọc nhiều nhịp theo phân tích Wavelet.
3.2.1. Bank lọc nhiều nhịp đơn phân giải
3.2.1.1. Bank lọc phân tích
Bank lọc phân tích nhiều nhịp đơn phân giải phân chia băng tần của tín hiệu
vào thành các băng con có độ rộng bằng nhau, như hình 3.2.1.
y0(n)
Hình 3.2.1: Các băng con tại đầu ra bank lọc phân tích nhiều nhịp đơn phân giải
Tần số f
Biên độ
y1(n) yM-1(n)
0 ∆f/M 2∆f/M ∆f
62
Sơ đồ khối của bank lọc phân tích nhiều nhịp đơn phân giải như hình 3.2.2.
Quá trình phân chia thực hiện theo từng cấp. Mỗi cấp phân chia bao gồm một bộ lọc
thông thấp (LPF), một bộ lọc thông cao (HPF) và hai bộ phân chia với hệ số bằng 2.
Bộ lọc thông thấp lấy ra nửa băng tần dưới, bộ lọc thông cao lấy ra nửa băng tần
trên của tín hiệu vào. Trong mỗi cấp phân chia, băng tần tín hiệu vào cấp đó được
phân chia thành hai băng con có độ rộng bằng nhau. Nếu bank lọc phân tích M kênh
thì có p = log2M cấp phân chia.
Gọi độ rộng băng tần của tín hiệu vào x(n) là ∆f, tần số lấy mẫu là fs, chu kỳ lấy
mẫu là Ts = 1/fs. Các thông số của tín hiệu băng con tại các đầu ra bank lọc phân
tích nhiều nhịp đơn phân giải M kênh là:
- Hệ số phân chia của tất cả các băng con đều bằng nhau:
M = 2p (3.2.1)
- Độ rộng của tất cả các băng con đều bằng:
LPF
x(n)
↓2
HPF ↓2
LPF ↓2
HPF
↓2
LPF ↓2
HPF ↓2
LPF ↓2
HPF
↓2
LPF ↓2
HPF
↓2
LPF ↓2
HPF
↓2
LPF ↓2
HPF
↓2 Cấp 1
Cấp 2
Cấp p
y0(n)
y1(n)
yM-1(n)
Hình 3.2.2: Bank lọc phân tích nhiều nhịp đơn phân giải
63
pi 2
f
M
∆f
∆f ∆== , i = 0,1,2,…,M-1 (3.2.2)
- Chu kỳ lấy mẫu của tín hiệu tất cả các băng con đều bằng:
s
p
ss .T2M.TT i == , i = 0,1,2,…,M-1 (3.2.3)
- Tần số lấy mẫu của tín hiệu tất cả các băng con đều bằng:
p
ss
s 2
f
M
ff
i
== , i = 0,1,2,…,M-1 (3.2.4)
Tín hiệu ra y0(n) chiếm băng tần thấp nhất của tín hiệu vào, tín hiệu ra yM-1(n)
chiếm băng tần cao nhất của tín hiệu vào. Như vậy theo công thức (2.2.53), bank lọc
đơn phân giải theo phân tích Wavelet có hệ số phân chia phải là luỹ thừa của 2.
3.2.1.2. Bank lọc tổng hợp
Sơ đồ khối của bank lọc tổng hợp nhiều nhịp đơn phân giải như hình 3.2.3.
Bank lọc tổng hợp (hình 3.2.3) thực hiện ngược lại với bank lọc phân tích.
Bank lọc tổng hợp bao gồm các bộ nội suy với hệ số bằng 2 và các bộ lọc tương
LPF
y(n)
↑2
HP
F
↑2
LPF ↑2
HP
F
↑2
LPF ↑2
HPF ↑2
LPF
HP
F
LPF
HP
F
LPF
HP
F
LPF
HP
F
↑2
↑2
↑2
↑2
↑2
↑2
↑2
↑2
Cấp p
y0(n)
y1(n)
yM-1(n)
Cấp 2
Cấp 1
Hình 3.2.3: Bank lọc tổng hợp nhiều nhịp đơn phân giải
64
ứng với các băng con để loại bỏ thành phần ảnh và các thành phần hư danh. Các tín
hiệu băng con qua bank lọc tổng hợp để khôi phục lại tín hiệu gốc băng rộng có
băng tần ∆f và tần số lấy mẫu fs.
3.2.2. Bank lọc nhiều nhịp đa phân giải
3.2.2.1. Bank lọc phân tích
Bank lọc phân tích nhiều nhịp đa phân giải phân chia băng tần của tín hiệu
vào thành nhiều băng con có độ rộng không bằng nhau. Độ rộng và phân bố của các
băng con mô tả trên hình 3.30.
Sơ đồ khối của bank lọc phân tích nhiều nhịp đa phân giải biểu diễn trên hình 3.2.5.
HPF ↓2
LPF ↓2 HPF ↓2
LPF ↓2
HPF ↓2
LPF ↓2
y0(n)
y1(n)
yM-2(n)
yM-1(n) x(n)
Cấp 1
Cấp 2
Cấp p
Hình 3.2.5: Bank lọc phân tích nhiều nhịp đa phân giải
y0(n)
Hình 3.2.4:Các băng con tại đầu ra bank lọc phân tích nhiều nhịp đa phân giải
Tần số f
Biên độ
y1(n) yM-1(n)
0 ∆f
yM-2(n)
12 −
∆
M
f
12 −
∆
M
f
22 −
∆
M
f
12
f∆
65
Bank lọc phân tích nhiều nhịp đa phân giải thực hiện theo từng cấp. Mỗi cấp
phân chia gồm bộ lọc thông thấp (LPF), bộ lọc thông cao (HPF) và hai bộ phân chia
với hệ số bằng 2. Bộ lọc thông thấp lấy ra nửa băng tần của tín hiệu vào. Bộ lọc
thông cao lấy ra nửa băng tần trên của tín hiệu vào. Như vậy, trong mỗi cấp phân
chia, băng tần tín hiệu vào cấp đó được phân chia thành hai băng con có độ rộng
bằng nhau. Khác với bank lọc đơn phân giải, bank lọc đa phân giải chỉ có băng tần
thấp của tín hiệu đầu vào được phân chia ở các cấp tiếp theo. Nếu bank lọc có M
kênh thì có p = M-1 cấp phân chia. Các thông số của tín hiệu băng con tại các đầu
ra bank lọc phân tích nhiều nhịp đa phân giải M kênh là:
- Hệ số phân chia của băng con thứ i là:
≤≤=
==
=
+−− 1-Mi1 ,22
0i ,22
n
1ipiM
p1-M
i (3.2.5)
- Độ rộng băng con thứ i là:
≤≤=
==
=
+−
−
1-Mi1 ,
2
∆f
2
∆f
0i ,
2
∆f
2
∆f
∆f
1i-piM
p1M
i (3.2.6)
- Chu kỳ lấy mẫu của tín hiệu băng con thứ i là:
≤≤=
==
=
+−− 1-Mi1 ,.T2T.2
0i ,.T2T.2
T
s
1ip
s
iM
s
p
s
1-M
s i
(3.2.7)
- Tần số lấy mẫu của tín hiệu băng con thứ i là:
≤≤=
==
=
+−
−
1-Mi1 ,
2
f
2
f
0i ,
2
f
2
f
f
1i-p
s
iM
s
p
s
1M
s
s i
(3.2.8)
Như vậy, căn cứ vào hai công thức (3.2.5) và (3.2.6), hai băng con i=0 và i=1 có
hệ số phân chia bằng nhau, tức chúng có độ rộng bằng nhau vì có số lần phân chia
như nhau. Cũng như bank lọc đơn phân giải, theo công thức (2.2.53) bank lọc đa
phân giải có các hệ số phân chia phải là luỹ thừa của 2.
3.2.2.2. Bank lọc tổng hợp
66
Bank lọc tổng hợp (hình 3.2.6) thực hiện ngược với bank lọc phân tích. Bank
lọc tổng hợp bao gồm các bộ lọc và các bộ nội suy với hệ số bằng 2 để khôi phục lại
băng tần và tần số lấy mẫu của tín hiệu ban đầu. Trong quá trình tổng hợp, các bộ
lọc loại bỏ các thành phần ảnh và thành phần hư danh, đảm bảo khôi phục đúng và
đủ băng tần tín hiệu gốc.
Từ các phân tích trên ta thấy, bank lọc nhiều nhịp theo phân tích Wavelet có
thể sử dụng bank lọc gương cầu phương (QMF) để phân chia băng tần tín hiệu vào.
Ưu điểm của bank lọc gương cầu phương là loại bỏ thành phần ảnh và thành phần
hư danh, đảm bảo khôi phục hoàn hảo tín hiệu.
3.3. Mã hoá băng con đã ứng dụng trong xử lý âm thanh số
3.3.1. Chuẩn âm thanh số MPEG/audio
Chuẩn âm thanh số MPEG/audio (Motion Picture Experts Group/audio) ra
đời năm 1992 là chuẩn nén âm thanh phổ biến, dùng mã hoá cảm giác.
MPEG/audio có nhiều phiên bản khác nhau, với nhiều tốc độ dữ liệu tương ứng với
nhiều cấp độ chất lượng âm thanh, được ứng dụng rộng rãi trong đó có phát thanh
số vô tuyến. Các chuẩn âm thanh số MPEG/audio đều dùng mã hóa băng con đơn
phân giải 32 kênh (M = 32 = 25). Nó chia băng tần của tín hiệu âm thanh thành 32
băng con, chất lượng âm thanh tương đương chất lượng CD. Chuẩn MPEG-1/audio
là chuẩn mã hoá - nén âm thanh ứng dụng phổ biến nhất trên thực tế. Chuẩn âm
thanh số MPEG-1/audio nén dòng bit PCM với các tần số lấy mẫu 32; 44,1 hoặc
48kHz và mã hóa nó với tốc độ bit từ 32kbps đến 192kbps cho mỗi kênh âm thanh
HPF ↑2
LPF ↑2
y0(n)
y1(n)
Cấp p
HPF ↑2
LPF ↑2
Cấp 2
HPF ↑2
LPF ↑2
Cấp 1
y(n) yM-2(n)
yM-1(n)
Hình 3.2.6: Bank lọc tổng hợp nhiều nhịp đa phân giải
67
(tùy theo lớp). MPEG-1/audio có ba lớp mã hóa, mỗi lớp có các ứng dụng khác
nhau và giữa chúng có tính tương thích. Lớp 1 là đơn giản nhất, nhưng tỷ lệ nén nhỏ
nhất. Lớp 3 là phức tạp và khó khăn để tính toán nhất, nhưng cho ta một tỷ lệ nén
tốt nhất. Lựa chọn lớp nào của MPEG-1/audio trong các ứng dụng sao cho cân
bằng giữa gánh nặng tính toán và hiệu suất nén. Âm thanh có thể được mã hóa trong
bất kỳ lớp nào. Một bộ giải mã MPEG tiêu chuẩn cho bất kỳ lớp nào cũng có thể
giải mã các lớp âm thanh thấp hơn được mã hóa. MPEG-1 đặt nền móng cho mọi
kỹ thuật nén âm thanh hiện đại.
Hình 3.3.1 mô tả tổng quát sự phân chia băng tần tín hiệu vào thành 32 băng
con và quá trình tạo khung dữ liệu của 3 lớp.
Cấu trúc bộ mã hóa MPEG-1 mô tả trên hình 3.3.2.
Trên hình 3.3.2, Bank lọc 32 băng con chia tín hiệu âm thanh thành 32 băng
con bằng nhau trong miền tần số. Mô hình tâm lý – thính giác làm nhiệm vụ tính
toán tương quan của các tín hiệu âm thanh.
Bộ lọc băng
con 0
Bộ lọc băng
con 1
Bộ lọc băng
con 2
Bộ lọc băng
con 31
12
mẫu
12
mẫu
12
mẫu
12
mẫu
12
mẫu
12
mẫu
12
mẫu
12
mẫu
12
mẫu
12
mẫu
12
mẫu
12
mẫu
Tín hiệu âm
thanh PCM
Khung
lớp 1
Khung lớp
2 và 3
Hình 3.3.1: Phân chia băng con và tạo khung dữ liệu của các lớp
MPEG-1/audio
68
Bộ cấp phát bit làm nhiệm vụ cấp phát bit cho các băng con tùy thuộc vào
đầu vào từ mô hình tâm lý - thính giác. Bộ định dạng dòng bit (tạo khung) tạo ra
một dòng bit dạng MPEG-1.
- Chuẩn âm thanh số MPEG-1/audio lớp 1 (thường gọi là MP1) có tốc độ dữ
liệu tương đối lớn, chất lượng âm thanh cao, bộ mã hóa và giải mã đơn giản nhất.
Lớp 1 dùng bank lọc phân chia tín hiệu vào dải rộng thành 32 dải con có độ
rộng bằng nhau. Lớp 1 mô hình tâm lý - thính giác sử dụng FFT 512 điểm để có
được thông tin chi tiết về phổ tín hiệu. Đầu ra của FFT được sử dụng để tìm thấy cả
âm tone và mặt nạ che trong tín hiệu. Mỗi mặt nạ che tạo ra một ngưỡng mặt nạ tùy
thuộc vào tần số, cường độ của nó và âm điệu. Đối với mỗi băng con các ngưỡng
mặt nạ độc lập được kết hợp để tạo thành một ngưỡng mặt nạ tổng. Ngưỡng mặt nạ
được so sánh với mức tín hiệu tối đa của các băng con, tạo ra SMR là đầu vào của
bộ lượng tử hóa. Lớp 1 lượng tử hóa/mã hóa đầu tiên kiểm tra mẫu của mỗi băng
con, tìm giá trị lớn nhất tuyệt đối của các mẫu và lượng tử hóa thang 6 bit (64 mức).
Đây được gọi là các yếu tố thang đo cho băng con này. Sau đó, nó quyết định phân
bổ bit cho mỗi băng con bằng cách giảm thiểu tỷ lệ tiếng ồn/ ngưỡng mặt nạ tổng
đối với các bit được phân bổ cho mỗi băng con. Đối với các băng con có ngưỡng
mặt nạ che lớn có thể kết thúc với bit zero, do đó không có mẫu được mã hóa. Cuối
cùng, mẫu băng con được lượng tử hóa tuyến tính tạo ra bit cho băng con đó.
Đóng gói khung cho lớp một khá dễ dàng. Mỗi khung bắt đầu với Header
cho đồng bộ hóa và quản lý, 16bit CRC để phát hiện lỗi và sửa lỗi. Mỗi một băng
Bank lọc 32
băng con
Tín hiệu âm
thanh PCM Cấp phát bit,
lượng tử hóa
và mã hóa.
Định dạng
dòng bit
Tín hiệu âm
thanh nén.
Mô hình tâm
lý-thính giác Dữ liệu phụ
Hình 3.3.2: Bộ mã hóa MPEG-1/audio
69
con trong số 32 băng con có 4 bit để mô tả bit định vị và 6 bit cho các yếu tố thang
đo. Những bit còn lại trong khung được sử dụng cho mẫu băng con.
Lớp 1 xử lý tín hiệu đầu vào trong các khung có 384 mẫu PCM. Tần số lấy
mẫu 48kHz, mỗi khung mang 8ms của âm thanh.
Tín hiệu vào x(n) có fs = 48kHz, mã hóa 16bit/mẫu PCM tốc độ bit là
48000mẫu/s×16bit/mẫu=768kbit/s. Trong SBC đơn phân giải 32 kênh, sau khi qua
bộ phân chia, tần số lấy mẫu các tín hiệu băng con là 48kHz/32=1,5kHz.
MPEG chất lượng cao nhất đạt được với tốc độ 192kbps, do đó số bit trung
bình là:
4
48000
192000
==TBb bit/mẫu
Như vậy, tỷ lệ nén dữ liệu là: 4
192000
768000
==TBη
Ứng dụng tiêu biểu của lớp 1 bao gồm ghi âm kỹ thuật số trên băng, đĩa
cứng, hoặc đĩa từ quang, có thể đáp ứng tốc độ bit cao.
- Chuẩn âm thanh số MPEG-1/audio lớp 2 (thường gọi là MP2) dựa trên cơ sở của
lớp 1. Mô hình tâm lý - thính giác ở lớp 2 tương tự như lớp 1 nhưng nó sử dụng
FFT 1024 điểm cho độ phân giải tần số lớn hơn.
Lớp 2 lượng tử hóa/mã hóa cũng tương tự như được sử dụng trong lớp 1, tạo
ra thang 6bit cho mỗi băng con. So với lớp 1, kích thước khung âm thanh lớp 2 gấp
3 lần, tức là có 12 mẫu/băng con × 32băng con × 3 = 1152 mẫu/khung. Khung của
lớp 2 dài bằng 3 lần khung lớp 1, do đó lớp 2 cho phép mỗi băng con một chuỗi của
ba thang đo kế tiếp, và bộ mã hóa sử dụng một, hai hoặc cả ba, tùy thuộc vào các
yếu tố khác nhau. Bit phân bổ được tính toán một cách tương tự như lớp 1.
Bộ đóng gói khung cho lớp 2 sử dụng cùng một tiêu đề và cấu trúc CRC như
lớp 1. Số bit được sử dụng để mô tả phân bổ bit thay đổi theo các băng con: 4 bit
cho các băng con thấp, 3 bit cho các băng con giữa và 2 bit cho các băng con cao
(phụ thuộc vào băng thông quan trọng). Thang đo (một, hai hoặc ba tùy thuộc vào
dữ liệu) được mã hóa cùng với một mã 2 bit mô tả sự kết hợp của các thang đo đang
được sử dụng. Các mẫu băng con được lượng tử hóa theo bit phân bố và sau đo kết
70
hợp thành nhóm ba (gọi là hạt). Mỗi hạt được mã hóa với một từ mã, điều này cho
phép lớp 2 nắm bắt nhiều thông tin tín hiệu hơn so với lớp 1.
Lớp 2 xử lý tín hiệu đầu vào trong các khung có 1152 mẫu PCM. Với tần số
lấy mẫu 48kHz, mỗi khung mang 24ms của âm thanh, chất lượng cao nhất đạt được
với tốc độ bit là 128kbps/kênh, nhưng chất lượng tốt vẫn được đảm bảo khi tốc độ
xuống 64kbps/kênh. Ứng dụng tiêu biểu của lớp 2 bao gồm phát sóng truyền hình,
phát thanh số (DAB), CD-ROM (video và audio), Video CD.
Tập tin âm thanh trên World Wide Web với phần mở rộng .mpeg2 hoặc .mp2
được mã hóa với MPEG-1 lớp 2.
- Chuẩn âm thanh số MPEG-1/audio lớp 3 (thường gọi là MP3) thường được dùng
để truyền âm thanh qua ISDN. Trong cả 3 lớp, lớp 3 phức tạp nhất, tốc độ bit thấp
nhất (32kbps/kênh), chất lượng âm thanh cao nhất. Lớp 3 sử dụng biến đổi cosin rời
rạc cải biên (MDCT) với các cửa sổ có kích thước thay đổi để cân bằng giữa phân
giải thời gian và phân giải tần số.
Chuẩn MPEG/audio tiếp tục phát triển với nhiều phiên bản như MPEG-2,
MPEG-3, MPEG-4, chúng có một số cải tiến trên nền chuẩn gốc. Một số biến thể
của MPEG đã xuất hiện như chuẩn MPEGplus và MP3 Pro.
3.3.2. Thuật toán PASC
Thuật toán PASC (Precision Adaptive Subband Coding) cho phép giảm tốc
độ bit từ 1,41Mbps xuống còn 384kbps, nhưng tai người không thể cảm nhận được
độ trung thực của âm thanh bị giảm. Thuật toán PASC dùng trong DCC (Digital
Compact Cassette). Thuật toán PASC là phiên bản tương thích của chuẩn MPEG-
1/audio lớp 1. Nói chung, thuật toán PASC với tốc độ bit 384kbps đạt chất lượng
âm thanh ngang với MPEG-1/audio lớp 2 tốc độ bit 256kbps.
Thuật toán PASC có các tần số lấy mẫu 32; 44,1 và 48kHz, mã hóa
16bit/mẫu. Khi fs
= 32kHz thì băng tần âm thanh là 32kHz/2 = 16kHz, mỗi băng
con rộng 16kHz/32 = 500Hz. Tương tự, tần số lấy mẫu 44,2kHz và 48kHz thì độ
rộng mỗi băng con tương ứng là 689,06Hz và 750Hz.
71
Khi tần số lấy mẫu là 44,1kHz, 48kHz thì thời gian một khung âm thanh
tương ứng là 8,7ms và 8ms. Bank lọc chia băng tần âm thanh thành 32 băng con
bằng nhau. Trong trường hợp fs = 48kHz, mỗi băng con có độ rộng 750Hz, cửa sổ
của bộ lọc phải dịch đi 32 điểm để tất cả 384 mẫu trong khung 8ms đều được phân
tích. Tốc độ lấy mẫu của một băng con giảm đi 32 lần, tức là tần số giảm từ 48kHz
xuống còn 48kHz/32 = 1,5kHz.
Một khung âm thanh PASC có 384 mẫu (12mẫu/dải con×32dải con). Khung
âm thanh PASC chứa: thông tin đồng bộ, các bit mã hóa cho các mẫu, các hệ số cân
bằng, thông tin cấp phát bit, thông tin về tần số lấy mẫu, các thông tin hệ thống,…
Tổng số bit trong khung âm thanh PASC (2 kênh stereo, 384 mẫu, 8ms, tần số lấy
mẫu 48kHz) là 3072. Tốc độ truyền 3072bit/8ms=384kbps trong DCC. Sau khi
dùng mã phát hiện lỗi và sửa lỗi, điều chế 8/10, thì tốc độ bit cuối cùng tới băng từ
là 768kbps. Tín hiệu ghi lên băng từ với 8 rãnh dữ liệu chính, nên tốc độ bit của mỗi
rãnh là 768kbps/8=96kbps.
3.3.3. Thuật toán ATRAC
ATRAC (Adaptive Transform Acoustic Coding) là SBC áp dụng trong mã
hóa âm thanh. Mã hóa ATRAC có hai phiên bản chính ATRAC1 và ATRAC3. Phiên
bản ATRAC1 dùng SBC có ba dải con với tổ hợp phân chia [4, 4, 2], ứng dụng
trong ghi âm trên MiniDisc (MD). Phiên bản ATRAC3 dùng SBC có 4 dải con với
tổ hợp phân chia [8, 8, 4, 2], ứng dụng trong phần mềm đọc âm thanh RealAudio8
trên PC, các máy ghi – đọc âm thanh hoặc phát thanh số trên Internet.
a. Mã hóa băng con với tổ hợp phân chia [4, 4, 2] ATRAC1
- Sơ đồ khối bộ SBC(442)
Mã hóa băng con SBC(442), dùng tổ hợp phân chia [4, 4, 2], là mã hóa băng con
đơn phân giải tương đối 3 kênh. SBC(442) dùng phân tích Wavelet để phân chia
băng tần của tín hiệu vào, có hai băng con cùng hệ số phân chia là 4, tức là có hai
băng con có độ rộng bằng nhau.
Sơ đồ khối bộ mã hóa băng con đa phân giải tương đối 3 kênh dùng tổ hợp phân
chia [4, 4, 2] mô tả trên hình 3.3.3.
72
Thuật toán ATRAC sử dụng các bank lọc gương cầu phương (QMF) để phân
chia dải tần tín hiệu vào thành các dải con. Hình 3.3.4 là sơ đồ khối mã hóa âm
thanh theo thuật toán ATRAC1.
Giả sử, tín hiệu vào x(n) được lấy mẫu từ tín hiệu tương tự, với tần số lấy
mẫu fs bằng tần số Nyquist fNy. Do vậy, phổ tần của tín hiệu x(n) được biểu diễn
như trên hình 3.3.5.
LPF ↓4 ↑4 LPF
BPF ↓4 ↑4 x(n)
Hình 3.3.3: Sơ đồ khối bộ SBC(442)
BPF
HPF ↓2 ↑2 )(ny HPF
Q, b0
Q, b1
Q, b2
Bank
lọc
phân
tích
QMF
1
PCM Bank lọc
phân
tích
QMF 2
Trễ MDCT-H
MDCT-M
MDCT-L
Xác định kích
thước khối
11 – 22kHz
5.5 - 11kHz
0 – 5.5kHz
phổ tần
số cao
phổ tần số
trung
phổ tần số
thấp
Phân tích Biến đổi
Hình 3.3.4: Sơ đồ khối mã hóa âm thanh theo thuật toán ATRAC1
ω 0
X(ejω)
Hình 3.3.5: Phổ tần của tín hiệu vào x(n)
π 2 π
3 π 4 π 5 π
73
Bank lọc phân tích phân chia toàn bộ băng tần của tín hiệu vào thành ba băng
con có độ rộng lần lượt bằng 1/4, 1/4, 1/2 độ rộng băng tần của tín hiệu vào. Phổ
tần của các băng con lần lượt là: X0(ejω), X1(ejω), X2(ejω) như mô tả trên hình 3.3.6.
Sau đó, ba tín hiệu băng con lần lượt đi qua ba bộ phân chia với các hệ số 4, 4, 2.
Quan hệ tín hiệu vào và tín hiệu ra bộ phân chia là:
)(1)(
21
0
D
mjD
m
i
j
i eXD
eV
piω
ω
−
−
=
∑= (3.3.1)
Trong đó, D là hệ số phân chia. Phổ của tín hiệu qua bộ phân chia hệ số D sẽ
bị giãn rộng gấp D lần. Thành phần đầu tiên m = 0 là thành phần tín hiệu có ích, (D-
1) thành phần còn lại là các thành phần hư danh. Trong quá trình tổng hợp cần phải
loại bỏ các thành phần này để tránh gây nhiễu cho các tín hiệu có ích. Tín hiệu của
3 kênh tại đầu ra các bộ phân chia lần lượt như sau.
- Tín hiệu kênh thứ nhất:
+++==
−−−−
=
∑ )()()()(4
1)(
4
1)( 4
6
0
4
4
0
4
2
0
4
0
4
23
0
00
piωpiωpiωωpiω
ω
jjjjmj
m
j eXeXeXeXeXeV (3.3.2)
- Tín hiệu kênh thứ hai:
+++==
−−−−
=
∑ )()()()(4
1)(
4
1)( 4
6
0
4
4
0
4
2
0
4
0
4
23
0
11
piωpiωpiωωpiω
ω
jjjjmj
m
j eXeXeXeXeXeV (3.3.3)
ω
0
X0(ejω)
Hình 3.3.6: Phổ tần của ba tín hiệu băng con tại đầu ra các bộ lọc
ω
0
X1(ejω)
ω
0
X2(ejω)
π 2 π
3 π 4 π 5 π
π 2 π
3 π 4 π 5 π
π 2 π
3 π 4 π 5 π
74
- Tín hiệu kênh thứ ba:
+==
−−
=
∑ )()(2
1)(
2
1)( 2
2
0
2
0
2
21
0
33
piωωpiω
ω
jjmj
m
j eXeXeXeV (3.3.4)
Số hạng đầu tiên trong biểu thức (3.3.2) và (3.3.3) là thành phần tín hiệu có
ích, ba số hạng còn lại là các thành phần hư danh. Số hạng đầu tiên trong biểu thức
(3.3.4) là thành phần tín hiệu có ích, số hạng còn lại là thành phần hư danh. Phổ tần
của ba tín hiệu băng con sau khi qua các bộ phân chia với các hệ số tương ứng 4,4,2
sẽ dãn rộng với số lần bằng hệ số phân chia và được biểu diễn trên hình 3.3.7.
Trong mỗi một kênh, thành phần tín hiệu có ích biểu diễn bằng đường đạm
nét, thành phần hư danh biểu diễn bằng đường nét đứt.
Tiếp theo, tín hiệu các băng con qua quá trình lượng tử hóa Q và mã hóa với
số bit khác nhau b0, b1, b2. Trong thực tế, có nhiều thuật toán cấp bit. Tất cả các
thuật toán đều nhằm mục đích cấp phát số bit phù hợp với năng lượng tín hiệu của
từng băng con, để cho tỷ lệ nén tín hiệu cao nhất có thể. Sau đó, tín hiệu số với tốc
độ bit thấp, có thể được lưu trữ hoặc truyền dẫn.
Quá trình khôi phục lại tín hiệu ngược với quá trình phân tích tín hiệu. Các
tín hiệu băng con qua bank lọc tổng hợp nhiều nhịp (bao gồm các bộ nội suy và các
ω
0
V0(ejω)
Hình 3.3.7: Phổ tần của ba tín hiệu băng con tại đầu ra các bộ phân chia
ω
0
V1(ejω)
ω
0
V2(ejω)
π 2 π
3 π 4 π 5 π
π 2 π
3 π 4 π 5 π
π 2 π
3 π 4 π 5 π
75
bộ lọc) để khôi phục lại băng tần gốc của tín hiệu. Trong miền tần số, phổ tần của
các tín hiệu băng con qua bộ nội suy bị co hẹp với hệ số bằng hệ số nội suy.
Quan hệ giữa tín hiệu vào và tín hiệu ra của bộ nội suy hệ số L là:
)()( ωω jLiji eVeY = (3.3.5)
Do đó, tín hiệu đầu ra của các bộ nội suy là:
)()( 400 ωω jj eVeY = (3.3.6)
)()( 411 ωω jj eVeY = (3.3.7)
)()( 222 ωω jj eVeY = (3.3.8)
Hệ số nội suy của ba bộ lọc lần lượt là 4, 4, 2, phổ tần của ba tín hiệu băng
con tại đầu ra của các bộ nội suy được biểu diễn trên hình 3.3.8.
Trong phổ cuả chúng, ngoài thành phần có ích (đường đậm nét) còn xuất hiện
thêm các thành phần ảnh (đường nét đứt). Phổ tần tại đầu ra của bộ nội suy thứ nhất
và thứ 2 có thêm 4-1=3 thành phần ảnh, đầu ra bộ nội suy còn lại xuất hiện thêm 2-
1=1 thành phần ảnh. Để đảm bảo khôi phục tín hiệu hoàn hảo, các thành phần ảnh
phải được loại bỏ trong quá trình khôi phục tín hiệu.
Tiếp theo, các tín hiệu băng con được đi qua các bộ lọc trong bank lọc tổng hợp
để loại bỏ thành phần ảnh và các thành phần hư danh, chỉ lấy ra các thành phần tín
hiệu có ích. Khi đó phổ tần của tín hiệu tại đầu ra của các bộ lọc trong bank lọc tổng
ω
0
Y0(ejω)
Hình 3.3.8: Phổ tần của ba tín hiệu băng con tại đầu ra các bộ nội suy
ω
0
Y1(ejω)
ω
0
Y2(ejω)
π 2 π
3 π 4 π 5 π
π 2 π
3 π 4 π 5 π
π 2 π
3 π 4 π 5 π
76
hợp giống với phổ tần của tín hiệu tại đầu ra của các bộ lọc trong bank lọc phân
tích. Cuối cùng, phổ tần của các băng con được tổng hợp với nhau để khôi phục lại
toàn bộ băng tần của tín hiệu ban đầu.
- Cấp phát bit
Trong mã hóa băng con nhiều thuật toán cấp phát bit đã được ứng dụng. Luận
văn dùng thuật toán cấp phát bit theo công thức (2.1.4). Mã hóa băng con với hệ số
phân chia [4, 4, 2] có M = 3 kênh, số bit trung bình mã hóa cho tín hiệu băng con
thứ i là:
( ) 0,1,2)(i ..log2
1
3
1
2
2
2
1
2
0
2
2 =+=
σσσ
σ i
TBTBi bb (3.3.9)
Trong đó, bTB (bít/mẫu) là số bit trung bình của SBC(4,4,2) được tính theo công
thức (3.2), 2iσ là phương sai của tín hiệu băng con thứ i (i = 0,1,2).
b. Mã hóa băng con với tổ hợp phân chia [8, 8, 4, 2] ATRAC 3
- Sơ đồ khối bộ SBC(8842)
Mã hóa băng con SBC(8842), dùng tổ hợp phân chia [8, 8, 4, 2], là mã hóa băng
con đa phân giải tương đối 4 kênh. SBC(8842) dùng phân tích Wavelet để phân chia
băng tần của tín hiệu vào, có hai băng con cùng hệ số phân chia là 8, tức là có hai
băng con có độ rộng bằng nhau.
LPF ↓8 ↑8 LPF
BPF1 ↓8 ↑8
x(n)
Hình 3.3.5: Sơ đồ khối bộ SBC(8842)
BPF1
BPF2 ↓4 ↑4 BPF2
Q, b0
Q, b1
Q, b2
HPF ↓2 ↑2 )(ny HPF Q, b3
77
Sơ đồ khối bộ mã hóa băng con đa phân giải tương đối 4 kênh dùng tổ hợp phân
chia [8, 8, 4, 2] mô tả trên hình 3.3.5.
Tín hiệu các băng con qua quá trình lượng tử hóa Q và mã hóa với số bit khác
nhau b0, b1, b2, b3.
Thuật toán ATRAC sử dụng các bank lọc gương cầu phương (QMF) để phân
chia dải tần tín hiệu vào thành các dải con.
3.4 Đề xuất phương pháp xác định tổ hợp phân chia
Như đã trình bày ở mục 3.2 Bank lọc phân tích theo wavelet có một số hạn
chế như là có 2 dạng đơn phân giải và đa phân giải . Tuy nhiên trong đa phân giải
tương đối luôn có ít nhất 2 dải con có độ rộng bằng nhau, đồng thời hệ số phân chia
trong phân tích wavelet luôn là lũy thừa của 2. Để khắc phục hạn chế đó luận văn
đưa ra phương pháp xác định lại hệ số phân chia tổng quan hơn phân tích wavelet.
3.4.1 Phương pháp phân chia liên tiếp cộng cuối
Cơ sở của phương pháp này dựa vào biểu thức sau:
(với a là số nguyên dương bất kỳ)
Ví dụ:
Phương pháp phân chia liên tiếp cộng cuối có thể được phát biểu như sau:
Tập hợp M số nguyên dương ni, i = 0, 1, 2,…., M-1 là các hệ số phân chia nếu thỏa
mãn: ni = (3.4.1)
- Chứng minh: Để chứng minh một tập hợp số nguyên dương là các hệ số phân chia,
ta phải chứng minh chúng thỏa mãn điều kiện phân chia cực đại theo công thức
(2.1.8)
Xét tổng sau:
= +…..+ + (3.4.2)
Mặt khác, với a nguyên dương, luôn có:
Do vậy khai triển biểu thức (3.4.2) ta được:
78
= (3.4.3)
Như vậy các hệ số chọn theo công thức (3.4.1) sẽ thỏa mãn điều kiện phân chia cực
đại. Do đó để thỏa mãn điều kiện phân chia cực đại, các hệ số là tích liên tiếp các số
nguyên và phải thêm hệ số cuối cùng bằng đúng số kênh M. Chính vì vậy, phương
pháp này gọi là phương pháp liên tiếp cộng cuối.
Ví dụ:
- Với M= 2 kênh có 2 hệ số phân chia là: n0= 1.2, n1= 2.3, đây là trường hợp đơn
phân giải.
- M= 3 kênh có 3 hệ số phân chia là: n0= 1.2, n1= 2.3, n3= 3.
Trường hợp đặc biệt, khi M= 1 có một hệ số phân chia bằng 1, đây là trường hợp
không phân chia giải tần tín hiệu, trường hợp này không xét.
3.4.2 Xác định tổ hợp phân chia tối ưu
Bằng phép hoán vị, một nhóm các hệ số phân chia thỏa mãn điều kiện phân
chia cực đại, sẽ tạo ra nhiều tổ hợp phân chia khác nhau. Trong trường hợp tổng
quát, khi tất cả M hệ số trong nhóm khác nhau hoàn toàn sẽ tạo ra M! tổ hợp phân
chia khác nhau. Mỗi tổ hợp ứng với một bank lọc đa phân giải tuyệt đối M kênh.
Ví dụ nhóm 3 hệ số (2, 3, 6) sẽ tạo 3!= 1.2.3= 6 tổ hợp phân chia khác nhau [2,6,3],
[2,3,6], [3,6,2], [6,3,2], [6,2,3], [3,2,6] tương ứng với 6 bank lọc đa phân giải tuyệt
đối 3 kênh. Dựa trên phân bố năng lượng âm thanh và đặc tính nghe của tai người ta
chọn tổ hợp phân chia tối ưu với M= 3kênh là [6,3,2] thỏa mãn công thức
Hình 3.4.1: Các dải con ứng với tổ hợp phân chia [6,3,2]
Trong phạm vi nghiên cứu của đề tài luận văn chỉ đưa ra ứng dụng cụ thể
vào mã hóa 3 kênh SBC(632)
79
3.4.3 Ứng dụng vào mã hóa băng con SBC(632)
3.4.3.1 Mã hóa băng con 3 kênh với tổ hợp phân chia [6, 3, 2]
- Sơ đồ khối bộ SBC(632)
Trong luận văn đưa ra khái niệm mã hóa băng con SBC(632), dùng tổ hợp
phân chia [6, 3, 2], là mã hóa băng con đa phân giải tuyệt đối 3 kênh để so sánh với
SBC(442) đã úng dụng trong thực tế. Bank lọc phân tích bao gồm ba bộ lọc để lấy ra
ba tín hiệu băng con. Bộ lọc thông thấp LPF lọc ra dải con 0, chiếm 1/6 dải tần tín
hiệu vào vùng tần số thấp nhất. Bộ lọc thông dải lọc ra dải con 1, chiếm 1/3 dải tần
tín hiệu vaofvungf tần số trung bình. Bộ lọc thông cao HPF lọc ra dải con 2, chiếm
1/2 dải tần tín hiệu vao vùng tần số cao nhất, phân bố dải tần tín hiệu mô tả trên hình
(3.4.1). Theo hình vẽ thì tần số cắt của ba bộ lọc phân tích và tổng hợp là:
+ Bộ lọc thông thấp (LPF) có tần số cắt là: FcL= 1/6 (3.4.4)
+ Bộ lọc thông dải (BPF) có tần số cắt là: FcB1 = 1/6 và FcB2= 1/2 (3.4.5)
+ Bộ lọc thông cao (HPF) có tần số cắt là: FcH= 1/2 (3.4.6)
3.4.3.2 Thiết kế bank lọc trong SBC (632)
- Yêu cầu về các tham số như sau:
+ Độ rộng dải chuyển tiếp của tất cả các bộ lọc trong bank lọc bằng nhau và
được tính qua góc α theo công thức 2.2.4 tức là góc α trong tất cả các bộ lọc đều
bằng nhau.
+ Độ rộng dải thông của bộ lọc thỏa mãn: G(F)≥1/√2 (3.4.7)
Hay: G(dB)≥ -3dB (3.4.8)
+ Độ gợn sóng trong dải thông δp: trong thực tế yêu cầu:
LPF ↓6 ↑6 LPF
BPF ↓2 ↑2 x(n)
Hình 3.4.2: Sơ đồ khối bộ mã hóa băng con SBC(632)
BPF
HPF ↓2 ↑2 )(ny HPF
Q, b0
Q, b1
Q, b2
80
δp≤ 0,1. (3.4.9)
Hay: 1-δp ≤ G(F) ≤ 1+δp (3.4.10)
Tức là: 0,9 ≤ G(F) ≤1,1 (3.4.11)
+ Độ gợn sóng trong dải chắn δs : trong thực tế δs≤ 0,1
Tức là: G(F)≤ 0,1 (3.4.12)
GdB(F)≤ -20dB (3.4.13)
Ưu điểm quan trọng nhất của phương pháp dải chuyển tiếp-cửa sổ là ấn định góc α
chung cho cả 3 bộ lọc trong bank lọc. Do đó theo công thức 2.2.4, độ rộng dải
chuyển tiếp Btr bằng nhau đối với tất cả bộ lọc. Hơn nữa với đáp ứng biên độ thỏa
mãn công thức 3.4.8 thì thông tin không bị mất ở vùng tần số tiếp giáp giữa hai bộ
lọc. Trong mã hóa băng con yêu cầu độ rộng Btr càng nhỏ càng tốt, phương pháp dải
chuyển tiếp rất phù hợp để thiết kế các bộ lọc trong bank lọc phân tích. Phương
pháp này thì độ rộng dải chuyển tiếp ấn định trước, sau đó tăng bậc của bộ lọc đến
khi các tham số đạt yêu cầu.
3.4.3.3 Thiết kế bộ lọc thông thấp (LPF)
Theo công thức (3.4.4) bộ lọc LPF trong SBC(632) có tần số cắt FcL=1/6, tức là
ω= pi/6.
Theo công thức (2.2.16) độ rộng dải thông: BL=ωcL= pi/6 (3.4.14)
Theo công thức (2.2.18), tần số giới hạn:
α
αpi
ω
tg
tg
sL 6
6+
= (3.4.15)
Theo công thức (2.2.54) và (2.2.55) hệ số bộ lọc là:
+ Khi n=0:
αpi
αpi
tg
tgLbk
6
3
0
+
= (3.4.16)
+ Khi n≠0:
−
−
+
−=
N
nN
tg
tg
nn
n
tgLbk cLn
)(
cos46,054,0.)
6
6
cos()cos(2
pi
α
αpi
ω
pi
α
(3.4.17)
Theo công thức (2.2.56) đáp ứng tần số của bộ lọc LPF theo trục tần số đã chuẩn
hóa F là:
81
∑
=
−
−
+
−
+
+
=
N
n
jF
L
Fn
N
nN
tg
tgnn
n
tg
tg
tg
eH
1
2
)2cos(2.)(cos46,054,0.
6
)6(
cos)
6
cos(
6
3)(
pi
pi
α
αpipi
pi
α
αpi
αpi
(3.4.18)
3.4.3.3 Thiết kế bộ lọc thông dải (BPF)
Theo công thức (3.4.5) bộ lọc thông dải (BPF) có tần số cắt dưới là:
FcB1 = 1/6 và tần số cắt trên FcB2= 1/2, tức là ωcB1=pi/2, ωcB2=pi/2. Theo công thức
(2.2.27) độ rông dải thông của BPF là:
BB=ωcB2 - ωcB1 = pi/2 - pi/2 = pi/3 (3.4.19)
Theo công thức (2.2.29) và (2.2.30) tần số giới hạn của BPF là:
α
αpi
ω
tg
tg
sB 6
6
1
−
= (3.4.20)
α
αpi
ω
tg
tg
sB 2
2
2
+
= (3.4.21)
Theo các công thức (2.2.57) và (2.2.58) hệ số của bộ lọc BPF là:
+ n=0:
αpi
αpi
tg
tgBbk
3
3
0
+
= (3.4.22)
+ n≠0:
−
−
−
−
−
+
−
−+
=
N
nN
tg
tgn
tg
tgn
nn
n
tgBbkn
)(
cos46,054,0.
)
6
)6(
cos(
)
2
)2(
cos(
)
6
cos()
2
cos(
2
pi
α
αpi
α
αpi
pipi
pi
α
(3.4.23)
Theo công thức (2.2.59) đáp ứng tần số bộ lọc thông dải BPF theo trục tần số chuẩn
hóa F là:
∑
=
−
−
−
−
+
−
−+
+
+
=
N
n
jF
B
Fn
N
nN
tg
tgn
tg
tgn
nn
n
tg
tg
tg
eH
1
2
)2cos(2.)(cos46,054,0
.
)
6
)6(
cos()
2
)2(
cos(
)
6
cos()
2
cos(
3
3)(
pi
pi
α
αpi
α
αpi
pipi
pi
α
αpi
αpi
(3.4.24)
82
3.4.3.3 Thiết kế bộ lọc thông cao (HPF)
Theo công thức (3.4.6) bộ lọc thông cao (HPF) có tần số cắt là: FcH= 1/2
Tức là: ωcH= pi/2.
Theo công thức (2.2.42) độ rộng dải thông của LPF là:
BH= pi - ωcH= pi - pi/2= pi/2. (3.4.25)
Theo công thức (2.2.44) tần số giới hạn là:
α
αpi
ω
tg
tg
sH 2
2−
= (3.4.26)
Theo công thức (2.2.60) và (2.2.62) các hệ số của bộ lọc là:
+ n=0:
αpi
αpi
tg
tgHbk
2
1
0
+
= (3.4.27)
+ n≠0:
−
−
−
−=
N
nN
tg
tgnn
n
tgHbkn
)(
cos46,054,0.)
2
)2(
cos()
6
cos(2
pi
α
αpipi
pi
α
(3.4.28)
Theo công thức (2.2.63) đáp ứng tần số theo trục tần số chuẩn hóa F là:
∑
=
−
−
−
−
+
+
=
N
n
jF
H
Fn
N
nN
tg
tgnn
n
tg
tg
tg
eH
1
2
)2cos(2.)(cos46,054,0
)
2
)2(
cos()
2
cos(
2
1)(
pi
pi
α
αpipi
pi
α
αpi
αpi
(3.4.29)
Chương trình thiết kế các bộ lọc trong SBC(632) bằng phương pháp dải
chuyển tiếp – cửa sổ mô tả trong phụ lục P3.4. Các hình (3.4.4), (3.4.5), (3.4.6),
(3.4.7), (3.4.8), là đáp ứng biên độ G(F), GdB(F) của 3 bộ lọc trong SBC(632)
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
0
0.2
0.4
0.6
0.8
1
1.2
1.4
Tan so chuan hoa F
G
ia
tri
G
Dac tuyen bien do G cua bank loc SBC(632)
LPF
BPF
HPF
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
-140
-120
-100
-80
-60
-40
-20
0
20
Tan so chuan hoa F
G
ia
tri
G
dB
Dac tuyen bien do GdB cua bank loc SBC(632)
LPF
BPF
HPF
83
Hình 3.4.4: Đặc tuyến biên độ G(F), GdB(F) của 3 bộ lọc khi chọn N= 10, α= 750
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
0
0.2
0.4
0.6
0.8
1
1.2
1.4
Tan so chuan hoa F
G
ia
tri
G
Dac tuyen bien do G cua bank loc SBC(632)
LPF
BPF
HPF
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
-140
-120
-100
-80
-60
-40
-20
0
20
Tan so chuan hoa F
Gi
a
tri
Gd
B
Dac tuyen bien do GdB cua bank loc SBC(632)
LPF
BPF
HPF
Hình 3.4.5: Đặc tuyến biên độ G(F), GdB(F) của 3 bộ lọc khi chọn N= 12, α= 780
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
0
0.2
0.4
0.6
0.8
1
1.2
1.4
Tan so chuan hoa F
G
ia
tri
G
Dac tuyen bien do G cua bank loc SBC(632)
LPF
BPF
HPF
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
-120
-100
-80
-60
-40
-20
0
20
Tan so chuan hoa F
G
ia
tri
G
dB
Dac tuyen bien do GdB cua bank loc SBC(632)
LPF
BPF
HPF
Hình 3.4.6: Đặc tuyến biên độ G(F), GdB(F) của 3 bộ lọc khi chọn N= 20, α= 82,50
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
0
0.2
0.4
0.6
0.8
1
1.2
1.4
Tan so chuan hoa F
G
ia
tri
G
Dac tuyen bien do G cua bank loc SBC(632)
LPF
BPF
HPF
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
-120
-100
-80
-60
-40
-20
0
20
Tan so chuan hoa F
G
ia
tri
G
dB
Dac tuyen bien do GdB cua bank loc SBC(632)
LPF
BPF
HPF
Hình 3.4.7: Đặc tuyến biên độ G(F), GdB(F) của 3 bộ lọc khi chọn N= 35, α= 85,50
84
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
0
0.2
0.4
0.6
0.8
1
1.2
1.4
Tan so chuan hoa F
G
ia
tri
G
Dac tuyen bien do G cua bank loc SBC(632)
LPF
BPF
HPF
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
-140
-120
-100
-80
-60
-40
-20
0
20
Tan so chuan hoa F
G
ia
tri
G
dB
Dac tuyen bien do GdB cua bank loc SBC(632)
LPF
BPF
HPF
Hình 3.4.8: Đặc tuyến biên độ G(F), GdB(F) của 3 bộ lọc khi chọn
N= 100, α= 88,50
Dựa vào công thức (3.4.18), (3.4.23), (3.4.29) thay N= 20, α= 82,50
- Đáp ứng tần số của bộ lọc thông thấp LPF trong SBC(632) là:
∑
=
−
−
+
−
+
+
=
N
n
jF
L
Fn
N
nN
tg
tgnn
n
tg
tg
tg
eH
1
2
)2cos(2.)(cos46,054,0.
6
)6(
cos)
6
cos(
6
3
)(
pi
pi
α
αpipi
pi
α
αpi
pi
(3.4.30)
- Đáp ứng tần số của bộ lọc thông dải BPF trong SBC(632) là:
∑
=
−
−
−
−
+
−
−+
+
+
=
20
1
2
)2cos(2.
20
)20(
cos46,054,0
.
)
24
116
)6
24
11(
cos()
2
)2
24
11(
cos(
)
6
cos()
2
cos(
24
11
24
113
3
24
11
)(
n
jF
B
Fnn
tg
tgn
tg
tgn
nn
n
tg
tg
tg
eH
pi
pi
pi
pi
pi
α
pi
pi
pipi
pi
pi
pi
pi
pi
pi
(3.4.31)
- Đáp ứng tần số của bộ lọc thông cao HPF trong SBC(632) là:
∑
=
−
−
−
−
+
+
=
20
1
2
)2cos(2.
20
)20(
cos46,054,0
)
24
112
)2
24
11(
cos()
2
cos(24
11
24
112
24
111
)(
n
jF
H
Fnn
tg
tgn
n
n
tg
tg
tg
eH
pi
pi
pi
pi
pi
pi
pi
pi
pi
pi
pi
pi
(3.4.32)
85
3.4.4 Biến đổi hệ số và so sánh kết quả SBC(632) với SBC(442)
3.4.4.1 Giải pháp biến đổi hệ số
Để loại bỏ các thành phần hư danh gây ra trong các bộ phân chia và loại bỏ các
thành phần ảnh sinh ra trong các bộ nội suy, luận văn đưa ra giải pháp biến đổi hệ
số của bộ phân chia và nội suy. Tức là các hệ số của bộ phân chia và nội suy (6,3,2)
biến đổi thành (6,2,2), đây là giải pháp hiệu quả bởi 2 lý do sau:
+ Bank lọc phân tích vẫn giữ nguyên với hệ số phân chia (6,3,2) các hệ số
vẫn đảm bảo thỏa mãn điều kiện phân chia cực đại, tỷ lệ độ rộng các băng con
không thay đổi hay độ phân giải tần số trong mã hóa băng con không thay đổi.
+ Đảm bảo được điều kiện khôi phục hoàn hảo
Để thấy được ưu điểm của giải pháp trên ta phân tích quá trình phân chia và nội suy
trong SBC(632) mô tả trong miền tần số như sau:
Giả sử tín hiệu vào x(n) được lấy mẫu từ tín hiệu tương tự với fs = fNy(gấp
đôi tần số cực đại của tín hiệu tương tự) do đó phổ của tín hiệu x(n) biểu diễn như
hình (3.4.4)
Hình 3.4.4: Phổ tần của tín hiệu vào x(n) khi fs = fNy
Ba bộ lọc trong bank lọc phân tích phân chia toàn bộ dải tần của tín hiệu vào
thành ba dải con có độ rộng lần lượt bằng 1/6, 1/3, ½ độ rộng dải tần tín hiệu vào,
phổ tín hiệu Y0(ejω), Y1(ejω), Y2(ejω) mô tả hình (3.4.5). Sau đó ba tín hiệu dải con
lần lượt đi qua ba bộ phân chia với các hệ số 6,2,2, quan hệ tín hiệu vào ra theo hình
(2.1.10) :
∑
−
=
−
−
=
1
0
21)(
D
m
D
mjj eY
D
eV
piω
ω
(3.4.30)
Trong đó D là hệ số phân chia. Phổ của tín hiệu qua bộ phân chia sẽ bị giãn rộng
gấp D lần. Thành phần đầu tiên m=0 là thành phần tín hiệu có ích, (D-1)thành phần
86
còn lại là các thành phần hư danh. Trong quá trình tổng hợp phải loại bỏ các thành
phần này để tránh gây nhiễu cho tín hiệu có ích.
Hình 3.4.5: Phổ tần của tín hiệu băng con tại đầu ra bank lọc phân tích
Tín hiệu của 3 kênh tại đầu ra các bộ phân chia của SBC(632) lần lượt như sau:
∑
−
=
−
−
=
1
0
2
00
1)(
D
m
D
mjj eY
D
eV
piω
ω
= ∑
=
−
−
5
0
6
2
06
1
m
mj
eY
piω
(3.4.31)
∑
−
=
−
−
=
1
0
2
11
1)(
D
m
D
mjj eY
D
eV
piω
ω
= ∑
=
−
−
1
0
2
2
12
1
m
mj
eY
piω
(3.4.32)
∑
−
=
−
−
=
1
0
2
20
1)(
D
m
D
mjj eY
D
eV
piω
ω
= ∑
=
−
−
1
0
2
2
22
1
m
mj
eY
piω
(3.4.33)
Khai triển các biểu thức trên ta được tín hiệu đầu ra các bộ phân chia SBC(632) là:
- Tín hiệu kênh thứ nhất:
)(0 ωjeV = ∑
=
−
−
5
0
6
2
06
1
m
mj
eY
piω
=
+
+
+
+
+
+
−
−
−
−
−
−
−
−
−
−−
6
10
0
6
8
0
6
6
0
6
4
0
6
2
0
6
0
6
1
piωpiω
piωpiω
piωω
jj
jj
jj
eYeY
eYeY
eYeY
(3.4.34)
- Tín hiệu kênh thứ hai:
87
)(1 ωjeV = ∑
=
−
−
1
0
2
2
12
1
m
mj
eY
piω
=
+
−−−
2
2
1
2
12
1 piωω jj
eYeY (3.4.35)
- Tín hiệu kênh thứ ba:
)(2 ωjeV = ∑
=
−
−
1
0
2
2
22
1
m
mj
eY
piω
=
+
−−−
2
2
2
2
22
1 piωω jj
eYeY (3.4.36)
Số hạng đầu tiên trong biểu thức (3.4.34) là thành phần tín hiệu có ích, 5 số hạng
còn lại là các thành phần hư danh. Số hạng đầu tiên trong biểu thức (3.4.35) và
(3.4.36) là thành phần tín hiệu có ích, số hạng còn lại là thành phần hư danh. Phổ
tần của tín hiệu dải con sau khi qua các bộ phân chia với các hệ số tương ứng 6,2,2
được biểu diễn trên hình (3.4.6). Trong đó thành phần tín hiệu có ích biểu diễn bằng
đường nét đậm, thành phần hư danh biểu diễn bằng đường nét đứt.
Hình 3.4.6: Phổ tần của tín hiệu băng con tại đầu ra bộ phân chia
Quá trình khôi phục tín hiệu ngược với quá trình phân tích. Các tín hiệu dải
con qua bank lọc tổng hợp nhiều nhịp (bao gồm các bộ nội suy và bộ lọc) để khôi
phục dải tần gốc tín hiệu. Trong miền tần số, phổ tần của các tín hiệu dải con qua bộ
nội suy bị co hẹp với hệ số nội suy. Hệ số nội suy của ba bộ nội suy lần lượt là 6,2,2
Căn cứ vào hình (2.1.13) quan hệ giữa tín hiệu vào ra bộ nội suy hệ số I
)()( Ijiji eVeP ωω =
88
Do đó tín hiệu ra của các bộ nội suy là:
)()( 600 ωω jj eVeP = (3.4.37)
)()( 211 ωω jj eVeP = (3.4.38)
)()( 222 ωω jj eVeP = (3.4.39)
Phổ tần dải con của ba bộ nội suy với các hệ số 6,2,2 được biểu diễn trên hình
(3.4.7). Trong phổ của chúng ngoài thành phần có ích (đường nét đậm) còn xuất
hiện thêm các thành phần ảnh (đường nét đứt). Để đảm bảo khôi phục tín hiệu hoàn
hảo, các thành phần ảnh phải được loại bỏ trong quá trình khôi phục giống hoàn
toàn phổ tần gốc tín hiệu vào.
Hình 3.4.7: Phổ tần của 3 tín hiệu dải con sau khi qua các bộ lọc nôi suy
Tiếp theo các tín hiệu dải con đi qua các bộ lọc trong bank lọc tổng hợp để loại bỏ
các thành phần ảnh và hư danh, chỉ lấy ra các thành phần có ích. Phổ tần của tín
hiệu ra mô tả trên hình (3.4.8). Cuối cùng, phổ tần của các dải con được tổng hợp
với nhau để khôi phục toàn bộ dải tần của tín hiệu ban đầu. Phổ đầu ra cuối cùng
mô tả trên hình (3.4.9)
89
Hình 3.4.8: Phổ tần của 3 tín hiệu dải con sau khi qua các bộ lọc tổng hợp
Hình 3.4.9: Phổ tần của 3 tín hiệu ra y(n)
3.4.4.2 Cấp phát bit
Trong luận văn dùng thuật toán cấp phát bit theo công thức (2.1.4) . Mã hóa
dải con đa phân giải tuyệt đối SBC(632) có M= 3 kênh, số bít trung bình mã hóa
cho dải con thứ i là:
3
1
2
2
2
1
2
0
2
2
)(
log
2
1
σσσ
σ i
TBTBi bb += (i= 0,1,2) (3.4.50)
Trong đó, bTB (bit/mẫu) là số bit trung bình của SBC(632) được tính theo công
thức(2.1.2), σi2 là phương sai dải con thứ i (i= 0,1,2)
3.4.4.3 So sánh SBC(632) với SBC(442)
Mã hóa băng con SBC(442), dùng tổ hợp phân chia [4,4,2] là mã hóa dải con
đa phân dải tương đối 3 kênh. SBC(442) phân chia dải tần của tín hiệu vào thành 3
dải con, có 2 dải con cùng hệ số, tức là có 2 dải con có độ rộng bằng nhau,
SBC(442) đã được áp dụng trong ghi âm trên MiniDisc.
90
So sánh với các điều kiện sau đây:
+ Cả 2 bộ mã hóa SBC(632), SBC(442) có cùng số kênh, tức là có cùng độ
phức tạp bank lọc
+ SBC(632) là mã hóa dải con đa phân dải tuyệt đối là nội dung nghiên cứu
của luận văn, trong khi đó SBC(442) đã được ứng dụng thực tế.
+ Khẳng định tổ hợp phân chia mới có một số ưu điểm hơn so với SBC(442)
1- Phép so sánh thứ nhất:
+ Điều kiện so sánh: - Cùng các file âm thanh đầu vào
- Cùng lỗi khôi phục ε(442)= ε(632)
- Cùng số kênh M= 3
- Cùng chất lượng bank lọc
+ Tham số cần so sánh: - Số bít trung bình bTB
Chương trình tính số bít trung bình khi lỗi khôi phục của SBC(632) và
SBC(442) là bằng nhau, áp dụng chương trình này với 20 file âm thanh khác nhau
kết quả cho trong phụ lục P3.8. Kết quả cho thấy SBC(442) cần số bít trung bình
lớn hơn so với SBC(632).
Tính giá trị trung bình cho 20 file âm thanh khác nhau kết quả trong phụ lục P3.9:
bTB(632)= 8bit/mẫu
bTB(442)= 9.30287 bit/mẫu
Chứng tỏ SBC(632) tối ưu hơn
2- Phép só sánh thứ 2:
+ Điều kiện so sánh: - Cùng các file âm thanh đầu vào
- Cùng số bit trung bình
- Cùng số kênh M= 3
- Cùng chất lượng bank lọc
- Cùng lỗi khôi phục
+Tham số cần so sánh: - Tốc độ bit trung bình RTB
- Hệ số nén dữ liệu trung bình ηTB
91
Trong mã hóa băng con SBC(442), trước khi ghi âm lên MiniDisc, tín hiệu vào
x(n) có fs = 44100Hz, mã hóa 16bit/mẫu PCM, tốc độ bit đối với 2 kênh stereo là
44100mẫu/s×16bit/mẫu×2kênh = 1411200bps. Trong SBC(442), sau khi qua bộ
phân chia, tần số lấy mẫu của tín hiệu các băng con là:
+Tần số lấy mẫu của băng con 0 là: HzHzf s 11025
4
44100
4
==
+Tần số lấy mẫu của băng con 1 là: HzHzf s 11025
4
44100
4
==
+Tần số lấy mẫu của băng con 2 là: HzHzf s 22050
2
44100
2
==
Tốc độ bit trung bình trong SBC(442) là RTB(442) = 292Kbps, do đó số bit trung
bình bTB(442) là:
62,6
44100
292000
244
)442()442( ==
++
=
sss
TB
TB fff
Rb bít/mẫu.
Tỷ lệ nén dữ liệu trong SBC(442) là: 8329,4
292000
1411200)442( ==TBη
Thuật toán ATRAC giảm tốc độ dữ liệu xuống còn 292kbps, xấp xỉ 1/5 tốc độ dữ
liệu ban đầu, chất lượng âm thanh cao.
Chương trình so sánh trong phụ lục P3.10. Nếu tính trung bình, được kết quả như
trong phụ lục P3.11:
+ Số bít trung bình: bTB(632)= 5.31844 bít/mẫu.
+ Tốc độ bít trung bình: RTB(632)= 273634 bps =273,6Kbps
+ Tỷ lệ nén dữ liệu trung bình: ηTB(632)= 5.166575
Với kết quả trên ta thấy SBC(632) tối ưu hơn SBC(442).
92
KẾT LUẬN
Luận văn nghiên cứu về mã hóa băng con dùng trong xử lý tiếng nói là một
lĩnh vực có tính ứng dụng cao và phổ biến hiện nay. Luận văn trình bày khá đầy đủ
về cơ sở lý thuyết của mã hóa băng con đặc biệt trong nén âm thanh số. Đưa ra mô
hình SBC đã ứng dụng trong thực tế để mã hóa âm thanh, cụ thể là chuẩn
MPEG/audio và thuật toán ATRAC của Sony.
Trong luận văn đã đưa ra phương pháp phân tích mới khác với phân tích
wavelet, phân tích wavelet chỉ tạo ra tổ hợp phân chia đơn và đa phân giải tương
đối. Phương pháp mới của luận văn đưa ra không những tạo ra tổ hợp giống phân
tích wavelet mà còn tạo ra các tổ hợp phân chia không phải là lũy thừa của 2. Đó là
cơ sở để xây dựng lên SBC đa phân giải có thể gọi là tuyệt đối, có khả năng nén tín
hiệu cao và ưu điểm hơn. Hơn nữa các bộ lọc trong bank lọc cong thiết kế phương
pháp kết hợp dải chuyển tiếp - cửa sổ. Đây cũng là phương pháp mới, dựa trên
những công thức và đặc tính cơ bản của bộ lọc, khi kết hợp phương pháp cửa sổ nó
sẽ làm giảm được độ gợn sóng của đặc tuyến biên độ của bộ lọc.
Tuy nhiên vì kiến thức và thời gian có hạn nên luận văn không thể tránh khỏi
những hạn chế và thiếu sót, rất mong sự đóng góp ý kiến, xây dựng của thầy, cô
giáo và các bạn đồng nghiệp. Cuối cùng, em xin chân thành cảm ơn thầy giáo PGS-
TS Nguyễn Quốc Trung đã hướng dẫn, giúp đỡ em. Qua đây em xin chân thành
cảm ơn các thầy giáo, cô giáo tận tình giảng dạy và giúp đỡ em trong quá trình học
tập, nghiên cứu tại trường Đại học Bách khoa Hà nội, đồng cảm ơn các đồng nghiệp
tại trường ĐHSPKT-Hưng yên để em hoàn thành luận văn này.
93
KIẾN NGHỊ
Trên cơ sở kết quả của luận văn vấn đề về mã hóa băng con tiếp tục được
nghiên cứu theo các hướng sau:
+ Nghiên cứu phát triển tiếp các bộ mã hóa băng con với các tổ hợp phân
chia theo phương pháp mới của luận văn cho các mô hình số kênh lớn hơn để tăng
hệ số nén nhưng chất lượng tín hiệu không thay đổi có thể áp dụng cho phát thanh
số thay cho phát thanh tương tự cũ.
+ Nghiên cứu các bộ mã hóa băng con với các tổ hợp phân chia mới đảm
bảo tính kết hợp giữa các tham số tỷ lệ nén, chất lượng âm thanh với độ phức tạp
của bank lọc, tùy theo từng mục đích cụ thể, từng ngôn ngữ, cũng như âm thanh cụ
thể cho từng nhu cầu.
TÀI LIỆU THAM KHẢO
Tài liệu tham khảo tiếng Việt
[1] Đặng Văn Chuyết, Nguyễn Tuấn Anh (2000), Cơ sở lý thuyết truyền tin –
tập 1 và 2, NXB Giáo dục Hà Nội.
[2] Nguyễn Quốc Trung (2008), Xử lý tín hiệu và lọc số - tập 1và 2- tập 3(2011),
NXB khoa học và kỹ thuật, Hà Nội.
[3] Nguyễn Xuân Trường (2009), Xử lý tín hiệu áp dụng trong phát thanh số,
Luận án Tiến sĩ Kỹ thuật, Đại học Bách Khoa Hà Nội, Hà Nội.
[4] Nguyễn Xuân Trường, Nguyễn Quốc Trung, (2009), “Xử lý tín hiệu âm thanh
số bằng mã hóa dải con 4 kênh với tổ hợp hệ số phân chia [12 6 4 2]”, “Chuyên san
các công trình nghiên cứu, phát triển và ứng dụng Công nghệ thông tin và Truyền
thông”, tập V-1, số1(21), tr.13-19
Tài liệu tham khảo tiếng Anh
[5] Jusub Kim (2003), Fiter bank design and subband coding, ENEE624 Advanced
Digital Processing Instrutor: Dr. Babis Papadopoulos.
[6] Martin Vetterli & Jelena Kovacevic (2007), Wavelet and Subband Coding,
Originally published by Prentice Hall PTR, Englewood Cliff, New Jersey.
University of Berlin, Germany.
[7] Peter Noll (2000), MPEG digital audio coding standards, Technical University
of Berlin, Germany.
Các file đính kèm theo tài liệu này:
- ma_hoa_bang_con_ung_dung_trong_xu_ly_tieng_noi_3912.pdf