- Luận văn đã trình bày lý thuyết về tín hiệu và ảnh hưởng của
tiếng vang, nghiên cứu 2 thuật toán xử lý giảm nhiễu tiếng vang (trừ
phổ và tạo mặt nạ) và viết chương trình thực hiện 2 thuật toán
- Đánh giá hiệu quả của 2 thuật toán kết quả là:
+ Cả hai thuật toán đã hiệu quả cho việc xử lý tín hiệu bị nhiễu
tiếng vang, thuật toán trừ phổ hiệu quả hơn ở khoảng cách gần còn
thuật toán tạo mặt nạ hiệu quả ở khoảng cách xa.
+ Không phải tất cả các phép đánh giá hiệu quả trong môi
trường nhiễu thì hiệu quả trong môi trường bị nhiễu tiếng vang, mà chỉ
có một số phép đo hiệu quả như phép đo PESQ và phép đo SEG_SRR
còn phép đo khoảng cách WSS thì tương đối hiệu quả.
26 trang |
Chia sẻ: lylyngoc | Lượt xem: 2547 | Lượt tải: 2
Bạn đang xem trước 20 trang tài liệu Nghiên cứu các giải pháp giảm nhiễu tiếng vang trong thông tin thoại, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
1
BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
TRẦN ĐỨC HẢI
NGHIÊN CỨU CÁC GIẢI PHÁP GIẢM NHIỄU
TIẾNG VANG TRONG THƠNG TIN THOẠI
Chuyên ngành: Kỹ thuật Điện tử
Mã số: 60.52.70
TĨM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT
Đà Nẵng - Năm 2011
2
Cơng trình được hồn thành tại
ĐẠI HỌC ĐÀ NẴNG
Người hướng dẫn khoa học: TS PHẠM VĂN TUẤN
Phản biện 1: TS. Ngơ Văn Sỹ
Phản biện 2: TS. Nguyễn Hồng Cẩm
Luận văn được bảo vệ tại Hội đồng chấm Luận văn
tốt nghiệp thạc sĩ kỹ thuật họp tại Đại học Đà Nẵng vào
ngày 21 tháng 5 năm 2011
*. Cĩ thể tìm hiểu luận văn tại:
- Trung tâm Thơng tin - Học liệu, Đại học Đà Nẵng
- Trung tâm Học liệu, Đại học Đà Nẵng.
1
MỞ ĐẦU
1. Tính cấp thiết của đề tài
Sử dụng tiếng nĩi để giao tiếp là một cách tự nhiên và dễ dàng nhất
để trao đổi các ý tưởng và suy nghĩ của con người. Ngày nay, khi xã hội
phát triển, nhu cầu trao đổi thơng tin của con người càng trở nên cấp
thiết và yêu cầu về chất lượng ngày càng cao. Các hệ thống thơng tin
hoặc điều khiển bằng giọng nĩi đang được ứng dụng ngày càng nhiều
trong thực tế, ví dụ điện thoại hands-free hay hệ thống thơng tin dùng
trong phịng phẩu thuật…....
Một trong các trở ngại chính của việc phát triển các hệ thống này là
sự suy giảm chất lượng và tính hiểu được của tiếng nĩi do nhiễu tiếng
vang. Nhiễu này sinh ra do quá trình truyền đa đường của âm thanh từ
nguồn đến một hay nhiều microphone. Xử lý triệt hay giảm tiếng vang
là vấn đề khơng đơn giản vì thơng thường thơng tin về tính chất của
nguồn tín hiệu và điều kiện của kênh truyền âm thanh khơng được biết
trước hoặc chỉ cĩ rất ít kiến thức liên quan được cung cấp
Chính vì vậy “ nghiên cứu các giải pháp giảm nhiễu tiếng vang
trong thơng tin thoại ” là đề tài cĩ tính khoa học và thực triễn cao.
2. Mục đích đề tài
- Các cơ chế gây ra tiếng vang tại đầu cuối.
- Các giải pháp giảm nhiễu tiếng vang dựa trên thơng tin kênh
truyền và thơng tin của nguồn phát.
- Các kỹ thuật đánh giá (khách quan và chủ quan) hiệu quả
của các thuật tốn giảm nhiễu tiếng vang.
3. Phạm vi đề tài
- Nghiên cứu các giải pháp để giảm nhiễu tiếng vang.
- Lập trình thực hiện các thuật tốn trên bằng ngơn ngữ Matlab.
- Nghiên cứu các phương pháp đánh giá.
2
- Đánh giá và so sánh hiệu quả của các giải pháp dựa trên
cơ sở dữ liệu tiếng Việt.
4. Phương pháp nghiên cứu
- Nghiên cứu lý thuyết, tìm hiểu các giải pháp giảm nhiễu tiếng
vang trong thơng tin thoại và các phương pháp đánh giá.
- Xây dựng cơ sở dữ liệu tiếng nĩi (Tiếng Việt được tích từ
VOA), với các khoảng cách nguồn – microphone khác nhau.
- Xây dựng chương trình thực hiện các thuật tốn của các giải
pháp trên bằng ngơn ngữ Matlab.
- Đánh giá hiệu quả và hiệu chỉnh thuật tốn.
5. Ý nghĩa khoa học và thực tiễn đề tài
- Ứng dụng lý thuyết học máy, kỹ thuật xử lý tín hiệu và các giải
pháp xử lý tiếng nĩi để nâng cao chất lượng thơng tin thoại.
- Hỗ trợ cho việc đo lường và giám sát chất lượng thoại, nâng
cao chất lượng thoại tại đầu cuối, gián tiếp cải thiện hiệu suất của hệ
thống nhận dạng tiếng nĩi tự động.
- Với các kiến thức và kết quả đạt được trong quá trình thực
hiện đề tài, tác giả cĩ thể áp dụng trong cơng tác chuyên mơn
trong việc giảng dạy tại trường Cao đẳng cơng nghiệp Huế trong
tương lai.
6. Cấu trúc luận văn
Luận văn gồm 4 chương:
Chương 1: Tổng quan về nhiễu tiếng vang.
Chương 2: Các giải pháp để giảm nhiễu tiếng vang
Chương 3: Các phương pháp đánh giá thuật tốn
Chương 4: Mơ phỏng và đánh giá
3
CHƯƠNG 1 - TỔNG QUAN VỀ NHIỄU TIẾNG VANG
1.1. GIỚI THIỆU CHƯƠNG
Nội dung của chương này đề cập đến đặc điểm của nhiễu tiếng vang
và sự ảnh hưởng của tiếng vang đến chất lượng tiếng nĩi.
1.2. ĐẶC ĐIỂM NHIỄU TIẾNG VANG
Tiếng vang là xảy ra khi sĩng âm thanh truyền đi trong một khơng
gian hẹp như trong phịng và tạo ra quá trình truyền đa đường của tín
hiệu âm thanh từ nguồn đến microphone như ở hình 1.2.
Hình 1.2. Các đường đi của âm thanh
Kênh âm thanh từ nguồn đến microphone cĩ thể được mơ tả bởi một
đáp ứng xung âm thanh (AIR) như ở hình 1.4.
Hình 1.4. Đáp ứng xung của phịng.
Thời gian phản xạ là khoảng thời gian mà cường độ âm thanh giảm
xuống 60dB sau khi tắt nguồn, được tính theo cơng thức:
Sa
VRT 049.060 = (1.1)
1.3. ẢNH HƯỞNG CỦA NHIỄU TIẾNG VANG ĐẾN CHẤT
LƯỢNG TÍN HIỆU TIẾNG NĨI
4
Tín hiệu bị nhiễu tiếng vang cĩ thể được mơ tả là âm thanh cĩ thêm
lượng âm vang và nhiễu màu đáng kể.
Chất lượng và tính dễ hiểu là hai thơng số quan trọng cho tín hiệu
tiếng nĩi. Chất lượng bao gồm các thuộc tính như độ tự nhiên, độ khàn
hay tiếng hỗn tạp… cịn tính dễ hiểu là nhận xét về những gì người nĩi
đang nĩi, ví dụ như nghĩa của những từ đang được nghe.
Mục đích của việc nâng cao chất lượng tiếng nĩi tùy thuộc vào
những ứng dụng khác nhau và cĩ thể phân loại thành những mảng sau:
- Cải thiện tính dễ nghe của tiếng nĩi sao cho phù hợp với người
nghe.
- Cải thiện chất lượng tiếng nĩi sao cho người nghe cĩ thể chấp
nhận được.
- Thay đối tiếng nĩi để hoạt động của hệ thống nhận dạng tiếng
nĩi và hệ thống tiếng nĩi tự động được cải thiện.
- Thay đổi tiếng nĩi để việc mã hĩa trong lưu trữ và truyền dữ
liệu hiệu quả hơn.
1.4. KẾT LUẬN CHƯƠNG
Trong chương này sẽ giới thiệu lý thuyết về đặc điểm nhiễu tiếng
vang, các cơ chế gây ra tiếng vang và ảnh hưởng của nhiễu tiếng vang
đến chất lượng tín hiệu tiếng nĩi.
CHƯƠNG 2 - CÁC GIẢI PHÁP ĐỂ GIẢM NHIỄU
TIẾNG VANG
2.1. MỞ ĐẦU CHƯƠNG
Ở chương 1 ta đã đề cập đến nhiễu tiếng vang và ảnh hưởng của nĩ
lên chất lượng tiếng nĩi. Việc xử lý tín hiệu bị nhiễu tiếng vang là một
lĩnh vực đang được quan tâm. Cho đến nay, kỹ thuật xử lý tiếng vang
được phân thành hai loại là các kỹ thuật giảm tiếng vang và các kỹ
thuật loại bỏ tiếng vang [7] tùy thuộc kĩ thuật đĩ cĩ ước lượng đáp ứng
5
xung của kênh truyền hay khơng. Chương này sẽ tìm hiểu hai thuật tốn
nâng cao chất lượng tiếng nĩi bị nhiễu tiếng vang là: thuật tốn trừ phổ
[6] và thuật tốn tạo mặt nạ [10].
2.2. THUẬT TỐN TRỪ PHỔ
Sơ đồ khối của thuật tốn trừ phổ ở hình 2.1.
Hình 2.1. Sơ đồ khối của thuật tốn trừ phổ
Mơ phỏng tín hiệu tiếng nĩi bị nhiễu tiếng vang bằng cách nhân
chập tín hiệu sạch s(n) với đáp ứng xung h(n) của kênh truyền.
( ) ( ) ( )nhnsnx ∗= (2.1)
Tín hiệu này qua biến đổi Fourier [6]
X(m,ωk ) = S(m,ωk)H(m,ωk) (2.2)
Với m là chỉ số thời gian, chỉ thị đoạn tín hiệu vào được lấy cửa sổ,
ωk là biến tần số rời rạc. Nếu cửa sổ ta chọn bằng phẳng và cĩ chiều dài
tương đối lớn so với chiều dài của h(n) thì tác động tạo tiếng vang của
mơi trường (qua phép chập trong miền tần số với hàm h(n)) cĩ thể xem
như phép nhân.
X(m,ωk ) = S(m,ωk)H(ωk) (2.3)
Coi đáp ứng xung của phịng khơng thay đổi theo thời gian,
H(m,ωk)=H(ωk).
log|X(m,ωk)| ≈ log|S(m,ωk)| + log|H(ωk)| (2.4)
Lấy trung bình cả 2 vế, giả sử
Đặt
mean(log|X(m,ωk)|) =M(ωk), mean(log|S(m,ωk)|)=F(ωk) (2.5)
M(ωk) = F(ωk) + log|H(ωk)| (2.6)
log|X(m,ωk)|- M(ωk) ≈ log|S(m,ωk)| - F(ωk) (2.7)
Phân
đoạn
tín
hiệu
Ước lượng
đáp ứng
xung của
kênh truyền
Trừ ước
lượng này
ra khỏi tín
hiệu
Khơi
phục lại
tín hiệu
ban đầu
6
Như vậy ta đã loại trừ được thành phần tạo tiếng vang trong tín hiệu
tiếng nĩi, ta cũng đã trừ M(ωk) khỏi tín hiệu sạch, tuy nhiên nếu lấy
trung bình trên số lượng frame đủ lớn thì cĩ thể coi thành phần M(ωk)
khơng chứa nhiều thơng tin về các âm được phát ra.
Khi thực hiện thuật tốn, cĩ 2 cách để ước lượng giá trị của đáp ứng
xung của kênh truyền. Cĩ thể lấy trung bình logarit biên độ của một tần
số nhất định qua số lượng nhất định các frame, hoặc lấy trung bình trên
cả trục thời gian.
Phân tích thuật tốn trên
Trong thực tế, nhìn chung các đặc tính về truyền, phản xạ, hấp thụ
…sĩng âm thanh của phịng phụ thuộc vào tần số. Âm thanh ở tần số
cao bị suy giảm nhiều hơn khi truyền đi trong khơng khí, bị hấp thụ bởi
các bề mặt nhiều hơn là phản xạ so với âm thanh tần số thấp. Vì thế,
đáp ứng xung của phịng cĩ khuynh hướng như bộ lọc thơng thấp. Nên
việc trừ giá trị trung bình trong miền logarit của biên độ phổ tần số cĩ
tác dụng loại bỏ ảnh hưởng của lọc thơng thấp này. Ngược lại, các
thành phần tần số cao cĩ biên độ thấp, sau khi xử lý biên độ các thành
phần tần số này tăng. Thuật tốn này cũng làm cho tất cả các thành
phần tần số cĩ cùng giá trị trung bình theo thời gian là 0 (trong miền
logarit) hay 1 (trong miền tuyến tính).
Theo [6], cần áp dụng cửa sổ cĩ chiều dài N gấp ít nhất 4 lần chiều
dài đáp ứng xung, khi đĩ độ phân giải tần số cao, làm xuất hiện các
thành phần tần số ở cùng khung thời gian mà biên độ bằng 0 ở tín hiệu
chưa xử lý, ta gọi đây là nhiễu nhân tạo. Nhiễu này ảnh hưởng nhiều
đến chất lượng và tính dễ hiểu của tín hiệu tiếng nĩi. Vì thế cần thiết cĩ
quá tŕnh xử lý sau để giảm nhiễu nhân tạo.
2.3. CẢI TIẾN THUẬT TỐN TRỪ PHỔ
Thuật tốn trừ phổ tạo ra nhiễu nhân tạo, để giảm nhiễu này phải cĩ
thêm quá trình xử lý sau (Post Processing).
7
Post Processing thực hiện normalize logarit biên độ của cả tín hiệu
bị nhiễu và tín hiệu sau khi qua trừ phổ, dùng cửa sổ cĩ chiều dài bé
hơn nhiều so với N. So sánh biên độ của hai tín hiệu trên ở cùng một
tần số và khung thời gian, nếu biên độ ở tín hiệu sau khi qua trừ phổ lớn
hơn thì cho rằng phần biên độ lớn hơn là do nhiễu nhân tạo và làm suy
giảm biên độ này bằng một hệ số tùy thuộc mức năng lượng dơi ra. Với
những ơ mà năng lượng sau khi xử lý bé hơn năng lượng trước khi xử
lý, hệ số này bằng 1.
Tuy nhiên, chiều dài cửa sổ để phân tích tín hiệu nhỏ hơn, nên độ
phân giải thời gian tốt hơn và độ phân giải tần số kém hơn. Điều này bù
đắp cho những hạn chế của việc lấy chiều dài cửa sổ lớn trước đĩ,
nhưng do độ phân giải tần số kém nên khơng thể loại trừ được hết nhiễu
nhân tạo.
Thuật tốn để giảm nhiễu nhân tạo trên chưa thật sự tốt, vì:
Thuật tốn triệt tiếng vang, về mặt lý thuyết, phải dịch phần năng
lượng của tín hiệu do phản xạ theo các đường khác nhau ngược trở lại
vị trí của tín hiệu trực tiếp trong miền thời gian, làm năng lượng tín
hiệu ở một số ơ tăng. Dạng sĩng trong miền thời gian của tín hiệu nhiễu
bị méo và tín hiệu sau khi qua trừ phổ được đem so sánh với tín hiệu bị
nhiễu này, nên phần tín hiệu do tiếng vang sẽ khơng bị triệt tiêu hồn
tồn.
Thuật tốn trên cĩ thể làm thay đổi phân bố năng lượng của tín hiệu
tiếng nĩi, làm giảm khả năng so sánh các ơ trong spectrogram của tín
hiệu trước và sau xử lý trừ phổ.
2.4. THUẬT TỐN TẠO MẶT NẠ
Tiếng vang gồm hai thành phần là âm thanh phản xạ sớm và âm
thanh phản xạ muộn. Ở đây, ta chỉ tập trung vào để khử các âm thanh
phản xạ muộn. Quan sát, ta thấy đường bao của tín hiệu bị tiếng vang
cĩ dạng của đồ thị hàm mũ.
8
a
n
n
=
−
τ
1
exp (2.8)
Thơng số a đặc trưng cho thời gian phản xạ của kênh truyền và liên
quan đến T60 qua cơng thức:
( )
( )aT log
1000log60 −= (2.9)
Nếu chúng ta ước lượng a từ đường bao của tín hiệu bị tiếng vang thì cĩ
thể ước lượng được T60, từ đĩ xác định và loại bỏ các vùng tín hiệu chủ yếu
do tiếng vang, sơ đồ khối của thuật tốn tạo mặt nạ như ở hình 2.4.
Hình 2.4. Sơ đồ khối của thuật tốn tạo mặt nạ phổ
Tín hiệu được phân tích thành các dải tần số khác nhau sau đĩ tính
tốn đường bao của mỗi dải tần số này rồi chuyển sang thang dB. Hằng
số thời gian a của nhiễu tiếng vang được ước lượng ở mỗi tần số bằng
cách tính độ dốc của đường bao trên N mẫu. Một cửa sổ cĩ chiều dài N
sẽ được dịch trên đường bao của tín hiệu qua từng mẫu, dùng phép xấp
xỉ tuyến tính để tính độ dốc. Theo cách ước lượng trong [11], giá trị
chính xác của a được xác định dựa vào bộ số nhận được. Tiếp theo ta sử
dụng mặt nạ nhị phân để loại bỏ phần tín hiệu chủ yếu do tiếng vang.
Phân
đoạn
tín
hiệu
theo
dải tần
Ước lượng
RT60 của
kênh truyền
ở các dải tần
Xây dựng
mặt nạ
Nhân mặt
nạ với tín
hiệu bị
nhiễu +
khơi phục
lại tín hiệu
9
Phần dưới đây lần lượt trình bày các khối bộ lọc băng thơng, tính
tốn đường bao, ước lượng T60 và xây dựng mặt nạ trong thuật tốn.
2.4.1. Bộ lọc băng thơng
2.4.2. Phương pháp tính đường bao
Lấy đường bao từ phép biến đổi Hilbert
Từ tín hiệu g(t) qua biến đổi Hilbert ^g(t)
Mọi tín hiệu ^g(t) đều cĩ thể biểu diễn dưới dạng như sau :
( ) ( ){ } ( ){ }tgtgtg ∧+∧=∧ ImRe
( ) ( ){ } ( ){ }tgtgtg ∧−∧=∗∧ ImRe
( ) ( ) ( ){ } ( ){ }tgtgtgtgenv ∧∧ +=∗∧∗∧= 22 ImRe (2.14)
Hình 2.8. Tín hiệu và đường bao tín hiệu tiếng nĩi
Sử dụng mạch lọc thơng thấp
Kỹ thuật lấy đường bao tín hiệu bằng mạch lọc thơng thấp bằng
cách bình phương tín hiệu và sau đĩ cho qua mạch lọc thơng thấp. Sau
đĩ qua mạch lọc thơng thấp ta lọai bỏ tần số cao đi => chỉ cịn lại năng
lượng một chiều + tần số thấp, khai căn tín hiệu ta được đường bao tín
hiệu.
10
2.4.3. Ước lượng T60
Trong thực tế, nhiễu tiếng vang suy giảm và cộng vào nhiễu nền của
mơi trường truyền, nên việc xác định thời điểm tại đĩ mức nhiễu tiếng
vang bé hơn 60dB so với tín hiệu trực tiếp sẽ khĩ khăn. Vì thế, tốc độ
suy giảm của nhiễu tiếng vang được tính trong vùng tín hiệu suy giảm
từ 5dB đến 35dB so với mức tín hiệu trực tiếp, dùng phương pháp xấp
xỉ tuyến tính. Sau đĩ, tính thời gian cần thiết để tín hiệu suy giảm 60dB
với cùng tốc độ suy giảm đo được ở trên.
Phương pháp xấp xỉ tuyến tính
Đây là một trong những phương pháp xấp xỉ đơn giản nhất, tìm
quan hệ tuyến tính giữa các đại lượng quan sát được.
Tín hiệu tiếng nĩi được phân tích thành các băng tần khác nhau, lấy
đường bao và chuyển sang thang dB. Dùng xấp xỉ tuyến tính để chọn a
sao cho đường thẳng hệ số gĩc là a gần trùng khít với đường bao tín
hiệu trong miền logarit.
Cách ước lượng T60
Ước lượng của a được tính tại mỗi khung thời gian cĩ chiều dài N.
Tịnh tiến khung này theo thời gian, ta sẽ cĩ bộ số là các ước lượng của
a ở một dải tần nhất định. Vài trong số các giá trị này nhận được ở
khung thời gian mà tín hiệu trực tiếp đã ngắt, vài giá trị lại nhận được
trong khung thời gian mà tiếng nĩi vẫn cịn hoặc được ngắt chậm dần,
tương ứng với ước lượng sai. Vì thế, cần chọn lựa hệ số a đúng giữa các
ước lượng ak* (k là chỉ số thời gian của khung) nhận được, bằng cách
xem xét phân bố của các ước lượng này trên số lượng giá trị a vừa đủ.
Trong trường hợp nhận được giá trị ước lượng sai, τ cĩ khuynh hướng
tiến đến ∞ nên a tiến đến 1 hoặc biến thiên nhanh khơng xác định. Chỉ
xét các giá trị a âm thu được, người ta quan sát thấy a tương ứng với
khung thời gian cịn cĩ tiếng nĩi sẽ lớn hơn trong trường hợp nhiễu
tiếng vang. Vì thế, ước lượng đúng của a chính là biên dưới của các giá
11
trị nhận được, giá trị biên dưới này chỉ xuất hiện khi tiếng nĩi ngừng
đột ngột, khi đĩ mơ hình [11] mới cĩ ý nghĩa. Tuy nhiên, ngay cả khi
chỉ ước lượng trong các khung thời gian chỉ cĩ nhiễu tiếng vang, giá trị
ước lượng được vẫn cĩ khuynh hướng bé hơn giá trị đúng thực sự, do
cách ước lượng này dựa trên mơ hình thống kê. Một phương pháp hiệu
quả hơn là chọn một giá trị a ngưỡng a*, là ước lượng đúng của a, sao
cho phần diện tích dưới đường cong mật độ xác suất của a-p(a*) tính từ
a* đến -∞ đạt giá trị cho trước. Cĩ thể thực hiện điều này dựa vào biểu
thức sau:
( ) ( ) ( )
=== ∫
∗∗
x
aa dpxPxPa
0
:arg γ (2.16)
Cĩ thể thấy nếu chọn γ tiến đến 0, a=min(ak*)
Từ phân tích trên, N đĩng vai trị quan trọng trong việc ước lượng
được giá trị đúng của a. Giá trị N bé sẽ tăng giá trị của ước lượng.
Trong thực tế, dù cần cĩ N lớn, nhưng N lại bị giới hạn bởi độ dài của
khỏang lặng giữa các đoạn cĩ tiếng nĩi. Nếu độ dài của khỏang lặng bé,
khung thời gian cĩ N quá lớn sẽ lấn vào đoạn cĩ tiếng nĩi kế tiếp dẫn
đến ước lượng sai. Nên N cần lớn hơn ít nhất ½τ hay 1/3τ, cịn giới hạn
trên của N phụ thuộc vào chiều dài trung bình của khỏang lặng trong tín
hiệu tiếng nĩi sạch.
Sau khi đã tìm được bộ giá trị ước lượng của a và ước lượng được
giá trị đúng của a, xây dựng mặt nạ như sau. Với ak*>>a* xem đĩ
khơng phải do nhiễu tiếng vang và giá trị mặt nạ tại đĩ bằng 1, ngược
lại nếu ak* sai khác a* trong một khỏang cho phép, coi phần tín hiệu
chủ yếu do nhiễu tiếng vang và cho giá trị mặt nạ bằng 0. Giá trị mặt nạ
tại vị trí i ở dải tần nào đĩ được xác định.
12
2.4.4. Xây dựng mặt nạ
Phần tín hiệu ngõ ra chủ yếu do tiếng vang sẽ bị loại bỏ cách sử
dụng mặt nạ nhị phân. Trong thực tế, ta thấy rằng mặt nạ nhị phân tạo
nên nhiễu nhân tạo rất khĩ chịu trong các khỏang chuyển tiếp. Để giải
quyết vấn đề này, ta “ làm mượt “ mặt nạ bằng bộ lọc làm mượt trung
bình.
2.4. KẾT LUẬN CHƯƠNG
Chương này nghiên cứu hai thuật tốn giảm nhiễu tiếng vang là trừ
phổ và tạo mặt nạ. Cả 2 thuật tốn này đều khơng yêu cầu thơng tin về
nguồn và kênh truyền. Thuật tốn trừ phổ loại bỏ thành phần phổ tiếng
vang bằng cách trừ giá trị trung bình ước lượng của logarit của phổ tần
số. Thuật tốn tạo mặt nạ thực hiện việc ước lượng hằng số thời gian
của nhiễu tiếng vang ở các băng tần số khác nhau, rồi xây dựng mặt nạ
loại bỏ phần nhiễu tiếng vang. Ta cũng đã phân tích về lý thuyết cách
chọn giá trị các tham số ở mỗi thuật tốn để tín hiệu sau xử lý cĩ chất
lượng tốt nhất.
CHƯƠNG 3 - CÁC PHƯƠNG PHÁP ĐÁNH GIÁ
CÁC THUẬT TỐN
3.1. MỞ ĐẦU CHƯƠNG
Ở chương 2 ta đã phân tích các thuật tốn để làm giảm nhiễu tiếng
vang của tín hiệu. Tuy nhiên làm cách nào để đánh giá được thuật tốn
nào là hiệu quả nhất. Để xác định được điều này ta phải xét đến các
phương pháp đánh giá chất lượng tiếng nĩi. Cĩ hai phương pháp đánh
giá chất lượng chủ yếu là đánh giá chủ quan và đánh giá khách quan. Ở
chương này ta sẽ giới thiệu về các phương pháp đánh giá chất lượng
tiếng nĩi mà tập trung chủ yếu vào các phương pháp đánh giá khách
quan.
13
3.2. PHƯƠNG PHÁP ĐÁNH GIÁ CHỦ QUAN
Đánh giá chủ quan là phương pháp đánh giá chất lượng tiếng nĩi
dựa trên cảm nhận chủ quan của người nghe. ITU-T đã chuẩn hĩa hầu
hết các phương pháp chung cho việc đo chất lượng đánh giá chủ quan
của việc truyền tín hiệu tiếng nĩi thơng qua các hệ thống thơng tin âm
thanh.
Một cuộc kiểm tra nghe được thực hiện bởi một số lượng người sẽ
nghe các phần ghi âm, đĩ là những đoạn đã bị suy giảm bởi kênh truyền
và những đoạn được nâng cao chất lượng nhờ các thuật tốn đang kiểm
tra. Các người đánh giá sẽ đưa ra các ý kiến của mình về chất lượng của
mỗi tín hiệu sử dụng thang đo chất lượng tiếng nĩi được quy định.
MOS là điểm đánh giá trung bình thơng qua các ý kiến chủ quan và chỉ
ra chất lượng đánh giá của hệ thống hay các thuật tốn cần kiểm tra.
Cĩ nhiều chỉ tiêu để đánh giá chất lượng tiếng nĩi theo phương pháp
đánh giá chủ quan. Ở đây ta tập trung vào các chỉ tiêu sau:
Tín hiệu tiếng nĩi riêng biệt được kiểm tra bằng cách sử dụng thang
đo 5 điểm của độ méo tín hiệu. Như bảng 3.1.
Nhiễu nền bằng cách sử dụng thang đo 5 điểm của nhiễu nền. Như
bảng 3.2.
3.3. PHƯƠNG PHÁP ĐÁNH GIÁ KHÁCH QUAN
Với việc tạo ra nhiều hệ thống nâng cao chất lượng tiếng nĩi và hệ
thống trao đổi âm thanh một cách nhanh chĩng, thì cũng cần cĩ sự phát
triển các phép đo chất lượng tiếng nĩi cái mà tương quan với chất
lượng tiếng nĩi chủ quan. Trong suốt quá trình thiết kế và thực hiện các
thuật tốn, các bộ mã hĩa giải mã và các hệ thống thơng tin, đánh giá
chất lượng khách quan là cơng cụ đánh giá cĩ giá trị. Đánh giá chất
lượng khách quan là phương pháp đánh giá chất lượng dựa trên các
phép đo thuộc tính của tín hiệu.
14
Thơng thường, đánh giá chất lượng khách quan cĩ thể được phân
chia trong 3 miền: miền thời gian, miền phổ và miền giác quan.
Miền thời gian thường thích hợp với hệ thống tương tự hoặc hệ
thống được mã hĩa dạng sĩng trong đĩ nơi nhận tạo ra lại dạng sĩng.
Tuy nhiên, nĩ cĩ thể cịn được sử dụng để xác định sự cải thiện chất
lượng tiếng nĩi. Tỉ số tín hiêu trên nhiễu (SNR) và SNR trên từng đoạn
tín hiệu là các phép đo thơng thường trong miền thời gian.
Các phép đo dựa trên phép dự đốn tuyến tính trong miển phổ
thường được dùng nhiều hơn miền thời gian và ít bị ảnh hưởng bởi các
sai số về thời gian cĩ thể cĩ giữa tín hiệu ban đầu và tín hiệu nhận được
hay được xử lý. Hầu hết các phép đo trong miền phổ liên quan đến thiết
kế bộ mã hĩa và giải mã tiếng nĩi.
Các phép đo trong miền giác quan dựa trên các mẫu hệ thống thính
giác của con người. Phép đo này cĩ sự tương quan với chất lượng chủ
quan của tiếng nĩi cao hơn khi so sánh với các phép đo trong miền thời
gian hay miền phổ. Theo lý thuyết, các thơng tin liên quan đến tri giác
cĩ khả năng và cần thiết cho sự đánh giá chính xác chất lượng tiếng
nĩi.
3.3.1. Các phép đo trong miền thời gian
3.3.1.1. Phép đo tỉ số giữa tín hiệu và tiếng vang trên từng khung
3.3.1.2. Phép đo dựa vào đáp ứng xung
3.3.2. Các phép đo trong miền phổ
3.3.2.1. Phép đo LLR
3.3.2.2. Phép đo IS
3.3.2.3. Phép đo CEP
3.3.3. Các phép đo trong miền tri giác
Các phép đánh giá khách quang trên được quan tâm vì chúng đơn
giản để thực hiện và dễ dàng đánh giá được. Tuy nhiên, khả năng của
chúng trong việc dự đốn sujbjective quality là cĩ giới hạn, như chúng
15
khơng thể thực hiện việc xử lý tín hiệu bao gồm các thiết bị ngoại vi âm
thanh. Do vậy đã cĩ nhiều nghiên cứu được thực hiện để phát triển
phép đánh giá khách quang dựa trên các khối human auditory speech
preception. Do vậy ở đây ta sẽ xét các phương pháp đo dựa trên cảm
nhận của con người.
3.3.3.1. Phép đo WSS
3.3.3.2. Phép đo BSD
3.3.3.3. Phép đo PESQ
3.3.4. Phép đo kết hợp
3.4. KẾT LUẬN CHƯƠNG
Chương này đã trình bày một số phép đo chất lượng tiếng nĩi sau
khi xử lý giảm nhiễu bằng các thuật tốn xử lý tiếng nĩi bị tiếng vang
mà tập trung chủ yếu ở các phép đo khách quan. Qua đánh giá ta thấy
mỗi phép đo chất lượng tiếng nĩi khác nhau dựa trên những chỉ tiêu
khác nhau về chất lượng tiếng nĩi. Trong các phép đo khách quan trên
thì các phép đo trong miền tri giác cĩ hệ số tương quan cao nhất với các
phép đo chủ quan.
CHƯƠNG 4 – KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ
4.1. MỞ ĐẦU CHƯƠNG
Để đánh giá hiệu quả của các thuật tốn nâng cao chất lượng tiếng
nĩi. chương này sẽ thực hiện mơ phỏng dựa trên tín hiệu âm thanh
trước và sau xử lý để tìm ra kết quả tốt nhất của các thuật tốn cũng
như kiểm tra độ tin cậy của các phép đo khách quan.
4.2. CƠ SỞ DỮ LIỆU SỬ DỤNG
Để đánh giá hiệu quả của kĩ thuật này, cơ sở dữ liệu được xây dựng
gồm các câu tiếng Việt trích từ VOA, cĩ chiều dài trung bình là 8s,
gồm cả giọng nam và nữ. Đáp ứng xung của kênh truyền được xây
dựng từ đáp ứng xung của một phịng, với những khỏang cách ghi âm
16
khác nhau [0.1 0.25 0.5 0.75 1 1.5 3 4] m, chiều dài đáp ứng xung trung
bình khoảng 0.3s. Tín hiệu tiếng nĩi bị nhiễu tiếng vang cĩ được bằng
cách nhân chập tín hiệu sạch với đáp ứng xung trên.
4.3. KIỂM TRA ĐỘ TIN CẬY CỦA CÁC PHÉP ĐO KHÁCH
QUAN
Các phép đo chất lượng tiếng nĩi khách quan đã trình bày ở chương
3 thường được sử dụng trong các ứng dụng nâng cao chất lượng tiếng
nĩi tuy nhiên ta vẫn chưa xác định được nĩ cĩ thể đánh giá tốt chất
lượng tiếng nĩi trong mơi trường bị nhiễu tiếng vang hay khơng.
Để kiểm tra độ tin cậy của các phép đo này đối với tín hiệu trong
mơi trường bị nhiễu tiếng vang, ta tiến hành phép đo chất lượng của tín
hiệu bị nhiễu tiếng vang so với tín hiệu sạch theo các phương pháp
đánh giá trên. Các mẫu tiếng nĩi được thực hiện tại tần số lấy mẫu là
f=8000.
4.3.1. Các phép đo trong miền thời gian
- Phép đo tỉ số tín hiệu trên tiếng vang (SRR)
- Phép đo tỉ số tín hiệu trên tiếng vang (trên mỗi đoạn:
SEG_SRR)
Nhận xét:
Theo các hình 4.1 và hình 4.2 nhận thấy, phép đo SEG_SRR cho kết
quả chính xác hơn, bởi vì tín hiệu giảm dần theo khoảng cách từ nguồn
đến nơi thu, điều này phản ánh đúng chất lượng tiếng nĩi bị nhiễu tiếng
vang. Phép đo này cĩ độ tin cậy tốt tuy nhiên độ ổn định theo các tín
hiệu khác nhau vẫn cịn khá lớn nhất là trong dải băng tần hẹp. Cĩ thể
dùng phép đo SEG_SRR để đo chất lượng tiếng nĩi sau xử lý nhiễu
tiếng vang. Cịn phép đo SRR khơng phản ánh đúng bản chất của tín
hiệu bị nhiễu tiếng vang nhất là ở khoảng cách gần nên khơng dùng để
đo chất lượng tiếng nĩi sau xử lý nhiễu tiếng vang.
4.3.2. Các phép đo trong miền phổ
17
- Phép đo CEP
- Phép đo IS
- Phép đo LLR
Nhận xét:
Theo các hình 4.3, hình 4.4 và hình 4.5 nhận thấy các phép đo trong
miền phổ cĩ độ tin cậy khơng cao trong mơi trường bị nhiễu tiếng vang.
Nhất là phép đo IS, phép đo hầu như khơng đánh giá được chất lượng
tín hiệu bị nhiễu tiếng vang, đặc biệt là ở khoảng cách 100-150cm. Các
phép đo CEP và LLR cĩ đánh giá được chất lượng tín hiệu bị tiếng
vang nhưng độ ổn định kém, phép đo CEP cho kết quả chính xác hơn,
nên khơng thể dùng để đánh giá tín hiệu bị nhiễu tiếng vang.
4.3.3. Các phép đo trong miền tri giác
- Phép đo WSS
- Phép đo PESQ
Nhận xét:
Theo hình 4.5 và hình 4.7 ta thấy các phép đo trong miền tri giác
đánh giá chất lượng tiếng nĩi rất tốt phản ánh đúng chất lượng của tiếng
nĩi bị nhiễu tiếng vang. Độ ổn định của phương pháp theo khoảng cách
cũng như theo các tín hiệu rất tốt. Như vậy độ tin cậy của các phép tốn
này tốt nhất trong mơi trường bị nhiễu tiếng vang, nên dùng để đánh giá
tín hiệu bị nhiễu tiếng vang.
4.4. THUẬT TỐN TRỪ PHỔ
Các tín hiệu tiếng nĩi bị nhiễu tiếng vang được xử lý qua thuật tốn
trừ phổ, sau đĩ kiểm tra chất lượng của tiếng nĩi sau khi xử lý bằng các
phép đo đã được kiểm tra, so sánh chất lượng tiếng nĩi trước và sau xử
lý.
4.4.1. Dạng sĩng và phổ của tín hiệu
Nhận xét:
18
Sau khi nghe các đoạn âm thanh và thực hiện quan sát dạng sĩng,
phổ của tín hiệu sạch như hình 4.8, dạng sĩng và phổ của tín hiệu bị
nhiễu tiếng vang như hình 4.9 và dạng sĩng, phổ tín hiệu sau khi xử lý
bằng thuật tốn trừ phổ như hình 4.10, nhận thấy:
Tín hiệu sau khi xử lý bằng thuật tốn trừ phổ cĩ rất nhiều thành
phần nhiễu nhân tạo. Chất lượng khơng những khơng được cải thiện mà
cịn tệ hơn khi chưa xử lý.
Chất lượng khơng những khơng được cải thiện mà cịn tệ hơn khi
chưa xử lý.
4.4.2. Dạng sĩng và phổ của tín hiệu sau xử lý post processing
Nhận xét:
Sau khi nghe các đoạn âm thanh và quan sát các dạng sĩng và phổ
của tín hiệu đã xử lý bằng thuật tốn trừ phổ cĩ thêm phần xử lý post
processing ở hình 4.11 nhận thấy, chất lượng tín hiệu khi cĩ xử lý post
processing được cải thiện đáng kể so với khi khơng cĩ xử lý post
processing. Nhiễu nhân tạo đã được giảm đáng kể tuy nhiên vẫn cịn
tồn tại.
4.4.3. Thay đổi thơng số của thuật tốn
Trong quá trình nghiên cứu và triển khai thuật tốn tác giả nhận thấy
thơng số chiều dài cửa sổ ảnh hưởng lớn đến hiệu quả thuật tốn:
Khi thay đổi chiều dài cửa sổ với các giá trị khác nhau N=0.064,
0.256 ,1.024...Sau khi tín hiệu được đánh giá bởi các phép đánh giá,
nhận thấy khi chiều dài của sổ thay đổi thì chất lượng của tín hiệu cũng
thay đổi theo. Cụ thể giá trị N=0.064 và N=0.256 cho ra kết quả gần
như nhau. Đối với các phép đo miền thời gian và miền phổ thì N=0.256
cho kết quả tốt nhất. Cịn với các phép đo trong miền tri giác thì
N=0.064 cho ra kết quả tốt nhất.
- Nhìn chung giá trị N=0.064 cho ra kết quả tốt hơn.
4.4.4. Đánh giá thuật tốn trừ phổ
19
- Phép đo SEG_SRR
- Phép đo WSS
- Phép đo PESQ
Hình 4.14. Kết quả phép đo PESQ
Nhận xét:
- Theo các hình 4.12, hình 4.13 và 4.14, nhận thấy tín hiệu bị
nhiễu tiếng vang sau khi được xử lý bằng thuật tốn trừ phổ đều đã
được cải thiện.
4.4.5. Đánh giá thuật tốn trừ phổ cĩ thêm phần xử lý post
processing
- Phép đo SEG_SRR
- Phép đo WSS
- Phép đo PESQ
20
Hình 4.17. Kết quả phép đo PESQ
Nhận xét:
- Theo các hình 4.15, hình 4,16 và hình 4.17, nhận thấy tín hiệu
bị nhiễu tiếng vang sau khi được xử lý thêm post processing thì tín hiệu
được cải thiện hơn khi khơng cĩ xử lý post processing.
- Theo phép đo SEG_SRR thì tín hiệu khi cĩ post processing
được cải thiện đáng kể so với khi khơng cĩ post processing. Cịn phép
đo WSS và PESQ thì khơng khác nhau nhiều.
4.5. THUẬT TỐN TẠO MẶT NẠ
4.5.1. Dạng sĩng và phổ của tín hiệu
Nhận xét:
Quan sát hình 4.18, hình 4.19, hình 4.20 và nghe âm thanh nhận
thấy: Dạng sĩng và chất lượng âm thanh ra cĩ vẻ tốt hơn khi chưa xử lý
nhưng khơng nhiều. Âm thanh ra khơng cĩ nhiễu nhân tạo.
21
4.5.2. Thay đổi các thơng số của thuật tốn
- Thơng số chiều dài cửa sổ
- Thơng số độ lệch cho phép của hệ số a
4.5.3. Đánh giá thuật tốn tạo mặt nạ
- Phép đo SEG_SRR
- Phép đo WSS
- Phép đo PESQ
Hình 4.23. Kết quả phép đo PESQ
Nhận xét:
- Theo hình 4.21, hình 4.22 và hình 4.23 nhận thấy, tuy phép đo
WSS đánh giá đúng hiệu quả của thuật tốn trừ phổ. Tuy nhiên đối với
thuật tốn tạo mặt nạ thì nĩ khơng cịn đáng tin cậy nữa, vì nĩ cho kết
quả trái ngược lại kết quả khi đánh giá bằng PESQ.
- Theo phép đo SEG_SRR thì tín hiệu bị nhiễu tiếng vang sau
khi xử lý bằng thuật tốn tạo mặt nạ cho kết quả tốt hơn nhiều so với xử
lý bằng thuật tốn trừ phổ.
22
- Theo phép đo PESQ thì tín hiệu bị nhiễu tiếng vang sau khi xử
lý bằng thuật tốn trừ phổ cho kết quả tốt hơn ở vùng gần (trong
khoảng nhỏ hơn 1,5m) cịn thuật tốn tạo mặt nạ cho chất lượng tốt hơn
ở vùng xa.
So sánh cả 4 loại tín hiệu:
- Phép đo SEG_SRR
- Phép đo WSS
- Phép đo PESQ
Hình 4.26. Kết quả phép đo PESQ
Nhận xét: Từ các hình 4.24, hình 4.25 và hình 4.26 nhận thấy tín
hiệu bị nhiễu tiếng vang sau khi được xử lý đều được cải thiện chất
lượng của tín hiệu.
4.6. KẾT LUẬN CHƯƠNG
Qua các phép tốn đánh giá chất lượng tiếng nĩi khách quan của các
tín hiệu trước và sau khi xử lý bằng hai thuật tốn ta rút ra các kết luận
sau:
23
- Đối với thuật tốn trừ phổ, việc thêm vào quá trình xử lý post
processing cĩ ảnh hưởng rất lớn đến chất lượng tín hiệu xử lý, nĩ làm
tăng chất lượng tiếng nĩi một cách hiệu quả.
- Đối với các khoảng cách thu khác nhau thì các phép cải thiện
chất lượng cho ra kết quả khác nhau. Thuật tốn trừ phổ cho kết quả tốt
hơn ở vùng gần (trong khoảng nhỏ hơn 1,5m) cịn thuật tốn tạo mặt nạ
phổ cho chất lượng tốt hơn ở vùng xa.
- Tín hiệu âm thanh sau khi xử lý với thuật tốn tạo mặt nạ phổ
khơng bị nhiễu nhân tạo như phương pháp trừ phổ.
24
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI
Sau khoảng thời gian nghiên cứu và thực hiện đề tài, cùng sự giúp
đỡ, hướng dẫn và định hướng của các thầy tơi đã hồn thành luận văn
này và đã đạt những kết quả nhất định sau:
- Luận văn đã trình bày lý thuyết về tín hiệu và ảnh hưởng của
tiếng vang, nghiên cứu 2 thuật tốn xử lý giảm nhiễu tiếng vang (trừ
phổ và tạo mặt nạ) và viết chương trình thực hiện 2 thuật tốn
- Đánh giá hiệu quả của 2 thuật tốn kết quả là:
+ Cả hai thuật tốn đã hiệu quả cho việc xử lý tín hiệu bị nhiễu
tiếng vang, thuật tốn trừ phổ hiệu quả hơn ở khoảng cách gần cịn
thuật tốn tạo mặt nạ hiệu quả ở khoảng cách xa.
+ Khơng phải tất cả các phép đánh giá hiệu quả trong mơi
trường nhiễu thì hiệu quả trong mơi trường bị nhiễu tiếng vang, mà chỉ
cĩ một số phép đo hiệu quả như phép đo PESQ và phép đo SEG_SRR
cịn phép đo khoảng cách WSS thì tương đối hiệu quả.
Vì lý do hạn chế về thời gian thực hiện luận văn, cũng như giới hạn
về điều kiện nghiên cứu thực nghiệm tác giả đề xuất các hướng nghiên
cứu tiếp theo.
- Nghiên cứu các thuật tốn xử lý giảm nhiễu tiếng vang khác
dựa trên mơ hình thống kê để khai thác tính chất khác nhau giữa tiếng
nĩi và tiếng vang.
- Đánh giá hiệu quả của thuật tốn với các mơi trường nhiễu
tiếng vang phức tạp hơn.
- Xét đến ảnh hưởng của nhiễu nền lên hiệu quả của thuật tốn.
- Nghiên cứu các phép đánh giá khách quan để phù hợp cho việc
đánh giá xử lý tiếng vang.
Các file đính kèm theo tài liệu này:
- tomtat_74_9036.pdf