Nghiên cứu các thuật toán mờ để giảm nhiễu tiếng vang trong miền phổ nhằm nâng cao chất lượng tiếng nói
          
        
            
               
            
 
            
                
                    NGHIÊN CỨU CÁC THUẬT TÓAN MỜ ĐỂ GIẢM NHIỄU TIẾNG VANG 
TRONG MIỀN PHỔ NHẰM NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI 
STUDY ON SPECTRAL-BASED BLIND DEREVERBERATION ALGORITHMS FOR 
SPEECH ENHANCEMENT 
 
SVTH: Nguyễn Thị Phương Mai, Trần Thủy Nguyên, Đỗ Thị Hoàng Yến 
Lớp 05DT1,2, Khoa Điện tử Viễn thông, Trường Đại học Bách khoa 
GVHD : TS. Phạm Văn Tuấn 
Khoa Điện tử Viễn thông, Trường Đại họcBách khoa 
 
TÓM TẮT 
Bài báo này nghiên cứu và đánh giá hiệu quả của hai kĩ thuật nâng cao chất lượng tín hiệu 
tiếng nói trong môi trường nhiễu tiếng vang. Phương pháp thứ nhất loại bỏ thành phần phổ tiếng 
vang bằng cách trừ giá trị trung bình ước lượng của logarit của phổ tần số. Phương pháp thứ hai 
thực hiện việc ước lượng hằng số thời gian của nhiễu tiếng vang ở các băng tần số khác nhau, rồi 
xây dựng mặt nạ loại bỏ phần nhiễu tiếng vang. Các thuật toán này được kiểm tra trên cơ sở dữ 
liệu tiếng nói tiếng Việt. Kết quả đánh giá khách quan cho thấy hai thuật tóan trên đều nâng cao 
chất lượng tiếng nói bị nhiễu tiếng vang. Thuật tóan mặt nạ, nhìn chung, cho tín hiệu ra có chất 
lượng tốt hơn và ổn định hơn. Hiệu quả của thuật toán thể hiện rõ ở vùng nhiễu tiếng vang xa. 
ABSTRACT 
The objective of this paper is performance assessment of two techniques for speech 
enhancement in reverberant environment. The estimation of clean signal is done by subtracting the 
mean of logarithm of spectrum in the spectral subtraction algorithm while in the masking algorithm, 
T60 of acoustic channel is estimated and part of the signal dominated largely by reverberation is 
then removed. The algorithms are tested on a Vietnamese speech corpus. The objective evaluation 
results show that these two algorithms improve speech quality and intelligibility of degraded signal. 
In general, the making method performs better than mean subtraction in sense of speech quality 
improvement. The efficiency of blind technique is more obvious in far field. 
1. Giới thiệu 
 Nhiễu tiếng vang sinh ra do đế
, nhiễu này ảnh hưởng nhiều đến chất lượng và tính hiểu được 
của tiếng nói (hình 1). Xử lý triệt/giảm tiếng vang (dereverberation) là vấn đề không đơn 
giản vì thông thường thông tin về tính chất của nguồn tín hiệu và điều kiện của kênh truyền 
âm thanh không được biết trước hoặc chỉ có rất ít kiến thức liên quan được cung cấp. 
 
Hình 1 : Tín hiệu tiếng nói bị nhiễu tiếng vang 
 Cho đến nay, kỹ thuật xử lý tiếng vang được phân thành hai loại là các kỹ thuật 
giảm tiếng vang và các kỹ thuật loại bỏ tiếng vang [3] tùy thuộc kĩ thuật đó có ước lượng 
đáp ứng xung của kênh truyền hay không. Bài báo này đánh giá hiệu quả nâng cao chất 
lượng tiếng nói của 2 thuật tóan giảm tiếng vang: thuật tóan trừ phổ (spectral subtraction) 
[1] và thuật tóan tạo mặt nạ (spectral masking) [6]. Hiệu quả hai thuật tóan này được thử 
nghiệm trên cơ sở dữ liệu tiếng Việt, ảnh hưởng của các thông số đến hiệu quả thuật toán 
cũng được khảo sát, hiệu quả của 2 thuật tóan được so sánh ở các khỏang cách nguồn-
microphone khác nhau. Bài báo chia làm ba phần, lần lượt đề cập đến hai thuật toán trên và 
các phương pháp đánh giá chất lượng của các thuật toán và kết quả đánh giá đạt được. 
2. Thuật toán trừ phổ 
2.1. Thuật toán 
 
Hình 2: Sơ đồ khối spectral subtraction 
 Thuật toán này được đề xuất cho hệ thống nhận dạng tiếng nói tự động (ASR) [2]. 
Sơ đồ khối thuật toán được trình bày trong hình 2. Tín hiệu bị nhiễu tiếng vang được biến 
đổi Fourier thời gian ngắn (cửa sổ Hanning, tỉ lệ chồng lấp 75%). Bằng cách chọn cửa sổ 
có chiều dài lớn hơn nhiều so với chiều dài đáp ứng xung với giả thiết đáp ứng xung qua 
các khung thời gian khác nhau là không đổi. Bằng cách trừ đi giá trị trung bình của logarit 
của phổ tần số, ảnh hưởng của tiêng vang lên tín hiệu sẽ được giảm xuống. 
 Do sử dụng cửa sổ có chiều dài lớn nên độ phân giải tần số cao, sau khi áp dụng trừ 
phổ sẽ làm xuất hiện nhiễu nhân tạo (artifact noise). Nhiễu nhân tạo ảnh hưởng nhiều đến 
chất lượng và tính dễ hiểu được của tín hiệu tiếng nói (điều này không quan trọng lắm với 
hệ thống ASR). Vì thể cần thiết có quá trình xử lý sau để giảm nhiễu nhân tạo. 
2.2. Post Processing 
 Post Processing là thủ tục xử lý nhiễu nhân tạo sinh ra do trừ phổ, thực hiện như 
sau. Thực hiện normalize logarit biên độ của cả tín hiệu bị nhiễu và tín hiệu sau khi qua trừ 
phổ, dùng cửa sổ win có chiều dài bé hơn nhiều so với N. So sánh biên độ của hai tín hiệu 
trên ở cùng một tần số và khung thời gian, nếu biên độ ở tín hiệu sau khi qua trừ phổ lớn 
hơn thì cho rằng phần biên độ lớn hơn là do nhiễu nhân tạo, và làm suy giảm biên độ này 
bằng một hệ số tùy thuộc mức năng lượng dôi ra. Với những ô mà năng lượng sau khi xử 
lý bé hơn năng lượng trước khi xử lý, hệ số này bằng 1. 
3. Thuật toán tạo mặt nạ phổ 
 
Hình 3: Sơ đồ khối thuật tóan spectral masking 
 Sơ đồ thuật toán được trình bày trong hình 3. Tín hiệu được phân tích thành các dải 
tần số khác nhau sau đó tính toán đường bao của mỗi dải tần số này rồi chuyển sang thang 
dB. Hằng số thời gian a của nhiễu tiếng vang được ước lượng ở mỗi tần số bằng cách tính 
độ dốc của đường bao trên N mẫu (N được chọn qua thử nghiệm nhiều giá trị khác nhau). 
Một cửa sổ có chiều dài N sẽ được dịch trên đường bao của tín hiệu qua từng mẫu, dùng 
phép đệ quy tuyến tính để tính độ dốc . Theo cách ước lượng trong [7], giá trị chính xác 
Phân đoạn 
tín hiệu 
 
Ước lượng đáp ứng 
xung của kênh truyền 
Trừ ước lượng này 
ra khỏi tín hiệu 
 
Khôi phục lại tín 
hiệu ban đầu 
 
Phân đoạn 
tín hiệu 
theo dải tần 
 
Ước lượng RT60 của 
kênh truyền ở các dải 
tần 
Xây dựng mặt 
nạ 
Nhân mặt nạ với tín 
hiệu bị nhiễu + khôi 
phục lại tín hiệu
                
              
                                            
                                
            
 
            
                 6 trang
6 trang | 
Chia sẻ: lvcdongnoi | Lượt xem: 3293 | Lượt tải: 3 
              
            Bạn đang xem nội dung tài liệu Nghiên cứu các thuật toán mờ để giảm nhiễu tiếng vang trong miền phổ nhằm nâng cao chất lượng tiếng nói, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 7 Đại học Đà Nẵng năm 2010 
216 
NGHIÊN CỨU CÁC THUẬT TÓAN MỜ ĐỂ GIẢM NHIỄU TIẾNG VANG 
TRONG MIỀN PHỔ NHẰM NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI 
STUDY ON SPECTRAL-BASED BLIND DEREVERBERATION ALGORITHMS FOR 
SPEECH ENHANCEMENT 
SVTH: Nguyễn Thị Phương Mai, Trần Thủy Nguyên, Đỗ Thị Hoàng Yến 
Lớp 05DT1,2, Khoa Điện tử Viễn thông, Trường Đại học Bách khoa 
GVHD : TS. Phạm Văn Tuấn 
Khoa Điện tử Viễn thông, Trường Đại họcBách khoa 
TÓM TẮT 
Bài báo này nghiên cứu và đánh giá hiệu quả của hai kĩ thuật nâng cao chất lượng tín hiệu 
tiếng nói trong môi trường nhiễu tiếng vang. Phương pháp thứ nhất loại bỏ thành phần phổ tiếng 
vang bằng cách trừ giá trị trung bình ước lượng của logarit của phổ tần số. Phương pháp thứ hai 
thực hiện việc ước lượng hằng số thời gian của nhiễu tiếng vang ở các băng tần số khác nhau, rồi 
xây dựng mặt nạ loại bỏ phần nhiễu tiếng vang. Các thuật toán này được kiểm tra trên cơ sở dữ 
liệu tiếng nói tiếng Việt. Kết quả đánh giá khách quan cho thấy hai thuật tóan trên đều nâng cao 
chất lượng tiếng nói bị nhiễu tiếng vang. Thuật tóan mặt nạ, nhìn chung, cho tín hiệu ra có chất 
lượng tốt hơn và ổn định hơn. Hiệu quả của thuật toán thể hiện rõ ở vùng nhiễu tiếng vang xa. 
ABSTRACT 
The objective of this paper is performance assessment of two techniques for speech 
enhancement in reverberant environment. The estimation of clean signal is done by subtracting the 
mean of logarithm of spectrum in the spectral subtraction algorithm while in the masking algorithm, 
T60 of acoustic channel is estimated and part of the signal dominated largely by reverberation is 
then removed. The algorithms are tested on a Vietnamese speech corpus. The objective evaluation 
results show that these two algorithms improve speech quality and intelligibility of degraded signal. 
In general, the making method performs better than mean subtraction in sense of speech quality 
improvement. The efficiency of blind technique is more obvious in far field. 
1. Giới thiệu 
 Nhiễu tiếng vang sinh ra do đế
, nhiễu này ảnh hưởng nhiều đến chất lượng và tính hiểu được 
của tiếng nói (hình 1). Xử lý triệt/giảm tiếng vang (dereverberation) là vấn đề không đơn 
giản vì thông thường thông tin về tính chất của nguồn tín hiệu và điều kiện của kênh truyền 
âm thanh không được biết trước hoặc chỉ có rất ít kiến thức liên quan được cung cấp. 
Hình 1 : Tín hiệu tiếng nói bị nhiễu tiếng vang 
 Cho đến nay, kỹ thuật xử lý tiếng vang được phân thành hai loại là các kỹ thuật 
giảm tiếng vang và các kỹ thuật loại bỏ tiếng vang [3] tùy thuộc kĩ thuật đó có ước lượng 
đáp ứng xung của kênh truyền hay không. Bài báo này đánh giá hiệu quả nâng cao chất 
lượng tiếng nói của 2 thuật tóan giảm tiếng vang: thuật tóan trừ phổ (spectral subtraction) 
Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 7 Đại học Đà Nẵng năm 2010 
217 
[1] và thuật tóan tạo mặt nạ (spectral masking) [6]. Hiệu quả hai thuật tóan này được thử 
nghiệm trên cơ sở dữ liệu tiếng Việt, ảnh hưởng của các thông số đến hiệu quả thuật toán 
cũng được khảo sát, hiệu quả của 2 thuật tóan được so sánh ở các khỏang cách nguồn-
microphone khác nhau. Bài báo chia làm ba phần, lần lượt đề cập đến hai thuật toán trên và 
các phương pháp đánh giá chất lượng của các thuật toán và kết quả đánh giá đạt được. 
2. Thuật toán trừ phổ 
2.1. Thuật toán 
Hình 2: Sơ đồ khối spectral subtraction 
 Thuật toán này được đề xuất cho hệ thống nhận dạng tiếng nói tự động (ASR) [2]. 
Sơ đồ khối thuật toán được trình bày trong hình 2. Tín hiệu bị nhiễu tiếng vang được biến 
đổi Fourier thời gian ngắn (cửa sổ Hanning, tỉ lệ chồng lấp 75%). Bằng cách chọn cửa sổ 
có chiều dài lớn hơn nhiều so với chiều dài đáp ứng xung với giả thiết đáp ứng xung qua 
các khung thời gian khác nhau là không đổi. Bằng cách trừ đi giá trị trung bình của logarit 
của phổ tần số, ảnh hưởng của tiêng vang lên tín hiệu sẽ được giảm xuống. 
 Do sử dụng cửa sổ có chiều dài lớn nên độ phân giải tần số cao, sau khi áp dụng trừ 
phổ sẽ làm xuất hiện nhiễu nhân tạo (artifact noise). Nhiễu nhân tạo ảnh hưởng nhiều đến 
chất lượng và tính dễ hiểu được của tín hiệu tiếng nói (điều này không quan trọng lắm với 
hệ thống ASR). Vì thể cần thiết có quá trình xử lý sau để giảm nhiễu nhân tạo. 
2.2. Post Processing 
 Post Processing là thủ tục xử lý nhiễu nhân tạo sinh ra do trừ phổ, thực hiện như 
sau. Thực hiện normalize logarit biên độ của cả tín hiệu bị nhiễu và tín hiệu sau khi qua trừ 
phổ, dùng cửa sổ win có chiều dài bé hơn nhiều so với N. So sánh biên độ của hai tín hiệu 
trên ở cùng một tần số và khung thời gian, nếu biên độ ở tín hiệu sau khi qua trừ phổ lớn 
hơn thì cho rằng phần biên độ lớn hơn là do nhiễu nhân tạo, và làm suy giảm biên độ này 
bằng một hệ số tùy thuộc mức năng lượng dôi ra. Với những ô mà năng lượng sau khi xử 
lý bé hơn năng lượng trước khi xử lý, hệ số này bằng 1. 
3. Thuật toán tạo mặt nạ phổ 
Hình 3: Sơ đồ khối thuật tóan spectral masking 
 Sơ đồ thuật toán được trình bày trong hình 3. Tín hiệu được phân tích thành các dải 
tần số khác nhau sau đó tính toán đường bao của mỗi dải tần số này rồi chuyển sang thang 
dB. Hằng số thời gian a của nhiễu tiếng vang được ước lượng ở mỗi tần số bằng cách tính 
độ dốc của đường bao trên N mẫu (N được chọn qua thử nghiệm nhiều giá trị khác nhau). 
Một cửa sổ có chiều dài N sẽ được dịch trên đường bao của tín hiệu qua từng mẫu, dùng 
phép đệ quy tuyến tính để tính độ dốc 
is
 . Theo cách ước lượng trong [7], giá trị chính xác 
Phân đoạn 
tín hiệu 
Ước lượng đáp ứng 
xung của kênh truyền 
Trừ ước lượng này 
ra khỏi tín hiệu 
Khôi phục lại tín 
hiệu ban đầu 
Phân đoạn 
tín hiệu 
theo dải tần 
Ước lượng RT60 của 
kênh truyền ở các dải 
tần 
Xây dựng mặt 
nạ 
Nhân mặt nạ với tín 
hiệu bị nhiễu + khôi 
phục lại tín hiệu 
Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 7 Đại học Đà Nẵng năm 2010 
218 
của a được xác định dựa vào bộ số nhận được, giá trị này chính là s*. Tiếp theo ta sử dụng 
mặt nạ nhị phân để loại bỏ phần tín hiệu chủ yếu do tiếng vang, giá trị mặt nạ tại vị trí i ở 
dải tần nào đó được xác định như sau: 
otherwise
ssif
m ii
1
0 (1) 
 Giá trị α được chọn qua thực nghiệm. Hiệu quả của thuật toán cũng được tính dựa 
trên việc so sánh mặt nạ ước lượng với mặt nạ thật (tính theo tín hiệu sạch và tín hiệu 
nhiễu): 
otherwise
e
e
if
m
c
r
i
1
0
ˆ
 (2) 
4. Các kỹ thuật đánh giá khách quan 
 Ở trên, ta đã phân tích các thuật toán xử lý giảm tiếng vang. Để đánh giá được thuật 
toán nào có hiệu quả nhất, các thuật toán đánh giá chất lượng tiếng nói khách quan được sử 
dụng.Đánh giá khách quan là phương pháp đánh giá chất lượng dựa trên thuộc tính của tín 
hiệu, thường được dùng trong việc đánh giá các phương pháp nâng cao chất lượng tiếng 
nói : như phép đo tỉ số tín hiệu trên nhiễu tiếng 
vang; gồm các phép đo dựa trên các hệ số tuyến tính như khoảng cách Log 
Likehook Ratio (LLR), Itakura Saito (IS), và khoảng cách phổ (CEP) như trong [4] 
tri giác gồm phép đo khoảng cách độ dốc phổ (WSS) và các phép đo chất lượng đánh 
giá theo cảm nhận chủ quan (PESQ) bao gồm: 
 Weighted Spectral Slope (WSS) distance: 
 độ dốc phổ spectral slope đầu tiên . Sau đó tính toán sự khác nhau giữa 
hai spectral slope của hai tín hiệu bởi công thức: 
 L
k
xxxx kSkSkWCCd
1
2
ˆ ))()()((),(
 (3) 
 Perceptual Evaluation of Speech Quality (PESQ): Trong tất cả các objective 
measure thì PESQ là phương pháp phức tạp nhất tuy nhiên tính tương quan của nó cao nhất 
so với cảm nhận chủ quan. Các giá trị của PESQ nằm trong khoảng 0,5 đến 4,5 tương ứng 
với các thang đo trong phương pháp đánh giá chủ quan. 
5. Kết quả mô phỏng và đánh giá 
5.1. Cơ sở dữ liệu sử dụng 
 Để đánh giá hiệu quả của kĩ thuật này, cơ sở dữ liệu tiếng Việt được xây dựng gồm 
các câu tiếng Việt trích từ VOA, có chiều dài trung bình là 8s, gồm cả giọng nam và nữ. 
Đáp ứng xung của kênh truyền được xây dựng từ đáp ứng xung của một phòng họp, với 
những khỏang cách ghi âm khác nhau [0.1 0.25 0.5 0.75 1 1.5 3 4] m, chiều dài đáp ứng 
xung trung bình khoảng 0.3s. Tín hiệu tiếng nói bị nhiễu tiếng vang có được bằng cách 
nhân chập tín hiệu sạch với đáp ứng xung trên. 
Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 7 Đại học Đà Nẵng năm 2010 
219 
5.2. Kết quả mô phỏng 
5.2.1. Dùng thuật toán trừ phổ (spectral subtraction) 
 Áp dụng thuật toán với cơ sở dữ liệu trên, sử dụng giá trị N = 0.064, 0.256, 1.024 
và win = 0.016, 0.032. 
Hình 4: So sánh các win length Hình 5: PESQ không có post-
processing 
Hình 6: PESQ có và không có 
postprocessing N = 1.024, win = 0.016 
Hình 7: WSS có và không có post-processing 
N = 1.024, win = 0.016 
Hình 8: CEP có và không có post-processing 
N = 1.024, win = 0.016 
 Từ các kết quả mô phỏng trên ta rút ra kết luận: 
o Theo hình H4, chiều dài cửa sổ trong post processing có giá trị là 0.016 tốt hơn 0.032 
o Theo hinh H5, chiều dài tối ưu của N không nhất thiết phải lớn hơn 4 lần chiều dài 
đáp ứng xung như trong [1]. Khi chưa có post-processing, giá trị cửa sổ càng bé 
càng tốt. 
o Theo hình H6, H7,H8 ta thấy hai phương pháp đánh giá WSS và PESQ có mức độ 
tin cậy cao nhất trong số các phương pháp đánh giá chất lượng của tín hiệu sau khi 
qua xử lý triệt tiếng vang trong khi các phương pháp khác như so sánh khoảng cách 
phổ (CEP distance) không phản ánh đúng kết quả (các phương pháp đánh giá khác 
cho ra kết quả tương tự như CEP distance). Do vậy, các kết luận sau chỉ dựa vào 
hai chỉ số WSS và PESQ . 
o Theo hình H6 và H7, chất lượng tiếng nói sau xử lí phụ thuộc vào khoảng cách 
giữa nguồn và microphone, trong khoảng từ 1m trở lên thì chất lượng tiếng nói cải 
thiện rõ hơn. 
o Theo hình H5,H6,H7, post-processing cải thiện đáng kể chất lượng tín hiệu tiếng nói 
Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 7 Đại học Đà Nẵng năm 2010 
220 
5.2.2. Thuật toán tạo mặt nạ phổ (spectral masking) 
 Phần mô phỏng đã áp dụng masking method trên cùng cơ sở dữ liệu trên, thay đổi 
các thông số khác nhau để tìm các giá trị tối ưu cho thuật toán. Sau khi thực hiện nhận thấy 
hiệu quả thuật tóan phụ thuộc chiều dài cửa sổ, loại bộ lọc trong filter bank, loại đường 
bao, các giá trị sử dụng cho mặt nạ. Giá trị tối ưu cho là 0.015 như trong [6]. 
Hình 9: PESQ với các loại bộ lọc trong filterbank Hình 10: PESQ với các chiều dài cứa sổ khác nhau 
 Theo hình H10 nhận thấy khi dùng cửa sổ có chiều dài khác nhau để tính độ dốc 
của đường bao tín hiệu, win_sr = 1600, 800, 400,200. thì win_sz = 400 cho tín hiệu 
ra có chất lượng tốt nhất, giá trị này khác với win_sz = 1600 ứng với tần số lấy mẫu 
16000 trong [6] 
 Dùng các loại bộ lọc sau trong filterbank: butterworth độ dịch tần số không đổi, 
butterworth logarit tuyến tính, bộ lọc GammaTone. Kết quả mô phỏng (hình H9) 
cho thấy bộ lọc logbutter là tốt nhất. 
 Khi quan sát phổ của tín hiệu ta thấy tín hiệu sau xử lý masking method không tạo 
ra nhiễu nhân tạo, tần số cũng không bị dịch đi, làm tín hiệu xử lý dễ nghe hơn. 
 Mức độ cải thiện chất lượng tiếng nói tín hiệu sau xử lý không phụ thuộc vào khỏang 
cách và tín hiệu, hiệu quả của thuật tóan ở vùng xa rõ hơn so với ở vùng gần. 
6. Kết luận 
 Thông qua cơ sở dữ liệu tự tạo ra có độ dài trung bình 8s, qua tìm hiểu đánh giá hai 
phương pháp xử lý tiếng vang thực hiện trên các chương trình matlab ta có thể thấy: 
 Cả hai thuật toán đã cải thiện được chất lượng của tín hiệu bị nhiễu tiếng vang. 
 Phép đánh giá chất lượng tín hiệu sau khi xử lý giảm tiếng vang dựa trên PESQ và 
WSS có độ tin cậy vì tương quan với cảm nhận chủ quan của người nghe. 
 Khi sử dụng phương pháp trừ phổ, post procesing làm cải thiện chất lượng tín hiệu 
rõ . Chất lượng tín hiệu không được nâng cao nếu dùng trừ phổ và không sử dụng 
post processing. 
 Nhìn chung, masking method cho ra kết quả tốt hơn so với trừ phổ, tín hiệu sau xử 
lý không bị nhiễu nhân tạo, chất lượng tín hiệu ra không phụ thuộc vào đặc điểm 
tiếng nói. 
 Hiệu quả của cả hai thuật toán masking method và trừ phổ thể hiện rõ ở far_field 
hơn so với near_field. 
Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 7 Đại học Đà Nẵng năm 2010 
221 
 Trong nghiên cứu này, hiệu quả của thuật toán được đánh giá trong môi trường 
không có nhiễu trắng cộng. Hướng phát triển tiếp theo của nghiên cứu này là thử nghiệm 
hiệu quả của thuật toán trên cơ sở dữ liệu tiếng việt lớn hơn, dùng đáp ứng xung của các 
phòng họp khác và có xét đến ảnh hưởng của nhiễu nền lên hiệu quả của thuật toán. 
TÀI LIỆU THAM KHẢO 
[1] D.Gelbart, N.Morgan, “Evaluating Long-Term Spectral Subtraction For Reverberant 
ASR”, in ICSLP 2002. 
[2] C.Avendano, S.Tibrewala, and H.Hermansky, “Multiresolution Channel 
Normalization for ASR in Reverberant Environments”, in EUROSPEECH 1997, 
Rhodes, Greece, 1997. 
[3] Habets, Emanuel A.P, “Single- and Multi-Microphone Speech Dereverberation using 
Spectral Enhancement”, Eindhoven University Press, 2007. 
[4] Philipos C.Loizou, “Speech enhancement theory and practice”, chapter 10 “Evaluating 
Performance of Speech Enhancement Aglorithms”, CRC Press, June 2007. 
[5] Patrick A. Naylor, Nikolay D. Gaubitch, and Emanuël A. P. Habets, “Signal-Based 
Performance Evaluation of Dereverberation Algorithms”, Journal of Electrical and 
Computer Engineering, volume 2010 . 
[6] Graham Grindlay, “Blind Dereverberation of Audio Signals”, E4810 Final Project, 
University of Columbia, December 2008. 
[7] R.Ratnam, D.Jones, C.Wheeler, and D.O’Brien, “Blind Estimation of Reverbeartion 
Time”, Journal of the Acoutical Society of America, 114(5): 2877-2892, 2003. 
            Các file đính kèm theo tài liệu này:
 Nghiên cứu các thuật tóan mờ để giảm nhiễu tiếng vang trong miền phổ nhằm nâng cao chất lượng tiếng nói.pdf Nghiên cứu các thuật tóan mờ để giảm nhiễu tiếng vang trong miền phổ nhằm nâng cao chất lượng tiếng nói.pdf