Nghiên cứu các giải pháp giảm nhiễu tiếng vang trong thông tin thoại

- Luận văn đã trình bày lý thuyết về tín hiệu và ảnh hưởng của tiếng vang, nghiên cứu 2 thuật toán xử lý giảm nhiễu tiếng vang (trừ phổ và tạo mặt nạ) và viết chương trình thực hiện 2 thuật toán - Đánh giá hiệu quả của 2 thuật toán kết quả là: + Cả hai thuật toán đã hiệu quả cho việc xử lý tín hiệu bị nhiễu tiếng vang, thuật toán trừ phổ hiệu quả hơn ở khoảng cách gần còn thuật toán tạo mặt nạ hiệu quả ở khoảng cách xa. + Không phải tất cả các phép đánh giá hiệu quả trong môi trường nhiễu thì hiệu quả trong môi trường bị nhiễu tiếng vang, mà chỉ có một số phép đo hiệu quả như phép đo PESQ và phép đo SEG_SRR còn phép đo khoảng cách WSS thì tương đối hiệu quả.

26 trang | Chia sẻ: lylyngoc | Lượt xem: 2952 | Lượt tải: 2

Bạn đang xem trước 20 trang tài liệu Nghiên cứu các giải pháp giảm nhiễu tiếng vang trong thông tin thoại, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

1 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG TRẦN ĐỨC HẢI NGHIÊN CỨU CÁC GIẢI PHÁP GIẢM NHIỄU TIẾNG VANG TRONG THƠNG TIN THOẠI Chuyên ngành: Kỹ thuật Điện tử Mã số: 60.52.70 TĨM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2011 2 Cơng trình được hồn thành tại ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: TS PHẠM VĂN TUẤN Phản biện 1: TS. Ngơ Văn Sỹ Phản biện 2: TS. Nguyễn Hồng Cẩm Luận văn được bảo vệ tại Hội đồng chấm Luận văn tốt nghiệp thạc sĩ kỹ thuật họp tại Đại học Đà Nẵng vào ngày 21 tháng 5 năm 2011 *. Cĩ thể tìm hiểu luận văn tại: - Trung tâm Thơng tin - Học liệu, Đại học Đà Nẵng - Trung tâm Học liệu, Đại học Đà Nẵng. 1 MỞ ĐẦU 1. Tính cấp thiết của đề tài Sử dụng tiếng nĩi để giao tiếp là một cách tự nhiên và dễ dàng nhất để trao đổi các ý tưởng và suy nghĩ của con người. Ngày nay, khi xã hội phát triển, nhu cầu trao đổi thơng tin của con người càng trở nên cấp thiết và yêu cầu về chất lượng ngày càng cao. Các hệ thống thơng tin hoặc điều khiển bằng giọng nĩi đang được ứng dụng ngày càng nhiều trong thực tế, ví dụ điện thoại hands-free hay hệ thống thơng tin dùng trong phịng phẩu thuật….... Một trong các trở ngại chính của việc phát triển các hệ thống này là sự suy giảm chất lượng và tính hiểu được của tiếng nĩi do nhiễu tiếng vang. Nhiễu này sinh ra do quá trình truyền đa đường của âm thanh từ nguồn đến một hay nhiều microphone. Xử lý triệt hay giảm tiếng vang là vấn đề khơng đơn giản vì thơng thường thơng tin về tính chất của nguồn tín hiệu và điều kiện của kênh truyền âm thanh khơng được biết trước hoặc chỉ cĩ rất ít kiến thức liên quan được cung cấp Chính vì vậy “ nghiên cứu các giải pháp giảm nhiễu tiếng vang trong thơng tin thoại ” là đề tài cĩ tính khoa học và thực triễn cao. 2. Mục đích đề tài - Các cơ chế gây ra tiếng vang tại đầu cuối. - Các giải pháp giảm nhiễu tiếng vang dựa trên thơng tin kênh truyền và thơng tin của nguồn phát. - Các kỹ thuật đánh giá (khách quan và chủ quan) hiệu quả của các thuật tốn giảm nhiễu tiếng vang. 3. Phạm vi đề tài - Nghiên cứu các giải pháp để giảm nhiễu tiếng vang. - Lập trình thực hiện các thuật tốn trên bằng ngơn ngữ Matlab. - Nghiên cứu các phương pháp đánh giá. 2 - Đánh giá và so sánh hiệu quả của các giải pháp dựa trên cơ sở dữ liệu tiếng Việt. 4. Phương pháp nghiên cứu - Nghiên cứu lý thuyết, tìm hiểu các giải pháp giảm nhiễu tiếng vang trong thơng tin thoại và các phương pháp đánh giá. - Xây dựng cơ sở dữ liệu tiếng nĩi (Tiếng Việt được tích từ VOA), với các khoảng cách nguồn – microphone khác nhau. - Xây dựng chương trình thực hiện các thuật tốn của các giải pháp trên bằng ngơn ngữ Matlab. - Đánh giá hiệu quả và hiệu chỉnh thuật tốn. 5. Ý nghĩa khoa học và thực tiễn đề tài - Ứng dụng lý thuyết học máy, kỹ thuật xử lý tín hiệu và các giải pháp xử lý tiếng nĩi để nâng cao chất lượng thơng tin thoại. - Hỗ trợ cho việc đo lường và giám sát chất lượng thoại, nâng cao chất lượng thoại tại đầu cuối, gián tiếp cải thiện hiệu suất của hệ thống nhận dạng tiếng nĩi tự động. - Với các kiến thức và kết quả đạt được trong quá trình thực hiện đề tài, tác giả cĩ thể áp dụng trong cơng tác chuyên mơn trong việc giảng dạy tại trường Cao đẳng cơng nghiệp Huế trong tương lai. 6. Cấu trúc luận văn Luận văn gồm 4 chương: Chương 1: Tổng quan về nhiễu tiếng vang. Chương 2: Các giải pháp để giảm nhiễu tiếng vang Chương 3: Các phương pháp đánh giá thuật tốn Chương 4: Mơ phỏng và đánh giá 3 CHƯƠNG 1 - TỔNG QUAN VỀ NHIỄU TIẾNG VANG 1.1. GIỚI THIỆU CHƯƠNG Nội dung của chương này đề cập đến đặc điểm của nhiễu tiếng vang và sự ảnh hưởng của tiếng vang đến chất lượng tiếng nĩi. 1.2. ĐẶC ĐIỂM NHIỄU TIẾNG VANG Tiếng vang là xảy ra khi sĩng âm thanh truyền đi trong một khơng gian hẹp như trong phịng và tạo ra quá trình truyền đa đường của tín hiệu âm thanh từ nguồn đến microphone như ở hình 1.2. Hình 1.2. Các đường đi của âm thanh Kênh âm thanh từ nguồn đến microphone cĩ thể được mơ tả bởi một đáp ứng xung âm thanh (AIR) như ở hình 1.4. Hình 1.4. Đáp ứng xung của phịng. Thời gian phản xạ là khoảng thời gian mà cường độ âm thanh giảm xuống 60dB sau khi tắt nguồn, được tính theo cơng thức: Sa VRT 049.060 = (1.1) 1.3. ẢNH HƯỞNG CỦA NHIỄU TIẾNG VANG ĐẾN CHẤT LƯỢNG TÍN HIỆU TIẾNG NĨI 4 Tín hiệu bị nhiễu tiếng vang cĩ thể được mơ tả là âm thanh cĩ thêm lượng âm vang và nhiễu màu đáng kể. Chất lượng và tính dễ hiểu là hai thơng số quan trọng cho tín hiệu tiếng nĩi. Chất lượng bao gồm các thuộc tính như độ tự nhiên, độ khàn hay tiếng hỗn tạp… cịn tính dễ hiểu là nhận xét về những gì người nĩi đang nĩi, ví dụ như nghĩa của những từ đang được nghe. Mục đích của việc nâng cao chất lượng tiếng nĩi tùy thuộc vào những ứng dụng khác nhau và cĩ thể phân loại thành những mảng sau: - Cải thiện tính dễ nghe của tiếng nĩi sao cho phù hợp với người nghe. - Cải thiện chất lượng tiếng nĩi sao cho người nghe cĩ thể chấp nhận được. - Thay đối tiếng nĩi để hoạt động của hệ thống nhận dạng tiếng nĩi và hệ thống tiếng nĩi tự động được cải thiện. - Thay đổi tiếng nĩi để việc mã hĩa trong lưu trữ và truyền dữ liệu hiệu quả hơn. 1.4. KẾT LUẬN CHƯƠNG Trong chương này sẽ giới thiệu lý thuyết về đặc điểm nhiễu tiếng vang, các cơ chế gây ra tiếng vang và ảnh hưởng của nhiễu tiếng vang đến chất lượng tín hiệu tiếng nĩi. CHƯƠNG 2 - CÁC GIẢI PHÁP ĐỂ GIẢM NHIỄU TIẾNG VANG 2.1. MỞ ĐẦU CHƯƠNG Ở chương 1 ta đã đề cập đến nhiễu tiếng vang và ảnh hưởng của nĩ lên chất lượng tiếng nĩi. Việc xử lý tín hiệu bị nhiễu tiếng vang là một lĩnh vực đang được quan tâm. Cho đến nay, kỹ thuật xử lý tiếng vang được phân thành hai loại là các kỹ thuật giảm tiếng vang và các kỹ thuật loại bỏ tiếng vang [7] tùy thuộc kĩ thuật đĩ cĩ ước lượng đáp ứng 5 xung của kênh truyền hay khơng. Chương này sẽ tìm hiểu hai thuật tốn nâng cao chất lượng tiếng nĩi bị nhiễu tiếng vang là: thuật tốn trừ phổ [6] và thuật tốn tạo mặt nạ [10]. 2.2. THUẬT TỐN TRỪ PHỔ Sơ đồ khối của thuật tốn trừ phổ ở hình 2.1. Hình 2.1. Sơ đồ khối của thuật tốn trừ phổ Mơ phỏng tín hiệu tiếng nĩi bị nhiễu tiếng vang bằng cách nhân chập tín hiệu sạch s(n) với đáp ứng xung h(n) của kênh truyền. ( ) ( ) ( )nhnsnx ∗= (2.1) Tín hiệu này qua biến đổi Fourier [6] X(m,ωk ) = S(m,ωk)H(m,ωk) (2.2) Với m là chỉ số thời gian, chỉ thị đoạn tín hiệu vào được lấy cửa sổ, ωk là biến tần số rời rạc. Nếu cửa sổ ta chọn bằng phẳng và cĩ chiều dài tương đối lớn so với chiều dài của h(n) thì tác động tạo tiếng vang của mơi trường (qua phép chập trong miền tần số với hàm h(n)) cĩ thể xem như phép nhân. X(m,ωk ) = S(m,ωk)H(ωk) (2.3) Coi đáp ứng xung của phịng khơng thay đổi theo thời gian, H(m,ωk)=H(ωk). log|X(m,ωk)| ≈ log|S(m,ωk)| + log|H(ωk)| (2.4) Lấy trung bình cả 2 vế, giả sử Đặt mean(log|X(m,ωk)|) =M(ωk), mean(log|S(m,ωk)|)=F(ωk) (2.5) M(ωk) = F(ωk) + log|H(ωk)| (2.6) log|X(m,ωk)|- M(ωk) ≈ log|S(m,ωk)| - F(ωk) (2.7) Phân đoạn tín hiệu Ước lượng đáp ứng xung của kênh truyền Trừ ước lượng này ra khỏi tín hiệu Khơi phục lại tín hiệu ban đầu 6 Như vậy ta đã loại trừ được thành phần tạo tiếng vang trong tín hiệu tiếng nĩi, ta cũng đã trừ M(ωk) khỏi tín hiệu sạch, tuy nhiên nếu lấy trung bình trên số lượng frame đủ lớn thì cĩ thể coi thành phần M(ωk) khơng chứa nhiều thơng tin về các âm được phát ra. Khi thực hiện thuật tốn, cĩ 2 cách để ước lượng giá trị của đáp ứng xung của kênh truyền. Cĩ thể lấy trung bình logarit biên độ của một tần số nhất định qua số lượng nhất định các frame, hoặc lấy trung bình trên cả trục thời gian. Phân tích thuật tốn trên Trong thực tế, nhìn chung các đặc tính về truyền, phản xạ, hấp thụ …sĩng âm thanh của phịng phụ thuộc vào tần số. Âm thanh ở tần số cao bị suy giảm nhiều hơn khi truyền đi trong khơng khí, bị hấp thụ bởi các bề mặt nhiều hơn là phản xạ so với âm thanh tần số thấp. Vì thế, đáp ứng xung của phịng cĩ khuynh hướng như bộ lọc thơng thấp. Nên việc trừ giá trị trung bình trong miền logarit của biên độ phổ tần số cĩ tác dụng loại bỏ ảnh hưởng của lọc thơng thấp này. Ngược lại, các thành phần tần số cao cĩ biên độ thấp, sau khi xử lý biên độ các thành phần tần số này tăng. Thuật tốn này cũng làm cho tất cả các thành phần tần số cĩ cùng giá trị trung bình theo thời gian là 0 (trong miền logarit) hay 1 (trong miền tuyến tính). Theo [6], cần áp dụng cửa sổ cĩ chiều dài N gấp ít nhất 4 lần chiều dài đáp ứng xung, khi đĩ độ phân giải tần số cao, làm xuất hiện các thành phần tần số ở cùng khung thời gian mà biên độ bằng 0 ở tín hiệu chưa xử lý, ta gọi đây là nhiễu nhân tạo. Nhiễu này ảnh hưởng nhiều đến chất lượng và tính dễ hiểu của tín hiệu tiếng nĩi. Vì thế cần thiết cĩ quá tŕnh xử lý sau để giảm nhiễu nhân tạo. 2.3. CẢI TIẾN THUẬT TỐN TRỪ PHỔ Thuật tốn trừ phổ tạo ra nhiễu nhân tạo, để giảm nhiễu này phải cĩ thêm quá trình xử lý sau (Post Processing). 7 Post Processing thực hiện normalize logarit biên độ của cả tín hiệu bị nhiễu và tín hiệu sau khi qua trừ phổ, dùng cửa sổ cĩ chiều dài bé hơn nhiều so với N. So sánh biên độ của hai tín hiệu trên ở cùng một tần số và khung thời gian, nếu biên độ ở tín hiệu sau khi qua trừ phổ lớn hơn thì cho rằng phần biên độ lớn hơn là do nhiễu nhân tạo và làm suy giảm biên độ này bằng một hệ số tùy thuộc mức năng lượng dơi ra. Với những ơ mà năng lượng sau khi xử lý bé hơn năng lượng trước khi xử lý, hệ số này bằng 1. Tuy nhiên, chiều dài cửa sổ để phân tích tín hiệu nhỏ hơn, nên độ phân giải thời gian tốt hơn và độ phân giải tần số kém hơn. Điều này bù đắp cho những hạn chế của việc lấy chiều dài cửa sổ lớn trước đĩ, nhưng do độ phân giải tần số kém nên khơng thể loại trừ được hết nhiễu nhân tạo. Thuật tốn để giảm nhiễu nhân tạo trên chưa thật sự tốt, vì: Thuật tốn triệt tiếng vang, về mặt lý thuyết, phải dịch phần năng lượng của tín hiệu do phản xạ theo các đường khác nhau ngược trở lại vị trí của tín hiệu trực tiếp trong miền thời gian, làm năng lượng tín hiệu ở một số ơ tăng. Dạng sĩng trong miền thời gian của tín hiệu nhiễu bị méo và tín hiệu sau khi qua trừ phổ được đem so sánh với tín hiệu bị nhiễu này, nên phần tín hiệu do tiếng vang sẽ khơng bị triệt tiêu hồn tồn. Thuật tốn trên cĩ thể làm thay đổi phân bố năng lượng của tín hiệu tiếng nĩi, làm giảm khả năng so sánh các ơ trong spectrogram của tín hiệu trước và sau xử lý trừ phổ. 2.4. THUẬT TỐN TẠO MẶT NẠ Tiếng vang gồm hai thành phần là âm thanh phản xạ sớm và âm thanh phản xạ muộn. Ở đây, ta chỉ tập trung vào để khử các âm thanh phản xạ muộn. Quan sát, ta thấy đường bao của tín hiệu bị tiếng vang cĩ dạng của đồ thị hàm mũ. 8 a n n =      − τ 1 exp (2.8) Thơng số a đặc trưng cho thời gian phản xạ của kênh truyền và liên quan đến T60 qua cơng thức: ( ) ( )aT log 1000log60 −= (2.9) Nếu chúng ta ước lượng a từ đường bao của tín hiệu bị tiếng vang thì cĩ thể ước lượng được T60, từ đĩ xác định và loại bỏ các vùng tín hiệu chủ yếu do tiếng vang, sơ đồ khối của thuật tốn tạo mặt nạ như ở hình 2.4. Hình 2.4. Sơ đồ khối của thuật tốn tạo mặt nạ phổ Tín hiệu được phân tích thành các dải tần số khác nhau sau đĩ tính tốn đường bao của mỗi dải tần số này rồi chuyển sang thang dB. Hằng số thời gian a của nhiễu tiếng vang được ước lượng ở mỗi tần số bằng cách tính độ dốc của đường bao trên N mẫu. Một cửa sổ cĩ chiều dài N sẽ được dịch trên đường bao của tín hiệu qua từng mẫu, dùng phép xấp xỉ tuyến tính để tính độ dốc. Theo cách ước lượng trong [11], giá trị chính xác của a được xác định dựa vào bộ số nhận được. Tiếp theo ta sử dụng mặt nạ nhị phân để loại bỏ phần tín hiệu chủ yếu do tiếng vang. Phân đoạn tín hiệu theo dải tần Ước lượng RT60 của kênh truyền ở các dải tần Xây dựng mặt nạ Nhân mặt nạ với tín hiệu bị nhiễu + khơi phục lại tín hiệu 9 Phần dưới đây lần lượt trình bày các khối bộ lọc băng thơng, tính tốn đường bao, ước lượng T60 và xây dựng mặt nạ trong thuật tốn. 2.4.1. Bộ lọc băng thơng 2.4.2. Phương pháp tính đường bao Lấy đường bao từ phép biến đổi Hilbert Từ tín hiệu g(t) qua biến đổi Hilbert ^g(t) Mọi tín hiệu ^g(t) đều cĩ thể biểu diễn dưới dạng như sau : ( ) ( ){ } ( ){ }tgtgtg ∧+∧=∧ ImRe ( ) ( ){ } ( ){ }tgtgtg ∧−∧=∗∧ ImRe ( ) ( ) ( ){ } ( ){ }tgtgtgtgenv ∧∧ +=∗∧∗∧= 22 ImRe (2.14) Hình 2.8. Tín hiệu và đường bao tín hiệu tiếng nĩi Sử dụng mạch lọc thơng thấp Kỹ thuật lấy đường bao tín hiệu bằng mạch lọc thơng thấp bằng cách bình phương tín hiệu và sau đĩ cho qua mạch lọc thơng thấp. Sau đĩ qua mạch lọc thơng thấp ta lọai bỏ tần số cao đi => chỉ cịn lại năng lượng một chiều + tần số thấp, khai căn tín hiệu ta được đường bao tín hiệu. 10 2.4.3. Ước lượng T60 Trong thực tế, nhiễu tiếng vang suy giảm và cộng vào nhiễu nền của mơi trường truyền, nên việc xác định thời điểm tại đĩ mức nhiễu tiếng vang bé hơn 60dB so với tín hiệu trực tiếp sẽ khĩ khăn. Vì thế, tốc độ suy giảm của nhiễu tiếng vang được tính trong vùng tín hiệu suy giảm từ 5dB đến 35dB so với mức tín hiệu trực tiếp, dùng phương pháp xấp xỉ tuyến tính. Sau đĩ, tính thời gian cần thiết để tín hiệu suy giảm 60dB với cùng tốc độ suy giảm đo được ở trên. Phương pháp xấp xỉ tuyến tính Đây là một trong những phương pháp xấp xỉ đơn giản nhất, tìm quan hệ tuyến tính giữa các đại lượng quan sát được. Tín hiệu tiếng nĩi được phân tích thành các băng tần khác nhau, lấy đường bao và chuyển sang thang dB. Dùng xấp xỉ tuyến tính để chọn a sao cho đường thẳng hệ số gĩc là a gần trùng khít với đường bao tín hiệu trong miền logarit. Cách ước lượng T60 Ước lượng của a được tính tại mỗi khung thời gian cĩ chiều dài N. Tịnh tiến khung này theo thời gian, ta sẽ cĩ bộ số là các ước lượng của a ở một dải tần nhất định. Vài trong số các giá trị này nhận được ở khung thời gian mà tín hiệu trực tiếp đã ngắt, vài giá trị lại nhận được trong khung thời gian mà tiếng nĩi vẫn cịn hoặc được ngắt chậm dần, tương ứng với ước lượng sai. Vì thế, cần chọn lựa hệ số a đúng giữa các ước lượng ak* (k là chỉ số thời gian của khung) nhận được, bằng cách xem xét phân bố của các ước lượng này trên số lượng giá trị a vừa đủ. Trong trường hợp nhận được giá trị ước lượng sai, τ cĩ khuynh hướng tiến đến ∞ nên a tiến đến 1 hoặc biến thiên nhanh khơng xác định. Chỉ xét các giá trị a âm thu được, người ta quan sát thấy a tương ứng với khung thời gian cịn cĩ tiếng nĩi sẽ lớn hơn trong trường hợp nhiễu tiếng vang. Vì thế, ước lượng đúng của a chính là biên dưới của các giá 11 trị nhận được, giá trị biên dưới này chỉ xuất hiện khi tiếng nĩi ngừng đột ngột, khi đĩ mơ hình [11] mới cĩ ý nghĩa. Tuy nhiên, ngay cả khi chỉ ước lượng trong các khung thời gian chỉ cĩ nhiễu tiếng vang, giá trị ước lượng được vẫn cĩ khuynh hướng bé hơn giá trị đúng thực sự, do cách ước lượng này dựa trên mơ hình thống kê. Một phương pháp hiệu quả hơn là chọn một giá trị a ngưỡng a*, là ước lượng đúng của a, sao cho phần diện tích dưới đường cong mật độ xác suất của a-p(a*) tính từ a* đến -∞ đạt giá trị cho trước. Cĩ thể thực hiện điều này dựa vào biểu thức sau: ( ) ( ) ( )       === ∫ ∗∗ x aa dpxPxPa 0 :arg γ (2.16) Cĩ thể thấy nếu chọn γ tiến đến 0, a=min(ak*) Từ phân tích trên, N đĩng vai trị quan trọng trong việc ước lượng được giá trị đúng của a. Giá trị N bé sẽ tăng giá trị của ước lượng. Trong thực tế, dù cần cĩ N lớn, nhưng N lại bị giới hạn bởi độ dài của khỏang lặng giữa các đoạn cĩ tiếng nĩi. Nếu độ dài của khỏang lặng bé, khung thời gian cĩ N quá lớn sẽ lấn vào đoạn cĩ tiếng nĩi kế tiếp dẫn đến ước lượng sai. Nên N cần lớn hơn ít nhất ½τ hay 1/3τ, cịn giới hạn trên của N phụ thuộc vào chiều dài trung bình của khỏang lặng trong tín hiệu tiếng nĩi sạch. Sau khi đã tìm được bộ giá trị ước lượng của a và ước lượng được giá trị đúng của a, xây dựng mặt nạ như sau. Với ak*>>a* xem đĩ khơng phải do nhiễu tiếng vang và giá trị mặt nạ tại đĩ bằng 1, ngược lại nếu ak* sai khác a* trong một khỏang cho phép, coi phần tín hiệu chủ yếu do nhiễu tiếng vang và cho giá trị mặt nạ bằng 0. Giá trị mặt nạ tại vị trí i ở dải tần nào đĩ được xác định. 12 2.4.4. Xây dựng mặt nạ Phần tín hiệu ngõ ra chủ yếu do tiếng vang sẽ bị loại bỏ cách sử dụng mặt nạ nhị phân. Trong thực tế, ta thấy rằng mặt nạ nhị phân tạo nên nhiễu nhân tạo rất khĩ chịu trong các khỏang chuyển tiếp. Để giải quyết vấn đề này, ta “ làm mượt “ mặt nạ bằng bộ lọc làm mượt trung bình. 2.4. KẾT LUẬN CHƯƠNG Chương này nghiên cứu hai thuật tốn giảm nhiễu tiếng vang là trừ phổ và tạo mặt nạ. Cả 2 thuật tốn này đều khơng yêu cầu thơng tin về nguồn và kênh truyền. Thuật tốn trừ phổ loại bỏ thành phần phổ tiếng vang bằng cách trừ giá trị trung bình ước lượng của logarit của phổ tần số. Thuật tốn tạo mặt nạ thực hiện việc ước lượng hằng số thời gian của nhiễu tiếng vang ở các băng tần số khác nhau, rồi xây dựng mặt nạ loại bỏ phần nhiễu tiếng vang. Ta cũng đã phân tích về lý thuyết cách chọn giá trị các tham số ở mỗi thuật tốn để tín hiệu sau xử lý cĩ chất lượng tốt nhất. CHƯƠNG 3 - CÁC PHƯƠNG PHÁP ĐÁNH GIÁ CÁC THUẬT TỐN 3.1. MỞ ĐẦU CHƯƠNG Ở chương 2 ta đã phân tích các thuật tốn để làm giảm nhiễu tiếng vang của tín hiệu. Tuy nhiên làm cách nào để đánh giá được thuật tốn nào là hiệu quả nhất. Để xác định được điều này ta phải xét đến các phương pháp đánh giá chất lượng tiếng nĩi. Cĩ hai phương pháp đánh giá chất lượng chủ yếu là đánh giá chủ quan và đánh giá khách quan. Ở chương này ta sẽ giới thiệu về các phương pháp đánh giá chất lượng tiếng nĩi mà tập trung chủ yếu vào các phương pháp đánh giá khách quan. 13 3.2. PHƯƠNG PHÁP ĐÁNH GIÁ CHỦ QUAN Đánh giá chủ quan là phương pháp đánh giá chất lượng tiếng nĩi dựa trên cảm nhận chủ quan của người nghe. ITU-T đã chuẩn hĩa hầu hết các phương pháp chung cho việc đo chất lượng đánh giá chủ quan của việc truyền tín hiệu tiếng nĩi thơng qua các hệ thống thơng tin âm thanh. Một cuộc kiểm tra nghe được thực hiện bởi một số lượng người sẽ nghe các phần ghi âm, đĩ là những đoạn đã bị suy giảm bởi kênh truyền và những đoạn được nâng cao chất lượng nhờ các thuật tốn đang kiểm tra. Các người đánh giá sẽ đưa ra các ý kiến của mình về chất lượng của mỗi tín hiệu sử dụng thang đo chất lượng tiếng nĩi được quy định. MOS là điểm đánh giá trung bình thơng qua các ý kiến chủ quan và chỉ ra chất lượng đánh giá của hệ thống hay các thuật tốn cần kiểm tra. Cĩ nhiều chỉ tiêu để đánh giá chất lượng tiếng nĩi theo phương pháp đánh giá chủ quan. Ở đây ta tập trung vào các chỉ tiêu sau: Tín hiệu tiếng nĩi riêng biệt được kiểm tra bằng cách sử dụng thang đo 5 điểm của độ méo tín hiệu. Như bảng 3.1. Nhiễu nền bằng cách sử dụng thang đo 5 điểm của nhiễu nền. Như bảng 3.2. 3.3. PHƯƠNG PHÁP ĐÁNH GIÁ KHÁCH QUAN Với việc tạo ra nhiều hệ thống nâng cao chất lượng tiếng nĩi và hệ thống trao đổi âm thanh một cách nhanh chĩng, thì cũng cần cĩ sự phát triển các phép đo chất lượng tiếng nĩi cái mà tương quan với chất lượng tiếng nĩi chủ quan. Trong suốt quá trình thiết kế và thực hiện các thuật tốn, các bộ mã hĩa giải mã và các hệ thống thơng tin, đánh giá chất lượng khách quan là cơng cụ đánh giá cĩ giá trị. Đánh giá chất lượng khách quan là phương pháp đánh giá chất lượng dựa trên các phép đo thuộc tính của tín hiệu. 14 Thơng thường, đánh giá chất lượng khách quan cĩ thể được phân chia trong 3 miền: miền thời gian, miền phổ và miền giác quan. Miền thời gian thường thích hợp với hệ thống tương tự hoặc hệ thống được mã hĩa dạng sĩng trong đĩ nơi nhận tạo ra lại dạng sĩng. Tuy nhiên, nĩ cĩ thể cịn được sử dụng để xác định sự cải thiện chất lượng tiếng nĩi. Tỉ số tín hiêu trên nhiễu (SNR) và SNR trên từng đoạn tín hiệu là các phép đo thơng thường trong miền thời gian. Các phép đo dựa trên phép dự đốn tuyến tính trong miển phổ thường được dùng nhiều hơn miền thời gian và ít bị ảnh hưởng bởi các sai số về thời gian cĩ thể cĩ giữa tín hiệu ban đầu và tín hiệu nhận được hay được xử lý. Hầu hết các phép đo trong miền phổ liên quan đến thiết kế bộ mã hĩa và giải mã tiếng nĩi. Các phép đo trong miền giác quan dựa trên các mẫu hệ thống thính giác của con người. Phép đo này cĩ sự tương quan với chất lượng chủ quan của tiếng nĩi cao hơn khi so sánh với các phép đo trong miền thời gian hay miền phổ. Theo lý thuyết, các thơng tin liên quan đến tri giác cĩ khả năng và cần thiết cho sự đánh giá chính xác chất lượng tiếng nĩi. 3.3.1. Các phép đo trong miền thời gian 3.3.1.1. Phép đo tỉ số giữa tín hiệu và tiếng vang trên từng khung 3.3.1.2. Phép đo dựa vào đáp ứng xung 3.3.2. Các phép đo trong miền phổ 3.3.2.1. Phép đo LLR 3.3.2.2. Phép đo IS 3.3.2.3. Phép đo CEP 3.3.3. Các phép đo trong miền tri giác Các phép đánh giá khách quang trên được quan tâm vì chúng đơn giản để thực hiện và dễ dàng đánh giá được. Tuy nhiên, khả năng của chúng trong việc dự đốn sujbjective quality là cĩ giới hạn, như chúng 15 khơng thể thực hiện việc xử lý tín hiệu bao gồm các thiết bị ngoại vi âm thanh. Do vậy đã cĩ nhiều nghiên cứu được thực hiện để phát triển phép đánh giá khách quang dựa trên các khối human auditory speech preception. Do vậy ở đây ta sẽ xét các phương pháp đo dựa trên cảm nhận của con người. 3.3.3.1. Phép đo WSS 3.3.3.2. Phép đo BSD 3.3.3.3. Phép đo PESQ 3.3.4. Phép đo kết hợp 3.4. KẾT LUẬN CHƯƠNG Chương này đã trình bày một số phép đo chất lượng tiếng nĩi sau khi xử lý giảm nhiễu bằng các thuật tốn xử lý tiếng nĩi bị tiếng vang mà tập trung chủ yếu ở các phép đo khách quan. Qua đánh giá ta thấy mỗi phép đo chất lượng tiếng nĩi khác nhau dựa trên những chỉ tiêu khác nhau về chất lượng tiếng nĩi. Trong các phép đo khách quan trên thì các phép đo trong miền tri giác cĩ hệ số tương quan cao nhất với các phép đo chủ quan. CHƯƠNG 4 – KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1. MỞ ĐẦU CHƯƠNG Để đánh giá hiệu quả của các thuật tốn nâng cao chất lượng tiếng nĩi. chương này sẽ thực hiện mơ phỏng dựa trên tín hiệu âm thanh trước và sau xử lý để tìm ra kết quả tốt nhất của các thuật tốn cũng như kiểm tra độ tin cậy của các phép đo khách quan. 4.2. CƠ SỞ DỮ LIỆU SỬ DỤNG Để đánh giá hiệu quả của kĩ thuật này, cơ sở dữ liệu được xây dựng gồm các câu tiếng Việt trích từ VOA, cĩ chiều dài trung bình là 8s, gồm cả giọng nam và nữ. Đáp ứng xung của kênh truyền được xây dựng từ đáp ứng xung của một phịng, với những khỏang cách ghi âm 16 khác nhau [0.1 0.25 0.5 0.75 1 1.5 3 4] m, chiều dài đáp ứng xung trung bình khoảng 0.3s. Tín hiệu tiếng nĩi bị nhiễu tiếng vang cĩ được bằng cách nhân chập tín hiệu sạch với đáp ứng xung trên. 4.3. KIỂM TRA ĐỘ TIN CẬY CỦA CÁC PHÉP ĐO KHÁCH QUAN Các phép đo chất lượng tiếng nĩi khách quan đã trình bày ở chương 3 thường được sử dụng trong các ứng dụng nâng cao chất lượng tiếng nĩi tuy nhiên ta vẫn chưa xác định được nĩ cĩ thể đánh giá tốt chất lượng tiếng nĩi trong mơi trường bị nhiễu tiếng vang hay khơng. Để kiểm tra độ tin cậy của các phép đo này đối với tín hiệu trong mơi trường bị nhiễu tiếng vang, ta tiến hành phép đo chất lượng của tín hiệu bị nhiễu tiếng vang so với tín hiệu sạch theo các phương pháp đánh giá trên. Các mẫu tiếng nĩi được thực hiện tại tần số lấy mẫu là f=8000. 4.3.1. Các phép đo trong miền thời gian - Phép đo tỉ số tín hiệu trên tiếng vang (SRR) - Phép đo tỉ số tín hiệu trên tiếng vang (trên mỗi đoạn: SEG_SRR) Nhận xét: Theo các hình 4.1 và hình 4.2 nhận thấy, phép đo SEG_SRR cho kết quả chính xác hơn, bởi vì tín hiệu giảm dần theo khoảng cách từ nguồn đến nơi thu, điều này phản ánh đúng chất lượng tiếng nĩi bị nhiễu tiếng vang. Phép đo này cĩ độ tin cậy tốt tuy nhiên độ ổn định theo các tín hiệu khác nhau vẫn cịn khá lớn nhất là trong dải băng tần hẹp. Cĩ thể dùng phép đo SEG_SRR để đo chất lượng tiếng nĩi sau xử lý nhiễu tiếng vang. Cịn phép đo SRR khơng phản ánh đúng bản chất của tín hiệu bị nhiễu tiếng vang nhất là ở khoảng cách gần nên khơng dùng để đo chất lượng tiếng nĩi sau xử lý nhiễu tiếng vang. 4.3.2. Các phép đo trong miền phổ 17 - Phép đo CEP - Phép đo IS - Phép đo LLR Nhận xét: Theo các hình 4.3, hình 4.4 và hình 4.5 nhận thấy các phép đo trong miền phổ cĩ độ tin cậy khơng cao trong mơi trường bị nhiễu tiếng vang. Nhất là phép đo IS, phép đo hầu như khơng đánh giá được chất lượng tín hiệu bị nhiễu tiếng vang, đặc biệt là ở khoảng cách 100-150cm. Các phép đo CEP và LLR cĩ đánh giá được chất lượng tín hiệu bị tiếng vang nhưng độ ổn định kém, phép đo CEP cho kết quả chính xác hơn, nên khơng thể dùng để đánh giá tín hiệu bị nhiễu tiếng vang. 4.3.3. Các phép đo trong miền tri giác - Phép đo WSS - Phép đo PESQ Nhận xét: Theo hình 4.5 và hình 4.7 ta thấy các phép đo trong miền tri giác đánh giá chất lượng tiếng nĩi rất tốt phản ánh đúng chất lượng của tiếng nĩi bị nhiễu tiếng vang. Độ ổn định của phương pháp theo khoảng cách cũng như theo các tín hiệu rất tốt. Như vậy độ tin cậy của các phép tốn này tốt nhất trong mơi trường bị nhiễu tiếng vang, nên dùng để đánh giá tín hiệu bị nhiễu tiếng vang. 4.4. THUẬT TỐN TRỪ PHỔ Các tín hiệu tiếng nĩi bị nhiễu tiếng vang được xử lý qua thuật tốn trừ phổ, sau đĩ kiểm tra chất lượng của tiếng nĩi sau khi xử lý bằng các phép đo đã được kiểm tra, so sánh chất lượng tiếng nĩi trước và sau xử lý. 4.4.1. Dạng sĩng và phổ của tín hiệu Nhận xét: 18 Sau khi nghe các đoạn âm thanh và thực hiện quan sát dạng sĩng, phổ của tín hiệu sạch như hình 4.8, dạng sĩng và phổ của tín hiệu bị nhiễu tiếng vang như hình 4.9 và dạng sĩng, phổ tín hiệu sau khi xử lý bằng thuật tốn trừ phổ như hình 4.10, nhận thấy: Tín hiệu sau khi xử lý bằng thuật tốn trừ phổ cĩ rất nhiều thành phần nhiễu nhân tạo. Chất lượng khơng những khơng được cải thiện mà cịn tệ hơn khi chưa xử lý. Chất lượng khơng những khơng được cải thiện mà cịn tệ hơn khi chưa xử lý. 4.4.2. Dạng sĩng và phổ của tín hiệu sau xử lý post processing Nhận xét: Sau khi nghe các đoạn âm thanh và quan sát các dạng sĩng và phổ của tín hiệu đã xử lý bằng thuật tốn trừ phổ cĩ thêm phần xử lý post processing ở hình 4.11 nhận thấy, chất lượng tín hiệu khi cĩ xử lý post processing được cải thiện đáng kể so với khi khơng cĩ xử lý post processing. Nhiễu nhân tạo đã được giảm đáng kể tuy nhiên vẫn cịn tồn tại. 4.4.3. Thay đổi thơng số của thuật tốn Trong quá trình nghiên cứu và triển khai thuật tốn tác giả nhận thấy thơng số chiều dài cửa sổ ảnh hưởng lớn đến hiệu quả thuật tốn: Khi thay đổi chiều dài cửa sổ với các giá trị khác nhau N=0.064, 0.256 ,1.024...Sau khi tín hiệu được đánh giá bởi các phép đánh giá, nhận thấy khi chiều dài của sổ thay đổi thì chất lượng của tín hiệu cũng thay đổi theo. Cụ thể giá trị N=0.064 và N=0.256 cho ra kết quả gần như nhau. Đối với các phép đo miền thời gian và miền phổ thì N=0.256 cho kết quả tốt nhất. Cịn với các phép đo trong miền tri giác thì N=0.064 cho ra kết quả tốt nhất. - Nhìn chung giá trị N=0.064 cho ra kết quả tốt hơn. 4.4.4. Đánh giá thuật tốn trừ phổ 19 - Phép đo SEG_SRR - Phép đo WSS - Phép đo PESQ Hình 4.14. Kết quả phép đo PESQ Nhận xét: - Theo các hình 4.12, hình 4.13 và 4.14, nhận thấy tín hiệu bị nhiễu tiếng vang sau khi được xử lý bằng thuật tốn trừ phổ đều đã được cải thiện. 4.4.5. Đánh giá thuật tốn trừ phổ cĩ thêm phần xử lý post processing - Phép đo SEG_SRR - Phép đo WSS - Phép đo PESQ 20 Hình 4.17. Kết quả phép đo PESQ Nhận xét: - Theo các hình 4.15, hình 4,16 và hình 4.17, nhận thấy tín hiệu bị nhiễu tiếng vang sau khi được xử lý thêm post processing thì tín hiệu được cải thiện hơn khi khơng cĩ xử lý post processing. - Theo phép đo SEG_SRR thì tín hiệu khi cĩ post processing được cải thiện đáng kể so với khi khơng cĩ post processing. Cịn phép đo WSS và PESQ thì khơng khác nhau nhiều. 4.5. THUẬT TỐN TẠO MẶT NẠ 4.5.1. Dạng sĩng và phổ của tín hiệu Nhận xét: Quan sát hình 4.18, hình 4.19, hình 4.20 và nghe âm thanh nhận thấy: Dạng sĩng và chất lượng âm thanh ra cĩ vẻ tốt hơn khi chưa xử lý nhưng khơng nhiều. Âm thanh ra khơng cĩ nhiễu nhân tạo. 21 4.5.2. Thay đổi các thơng số của thuật tốn - Thơng số chiều dài cửa sổ - Thơng số độ lệch cho phép của hệ số a 4.5.3. Đánh giá thuật tốn tạo mặt nạ - Phép đo SEG_SRR - Phép đo WSS - Phép đo PESQ Hình 4.23. Kết quả phép đo PESQ Nhận xét: - Theo hình 4.21, hình 4.22 và hình 4.23 nhận thấy, tuy phép đo WSS đánh giá đúng hiệu quả của thuật tốn trừ phổ. Tuy nhiên đối với thuật tốn tạo mặt nạ thì nĩ khơng cịn đáng tin cậy nữa, vì nĩ cho kết quả trái ngược lại kết quả khi đánh giá bằng PESQ. - Theo phép đo SEG_SRR thì tín hiệu bị nhiễu tiếng vang sau khi xử lý bằng thuật tốn tạo mặt nạ cho kết quả tốt hơn nhiều so với xử lý bằng thuật tốn trừ phổ. 22 - Theo phép đo PESQ thì tín hiệu bị nhiễu tiếng vang sau khi xử lý bằng thuật tốn trừ phổ cho kết quả tốt hơn ở vùng gần (trong khoảng nhỏ hơn 1,5m) cịn thuật tốn tạo mặt nạ cho chất lượng tốt hơn ở vùng xa. So sánh cả 4 loại tín hiệu: - Phép đo SEG_SRR - Phép đo WSS - Phép đo PESQ Hình 4.26. Kết quả phép đo PESQ Nhận xét: Từ các hình 4.24, hình 4.25 và hình 4.26 nhận thấy tín hiệu bị nhiễu tiếng vang sau khi được xử lý đều được cải thiện chất lượng của tín hiệu. 4.6. KẾT LUẬN CHƯƠNG Qua các phép tốn đánh giá chất lượng tiếng nĩi khách quan của các tín hiệu trước và sau khi xử lý bằng hai thuật tốn ta rút ra các kết luận sau: 23 - Đối với thuật tốn trừ phổ, việc thêm vào quá trình xử lý post processing cĩ ảnh hưởng rất lớn đến chất lượng tín hiệu xử lý, nĩ làm tăng chất lượng tiếng nĩi một cách hiệu quả. - Đối với các khoảng cách thu khác nhau thì các phép cải thiện chất lượng cho ra kết quả khác nhau. Thuật tốn trừ phổ cho kết quả tốt hơn ở vùng gần (trong khoảng nhỏ hơn 1,5m) cịn thuật tốn tạo mặt nạ phổ cho chất lượng tốt hơn ở vùng xa. - Tín hiệu âm thanh sau khi xử lý với thuật tốn tạo mặt nạ phổ khơng bị nhiễu nhân tạo như phương pháp trừ phổ. 24 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI Sau khoảng thời gian nghiên cứu và thực hiện đề tài, cùng sự giúp đỡ, hướng dẫn và định hướng của các thầy tơi đã hồn thành luận văn này và đã đạt những kết quả nhất định sau: - Luận văn đã trình bày lý thuyết về tín hiệu và ảnh hưởng của tiếng vang, nghiên cứu 2 thuật tốn xử lý giảm nhiễu tiếng vang (trừ phổ và tạo mặt nạ) và viết chương trình thực hiện 2 thuật tốn - Đánh giá hiệu quả của 2 thuật tốn kết quả là: + Cả hai thuật tốn đã hiệu quả cho việc xử lý tín hiệu bị nhiễu tiếng vang, thuật tốn trừ phổ hiệu quả hơn ở khoảng cách gần cịn thuật tốn tạo mặt nạ hiệu quả ở khoảng cách xa. + Khơng phải tất cả các phép đánh giá hiệu quả trong mơi trường nhiễu thì hiệu quả trong mơi trường bị nhiễu tiếng vang, mà chỉ cĩ một số phép đo hiệu quả như phép đo PESQ và phép đo SEG_SRR cịn phép đo khoảng cách WSS thì tương đối hiệu quả. Vì lý do hạn chế về thời gian thực hiện luận văn, cũng như giới hạn về điều kiện nghiên cứu thực nghiệm tác giả đề xuất các hướng nghiên cứu tiếp theo. - Nghiên cứu các thuật tốn xử lý giảm nhiễu tiếng vang khác dựa trên mơ hình thống kê để khai thác tính chất khác nhau giữa tiếng nĩi và tiếng vang. - Đánh giá hiệu quả của thuật tốn với các mơi trường nhiễu tiếng vang phức tạp hơn. - Xét đến ảnh hưởng của nhiễu nền lên hiệu quả của thuật tốn. - Nghiên cứu các phép đánh giá khách quan để phù hợp cho việc đánh giá xử lý tiếng vang.

Các file đính kèm theo tài liệu này:

tomtat_74_9036.pdf