Ghi nhật kí người nói cho dữ liệu hội nghị và ứng dụng trong môi trường smart meeting room

Trang nhan đề Lời cảm ơn Mục lục Danh mục Mở đầu Chương 1: Gioi thiệu SMART MEETING ROOM Chương 2: Bài toán ghi nhật kí người nói cho dữ liệu hội nghị Chương 3: Hệ thống ghi nhật kí người nói cho dữ liệu hội nghị Chương 4: Thử nghiệm và đánh giá Tài liệu tham khảo Mục lục LỜI CẢM ƠN i Mục lục ii Danh mục các ký hiệu, các chữ viết tắt . v Danh mục các bảng . vi Danh mục các hình vẽ, đồ thị vii MỞ ĐẦU 1 Chương 1 GIỚI THIỆU SMART MEETING ROOM 4 1.1. Tại sao phải nghiên cứu về lĩnh vực hội nghị? 4 1.2. Những thách thức của việc xử lý tiếng nói trong lĩnh vực hội nghị 4 1.2.1. Nhiều hình thức hội nghị và loại từ vựng 4 1.2.2. Tiếng nói đồng thời/tương tác cao . 5 1.2.3. Nhiều microphone . 5 1.2.4. Nhiều góc nhìn camera 5 1.2.5. Tích hợp thông tin đa phương tiện 5 1.3. Giới thiệu về Smart Meeting Room (SMR) . 5 Chương 2 BÀI TOÁN GHI NHẬT KÝ NGưỜI NÓI CHO DỮ LIỆU HỘI NGHỊ . 7 2.1. Giới thiệu bài toán . 7 2.2. Phát biểu bài toán 9 2.3. Độ đo đánh giá . 10 2.4. Các hướng tiếp cận giải quyết bài toán . 11 2.4.1. Bài toán phân đoạn theo người nói 11 iii 2.4.2. Bài toán phân nhóm theo người nói . 13 2.4.3. Hướng tiếp cận phổ biến trong môi trường SMR 14 2.5. Phương pháp phân nhóm nhanh cải tiến (Fast Clustering) 15 Chương 3 HỆ THỐNG GHI NHẬT KÝ NGưỜI NÓI CHO DỮ LIỆU HỘI NGHỊ . 17 3.1. Mô hình hệ thống xử lý đa kênh . 17 3.2. Mô hình hệ thống xử lý nhanh . 19 3.3. Các kĩ thuật tiền xử lý . 21 3.3.1. Kỹ thuật lọc nhiễu 21 3.3.2. Kỹ thuật tính TDOA 23 3.3.3. Đặc trưng ngữ âm 24 3.4. Mô hình ngữ âm . 27 3.4.1. Mô hình Markov ẩn (HMM) . 27 3.4.2. Mô hình Gaussian Mixture Model (GMM) . 28 3.5. Kỹ thuật phát hiện tiếng nói (Voice Activity Detection) 29 3.6. Kỹ thuật phân đoạn theo người nói . 31 3.6.1. Phân đoạn dựa trên đặc trưng 31 3.6.1.1. Phân đoạn dựa trên mức năng lượng . 31 3.6.1.2. Phân đoạn dựa trên thông tin TDOA . 32 3.6.2. Phân đoạn dựa trên mô hình 32 3.6.3. Phân đoạn dựa trên độ đo khoảng cách . 33 3.7. Kỹ thuật phân nhóm theo người nói 34 3.7.1. Phân nhóm lượng hoá vector . 34 3.7.2. Phân nhóm tích tụ 34 iv 3.8. Kỹ thuật post-processing 37 3.9. Các kỹ thuật được sử dụng trong Hệ thống xử lý nhanh 37 3.9.1. Kỹ thuật tính TDOA theo GCC-PHAT . 37 3.9.2. Kỹ thuật phát hiện tiếng nói theo AMR1-VAD 38 3.9.3. Lượng giá TDOA . 39 3.9.4. Chuẩn hoá TDOA 41 3.9.5. Kỹ thuật phân nhóm nhanh Fast Clustering 42 Chương 4 THỬ NGHIỆM VÀ ĐÁNH GIÁ 45 4.1. Dữ liệu thực nghiệm 45 4.2. Độ đo đánh giá . 46 4.3. Các kĩ thuật áp dụng và tham số 47 4.3.1. Kĩ thuật lọc nhiễu . 47 4.3.2. Kĩ thuật tính TDOA . 47 4.3.3. Đặc trưng ngữ âm cho Hệ thống xử lý đa kênh . 48 4.3.4. Kỹ thuật phát hiện tiếng nói (VAD) 48 4.3.5. Phương pháp phân đoạn và phân nhóm theo người nói 50 4.3.6. Kỹ thuật post-processing . 51 4.4. Kết quả thực nghiệm và thảo luận . 51 4.4.1. Kết quả thực nghiệm cho Hệ thống xử lý đa kênh 51 4.4.2. Kết quả thực nghiệm cho Hệ thống xử lý nhanh . 53 4.4.3. So sánh phương pháp Fast Clustering với các phương pháp Phân đoạn và Phân nhóm khác . 60 4.5. Kết luận và hướng phát triển . 62 TÀI LIỆU THAM KHẢO 65

20 trang | Chia sẻ: lvcdongnoi | Lượt xem: 2515 | Lượt tải: 1

Bạn đang xem nội dung tài liệu Ghi nhật kí người nói cho dữ liệu hội nghị và ứng dụng trong môi trường smart meeting room, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

45 Chƣơng 4 THỬ NGHIỆM VÀ ĐÁNH GIÁ 4.1. Dữ liệu thực nghiệm Dữ liệu thực nghiệm được luận văn sử dụng là bộ dữ liệu NIST Rich Transcription 2007 (RT2007) [61] và 2009 (RT2009) [62], bao gồm 6 giờ thu âm với 15 cuộc họp (thời gian mỗi cuộc họp từ 20-30 phút) và tổng cộng 73 người tham gia. Chi tiết của từng bộ dữ liệu được mô tả trong Bảng 4.1 và 4.2: Bảng 4-1 Thông tin về các cuộc họp trong bộ dữ liệu NIST RT2007. Tổng thời gian là 3h, tổng số người tham gia là 35. Số tập tin tương ứng với số microphone trong cuộc họp đó Tên cuộc họp Số ngƣời nói Thời gian (phút) Số tập tin CMU_20061115-1030 4 28.4 3 CMU_20061115-1530 4 22.6 3 EDI_20061113-1500 4 22.6 8 EDI_20061114-1500 4 22.7 8 NIST_20051104-1515 4 22.4 7 NIST_20060216-1347 6 22.5 7 VT_20050408-1500 5 22.4 4 VT_20050425-1000 4 22.6 7 Bảng 4-2 Thông tin về các cuộc họp trong bộ dữ liệu NIST RT2009. Tổng thời gian là 3h, tổng số người tham gia là 38. Số tập tin tương ứng với số microphone trong cuộc họp đó Tên cuộc họp Số ngƣời nói Thời gian (phút) Số tập tin EDI_20071128-1000 4 29.4 8 EDI_20071128-1500 4 30.8 8 IDI_20090128-1600 4 30.1 8 IDI_20090129-1000 4 30.1 8 NIST_20080201-1405 5 20.3 7 NIST_20080227-1501 6 18.9 7 NIST_20080307-0955 11 21.3 7 46 Ngoài ra, luận văn cũng xây dựng một bộ dữ liệu riêng tại phòng Lab Emerging Research (ER) tại trường ĐH Kỹ thuật Nanyang, Singapore. Chúng tôi thiết kế một phòng họp có diện tích 12m2 gồm 4 microphone đặt trên bàn cách người nói khoảng 1m. Độ phản âm trong phòng khoảng 350ms. Số người nói tham gia là 3 người. Không có chồng lấp tiếng nói trong quá trình diễn ra cuộc họp và thời gian cho mỗi cuộc họp là từ 10-11 phút. Có tổng cộng 5 cuộc họp được thực hiện với thông tin chi tiết như sau (Bảng 4.3): Bảng 4-3 Thông tin về các cuộc họp trong bộ dữ liệu tự tạo. Tổng thời gian là 51 phút, tổng số người tham gia là 15. Số tập tin tương ứng với số microphone trong cuộc họp đó Tên cuộc họp Số ngƣời nói Thời gian (phút) Số tập tin Test1 3 11 4 Test2 3 10 4 Test3 3 10 4 Test4 3 10 4 Test5 3 10 4 4.2. Độ đo đánh giá Độ đo đánh giá được sử dụng trong luận văn là độ đo lỗi DER [62] (Diarization Error Rate) theo định nghĩa sau: 𝐷𝐸𝑅 = tổng tất cả thời gian ghi nhật ký lỗi tổng thời gian tham chiếu (4.1) = 𝑆𝐸 +𝑀𝑆 + 𝐹𝐴 𝑆𝑃𝐾 % (4.2)  Thời gian xác định nhãn người nói sai (Speaker Error Time - SE): Phát hiện đúng đoạn âm thanh có người nói, nhưng gán nhãn không chính xác. Ví dụ đoạn âm thanh của Người A nhưng lại bị gán cho Người B.  Thời gian bỏ lỡ người nói (Missed Speaker Time – MS): Không phát hiện được đoạn âm thanh đó là có người nói. Ví dụ trong trường hợp hai người cùng nói đồng thời nhưng chỉ có một người được phát hiện. 47  Thời gian xác định Người nói sai (False Alarm Speaker Time – FA): Ngược lại với MS, trong một đoạn âm thanh không có người nói nhưng lại được phát hiện là có người nói, hay chỉ có một người nói nhưng lại phát hiện đến hai người nói.  Tổng thời gian tham chiếu (Scored Speaker Time – SPK): là tổng tất cả thời gian được tính theo người nói thực sự, làm cơ sở để tham chiếu. 4.3. Các kĩ thuật áp dụng và tham số 4.3.1. Kĩ thuật lọc nhiễu Kỹ thuật lọc nhiễu sử dụng trong Hệ thống xử lý đa kênh là kỹ thuật lọc Wiener [51] cho từng microphone và kỹ thuật Delay-and-Sum beamforming [58] cho nhiều microphone sử dụng hai thư viện mã nguồn mở “Qualcomm-ICSI-OGI front end for Wiener Filter” [2] và “Delay-and-Sum BeamformIt Tool-kit” [56] tương ứng. Các tham số cho từng bộ thư viện trên như sau:  Qualcomm-ICSI-OGI front end for Wiener Filter o Window_length = 20ms o Window_shift = 10ms o FFT_length = 256 o Noisest_Threshold = 2.0 o Noisest_Alpha = 0.99 o Filter_Power = 2.0  Delay-and-Sum BeamformIt Tool-kit o Input_audio_sample_rate: 16000Hz o Input_audio_sample_size: 16bits/sample 4.3.2. Kĩ thuật tính TDOA Để thực nghiệm trong môi trường SMR, luận văn sử dụng phương pháp tính TDOA dựa theo GCC-PHAT (Generalized Cross-Correlation using Phase 48 Transform) [8]. Đây là phương pháp tính TDOA phổ biến nhất hiện nay với độ chính xác cao và tốc độ xử lý nhanh. Các tham số cho thuật toán tính TDOA theo GCC-PHAT:  Window_length = 500ms  Window_shift = 250ms 4.3.3. Đặc trƣng ngữ âm cho Hệ thống xử lý đa kênh Đối với Hệ thống xử lý đa kênh, luận văn sử dụng hai đặc trưng ngữ âm là MFCC (Mel Frequency Cepstral Coefficients) [45] và LPCC (Linear Prediction Cepstral Coefficients) [22]. MFCC là đặc trưng thể hiện cho các phổ có mức năng lượng bước sóng ngắn và LPCC là đặc trưng nén của dữ liệu âm thanh với thông tin được rút trích từ mô hình dự báo tuyến tính. Đặc trưng MFCC được sử dụng trong kỹ thuật phát hiện tiếng nói (chi tiết trong mục 4.3.4). Tuy nhiên, trong các thử nghiệm thuật toán phân nhóm của hệ thống Ghi nhật ký người nói cho dữ liệu hội nghị, LPCC lại cho thấy tính vượt trội so với các đặc trưng khác như MFCC hay PLPC. Với đặc trưng MFCC, hệ thống rút trích 36 hệ số (12 hệ số MFCC cộng với đạo hàm bậc 1 và bậc 2 của chúng). Với đặc trưng LPCC, hệ thống rút trích 19 hệ số. 4.3.4. Kỹ thuật phát hiện tiếng nói (VAD) Luận văn thực hiện hai cách tiếp cận khác nhau cho mỗi hệ thống Ghi nhật ký người nói: Hệ thống xử lý đa kênh và Hệ thống xử lý nhanh. 4.3.4.1. Trong Hệ thống xử lý đa kênh Trong hệ thống này, thuật toán tính VAD (sau đây sẽ gọi là chương trình) được thực hiện bằng việc xây dựng mô hình ngữ liệu, xem Hình 4.1. Đầu tiên với mỗi frame dữ liệu, chương trình tạo ra 36 đặc trưng MFCC (12 MFCC cộng với đạo hàm bậc 1 và bậc 2 của chúng). Chương trình sử dụng tất cả các đặc trưng trong mỗi đọan thu để huấn luyện các mô hình tiếng nói – phi tiếng nói (Speech – NonSpeech) khởi tạo bằng phương pháp EM. Cụ thể, chương trình lựa chọn 10% các đặc trưng có năng lượng cao nhất với tỉ lệ ngưỡng zero (zero cross) cao để làm 49 thành mô hình tiếng nói khởi tạo. Bên cạnh đó, chương trình cũng lấy ra 20% đặc trưng có mức năng lượng thấp nhất với tỉ lệ ngưỡng zero thấp để xây dựng mô hình phi tiếng nói ban đầu. Hai mô hình này sẽ được huấn luyện bằng phương pháp EM. Tất cả các frame dữ liệu còn lại sẽ được phân loại thành các thành phần tiếng nói hoặc phi tiếng nói dựa vào phương pháp Ước lượng xác suất cực đại. Cuối cùng chương trình sử dụng các đặc trưng đã phân loại này để huấn luyện lại cho mô hình tiếng nói và không tiếng nói bằng phương pháp MAP (Maximum A Posteriori) cho đến khi tỷ lệ phần trăm thay đổi của các frame tiếng nói và phi tiếng nói ít hơn 1%. Hình 4.1 Thuật toán tính VAD của Hệ thống xử lý đa kênh 4.3.4.2. Trong Hệ thống xử lý nhanh Trong hệ thống này, luận văn sử dụng phương pháp tính VAD theo mức năng lượng, cụ thể là phương pháp AMR1-VAD [16]. Chi tiết thuật toán xem Mục 3.9.2. Các tham số cho thuật toán tính AMR1-VAD:  VAD_frame_length: 256  Number_of_sub_bands: 12  Threshold_for_tone_detection: 0.65  Threshold_for_pitch_detection: 686080.0  MIN_SPEECH_SNR: 0.125  NOISE_INIT: 150*100  VAD_POW_LOW: 30000.0 Ƣớc lƣợng 10% thấp nhất 10% cao nhất Mô hình tiếng nói Mô hình phi tiếng nói EM EM Phân loại Tiếng nói Phi tiếng nói MAP (2) (1) 50 4.3.5. Phƣơng pháp phân đoạn và phân nhóm theo ngƣời nói 4.3.5.1. Trong Hệ thống xử lý đa kênh Ở quá trình phân đoạn theo người nói, luận văn thực hiện việc phân đoạn theo thông tin TDOA với hai bước: Lượng giá TDOA và Chuẩn hoá TDOA. Số cặp microphone có số lượng peak nhiều nhất (K1) được chọn là 6. Số centroid có số lượng bin cao nhất trong histogram nhiều chiều (K2) là 9. Ở quá trình phân nhóm theo người nói, luận văn sử dụng phương pháp phân nhóm tích tụ theo bottom-up sử dụng độ đo khoảng cách Td [50]. Td là độ đo được phát triển dựa trên độ đo CLR (Cross Likelihood Ratio), sẽ được trình bày dưới đây: Tất cả các độ đo dựa theo tính toán likelihood như GLR, BIC và CLR đều giả định rằng nếu )( iM  và )( jM  là hai mô hình của cùng một người nói thì giá trị likelihood L(X| )( iM  ) sẽ gần với giá trị likelihood L(X| )( jM  ) với X={x1,…xN} là các vector đặc trưng được quan sát. Với Td, tác giả xây dựng dựa trên giả thuyết khác: nếu )( iM  và )( jM  là hai mô hình của cùng một người nói thì phân bố của các giá trị likelihood   XxMxL mim ,)(|  sẽ gần với phân bố của các giá trị likelihood   XxMxL mjm ,)(|  . Công thức xác định của độ đo Td được mô tả sau: Cho hai đoạn âm thanh (i, j) với các vector đặc trưng  iNiii ixxxX ,,, 21  và  jNjjj jxxxX ,,, 21  tương ứng. Định nghĩa:    )(|log)(|log)( Uii MxLMxLxf   (4.3)    )(|log)(|log)( Ujj MxLMxLxf   (4.4)    jjii XxxfXxxfS  |)(|)(1  (4.5)    ijji XxxfXxxfS  |)(|)(2  (4.6) Trong đó )( iM  , )( jM  là hai mô hình lượng giá cho Xi và Xj; )( UM  là mô hình nền tổng quát. Gọi m1, m2, 1 , 2 , n1, n2 tương ứng là giá trị trung bình, độ lệch chuẩn và kích thước của S1 và S2. Độ đo khoảng cách Td giữa hai đoạn Xi và Xj được tính như sau: 51 2 2 2 1 2 1 21 nn mm Td     (4.7) 4.3.5.2. Trong Hệ thống xử lý nhanh Ở quá trình phân đoạn theo người nói, tương tự như Hệ thống xử lý đa kênh, luận văn cũng thực hiện việc phân đoạn theo thông tin TDOA theo hai bước: Lượng giá TDOA và Chuẩn hoá TDOA. Số cặp microphone có số lượng peak nhiều nhất (K1) được chọn là 6. Số centroid có số lượng bin cao nhất trong histogram nhiều chiều (K2) là 30. Ở quá trình phân nhóm theo người nói, luận văn sử dụng thuật toán phân nhóm nhanh (Fast Clustering) cải tiến. Đây là thuật toán phân nhóm tích tụ theo bottom-up dựa trên độ đo khoảng cách Manhattan. Ngòai ra để tăng thêm độ chính xác của thuật toán trong trường hợp hai cặp vector có khoảng cách Manhattan bằng nhau nhưng không tương đồng với nhau, hệ thống áp dụng thêm độ đo Most Identified Score và độ đo nhãn. Tiêu chí dừng (Threshold) là 4.0, dựa theo số lượng phần tử trong mỗi vector (là 6). 4.3.6. Kỹ thuật post-processing Kỹ thuật post-processing sử dụng thuật toán giải mã Viterbi nằm trong bộ công cụ HTK Toolkit. Các tham số cho thuật toán như sau: - Số trạng thái cho mô hình HMM: 50 - Đặc trưng sử dụng: LPCC 4.4. Kết quả thực nghiệm và thảo luận Mục tiêu của thực nghiệm nhằm chứng tỏ khả năng Phân đoạn và Phân nhóm của Hệ thống cải tiến Fast Clustering so với Hệ thống xử lý đa kênh cũng như một số hệ thống xử lý khác trong môi trường Smart Meeting Room. 4.4.1. Kết quả thực nghiệm cho Hệ thống xử lý đa kênh Hệ thống được thực nghiệm trên hai bộ dữ liệu RT2007 và RT2009 với tổng thời gian thu âm là 6 giờ, tổng số người tham gia là 73 người trong 15 cuộc họp. Chi tiết kết quả được thể hiện trong Bảng 4.4 và 4.5. 52 Bảng 4-4 Bảng kết quả thực nghiệm của Hệ thống xử lý đa kênh cho bộ dữ liệu RT2007 RT2007 MST FST SET DER #Spk CMU_20061115-1030 9.90 2.30 4.10 16.30 4 CMU_20061115-1530 5.30 1.70 1.10 8.10 4 EDI_20061113-1500 8.00 1.50 5.90 15.40 4 EDI_20061114-1500 3.10 1.20 4.60 8.90 4 NIST_20051104-1515 4.20 0.30 1.20 5.70 4 NIST_20060216-1347 3.00 1.20 11.30 15.50 6 VT_20050408-1500 1.00 1.20 16.40 18.60 5 VT_20050425-1000 5.50 1.30 2.30 9.10 4 ALL 12.2 Bảng 4-5 Bảng kết quả thực nghiệm của Hệ thống xử lý đa kênh cho bộ dữ liệu RT2009 RT2009 MST FST SET DER #Spk EDI_20071128-1000 3.70 2.80 7.60 14.10 4 EDI_20071128-1500 8.20 6.10 11.60 25.90 4 IDI_20090128-1600 4.20 2.30 2.40 8.90 4 IDI_20090129-1000 4.80 5.80 9.20 19.80 4 NIST_20080201-1405 16.70 1.80 28.50 47.00 5 NIST_20080227-1501 8.80 0.30 2.90 12.00 6 NIST_20080307-0955 3.20 2.90 4.10 10.20 11 ALL 18.2 Trong mỗi bảng, các giá trị lỗi MST (Missed Speaker Time), FST (False Alarm Time), SET (Speaker Error Time) và lỗi tổng cộng DER được thể hiện cho từng bộ dữ liệu test. Dòng cuối cùng chỉ định giá trị trung bình của tất cả các cuộc họp. Cột cuối cùng bên phải chỉ định số người nói tương ứng. Các giá trị MST dao động từ 1.0% đến 9.9% (Bảng 4.4) và từ 3.2% đến 16.7% (Bảng 4.5) cho thấy lỗi bỏ sót người nói không ổn định. Tương tự, lỗi xác định nhãn người nói sai cũng không ổn định qua các kết quả thực nghiệm. Tuy nhiên giá trị DER cuối cùng lại khá ổn định. Với những cuộc họp có nhiều người tham gia, giá trị lỗi DER khá cao so với các cuộc họp ít người. Điều này có thể giải thích do khi có nhiều người tham gia, số lượng các phân nhóm lớn hơn và đặc biệt khả năng tiếng nói chồng lấp xảy ra cũng lớn hơn. 53 Bảng 4.6 cho biết giá trị lỗi, gọi là SAD DER (Speech Activity Detection DER), của thuật toán tính VAD trong Hệ thống xử lý đa kênh: Bảng 4-6 Giá trị lỗi SER của thuật toán tính VAD trong Hệ thống xử lý đa kênh RT2007 RT2009 SAD DER 2.97 3.55 4.4.2. Kết quả thực nghiệm cho Hệ thống xử lý nhanh Đầu tiên, để có thể dễ dàng so sánh hiệu quả của Hệ thống xử lý nhanh so với các hệ thống Ghi nhật ký người nói khác, luận văn tiến hành thử nghiệm trên hai bộ dữ liệu RT2007 và RT2009. Trong đó, luận văn chia hệ thống ra thành hai hệ thống con với các điều kiện môi trường sau: - Hệ thống 1 (PerfectVAD): Hệ thống này sẽ tập trung vào việc thử nghiệm cho hai thuật toán Phân đoạn và Phân nhóm của Hệ thống xử lý nhanh. Do đó sẽ không tính giá trị VAD mà sẽ sử dụng thông tin VAD tham chiếu, tức thông tin VAD được xác định chính xác theo dữ liệu âm thanh đầu vào. - Hệ thống 2 (NonPerfectVAD): Hệ thống này sẽ sử dụng kết quả tính VAD theo phương pháp phát hiện tiếng nói trong Hệ thống xử lý đa kênh (dựa trên mô hình ngữ liệu) để đảm bảo tính nhất quán khi so sánh. Kết quả thử nghiệm trên bộ dữ liệu RT2007 và RT2009 của hai hệ thống được mô tả chi tiết trong các Bảng 4.7 và 4.8 sau: Bảng 4-7 Bảng kết quả thực nghiệm của Hệ thống PerfectVAD cho bộ dữ liệu RT2007 và RT2009: (a) Kết quả cho bộ RT2007 – (b) Kết quả cho bộ RT2009 54 (a) RT2007 MST FST SET DER #Spk #Initial Cluster #Detected Spk CMU_20061115-1030 8.00 0.70 7.50 16.20 4 30 4 CMU_20061115-1530 4.50 1.20 3.20 8.90 4 30 7 EDI_20061113-1500 8.20 1.10 31.60 40.90 4 30 3 EDI_20061114-1500 3.10 1.30 15.20 19.60 4 30 3 NIST_20051104-1515 4.50 1.00 21.10 26.60 4 30 7 NIST_20060216-1347 3.30 1.30 11.50 16.10 6 30 9 VT_20050408-1500 1.80 1.30 44.50 47.60 5 30 3 VT_20050425-1000 5.90 1.40 40.40 47.70 4 30 15 ALL 27.95 1 - (b) RT2009 MST FST SET DER #Spk #Initial Cluster #Detected Spk EDI_20071128-1000 4.50 1.00 4.60 10.10 4 30 5 EDI_20071128-1500 8.20 1.80 5.60 15.60 4 30 5 IDI_20090128-1600 5.10 0.60 2.80 8.50 4 30 7 IDI_20090129-1000 5.90 1.20 4.90 12.00 4 30 4 NIST_20080201-1405 15.50 1.10 31.70 48.30 5 30 9 NIST_20080227-1501 9.50 0.50 33.40 43.40 6 30 8 NIST_20080307-0955 4.30 0.70 28.10 33.10 11 30 10 ALL 24.43 1 Bảng 4-8 Bảng kết quả thực nghiệm của Hệ thống NonPerfectVAD cho bộ dữ liệu RT2007 và RT2009: (c) Kết quả cho bộ RT2007 – (d) Kết quả cho bộ RT2009 (c) RT2007 MST FST SET DER #Spk #Initial Cluster #Detected Spk CMU_20061115-1030 9.70 3.00 6.90 19.60 4 30 5 CMU_20061115-1530 5.10 2.60 2.90 10.60 4 30 6 EDI_20061113-1500 8.20 2.30 15.90 26.40 4 30 3 EDI_20061114-1500 4.90 3.20 29.70 37.80 4 30 3 NIST_20051104-1515 4.40 1.20 23.00 28.60 4 30 7 NIST_20060216-1347 2.90 2.10 26.00 31.00 6 30 9 VT_20050408-1500 1.80 2.00 58.50 62.30 5 30 4 VT_20050425-1000 5.80 2.60 16.40 24.80 4 30 9 ALL 30.14 0 - (d) RT2009 MST FST SET DER #Spk #Initial Cluster #Detected Spk EDI_20071128-1000 12.40 2.20 6.60 21.20 4 30 5 55 EDI_20071128-1500 9.40 4.80 8.60 22.80 4 30 5 IDI_20090128-1600 4.50 2.00 4.20 10.70 4 30 6 IDI_20090129-1000 5.10 6.20 9.30 20.60 4 30 5 NIST_20080201-1405 17.60 1.70 31.50 50.80 5 30 10 NIST_20080227-1501 8.80 0.30 26.60 35.70 6 30 8 NIST_20080307-0955 3.40 2.90 31.70 38.00 11 30 13 ALL 28.54 0 Trong các bảng này, ngoài các giá trị MST, FST, SET, DER còn có thêm số lượng người nói tham gia (#Spk), số lượng phân nhóm ban đầu (#Initial_Cluster = K2) và số lượng người nói xác định được (#Detected_Spk). Dòng cuối cùng cho biết giá trị trung bình của DER và số lượng phát hiện đúng của #Detected_Spk. Có thể nhận thấy rằng giá trị DER trung bình trong hệ thống NonPerfectVAD cao hơn hệ thống PerfectVAD là 2.19% (RT2007) và 4.11% (RT2009). Đó là do hệ thống PerfectVAD sử dụng giá trị VAD “hoàn hảo” trong khi hệ thống NonPerfectVAD có tính toán giá trị VAD cho riêng nó. Hơn nữa, các giá trị chênh lệch này gần đúng với giá trị lỗi SAD DER của thuật toán phát hiện tiếng nói (SAD DER) trong Hệ thống xử lý đa kênh mà hệ thống NonPerfectVAD đang sử dụng. Điều này chứng tỏ thuật toán Phân đoạn và Phân nhóm nhanh (Fast Clustering) hoạt động khá ổn định và không phụ thuộc vào kết quả phát hiện tiếng nói. Tuy nhiên, hai hệ thống trên vẫn bộc lộ những điểm yếu khá lớn. Đó là khi dữ liệu cuộc họp có số người tham gia đông đồng thời có nhiều tiếng nói chồng lấp sẽ làm cho kết quả DER tăng rất cao (> 30%). Ví dụ trong bộ dữ liệu RT2007, kết quả DER chạy cho trường hợp VT_20050408-1500 lên đến 62.3% (với hệ thống NonPerfectVAD) và thậm chí khi sử dụng VAD “chuẩn” thì DER vẫn là 47.6% (với hệ thống PerfectVAD). Đây cũng chính là điểm yếu lớn nhất đối với cách tiếp cận chỉ sử dụng duy nhất đặc trưng TDOA, bởi những đoạn tiếng nói chồng lấp thì kỹ thuật tính TDOA chưa xác định được tất cả các hướng đến của người nói. Ngoài ra, cả hai hệ thống này đều rất kém trong việc phát hiện số người nói. Hệ thống PerfectVAD chỉ duy nhất một lần phát hiện chính xác số người nói. Trong khi đó hệ thống NonPerfectVAD phát hiện sai hoàn toàn. 56 Như đã biết, giá trị K2 là số phân nhóm khởi tạo cho thuật toán Phân nhóm nhanh, có được qua quá trình Lượng giá và Chuẩn hoá TDOA. Hình 4.2 cho ta thấy giá trị DER biến đổi ứng với các giá trị K2 khác nhau. Dữ liệu được thử nghiệm ở đây là RT2009. Có thể thấy, với mỗi hệ thống, giá trị DER khá ổn định khi K2 tăng từ 9 đến 45. Do đó luận văn đã chọn giá trị K2 = 30 để làm số phân nhóm khởi tạo, và kết quả DER thu được khá tương đương với các hệ thống Ghi nhật ký người nói khác (sẽ được thảo luận trong phần sau). Ngoài ra, giá trị K2 tăng lên không làm cho thời gian xử lý tăng lên đột biến. Thực nghiệm cho thấy thời gian xử lý khi K2 tăng từ 9 đến 45 chỉ dao động quanh mức 35s, và thời gian chênh lệch giữa K2=9 và K2=45 là khoảng 3s (thời gian được xét cho Module xử lý chính). (a) 0 5 10 15 20 25 30 35 40 9 10 11 12 13 14 15 16 17 18 19 20 25 30 35 40 45 D ia ri za ti o n E rr o r R at e (% ) PerfectVAD System DER Giá trị K2 57 (b) Hình 4.2 Lỗi DER với nhiều giá trị K2 khác nhau. (a)Trong Hệ thống PerfectVAD. (b) Trong Hệ thống NonPerfectVAD. Một câu hỏi đặt ra là liệu việc thay đổi giá trị K1 (số cặp microphone có số lượng peak nhiều nhất được chọn trong bước Lượng giá TDOA) có giúp tăng tính hiệu quả của hệ thống hay không? Luận văn đã thử nghiệm việc tăng giá trị K1 từ 3 đến 12 và kiểm tra giá trị lỗi DER, đồng thời cũng kiểm tra chi phí tính toán tương ứng (xem Hình 4.3). Dữ liệu được thử nghiệm ở đây là RT2009. Có thể thấy giá trị lỗi DER không giảm thêm bao nhiêu trong khi đó chi phí tính toán lại tăng dần. Như vậy có thể kết luận rằng chọn K1 sao cho giá trị lỗi DER thấp nhất không hẳn là một giải pháp tốt vì ta cần giữ độ cân bằng giữa tính hiệu quả và chi phí tính toán. K1 quá nhỏ sẽ không bao quát hết thông tin TDOA của các cặp microphone, K1 quá lớn lại làm tăng chí phí tính toán một cách không cần thiết. Trong thực nghiệm, K1 được chọn bằng 6 để đáp ứng cả ba yêu cầu về tính tổng quát, giá trị lỗi DER và chi phí tính toán. 0 10 20 30 40 9 10 11 12 13 14 15 16 17 18 19 20 25 30 35 40 45 D ia ri za ti o n E rr o r R at e (% ) NonPerfectVAD System DER Giá trị K2 58 Hình 4.3 Lỗi DER và thời gian tính toán (s) với nhiều giá trị K1 khác nhau Trong các thử nghiệm trên bộ dữ liệu tự thiết kế (Lab Test), luận văn xây dựng hệ thống đúng với mô hình đã đề xuất, gọi là hệ thống Fast Clustering. Hệ thống này tính toán giá trị VAD theo thuật toán AMR1-VAD. Kết quả thực nghiệm được thể hiện trong Bảng 4.9 sau: Bảng 4-9 Bảng kết quả thực nghiệm của Hệ thống Fast Clustering cho bộ dữ liệu Lab test Lab Test MST FST SET DER #Spk #Initial_Cluster #Detected_Spk Test1 1.40 0.00 0.06 1.46 3 9 3 Test2 1.46 0.00 0.00 1.46 3 9 3 Test3 1.23 0.00 0.20 1.43 3 9 3 Test4 1.04 0.00 0.10 1.14 3 9 3 Test5 1.40 0.00 0.70 1.47 3 9 3 ALL 1.39 5 Bảng 4.9 cho thấy kết quả thu được rất tốt. Kết quả này là do môi trường thực nghiệm mà luận văn thiết kế khá chuẩn: độ phản âm 350ms, các cuộc họp đều không có tiếng nói chồng lấp và chất lượng các tập tin thu âm khá tốt. Thực tế, mục tiêu mà luận văn hướng đến là những môi trường Smart Meeting Room có không gian nhỏ, có ít hoặc không có tiếng nói chồng lấp như bản tin tường thuật trực tiếp của một trận bóng đá hay các buổi họp chất vấn, điều trần nên kết quả thu được mở ra nhiều tiềm năng ứng dụng hứa hẹn cho hệ thống Ghi nhật ký người nói cải tiến. 0 10 20 30 40 50 60 70 80 90 100 3 4 5 6 7 8 9 10 11 12 Time DER 59 Bảng 4-10 Bảng chi phí tính toán của Hệ thống xử lý nhanh: Included (tất cả các bước), NotIncluded (không bao gồm bước tính toán TDOA và VAD) (a) Trên bộ dữ liệu RT2009 – (b) Trên bộ dữ liệu Lab Test (a) RT2009 #Spk Duration(s) PerfectVAD (NotIncluded) NonPerfectVAD (NotIncluded) EDI_20071128-1000 4 1764.57 15.38 22.21 EDI_20071128-1500 4 1848.23 14.54 23.77 IDI_20090128-1600 4 1806 13.29 16.86 IDI_20090129-1000 4 1805 14.23 21.81 NIST_20080201-1405 5 1220 68.67 88.75 NIST_20080227-1501 6 1135.67 50.26 64.77 NIST_20080307-0955 11 1279 50.21 70.9 ALL 1551.21 32.36 44.15 (b) Test Set #Spk Duration(s) Included(s) NotIncluded(s) Test1 3 654 230 2.95 Test2 3 603 204 2.9 Test3 3 605 213 2.88 Test4 3 601 199 2.68 Test5 3 602 200 2.71 ALL 613 209.2 2.824 Luận văn cũng tiến hành thực nghiệm thời gian xử lý cho Hệ thống xử lý nhanh. Dữ liệu kiểm chứng là bộ dữ liệu RT2009 và Lab Test. Bảng 4.10 cho chúng ta thấy thời gian xử lý ở hai trường hợp: (a) toàn bộ các bước và (b) không bao gồm bước tính toán TDOA và VAD. Với bộ thực nghiệm tự tạo, luận văn thử cả hai trường hợp (a) và (b). Với bộ thực nghiệm RT2009, luận văn chỉ thử trường hợp (b) cho hai hệ thống PerfectVAD và NonPerfectVAD. Kết quả chỉ ra rằng thời gian xử lý toàn bộ xấp xỉ 33% thời gian của âm thanh đầu vào. Nếu không tính bước xử lý TDOA và VAD (vì có thể chuyển sang xử lý theo thời gian thực) thì thời gian còn lại cho việc thực hiện Phân đoạn và Phân nhóm nhanh là khoảng 0.46% thời gian của âm thanh đầu vào. Trong khi đó, thời gian xử lý cho bước Phân đoạn và Phân nhóm của Hệ thống xử lý đa kênh rất lớn (Bảng 4.11), hơn 20 lần thời gian xử lý tương ứng của Hệ thống cải tiến. Đây là chi tiết quan trọng nếu mục tiêu mà hệ thống hướng đến là việc xử lý theo thời gian thực. 60 Bảng 4-11 Bảng chi phí tính toán của Hệ thống xử lý đa kênh cho bộ dữ liệu RT2009 RT2009 #Spk Duration(s) NotIncluded (s) EDI_20071128-1000 4 1764.57 403.31 EDI_20071128-1500 4 1848.23 433.2 IDI_20090128-1600 4 1806 389.1 IDI_20090129-1000 4 1805 421.55 NIST_20080201-1405 5 1220 944.8 NIST_20080227-1501 6 1135.67 1366.0 NIST_20080307-0955 11 1279 1279.75 ALL 1551.21 748.24 4.4.3. So sánh phƣơng pháp Fast Clustering với các phƣơng pháp Phân đoạn và Phân nhóm khác Trong phần này luận văn sẽ so sánh tính hiệu quả của hệ thống Ghi nhật ký người nói cải tiến (Fast Clustering) với Hệ thống xử lý đa kênh, cũng như một số hệ thống khác đã báo cáo tại hội thảo NIST Rich Transcription 2009 [62]. Bảng 4.12 tóm tắt lại một số thông tin về các hệ thống sẽ so sánh, bao gồm cả hai Hệ thống xử lý đa kênh và xử lý nhanh đã xây dựng. Bảng 4-12 Bảng thông tin của các Hệ thống sẽ được so sánh Tên hệ thống Tên tổ chức Thông tin hệ thống AMI Liên kết: ĐH Univ. Sheffield, IDIAP, ĐH Univ. Edinburgh, ĐH Univ. of Technology Brno, ĐH Univ. Twente - Đặc trưng MFCC + TDOA. - Áp dụng trọng số cho mỗi kênh - Độ đo khoảng cách BIC I2R/NTU Infocomm Research Site và ĐH Nanyang Technological University - Đặc trưng LPCC + TDOA - Phân đoạn theo TDOA - Độ đo Ts - Áp dụng trọng số cho mỗi kênh ICSI International Computer Science Institute - Đặc trưng MFCC + TDOA + Ngôn điệu - Độ đo khoảng cách BIC LIA/Eurecom PTN Laboratoire Informatique d'Avignon/ Ecole - Đặc trưng LFCC - Mô hình E-HMM UPM ĐH Universidad Politécnica de Madrid - Đặc trưng MFCC + TDOA - Mô hình GMM - Độ đo khoảng cách BIC UPC ĐH Universitat Politècnica de Catalunya - Đặc trưng MFCC + TDOA - Mô hình ergodic-HMM - Độ đo khoảng cách BIC Multi-channel Hệ thống xử lý đa kênh - Đặc trưng LPCC + TDOA - Phân đoạn theo TDOA - Độ đo Ts FastClustering Hệ thống xử lý nhanh cải tiến - Đặc trưng TDOA - Phân đoạn theo TDOA - Phân nhóm nhanh 61 Hình 4.4 và Bảng 4.13 so sánh giá trị lỗi DER của Hệ thống xử lý đa kênh và Hệ thống xử lý nhanh với các Hệ thống của AMI, I2R/NTU, ICSI, LIA/Eurecom, UPM và UPC trên bộ dữ liệu RT2009. Kết quả cho thấy Hệ thống xử lý đa kênh (18.2% DER) có kết quả khá cạnh tranh, chỉ xếp sau hai Hệ thống của I2R/NTU và ICSI. Trong khi đó Hệ thống xử lý nhanh (28.54 % DER) có kết quả tương đương với các Hệ thống của AMI, LIA/Eurecom, UPM và UPC. Đặc biệt Hệ thống xử lý nhanh cải tiến có DER thấp hơn giá trị DER của Hệ thống UPC. Bảng 4-13 Bảng kết quả lỗi DER của Hệ thống xử lý đa kênh và Hệ thống xử lý nhanh cải tiến cùng với các hệ thống báo cáo tại hội thảo NIST Rich Transcription 2009 Phương pháp Diarization Error Rate AMI 21.5 I2R/NTU 9.21 ICSI 9.67 LIA/Eurecom 23.51 UPM 21.38 UPC 31.98 MultiChannel 18.2 FastClustering 28.54 Hình 4.4 So sánh lỗi DER của Hệ thống xử lý đa kênh và Hệ thống xử lý nhanh cải tiến với các hệ thống báo cáo tại hội thảo NIST Rich Transcription 2009. 0 5 10 15 20 25 30 35 RT2009 DER 62 4.5. Kết luận và hƣớng phát triển Các bài toán xử lý tiếng nói cho dữ liệu hội nghị đang dần được cộng đồng nghiên cứu đặc biệt quan tâm bởi những ứng dụng trong lĩnh vực hội nghị có thể giúp ích rất nhiều cho các cá nhân, tổ chức và cho cả chính phủ. Trong giai đoạn đầu này, việc nghiên cứu các kỹ thuật áp dụng cho việc ghi nhật ký người nói góp phần xây dựng nền tảng cho các kỹ thuật trong tương lai như rút trích tri thức, cung cấp sự tương tác cảm ngữ cảnh cho các thành viên tham gia hội nghị. Do đó, để thực hiện tốt các nghiên cứu này, cần phải tạo ra những phòng họp được thiết kế thông minh với các thiết bị hỗ trợ đầy đủ, gọi là Smart Meeting Room. Bài toán Ghi nhật ký người nói cho dữ liệu hội nghị ra đời trên nhu cầu cần phải lưu trữ và đánh chỉ mục cho các dữ liệu âm thanh trong các hội nghị. Với mục tiêu nghiên cứu và mong muốn đem lại một giải pháp hiệu quả cho bài toán Ghi nhật ký người nói này, luận văn đã tiến hành nghiên cứu đề tài “Ghi nhật ký người nói cho dữ liệu hội nghị và ứng dụng trong môi trường Smart Meeting Room”. Một cách cụ thể, luận văn đã làm được các công việc như sau:  Tìm hiểu bài toán Ghi nhật ký người nói cho dữ liệu hội nghị, sự cần thiết phải giải quyết bài toán và khảo sát các hướng tiếp cận phổ biến để giải quyết bài toán.  Nghiên cứu hệ thống Ghi nhật ký người nói cho dữ liệu hội nghị và những kỹ thuật phục vụ cho việc xây dựng hệ thống, bao gồm: các kỹ thuật tiền xử lí (lọc nhiễu, kỹ thuật tính TDOA, kỹ thuật phát hiện tiếng nói…), đặc trưng ngữ âm, các phương pháp Phân đoạn theo người nói (phân đoạn dựa trên khoảng lặng, dựa trên mô hình, dựa trên độ đo khoảng cách, dựa trên thông tin TDOA) và Phân nhóm theo người nói (phân nhóm lượng hoá vector và phân nhóm tích tụ).  Với mục tiêu xây dựng một hệ thống Ghi nhật ký người nói nhanh và hiệu quả, tiến tới việc hiện thực theo thời gian thực, luận văn đề xuất một phương pháp Phân nhóm cải tiến, gọi là Fast Clustering. Hệ thống cải tiến chỉ sử dụng thông tin chênh lệch thời gian TDOA và 63 tiến hành phân nhóm tích tụ giữa các vector TDOA này. Theo cách này, Fast Clustering giảm được chi phí tính toán mà vẫn giữ độ chính xác tương đương so với các phương pháp phân nhóm bằng cách xây dựng mô hình ngữ liệu.  Hiện thực hoá hệ thống Ghi nhật ký người nói cho dữ liệu hội nghị trong môi trường Smart Meeting Room. Bằng cách áp dụng các kỹ thuật tiên tiến kết hợp với phương pháp phân nhóm nhanh Fast Clustering, hệ thống có thể phân đoạn và phân nhóm theo người nói với tốc độ tính toán rất nhanh (bằng khoảng 0.46% thời gian âm thanh đầu vào). Kết quả này là một tín hiệu hứa hẹn cho việc triển khai hệ thống theo thời gian thực.  Tiến hành thực nghiệm và nhận xét đánh giá khả năng hoạt động của hai hệ thống: hệ thống xử lý đa kênh và hệ thống xử lý nhanh cải tiến, trên cả hai phương diện là độ chính xác và tốc độ. Ngoài ra, luận văn cũng thực hiện so sánh với các hệ thống khác đã báo cáo tại hội thảo NIST Rich Transcription 2009. Kết quả cho thấy hệ thống cải tiến có độ chính xác tương đương với các hệ thống khác trong khi chi phí tính toán thấp hơn 20 lần. Tuy nhiên, luận văn cũng tồn tại những hạn chế sau:  Hệ thống xử lý nhanh cho kết quả xấu với dữ liệu hội nghị có nhiều tiếng nói chồng lấp. Trong trường hợp này kết quả lỗi DER tăng rất cao (>30%). Đây cũng chính là điểm yếu lớn nhất đối với cách tiếp cận chỉ sử dụng duy nhất đặc trưng TDOA, bởi những đoạn tiếng nói chồng lấp thì kỹ thuật tính TDOA chưa xác định được tất cả các hướng đến của người nói.  Hệ thống xử lý nhanh hoàn toàn không phát hiện được đúng số người nói trong cuộc họp. 64  Hệ thống xử lý nhanh phải ràng buộc trong môi trường không có hoặc có ít tiếng nói chồng lấp và chất lượng các tập tin thu âm khá tốt, do đó không thể ứng dụng trong trường hợp tổng quát được. Từ những kết quả trên, luận văn đánh giá đã hoàn thành tốt các mục tiêu nghiên cứu mà đề tài đặt ra. Hướng phát triển trong tương lai của đề tài là:  Nghiên cứu thử nghiệm các phương pháp phát hiện tiếng nói khác (phát hiện dựa trên thông tin TDOA…) nhằm tăng tính hiệu quả cho thuật toán phân đoạn và phân nhóm.  Cải tiến thuật toán tính TDOA để có thể xác định tất cả hướng đến của người nói trong trường hợp tiếng nói chồng lấp.  Phát triển thuật toán phân nhóm nhanh bằng cách sử dụng một độ đo tốt hơn và tìm kiếm mô hình ngữ liệu hiệu quả nhưng chi phí tính toán thấp nhằm giúp cải thiện độ chính xác khi trộn các phân nhóm.

Các file đính kèm theo tài liệu này:

8.pdf
0.pdf
1.pdf
10.pdf
11.pdf
2.pdf
3.pdf
4.pdf
5.pdf
6.pdf
7.pdf
9.pdf