Ghi nhật kí người nói cho dữ liệu hội nghị và ứng dụng trong môi trường smart meeting room
Trang nhan đề
Lời cảm ơn
Mục lục
Danh mục
Mở đầu
Chương 1: Gioi thiệu SMART MEETING ROOM
Chương 2: Bài toán ghi nhật kí người nói cho dữ liệu hội nghị
Chương 3: Hệ thống ghi nhật kí người nói cho dữ liệu hội nghị
Chương 4: Thử nghiệm và đánh giá
Tài liệu tham khảo
Mục lục
LỜI CẢM ƠN i
Mục lục ii
Danh mục các ký hiệu, các chữ viết tắt . v
Danh mục các bảng . vi
Danh mục các hình vẽ, đồ thị vii
MỞ ĐẦU 1
Chương 1 GIỚI THIỆU SMART MEETING ROOM 4
1.1. Tại sao phải nghiên cứu về lĩnh vực hội nghị? 4
1.2. Những thách thức của việc xử lý tiếng nói trong lĩnh vực hội nghị 4
1.2.1. Nhiều hình thức hội nghị và loại từ vựng 4
1.2.2. Tiếng nói đồng thời/tương tác cao . 5
1.2.3. Nhiều microphone . 5
1.2.4. Nhiều góc nhìn camera 5
1.2.5. Tích hợp thông tin đa phương tiện 5
1.3. Giới thiệu về Smart Meeting Room (SMR) . 5
Chương 2 BÀI TOÁN GHI NHẬT KÝ NGưỜI NÓI CHO DỮ LIỆU HỘI NGHỊ . 7
2.1. Giới thiệu bài toán . 7
2.2. Phát biểu bài toán 9
2.3. Độ đo đánh giá . 10
2.4. Các hướng tiếp cận giải quyết bài toán . 11
2.4.1. Bài toán phân đoạn theo người nói 11
iii
2.4.2. Bài toán phân nhóm theo người nói . 13
2.4.3. Hướng tiếp cận phổ biến trong môi trường SMR 14
2.5. Phương pháp phân nhóm nhanh cải tiến (Fast Clustering) 15
Chương 3 HỆ THỐNG GHI NHẬT KÝ NGưỜI NÓI CHO DỮ LIỆU HỘI NGHỊ . 17
3.1. Mô hình hệ thống xử lý đa kênh . 17
3.2. Mô hình hệ thống xử lý nhanh . 19
3.3. Các kĩ thuật tiền xử lý . 21
3.3.1. Kỹ thuật lọc nhiễu 21
3.3.2. Kỹ thuật tính TDOA 23
3.3.3. Đặc trưng ngữ âm 24
3.4. Mô hình ngữ âm . 27
3.4.1. Mô hình Markov ẩn (HMM) . 27
3.4.2. Mô hình Gaussian Mixture Model (GMM) . 28
3.5. Kỹ thuật phát hiện tiếng nói (Voice Activity Detection) 29
3.6. Kỹ thuật phân đoạn theo người nói . 31
3.6.1. Phân đoạn dựa trên đặc trưng 31
3.6.1.1. Phân đoạn dựa trên mức năng lượng . 31
3.6.1.2. Phân đoạn dựa trên thông tin TDOA . 32
3.6.2. Phân đoạn dựa trên mô hình 32
3.6.3. Phân đoạn dựa trên độ đo khoảng cách . 33
3.7. Kỹ thuật phân nhóm theo người nói 34
3.7.1. Phân nhóm lượng hoá vector . 34
3.7.2. Phân nhóm tích tụ 34
iv
3.8. Kỹ thuật post-processing 37
3.9. Các kỹ thuật được sử dụng trong Hệ thống xử lý nhanh 37
3.9.1. Kỹ thuật tính TDOA theo GCC-PHAT . 37
3.9.2. Kỹ thuật phát hiện tiếng nói theo AMR1-VAD 38
3.9.3. Lượng giá TDOA . 39
3.9.4. Chuẩn hoá TDOA 41
3.9.5. Kỹ thuật phân nhóm nhanh Fast Clustering 42
Chương 4 THỬ NGHIỆM VÀ ĐÁNH GIÁ 45
4.1. Dữ liệu thực nghiệm 45
4.2. Độ đo đánh giá . 46
4.3. Các kĩ thuật áp dụng và tham số 47
4.3.1. Kĩ thuật lọc nhiễu . 47
4.3.2. Kĩ thuật tính TDOA . 47
4.3.3. Đặc trưng ngữ âm cho Hệ thống xử lý đa kênh . 48
4.3.4. Kỹ thuật phát hiện tiếng nói (VAD) 48
4.3.5. Phương pháp phân đoạn và phân nhóm theo người nói 50
4.3.6. Kỹ thuật post-processing . 51
4.4. Kết quả thực nghiệm và thảo luận . 51
4.4.1. Kết quả thực nghiệm cho Hệ thống xử lý đa kênh 51
4.4.2. Kết quả thực nghiệm cho Hệ thống xử lý nhanh . 53
4.4.3. So sánh phương pháp Fast Clustering với các phương pháp Phân đoạn và Phân nhóm khác . 60
4.5. Kết luận và hướng phát triển . 62
TÀI LIỆU THAM KHẢO 65
20 trang |
Chia sẻ: lvcdongnoi | Lượt xem: 2622 | Lượt tải: 1
Bạn đang xem nội dung tài liệu Ghi nhật kí người nói cho dữ liệu hội nghị và ứng dụng trong môi trường smart meeting room, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
45
Chƣơng 4 THỬ NGHIỆM VÀ ĐÁNH GIÁ
4.1. Dữ liệu thực nghiệm
Dữ liệu thực nghiệm được luận văn sử dụng là bộ dữ liệu NIST Rich
Transcription 2007 (RT2007) [61] và 2009 (RT2009) [62], bao gồm 6 giờ thu âm
với 15 cuộc họp (thời gian mỗi cuộc họp từ 20-30 phút) và tổng cộng 73 người
tham gia. Chi tiết của từng bộ dữ liệu được mô tả trong Bảng 4.1 và 4.2:
Bảng 4-1 Thông tin về các cuộc họp trong bộ dữ liệu NIST RT2007. Tổng thời gian là 3h,
tổng số người tham gia là 35. Số tập tin tương ứng với số microphone trong cuộc họp đó
Tên cuộc họp Số ngƣời nói Thời gian (phút) Số tập tin
CMU_20061115-1030 4 28.4 3
CMU_20061115-1530 4 22.6 3
EDI_20061113-1500 4 22.6 8
EDI_20061114-1500 4 22.7 8
NIST_20051104-1515 4 22.4 7
NIST_20060216-1347 6 22.5 7
VT_20050408-1500 5 22.4 4
VT_20050425-1000 4 22.6 7
Bảng 4-2 Thông tin về các cuộc họp trong bộ dữ liệu NIST RT2009. Tổng thời gian là 3h,
tổng số người tham gia là 38. Số tập tin tương ứng với số microphone trong cuộc họp đó
Tên cuộc họp Số ngƣời nói Thời gian (phút) Số tập tin
EDI_20071128-1000 4 29.4 8
EDI_20071128-1500 4 30.8 8
IDI_20090128-1600 4 30.1 8
IDI_20090129-1000 4 30.1 8
NIST_20080201-1405 5 20.3 7
NIST_20080227-1501 6 18.9 7
NIST_20080307-0955 11 21.3 7
46
Ngoài ra, luận văn cũng xây dựng một bộ dữ liệu riêng tại phòng Lab
Emerging Research (ER) tại trường ĐH Kỹ thuật Nanyang, Singapore. Chúng tôi
thiết kế một phòng họp có diện tích 12m2 gồm 4 microphone đặt trên bàn cách
người nói khoảng 1m. Độ phản âm trong phòng khoảng 350ms. Số người nói tham
gia là 3 người. Không có chồng lấp tiếng nói trong quá trình diễn ra cuộc họp và
thời gian cho mỗi cuộc họp là từ 10-11 phút. Có tổng cộng 5 cuộc họp được thực
hiện với thông tin chi tiết như sau (Bảng 4.3):
Bảng 4-3 Thông tin về các cuộc họp trong bộ dữ liệu tự tạo. Tổng thời gian là 51 phút,
tổng số người tham gia là 15. Số tập tin tương ứng với số microphone trong cuộc họp đó
Tên cuộc họp Số ngƣời nói Thời gian (phút) Số tập tin
Test1 3 11 4
Test2 3 10 4
Test3 3 10 4
Test4 3 10 4
Test5 3 10 4
4.2. Độ đo đánh giá
Độ đo đánh giá được sử dụng trong luận văn là độ đo lỗi DER [62]
(Diarization Error Rate) theo định nghĩa sau:
𝐷𝐸𝑅 =
tổng tất cả thời gian ghi nhật ký lỗi
tổng thời gian tham chiếu
(4.1)
=
𝑆𝐸 +𝑀𝑆 + 𝐹𝐴
𝑆𝑃𝐾
% (4.2)
Thời gian xác định nhãn người nói sai (Speaker Error Time - SE): Phát hiện
đúng đoạn âm thanh có người nói, nhưng gán nhãn không chính xác. Ví dụ
đoạn âm thanh của Người A nhưng lại bị gán cho Người B.
Thời gian bỏ lỡ người nói (Missed Speaker Time – MS): Không phát hiện
được đoạn âm thanh đó là có người nói. Ví dụ trong trường hợp hai người
cùng nói đồng thời nhưng chỉ có một người được phát hiện.
47
Thời gian xác định Người nói sai (False Alarm Speaker Time – FA): Ngược
lại với MS, trong một đoạn âm thanh không có người nói nhưng lại được phát
hiện là có người nói, hay chỉ có một người nói nhưng lại phát hiện đến hai
người nói.
Tổng thời gian tham chiếu (Scored Speaker Time – SPK): là tổng tất cả thời
gian được tính theo người nói thực sự, làm cơ sở để tham chiếu.
4.3. Các kĩ thuật áp dụng và tham số
4.3.1. Kĩ thuật lọc nhiễu
Kỹ thuật lọc nhiễu sử dụng trong Hệ thống xử lý đa kênh là kỹ thuật lọc
Wiener [51] cho từng microphone và kỹ thuật Delay-and-Sum beamforming [58]
cho nhiều microphone sử dụng hai thư viện mã nguồn mở “Qualcomm-ICSI-OGI
front end for Wiener Filter” [2] và “Delay-and-Sum BeamformIt Tool-kit” [56]
tương ứng.
Các tham số cho từng bộ thư viện trên như sau:
Qualcomm-ICSI-OGI front end for Wiener Filter
o Window_length = 20ms
o Window_shift = 10ms
o FFT_length = 256
o Noisest_Threshold = 2.0
o Noisest_Alpha = 0.99
o Filter_Power = 2.0
Delay-and-Sum BeamformIt Tool-kit
o Input_audio_sample_rate: 16000Hz
o Input_audio_sample_size: 16bits/sample
4.3.2. Kĩ thuật tính TDOA
Để thực nghiệm trong môi trường SMR, luận văn sử dụng phương pháp tính
TDOA dựa theo GCC-PHAT (Generalized Cross-Correlation using Phase
48
Transform) [8]. Đây là phương pháp tính TDOA phổ biến nhất hiện nay với độ
chính xác cao và tốc độ xử lý nhanh.
Các tham số cho thuật toán tính TDOA theo GCC-PHAT:
Window_length = 500ms
Window_shift = 250ms
4.3.3. Đặc trƣng ngữ âm cho Hệ thống xử lý đa kênh
Đối với Hệ thống xử lý đa kênh, luận văn sử dụng hai đặc trưng ngữ âm là
MFCC (Mel Frequency Cepstral Coefficients) [45] và LPCC (Linear Prediction
Cepstral Coefficients) [22]. MFCC là đặc trưng thể hiện cho các phổ có mức năng
lượng bước sóng ngắn và LPCC là đặc trưng nén của dữ liệu âm thanh với thông tin
được rút trích từ mô hình dự báo tuyến tính. Đặc trưng MFCC được sử dụng trong
kỹ thuật phát hiện tiếng nói (chi tiết trong mục 4.3.4). Tuy nhiên, trong các thử
nghiệm thuật toán phân nhóm của hệ thống Ghi nhật ký người nói cho dữ liệu hội
nghị, LPCC lại cho thấy tính vượt trội so với các đặc trưng khác như MFCC hay
PLPC.
Với đặc trưng MFCC, hệ thống rút trích 36 hệ số (12 hệ số MFCC cộng với
đạo hàm bậc 1 và bậc 2 của chúng). Với đặc trưng LPCC, hệ thống rút trích 19 hệ
số.
4.3.4. Kỹ thuật phát hiện tiếng nói (VAD)
Luận văn thực hiện hai cách tiếp cận khác nhau cho mỗi hệ thống Ghi nhật
ký người nói: Hệ thống xử lý đa kênh và Hệ thống xử lý nhanh.
4.3.4.1. Trong Hệ thống xử lý đa kênh
Trong hệ thống này, thuật toán tính VAD (sau đây sẽ gọi là chương trình)
được thực hiện bằng việc xây dựng mô hình ngữ liệu, xem Hình 4.1. Đầu tiên với
mỗi frame dữ liệu, chương trình tạo ra 36 đặc trưng MFCC (12 MFCC cộng với đạo
hàm bậc 1 và bậc 2 của chúng). Chương trình sử dụng tất cả các đặc trưng trong
mỗi đọan thu để huấn luyện các mô hình tiếng nói – phi tiếng nói (Speech –
NonSpeech) khởi tạo bằng phương pháp EM. Cụ thể, chương trình lựa chọn 10%
các đặc trưng có năng lượng cao nhất với tỉ lệ ngưỡng zero (zero cross) cao để làm
49
thành mô hình tiếng nói khởi tạo. Bên cạnh đó, chương trình cũng lấy ra 20% đặc
trưng có mức năng lượng thấp nhất với tỉ lệ ngưỡng zero thấp để xây dựng mô hình
phi tiếng nói ban đầu. Hai mô hình này sẽ được huấn luyện bằng phương pháp EM.
Tất cả các frame dữ liệu còn lại sẽ được phân loại thành các thành phần tiếng nói
hoặc phi tiếng nói dựa vào phương pháp Ước lượng xác suất cực đại. Cuối cùng
chương trình sử dụng các đặc trưng đã phân loại này để huấn luyện lại cho mô hình
tiếng nói và không tiếng nói bằng phương pháp MAP (Maximum A Posteriori) cho
đến khi tỷ lệ phần trăm thay đổi của các frame tiếng nói và phi tiếng nói ít hơn 1%.
Hình 4.1 Thuật toán tính VAD của Hệ thống xử lý đa kênh
4.3.4.2. Trong Hệ thống xử lý nhanh
Trong hệ thống này, luận văn sử dụng phương pháp tính VAD theo mức
năng lượng, cụ thể là phương pháp AMR1-VAD [16]. Chi tiết thuật toán xem Mục
3.9.2. Các tham số cho thuật toán tính AMR1-VAD:
VAD_frame_length: 256
Number_of_sub_bands: 12
Threshold_for_tone_detection: 0.65
Threshold_for_pitch_detection: 686080.0
MIN_SPEECH_SNR: 0.125
NOISE_INIT: 150*100
VAD_POW_LOW: 30000.0
Ƣớc lƣợng
10% thấp nhất
10% cao nhất Mô hình
tiếng nói
Mô hình
phi tiếng nói
EM
EM
Phân loại
Tiếng nói
Phi tiếng nói
MAP
(2)
(1)
50
4.3.5. Phƣơng pháp phân đoạn và phân nhóm theo ngƣời nói
4.3.5.1. Trong Hệ thống xử lý đa kênh
Ở quá trình phân đoạn theo người nói, luận văn thực hiện việc phân đoạn
theo thông tin TDOA với hai bước: Lượng giá TDOA và Chuẩn hoá TDOA. Số cặp
microphone có số lượng peak nhiều nhất (K1) được chọn là 6. Số centroid có số
lượng bin cao nhất trong histogram nhiều chiều (K2) là 9.
Ở quá trình phân nhóm theo người nói, luận văn sử dụng phương pháp phân
nhóm tích tụ theo bottom-up sử dụng độ đo khoảng cách Td [50]. Td là độ đo được
phát triển dựa trên độ đo CLR (Cross Likelihood Ratio), sẽ được trình bày dưới đây:
Tất cả các độ đo dựa theo tính toán likelihood như GLR, BIC và CLR đều
giả định rằng nếu
)( iM
và
)( jM
là hai mô hình của cùng một người nói thì giá
trị likelihood L(X|
)( iM
) sẽ gần với giá trị likelihood L(X|
)( jM
) với X={x1,…xN}
là các vector đặc trưng được quan sát. Với Td, tác giả xây dựng dựa trên giả thuyết
khác: nếu
)( iM
và
)( jM
là hai mô hình của cùng một người nói thì phân bố của
các giá trị likelihood
XxMxL mim ,)(|
sẽ gần với phân bố của các giá trị
likelihood
XxMxL mjm ,)(|
. Công thức xác định của độ đo Td được mô tả
sau:
Cho hai đoạn âm thanh (i, j) với các vector đặc trưng
iNiii ixxxX ,,, 21
và
jNjjj jxxxX ,,, 21
tương ứng. Định nghĩa:
)(|log)(|log)( Uii MxLMxLxf (4.3)
)(|log)(|log)( Ujj MxLMxLxf (4.4)
jjii XxxfXxxfS |)(|)(1
(4.5)
ijji XxxfXxxfS |)(|)(2
(4.6)
Trong đó
)( iM
,
)( jM
là hai mô hình lượng giá cho Xi và Xj;
)( UM
là mô
hình nền tổng quát. Gọi m1, m2,
1
,
2
, n1, n2 tương ứng là giá trị trung bình, độ
lệch chuẩn và kích thước của S1 và S2. Độ đo khoảng cách Td giữa hai đoạn Xi và Xj
được tính như sau:
51
2
2
2
1
2
1
21
nn
mm
Td
(4.7)
4.3.5.2. Trong Hệ thống xử lý nhanh
Ở quá trình phân đoạn theo người nói, tương tự như Hệ thống xử lý đa kênh,
luận văn cũng thực hiện việc phân đoạn theo thông tin TDOA theo hai bước: Lượng
giá TDOA và Chuẩn hoá TDOA. Số cặp microphone có số lượng peak nhiều nhất
(K1) được chọn là 6. Số centroid có số lượng bin cao nhất trong histogram nhiều
chiều (K2) là 30.
Ở quá trình phân nhóm theo người nói, luận văn sử dụng thuật toán phân
nhóm nhanh (Fast Clustering) cải tiến. Đây là thuật toán phân nhóm tích tụ theo
bottom-up dựa trên độ đo khoảng cách Manhattan. Ngòai ra để tăng thêm độ chính
xác của thuật toán trong trường hợp hai cặp vector có khoảng cách Manhattan bằng
nhau nhưng không tương đồng với nhau, hệ thống áp dụng thêm độ đo Most
Identified Score và độ đo nhãn. Tiêu chí dừng (Threshold) là 4.0, dựa theo số lượng
phần tử trong mỗi vector (là 6).
4.3.6. Kỹ thuật post-processing
Kỹ thuật post-processing sử dụng thuật toán giải mã Viterbi nằm trong bộ
công cụ HTK Toolkit. Các tham số cho thuật toán như sau:
- Số trạng thái cho mô hình HMM: 50
- Đặc trưng sử dụng: LPCC
4.4. Kết quả thực nghiệm và thảo luận
Mục tiêu của thực nghiệm nhằm chứng tỏ khả năng Phân đoạn và Phân nhóm
của Hệ thống cải tiến Fast Clustering so với Hệ thống xử lý đa kênh cũng như một
số hệ thống xử lý khác trong môi trường Smart Meeting Room.
4.4.1. Kết quả thực nghiệm cho Hệ thống xử lý đa kênh
Hệ thống được thực nghiệm trên hai bộ dữ liệu RT2007 và RT2009 với tổng
thời gian thu âm là 6 giờ, tổng số người tham gia là 73 người trong 15 cuộc họp.
Chi tiết kết quả được thể hiện trong Bảng 4.4 và 4.5.
52
Bảng 4-4 Bảng kết quả thực nghiệm của Hệ thống xử lý đa kênh cho bộ dữ liệu RT2007
RT2007 MST FST SET DER #Spk
CMU_20061115-1030 9.90 2.30 4.10 16.30 4
CMU_20061115-1530 5.30 1.70 1.10 8.10 4
EDI_20061113-1500 8.00 1.50 5.90 15.40 4
EDI_20061114-1500 3.10 1.20 4.60 8.90 4
NIST_20051104-1515 4.20 0.30 1.20 5.70 4
NIST_20060216-1347 3.00 1.20 11.30 15.50 6
VT_20050408-1500 1.00 1.20 16.40 18.60 5
VT_20050425-1000 5.50 1.30 2.30 9.10 4
ALL 12.2
Bảng 4-5 Bảng kết quả thực nghiệm của Hệ thống xử lý đa kênh cho bộ dữ liệu RT2009
RT2009 MST FST SET DER #Spk
EDI_20071128-1000 3.70 2.80 7.60 14.10 4
EDI_20071128-1500 8.20 6.10 11.60 25.90 4
IDI_20090128-1600 4.20 2.30 2.40 8.90 4
IDI_20090129-1000 4.80 5.80 9.20 19.80 4
NIST_20080201-1405 16.70 1.80 28.50 47.00 5
NIST_20080227-1501 8.80 0.30 2.90 12.00 6
NIST_20080307-0955 3.20 2.90 4.10 10.20 11
ALL 18.2
Trong mỗi bảng, các giá trị lỗi MST (Missed Speaker Time), FST (False
Alarm Time), SET (Speaker Error Time) và lỗi tổng cộng DER được thể hiện cho
từng bộ dữ liệu test. Dòng cuối cùng chỉ định giá trị trung bình của tất cả các cuộc
họp. Cột cuối cùng bên phải chỉ định số người nói tương ứng.
Các giá trị MST dao động từ 1.0% đến 9.9% (Bảng 4.4) và từ 3.2% đến
16.7% (Bảng 4.5) cho thấy lỗi bỏ sót người nói không ổn định. Tương tự, lỗi xác
định nhãn người nói sai cũng không ổn định qua các kết quả thực nghiệm. Tuy
nhiên giá trị DER cuối cùng lại khá ổn định. Với những cuộc họp có nhiều người
tham gia, giá trị lỗi DER khá cao so với các cuộc họp ít người. Điều này có thể giải
thích do khi có nhiều người tham gia, số lượng các phân nhóm lớn hơn và đặc biệt
khả năng tiếng nói chồng lấp xảy ra cũng lớn hơn.
53
Bảng 4.6 cho biết giá trị lỗi, gọi là SAD DER (Speech Activity Detection
DER), của thuật toán tính VAD trong Hệ thống xử lý đa kênh:
Bảng 4-6 Giá trị lỗi SER của thuật toán tính VAD trong Hệ thống xử lý đa kênh
RT2007 RT2009
SAD DER 2.97 3.55
4.4.2. Kết quả thực nghiệm cho Hệ thống xử lý nhanh
Đầu tiên, để có thể dễ dàng so sánh hiệu quả của Hệ thống xử lý nhanh so
với các hệ thống Ghi nhật ký người nói khác, luận văn tiến hành thử nghiệm trên
hai bộ dữ liệu RT2007 và RT2009. Trong đó, luận văn chia hệ thống ra thành hai hệ
thống con với các điều kiện môi trường sau:
- Hệ thống 1 (PerfectVAD): Hệ thống này sẽ tập trung vào việc thử
nghiệm cho hai thuật toán Phân đoạn và Phân nhóm của Hệ thống xử lý
nhanh. Do đó sẽ không tính giá trị VAD mà sẽ sử dụng thông tin VAD
tham chiếu, tức thông tin VAD được xác định chính xác theo dữ liệu âm
thanh đầu vào.
- Hệ thống 2 (NonPerfectVAD): Hệ thống này sẽ sử dụng kết quả tính
VAD theo phương pháp phát hiện tiếng nói trong Hệ thống xử lý đa kênh
(dựa trên mô hình ngữ liệu) để đảm bảo tính nhất quán khi so sánh.
Kết quả thử nghiệm trên bộ dữ liệu RT2007 và RT2009 của hai hệ thống
được mô tả chi tiết trong các Bảng 4.7 và 4.8 sau:
Bảng 4-7 Bảng kết quả thực nghiệm của Hệ thống PerfectVAD cho bộ dữ liệu RT2007 và
RT2009: (a) Kết quả cho bộ RT2007 – (b) Kết quả cho bộ RT2009
54
(a)
RT2007 MST FST SET DER #Spk #Initial Cluster
#Detected
Spk
CMU_20061115-1030 8.00 0.70 7.50 16.20 4 30 4
CMU_20061115-1530 4.50 1.20 3.20 8.90 4 30 7
EDI_20061113-1500 8.20 1.10 31.60 40.90 4 30 3
EDI_20061114-1500 3.10 1.30 15.20 19.60 4 30 3
NIST_20051104-1515 4.50 1.00 21.10 26.60 4 30 7
NIST_20060216-1347 3.30 1.30 11.50 16.10 6 30 9
VT_20050408-1500 1.80 1.30 44.50 47.60 5 30 3
VT_20050425-1000 5.90 1.40 40.40 47.70 4 30 15
ALL 27.95 1
-
(b)
RT2009 MST FST SET DER #Spk #Initial Cluster
#Detected
Spk
EDI_20071128-1000 4.50 1.00 4.60 10.10 4 30 5
EDI_20071128-1500 8.20 1.80 5.60 15.60 4 30 5
IDI_20090128-1600 5.10 0.60 2.80 8.50 4 30 7
IDI_20090129-1000 5.90 1.20 4.90 12.00 4 30 4
NIST_20080201-1405 15.50 1.10 31.70 48.30 5 30 9
NIST_20080227-1501 9.50 0.50 33.40 43.40 6 30 8
NIST_20080307-0955 4.30 0.70 28.10 33.10 11 30 10
ALL 24.43 1
Bảng 4-8 Bảng kết quả thực nghiệm của Hệ thống NonPerfectVAD cho bộ dữ liệu
RT2007 và RT2009: (c) Kết quả cho bộ RT2007 – (d) Kết quả cho bộ RT2009
(c)
RT2007 MST FST SET DER #Spk
#Initial
Cluster
#Detected
Spk
CMU_20061115-1030 9.70 3.00 6.90 19.60 4 30 5
CMU_20061115-1530 5.10 2.60 2.90 10.60 4 30 6
EDI_20061113-1500 8.20 2.30 15.90 26.40 4 30 3
EDI_20061114-1500 4.90 3.20 29.70 37.80 4 30 3
NIST_20051104-1515 4.40 1.20 23.00 28.60 4 30 7
NIST_20060216-1347 2.90 2.10 26.00 31.00 6 30 9
VT_20050408-1500 1.80 2.00 58.50 62.30 5 30 4
VT_20050425-1000 5.80 2.60 16.40 24.80 4 30 9
ALL 30.14 0
-
(d) RT2009 MST FST SET DER #Spk
#Initial
Cluster
#Detected
Spk
EDI_20071128-1000 12.40 2.20 6.60 21.20 4 30 5
55
EDI_20071128-1500 9.40 4.80 8.60 22.80 4 30 5
IDI_20090128-1600 4.50 2.00 4.20 10.70 4 30 6
IDI_20090129-1000 5.10 6.20 9.30 20.60 4 30 5
NIST_20080201-1405 17.60 1.70 31.50 50.80 5 30 10
NIST_20080227-1501 8.80 0.30 26.60 35.70 6 30 8
NIST_20080307-0955 3.40 2.90 31.70 38.00 11 30 13
ALL 28.54 0
Trong các bảng này, ngoài các giá trị MST, FST, SET, DER còn có thêm số
lượng người nói tham gia (#Spk), số lượng phân nhóm ban đầu (#Initial_Cluster =
K2) và số lượng người nói xác định được (#Detected_Spk). Dòng cuối cùng cho biết
giá trị trung bình của DER và số lượng phát hiện đúng của #Detected_Spk. Có thể
nhận thấy rằng giá trị DER trung bình trong hệ thống NonPerfectVAD cao hơn hệ
thống PerfectVAD là 2.19% (RT2007) và 4.11% (RT2009). Đó là do hệ thống
PerfectVAD sử dụng giá trị VAD “hoàn hảo” trong khi hệ thống NonPerfectVAD
có tính toán giá trị VAD cho riêng nó. Hơn nữa, các giá trị chênh lệch này gần đúng
với giá trị lỗi SAD DER của thuật toán phát hiện tiếng nói (SAD DER) trong Hệ
thống xử lý đa kênh mà hệ thống NonPerfectVAD đang sử dụng. Điều này chứng tỏ
thuật toán Phân đoạn và Phân nhóm nhanh (Fast Clustering) hoạt động khá ổn định
và không phụ thuộc vào kết quả phát hiện tiếng nói.
Tuy nhiên, hai hệ thống trên vẫn bộc lộ những điểm yếu khá lớn. Đó là khi
dữ liệu cuộc họp có số người tham gia đông đồng thời có nhiều tiếng nói chồng lấp
sẽ làm cho kết quả DER tăng rất cao (> 30%). Ví dụ trong bộ dữ liệu RT2007, kết
quả DER chạy cho trường hợp VT_20050408-1500 lên đến 62.3% (với hệ thống
NonPerfectVAD) và thậm chí khi sử dụng VAD “chuẩn” thì DER vẫn là 47.6%
(với hệ thống PerfectVAD). Đây cũng chính là điểm yếu lớn nhất đối với cách tiếp
cận chỉ sử dụng duy nhất đặc trưng TDOA, bởi những đoạn tiếng nói chồng lấp thì
kỹ thuật tính TDOA chưa xác định được tất cả các hướng đến của người nói. Ngoài
ra, cả hai hệ thống này đều rất kém trong việc phát hiện số người nói. Hệ thống
PerfectVAD chỉ duy nhất một lần phát hiện chính xác số người nói. Trong khi đó hệ
thống NonPerfectVAD phát hiện sai hoàn toàn.
56
Như đã biết, giá trị K2 là số phân nhóm khởi tạo cho thuật toán Phân nhóm
nhanh, có được qua quá trình Lượng giá và Chuẩn hoá TDOA. Hình 4.2 cho ta thấy
giá trị DER biến đổi ứng với các giá trị K2 khác nhau. Dữ liệu được thử nghiệm ở
đây là RT2009. Có thể thấy, với mỗi hệ thống, giá trị DER khá ổn định khi K2 tăng
từ 9 đến 45. Do đó luận văn đã chọn giá trị K2 = 30 để làm số phân nhóm khởi tạo,
và kết quả DER thu được khá tương đương với các hệ thống Ghi nhật ký người nói
khác (sẽ được thảo luận trong phần sau). Ngoài ra, giá trị K2 tăng lên không làm cho
thời gian xử lý tăng lên đột biến. Thực nghiệm cho thấy thời gian xử lý khi K2 tăng
từ 9 đến 45 chỉ dao động quanh mức 35s, và thời gian chênh lệch giữa K2=9 và
K2=45 là khoảng 3s (thời gian được xét cho Module xử lý chính).
(a)
0
5
10
15
20
25
30
35
40
9 10 11 12 13 14 15 16 17 18 19 20 25 30 35 40 45
D
ia
ri
za
ti
o
n
E
rr
o
r
R
at
e
(%
)
PerfectVAD System
DER Giá trị K2
57
(b)
Hình 4.2 Lỗi DER với nhiều giá trị K2 khác nhau.
(a)Trong Hệ thống PerfectVAD. (b) Trong Hệ thống NonPerfectVAD.
Một câu hỏi đặt ra là liệu việc thay đổi giá trị K1 (số cặp microphone có số
lượng peak nhiều nhất được chọn trong bước Lượng giá TDOA) có giúp tăng tính
hiệu quả của hệ thống hay không? Luận văn đã thử nghiệm việc tăng giá trị K1 từ 3
đến 12 và kiểm tra giá trị lỗi DER, đồng thời cũng kiểm tra chi phí tính toán tương
ứng (xem Hình 4.3). Dữ liệu được thử nghiệm ở đây là RT2009. Có thể thấy giá trị
lỗi DER không giảm thêm bao nhiêu trong khi đó chi phí tính toán lại tăng dần.
Như vậy có thể kết luận rằng chọn K1 sao cho giá trị lỗi DER thấp nhất không hẳn
là một giải pháp tốt vì ta cần giữ độ cân bằng giữa tính hiệu quả và chi phí tính toán.
K1 quá nhỏ sẽ không bao quát hết thông tin TDOA của các cặp microphone, K1 quá
lớn lại làm tăng chí phí tính toán một cách không cần thiết. Trong thực nghiệm, K1
được chọn bằng 6 để đáp ứng cả ba yêu cầu về tính tổng quát, giá trị lỗi DER và chi
phí tính toán.
0
10
20
30
40
9 10 11 12 13 14 15 16 17 18 19 20 25 30 35 40 45
D
ia
ri
za
ti
o
n
E
rr
o
r
R
at
e
(%
)
NonPerfectVAD System
DER Giá trị K2
58
Hình 4.3 Lỗi DER và thời gian tính toán (s) với nhiều giá trị K1 khác nhau
Trong các thử nghiệm trên bộ dữ liệu tự thiết kế (Lab Test), luận văn xây
dựng hệ thống đúng với mô hình đã đề xuất, gọi là hệ thống Fast Clustering. Hệ
thống này tính toán giá trị VAD theo thuật toán AMR1-VAD. Kết quả thực nghiệm
được thể hiện trong Bảng 4.9 sau:
Bảng 4-9 Bảng kết quả thực nghiệm của Hệ thống Fast Clustering cho bộ dữ liệu Lab test
Lab Test MST FST SET DER #Spk #Initial_Cluster #Detected_Spk
Test1 1.40 0.00 0.06 1.46 3 9 3
Test2 1.46 0.00 0.00 1.46 3 9 3
Test3 1.23 0.00 0.20 1.43 3 9 3
Test4 1.04 0.00 0.10 1.14 3 9 3
Test5 1.40 0.00 0.70 1.47 3 9 3
ALL 1.39 5
Bảng 4.9 cho thấy kết quả thu được rất tốt. Kết quả này là do môi trường
thực nghiệm mà luận văn thiết kế khá chuẩn: độ phản âm 350ms, các cuộc họp đều
không có tiếng nói chồng lấp và chất lượng các tập tin thu âm khá tốt. Thực tế, mục
tiêu mà luận văn hướng đến là những môi trường Smart Meeting Room có không
gian nhỏ, có ít hoặc không có tiếng nói chồng lấp như bản tin tường thuật trực tiếp
của một trận bóng đá hay các buổi họp chất vấn, điều trần nên kết quả thu được mở
ra nhiều tiềm năng ứng dụng hứa hẹn cho hệ thống Ghi nhật ký người nói cải tiến.
0
10
20
30
40
50
60
70
80
90
100
3 4 5 6 7 8 9 10 11 12
Time
DER
59
Bảng 4-10 Bảng chi phí tính toán của Hệ thống xử lý nhanh:
Included (tất cả các bước), NotIncluded (không bao gồm bước tính toán TDOA và VAD)
(a) Trên bộ dữ liệu RT2009 – (b) Trên bộ dữ liệu Lab Test
(a)
RT2009 #Spk Duration(s)
PerfectVAD
(NotIncluded)
NonPerfectVAD
(NotIncluded)
EDI_20071128-1000 4 1764.57 15.38 22.21
EDI_20071128-1500 4 1848.23 14.54 23.77
IDI_20090128-1600 4 1806 13.29 16.86
IDI_20090129-1000 4 1805 14.23 21.81
NIST_20080201-1405 5 1220 68.67 88.75
NIST_20080227-1501 6 1135.67 50.26 64.77
NIST_20080307-0955 11 1279 50.21 70.9
ALL 1551.21 32.36 44.15
(b)
Test Set #Spk Duration(s) Included(s) NotIncluded(s)
Test1 3 654 230 2.95
Test2 3 603 204 2.9
Test3 3 605 213 2.88
Test4 3 601 199 2.68
Test5 3 602 200 2.71
ALL 613 209.2 2.824
Luận văn cũng tiến hành thực nghiệm thời gian xử lý cho Hệ thống xử lý
nhanh. Dữ liệu kiểm chứng là bộ dữ liệu RT2009 và Lab Test. Bảng 4.10 cho chúng
ta thấy thời gian xử lý ở hai trường hợp: (a) toàn bộ các bước và (b) không bao gồm
bước tính toán TDOA và VAD. Với bộ thực nghiệm tự tạo, luận văn thử cả hai
trường hợp (a) và (b). Với bộ thực nghiệm RT2009, luận văn chỉ thử trường hợp (b)
cho hai hệ thống PerfectVAD và NonPerfectVAD. Kết quả chỉ ra rằng thời gian xử
lý toàn bộ xấp xỉ 33% thời gian của âm thanh đầu vào. Nếu không tính bước xử lý
TDOA và VAD (vì có thể chuyển sang xử lý theo thời gian thực) thì thời gian còn
lại cho việc thực hiện Phân đoạn và Phân nhóm nhanh là khoảng 0.46% thời gian
của âm thanh đầu vào. Trong khi đó, thời gian xử lý cho bước Phân đoạn và Phân
nhóm của Hệ thống xử lý đa kênh rất lớn (Bảng 4.11), hơn 20 lần thời gian xử lý
tương ứng của Hệ thống cải tiến. Đây là chi tiết quan trọng nếu mục tiêu mà hệ
thống hướng đến là việc xử lý theo thời gian thực.
60
Bảng 4-11 Bảng chi phí tính toán của Hệ thống xử lý đa kênh cho bộ dữ liệu RT2009
RT2009 #Spk Duration(s) NotIncluded (s)
EDI_20071128-1000 4 1764.57 403.31
EDI_20071128-1500 4 1848.23 433.2
IDI_20090128-1600 4 1806 389.1
IDI_20090129-1000 4 1805 421.55
NIST_20080201-1405 5 1220 944.8
NIST_20080227-1501 6 1135.67 1366.0
NIST_20080307-0955 11 1279 1279.75
ALL 1551.21 748.24
4.4.3. So sánh phƣơng pháp Fast Clustering với các phƣơng pháp
Phân đoạn và Phân nhóm khác
Trong phần này luận văn sẽ so sánh tính hiệu quả của hệ thống Ghi nhật ký
người nói cải tiến (Fast Clustering) với Hệ thống xử lý đa kênh, cũng như một số hệ
thống khác đã báo cáo tại hội thảo NIST Rich Transcription 2009 [62]. Bảng 4.12
tóm tắt lại một số thông tin về các hệ thống sẽ so sánh, bao gồm cả hai Hệ thống xử
lý đa kênh và xử lý nhanh đã xây dựng.
Bảng 4-12 Bảng thông tin của các Hệ thống sẽ được so sánh
Tên hệ thống Tên tổ chức Thông tin hệ thống
AMI
Liên kết: ĐH Univ. Sheffield, IDIAP,
ĐH Univ. Edinburgh, ĐH Univ. of
Technology Brno, ĐH Univ. Twente
- Đặc trưng MFCC + TDOA.
- Áp dụng trọng số cho mỗi kênh
- Độ đo khoảng cách BIC
I2R/NTU
Infocomm Research Site và ĐH
Nanyang Technological University
- Đặc trưng LPCC + TDOA
- Phân đoạn theo TDOA
- Độ đo Ts
- Áp dụng trọng số cho mỗi kênh
ICSI
International Computer Science
Institute
- Đặc trưng MFCC + TDOA + Ngôn điệu
- Độ đo khoảng cách BIC
LIA/Eurecom
PTN Laboratoire Informatique
d'Avignon/ Ecole
- Đặc trưng LFCC
- Mô hình E-HMM
UPM
ĐH Universidad Politécnica de
Madrid
- Đặc trưng MFCC + TDOA
- Mô hình GMM
- Độ đo khoảng cách BIC
UPC
ĐH Universitat Politècnica de
Catalunya
- Đặc trưng MFCC + TDOA
- Mô hình ergodic-HMM
- Độ đo khoảng cách BIC
Multi-channel Hệ thống xử lý đa kênh
- Đặc trưng LPCC + TDOA
- Phân đoạn theo TDOA
- Độ đo Ts
FastClustering Hệ thống xử lý nhanh cải tiến
- Đặc trưng TDOA
- Phân đoạn theo TDOA
- Phân nhóm nhanh
61
Hình 4.4 và Bảng 4.13 so sánh giá trị lỗi DER của Hệ thống xử lý đa kênh và
Hệ thống xử lý nhanh với các Hệ thống của AMI, I2R/NTU, ICSI, LIA/Eurecom,
UPM và UPC trên bộ dữ liệu RT2009. Kết quả cho thấy Hệ thống xử lý đa kênh
(18.2% DER) có kết quả khá cạnh tranh, chỉ xếp sau hai Hệ thống của I2R/NTU và
ICSI. Trong khi đó Hệ thống xử lý nhanh (28.54 % DER) có kết quả tương đương
với các Hệ thống của AMI, LIA/Eurecom, UPM và UPC. Đặc biệt Hệ thống xử lý
nhanh cải tiến có DER thấp hơn giá trị DER của Hệ thống UPC.
Bảng 4-13 Bảng kết quả lỗi DER của Hệ thống xử lý đa kênh và Hệ thống xử lý nhanh
cải tiến cùng với các hệ thống báo cáo tại hội thảo NIST Rich Transcription 2009
Phương pháp Diarization Error Rate
AMI 21.5
I2R/NTU 9.21
ICSI 9.67
LIA/Eurecom 23.51
UPM 21.38
UPC 31.98
MultiChannel 18.2
FastClustering 28.54
Hình 4.4 So sánh lỗi DER của Hệ thống xử lý đa kênh và Hệ thống xử lý nhanh cải tiến
với các hệ thống báo cáo tại hội thảo NIST Rich Transcription 2009.
0
5
10
15
20
25
30
35
RT2009
DER
62
4.5. Kết luận và hƣớng phát triển
Các bài toán xử lý tiếng nói cho dữ liệu hội nghị đang dần được cộng đồng
nghiên cứu đặc biệt quan tâm bởi những ứng dụng trong lĩnh vực hội nghị có thể
giúp ích rất nhiều cho các cá nhân, tổ chức và cho cả chính phủ. Trong giai đoạn
đầu này, việc nghiên cứu các kỹ thuật áp dụng cho việc ghi nhật ký người nói góp
phần xây dựng nền tảng cho các kỹ thuật trong tương lai như rút trích tri thức, cung
cấp sự tương tác cảm ngữ cảnh cho các thành viên tham gia hội nghị. Do đó, để
thực hiện tốt các nghiên cứu này, cần phải tạo ra những phòng họp được thiết kế
thông minh với các thiết bị hỗ trợ đầy đủ, gọi là Smart Meeting Room.
Bài toán Ghi nhật ký người nói cho dữ liệu hội nghị ra đời trên nhu cầu cần
phải lưu trữ và đánh chỉ mục cho các dữ liệu âm thanh trong các hội nghị. Với mục
tiêu nghiên cứu và mong muốn đem lại một giải pháp hiệu quả cho bài toán Ghi
nhật ký người nói này, luận văn đã tiến hành nghiên cứu đề tài “Ghi nhật ký người
nói cho dữ liệu hội nghị và ứng dụng trong môi trường Smart Meeting Room”. Một
cách cụ thể, luận văn đã làm được các công việc như sau:
Tìm hiểu bài toán Ghi nhật ký người nói cho dữ liệu hội nghị, sự cần
thiết phải giải quyết bài toán và khảo sát các hướng tiếp cận phổ biến
để giải quyết bài toán.
Nghiên cứu hệ thống Ghi nhật ký người nói cho dữ liệu hội nghị và
những kỹ thuật phục vụ cho việc xây dựng hệ thống, bao gồm: các kỹ
thuật tiền xử lí (lọc nhiễu, kỹ thuật tính TDOA, kỹ thuật phát hiện
tiếng nói…), đặc trưng ngữ âm, các phương pháp Phân đoạn theo
người nói (phân đoạn dựa trên khoảng lặng, dựa trên mô hình, dựa
trên độ đo khoảng cách, dựa trên thông tin TDOA) và Phân nhóm theo
người nói (phân nhóm lượng hoá vector và phân nhóm tích tụ).
Với mục tiêu xây dựng một hệ thống Ghi nhật ký người nói nhanh và
hiệu quả, tiến tới việc hiện thực theo thời gian thực, luận văn đề xuất
một phương pháp Phân nhóm cải tiến, gọi là Fast Clustering. Hệ
thống cải tiến chỉ sử dụng thông tin chênh lệch thời gian TDOA và
63
tiến hành phân nhóm tích tụ giữa các vector TDOA này. Theo cách
này, Fast Clustering giảm được chi phí tính toán mà vẫn giữ độ chính
xác tương đương so với các phương pháp phân nhóm bằng cách xây
dựng mô hình ngữ liệu.
Hiện thực hoá hệ thống Ghi nhật ký người nói cho dữ liệu hội nghị
trong môi trường Smart Meeting Room. Bằng cách áp dụng các kỹ
thuật tiên tiến kết hợp với phương pháp phân nhóm nhanh Fast
Clustering, hệ thống có thể phân đoạn và phân nhóm theo người nói
với tốc độ tính toán rất nhanh (bằng khoảng 0.46% thời gian âm thanh
đầu vào). Kết quả này là một tín hiệu hứa hẹn cho việc triển khai hệ
thống theo thời gian thực.
Tiến hành thực nghiệm và nhận xét đánh giá khả năng hoạt động của
hai hệ thống: hệ thống xử lý đa kênh và hệ thống xử lý nhanh cải tiến,
trên cả hai phương diện là độ chính xác và tốc độ. Ngoài ra, luận văn
cũng thực hiện so sánh với các hệ thống khác đã báo cáo tại hội thảo
NIST Rich Transcription 2009. Kết quả cho thấy hệ thống cải tiến có
độ chính xác tương đương với các hệ thống khác trong khi chi phí tính
toán thấp hơn 20 lần.
Tuy nhiên, luận văn cũng tồn tại những hạn chế sau:
Hệ thống xử lý nhanh cho kết quả xấu với dữ liệu hội nghị có nhiều
tiếng nói chồng lấp. Trong trường hợp này kết quả lỗi DER tăng rất
cao (>30%). Đây cũng chính là điểm yếu lớn nhất đối với cách tiếp
cận chỉ sử dụng duy nhất đặc trưng TDOA, bởi những đoạn tiếng nói
chồng lấp thì kỹ thuật tính TDOA chưa xác định được tất cả các
hướng đến của người nói.
Hệ thống xử lý nhanh hoàn toàn không phát hiện được đúng số người
nói trong cuộc họp.
64
Hệ thống xử lý nhanh phải ràng buộc trong môi trường không có hoặc
có ít tiếng nói chồng lấp và chất lượng các tập tin thu âm khá tốt, do
đó không thể ứng dụng trong trường hợp tổng quát được.
Từ những kết quả trên, luận văn đánh giá đã hoàn thành tốt các mục tiêu
nghiên cứu mà đề tài đặt ra. Hướng phát triển trong tương lai của đề tài là:
Nghiên cứu thử nghiệm các phương pháp phát hiện tiếng nói khác
(phát hiện dựa trên thông tin TDOA…) nhằm tăng tính hiệu quả cho
thuật toán phân đoạn và phân nhóm.
Cải tiến thuật toán tính TDOA để có thể xác định tất cả hướng đến của
người nói trong trường hợp tiếng nói chồng lấp.
Phát triển thuật toán phân nhóm nhanh bằng cách sử dụng một độ đo
tốt hơn và tìm kiếm mô hình ngữ liệu hiệu quả nhưng chi phí tính toán
thấp nhằm giúp cải thiện độ chính xác khi trộn các phân nhóm.