Phương pháp được chúng tôi sử dụng là data driven- clustering. Chúng ta sẽ
gom nhóm các trạng thái của các mô hình triphone dựa vào độ đo khoảng cách giữa
các trạng thái. Các trạng thái cùng 1 phân nhóm sẽ được buộc vào thành 1 trạng thái.
Dựa vào các nhóm trạng thái này chúng ta sẽ gom nhóm các âm vị.
Cách gom nhóm các trạng thái được tiến hành nhưsau. Ban đầu mỗi trạng
thái sẽ nằm ở 1 cluster. Tại mỗi bước lặp, hai cluster khi trộn sau khi trộn vào có
khoảng cách trung bình giữa các trạng thái trong cùng 1 cluster là nhỏ nhất sẽ được
trộn lại. Quá trình được lặp cho đến khi tồn tại 1 cluster có khoảng cách trung bình
giữa các trạng thái lớn hơn ngưỡng T. Nếu ngưỡng T càng lớn thì sốcluster càng
giảm.
91 trang |
Chia sẻ: lylyngoc | Lượt xem: 2769 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Nhận dạng tiếng nói tiếng việt theo hướng tiếp cận nhận dạng âm vị tự động, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ch
khoảng như vậy của dãy bộ lọc, tỉ lệ nhận dạng đúng được nâng lên.
Tiếp theo, các hệ số cepstral được tính từ phép biến đổi Cosine rời rạc
(DCT).
41
KH
OA
C
NT
T –
Đ
H
KH
TN
Tiền xử lý tín hiệu Tiếng nói và rút trích đặc trưng
c’ = DCT{S’’’(ω)}
12 hệ số đầu tiên (trừ đi hệ số thứ 0) chính là các đặc trưng MFCC
3.3.2.3. Phương pháp Mã hoá cepstral tần số Mel dựa trên LPC (MFCC)
Phương pháp này giống như phương pháp MFCC. Điểm khác biệt là sau
bước phân chia cửa sổ, phổ tín hiệu được tính thông qua phép biến đổi dự báo tuyến
tính LPC thay vì dùng các phép biến đổi Fourier.
Tín hiệu tiếng nói
Làm nổi tín hiệu
Phân chia cửa sổ
FFT LPC
HÌNH 11 – Sơ đồ của bộ lọc MFCC dựa trên biến đổi dự báo tuyến tính và các biến
đổi Fourier
3.3.2.4. Các hệ số delta (D) và hệ số gia tốc (A)
Hiệu suất của một hệ nhận dạng tiếng nói có thể tăng lên đáng kể nếu chúng
ta đưa thêm gia số thời gian vào bộ tham số tĩnh cơ bản. Ở đây, chúng ta sẽ xem xét
hệ số D (delta) và hệ số A (accelerator).
Dãy bộ lọc Mel
Log|tín hiệu đã lọc Mel|
DCT
Các đặc trưng MFCC
Dãy bộ lọc Mel
Log|tín hiệu đã lọc Mel|
DCT
Các đặc trưng MFCC dựa
trên LPC
42
KH
OA
C
NT
T –
Đ
H
KH
TN
Tiền xử lý tín hiệu Tiếng nói và rút trích đặc trưng
Hệ số D là hệ số có được do tính đạo hàm bậc nhất của đặc trưng gốc, hệ số
gia tốc A có được nhờ tính đạo hàm bậc hai của đặc trưng gốc. Hệ số A không thể
dùng riêng lẻ một mình. Hệ số delta được tính dựa vào công thức truy hồi sau:
( )
∑
∑
Θ
=
Θ
= −+ −=
1
2
1
2 θ
θ θθ
θ
θ tt
t
cc
d
trong đó, dt là hệ số delta tại thời điểm t được tính dựa theo các hệ số tĩnh
và θ+tc θ−tc
Do phương trình trên phụ thuộc vào các giá trị tham số tiếng nói đã sử dụng
và chưa sử dụng nên chúng ta cần tinh chỉnh phần đầu và cuối của lời nói. Thông
thường, chúng ta nhân đôi vector đầu tiên hoặc vector cuối cùng. Một cách khác là
sử dụng điểm khác biệt vị trí đầu ở đầu và cuối tiếng nói:
dt = ct+1 - ct, t < Θ
và dt = ct - ct-1, t >= T – Θ
trong đó, T là chiều dài dữ liệu
Nếu sử dụng hệ số delta và hệ số gia tốc trong đặc trưng, chúng được áp
dụng cho toàn bộ các đặc trưng gốc, bao gồm cả năng lượng nếu có. Trong vài ứng
dụng, năng lượng tuyệt đối không đóng vai trò quan trọng, nhưng những trích đoạn
về thời gian của năng lượng thì quan trọng.
3.3.3. So sánh các phương pháp trích đặc trưng
Phương pháp LPC – Phương pháp MFCC dựa trên LPC
Spectral LPC dùng bộ lọc tỉ lệ Mel (MFCC dựa trên LPC) có hiệu suất tốt
hơn một chút so với spectral LPC dự báo tuyến tính. Nguyên nhân có thể do hiệu
ứng làm mượt vùng tần số cao của bộ lọc tỉ lệ Mel, làm giảm đi các yếu tố cao thất
thường trong vòng tần số cao bằng cách nâng cao băng thông của các dãy bộ lọc
Mel.
43
KH
OA
C
NT
T –
Đ
H
KH
TN
Tiền xử lý tín hiệu Tiếng nói và rút trích đặc trưng
Phương pháp MFCC dựa trên LPC – Phương pháp MFCC dựa trên
FFT
MFCC dựa trên LPC có khuynh hướng phụ thuộc người nói, do đó, thích hợp
hơn cho các công việc nhận dạng người nói.
Đối với tiếng nói không bị pha tạp tiếng ồn hoặc tiếng nói giống tiếng nói đã
học mẫu, phương pháp LPC có hiệu suất kém hơn FFT (cả 2 đều dùng bộ lọc tỉ lệ
Mel), nhưng đối với tiếng nói ở môi trường ồn ào hoặc không giống dạng tiếng nói
đã học mẫu, ước lượng spectral LPC có hiệu suất cao hơn.
44
KH
OA
C
NT
T –
Đ
H
KH
TN
Thuật giải Embedded training
CHƯƠNG 4 Thuật giải Embedded training – tách và xây dựng
mô hình HMM tự động cho âm vị
4.1. Tách và nhận dạng âm vị tự động dựa trên HMM
4.1.1. Thuật toán huấn luyện đối với những đơn vị độc lập - Huấn
luyện trên dữ liệu gán nhãn
Đầu vào chính là các mô hình HMM đã được khởi tạo dữ liệu huấn luyện đã
được gán nhãn với biên xác định của từng âm vị.
Tool để thực hiện việc này trong HTK là HRest. Như đã giới thiệu về HMM
HRest cũng sử dụng Baum-Welch Re-estimation. Như đã giới thiệu ở trên phần
thuật giải Baum-Welch nó liên quan đến việc tìm xác suất đạt mỗi trạng thái tại mỗi
frame theo thời điểm t sử dụng thuật giải Forward-Backward. Xác suất này dùng để
tính giá trị trung bình các tham số của HMM. Thuật giải được mô tả bằng lưu đồ
sau:
45
KH
OA
C
NT
T –
Đ
H
KH
TN
Thuật giải Embedded training
HMM khởi tạo:λao
Thuật toán forward-Backward
Cập nhật tham số HMM: λao.
HÌNH 12 – Lưu đồ huấn luyện từ đơn của công cụ HRest (HTK)
Giả sử chúng ta cần huấn luyện HMM cho âm vị /a/ (HMM λa). HRest sẽ
load mô hình HMM khởi tạo λao và quá trình ước lượng tham số sử dụng tất cả các
đoạn dữ liệu được gán nhãn (được xác định trong file đánh nhãn) cho âm vị /a/ áp
dụng thuật toán Baum-Welch để ước lượng các tham số cho HMM λa theo hình vẽ
trên.
4.1.2. Thuật giải Embedded training - huấn luyện trên dữ liệu âm
thanh không gán nhãn âm vị
Thuật giải này dựa trên thuật toán Baum-Welch nên còn có tên gọi là
Embedded Baum-Welch.
Thuật giải huấn luyện cho từng đơn vị riêng lẻ thích hợp cho mô hình HMM
cho từ đơn và nó được khởi tạo dựa trên dữ liệu gán nhãn. Đối với nhận dạng tiếng
nói dùng mô hình dưới từ (âm vị) thì thuật toán Embedded training thường được sử
dụng.
Không giống như quá trình huấn luyện đã mô tả ở trên, embedded training sử
dụng tất cả các dữ liệu huấn luyện để cập nhật tất cả các HMM. Trong HTK công cụ
thực hiện chức năng này có tên là HERest.
false
true
Hội tụ
Mô hình HMM ước lượng được
46
KH
OA
C
NT
T –
Đ
H
KH
TN
Thuật giải Embedded training
Hoạt động của thuật toán như sau. Đầu tiên chương trình load tất cả các tập
hợp các định nghĩa của mô hình HMM. Mỗi file huấn luyện sẽ có 1 file đánh nhãn
đi kèm với nó. File đánh nhãn này chỉ chứa thứ tự các âm vị chứ không chứa biên
các âm vị. Embedded training xử lý mỗi file huấn luyện như sau: Sau khi load toàn
bộ file dữ liệu chương trình sẽ sử dụng file gán nhãn (như đã nói ở trên) để xây
dựng 1 mô hình HMM tổng hợp cho toàn bộ câu. Mô hình HMM tổng hợp được tạo
ra bằng cách móc nối các mô hình HMM cho từng âm vị theo thứ tự của âm vị chứa
trong file đánh nhãn. Sau đó thuật toán Forward và Backward để tính các giá trị
trọng số trung bình của HMM tổng hợp theo cách bình thường. Khi tất cả các file
huấn luyện được xử lý các tham số mới sẽ được tính bằng cách lấy các giá trị trung
bình.
Giả sử ban đầu chúng ta có các định mô hình HMM (chưa được huấn luyện)
của các âm vị sau:
/m/: λm, /o6/2: λo6 , /t/: λt , /h/: λh, /b/: λb, /a/: λa, /i/: λi, /sil/3: λsil
HÌNH 13 – Dãy sóng âm “MO6T MO6T HAI HAI BA MO6T”
Dữ liệu huấn luyện là dãy âm tiết: “một một hai ba một”, viết theo ký hiệu
âm vị được chúng tôi quy ước là “MO6T MO6T HAI HAI BA MO6T”
Thứ tự âm vị của dãy âm tiết:
/sil/ /m/ /o6/ /t/ /sil/ /m/ /o6/ /t/ /sil/ /h/ /a/ /i/ /sil/ /h/ /a/ /i/ /sil/ /b/
/a/ /sil/ /m/ /o6/ /t/ /sil/
Mô hình HMM tổng hợp trên toàn câu:
λsil -> λm-> λo6-> λt->λsil -> λm -> λo6 -> λt -> λsil -> λh -> λa -> λi ->
λsil -> λh -> λa -> λi -> λsil -> λb -> λa -> λsil
2 /o6/: ký hiệu thể hiện âm vị /ô/ tiếng Việt
3 /sil/: ký hiệu thể hiện khoảng im lặng trong lời nói (Khoảng im lặng được chúng tôi quy ước là một âm vị)
47
KH
OA
C
NT
T –
Đ
H
KH
TN
Thuật giải Embedded training
Ta có mô hình huấn luyện Embedded training như sau:
h
a
i
…
b
a
sil
k
b
o6
n
sil
…
data/tr1.lab
data/tr2.lab
data/tr3.lab
c
a
n
sil
… data/tr3.lab
HÌNH 14 – Mô hình huấn luyện Embedded training
Khi huấn luyện, nên theo dõi hiệu quả của quá trình huấn luyện và nên dừng
khi thấy không kết quả huấn luyện không tốt hơn. Ta sẽ xem giá trị log likelihood
trung bình trên mỗi frame của file huấn luyện. Độ đo này là điều kiện hội tụ của
thuật toán Embedded training. Tuy nhiên để hội tụ sẽ mất rất nhiều thời gian. Tệ
hơn nữa nếu huấn luyện quá lâu chúng sẽ gây ra hiện tượng quá luyện vì các mô
hình HMM sẽ quá khớp với dữ liệu huấn luyện do đó tính tổng quát của nó không
cao. Trong thực tế thì số bước huấn luyện có thể là từ 2 đến 5 bước đối với nhận
dạng âm vị. Chúng ta có thể quyết định số bước này thông qua quan sát kết quả sau
mỗi bước huấn luyện hoặc qua kết quả huấn luyện.
Để đạt được độ chính xác cao, nên chẩn bị lượng dữ liệu huấn luyện càng
nhiều càng tốt. Theo thực nghiệm, với lượng dữ liệu là vài giờ đọc thì thơi gian của
mỗi bước lặp cũng có thể lên đến vài giờ. Để tăng hiệu quả tính toán thì người ta áp
dụng 2 giải pháp:
48
KH
OA
C
NT
T –
Đ
H
KH
TN
Thuật giải Embedded training
Giải pháp thứ nhất được HERest (thư viện HTK) sử dụng: cắt bớt những tính
toán không cần thiết trong công thức của thuật toán forward-backward. Cơ chế này
được gọi là pruning. HERest sẽ tính xác suất backward βj (t) trước sau đó tính xác
suất forward αj (t) sau. Tính toán αj(t) và βj (t) trên tất cả các trạng thái j và tất cả
các thời điểm t là không cần thiết vì nhiều tính toán trong số đó là không có ảnh
hưởng đáng kể tới kết quả. Do đó áp dụng prunning sẽ giảm số trạng thái được xét
αi(t) và βi(t). Giảm tính toán trên forward αj (t) luôn luôn được thực hiện vì nó không
ảnh hưởng nhiều tới kết quả và trong HTK, nó được thực hiện tự động. Còn giảm
bớt số trạng thái trên backward βi(t) thì được thực hiện thông qua ngưỡng do người
dùng đưa vào. Ngưỡng này phụ thuộc vào dữ liệu nên cần thông qua thực nghiệm
để kiểm chứng.
Giải pháp thứ hai để tăng tốc độ tính toán là dùng nhiều CPU chạy song song.
4.2. Các công thức ước lượng tham số của mô hình HMM
4.2.1. Ước lượng tham số khi huấn luyện các mô hình HMM độc lập
Giả sử chúng ta có 1 tập các chuỗi quan sát như sau: O={O1, O2, …, Or, …,
OR} được dùng để ước lượng cho mô hình λ và mô hình HMM cần ước lượng tham
số hiện tại là λ=(A,B). Mỗi vector quan sát Or=(o1, o2, …, oTr}. λ có N trạng thái.
Như vậy chúng ta cần ước lượng các tham số sau: A={ai j} là xác suất chuyển
trạng thái và tập tham số đặc trưng cho mỗi trạng thái là vector trung bình µ và hiệp
phương sai ∑.
Xác suất chuyển trạng thái
Công thức để chung để ước lượng xác suất chuyển trạng thái:
),1(
)()(1
)1()()(1
ˆ
1 1
1
1
1 1
Nji
tt
P
tobat
Pa
R
r
r
i
r
i
Tr
t
r
R
r
Tr
t
r
j
r
tjji
r
i
r
ji <<
−
=
∑ ∑
∑ ∑
= =
=
−
= +
βα
βα
với:
49
KH
OA
C
NT
T –
Đ
H
KH
TN
Thuật giải Embedded training
Pr= P(Or | λ)
αri (t) βrj là hàm xác suất Forward xác suất Backward đã được giới thiệu.
ai j là xác suất chuyển trạng thái từ trạng thái i sang trạng thái j trong mô
hình cũ λ.
bj(ort+1) là xác suất frame đạt trạng thái j đối với vector đặc trưng ort+1 trên
mô hình HMM cũ.
Tr là số vector đặc trưng của chuỗi quan sát or.
Xác suất chuyển trạng thái từ trạng thái khởi đầu đến trạng thái j trong là:
∑
=
<<=
R
r
r
j
r
j
r
ji NjPR
a
1
1,)1()1(11ˆ βα
)1()()()(
)()()(1
ˆ
)1(
1
)(
1
)(
1
)(
11
)(
1
1
1
1
)()()(
1
)(
1
)(
1 rqq
Nq
rqrqR
t
rq
R
r
Tr
t
rq
j
r
t
q
j
q
j
rq
rq
j
attt
tobat
Pa +
=
=
−
=
+=∑
∑ ∑
βαβα
βα
Xác suất chuyển từ 1 trạng thái bất kỳ đến trạng thái kết thúc:
Ni
tt
P
TT
Pa
R
r
Tr
t
r
i
r
i
r
R
r
r
i
r
i
r
j <<=∑ ∑
∑
= =
=
1,
)()(1
)()(1
ˆ
1 1
1
1 βα
βα
Các tham số µ và ∑ của mỗi trạng thái
Ta có:
αrj(t)βj(t)=P(Or, s(t)=j|λ)
Đặt:
)()(1
)|(
)|)(,()|)(|()(
tt
P
OP
jtsOPjtsOPt
jj
r
r
r
rr
jL
βα
λ
λλ
=
====
50
KH
OA
C
NT
T –
Đ
H
KH
TN
Thuật giải Embedded training
Ta có:
∑ ∑
∑ ∑
= =
= == R
r
Tr
t
r
j
R
r
Tr
t
r
t
r
j
j
tL
OtL
1 1
1 1
)(
)(µˆ
∑ ∑
∑ ∑
= =
= = ′−−=∑ R
r
Tr
t
r
j
R
r
Tr
t j
r
tj
r
t
r
j
j
tL
OOtL
1 1
1 1
)(
)ˆ)(ˆ()(ˆ µµ
4.2.2. Ước lượng tham số trong thuật giải Embedded training
Các công thức ước lượng tham số của embedded training cần phải thay đổi
để sao cho trạng thái đầu của HMM có thể xuất hiện bất cứ lúc nào do kết quả của
sự đi ra khỏi mô hình trước.
Xác suất chuyển đổi trạng thái cơ bản sẽ được xác định như sau:
∑ ∑
∑ ∑
= =
=
−
= + +
=
R
r
rq
i
Tr
t
rq
ji
r
R
r
Tr
t
rq
j
r
t
q
j
q
ji
rq
i
rq
ji
t
P
tobat
Pa
1
)(
1
)(
1
1
1
)(
1
)()()(
)(
)(1
)1()()(1
βα
βα
Xác suất chuyển trạng thái từ 1 trạng thái khởi đầu đến 1 trạng thái khác là:
∑ ∑
∑ ∑
=
−
=
=
−
= +
+
+
=
R
r
Tr
t
rqq
Nq
rqrqrq
r
R
r
Tr
t
rq
j
r
t
q
j
q
j
rq
rq
j
tattt
P
tobat
Pa
1
1
1
)(
1
)(
1
)(
1
)(
1
)(
1
1
1
1
)(
1
)()(
1
)(
1
)(
1
)()()()(1
)1()()(1
ˆ
βαβα
βα
trong đó là xác suất chuyển đến HMM kế. )()( )(1)(1)(1 tat rqqNqrq βα
Xác suất chuyển trạng thái đi ra khỏi HMM tức chuyển đến trạng thái kết
thúc của HMM được tính như sau:
∑ ∑
∑ ∑
=
−
=
=
−
=
=
R
r
Tr
t
rq
i
rq
i
r
R
r
Tr
t
rq
Nq
q
Nqi
rq
i
rq
Nqi
tt
P
tat
Pa
1
1
1
)()(
1
1
1
)()()(
)(
)()(1
)()(1
ˆ
βα
βα
51
KH
OA
C
NT
T –
Đ
H
KH
TN
Thuật giải Embedded training
Cuối cùng xác suất chuyển trạng thái từ trạng thái đầu đến trạng thái kết thúc
của HMM được xác định:
∑ ∑
∑ ∑
=
−
=
=
−
=
+
=
R
r
Tr
t
rqq
Nq
rqrq
i
rq
i
r
R
r
Tr
t
rqq
Nq
rq
rq
Nq
tattt
P
tat
Pa
1
1
1
)(
1
)(
1
)(
1
)()(
1
1
1
)(
1
)(
1
)(
1
)(
1
)()()()(1
)()(1
ˆ
βαβα
βα
Các tham số µ và ∑ được xác định tương tự như đối với huấn luyện mô hình
độc lập ở trên. Trong đó các giá trị ( )trqi )(α và được tính hơi khác so với
thuật giải forward-backward nguyên thủy. Trong quá trình huấn huấn luyện
Embedded training, HMM trên toàn bộ chuỗi quan sát O là mô hình HMM phức
bao gồm Q mô hình HMM âm vị móc nối với nhau. Giả sử tại thời điểm t giá trị α
và β tương ứng với trạng thái mở đầu và trạng thái kết thúc của 1 HMM tại thời
điểm t-∆t và t+ ∆t với ∆t tương đối nhỏ.
)()( trqiβ
Đối với xác suất Forward:
Tại thời điểm t=0:
⎪⎩
⎪⎨
⎧
≠
== −−
− 1,)1(
1q,1
)1( )1(
1
)1(
1
)(
1
1
qa qN
q
q
q
αα
∑−
=
=
=
1
1
)()(
1
)()(
1
)(
)1()1(
)()1(
q
qq
N
i
q
Ni
q
i
q
N
q
j
q
j
q
j
a
oba
αα
α
với q là chỉ số của HMM thứ q trong Q HMM trên chuỗi vector quan sát.
Với t>1
⎪⎩
⎪⎨
⎧
≠+−
== −−−
− − 1,)()1(
1,0
)( )1(
1
)1(
1
)1(
1
)(
1
1
qatt
q
t q
N
qq
N
q
qq
ααα
52
KH
OA
C
NT
T –
Đ
H
KH
TN
Thuật giải Embedded training
∑
∑
−
=
−
=
−
=
⎥⎦
⎤⎢⎣
⎡ −+=
1
2
)()()(
)(
1
2
)()1(
1
)(
)()(
)()1()()(
q
qq
q
N
i
q
Ni
q
i
q
N
t
q
j
N
i
ji
q
i
qq
j
att
obattt
αα
ααα
Đối với xác suất Backward:
Tại thời điểm t=T:
⎪⎩
⎪⎨
⎧
≠
== ++
++ Qqa
Qq
q
N
q
N
q
N
qq
q )1(
1
)1(
)(
11
)1(
,1
)1( ββ
∑−
=
=
=
1
2
)()(
1
)(
1
)()()(
)()()1(
)()(
q
qq
N
i
q
jT
q
j
q
j
q
q
N
q
Ni
q
i
Toba
TaT
ββ
ββ
Tại thời điểm t<T:
⎪⎩
⎪⎨
⎧
≠+
== ++−
++ Qqat
Qq
q
N
q
N
q
q
qq
,)()1(
0
)1( )1(
1
)1()1(
1
)(
1
11
βββ
∑
∑
=
+=
−
=
+
)()()(
)()()(
)()()(
1
)(
1
1
2
)(
1
)()()()()(
tobat
obatat
q
jt
q
j
q
j
q
N
j
q
jt
q
j
q
ji
q
Nq
q
Nqi
q
i
q
ββ
βββ
4.3. Các vấn đề về tham số của HMM khi sử dụng thuật giải
Embedded training.
Ở đây, chúng tôi giới thiệu các vấn đề liên quan đến quá trình huấn luyện.
Các giải pháp cụ thể sẽ được nêu trong phần thực hiện bài làm.
4.3.1. Khởi tạo tham số
Dù là huấn luyện đối với dữ liệu có gán nhãn hay là dữ liệu không gán nhãn
thì việc khởi tạo tham số cho HMM đều rất quan trọng vì nó ảnh hưởng đến tốc độ
hội tụ và độ chính xác của thuật toán. Hơn nữa khi sử dụng thuật giải Baum-Welch,
53
KH
OA
C
NT
T –
Đ
H
KH
TN
Thuật giải Embedded training
nếu dữ liệu không đầy đủ sẽ cho ra kết quả cục bộ. Đặc biệt, khởi tạo tham số lại
càng quan trọng đối với huấn luyện không giám sát.
Trong thực tế sẽ có rất nhiều phương pháp để khởi tạo tham số. Chúng ta có
thể dùng một số dữ liệu huấn luyện để khởi tạo một vector trung bình toàn cục µ và
vector covariance toàn cục ∑ cho toàn bộ các trạng thái của cho HMM.
4.3.2. Ngưỡng
Như đã giới thiệu ở phần trên, để tăng tốc độ tính toán thì trong quá trình
huấn luyện chúng ta sẽ sử dụng một số giá trị ngưỡng. Tuy nhiên, nếu số lượng
ngưỡng này càng lớn thì độ chính xác của thuật toán sẽ càng thấp (vì càng khó xác
định được tập ngưỡng chính xác nhất). Ngưỡng phụ thuộc vào chất lượng và khối
lượng dữ liệu huấn luyện. Việc xác định các ngưỡng thường được xác định qua thực
nghiệm.
4.3.3. Số lần lặp trong mỗi bước luyện của thuật toán
Số lần lặp càng nhiều thì kết quả huấn luyện sẽ càng chính xác đối với dữ
liệu đang huấn luyện. Tuy nhiên, nếu huấn luyện nhiều quá sẽ sinh ra hiện tượng
tượng quá luyện - các mô hình HMM quá sát với dữ liệu huấn luyện. Quá luyện làm
mức độ tổng quát của các mô hình HMM không cao, khi áp dụng cho dữ liệu mới
có thể không đạt kết quả cao. Số lần lặp này cũng phụ thuộc vào dữ liệu.
4.3.4. Dữ liệu huấn luyện
Dữ liệu huấn luyện phải đầy đủ. Nếu dữ liệu không đầy đủ thì kết quả học sẽ
không tốt đều. Ví dụ: huấn luyện dữ liệu cho âm vị /t/. Nếu chúng ta có nhiều dữ
liệu cho âm vị /t/ ở đầu và có rất ít dữ liệu có âm vị /t/ khi xuất hiện ở cuối từ thì khi
huấn luyện xong, chương trình sẽ không nhận dạng tốt các âm vị /t/ ở cuối từ.
Dữ liệu phải chính xác. Trường hợp không chính xác thường do đọc sai hoặc
đánh nhãn theo thứ tự các âm tiết trong câu bị sai. Chúng ta có thể loại bỏ dữ liệu
xấu bằng cách: sau khi huấn luyện được 1 số bước, cho nhận dạng lại ngay trên các
54
KH
OA
C
NT
T –
Đ
H
KH
TN
Thuật giải Embedded training
mẫu đã huấn luyện. Nếu kết quả nhận dạng trên mẫu nào không tốt thì loại bỏ mẫu
đó ra khỏi tập mẫu huấn luyện.
55
KH
OA
C
NT
T –
Đ
H
KH
TN
Thực hiện chương trình
CHƯƠNG 5 Thực hiện chương trình
5.1. Các khó khăn trong quá trình nhận dạng
5.1.1. Âm vị độc lập và âm vị phụ thuộc ngữ cảnh
Trong âm tiết phần vần thường dài, trong đó phần nguyên âm là trọng âm sẽ
chiếm phần lớn độ dài của âm tiết còn phụ âm đầu và cuối thường rất ngắn nên rất
khó để nhận dạng.
Thêm vào đó ảnh hưởng của các nguyên âm lên các phụ âm này thường rất
lớn. Do đó, chúng dễ sinh ra những biến điệu. Các nguyên âm (thường là trọng âm)
tuy dài nhưng sự ảnh hưởng của các yếu tố khác lên nguyên âm còn lớn hơn nữa
nên những biến điệu trên nguyên âm còn lớn hơn. Những biến điệu này đôi khi làm
các thể hiện của cùng 1 âm vị trở nên rất xa nhau. Ví dụ âm vị /b/ trong “ba” khác
với âm vị /b/ trong “bi” rất nhiều và đặc biệt sự khác nhau này càng lớn đối với
trường hợp âm vị đầu và âm vị cuối. Do sự khác nhau đó, chúng ta không thể không
thể xây dựng 1 mô hình HMM độc lập ngữ cảnh cho tất cả các âm vị triphone của
cùng 1 âm vị monophone. Chẳng hạn đối với nhận dạng âm vị /b/ chúng ta có thể có
các âm vị triphone sau đây /b+a/4, /b+e/, /b+i/, /b+u/. Qua thực nghiệm, chúng tôi
thấy rằng nếu xem âm vị /b/ trong các từ này đều là 1 âm vị (/b/) thì nó sẽ gây nhầm
lẫn với các âm vị rất giống nó, chẳng hạn /đ/.
Như đã nói ở trên trong 1 số trường hợp, sự ảnh hưởng của các âm vị lẫn
nhau gây ra những biến điệu rất lớn. Đặc biệt là khi phân bố các âm vị phụ thuộc
ngữ cảnh (triphone) của cùng 1 âm vị độc lập ngữ cảnh (monophone) không phải là
4 /a0-a1+a2/ là ký hiệu của âm vị triphone a1. Nó cho biết rằng trong ngữ cảnh, âm vị đứng trước a1 là a0 và
âm vị đứng sau a1 là a2. /b+a/ là ký hiệu của âm vị triphone /b/ xuất hiện trong những từ bắt đầu bằng “ba”
(âm vị đứng sau /b/ là /a/)
56
KH
OA
C
NT
T –
Đ
H
KH
TN
Thực hiện chương trình
1 tập lồi (không nằm trong 1 siêu cầu) thì sự nhầm lẫn với các âm vị khác rất lớn
(như hình dưới).
Phân bố âm vị
/p/ không nằm
trên 1 siêu cầu
Âm vị khác
Kết quả huấn
luyện âm vị /p/
HÌNH 15 – Các âm vị không nằm trong 1 siêu cầu
Chúng tôi đã thử nghiệm trên 2 chương trình nhận dạng nhận dang từ đơn.
Cả hai chương trình đều nhận dạng trên các phụ âm đầu /b/, /d9/5, /kh/, /s/, /t/ và
các vần /a/, /ang/, /u/, /e/, /i/:
Chỉ huấn luyện mô hình monophone và nhận dạng trên mô hình HMM
monophone. Kết quả nhận dạng: sự nhầm lẫn giữa phụ âm /b/ và /đ/, vần
/a/ và vần /ang/ tương đối nhiều
Huấn luyện trên mô hình âm vị phụ thuộc ngữ cảnh (triphone), và gom
nhóm các âm vị triphone giống nhau. Quá trình nhận dạng được thực hiện
trên các HMM triphone đã gom nhóm. Sự nhầm lẫn trên hầu như không
còn.
5 /d9/: ký hiệu cho âm vị /đ/ trong tiếng Việt
57
KH
OA
C
NT
T –
Đ
H
KH
TN
Thực hiện chương trình
5.1.2. Tách âm tiết trong tiếng nói liên tục và sự phụ thuộc giữa các âm
vị lẫn nhau trong tiếng nói liên tục
Khi con người nói chuyện ở tốc độ bình thường thì ranh giới giữa các âm tiết
đôi khi khó phân biệt. Vì vậy, khó đưa việc tách âm hết vào quá trình tiền xử lí.
Chúng tôi thực hiện tách âm tiết theo hướng vừa nhận dạng vừa tách.
Một đặc điểm nữa là khi nói chuyện ở tốc độ liên tục, các âm tiết kề nhau sẽ
ảnh hưởng tới nhau rất nhiều, gây ra các biến thiên trong âm tiết, đặc biệt là đối với
các âm tiết mở có âm vị cuối là nguyên âm đơn (ví dụ “ba”, “bi”, “bo”, “na”,
“nu”, …) Ví dụ đối với âm tiết “ba”, nếu trong chuỗi tiếng nói liên tục có hai âm
tiết gần nhau là “ba” và “na”, thì nếu chúng ta tách riêng hai âm tiết ra, chúng ta sẽ
nghe âm tiết “ba” giống với âm tiết “ban” hơn là “ba”. Điều này là do ảnh hưởng
của âm mũi /n/ của âm tiết “na” lên âm vị /a/ của âm tiết “ba”. Và nếu chúng ta
huấn luyên không khéo thì chương trình sẽ nhận ra là âm tiết “ban” chứ không phải
là “ba”. Nhưng nếu trong dữ liệu huấn luyện của chúng ta có đầy đủ dữ liệu có
dạng trên (sau âm tiết “ba” là “na” hoặc một âm tiết khác có phụ âm /n/ đứng đầu)
thì vấn đề trên sẽ không xảy ra. Vì vậy chúng ta không thể đưa chương trình huấn
luyện trên tiếng nói rời rạc vào vào nhận dạng tiếng nói liên tục. Trong thực tế thì
không phải lúc nào chúng ta chúng ta cũng có đầy đủ dữ liệu như thế.
5.1.3. Các nguyên âm đôi
Trong ngữ âm học Tiếng Việt có 3 nguyên âm đôi được viết là /iê/, /uô/ và
/ươ/. Trong các âm tiết mở các nguyên âm đôi này được ghi là /ia/, /ua/ và /ưa/.
Trong ngữ âm Tiếng Việt người ta xem các nguyên âm đôi này là 1 âm vị, nhưng
trong nhận dạng trong 1 số trường hợp nếu chúng ta xem chúng như 1 âm vị thì kết
quả nhận dạng sẽ rất kém.
Chúng ta có thể quan sát trên chuỗi sóng âm các âm tiết chứa các nguyên âm
đôi trên và đi đến quyết định xem các nguyên âm đơn trên là 1 âm vị hay hai âm vị.
Trong phần này chúng tôi không có thời gian để tìm hiểu hết các đặc trưng của tất
58
KH
OA
C
NT
T –
Đ
H
KH
TN
Thực hiện chương trình
cả các nguyên âm đôi nên ở đây chúng tôi chỉ nêu lên 1 ví dụ là không nên xem tất
cả các nguyên âm đôi như là 1 âm vị.
Ví dụ đối với trường hợp âm vị /ia/ trong các âm tiết mở. Nếu chúng ta xem
/ia/ như là 1 âm vị đôi thì kết quả nhận dạng sẽ kém hơn chúng ta xem nó bao gồm
2 âm vị.
5.1.4. Ảnh hưởng của thanh điệu lên âm vị
Thanh điệu làm biến đổi các âm vị đi đôi chút, đặc biệt là ảnh hưởng của nó
tới trọng âm trong phần vần. Qua thực nghiệm chúng tôi thấy được rằng đặc biệt
trong trường hợp thanh sắc, nó làm âm tiết và âm vị bị biến đổi đi rất nhiều dẫn đến
rất khó nhận dạng.
Ví dụ âm tiết “ba” với thanh sắc (“bá”) trên sóng âm bao gồm 3 âm vị sau:
/b/ /a/ /a/ nên nếu lúc huấn luyện, nếu chỉ cho huấn luyện trên các âm tiết “ba” (có
thanh ngang) thì lúc nhận dạng âm tiết “bá” có thể cho ra 2 âm tiết /ba/ và /a/.
Thực tế, nếu chỉ cho huấn luyện các âm tiết trên thanh ngang và cho nhận
dạng âm tiết trên tất cả các thanh thì kết quả nhận dạng sẽ không tốt bằng huấn
luyện âm tiết trên nhiều thanh điệu.
5.2. Quá trình thực hiện chương trình
Mục đích của chúng tôi là cho thấy khi huấn luyện mô hình HMM trên dữ
liệu không gán nhãn vào nhận dạng âm vị Tiếng Việt, chúng ta có thể nhận dạng
được trên số lượng lớn các âm tiết và đồng thời có thể nhận dạng được trên tiếng
nói liên tục. Vì vậy chúng tôi xây dựng 2 chương trình:
1. Chương trình nhận dạng tiếng nói liên tục nhận dạng các chưỗi số hình
thành từ 10 chữ số.
2. Chương trình thứ hai nhận dạng từ đơn trên 104 âm tiết bao gồm các phụ
âm đầu được kí hiệu trong chữ viết Tiếng Việt là /d/, /đ/, và /k/, /kh/, /m/,
/s/, / t/ và các vần là /a/, /an/, /ang/, /ăm/, /ao/, /e/, /en/, /eo/, /ê/, /o/, /ong/,
/ông/, /u/, /ung/.
59
KH
OA
C
NT
T –
Đ
H
KH
TN
Thực hiện chương trình
5.2.1. Các bước chính
Các bước chính mà chúng tôi xây dựng chương trình bao gồm:
1. Chuẩn bị dữ liệu huấn luyện
Thu dữ liệu.
Gán nhãn dữ liệu.
Đánh giá về dữ liệu.
Rút trích đặc trưng.
2. Xây dựng mô hình ngôn ngữ.
3. Huấn luyện
Khởi tạo tham số cho HMM
Huấn luyện trên mô hình mohophone
Huấn luyện mô hình tied-state triphone .
4. Xây dựng chương trình nhận dạng.
5.2.2. Thu dữ liệu và gán nhãn dữ liệu
5.2.2.1. Thu dữ liệu
Do không có dữ liệu huấn luyện nên chúng tôi phải tự thu lấy dữ liệu huấn
luyện. Để thuận tiện cho quá trình gán nhãn, chúng tôi đã sử dụng mô hình ngôn
ngữ và công cụ của HTK để phát sinh các câu ngẫu nhiên (bằng văn bản). Sau đó,
thu mẫu theo các câu đã phát sinh.
Đối với nhận dạng từ đơn chúng tôi thu mỗi âm tiết từ 20 đến 40 mẫu. Đối
với nhận dạng tiếng nói liên tục, trung bình mỗi âm tiết thu 60 mẫu.
Đối với dữ liệu tiếng nói liên tục chúng tôi chia làm hai phần. Phần thứ nhất:
tiến hành thủ công, tách các câu ra thành các từ đơn. Phần thứ hai: giữ nguyên các
câu với tiếng nói liên tục.
60
KH
OA
C
NT
T –
Đ
H
KH
TN
Thực hiện chương trình
Chúng ta có thể nhận thấy nếu dữ liệu tách ra càng nhiều thì kết quả nhận
dạng càng chính xác. Tuy nhiên, nếu chúng ta phải nhận dạng tiếng nói liên tục trên
số lượng âm tiết lớn thì lượng dữ liệu huấn luyện sẽ rất lớn. Vì vậy, công sức bỏ ra
để tách dữ liệu cũng không nhỏ. Vì vậy 1 yêu cầu nữa là giảm số lượng dữ liệu phải
tách xuống mà kết quả nhận dạng không bị ảnh hưởng nhiều. Đây là 1 bài toán lớn
của huấn luyện tiếng nói.
Trong chương trình, dữ liệu của chúng tôi được chia như sau: 40% là dữ liệu
đã tách âm tiết và 60% là dữ liệu tiếng nói liên tục (chưa tách âm tiết).
5.2.2.2. Gán nhãn dữ liệu
Chúng ta chỉ cần tạo các file mô tả thứ tự các âm tiết trong câu và dùng từ
điển âm vị để chuyển chuỗi âm tiết thành chuỗi âm vị. Trong lúc gán nhãn, chúng ta
nên thêm âm vị silence vào giữa 2 âm tiết. Điều này làm tăng hiệu quả của quá trình
nhận dạng lên nhiều, vì thực tế là giữa 2 âm tiết thường có khoảng silence. Nhưng
nếu không có âm vị sillence giữa 2 âm tiết thì cũng không ảnh hưởng tới quá trình
huấn luyện.
5.2.2.3. Đánh giá dữ liệu
Sau khi thu và gán nhãn dữ liệu, chúng ta cũng nên đánh giá mức độ đầy đủ
và cân đối của dữ liệu. Chúng ta sẽ thống kê xem trong dữ liệu huấn luyện có bao
nhiêu tỉ lệ % số lần xuất hiện của các âm tiết, các âm vị. Nếu âm tiết hoặc âm vị nào
có tần số xuất hiện quá ít, chúng ta có thể nhân dữ liệu huấn luyện có chứa âm tiết
hoặc âm vị đó lên.
5.2.2.4. Rút trích đặc trưng dữ liệu
Dữ liệu sóng âm được thu dưới tần số lấy mẫu 16000 mẫu /giây, kích thước
mỗi mẫu là 16 bit.
Kích thước mỗi cửa sổ là 25 ms. Độ chồng lấp của các cửa sổ là 15 ms. Sử
dụng dãy bộ lọc sử dụng có 26 kênh.Các đặc trưng được rút trích là MFCC_O (13
đặc trưng). Sử dụng thêm 2 đặc trưng nữa là độ biến thiên ∆ (13 đặc trưng) và gia
61
KH
OA
C
NT
T –
Đ
H
KH
TN
Thực hiện chương trình
tốc biến thiên (accelerator) ∆∆ (13 đặc trưng). Như vậy mỗi vector đặc trưng sẽ có
39 thành phần.
5.2.3. Khởi tạo mô hình HMM
Mô hình HMM được dùng có 5 trạng thái, trong mỗi trạng thái vector µ và ∑
sẽ có định dạng là MFCC_0_D_A.
Như đã giới thiệu trong giải thuật Embedded Training, khời tạo HMM cho
các mô hình là rất quan trọng, nó ảnh hưởng đến tốc độ hội tụ của thuật toán, và sự
chính xác của thuật toán.
Ở đây chúng tôi đã thực hiện 2 phương pháp khởi tạo tham số cho HMM:
Phương pháp thứ nhất: Khởi tạo Flat-start. Đây là phương pháp khởi tạo trên
dữ liệu không gán nhãn của HTK. Ý tưởng của cách khởi tạo này là dựa vào các dữ
liệu huấn luyện được đưa vào, chúng ta sẽ khởi tạo các HMM sao cho chúng có
vector trung bình và hiệp phương sai bằng nhau và bằng với vector trung bình toàn
cục và vector hiệp phương sai toàn cục của dữ liệu huấn luyện.
Trong HTK, công cụ dùng để khởi tạo mô hình HMM là HCompV.
HCompV sẽ load 1 số file huấn luyện tự động tách trên dữ liệu huấn luyện và xác
định các vector thuộc về các trạng thái của HMM. Và chúng sẽ tính vector trung
bình và vector hiệp phương sai toàn cục dựa trên các dữ liệu đó.
Tuy nhiên cách khởi tạo này gần giống như khởi tạo ngẫu nhiên, các trạng
thái là các trạng thái toàn cục của dữ liệu huấn luyện vì vậy nó vẫn chưa có ảnh
hưởng nhiều tới quá trình huấn luyện.
Phương pháp thứ 2: Sử dụng 1 số dữ liệu nhỏ huấn luyện ra các mô hình
monophone cho các âm vị. Sau đó sử dụng các mô hình này làm mô hình khởi tạo
để huấn luyện trên khối lượng lớn dữ liệu còn lại. Trong 2 phần dữ liệu đã thu nói
trên chúng tôi sử dụng 1 số ít dữ liệu đã được tách ở phần 1 để huấn luyện tạo ra các
mô hình HMM khởi tạo. Cụ thể mỗi âm tiết có 10 mẫu huấn luyện.
Phương pháp thứ 2 được chọn sử dụng trong chương trình
62
KH
OA
C
NT
T –
Đ
H
KH
TN
Thực hiện chương trình
5.2.4. Huấn luyện mô hình HMM
5.2.4.1. Huấn luyện mô hình HMM cho âm vị độc lập ngữ cảnh
(monophone)
Công cụ để thực hiện huấn luyện Embedded training trong HTK là HERest.
HERest sẽ dùng các mô hình HMM vừa khởi tạo và dữ liệu huấn luyện để huấn
luyện ra các HMM âm vị độc lập ngữ cảnh monophone. Mô hình của quá trình huấn
luyện như hình dưới. Chi tiết về thuật toán huấn luyện trên dữ liệu không gán nhãn
âm vị Embedded training đã được chúng tôi giới thiêu ở phần trên.
Danh sách HMM
(monophone0) Danh sách file huấn
luyện (trains.scp)
HÌNH 16 – Mô hình huấn luyện monophone (Từ in nghiêng trong dấu ngoặc đơn là
tên thư mục hoặc tập tin trong bài làm của nhóm)
HERest sẽ load các mô hình HMM vừa khởi tạo chứa trong file hmmdefs
(file chứa định nghĩa các mô hình HMM) trong danh sách âm vị monophone0. Quá
trình ước lượng tham số sẽ sử dụng các file huấn luyện chứa trong danh sách file
huấn luyện trains.scp và các chuỗi các âm vị tương ứng nằm trong file phone.mlf để
tạo ra các HMM mới. Các HMM được huấn luyện được lưu trong thư mục
new_hmm. Chúng ta sẽ lặp lại số lần huấn luyện nhiều lần đến khi hội tụ. Tiêu
chuẩn để đánh giá hội tụ là xem sự hội của giá trị log_likelihood trung bình trên mỗi
frame dữ liệu huấn luyện. Thường thì số lần huấn luyện là từ 2 đến 5 lần. Nếu số
bước lặp huấn luyện quá ít thì mức độ chính xác của các HMM không cao. Nhưng
HMM đã
khởi tạo HERest
Các monophone
được huấn luyện
File gán nhãn âm vị
(phone0.mlf)
63
KH
OA
C
NT
T –
Đ
H
KH
TN
Thực hiện chương trình
nếu số bước lặp quá lớn, sẽ xảy ra tình trạng quá luyện dẫn đến mức độ tổng quát
của các HMM lại bị giảm đi. Vì vậy chúng ta sẽ phải quyết định số lượng các bước
lặp sao cho hiệu quả nhất.
Chúng ta có thể quan sát sự giảm log_likelihood/frame để quyết định số bước
lặp. log_likelihood trung bình sẽ giảm khi số bước huấn luyện tăng (xem HÌNH 17).
Quá trình huấn luyện nên dừng khi log_likelihood/frame tiến tới điểm hội tụ.
Chúng ta cũng có thể dùng 1 ngưỡng ε để quyết định dừng quá trình huấn
luyện. nếu (log_likelihoodbước trước – log_likelihood bước sau) < ε thì dùng quá trình
huấn luyện. Nhưng ngưỡng ε cũng phải được quyết định thông qua quan sát sự giảm
log_likelihood sau từng bước huấn luyện để quyết định.
Likelihood/frame
Số bước huấn luyện
HÌNH 17 – Mối liên hệ giữa likelihood trung bình và số bước huấn luyện
Sau đây là kết quả thực nghiệm nhận dạng trên 4 phụ âm đầu chỉ huấn luyện
trên monophone /b/, /đ/, /m/, /t/, và kết hợp với các vần /a/, /ang/, /e/, /i/, /u/ trên
cùng dữ liệu và cùng dữ liệu test
Số bước lặp huấn
luyện
Kết quả nhận dạng trên chính dữ
liệu huấn luyện
Kết quả nhận dạng trên dữ
liệu test
2 99.6 98.1
3 99.8 98.5
4 100.0 98.3
5 100.0 98.0
BẢNG 2 – Ảnh hưởng của số bước lặp huấn luyện đến kết quả nhận dạng
64
KH
OA
C
NT
T –
Đ
H
KH
TN
Thực hiện chương trình
Vấn đề thứ hai: quyết định ngưỡng prunning. Ngưỡng prunning làm giảm số
trạng thái được xét trong toán tử forward và toán tử backward. Trong trường hợp
bình thường ngưỡng prunning là tương đối nhỏ (chỉ 1 số trường hợp đặc biệt thì
ngưỡng này hơi lớn) nhưng trong 1 số trường hợp do lỗi của dữ liệu huấn luyện
(thường là do gán nhãn sai hoặc dữ liệu Tiếng nói bị nhiễu quá nhiều) thì ngưỡng
này sẽ phải lớn hơn. Trong chương trình của chúng tôi ngưỡng bình thường được sử
dụng là 150.0, trong trường hợp quá trình ước lượng tham số thất bại thì ngưỡng
prunning sẽ tự động tăng lên 100.0. Quá trình tiếp diễn đến khi ước lượng tham số
thành công hoặc prunning vượt trên 600.0. Nếu prunning vượt trên ngưỡng này tức
là đã có vấn đề trong câu huấn luyện này (thường là gán nhãn sai) và chúng ta nên
xem lại nó. Lúc này ta có thể nhận ra là lỗi trong dữ liệu huấn luyện quá nặng và
nên bỏ câu huấn luyện này ra khỏi dữ liệu huấn luyện.
Sau khi kết thúc giai đoạn huấn luyện chúng ta có thể dùng các mô hình
monophone vừa huấn luyện được để gán nhãn lại các file huấn luyện. Quá trình này
được gọi là realigning data. Chúng ta sẽ nhận dạng lại các file huấn luyện và tạo ra
các file đánh nhãn mới. Đồng thời trong lúc này, nếu 1 âm tiết trong từ điển có
nhiều cách phiên âm thì chương trình sẽ chọn cách phiên âm hợp lí nhất dựa trên
các mô hình HMM vừa học được. Đồng thời thông qua bước này chúng ta có thể
đánh giá mức độ đúng đắn của các file dữ liệu huấn luyện. Quá trình này được thực
hiện bằng công cụ nhận dạng của HTK là HVite. Nếu file huấn luyện nào sai quá
nhiều (thường là do gán nhãn sai) thì HVite sẽ không nhận dạng được. Chúng ta sẽ
loại bỏ các câu huấn luyện này ra khỏi quá trình huấn luyện ở các bước tiếp theo.
Tuy nhiên, trong 1 số trường hợp chúng ta loại bỏ 1 số câu huấn luyện mà nó
là 1 hiện tượng ngữ âm ít xuất hiện trong dữ liệu huấn luyện nên bị xem như là dữ
liệu sai (thường xảy ra là do gán nhãn không chính xác hoặc các âm tiết gần nhau
quá không tách được). Vì vậy chúng không nên loại bỏ các dữ liệu này mà nên xem
lại chúng. Nếu có nhiều câu sai theo kiểu này thì chúng ta phải xem xét lại sự đầy
đủ của dữ liệu huấn luyện. Có thể chúng ta sẽ phải huấn luyện lại từ đầu và nhân dữ
liệu huấn luyện hiếm này lên.
65
KH
OA
C
NT
T –
Đ
H
KH
TN
Thực hiện chương trình
Kết quả của bước này là chúng ta sẽ được file gán nhãn mới align.mlf. Chúng
ta sẽ thay thế file này cho file gán nhãn lúc đầu phone0.mlf mà chúng ta tạo ra trong
các bước huấn luyện tiếp theo.
5.2.4.2. Huấn luyện trên mô hình âm vị phụ thuộc ngữ cảnh (triphone)
5.2.4.2.1. Khởi tạo và huấn luyện mô hình triphone:
Quá trình huấn luyện trên mô hình triphone phụ thuộc ngữ cảnh có thể được
thực hiện bằng cách nhân các mô hình HMM monohone lên và huấn luyện tham số
HMM dựa vào các file gán nhãn theo âm vị triphone chứ không dựa vào các file gán
nhãn monophone.
Chúng ta có thể dùng công cụ HLed để tạo ra file gán nhãn âm vị trên mô
hình triphone dựa vào các HMM monophone và dựa vào các file gán nhãn
monophone như sau:
Sau đó chúng ta nhân các mô hình HMM monophone được ở bước trước
thành các mô hình triphone tương ứng với nó.
Quá trình huấn luyện trên mô hình triphone được thực hiện tương tự như
trong huấn luyện đối với mô hình monophones. Chỉ khác là chúng ta sử danh sách
HMM cho mô hình triphone và file gán nhãn theo âm vị triphone.
5.2.4.2.2. Gom nhóm các mô hình triphone:
Chúng ta đã được mô hình các triphone trong các bước huấn luyện trước.
Nếu chúng ta dùng các mô hình này để nhận dạng thì không gian tìm kiếm quá lớn,
vì vậy tốc độ nhận dạng sẽ rất chậm. Thứ hai nữa là đối với mỗi âm vị triphone dữ
liệu huấn luyện rất ít vì vậy độ chính xác sẽ không cao. Vì vậy chúng ta phải gom
nhóm các âm vị triphone giống nhau lại. Trạng thái trung tâm của HMM là ít chịu
ảnh hưởng của ngữ cảnh nên chúng sẽ giống nhau, còn 2 trạng thái 2 bên trạng thái
trung tâm là chịu ảnh hưởng của ngữ cảnh rất nhiều. Vì vậy chúng ta sẽ gom nhóm
các dựa vào mức độ giống nhau của 2 trạng thái xung quanh. Và chúng ta sẽ gom
nhóm các trạng thái bên trái và gom nhóm các trạng thái bên phải của các âm vị
66
KH
OA
C
NT
T –
Đ
H
KH
TN
Thực hiện chương trình
triphone và dựa vào các cluster trạng thái này chúng ta sẽ gom nhóm các âm vị
triphone. Vì vậy gom nhóm các âm vị triphone còn gọi là buộc các trạng thái của
các âm vị triphone và các mô hình HMM cho các âm vị được tạo ra trong bước này
gọi là các mô hình triphone buộc trạng thái. Có hai cơ chế cho việc tiến hành buộc
các trạng thái của HMM đó là Data-driven clustering và Tree-based clustering.
Phương pháp Tree based-clustering dựa vào tính chất âm học của ngữ cảnh
trái và ngữ cảnh phải của âm vị triphone. Phương pháp cluster dựa vào cây quyết
định sử dụng cây quyết định âm học nhị phân để phân nhóm các âm vị triphone của
cùng 1 âm vị monophone. Tại mỗi nút của cây có 1 câu hỏi đúng/sai để phân loại
âm vị triphone. Câu hỏi này kiểm tra tính chất âm học của âm vị bên trái và bên
phải của âm vị triphone trạng thái tại mỗi nút sẽ được quyết định. Cứ như vậy cho
đến nút lá của cây. Tại nút lá chúng ta sẽ được 1 cluster âm vị triphone. Phương
pháp này rất hiệu quả tuy nhiên để tiến hành được phương pháp này chúng ta cần có
những kiến thức về âm học để đặt những câu hỏi vì vậy nên chúng tôi đã không lựa
chọn phương pháp này.
67
KH
OA
C
NT
T –
Đ
H
KH
TN
Thực hiện chương trình
BED PBrush
t-i+n
s-a+n
Âm dừ
?
h
các trạng hái
t i+nh
L: âm vị trái
R: âm vị phải
HÌNH 18 – Phương pháp góm nhóm âm vị dựa vào cây quyết định âm học
Phương pháp được chúng tôi sử dụng là data driven- clustering. Chúng ta sẽ
gom nhóm các trạng thái của các mô hình triphone dựa vào độ đo khoảng cách giữa
các trạng thái. Các trạng thái cùng 1 phân nhóm sẽ được buộc vào thành 1 trạng thái.
Dựa vào các nhóm trạng thái này chúng ta sẽ gom nhóm các âm vị.
Cách gom nhóm các trạng thái được tiến hành như sau. Ban đầu mỗi trạng
thái sẽ nằm ở 1 cluster. Tại mỗi bước lặp, hai cluster khi trộn sau khi trộn vào có
khoảng cách trung bình giữa các trạng thái trong cùng 1 cluster là nhỏ nhất sẽ được
trộn lại. Quá trình được lặp cho đến khi tồn tại 1 cluster có khoảng cách trung bình
giữa các trạng thái lớn hơn ngưỡng T. Nếu ngưỡng T càng lớn thì số cluster càng
giảm. Ngưỡng T có vai trò rất quan trọng trong việc tăng hiệu quả của quá trình
nhận dạng. Sự chính xác của nhận dạng phụ thuộc vào ngưỡng T được mô tả trong
68
KH
OA
C
NT
T –
Đ
H
KH
TN
Thực hiện chương trình
đồ thị sau. Để tìm được ngưỡng chính xác chúng tôi đã gom nhóm trên nhiều
ngưỡng khác nhau để tìm ra ngưỡng tối ưu.
ị tri one óm gom
hính xác
chồng
p
HÌNH 19 – Buộc trạng thái theo phương pháp Data-driven-clustering
ٛ chính
xác
Ngưỡng T
HÌNH 20 – Sự phụ thuộc của kết quả nhận dạng vào ngưỡng phân nhóm các trạng
thái của HMM
69
KH
OA
C
NT
T –
Đ
H
KH
TN
Thực hiện chương trình
Trong quá trình thực hiện để đánh giá sự phụ thuộc của độ chính xác của
nhận dạng vào ngưỡng phân nhóm T chúng tôi đã tiến hành thống kê như sau. Tất
cả các quá trình huấn luyện và nhận dạng đề được thực hiện trên cùng dữ liệu huấn
luyện và dữ liệu test. Quá trình được thực hiện trên các âm tiết là kết qủ của sự tổng
hợp các đơn vị sau: phụ âm đầu là /d/, /đ/, /k/, /kh/, /m/, /s/, /t/; các vần được huấn
luyện và nhận dạng là: /a/, /ang/, /an/, /ao/, /ăm/, /e/, /eo/, /en/, /ê/, /ôn/, /ông/, /ong/,
/u/, /ung/ thành các âm tiết (không xét tới thanh điệu). Chúng ta có 18 âm vị
monophone cho tiếng nói và 2 âm vị không tiếng nói và 173 âm vị triphone. Kết quả
ngưỡng T tốt nhất tại ngưỡng T=1.4, sau khi gom nhóm chúng tôi được 53 âm vị
buộc trạng thái thì kết quả nhận dạng tốt nhất.
Sau khi gom nhóm các trạng thái chúng ta đồng thời cũng sẽ gom nhóm được
các mô hình HMM. Các HMM lần lượt có 3 cặp trạng lần lượt nằm trong 3 cluster
sẽ được gom nhóm lại.
Sau khi gom nhóm các cluster chúng ta sẽ tiến hành huấn luyện lại trên dữ
liệu huấn luyện để được các HMM cuối cùng.
5.2.5. Nhận dạng
Xây dựng mô hình ngôn ngữ:
Qua thuật giải tìm kiếm chúng ta thấy không gian tìm kiếm của giải thuật
Viterbi là rất lớn đặc biệt là khi có nhiều mô hình HMM. Mô hình ngôn ngữ làm
giảm không gian tìm kiếm và làm tăng độ chính xác của nhận dạng.
Mô hình HTK hỗ trợ xây dựng mô hình ngôn ngữ N-gram. N-gram là chuỗi
n-symbol (ví dụ từ) và 1 mô hình ngôn ngữ n-gram để đoán từ thứ n dựa vào n-1 từ
đã biết. Trong thực tế sức mạnh của mô hình ngôn ngữ còn cho phép chúng ta xây
dựng các cú pháp mạnh hơn cú pháp theo chuỗi từ. Thư viện HTK hỗ trợ chúng ta
khám phá ra các qui luật ngôn ngữ trong dữ liệu huấn luyện.
Qua thực nghiệm chúng tôi thấy rằng nếu nhận dạng mà không sử dụng mô
hình ngôn ngữ sẽ cho ra kết quả rất xấu. Chúng ta sẽ nhận dạng thừa rất nhiều âm vị.
70
KH
OA
C
NT
T –
Đ
H
KH
TN
Thực hiện chương trình
Ở mức độ từ, nếu biết trước được n-1 từ chúng ta sẽ đoán được từ thứ n thông qua
các qui luật ngữ pháp trong mô hình ngôn ngữ và như vậy không gian tìm kiếm sẽ
hạn chế đi rất nhiều và độ chính xác sẽ lớn hơn. Đối với mức độ âm vị khi biết được
n âm vị của 1 từ chúng ta sẽ đoán được âm vị tiếp theo nằm trong 1 số lượng hạn
chế các âm vị, và như vậy quá trình tìm kiếm cũng nhanh hơn và chính xác hơn.
Đặc biệt trong nhận dạng tiếng nói liên tục, vai trò của mô hình ngôn ngữ rất
quan trọng. Do tốc độ nói nhanh và do ảnh hưởng của các từ lẫn nhau nên các từ sẽ
bị biến điệu đi rất nhiều. Vì vậy nếu không kết hợp mô hình ngôn ngữ vào mô hình
âm học để quyết định các từ nhận dạng thì kết quả nhận dạng hầu như rất thấp.
Sau khi tạo được mô hình ngôn ngữ chúng ta sẽ đưa mô hình ngôn ngữ về
dạng mạng các âm tiết và mạng các mô hình HMM để sử dụng trong quá trình nhận
dạng.
Nhận dạng
Trong nhận dạng, chúng ta áp dụng thuật giải Vitebi, sử dụng các mô hình
HMM vừa huấn luyện được và sử dụng mạng các từ và mạng các mô hình HMM để
tìm ra các chuỗi các âm vị có xác suất cao nhất trên chuỗi sóng âm đã được rút trích
đặc trưng.
Để tăng độ chính xác, chúng tôi chọn ra 2 chuỗi âm vị có xác suất cao nhất
sau mỗi lần nhận dạng, sau đó dùng heuristic để quyết định chuỗi âm vị chính xác
nhất cho chuỗi sóng âm.
5.3. Đánh giá kết quả và hướng phát triển:
5.3.1. Kết quả nhận dạng
Chúng tôi thực hiện 2 chương trình
Chương trình nhận dạng từ đơn. Chúng tôi thực hiện 2 chương trình.
Chương trình nhận dạng dãy số liên tục từ /không/ đến /chín/. Chương trình
huấn luyện trên 100 câu. Mỗi câu chứa từ 1 đến 20 mẫu. Kết quả nhận dạng trên 80
71
KH
OA
C
NT
T –
Đ
H
KH
TN
Thực hiện chương trình
câu. Các câu huấn luyện và test được phát sinh ngẫu nhiên và được nói ở tốc độ
bình thường:
Số câu huấn luyện 100
Số từ huấn luyện 768
Số câu test 80
Số từ test 628
Số câu đúng 79
Số từ sai 1
BẢNG 3 – Kết quả nhận dạng các tiếng là chữ số đọc liên tục
Đối với chương trình nhận dạng từ đơn, chúng tôi xây dựng như sau:
Có 18 âm vị monophone được huấn luyện: /kh/, /o6/, /m/, /t/, /e/, /ê/, /a/, /i/, /n/,
/ng/, /a8/, /s/, /o/, /u/, /ch/, /k/, /d/, /đ/.
Có 104 âm tiết (gồm 5 thanh /ngang/, /sắc/, /hỏi/, /huyền/, /nặng/) sau được huấn
luyện và nhận dạng: DA, D9A, KA, KHA, SA, MA, TA, KAO, KHAO, DAO,
D9AO, MAO, SAO, TAO, DAN, D9AN, KAN, MAN, KHAN, SAN, TAN,
KANG, DANG, D9ANG, KHANG, MANG, SANG, TANG, DA8M6, D9A8M,
KA8M, KHA8M, MA8M, SA8M, TA8M, DE, D9E, KE, KHE, ME, TE, DE67,
D9E6, KE6, KHE6, ME6, SE6, TE6, DEN, D9EN, KEN, KHEN, MEN, SEN,
TEN, DEO, D9EO, KEO, KHEO, MEO, TEO, D9I, KI, KHI, MI, SI, TI, D9O,
DO, KO, KHO, MO, SO, TO, KONG, DONG, D9ONG, MONG, SONG,
TONG, DO6NG, D9O6NG, KO6NG, MO6NG, SO6NG, TO6NG, DO6N,
D9O6N, KO6N, KHO6N, MO6N, TO6N, DU, KHU, MU, SU, TU, DUNG,
D9UNG, KHUNG, KUNG, MUNG, SUNG, TUNG.
Vì vậy các phụ âm đầu được huấn luyện là /d/, /dd/, /k/, /kh/, /m/, /s/, /t/; các vần
được huấn luyện và nhận dạng là: /a/, /ang/, /an/, /ao/, /a8m/, /e/, /eo/, /en/, /e6/,
/o6n/, /o6ng/, /ong/, /u/, /ung/.
Kết quả số âm vị triphone buộc trạng thái sau khi gom nhóm là 53 âm vị.
6 /a8/: ký hiệu cho âm vị /ă/ trong tiếng Việt
7 /e6/: ký hiệu cho âm vị /ê/ trong tiếng Việt
72
KH
OA
C
NT
T –
Đ
H
KH
TN
Thực hiện chương trình
Mỗi âm tiết được huấn luyện trên 20, 30, 40 hoặc 50 mẫu. Tổng số mẫu huấn
luyện: 3240 mẫu
Quá trình kiểm tra thực hiện kiểm tra mỗi âm tiết là 20 mẫu. Số mẫu test là 2080
mẫu.
Kết quả có 21 mẫu sai. Độ chính xác 99%. Sai nằm vào các trường hợp sau: /e/ -
> ê, /ong/ -> /ông/, /t/ /d9/.
Số mẫu huấn luyện 3240
Số mẫu đánh giá 2080
Kết quả nhận dạng 99%
BẢNG 4 – Kết quả nhận dạng từ đơn
5.3.2. Nhận xét
Chương trình nhận được số lượng từ tương đối lớn với độ chính xác khá cao.
Trong khi tiếng Việt chưa có được những kho dữ liệu có gán nhãn âm vị, hướng tiếp
cận nhận dạng âm vị tự động với công việc huấn luyện trên dữ liệu không gán nhãn
âm vị là một hướng tiếp cận hợp lý. Đây sẽ là hướng tiếp cận trong tương lai dùng
để nhận dạng toàn bộ âm tiết tiếng Việt.
Tuy nhiên, còn một số hạn chế sau:
Xây dựng kho dữ liệu chưa đầy đủ
Xử lý lọc nhiễu còn hạn chế
Chưa có công đoạn hậu xử lý
Chương trình nhận dạng tốt trong môi trường ít tiếng ồn, nhưng hiệu
suất sẽ giảm khi nhận dạng trong môi trường có tiếng ồn lớn.
5.3.3. Hướng phát triển
Kết hợp với nhận dạng thanh điệu Tiếng Việt để tăng số lượng từ nhận dạng.
Xây dựng mô hình ngôn ngữ để nâng kết quả nhận dạng trong nhận dạng
tiếng nói liên tục.
73
KH
OA
C
NT
T –
Đ
H
KH
TN
Thực hiện chương trình
Kết hợp thêm mô hình tương thích giọng người nói để có thể xây dựng hệ
nhận dạng độc lập người nói.
Xây dụng thuật giải huấn luyện tăng cường để mỗi khi tăng lượng dữ liệu
học mẫu sẽ không tốn thời gian huấn luyện lại từ đầu.
74
KH
OA
C
NT
T –
Đ
H
KH
TN
Tài liệu tham khảo
TÀI LIỆU THAM KHẢO
[1] Mathew Magimai. Doss, Todd A. Stephenson, Herv Bourlard, and Samy
Bengio, Phoneme-Grapheme Based Speech Recognition System, Dalle Molle
Institute for Artificial Intelligence
[2] Ahmed M. Abdelatty Ali et al, An Acoustic-phonetic feature-based system
for automatic phoneme recognition in continuous speech, Dept. of Electrical
Engineering, University of Pennsylvania
[3] Guido Aversano et al, A New Text-Independent Method for Phoneme
Segmentation, a Dipartimento di Fisica “E.R. Caianiello”, Universit`a di Salerno.
[4] Youngjoo Suh and Youngjik Lee, Phoneme segmentation of continuous
speech using multi-layer perceptron, Electronics and Telecommunications Research
Institute, 1996.
[5] Jesper Salomon , Support Vector Machines for Phoneme Classification,
Master of Science, school of Artificial Intelligence, Division of Informatics,
University of Edinburgh, 2001.
[6] Barbara Resch, Gaussian Statistics and Unsupervised Learning, A Tutorial
for the Course Computational Intelligence, Signal Processing and Speech
Communication Laboratory, IEEE International Workshop on Circuits and System.
[7] Giuseppe Riccardi and Dilek Hakkani , Active And Unsupervised Learning
For Automatic Speech Recognition, AT&T Labs-Research
75
KH
OA
C
NT
T –
Đ
H
KH
TN
Tài liệu tham khảo
[8] Steve Young, HTKBook (version 3.2), Cambridge University Engineering
Department.
[9] Lawrence R. Rabiner, A tutorial on Hidden Markov Models and Selected
Applications in Speech Recognition, IEEE, 1989
[10] Đinh Lê Thư - Nguyễn Văn Huệ, Cơ cấu ngữ âm Tiếng Việt, NXB Giáo Dục,
1998
[11] Thái Hùng Văn, Luận án thạc sĩ, khoa Công nghệ thông tin, Đại học Khoa
học Tự nhiên, 2000
[12] Đỗ Xuân Đạt – Võ Văn Tuấn, Luận văn tốt nghiêp khoa Công nghệ thông tin,
Đại học Khoa học Tự nhiên, 2003
[13] Tarun Agarwal, Pre-Processing of Noisy Speech for Voice Coders,
Department of Electrical & Computer Engineering, McGill University, Montreal,
Canada, January 2002
[14] Ing Yann Soon and Soo Ngee Koh, Speech Enhancement Using 2-D Fourier
Transform, IEEE Transactions On Speech And Audio Processing, VOL. 11, NO. 6,
NOVEMBER 2003 (pages 717 through 724)
[15] John H.L. Hansen, Bryan Pellom, An Effective Quality Evaluation Protocol
For Speech Enhancement Algorithms, ICSLP-98: Inter. Conf. On Spoken Language
Processing, Sydney, Australia, Nov. 30 – Dec. 4, 1998.
[16] Hagai Attias John C. Platt Alex Acero Li Deng, Speech Denoising and
Dereverberation Using Probabilistic Models, Microsoft Research
[17] James G. Droppo III , Time-Frequency Features For Speech Recognition,
Doctor of Philosophy thesis, University of Washington, 2000
76
KH
OA
C
NT
T –
Đ
H
KH
TN
Tài liệu tham khảo
[18] C.J.Long and S.Datta, Wavelet Based Feature Extraction for Phoneme
Recognition, Department of Electronic and Electrical Engineering, Loughborough
University of Technology
[19] Amit Juneja and Carol Espy-Wilson, Segmentation Of Continuous Speech
Using Acoustic-Phonetic Parameters And Statistical Learning, ECE Department,
University of Maryland
[20] Ryuta Terashima, Estimating Speech-Recognizer Performance Based on
Log-Likelhood Difference Distribution of Word-Pairs, Special Issue Speech-Based
Interfaces In Vehicles. (pages 10 through 15)
77
Các file đính kèm theo tài liệu này:
- Unlock-0012535_8964.pdf