LỜI NÓI ĐẦU
Ngay khi phát minh ra máy tính, con người đã mơ ước máy tính có thể nói
chuyện với mình. Yêu cầu đơn giản nhất là máy có thể xác định được từ ngữ mà
chúng ta nói với máy. Đó là mục tiêu của ngành nhận dạng tiếng nói.
Đối với con người, việc nghe, nhất là nghe tiếng mẹ đẻ là một vấn đề khá
đơn giản. Còn đối với máy tính, xác định một chuỗi tín hiệu âm thanh là sự phát
âm của một từ nào hoàn toàn không đơn giản, khó khăn cũng như việc học nghe
ngoại ngữ của chúng ta.
Lĩnh vực nhận dạng tiếng nói đã được nghiên cứu hơn 4 thập kỉ và hiện nay
mới chỉ có một số thành công. Có thể kể đến hệ thống nhận dạng tiếng Anh (ví
dụ: phần mềm Via Voice của IBM, hệ thống nhận dạng tiếng nói tích hợp của
OfficeXP ). Các hệ thống này hoạt động khá tốt (cho độ chính xác khoảng 90 -
95%) nhưng còn xa mới đạt đến mức mơ ước của chúng ta: có một hệ thống có
thể nghe chính xác và hiểu hoàn toàn những điều ta nói.
Riêng với tiếng Việt, lĩnh vực nhận dạng tiếng nói còn khá mới mẻ. Chưa
hề thấy xuất hiện một phần mềm nhận dạng tiếng Việt hoàn chỉnh trên thị trường.
Số công trình nghiên cứu về nhận dạng tiếng nói tiếng Việt được công bố rất
hiếm hoi, và kết quả còn hạn chế về bộ từ vựng, độ chính xác . Tiếng Việt có
nhiều đặc tính khác với các ngôn ngữ đã được nghiên cứu nhận dạng nhiều như
tiếng Anh, tiếng Pháp. Do đó việc nghiên cứu nhận dạng tiếng Việt là rất cần
thiết.
Vì những lí do trên, tôi chọn đề tài “Tìm hiểu một số phương pháp nhận
dạng tiếng nói và xây dựng hệ nhận dạng tiếng nói các chữ số tiếng Việt bằng
mạng nơron trên môi trường Matlab”, nhằm nghiên cứu các phương pháp nhận
dạng tiếng nói đối với tiếng Việt và thử nghiệm xây dựng một hệ thống nhận
dạng cỡ nhỏ.
Khoá luận gồm có 5 chương:
1. Chương 1 trình bày tổng quan về nhận dạng tiếng nói, nhận dạng tiếng
nói tiếng Việt và một số phương pháp nhận dạng phổ biến.
2. Chương 2 trình bày về môi trường Matlab.
3. Chương 3 trình bày về trích chọn đặc trưng cho nhận dạng.
4. Chương 4 trình bày sơ lược về mạng nơron và toolbox NetLab cho
mạng nơron trên môi trường Matlab.
53 trang |
Chia sẻ: lvcdongnoi | Lượt xem: 4113 | Lượt tải: 2
Bạn đang xem trước 20 trang tài liệu Tìm hiểu một số phương pháp nhận dạng tiếng nói và xây dựng hệ nhận dạng tiếng nói các chữ số tiếng Việt bằng mạng nơron trên môi trường Matlab, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
1:5 sinh ra vector [1 2 3
4 5]; 3.6:2 sinh ra vector [3.6 2.6].
a:d:b Vector các phần tử thực từ a đến b, với khoảng chia d.
Ví dụ 1:0.5:3.1 sinh ra vector [1.0 1.5 2 2.5 3.0]
2.3.3. Các phép toán với vô hướng
Bảng sau mô tả các phép toán thực hiện với 2 giá trị vô hướng. Cột kết quả
môt tả cho trường hợp a=3; b=1.2
Viết trong Matlab Ý nghĩa Kết quả
a+b Cộng 2 giá trị 4.2
a-b Trừ 2 giá trị 2.8
a*b Nhân 2 giá trị 3.6
a/b Chia 2 giá trị 2.5
a^b Luỹ thừa ab. 3.7372
Thứ tự ưu tiên toán tử trong Matlab giống như các ngôn ngữ lập trình: ưu
tiên cao nhất là dấu ngoặc, tiếp đến là phép luỹ thừa rồi nhân chia trước, cộng
trừ sau từ trái sang phải.
Các phép toán trên (ngoại trừ phép luỹ thừa) còn thực hiện được đối
với một ma trận và một vô hướng (vector là trường hợp đặc biệt của ma
trận). Khi đó kết quả sẽ là một ma trận cùng cỡ mà mỗi phần tử của ma
trận này là kết quả của phép toán giữa vô hướng và phần tử tương ứng của
ma trận ban đầu.
Ví dụ: nếu gán B=A*3; A là một ma trận cỡ m×n thì B cũng là một ma trận
cỡ m×n và B(i,j)=A(i,j)×3.
2.3.4. Các phép toán với vector
18
Các phép toán với vector thực hiện với 2 vector cùng cỡ, kết quả là một
vector cùng cỡ, trong đó mỗi phần tử của vector kết quả là kết quả của phép toán
giữa 2 phần tử tương ứng của 2 vector ban đầu.
Tức là nếu C=A.^B thì C(i)=A(i)^B(i).
Trong bảng sau cột kết quả ứng với A=[4 3]; B=[2 1]
Viết trong Matlab Ý nghĩa Kết quả
A+B Cộng vector [6 4]
A-B Trừ vector [2 2]
A.*B Nhân vector [8 3]
A./B Chia vector [2.0 3.0]
A.^B Luỹ thừa [16 3]
Ngoài ra ta còn thực hiện được các phép toán đó giữa một vector và một vô
hướng (như đã trình bày ở phần về các phép toán với vô hướng).
2.3.5. Các phép toán với ma trận
Với 2 ma trận cùng cỡ, ta có thể thực hiện các phép toán như các phép toán
với vector ở trên (kết quả cũng là một ma trận cùng cỡ, mỗi phần tử là kết quả
của phép toán với 2 phần tử tương ứng).
Viết trong Matlab Ý nghĩa
A+B
A-B
A.*B
A./B
A.^B
Cộng, trừ, nhân,
chia, lấy luỹ thừa 2
ma trận cùng kích
thước như phép
toán vector.
Ngoài ra ta còn thực hiện được các phép toán đó giữa một ma trận và một
vô hướng (như đã trình bày ở phần về các phép toán với vô hướng)..
Matlab còn có các phép toán sau đối với các ma trận:
Viết trong Matlab Ý nghĩa
A*B Nhân 2 ma trận A(m,n) và B(n,p), được ma trận C(m,p)
mà các phần tử xác định bởi:
19
∑
=
=
n
1k
)j,k(B*)k,i(A)j,i(C
A*B’ Tích vô hướng 2 vector dòng A,B có cùng số phần tử.
A’ Ma trận chuyển vị của A. Nếu gán B=A’ và A cỡ m×n thì
B có cỡ n×m và B(i,j)=A(j,i).
A(i,:) Vector dòng i.
A(:,j) Vector cột j.
A(x,y) Trích ma trận con: x,y là 2 vector mô tả chỉ số dòng và
cột. A(x,y) là ma trận con trong đó các phần tử là các
phần tử của A có chỉ số dòng và cột mô tả trong x và y.
Tức là nếu gán B=A(x,y) thì B(i,j)=A(x(i),y(j)).
Có thể dùng thêm kí hiệu : để lấy toàn bộ dòng hoặc cột.
reshape(A,m,n) Định dạng lại ma trận A thành ma trận m dòng, n cột
rot90(A,k) Quay ma trận A 90o, ngược chiều kim đồng hồ k lần.
A^k Luỹ thừa ma trận: tính ma trận Ak (nhân A k lần), chỉ áp
dụng với ma trận vuông.
inv(A) Cho ma trận nghịch đảo của A. Chỉ áp dụng với ma trận
vuông
triu(A),tril(A) Cho ma trận tam giác trên/dưới của A.
2.4. CÁC HÀM THÔNG DỤNG TRONG MATLAB
2.4.1. Một số hàm toán học thông dụng
Matlab có các hàm toán học thông dụng như lượng giác, logarit... để tính
toán. Đối số của hàm là vô hướng hoặc ma trận (vector là trường hợp đặc biệt
của ma trận). Nếu đối số là ma trận thì kết quả là một ma trận cùng cỡ mà mỗi
phần tử của ma trận này có giá trị tương ứng với các phần tử ma trận đã cho.
Viết trong Matlab Ý nghĩa
abs(x) Cho giá trị tuyệt đối của x. Nếu x là số
phức thì cho môđun của x.
sqrt(x) Căn bậc 2. Nếu muốn lấy căn bậc n thì viết
x.^(1/n)
20
round(x), fix(x),
floor(x), ceil(x)
Cho kết quả là số nguyên tương ứng: gần
x, gần 0, gần -∞ và gần +∞ nhất.
rem(x,y) Cho phần dư của phép chia x/y, tức là x
mod y. x div y chính là floor(x/y)
exp(x) ex.
log(x), log10(x) lnx, lgx (tương ứng).
sin(x), cos(x), tan(x) Các hàm lượng giác sin, cos, tg. x lấy đơn
vị radian.
asin(x), acos(x),
atan(x)
Các hàm lượng giác arcsin, arccos, arctang
atan2(x,y) Cho arctg của y/x trong khoảng -π đến π,
tuỳ thuộc vào dấu của x,y
2.4.2. Một số hàm vector
Các hàm sau thực hiện cho vector, nếu đối số là ma trận thì kết quả là
vector mà mỗi phần tử tính toán tương ứng với các cột của ma trận.
Viết trong Matlab Ý nghĩa
sum(X) Tính tổng các phần tử của vector X.
mean(X) Tính trung bình cộng các phần tử của vector X.
[xm id] =max(X);
[xm id] =min(X);
Tìm phần tử lớn nhất/nhỏ nhất của X. xm là giá trị,
id là chỉ số.
norm(X, p) Tính chuẩn bậc p của ma trận hay vector X, mặc
định là bậc 2.
length(X) Cho số phần tử của X.
[m n]= size(A) Cho kích thước ma trận A.
2.4.3. Một số hàm xử lí âm thanh
Matlab có một số hàm xử lí âm thanh sau:
Viết trong Matlab Ý nghĩa
[y
fs]=wavread(wavfile)
Đọc tín hiệu âm thanh từ file wav cho bởi xâu
wavfile, y là vector mô tả tín hiệu âm thanh
21
(có giá trị thực từ 0 đến 1), fs là tần số lấy mẫu
(giá trị nguyên)
wavwrite(y,fs,wavfile
)
Ghi tín hiệu âm thanh từ file wav cho bởi xâu
wavfile, y là vector mô tả tín hiệu âm thanh, fs
là tần số lấy mẫu.
sound(y) Phát âm thanh ra loa, y là vector mô tả tín hiệu
âm thanh.
y=wavrecord(n, fs) Ghi âm (từ micro) với tần số lấy mẫu fs và n
mẫu. Kết quả là vector y.
Đoạn lệnh sau ghi âm trong 2 giây với tần số
lấy mẫu 8kHz, phát lại rồi ghi vào file:
y=wavrecord(16000,8000);
sound(y);
wavwrite(y,8000,‘temp.wav’);
2.4.4. Các phép toán số phức
Khác với các ngôn ngữ lập trình thông dụng, Matlab cho phép tính toán trực
tiếp với số phức. Ngoài các phép toán thông thường giống số thực như cộng, trừ,
nhân, chia, với số phức còn có một số phép toán và hàm sau. Cột kết quả viết ví
dụ đối với x=a+bi.
Viết trong Matlab Ý nghĩa Kết quả
real(x) Phần thực a
imag(x) Phần ảo b
conj(x) Số phức liên hợp a-bi
abs(x) môđun 22 ba +
angle(x) argument arctg(b/a)
i,j Kí hiệu đơn bị ảo. 1−
Cách viết phép toán và gọi hàm với số thực và số phức hoàn toàn giống
nhau. Các phép toán hay hàm nào thực hiện được với số phức cho kết quả là số
phức tương ứng.
22
2.5. LẬP TRÌNH MATLAB
2.5.1. Chương trình nguồn (m-file), hàm và script
Matlab hỗ trợ 2 chế độ hoạt động: hoạt động theo giao diện dòng lệnh hoặc
theo chương trình. Giao diện dòng lệnh cho phép người dùng gõ lệnh và máy
hiển thị kết quả trong cửa sổ lệnh (có thể tham khảo một số lệnh ở phần 1.3). Tuy
nhiên để nâng cao hiệu qủa sử dụng Matlab thì phải lập trình.
Chương trình trong Matlab có 2 dạng: script (kịch bản) hoặc function
(hàm). Chương trình nguồn Matlab được lưu vào các file text có phần mở rộng là
.m ( gọi là các m-file) và tên chương trình được xác định qua tên file.
Script và function đều là dãy các lệnh Matlab. Có một khác biệt cơ bản:
hàm có thể nhận đối số và trả lại kết quả, còn script thì không. Khi gõ lệnh chứa
tên hàm hay kịch bản, máy sẽ thực thi dãy các lệnh tương ứng trong chương trình
nguồn như là chúng được gõ trong cửa sổ lệnh (nếu là lệnh gọi hàm thì còn thêm
các thao tác truyền tham số vào-ra, tạo và huỷ biến địa phương…)
Sau đây là ví dụ về hàm dtcv, được lưu trong chương trình nguồn đặt tên
là dtcv.m, thực hiện tính toán diện tích và chu vi hình chữ nhật với tham số vào
là 2 cạnh a,b.
function [s, p] = dtcv(a,b)
% Ham tinh dien tich va chu vi hinh chu nhat
s=a*b; p = 2*(a+b);
Các quy tắc viết hàm:
1. Hàm phải được bắt đầu bằng từ khoá function, sau đó lần lượt là tham
số đầu ra, dấu =, tên hàm, dấu (, các đối số (tham số đầu vào) và dấu ).
Nếu có nhiều tham số đầu vào thì chúng phải viết cách nhau bằng dấu ,
Nếu có nhiều tham số đầu ra thì chúng cũng phải viết cách nhau bằng dấu ,
và có cặp dấu [ ] bao ngoài.
2. Chú thích trong Matlab là chú thích trên dòng. Bắt đầu bằng kí tự %, sau
đó cho đến hết dòng là nội dung chú thích.
Nếu chú thích viết ngay sau khai báo hàm thì khi dùng lệnh help <tên
hàm>, nội dung phần chú thích đó sẽ được Matlab hiển thị.
3. Các kết quả của hàm được xác định qua các tham số đầu ra. Vì vậy trong
thân hàm phải có các dòng lệnh gán giá trị cho chúng.
23
4. Ngoại trừ các tham số vào/ra, tất cả các biến bên trong hàm đều là biến
địa phương. Chúng được tạo khi có lệnh gán đầu tiên và bị xóa sau khi kết thúc
hàm. Ngược lại, biến trong script thì luôn là biến toàn cục.
5. Lời gọi hàm:
Lệnh gọi hàm có dạng như khai báo hàm, chỉ khác là không được có dấu ;
giữa các tham số đầu ra.
[]=(các tham số đầu vào)
Tuy nhiên Matlab cho phép số tham số đầu vào, đầu ra ít hơn số tham số
hình thức. Người lập trình cần dùng 2 hàm nargin và nargout để xác định số đầu
vào, đầu ra thực sự trong lời gọi hàm (chú ý: .
Chẳng hạn ta có thể dùng lời gọi hàm sau để tính diện tích và chu vi hình
chữ nhật kích thước 4×3:
[dt cv] = dtvc(4,3)
Nếu chỉ quan tâm đến diện tích ta có thể gọi:
dt = dtvc(4,3)
Tuy nhiên trình tự truyền tham số của hàm trong Matlab là từ trái sang, vì
vậy nếu chỉ cần kết quả là chu vi, không quan tâm đến diện tích ta vẫn phải gọi
hàm như câu lệnh đầu tiên, không thể dùng câu lệnh sau:
cv = dtvc(4,3)
Vì nếu gọi như vậy, cv sẽ bị gán giá trị 12 của diện tích.
So sánh với các ngôn ngữ khác chúng ta có một số nhận xét:
• Matlab cho phép hàm trả lại nhiều kết quả.
• Matlab cho phép số tham số thực sự ít hơn số tham số hình thức.
• Matlab không xác định kiểu của tham số hình thức và kiểm tra kiểu
của tham số thực sự. Người lập trình phải tự xác định lấy.
2.5.2. Các cấu trúc điều khiển
Các cấu trúc điều khiển của Matlab nhìn chung giống Pascal, ngoại trừ đặc
điểm là không có cấu trúc khối begin end nên thường các cấu trúc điều khiển
trong Matlab cho phép có nhiều câu lệnh con và kết thúc bằng end.
2.5.2.1. Lệnh gán
Lệnh gán trong Matlab là dấu =, có dạng:
=
24
Khi thực hiện lệnh gán, nếu chưa tồn tại thì Matlab sẽ tạo ra biến có
kiểu và kích thước trùng với , sau đó gán giá trị của cho
biến. Ở đây: có thể là: kí pháp định nghĩa ma trận, lời gọi hàm, biến,
phép toán với các biểu thức khác...
2.5.2.2. Lệnh rẽ nhánh
Matlab có một số lệnh rẽ nhánh sau:
1/ Lệnh if đơn
Cú pháp:
if
end;
Thực thi:
Lệnh này kiểm tra giá trị của , nếu kết quả là đúng
(khác 0) thì thực hiện .
2/ Lệnh if else
Cú pháp:
if
else
end;
Thực thi:
Lệnh này kiểm tra giá trị của , nếu kết quả là đúng
(khác 0) thì thực hiện , ngược lại thì thực hiện <nhóm lệnh
2>.
3/ Lệnh if elseif
Cú pháp
if
elseif
25
end;
Thực thi:
Dùng elseif thì tương tự như dùng else sau đó có một câu lệnh if:
if
else
if
end;
end;
Tuy nhiên dùng elseif thì chương trình sáng sủa hơn, không phải thêm các
từ khoá end ở cuối.
2.5.2.3. Lệnh lặp
Matlab có 2 loại lệnh lặp: lệnh for và lệnh while.
1/ Lệnh for
Cú pháp:
for =
end;
Trong đó là một biến, là vector, ma trận hoặc
giá trị vô hướng.
Quy tắc sử dụng:
• Nếu là ma trận rỗng thì vòng for không thực hiện.
• Nếu là giá trị vô hướng (ma trận 1x1) thì được
gán bằng giá trị vô hướng đó và thực hiện đúng một
lần.
• Nếu là một vector (ma trận nx1 hoặc 1xn) thì <nhóm
lệnh> thực hiện n lần, mỗi lần nhận một phần tử của vector
(từ trái sang phải).
26
• Nếu là một ma trận (ma trận mxn) thì thực
hiện m lần, mỗi lần nhận một vector cột của ma trận (từ trái
sang phải).
2/ Lệnh while
Cú pháp:
while
end;
Thực thi:
• Nếu đúng thì thực hiện .
• Thực hiện xong lại quay lại kiểm tra và thực hiện <nhóm
lệnh> cho đến khi nhóm lệnh sai.
• Trong vòng lặp for, while có thể sử dụng lệnh break để ngắt. Khi
gặp lệnh break Matlab sẽ kết thúc vòng lặp ngay lập tức.
2.5.3 Biểu thức logic
Như ở mục trên ta thấy trong các cấu trúc điều khiển, ta luôn cần các biểu
thức logic. Trong Matlab giá trị 0 được coi là sai (false) còn mọi giá trị khác 0
được coi là đúng (true) (giống như trong C).
Ở các ngôn ngữ lập trình thông thường ta chỉ gặp các biểu thức logic có giá
trị là một vô hướng (chỉ là đúng/sai), nhưng trong Matlab thì biểu thức logic có
giá trị là một ma trận (mà giá trị vô hướng là một trường hợp đặc biệt: ma trận
1×1).
2.5.3.1 Các phép toán quan hệ
Matlab có các phép toán quan hệ sau với 2 ma trận cùng cỡ:
Toán tử Ý nghĩa Ví dụ cách viết
< Nhỏ hơn A<B
<= Nhỏ hơn hoặc bằng A(1,2)<B(3,4)
> Lớn hơn A>3
>= Lớn hơn hoặc bằng
== Bằng nhau (chú ý: khác với dấu = là toán tử
27
gán; == là toán tử so sánh).
~= Khác nhau
Phép so sánh ma trận với vô hướng có kết quả là một ma trận cùng cỡ,
trong đó mỗi phần tử của ma trận này là kết qủa so sánh tương ứng phần tử của
ma trận với vô hướng: là 1 nếu đúng, là 0 nếu sai.
Ví dụ: nếu viết lệnh C=A>3; trong đó A,C là các ma trận mxn thì c cũng là
một ma trận mxn, C(i,j)=1 nếu A(i,j)>3 và bằng 0 trong trường hợp ngược lại.
Phép so sánh 2 ma trận cùng cỡ (2 giá trị vô hướng là 2 ma trận 1x1) có kết
quả là một ma trận cùng cỡ, trong đó mỗi phần tử là kết qủa so sánh tương ứng 2
phần tử của 2 ma trận: là 1 nếu đúng, là 0 nếu sai.
Ví dụ: nếu viết lệnh C=A>B; trong đó A,B là các ma trận mxn thì C cũng là
một ma trận mxn, C(i,j)=1 nếu A(i,j)>B(i,j) và bằng 0 trong trường hợp ngược
lại.
2.5.3.2. Các phép toán logic
Phép toán logic trong Matlab hợp lệ nếu kết hợp 2 trận cùng kích thước chỉ
toàn các phần tử 0 và 1. Kết quả của phép toán logic là một ma trận cùng kích
thước mà mỗi phần tử là kết quả phép toán logic tương ứng của từng phần tử 2
ma trận ban đầu.
Toán tử Ý nghĩa Ví dụ cách viết
& Phép and logic a>=0 & a<=3
| Phép or logic a>b | a<c
~ Phép not logic ~(a>=0 & a<=3)
Bảng kết quả phép toán logic (đối với vô hướng)
a b ~a a|b a&b
false false true false false
false true true true false
true false false true false
true true false true true
2.5.3.3. Một số hàm quan hệ và logic
28
Matlab hỗ trợ nhiều hàm cho giá trị logic. Sau đây là một số hàm:
Lời gọi hàm Ý nghĩa
any(x) Chỉ cho giá trị true (1) nếu tồn tại một phần tử của x khác 0
all(x) Chỉ cho giá trị true (1) nếu tất cả các phần tử của x khác 0.
isempty(x) Trả lại true (1) nếu x là ma trận rỗng.
isstr(x) Trả lại true (1) nếu x là một xâu (ma trận kí tự).
find(x) Kết quả là một vector cột chứa chỉ số các phần tử khác 0 của x.
Nếu x là một ma trận thì
29
CHƯƠNG 3. TRÍCH CHỌN
ĐẶC TRƯNG TÍN HIỆU
TIẾNG NÓI
Quá trình nhận dạng mẫu (cả ở pha huấn luyện hay pha nhận dạng) đều trải
qua bước giai đoạn là trích chọn đặc trưng (feature extraction). Bước này thực
hiện các phân tích phổ (spectral analysis) nhằm xác định các thông tin quan
trọng, đặc trưng, ổn định của tín hiệu tiếng nói, tối thiểu hoá ảnh hưởng của
nhiễu; xúc cảm, trạng thái, cách phát âm của người nói; giảm khối lượng dữ liệu
cần xử lí...
Mặc dù không mang tính quyết định nhưng giai đoạn trích chọn đặc trưng
ảnh hưởng rất lớn đến hiệu năng nhận dạng. Vì vậy việc lựa chọn đặc trưng cho
tín hiệu tiếng nói rất quan trọng.
Có nhiều phương pháp trích chọn đặc trưng đã và đang được sử dụng (FBA,
MFCC, LPC, PLP...). Mỗi phương pháp có những ưu điểm và nhược điểm riêng.
Hiện nay MFCC (Mel-scale Frequency Cepstral Coefficient) được sử dụng phổ
biến nhất. Vì vậy chúng tôi sử dụng MFCC làm đặc trưng của hệ nhận dạng được
trình bày trong khoá luận này.
Nội dung tiếp theo của chương này trình bày về phương pháp tính đặc trưng
MFCC và toolbox VoiceBox của Matlab dùng trong xử lí tiếng nói.
3.1. TRÍCH CHỌN ĐẶC TRƯNG MFCC
Các hệ nhận dạng tiếng nói thường tách đặc trưng từ tín hiệu bằng cách:
chia tín hiệu thành các đoạn độ dài 5-15 ms, mỗi đoạn gọi là một khung (frame).
Trong khoảng thời gian ngắn như vậy, phổ của tín hiệu đủ ổn định để tiến hành
tách đặc trưng. Mỗi frame sẽ cho đặc trưng là một vector và đặc trưng của toàn
bộ tín hiệu sẽ là một dãy vector.
MFCC là phương pháp trích đặc trưng dựa trên đặc điểm cảm thụ tần số âm
của tai người: tuyến tính đối với tần số nhỏ hơn 1kHz và phi tuyến đối với tần số
trên 1kHz (theo thang tần số mel, không phải theo Hz).
MFCC là phương pháp tách đặc trưng dựa trên sự cảm thụ của con
người nên thường cho kết quả nhận dạng cao nhất (theo [12]). Vì lẽ đó rất
nhiều hệ thống nhận dạng tiếng nói sử dụng MFCC làm đặc trưng.
30
3.1.1. Sơ đồ khối của quá trình tính MFCC
Đối với phương pháp MFCC, việc tính đặc trưng có sơ đồ như sau:
Tín hiệu tiếng nói Phân khung và cửa sổ hoá
Biến đổi
Fourier
Lọc qua bộ
lọc mel-scale
Lấy logarit Biến đổi Fourier ngược MFCC
Lấy đạo hàm
rời rạc
M
FC
C
Delta MFCC
Tính toán
năng lượng Năng lượng
Minh hoạ: Sơ đồ khối của quá trình trích chọn đặc trưng MFCC
Quá trình tính toán như sau: đầu tiên tín hiệu tiếng nói được chia thành các frame
có độ dài 10ms. Mỗi frame sẽ được nhân với một hàm cửa sổ, thường là cửa sổ
Hamming sau đó được chuyển sang miền tần số nhờ biến đổi Fourier. Tín hiệu ở
miền tần số được nhân với các bộ lọc mel-scale, lấy logarit rồi biến đổi Fourier
ngược (để chuyển sang miền cepstral) sẽ được các hệ số MFCC.
Một số hệ thống có tính thêm năng lượng (cũng lấy logarit) và đặc trưng
delta (đạo hàm rời rạc theo thời gian của MFCC) nhằm thêm thông tin cho các
pha sau của quá trình nhận dạng.
Các mục sau trình bày từng bước quá trình tính toán đặc trưng MFCC.
3.1.2. Chia khung và cửa sổ hoá
Tín hiệu tiếng nói x[n] gồm L mẫu được sau khi được chia thành các khung
độ rộng 10ms (ứng với fs*0.01 mẫu) sẽ được cửa sổ hoá bằng cách nhân tín hiệu
với môt hàm cửa sổ độ rộng N.
1N..0n);n(w*)n(x)n(x t −==
Hàm cửa sổ thường được dùng là hàm cửa sổ Hamming:
1-0..Nn ; )
N
n2cos(46.054.0)n(w =π×−=
3.1.3. Biến đổi Fourier rời rạc
Tín hiệu (của một frame) sau khi nhân với hàm cửa sổ, được chuyển sang
miền tần số bằng biến đổi Fourier rời rạc:
31
1N..0k;e).n(x)k(X
1N
0n
N
kn2i
−==∑−
=
π
−
3.1.4. Lọc qua các bộ lọc mel-scale
Các bộ lọc mel-scale là các bộ lọc tam giác, đặt cách đều nhau trong miền
tần số nhỏ hơn 1kHz và khoảng cách tăng theo hàm mũ trong miền từ 1kHz đến
fs/2 (một nửa của tần số lấy mẫu).
Minh hoạ: Các bộ lọc mel-scale tam giác (triangle mel-scale filters)
Với M bộ lọc đó, ta hoàn toàn xác định được hệ số nhân hi(k) của mỗi bộ lọc. Kết
quả lọc đối với tín hiệu ở miền tần số qua các bộ lọc được tính như sau:
M..1i|;)k(X|.)k(h)i(F
1N
0k
i ==∑−
=
Chú ý: X(k) là số phức nhưng thông tin về pha của X(k) không quan trọng
nên ta chỉ tính kết quả lọc với modun của X(k).
Việc nhân tín hiệu ở miền tần sốvới các bộ lọc mel-scale để chuyển biểu
diễn miền tần số từ thang Hz sang thang mel. Mục đích là phân giải tần số
(frequency resolution) theo đặc điểm cảm thụ âm của con người: tuyến tính
trong miền dưới 1kHz và phi tuyến trong miền trên 1kHz.
3.1.5. Logarit và biến đổi Fourier ngược
Lấy logarit của tín hiệu ở miền tần số (spectrum) rồi biến đổi Fourier
ngược sẽ đưa tín hiệu về một miền gọi là cepstrum có đơn vị thời gian (thuật
ngữ là cepstrum đảo ngược của âm đầu tiên trong từ spectrum: spectrum →
cepstrum). Biến đổi từ spectrum sang cepstrum là một biến đổi đồng hình
32
(homomorphic). Theo [9] biến đổi đồng hình chuyển biểu diễn tín hiệu từ dạng
tích về dạng tổng, như vậy cho phép sử dụng các hệ tuyến tính để xử lí các tín
hiệu không tuyến tính.
Công thức tính của bước này là:
∑
=
=
−π
=
M
1k
p..1n);
M2
)1k(n2icos()).k(Flog()n(c
Chú ý: mặc dù biến đổi từ spectrum sang cepstrum là biến đổi Fourier
ngược, tuy nhiên do ta dùng spectrum và cepstrum thực nên chỉ sử dụng biến đổi
cosine rời rạc (DCT) để tăng hiệu năng tính toán.
Sau bước này ta được vector cepstral (ở độ đo mel) p thành phần. Thông
thường người ta thường nhân thêm vào kết quả một hàm cửa sổ sóng sin (gọi là
thủ tục liftering) để giảm bớt ảnh hưởng của các biến đổi đến kết quả.
)n(w).n(c)n(c
)
L
nsin(.
2
L1)n(w
=
π
+=
3.1.6. Tính toán năng lượng
Kèm thêm thông tin về năng lượng của tín hiệu sẽ tăng thêm thông tin cho
nhận dạng (ví dụ: phân biệt các khoảng chứa tín hiệu âm và khoảng lặng, phân
biệt vùng tín hiệu chứa nguyên âm và phụ âm…)
Năng lượng của cả frame được tính qua công thức:
∑−
=
=
1N
0n
2))n(x(E
3.1.7. Tính toán đặc trưng delta
Đặc trưng delta là đạo hàm bậc nhất (rời rạc) của đặc trưng theo thời gian.
Có các đặc trưng delta sẽ tăng thêm thông tin cho nhận dạng (chẳng hạn: xác
định các vùng mà phổ tín hiệu ổn định…). Đặc trưng delta được tính theo công
thức:
∑
−=
+=
∂
∂
=
T
Tu
)ut(C.u)t(C
t
)t('C
Trong đó C(t) là cả vector cepstral tại thời điểm t. T là một hằng số chọn
trước, thường thì người ta lấy T=3.
33
3.2. TOOLBOX VOICEBOX TRONG MATLAB
VoiceBox là một toolbox của Matlab chuyên về xử lí tiếng nói do Mike
Brookes phát triển. VoiceBox yêu cầu Matlab phiên bản 5 trở lên.
VoiceBox gồm các hàm có thể chia thành một số nhóm chức năng sau:
• Xử lí file âm thanh (đọc, ghi file wav và một số định dạng file âm
thanh khác)
• Phân tích phổ tín hiệu
• Phân tích LPC
• Tính toán MFCC, chuyển đổi spectral - cepstral
• Chuyển đổi tần số (mel-scale, midi,...)
• Biến đổi Fourier, Fourier ngược, Fourier thực...
• Tính khoảng cách (sai lệch) giữa các vector và dãy vector.
• Loại trừ nhiễu trong tín hiệu tiếng nói.
Tuy nhiên chức năng quan trọng nhất là trích đặc trưng tín hiệu tiếng nói,
mà ở đây là 2 loại phổ biến nhất LPC và MFCC.
Hàm tính MFCC của tín hiệu trong VoiceBox là hàm melcepst:
c=melcepst(s,fs,w,nc,p,n,inc,fl,fh)
Hàm có rất nhiều tham số, một số tham số quan trọng là:
• s là vector tín hiệu tiếng nói (có được sau khi dùng hàm wavrecord
hoặc wavread), fs là tần số lấy mẫu (mặc định là 11050).
• nc là số hệ số MFCC cần tính (tức là số phần tử của vector đặc trưng.
Mặc định là 12, trong nghiên cứu chúng tôi chọn là 8).
• p là số bộ lọc mel-scale.
• w là một xâu mô tả các lựa chọn khác: nếu có ‘e’ thì tính thêm log
năng lượng, có ‘d’ thì tính thêm đặc trưng delta.
Mặc dù vậy hàm có thể gọi một cách đơn giản là:
c=melcepst(s,fs);
Lời gọi hàm sinh ra ma trận c, mỗi dòng của ma trận là 12 hệ số MFCC của
một frame. Để kèm thêm log năng lượng và dữ liệu delta như trong các hệ nhận
dạng khác, ta dùng lệnh:
c=melcepst(s,fs,’ed’);
Khi đó mỗi dòng của c là vector 26 hệ số MFCC của frame tương ứng.
Hàm melcepst được chúng tôi sử dụng để trích chọn đặc trưng MFCC trong
hệ thống nhận dạng được trình bày trong chương 5.
34
CHƯƠNG 4. MẠNG NƠRON
NHÂN TẠO
Bộ não con người, dưới góc độ tính toán có thể coi là một hệ thống xử lí
song song lớn và mật độ kết nối cao: phần tử xử lí là các nơ ron là một và kết nối
là các dây thần kinh.
Khả năng tuyệt vời của bộ não đã gợi nên những ý tưởng về việc mô phỏng
chúng trong lĩnh vực tính toán. Và mạng nơ ron nhân tạo (artificial neural
network -ANN) là kết quả của những ý tưởng đó.
4.1. MÔ HÌNH MẠNG NƠ RON
Có nhiều mô hình mạng nơron khác nhau. Mô hình mạng đơn giản và phổ
biến nhất là mô hình mạng perceptron truyền thẳng nhiều lớp (multi layer
perceptron - MLP). Đó là mô hình mạng chúng tôi sử dụng trong hệ nhận dạng
được trình bày trong khoá luận này. Bạn đọc quan tâm có thể tham khảo thêm về
mạng nơron trong [4, 8,11].
4.1.1. Mô hình một nơron perceptron
Một nơron perceptron là một phần tử xử lí gồm:
• n đầu vào xi, mỗi đầu vào ứng với một giá trị thực wi gọi là trọng số.
• Một giá trị thực b gọi là ngưỡng (bias).
• Một hàm kích hoạt f.
• Giá trị ra y.
Minh hoạ: Mô hình một nơron perceptron
35
Giá trị ra của perceptron được tính theo quy tắc sau:
)u(fy
bwxu
n
1i
ii
=
+=∑
=
Hàm kích hoạt được sử dụng phổ biến là hàm sigmoid (còn gọi là hàm
logistic) do tính phi tuyến và khả vi:
ue1
1)u(f
−+
=
Ngoài ra còn có một số hàm kích hoạt khác: hàm tang hyperbolic (tanh),
hàm softmax.
Khả năng tính toán của một nơron perceptron khá hạn chế. Để cải thiện
người ta nối chúng thành mạng. Mô hình mạng đơn giản nhất là mạng perceptron
truyền thẳng đa lớp MLP.
4.1.2. Mô hình mạng nơron MLP
Mạng nơron MLP n đầu vào, m đầu ra có mô hình như sau:
• Các nơron được chia thành các lớp: lớp sau được nối với lớp trước.
Lớp đầu tiên là lớp vào (input - nhận đầu vào), lớp cuối cùng là lớp ra
(output - cho đầu ra). Giữa lớp vào và lớp ra là các lớp ẩn (hidden).
Thông thường chỉ có một lớp ẩn.
• Tất cả các nơron cùng một lớp sử dụng chung một vector đầu vào.
Mỗi lớp khi nhận một vector đầu vào sẽ tính đầu ra của mỗi nơron, kết
hợp thành một vector và lấy đó làm đầu vào cho lớp sau.
• Mạng MLP nhận đầu vào là một vector n thành phần, lấy đó làm đầu
vào của lớp input và tính toán cho đến khi lớp output có đầu ra, lấy đó
là đầu ra của mạng: một vector m thành phần.
• Toàn bộ các nơron của toàn mạng sử dụng chung một hàm kích hoạt,
thường là hàm logistic.
Ngoài lớp vào và lớp ra, mạng MLP thường có một hay nhiều lớp ẩn.
Thông thường người ta chỉ sử dụng một lớp ẩn. Vì vậy đôi khi người ta
hay đồng nhất MLP với MLP 3 lớp.
36
input layer
hidden layer
output layer
Minh hoạ: Mô hình mạng perceptron 3 lớp (MLP)
Như vậy xét dưới góc độ toán học mạng MLP biểu diễn một hàm phi tuyến
từ Rn vào Rm. Người ta cũng chứng minh được rằng: “một hàm phi tuyến liên
tục bất kì có thể xấp xỉ với độ chính xác tuỳ ý bằng mạng MLP” (định lí
Kolmogorov-được nhắc đến trong [8]).
Mạng MLP n×p×m (n đầu vào, m đầu ra, p nơron ẩn) được biểu diễn bằng 2
ma trận trọng số w1 cỡ n×p, w2 cỡ p×m và 2 vector ngưỡng b1 p phần tử, b2 m
phần tử. (Lớp input của MLP chỉ có tác dụng nhận đầu vào, hoàn toàn không
thực hiện tính toán).
Khi đó tính toán đầu ra y của mạng theo đầu vào x như sau:
)v(fy
bw.zv
)u(fz
bw.xu
22
11
=
+=
=
+=
Ở đây, u, v, z là các vector. Viết z=f(u) có nghĩa là zi=f(ui) với mọi i.
Để biểu diễn được một hàm nào đó, mạng MLP cần được huấn luyện.
4.1.3. Huấn luyện mạng nơron MLP
Để mạng nơron biểu diễn được hàm f, ta cần một bộ dữ liệu gồm N cặp
vector (xi, ti), trong đó xi thuộc tập xác định của f và ti là giá trị của f tại xi:
ti = f(xi)
Mạng MLP sẽ biểu diễn được hàm f nếu cho đầu vào của mạng là xi thì đầu
ra của mạng là ti. Thường thì MLP chỉ biểu diễn được xấp xỉ hàm f, do đó ta
mong muốn nếu mạng cho đầu ra thực tế là yi thì yi càng gần ti càng tốt.
37
Như vậy bài toán huấn luyện mạng là cho bộ dữ liệu huấn luyện gồm N
cặp vector (xi, ti), cần điều chỉnh các trọng số của mạng sao cho tổng sai số
của mạng trên bộ dữ liệu là nhỏ nhất:
∑
=
→−=
N
1i
ii minyt E
Trong đó yi là đầu ra thực tế của mạng ứng với đầu vào xi.
Thuật toán huấn luyện MLP phổ biến nhất là thuật toán lan truyền ngược lỗi
(back-propagation training). Thuật toán có đầu vào là tập mẫu {(xi, ti)}, đầu ra là
bộ trọng số của mạng.
Các bước tiến hành huấn luyện như sau:
1/ Khởi tạo trọng số của mạng: wij được gán các giá trị ngẫu nhiên, nhỏ
(nằm trong miền [-α, α]).
2/ Với mỗi cặp (x,t) trong bộ dữ liệu huấn luyện:
Giả sử x = (x1 , ..., xn). Ta thực hiện:
1. Lan truyền x qua mạng để có y (theo công thức mục 4.1.3).
2. Tính sai số e của mạng: e=t-y.
3. Hiệu chỉnh các trọng số liên kết nơron dẫn tới lớp ra wij từ nơron j tại
lớp ẩn tới nơron i tại lớp ra:
wij = wij + Δwij
wij là trọng số giữa nơron i ở lớp trước và nơron j ở lớp sau. Δwij được tính
theo công thức sau:
Δwij=ρδjyi
• ρ là hằng số tốc độ học (learning rate), thường lấy bằng .
• yi là đầu ra của nơron i (nếu i là nơron lớp input thì thay yi bằng xi).
• δj là sai số tại nơron j. Nếu j là nơron lớp ra (output layer) thì δj được
tính theo công thức:
δj = yj(1-yj)(tj-yj)
Nếu j là nơron lớp ẩn thì được tính theo công thức:
δj = yj(1-yj)∑δ
k
jkk w
trong đó k là các các nơron của lớp sau lớp của j.
Việc đưa mẫu huấn luyện qua mạng, tính toán và cập nhật trọng số được
tiến hành với tất cả phần tử trong bộ mẫu (có thể chọn ngẫu nhiên hoặc tuần tự).
Quá trình sẽ dừng lại khi sai số trung bình (hoặc tổng sai số) nhỏ hơn một giá trị
cho trước hoặc thay đổi không đáng kể (tức là quá trình huấn luyện hội tụ).
38
4.1.5. Ưu điểm và nhược điểm của mạng nơron
Các nghiên cứu cả về mặt lí thuyết và thực tế cho thấy mạng nơron có
những ưu điểm sau:
• Có thể xấp xỉ một hệ phi tuyến động (nonlinear dynamical system) với
độ chính xác bất kì.
• Có khả năng miễn nhiễu (robustness) và chịu sai hỏng (fault
tolerance) cao. Chẳng hạn mạng có thể nhận các dữ liệu bị sai lệch
hoặc không đầy đủ mà vẫn hoạt động được.
• Có khả năng thích ứng: mạng nơron có thể “học” (learn) và “điều
chỉnh” (adapt) trong quá trình hoạt động. Đây là điểm đáng chú ý nhất
của mạng nơron trong nhận dạng tiếng nói. Đặc điểm này của mạng
cho phép ta hi vọng xây dựng được một hệ nhận dạng có thể “học tập”
để nâng cao khả năng nhận dạng trong khi hoạt động.
• Có khả năng tổng quát hoá (generalize) tốt và phân lớp (classify)
mạng.
Nhưng mạng nơron cũng không phải là công cụ vạn năng cho mọi vấn đề,
vì chúng cũng có nhiều nhược điểm:
• Chỉ xử lí được các dữ liệu số. Cần tích hợp thêm nhiều thành phần
khác (ví dụ: các hệ mờ, các bộ số hoá...) để có thể xử lí những dữ liệu
phi số.
• Hiệu năng của mạng phụ thuộc bộ dữ liệu huấn luyện. Để đảm bảo
hiệu năng, mạng cần được huấn luyện với lượng dữ liệu lớn. Quá trình
huấn luyện do đó rất dài. Mặt khác nếu bộ dữ liệu được chuẩn bị
không tốt thì mạng có khả năng tổng quát hoá thấp.
• Mạng nơron gần như là một “hộp đen” đối với các phân tích. Rất khó
xác định được sự phân bố thông tin và xử lí trên các phần tử của
mạng.
• Không có một phương pháp chung nào để xác định cấu trúc mạng phù
hợp từng bài toán. Nhà nghiên cứu phải tiến hành thử nghiệm hoặc
dựa vào kinh nghiệm để xác định.
• Các thuật toán huấn luyện hiện chưa đảm bảo tránh quá trình huấn
luyện rơi vào một cực trị địa phương. Hơn nữa sai số huấn luyện giảm
không đồng nghĩa với tăng hiệu năng hoạt động của mạng.
• Mạng cấu trúc lớn cài đặt bằng phần mềm trên máy tính hoạt động rất
chậm. Việc xây dựng mạng nơron bằng phần cứng vẫn còn đang được
nghiên cứu.
39
4.2. SỬ DỤNG MẠNG NƠRON TRONG NHẬN DẠNG
MẪU
4.2.1. Một phương pháp tiếp cận dựa vào xác suất phân lớp
Bài toán nhận dạng sẽ được giải quyết nếu chúng ta xây dựng được một cơ
cấu nhận dạng có:
• Đầu vào là đặc trưng của đối tượng cần nhận dạng.
• Đầu ra là xác suất phân lớp hoặc độ giống (likelihood), độ tương tự
(similarity) của đối tượng với những lớp mẫu đã huấn luyện.
p 1
( X
)
p
m ( X)
v
1 (X)
v n
(X
)
Minh hoạ: Mô hình nhận dạng bằng cơ cấu nhận dạng dựa theo xác suất phân lớp
Chúng ta thấy rằng có thể dùng MLP để là một cơ cấu nhận dạng như vậy:
Nếu đặc trưng của đối tượng là n số thực và có m lớp mẫu thì ta sẽ xây dựng
một MLP n đầu vào, m đầu ra. Đầu vào là các đặc trưng của đối tượng, đầu
ra là độ tương tự của đối tượng với mỗi lớp mẫu. MLP sẽ được huấn luyện
dựa trên bộ dữ liệu huấn luyện được chuẩn bị trước để tìm mối liên hệ giữa đầu
vào và đầu ra (học và tổng quát hoá). Những vấn đề này sẽ được trình bày kĩ
trong chương 5.
4.2.2. Nhược điểm của mạng MLP trong nhận dạng tiếng nói
MLP có một số nhược điểm sau khi sử dụng trong nhận dạng tiếng nói:
- Có đầu vào cố định (trong khi tín hiệu tiếng nói là tín hiệu thay đổi theo
thời gian: mỗi lần phát âm cho các từ có độ dài thường không bằng nhau).
- Chi phí huấn luyện tốn kém (thời gian, không gian lưu trữ).
Do đó MLP thường chỉ cho kết quả cao trong nhận dạng với bộ từ vựng nhỏ
và phân biệt (độ tương tự của các lớp mẫu thấp).
4.2.3. Một số phương pháp tiếp cận khác
40
Ngoài cách tiếp cận như ở phần 4.2.1, còn có nhiều cách tiếp cận khác đối
với nhận dạng tiếng nói bằng mạng nơron:
- Dùng mô hình mạng TDNN (mạng nơron thời gian trễ): là mô hình cải
tiến của MLP, có cơ chế để tích hợp thông tin về thời gian (các nơron trễ) khi
đưa các mẫu tiếng nói qua mạng. Mô hình này nhằm giải quyết vấn đề về sự phụ
thuộc thời gian của tín hiệu tiếng nói.
- Kết hợp MLP và HMM: sử dụng MLP là bộ đo xác suất phát xạ vector
quan sát. Cách tiếp cận này kết hợp ưu điểm của cả 2 mô hình.
4.3. MẠNG NƠRON TRÊN MÔI TRƯỜNG MATLAB
Mạng nơron trên Matlab được hỗ trợ bởi nhiều toolbox, chẳng hạn NNet
sẵn có của Matlab hoặc NetLab do Ian T. Nabney phát triển. Chúng tôi sử dụng
toolbox NetLab để xây dựng, huấn luyện và thử nghiệm mạng nơron MLP cho hệ
thống nhận dạng trong khoá luận này.
4.3.1. Khởi tạo mạng MLP
Lệnh khởi tạo MLP trong NetLab có cú pháp như sau:
net = mlp(inode, hnode, onode, func, anpha);
Trong đó:
• inode, hnode, onode lần lượt là số nơron của lớp vào, lớp ẩn và lớp ra.
• func là kiểu hàm kích hoạt, func có thể có các giá trị ‘logistic’,
‘softmax’…
• anpha là ngưỡng của giá trị trọng số, thường lấy bằng 0.01.
• net là mạng MLP do hàm tạo ra.
4.3.2. Huấn luyện mạng MLP
Mạng MLP sau khi điều kiện khởi tạo có thể huấn luyện với một bộ dữ liệu
huấn luyện cho trước. Lệnh huấn luyện MLP trong NetLab có cú pháp như sau:
[net, error] = mlptrain(net, x, t, its)
Trong đó:
• x, t là bộ dữ liệu huấn luyện. x là các vector đầu vào, t là các vector
đầu ra cần đạt đến (target).
• its là số vòng huấn luyện (số lần thực hiện thuật toán lan truyền ngược
lỗi).
• net là mạng nơron.
• error là tổng sai số của lần huấn luyện cuối cùng.
41
4.3.3. Sử dụng mạng MLP
Sau khi huấn luyện ta có thể dùng mạng MLP để tính đầu ra ứng với các
đầu vào bất kì. Lệnh tính đầu ra y của MLP ứng với đầu vào x như sau:
y = mlpfwd(net, x)
Trong đó:
• x là một hay nhiều vector đầu vào
• y là các vector đầu ra tương ứng.
Bạn đọc có thể tham khảo ví dụ về script và function ở mục 1.2.2. để tìm
hiểu việc sử dụng các hàm này.
42
CHƯƠNG 5. XÂY DỰNG HỆ
NHẬN DẠNG CHỮ SỐ
TIẾNG VIỆT
5.1. XÂY DỰNG HỆ THỐNG NHẬN DẠNG
5.1.1. Mô tả chung về hệ thống
Hệ thống nhận dạng được xây dựng trong khoá luận dựa trên phương
pháp nhận dạng mẫu, sử dụng mạng nơron làm cơ cấu nhận dạng.
• Phương pháp: nhận dạng từ đơn (isolate word recognition).
• Input: file wav, mỗi file chỉ chứa một từ. Hoặc ghi âm trực tiếp.
• Output: chữ số được nhận dạng trong file đầu vào.
• Bộ từ vựng: 11 từ đơn âm các chữ số tiếng Việt (“không”, “một”,
“hai”... “mười”).
5.1.2. Sơ đồ khối của hệ thống
Nguồn vào (tiếng nói)
Thu thập, tiền xử
lí (cắt từ, lọc
nhiễu...)
Trích chọn đặc
trưng MFCC
Tính đầu vào cho
mạng
Thử nghiệm
mạng DL thử nghiệm
Chia bộ dữ liệu,
phân lớp
Trích chọn đặc
trưng MFCC
Xây dựng CSDL
huấn luyện mạng
C
S
D
L
hu
ấn
lu
yệ
n
Mạng nơron
MLP
Xây dựng và
huấn luyện mạng
Truyền qua mạng
để tính xác suất
phân lớp
Chữ số được nhận dạng
Độ chính xác
D
L
hu
ấn
lu
yệ
n
Lựa chọn lớp có
xác suất cao nhất
Minh hoạ: Sơ đồ khối hệ thống nhận dạng tiếng nói các chữ số tiếng Việt bằng mạng
nơron MLP trên môi trường Matlab
Các phần tiếp theo mô tả cụ thể từng chức năng của hệ thống.
43
5.1.3. Thu thập và tiền xử lí tín hiệu tiếng nói
Thu thập và tiền xử lí tín hiệu tiếng nói ở giai đoạn huấn luyện được thực
hiện bằng phương pháp thủ công: sử dụng phần mềm ghi âm, lọc nhiễu và cắt
thành các từ riêng rẽ, mỗi từ ghi vào một file (tên file ghi từ tương ứng).
Bộ dữ liệu do chúng tôi tự xây dựng gồm:
• 536 file wav 16 bit 8kHz, mỗi file là phát âm của một từ.
• 11 từ là các chữ số tiếng Việt từ “không” đến “mười”. (Mặc dù
“mười” không phải là chữ số nhưng vẫn cần trong hệ nhận dạng chữ
số vì có các số phát âm là “mười một”, “mười hai”...).
• 5 người nói.
Ở giai đoạn nhận dạng, việc thu thập và tiền xử lí (cắt các vùng không chứa
tín hiệu tiếng nói) được thực hiện bởi các lệnh sau:
x = wavrecord(10000,8000); %tần số lấy mẫu 8kHz
x = x'; % ghi âm chừng hơn 1s
y = endcut(x, 64, 1.5E-3);
Hàm endcut dùng cắt các khoảng lặng không chứa tín hiệu âm:
function y = endcut(x, n, es)
% cat khoang lang ra khoi x.
% n là độ dài frame, es là ngưỡng năng lượng.
x = x - mean(x);
if nargin < 3
es = 2E-3;
end;
if nargin < 2
n = 128;
end;
y=[];
t=x(1:n);
e=mean(t.^2);
i=n+1;ln = length(x) - n+1;
while i<=ln
t=x(i:i+n-1);
e1=mean(t.^2);
if ~( (e1<es) | (abs(e1-e)<es) )
y = [y t];
end;
i=i+n;
end;
44
5.1.4. Phân chia bộ dữ liệu và phân lớp
Bộ dữ liệu huấn luyện có 11 từ nên chúng tôi chia toàn bộ vector đặc trưng
thành 11 lớp, mỗi vector ứng với lớp của từ tương ứng. (Từ “một” thuộc lớp 1, từ
“hai” thuộc lớp 2,... từ “không” thuộc lớp 11).
Các dữ liệu trên lại tiếp tục được chia làm 2 phần: một phần dành cho huấn
luyện và một phần để kiểm tra.
Phân chia bộ dữ liệu và phân lớp cũng được thực hiện thủ công: danh sách
các file được đưa vào Excel, thông tin về chỉ số lớp của mỗi file được đưa vào
tương ứng. Mỗi file cũng được xếp vào một trong 2 nhóm: train và test.
Nạp file Excel bằng Matlab để tạo thành 2 biến: biến file mô tả tên file, và
biến list mô tả thông tin phân lớp. Sau đó dùng các lệnh sau:
numid=list(:,1);
train=find(list(:,2)==1);
test=find(list(:,2)==0);
numid mô tả chỉ số lớp tương ứng với mỗi từ; train, test là danh sách các
từ thuộc bộ dữ liệu huấn luyện và kiểm tra.
5.1.5. Trích chọn đặc trưng MFCC
Mỗi file âm thanh được trích chọn đặc trưng MFCC thành một dãy các
vector MFCC bằng hàm wave2mfcc:
function mfcc = wave2mfcc(wav, fs, p);
if nargin < 3 % mặc định lấy vector MFCC 8pt
p = 8;
end;
if nargin < 2 % mặc định tần số lấy mẫu = 8kHz
fs = 8000;
end;
if isstr(wav) % nếu wav là tên file thì đọc
[wav fs] = wavread(wav);
end;
% chuẩn hoá để max(wav)=1.
mx = max(wav);
wav = wav ./ mx;
% tính vector MFCC p phần tử, gồm cả năng lượng
mfcc = melcepst(wav,fs,'e',p-1);
5.1.6. Tính đầu vào cho mạng
Vì các file wav có độ dài ngắn khác nhau nên dãy các vector đặc trưng
MFCC tương ứng cũng không có cùng số phần tử. Nhưng đầu vào của mạng
nơron MLP lại phải cố định. Do đó chúng tôi thực hiện một biện pháp đơn giản
45
là chia dãy đặc trưng thành 5 phần đều nhau, tính trung bình của từng phần
được 5 vector rồi ghép lại thành một vector. Kết quả đầu vào của mạng nơron là
một vector 40 thành phần.
Hàm tính đầu vào của mạng:
function x = VecAvr(ft,k);
% trích ft thành k phần chia trung bình.
n = length(ft); m = floor(n/k); x=[];
i=0;t=1;
while i<k
i=i+1;
f=sum(ft(t:t+m-1,:))./m;
x=[x f];
t=t+m;
end;
Toàn bộ dữ liệu huấn luyện được đọc vào Matlab qua hàm:
function [x,t,z]=MakeDataANN(file, train, numid, test)
N=length(train);
i=0; x=[]; t=[];
while i<N
i = i + 1; j=train(i)
str = file{j};
mfc = wave2mfcc(str); % trích MFCC từ file wav
xi = vecavr(mfc,5); % chia 5 phần
ti = zeros(1,11); ti(numid(j))=1; % tính target
x = [x; xi]; % ghép xi vào cuối của x
t = [t; ti];
end;
N=length(test);
i=0; z=[];
while i<N
i = i + 1;
str = file{test(i)};
mfc = wave2mfcc(str);
xi = vecavr(mfc,5);
z = [z; xi];
end;
Trong đó: x, z là đầu vào cho mạng của tương ứng với dữ liệu huấn luyện và
kiểm tra. t là đầu ra mong muốn (target) dành cho huấn luyện.
Đầu ra mong muốn của dữ liệu huấn luyện xác định rất đơn giản: là một
vector 11 thành phần (ứng với 11 lớp mẫu). Nếu file tương ứng trong bộ dữ liệu
huấn luyện thuộc lớp k, thì thành phần thứ k của vector bằng 1, các thành phần
còn lại bằng 0.
46
5.1.7. Xây dựng và huấn luyện và thử nghiệm mạng
Xây dựng và huấn luyện và thử nghiệm các mạng có cấu trúc khác nhau (về
số nơron ẩn, kiểu hàm kích hoạt) được tiến hành bằng script sau:
clc;
hnode=0; kq=[]; mac=0; i=0;
while hnode<150
hnode=hnode+5 % tăng hnode theo bước 5
main % thử nghiệm mạng
if mac < ac % ghi nhận mạng tốt hơn
mac = ac;
best = net;
end;
i=i+1;
netkq{i} = net; % ghi lại tất cả các mạng
end;
Trong đó script main thực hiện khởi tạo, huấn luyện và kiểm tra mạng:
net = mlp(inode, hnode, onode, func, anpha); % tạo MLP
[net err]=mlptrain(net, xtrain, target, loop); % train
ytest = mlpfwd(net, xtest); % tính đầu ra bộ test
ac = TestANN(ytest, numid(test)); % tính độ chính xác
kq =[kq; ac];
Các tham số mạng như func (kiểu hàm kích hoạt), anpha (cận khởi tạo trọng số),
loop (số vòng lặp huấn luyện) được thay đổi theo mỗi cấu trúc mạng.
Hàm TestANN dùng tính số từ được nhận dạng chính xác dựa trên đầu ra
tương ứng với đầu vào của bộ bộ dữ liệu kiểm tra.
function [ac, qt] = TestANN(yte, numid)
qt=[]; ac=0; i=0;
while i<length(yte)
i=i+1;
kc = yte(i,:);
[mi id] = max(kc); % xác định lớp xác suất cao nhất
if id == numid(i) % nếu là chỉ số lớp tương ứng
ac = ac + 1; % => nhận dạng đúng
end;
qt = [qt; i id numid(i) mi ac kc];
end;
ac = ac / length(yte); %độ chính xác=số từ đúng/tổng
5.1.8. Sử dụng mạng trong nhận dạng
Hàm ANNrecognize thực hiện nhận dạng với đầu vào cho trước:
47
function [id, xs, out] = ANNrecognize(wav,net);
mfc = wave2mfcc(wav); % trích MFCC
vec = vecavr(mfc,5); % tính đầu vào
out = mlpfwd(net,vec); % tính đầu ra của mạng
[xs id] = max(out); % đưa ra lớp cao nhất
5.1.9. Giao diện phần mềm demo
Phần mềm demo có thể nhận dạng cả trực tuyến (vừa ghi âm vừa nhận dạng) và
ngoại tuyến (nhận dạng file được ghi âm sẵn). Mỗi lần chỉ nhận dạng được một
từ. Nhìn chung nhận dạng ngoại tuyến cho kết quả cao hơn vì hàm cắt khoảng
lặng của phần mềm demo có độ chính xác chưa cao.
48
5.2. KẾT QUẢ THỬ NGHIỆM
Kết quả quá trình thử nghiệm được tổng hợp trong bảng sau:
Bảng kết quả thử nghiệm:
Bộ dữ liệu 5 người nói
Số từ dùng huấn luyện: 268
Số từ dùng kiểm tra: 268
Độ chính xác=số từ nhận dạng đúng/tổng số từ trong bộ dữ liệu kiểm tra.
hnode sig01-50 sig01-100 sig05-50 smx01-50 smx01-100 smx05-50
5 27.61% 22.02% 20.52% 35.08% 60.45% 42.54%
10 53.36% 81.34% 37.31% 88.81% 90.30% 87.69%
15 82.46% 89.18% 89.18% 94.03% 92.16% 89.93%
20 66.42% 76.87% 86.57% 95.15% 94.03% 95.52%
25 92.16% 96.64% 88.06% 95.52% 96.64% 94.78%
30 94.78% 92.91% 93.28% 97.39% 92.91% 94.78%
35 94.40% 94.78% 93.28% 95.15% 96.27% 95.52%
40 94.40% 97.02% 95.52% 98.13% 97.76% 97.02%
45 94.03% 97.39% 95.90% 95.52% 97.76% 97.76%
50 96.27% 97.02% 97.39% 97.39% 97.39% 97.76%
55 94.78% 96.64% 97.39% 98.13% 97.76% 97.76%
60 97.02% 97.76% 97.02% 98.51% 98.88% 96.64%
65 98.51% 97.39% 96.64% 97.76% 98.88% 97.76%
70 97.02% 97.02% 97.76% 97.76% 98.51% 97.76%
75 98.13% 97.39% 97.39% 98.51% 97.39% 96.64%
80 95.90% 98.51% 96.64% 98.88% 98.88% 96.64%
85 97.76% 97.02% 98.51% 98.13% 98.88% 98.88%
90 98.13% 98.51% 98.13% 98.51% 98.51% 97.76%
95 98.51% 98.88% 96.27% 97.39% 98.88% 99.25%
100 97.76% 98.88% 98.51% 98.13% 98.13% 98.13%
105 97.39% 97.76% 97.39% 98.51% 98.51% 98.13%
110 98.51% 98.51% 98.13% 98.51% 98.13% 98.51%
115 97.39% 99.25% 97.39% 97.39% 98.13% 98.13%
120 98.13% 98.13% 98.13% 98.13% 97.39% 99.25%
125 98.51% 98.51% 98.13% 98.51% 98.13% 97.76%
130 97.76% 98.51% 97.76% 97.76% 98.51% 98.51%
135 98.88% 98.51% 98.13% 98.13% 98.51% 97.76%
140 97.39% 98.13% 97.76% 98.88% 98.51% 98.51%
145 99.25% 98.88% 98.51% 97.02% 98.88% 98.13%
150 97.76% 98.13% 98.13% 97.76% 98.13% 98.51%
T.B. 91.68% 93.58% 91.69% 95.15% 96.11% 95.12%
49
Trong đó hnode là số nơron lớp ẩn, ứng với mỗi kiểu mạng như sau:
Kí hiệu Hàm kích hoạt Giá trị khởi
tạo trọng số
Số vòng lặp
huấn luyện
sig01-50 sigmoid (logistic) 0.1 50
sig01-100 sigmoid (logistic) 0.1 100
sig05-50 sigmoid (logistic) 0.5 50
smx01-50 softmax 0.1 50
smx01-100 softmax 0.1 100
smx05-50 softmax 0.5 50
Biểu đồ sau thể hiện kết quả nhận dạng theo số nơron lớp ẩn trong 2 kiểu mạng
cho kết quả cao nhất.
75%
80%
85%
90%
95%
100%
5 15 25 35 45 55 65 75 85 95 105 115 125 135 145
sig01-100 smx05-50
Từ kết quả thử nghiệm, chúng tôi rút ra một số kết luận sau:
1. Phương pháp nhận dạng bằng mạng nơron cho kết quả nhận dạng
cao nhất là 99.25% trên bộ dữ liệu do chúng tôi tự xây dựng. Như
vậy có thể sử dụng mạng nơron làm một cơ cấu nhận dạng hiệu quả, ít
nhất là đối với hệ thống nhận dạng chữ số.
2. Mạng sẽ cho kết quả nhận dạng cao nếu xây dựng hợp lí. Không
hẳn cứ nhiều nơron lớp ẩn, cứ huấn luyện nhiều là mạng có độ chính
xác cao hơn. (Mặc dù điều đó làm giảm sai số huấn luyện của mạng).
Vấn đề sai số huấn luyện thấp, sai số kiểm tra cao xảy ra khi độ tương
50
tự giữa bộ dữ liệu huấn luyện và bộ dữ liệu kiểm tra không lớn. Khi đó
mạng nhận dạng rất chính xác trên bộ dữ liệu huấn luyện nhưng kém
chính xác hơn nhiều trên bộ dữ liệu kiểm tra.
3. Hàm kích hoạt softmax hiệu quả hơn hàm sigmoid. (Kết quả nhận
dạng trung bình cao hơn, số nơron ẩn cần dùng thấp hơn khi cho kết
quả nhận dạng cao nhất).
4. Môi trường Matlab có thể giúp công việc nghiên cứu nhận dạng
tiếng nói đơn giản và hiệu quả hơn. Nhờ có Matlab và các bộ công
cụ VoiceBox, NetLab mà việc phát triển hệ thống nhận dạng khá đơn
giản và nhanh chóng (ví dụ: mã chương trình dùng rất ít lệnh, nhiều
phần không cần lập trình).
Những kết luận trên cho thấy khả năng sử dụng mạng nơron và môi trường
Matlab trong nhận dạng tiếng nói có nhiều hứa hẹn. Tuy nhiên để đạt được điều
đó thì phải xây dựng một bộ dữ liệu chuẩn và có chiến lược xây dựng, huấn
luyện, thử nghiệm mạng hợp lí.
5.3. HƯỚNG MỞ RỘNG CỦA ĐỀ TÀI
5.3.1. Xây dựng bộ dữ liệu huấn luyện lớn hơn
Như ta đã thấy, bộ dữ liệu là thành phần cực kì quan trọng đối với hệ nhận
dạng. Hiện tại bộ dữ liệu chúng tôi đã xây dựng (182 file, 11 từ, 2 người) là còn
quá khiêm tốn. Để có thể có những kết quả nghiên cứu tốt hơn, chúng tôi sẽ mở
rộng bộ dữ liệu: tăng số người nói và số từ, đa dạng hoá môi trường ghi âm.
3.3.2. Xây dựng phần mềm nhận dạng dựa trên kết quả
nghiên cứu
Hệ thống nhận dạng hiện tại của chúng tôi hiện chỉ được thử nghiệm trên
môi trường Matlab, mới có khả năng nhận dạng một file ghi âm sẵn của một từ
(nhận dạng từ đơn, ngoại tuyến). Trong khi đó để hệ nhận dạng có thể ứng dụng
được thì hệ phải hoạt động ở dạng trực tiếp và liên tục (tức là vừa ghi âm vừa
nhận dạng, nhận dạng nhiều chữ số một lúc, chạy như một chương trình hệ
thống). Mục tiêu của chúng tôi là sau khi thử nghiệm hệ thống cho kết quả cao sẽ
xây dựng một bộ công cụ nhận dạng tiếng nói và các phần mềm ứng dụng, vì đó
mới là mục đích của nghiên cứu nhận dạng tiếng nói.
5.3.3. Nghiên cứu các phương pháp xác định đặc trưng khác
51
Ở nghiên cứu này, việc tách đặc trưng của tín hiệu tiếng nói còn rất đơn
giản (chia frame, tính MFCC, chia 5 phần lấy trung bình cộng). Để nâng cao kết
quả nhận dạng cần tìm những đặc trưng ổn định hơn của tiếng nói và những
phương pháp tách đặc trưng hiệu quả hơn.
5.3.4. Nghiên cứu các phương pháp nhận dạng khác
Các nghiên cứu khác ([1,9,10]) cho thấy hiện tại mô hình Markov ẩn
(HMM) đang cho kết quả nhận dạng cao nhất. Hướng nghiên cứu mới của đề tài
là tìm cách kết hợp mạng nơron và mô hình Markov ẩn nhằm kết hợp ưu điểm
của hai mô hình.
Mặt khác, đối với bộ từ vựng nhỏ thì nhận dạng từ đơn (âm tiết) là thích
hợp. Tuy nhiên với hệ nhận dạng cỡ lớn, nhất là hệ nhận dạng tiếng Việt hoàn
chỉnh (6 nghìn âm tiết ) thì chọn đơn vị nhận dạng là âm tiết không hợp lí lắm.
Một hướng nghiên cứu khác của đề tài là nhận dạng đối với đơn vị nhỏ hơn âm
tiết là âm vị. Tức là xây dựng các hệ nhận dạng có chức năng:
• Phân biệt được nhiễu nền (khoảng lặng), phụ âm, nguyên âm.
• Nhận dạng phụ âm (phân biệt được các phụ âm khác nhau).
• Nhận dạng nguyên âm (phân biệt được các nguyên âm khác nhau).
• Nhận dạng thanh điệu của âm tiết.
52
PHỤ LỤC 1. DANH MỤC TÀI LIỆU THAM KHẢO
Kí hiệu Tác giả Tên tài liệu Ghi chú
[1] Đặng Ngọc Đức Mạng nơron và mô hình
Markov ẩn trong nhận dạng
tiếng Việt
Luận án tiến sĩ
[2] Nguyễn Hữu Tình,
Lê Tấn Hùng, Phạm
Ngọc Yến, Nguyễn
Thị Lan Hương
Cơ sở Matlab và ứng dụng Sách NXB KHKT
-1999
[3] Đoàn Thiện Thuật Ngữ âm tiếng Việt Sách NXB ĐHQG
Hà Nội - 2003
[4] Nguyễn Thanh Thuỷ Nhập môn xử lý ảnh số Sách NXBKHKT
[5] Alpay Koç Acoustic feature analysis for
robust speech recognition
[6] John-Paul Hosom,
Ron Cole
A diphone-based digit
recognition system using neural
networks
du/cslu
[7] John-Paul Hosom,
Ron Cole, Mark
Fanty, Don Colton
Speech Recognition Using
Neural Networks
Webpage tại
du/cslu
[8] Mehdi R. Zargham Computer Architecture
[9] Rabiner L.R A Tutorial on Hidden Markov
Models and Selected
Applications in Speech
Recognition
Proceedings of
IEEE, VOL.77,
NO.2, FEB 1989
[10] Rabiner L.R, Huang
B. H
Fundamentals of Speech
Recognition
Sách NXB
Prentice Hall -
1993
[11] Simon Haykin Neural Networks - A
comprehensive foundation
Sách NXB
Prentice Hall -
1998
[12] V.Mantha,
R.Duncan, Y.Wu,
J.Zhao
Implementation and analysis of
speech recognition front-ends
ECE4773/Digital
Signal Processing -
1998
[13] Joe Tebelskis
Speech Recognition using
Neural Networks
CMU-CS-95-142
53
PHỤ LỤC 2. BẢNG CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT
Thuật ngữ Từ viết tắt Ý nghĩa
Artifactial Neural Network ANN Mạng nơron nhân tạo
Fast Fourier Transform FFT Biến đổi Fourier nhanh
Dicrette Cosine Transform DCT Biến đổi cosin rời rạc.
Hidden Markov Model HMM Mô hình Markov ẩn
Linear predictive code LPC Hế số dự đoán tuyến tính
Mel-scale Frequency
Cepstral Coefficient
MFCC Hệ số cepstral độ đo mel
Multi Layer Perceptron MLP Mạng perceptron truyền thẳng nhiều lớp
Speech Recognition SR,ASR Nhận dạng tiếng nói
Bias Ngưỡng kích hoạt
Pattern Recognition Nhận dạng mẫu
Likelihood Mức độ giống
Similarity Mức độ tương tự
Feature Đặc trưng
Spectral, spectrum Phổ tín hiệu
Các file đính kèm theo tài liệu này:
- Tìm hiểu một số phương pháp nhận dạng tiếng nói và xây dựng hệ nhận dạng tiếng nói các chữ số tiếng Việt bằng mạng nơron trên môi trường Matlab.pdf