Đại học Kĩ thuật Công nghiệp [IMG]http://www.**************/images/smalledit.gif[/IMG] [IMG]http://www.**************/images/node-n.gif[/IMG] Sơ lược:
1. Giới thiệu về âm thanh, tiếng nói và đặc điểm
1.1 Đặc điểm vật lý của âm thanh
1.2 Đặc điểm âm học của âm thanh , tiếng nói
1.3 Phân loại đơn giản dạng sóng tiếng nói
2. Các đặc trưng của tín hiệu tiếng nói.
2.1. Dạng sóng tín hiệu tiếng nói.
2.2. Phân bố biên độ không đồng đều.
2.3. Tương quan giữa các phần tử rời rạc.
2.4. Tính tuần hoàn của tín hiệu tiếng nói.
2.5. Tính không hữu hiệu của tín hiệu tiếng nói.
2.6. Phổ trung bình của tín hiệu tiếng nói.
2.7. Phổ thức thời của tín hiệu tiếng nói.
3. Kênh thoại và các phương pháp mã hoá tiếng nói.
4. Thông tin bằng tiếng nói.
4.1. Mô hình quá trình tạo tiếng nói
4.2. Mô hình hóa bộ máy phát thanh của con người
4.3. Mô hình tổng quát của mã hoá tiếng nói theo phương pháp phân tích bằng tổng hợp.
4.4. Nguyên lý chung của bộ mã hoá CELP( Code Excited Linear Prediction)
5. Kết luận
26 trang |
Chia sẻ: lvcdongnoi | Lượt xem: 3545 | Lượt tải: 2
Bạn đang xem trước 20 trang tài liệu Kĩ thuật mã hoá tiếng nói dự đoán tuyến tính phân tích nhờ tổng hợp, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Kĩ thuật mã hoá tiếng nói dự đoán tuyến tính phân tích nhờ tổng hợp
Cao Tiến Việt _ Lớp K40ĐVT _ Khoa Điện Tử _ Trường Đại học KTCN
1
Lêi nãi ®Çu
MÆc dï víi sù ph¸t triÓn cña c«ng nghÖ truyÒn th«ng qua c¸p quang lµm cho
b¨ng th«ng kh«ng cßn lµ vÊn ®Ò lín trong gi¸ thµnh cña c¸c cuéc gäi truyÒn
thèng . Tuy nhiªn , b¨ng th«ng trong c¸c cuéc gäi ®−êng dµi , c¸c cuéc gäi quèc
tÕ , c¸c cuéc gäi qua vÖ tinh hay c¸c cuéc gäi di ®éng thi cÇn ph¶i duy tr× b¨ng
th«ng ë mét møc nhÊt ®Þnh . V× vËy viÖc m· ho¸ tiÕng nãi lµ rÊt cÇn thiÕt , gióp
gi¶m thiÓu sè l−îng tÝn hiÖu cÇn truyÒn trªn ®−êng truyÒn nh−ng vÉn ®¶m b¶o
chÊt l−îng cuéc gäi .
V× vËy , môc ®Ých cña ®Ò tµi lµ nghiªn cøu mét trong c¸c kÜ thuËt m· ho¸
tiÕng nãi hiÖn ®ang ®−îc sö dông chñ yÕu lµ kÜ thuËt m· ho¸ tiÕng nãi dù ®o¸n
tuyÕn tÝnh ph©n tÝch nhê tæng hîp .
Sau mét thêi gian ®−îc sù h−íng dÉn tËn t×nh cña c«: §oµn Thanh H¶i bé
m«n §iÖn tö ViÔn th«ng, ®ång thêi vËn dông nh÷ng kiÕn thøc ®· häc ë líp ,
th«ng qua b¹n bÌ vµ tµi liÖu tham kh¶o ®Õn nay ®Ò tµi nµy ®· hoµn thµnh.
Do vÊn ®Ò nghiªn cøu cßn réng vµ b¶n th©n cßn nhiÒu h¹n chÕ nªn trong ®Ò
tµi kh«ng tr¸nh khái nh÷ng thiÕu sãt hoÆc thiÕu chÝnh x¸c. RÊt mong nhËn ®−îc
sù ®ãng gãp cña c¸c thÇy gi¸o, c« gi¸o vµ c¸c b¹n ®Ó ®Ò tµi thùc sù cã chÊt l−îng
h¬n.
Chóng em rÊt c¶m ¬n tíi c«: §oµn Thanh H¶i bé m«n §iÖn tö viÔn th«ng,
®· gi¶ng d¹y vµ h−íng dÉn chóng em hoµn thµnh ®Ò tµi nµy.
Sinh viªn thùc hiÖn
Cao TiÕn ViÖt
Kĩ thuật mã hoá tiếng nói dự đoán tuyến tính phân tích nhờ tổng hợp
Cao Tiến Việt _ Lớp K40ĐVT _ Khoa Điện Tử _ Trường Đại học KTCN
2
Nội dung
1. Giới thiệu về âm thanh, tiếng nói và đặc điểm
1.1 Đặc điểm vật lý của âm thanh
1.2 Đặc điểm âm học của âm thanh , tiếng nói
1.3 Phân loại đơn giản dạng sóng tiếng nói
2. Các ®Æc trưng của tín hiệu tiếng nói.
2.1. Dạng sóng tín hiệu tiếng nói.
2.2. Phân bố biên độ không đồng đều.
2.3. Tương quan giữa các phần tử rời rạc.
2.4. Tính tuần hoàn của tín hiệu tiếng nói.
2.5. Tính không hữu hiệu của tín hiệu tiếng nói.
2.6. Phổ trung bình của tín hiệu tiếng nói.
2.7. Phổ thức thời của tín hiệu tiếng nói.
3. Kênh thoại và các phương pháp mã hoá tiếng nói.
4. Thông tin bằng tiếng nói.
4.1. Mô hình quá trình tạo tiếng nói
4.2. Mô hình hóa bộ máy phát thanh của con người
4.3. Mô hình tổng quát của mã hoá tiếng nói theo phương pháp phân
tích bằng tổng hợp.
4.4. Nguyên lý chung của bộ mã hoá CELP( Code Excited Linear
Prediction)
5. Kết luận
Kĩ thuật mã hoá tiếng nói dự đoán tuyến tính phân tích nhờ tổng hợp
Cao Tiến Việt _ Lớp K40ĐVT _ Khoa Điện Tử _ Trường Đại học KTCN
3
1. Giới thiệu về âm thanh, tiếng nói và đặc điểm
1.1.1 Đặc điểm vật lý của âm thanh
Bản chất âm thanh tiếng nói là sóng cơ học nên nó có các tính chất cơ bản
của sóng cơ học.
nhËn d¹ng tiÕng nãiS¶n xuÊt tiÕng nãi
T¹o th«ng ®iÖp
M· ng«n ng÷
C¸c lÖnh thÇn
kinh vËn ®éng
èng dÉn
©m
D©y
thanh
HiÓu th«ng ®iÖp
M· ng«n ng÷
Qóa tr×nh thÇn kinh
Tai
trongsãng ©m
thanh
Ng−êi nãi ng−êi nghe
Hình 1.1 Sơ đồ biểu diễn quá trình sản xuất và thu nhận tiếng nói của con
người
Hình 1.1 đưa ra một sơ đồ khối của quá trình sản xuất tiếng nói/nhận thức
tiếng nói của con người. Quá trình sản xuất tiếng nói bắt đầu khi người nói tạo ra
một thông điệp (trong ý nghĩ của anh ta) và muốn chuyển tải nó cho người nghe
thông qua tiếng nói. Tổ chức thần kinh tương ứng chịu trách nhiệm tạo ra thông
điệp dưới dạng văn bản biểu diễn các từ của thông điệp. Bước tiếp theo của quá
trình là chuyển đổi thông điệp sang dạng một mã ngôn ngữ. Điều này gần như
tương đương với việc chuyển đổi các biểu diễn văn bản của thông điệp thành
một chuỗi các âm vị tương ứng với những âm thanh tạo nên các từ; đồng thời
với việc ghi nhận âm điệu nhằm xác định sự kéo dài, sự nhấn mạnh, và trọng âm
cao thấp của âm thanh. Khi một mã ngôn ngữ đã được lựa chọn, người nói phải
thực hiện một loạt các lệnh thần kinh vận động để làm cho các dây thanh dao
động, đồng thời cấu trúc hình dạng ống dẫn âm nhằm phát ra một chuỗi các âm
Kĩ thuật mã hoá tiếng nói dự đoán tuyến tính phân tích nhờ tổng hợp
Cao Tiến Việt _ Lớp K40ĐVT _ Khoa Điện Tử _ Trường Đại học KTCN
4
thanh. Như vậy, đầu ra cuối cùng của quá trình là một tín hiệu âm học. Các lệnh
thần kinh vận động phải điều khiển một cách đồng bộ tất cả các khâu vận động
như sự hoạt động của môi, hàm, lưỡi...
Khi tín hiệu tiếng nói đã được sinh ra và được truyền cho người nghe, quá
trình thu nhận tiếng nói bắt đầu. Đầu tiên, người nghe xử lý tín hiệu âm thanh
thông qua màng nền của tai trong; nó có khả năng cung cấp một phân tích phổ
cho tín hiệu tới. Một quá trình xử lý thần kinh chuyển đổi tín hiệu phổ tại đầu ra
của màng nền thành các tín hiệu hoạt động đối với thần kinh thính giác; có thể
coi đây như một quá trình lấy ra các đặc trưng. Bằng một phương pháp đặc biệt
(chưa được hiểu một cách thấu đáo), các tín hiệu hoạt động đi qua hệ thần kinh
thính giác được chuyển đổi thành một mã ngôn ngữ cho những trung tâm xử lý
cao cấp hơn bên trong bộ não; và cuối cùng là việc hiểu được nội dung thông
điệp.
Qua đó ta thấy tín hiệu âm thanh tiếng nói là tín hiệu ngẫu nhiên không
dừng, tuy nhiên những đặc tính của nó là tương đối ổn định khi xét trong một
khoảng thời gian ngắn(vài chục mili giây). Trong khoảng thời gian đó tín hiệu
gần như tuần hoàn. Âm thanh tiếng nói con người có các đặc tính vật lý sau đây:
• Độ cao(Pitch)
Độ cao hay độ trầm bổng của âm thanh chính là tần số của sóng cơ học
của âm thanh. Âm thanh nào cũng phát ra ở một độ cao nhất định. Độ cao của
âm thanh phụ thuộc vào tần số dao động. Đối với tiếng nói, tần số dao động của
dây thanh quy định độ cao giọng nói của con người. Mỗi người có một độ cao
giọng nói khác nhau, độ cao của nữ giới thường cao hơn nam giới và độ cao của
trẻ em thường cao hơn của người lớn.
• Cường độ
Cường độ chính là độ to nhỏ của âm thanh. Cường độ càng lớn thì âm
thanh có thể truyền đi được càng xa. Xét trên phương diện sóng cơ học thì cường
Kĩ thuật mã hoá tiếng nói dự đoán tuyến tính phân tích nhờ tổng hợp
Cao Tiến Việt _ Lớp K40ĐVT _ Khoa Điện Tử _ Trường Đại học KTCN
5
độ chính là biên độ của dao động sóng âm, nó quyết định năng lượng của sóng
âm.
Trong tiếng nói cường độ của nguyên âm phát ra thường lớn hơn của phụ
âm. Do vậy chúng ta thường dễ phát hiện ra nguyên âm hơn là phụ âm.
Đối với tai người, giá trị tuyệt đối của cường độ âm I thường không quan
trọng mà người ta quan tâm giá trị tỷ số của I so với một giá trị chuẩn I0 nào đó,
đó chính là mức cường độ âm và được tính như sau:
L(B) = lg(I/I0)
• Trường độ
Trường độ hay độ dài của âm phụ thuộc vào sự chấn động lâu hay nhanh
của các phần tử không khí. Cùng một âm nhưng trong các từ khác nhau thì độ
dài khác nhau.
• Âm sắc
Âm sắc là bản sắc, sắc thái riêng của âm. Cùng một nội dung, độ cao
nhưng khi nói mỗi người có một âm vị khác nhau.
1.1.2 Đặc tính âm học của âm thanh, tiếng nói
Tín hiệu tiếng nói là tín hiệu tương tự, biểu diễn cho thông tin về mặt
ngôn ngữ và được thể hiện bằng các âm vị khác nhau. Số lượng các âm vị tuỳ
thuộc vào từng ngôn ngữ, vào khoảng 20 đến 30 và không vượt quá 50. Đối với
từng loại âm vị nó có đặc tính âm thanh khác nhau. Các âm vị được chia thành
hai loại là nguyên âm và phụ âm.
Tổ hợp các âm vị tạo nên âm tiết. Âm tiết đóng vai trò một từ chọn vẹn
mang ngữ nghĩa.
• Nguyên âm
Các nguyên âm có thể được coi là lớp thú vị nhất trong các lớp âm thanh
tiếng nói, đặc biệt đối với Tiếng Anh. Tầm quan trọng của chúng trong lĩnh vực
nhận dạng tiếng nói là rất lớn; hầu hết các hệ thống nhận dạng dựa trên cơ sở
nhận dạng nguyên âm đều có tính năng tốt.
Kĩ thuật mã hoá tiếng nói dự đoán tuyến tính phân tích nhờ tổng hợp
Cao Tiến Việt _ Lớp K40ĐVT _ Khoa Điện Tử _ Trường Đại học KTCN
6
Trong khi nói, nguyên âm được tạo ra bằng cách kích thích một ống dẫn
âm thanh có hình dạng cố định bằng các xung áp lực khí giả tuần hoàn do sự
rung động của dây thanh sinh ra. Hình dạng của từng vùng cục bộ dọc theo ống
dẫn âm xác định các tần số cộng hưởng (các formants) và âm thanh sẽ được tạo
ra. Việc tạo ra nguyên âm cụ thể nào là được quyết định bởi vị trí của lưỡi, hàm,
môi... Các nguyên âm nói chung là có thời gian tồn tại dài (so với các phụ âm)
và dễ xác định phổ. Chính vì thế mà sẽ dễ dàng cho việc nhận dạng, cả đối với
con người và máy móc.
Có một số cách biểu diễn đặc trưng nguyên âm, bao gồm cấu hình khoang
miệng, các đồ thị dạng sóng tín hiệu và các đồ thị phổ. ở đây chúng ta chỉ quan
tâm tới dạng biểu diễn đồ thị phổ. Về mặt lý thuyết, các cực đại của biểu diễn
phổ của tín hiệu nguyên âm chính là các tần số cộng hưởng (formants) tạo nên
nguyên âm. Giá trị của các các formant đầu tiên (2 hoặc 3 formants đầu tiên) là
yếu tố quyết định cho phép chúng ta nhận dạng được nguyên âm. Do nhiều yếu
tố biến thiên như sự khác nhau về giới tính, về độ tuổi, tình trạng tinh thần của
người nói và nhiều yếu tố ngoại cảnh khác, đối với một nguyên âm xác định các
giá trị formant cũng có một sự biến thiên nhất định. Tuy nhiên sự khác biệt về
giá trị các fornants giữa các nguyên âm khác nhau lớn hơn nhiều; và trong không
gian formant chúng ta có thể xác định một cách tương đối các vùng riêng biệt
cho từng nguyên âm. Hình 1.2 minh họa một đồ thị kinh điển của các giá trị
formant đầu tiên và thứ hai của 10 nguyên âm cùng với sự phân vùng cho các
nguyên âm. ở đây chúng ta cũng thấy có những sự nhập nhằng trong phát âm thể
hiện ở một số chỗ chồng chéo lên nhau giữa các vùng.
Kĩ thuật mã hoá tiếng nói dự đoán tuyến tính phân tích nhờ tổng hợp
Cao Tiến Việt _ Lớp K40ĐVT _ Khoa Điện Tử _ Trường Đại học KTCN
7
i I ε
ae
ε
Λ
a
c
u
U
0 200 400 600 800 1000 1200 1400
1000
1500
2000
2500
3000
3500
4000
F1(Hz)
F
2(
H
Z
)
Hình 1.2 Đồ thị theo các formant F1, F2 cho 10 nguyên âm
được thực hiện với nhiều đối tượng người nói khác nhau
• Phụ âm
Phụ âm được tạo ra bởi các dòng khí hỗn loạn được phát ra gần những
điểm co thắt của đường dẫn âm thanh do cách phát âm tạo thành. Dòng không
khí tại chỗ đóng của vòm miệng tạo ra phụ âm bật. Những phụ ân xát được tạo
ra từ chỗ co thắt lớn nhất và các âm tắc xát được tạo ra từ khoảng giữa. Phụ âm
có đặc tính hữu thanh và vô thanh tuỳ thuộc vào dây thanh có dao động để trở
thành cộng hưởng hay không. Đặc tính của phụ âm tuỳ thuộc vào tính chu kỳ
của dạng sóng, phổ tần số, thời gian tồn tại và sự chuyển dẫn âm.
• Tỷ suất thời gian
Trong khi nói chuyện, các khoảng nói chuyện và khoảng nghỉ xen kẽ
nhau. Phần trăm thời gian nói trên tổng thời gian nói và nghỉ được gọi là tỷ suất
thời gian. Giá trị này biến đổi tuỳ thuộc vào tốc độ nói và từ đó ta có thể phân
loại thành nói nhanh, nói chậm hay trung bình.
• Hàm năng lượng thời gian ngắn
Hàm năng lượng thời gian ngắn được tính bằng cách chia tín hiệu tiếng
nói thành nhiều khung có chứa N mẫu và tính diện tích trung bình của tổng các
Kĩ thuật mã hoá tiếng nói dự đoán tuyến tính phân tích nhờ tổng hợp
Cao Tiến Việt _ Lớp K40ĐVT _ Khoa Điện Tử _ Trường Đại học KTCN
8
mẫu tín hiệu trong mỗi khung. Các khung này được đưa qua một cửa sổ có dạng
như sau:
⎪⎪⎩
⎪⎪⎨
⎧
≠
≤≤=
n
NnnW
nW
0
0)(
)(
Thông thường có ba dạng cửa sổ được sử dụng, đó là cửa sổ chữ nhật, cửa
sổ Hanning và Hamming.
Hàm năng lượng thời gian ngắn được tính như sau:
{ }∑−
=
+=
1
0
2)(*)(
N
n
m nWmnxE
Hàm năng lượng thời gian ngắn cho âm hữu thanh thường lớn hơn âm vô
thanh.
• Tần số vượt điểm không
Tần xuất vượt qua điểm không là số lần biên độ tín hiệu tiếng nói vượt
qua giá trị không trong một khoảng thời gian cho trước. Thông thường giá trị
này đối với âm vô thanh lớn hơn âm hữu thanh do đặc tính ngẫu nhiên của âm
vô thanh. Do đó tần suất vượt qua điểm không là tham số quan trọng để phân
loại âm vô thanh và âm hữu thanh.
• Phát hiện điểm cuối
Trong sử lý tín hiệu tiếng nói, việc xác định khi nào bắt đầu và kết thúc
quá trình nói là một công việc hết sức quan trọng. Trong một môi trường có
nhiều tiếng ồn và môi trường có nhiều người nói thì việc phát hiện điểm cuối là
hết sức khó khăn. Đã có một số phương pháp để phát hiện điểm cuối của tiếng
nói.
• Tần số cơ bản
Dạng sóng của tiếng nói bao gồm hai phần: Phần giống nhiễu trong đó
biên độ thay đổi ngẫu nhiên và phần tuần hoàn. Phần tín hiệu có tính chất chu kỳ
Kĩ thuật mã hoá tiếng nói dự đoán tuyến tính phân tích nhờ tổng hợp
Cao Tiến Việt _ Lớp K40ĐVT _ Khoa Điện Tử _ Trường Đại học KTCN
9
có chứa các thành phần tần số có dạng điều hoà. Tần số thấp nhất là tần số cơ
bản và chính là tần số dao động của dây thanh. Đối với những người nói khác
nhau thì tần số cơ bản cũng khác nhau và tần số cơ bản của trẻ em thường cao
hơn của người lớn và của nữ giới thì cao hơn của nam giới.
Bảng 1: Một số giá trị của tần số cơ bản ứng với giới tính và tuổi
Người nói Giá trị tần số cơ bản
Nam 80-200
Nữ 150-450
Trẻ em 200-600
Đối với hai âm có cùng cường độ, cùng độ cao sẽ được phân biệt bởi tính
tuần hoàn. Một âm hữu thanh có tín hiệu gần như tuần hoàn, khi được phân tích
phổ sẽ xuất hiện một vạch tại vùng tần số rất thấp. Vạch này đặc trưng cho tính
tuần hoàn cơ bản hay đó chính là tần số cơ bản của âm. trong khi giao tiếp bình
thường tần số cơ bản thay đổi liên tục tạo nên ngữ điệu cho tiếng nói.
• Formant
Trong phổ tần số của tín hiệu tiếng nói, mỗi đỉnh có biên dộ cao nhất xét
trong một khoảng nào đó(còn được gọi là cực trị địa phương) xác định một
formant. Ngoài tần số, formant còn được xác định bởi biên độ và dải thông của
chúng. Về mặt vật lý, các tần số formant tương ứng với các tần số cộng hưởng
của tuyến âm. trong xử lý tiếng nói, để mô phỏng lại tuyến âm người ta phải xác
định được tham số formant đối với từng loại âm vị. Do đó việc đánh giá và ước
tính formant là rất quan trọng.
Tần số formant biến đổi trong một khoảng rộng phụ thuộc vào giới tính
của người nói và phụ thuộc vào âm vị tương ứng với formant đó. Đồng thời
formant còn phụ thuộc vào âm vị trước và sau đó. Về cấu trúc tự nhiên, tần số
formant có liên hệ chặt chẽ với hình dạng và kích thước của tuyến âm , thông
thường trong phổ tần số của tín hiệu có khoảng 6 formant, nhưng chỉ có 3
Kĩ thuật mã hoá tiếng nói dự đoán tuyến tính phân tích nhờ tổng hợp
Cao Tiến Việt _ Lớp K40ĐVT _ Khoa Điện Tử _ Trường Đại học KTCN
10
formant đầu tiên là ảnh hưởng quan trọng đến đặc tính âm vị. Các formant có giá
trị trong khoảng từ vài trăm đến vài nghìn Hz.
Tần số formant đặc trưng cho các nguyên âm biến đổi tuỳ thuộc vào người
nói trong điều kiện phát âm nhất định. Mặc dù phạm vi của các tần số formant
tương ứng với mỗi nguyên âm có thể trùng lên nhau, nhưng vị trí giữa formant là
không đổi và sự xê dịch các formant là song song.
Ngoài formant, các âm mũi còn có các tần số bị suy giảm gọi là phản
formant (anti-formant). Phản formant được tạo nên khi luồng khí đi qua khoang
mũi. Các formant tương ứng với các điểm cực của hàm truyền đạt vì tại lân cận
các điểm cực trị giá trị của hàm truyền đạt là rất lớn, tương tự các phản formant
tương ứng với các điểm không của hàm truyền đạt.
1.1.3 Phân loại đơn giản dạng sóng tiếng nói
Tiếng nói của con người tạo ra bao gồm hai thành phần:
• Phần gần tuần hoàn mà hầu như lặp lại cùng chu kỳ được gọi là tiếng
nói hữu thanh. Chu kỳ lặp lại đó gọi là chu kỳ cơ bản T0, nghịch đảo của T0
chính là F0. Âm hữu thanh được phát ra bởi một luồng khí cực mạnh từ thanh
môn thổi qua dây thanh làn rung dây thanh, sự dao động của dây thanh tạo nên
nguồn tuần hoàn. Nguồn tuần hoàn kích thích tuyến âm tạo nên âm hữu thanh.
Vùng âm hữu thanh chiếm thành phần chủ yếu của sóng tiếng nói, chứa đựng
lượng tin nhiều nhất và thời gian lớn nhất trong quá trình nói.
Phần tín hiệu có dạng gần giống như tạp âm nhiễu có biên độ ngẫu nhiên
gọi là âm vô thanh. Tiếng nói vô thanh được tạo ra do sự co thắt theo một dạng
nào đó của tuyến âm và luồng khí chạy qua chỗ thắt với tốc độ lớn tạo nên nhiễu
loạn, ví dụ như khi ta nói thì thào. Năng lượng của nguồn nhiễu loạn tạo nên sẽ
kích thích tuyến âm tạo nên âm vô thanh, năng lượng của tiếng nói vô thanh nhỏ
hơn so với năng lượng của tiếng nói hữu thanh. Ta có thể phát hiện ra tiếng nói
hữu thanh là khi dây thanh rung còn âm vô thanh khi nói dây thanh không rung.
Khi nói thì thào thì ở xa không nghe thấy được vì đó là âm vô thanh.
Kĩ thuật mã hoá tiếng nói dự đoán tuyến tính phân tích nhờ tổng hợp
Cao Tiến Việt _ Lớp K40ĐVT _ Khoa Điện Tử _ Trường Đại học KTCN
11
2 Các Đặc trưng của tín hiệu tiếng nói.
2.1 Dạng sóng tín hiệu tiếng nói.
Tín hiệu có được từ đầu ra của micro (áp suất sóng âm → micro → tín
hiệu điện).
Hình 1.3: Dạng sóng tín hiệu tiếng nói
Biên độ phụ âm nhỏ hơn nhiều so với biên độ nguyên âm, phần nguyên
âm biểu diễn tín hiệu tuần hoàn.
5.1. Phân bố biên độ không đồng đều.
Mật độ xác suất của tín hiệu nói như hình sau:
Hình 1.4: Mật độ xác suất của tín hiệu tiếng nói.
Biên độ bé thì xác suất càng lớn và ngược lại. Qui luật giảm xác suất theo
biên độ không phải là hàm tuyến tính.
5.2. Tương quan giữa các phần tử rời rạc.
Hệ số tương quan cao cỡ 0,85. Thực tế nếu lấy mẫu tín hiệu tiếng nói với
tần số 8KHz thì còn có sự tương quan đáng kể giữa các mẫu cạnh nhau, hiển
nhiên là với tần số lấy mẫu càng lớn thì sự tương quan giữa các phần tử cạnh
nhau càng tăng.
Kĩ thuật mã hoá tiếng nói dự đoán tuyến tính phân tích nhờ tổng hợp
Cao Tiến Việt _ Lớp K40ĐVT _ Khoa Điện Tử _ Trường Đại học KTCN
12
5.3. Tính tuần hoàn của tín hiệu tiếng nói.
Tiếng nói có thể được tạo nên từ dao động của một vài tần số trong phạm
vi tần gọi là tần số cơ bản, như vậy có sự liên quan của tín hiệu và các tần số cơ
bản. Tính chất tuần hoàn của các nguyên âm và các phụ âm hữu thanh được thể
hiện trên hình 1.5.
Hình 1.5: Tín hiệu của nguyên âm hoặc phụ âm hữu thanh.
2.5. Chu kỳ của âm cơ bản.
Theo mô hình tạo tiếng nói con người thường thuộc về một trong hai loại.
Loại thứ nhất là các âm được tạo ra do kết quả rung của dây thanh. Mỗi lần rung
dòng không khí được phóng ra từ phổi vào tuyến âm, khoảng thời gian giữa hai
lần các luồng không khí đi qua kích thích tuyến phát âm gọi là chu kỳ âm cơ
bản. Những âm thanh như vậy được hình thành khi phát âm các nguyên âm và
các phụ âm hữu thanh. Tín hiệu của các âm thanh như vậy được biểu diễn trên
hình 1.5.
Loại thứ hai là các phụ âm vô thanh. Các phụ âm vô thanh được hình
thành khi không khí liên tục từ phổi đi qua tuyến âm. Tuyến này bị co hẹp lại
vào thời điểm nào đó để tạo ra sự cuộn xoáy của không khí. Các phụ âm không
kêu thuộc một số các phụ âm như f.s. Thí dụ một số phụ âm không kêu được thể
hiện trên hình 1.6. Lưu ý rằng, các phụ âm vô thanh giống với tín hiệu ngẫu
nhiên hơn nhiều so với nguyên âm hoặc phụ âm hữu thanh.
Kĩ thuật mã hoá tiếng nói dự đoán tuyến tính phân tích nhờ tổng hợp
Cao Tiến Việt _ Lớp K40ĐVT _ Khoa Điện Tử _ Trường Đại học KTCN
13
Hình 1.6: Tín hiệu của âm không kêu.
Trên các nguyên âm hoặc các phụ âm hữu thanh không chỉ thấy rõ độ dư
thừa liên quan đến tính tuần hoàn trong tín hiệu được nói tới ở mục 4, mà còn
thấy cả tính chu kỳ dài hơn liên quan đến âm cơ bản.Các chu kỳ âm cơ bản
thường chiếm từ 5ms đến 20 ms đối với nam và thường từ 2,5 ms đến 10 ms đối
với nữ. Vì một nguyên âm hay một phụ âm hữu thanh tiêu chuẩn thường dài
khoảng 100 ms. Có thể sắp xếp 20 - 40 chu kỳ âm cơ bản vào một âm thanh.
2.6. Tính không hữu hiệu của tín hiệu tiếng nói.
Phân tích các cuộc đàm thoại cho thấy rằng phần hữu hiệu của cuộc đàm
thoại trong trường hợp tiêu chuẩn khoảng 40% độ dài của nó. Phần lớn các phần
hữu hiệu là kết quả của việc một người đang nghe trong khi người kia nói và
khoảng thời gian ngừng giữa hai âm được phát ra.
2.7. Phổ trung bình của tín hiệu tiếng nói.
Tín hiệu biến thiên theo miền thời gian S(t), ta lấy biến đổi Fourier được
phổ của tín hiệu biến thiên theo miền tần số. Phổ của tín hiệu cho ta biết các
thành phần tần số khác nhau chứa trong tín hiệu đó như thế nào ? Xác định giọng
trầm -> tần số thấp, giọng thanh -> tần số cao.
Tín hiệu nhiễu ngẫu nhiên sẽ có phổ phẳng trong toàn dải còn tín hiệu
tiếng nói có phổ không đều các mức công suất cao tập trung ở miền có tần số
thấp và các mức công suất tại các tần số cao của dải giảm đi đáng kể.
Kĩ thuật mã hoá tiếng nói dự đoán tuyến tính phân tích nhờ tổng hợp
Cao Tiến Việt _ Lớp K40ĐVT _ Khoa Điện Tử _ Trường Đại học KTCN
14
Hình 1.7: Phổ trung bình của tiếng nói
Trên hình 1.7 thể hiện phổ của tín hiệu tiếng nói được lấy trung bình cho
nam và nữ.
2.8. Phổ thức thời của tín hiệu tiếng nói.
Phổ của tiếng nói trên hình 1.7 đã được tính trung bình trong một chu kỳ
thời gian dài. Trong các chu kỳ thời gian ngắn hơn (< 20 ms): phổ biến đổi rất
lớn và trong nó bắt đầu thấy rõ các cấu trúc đặc thù của tiếng nói với các đỉnh
năng lượng cộng hưởng lại một số tần số và các sụt năng lượng ở các tần số
khác. Các tần số mà tại đó hình thành các đỉnh cộng hưởng gọi là các tần số
formant, hay đơn giản các formant.
Các phụ âm hữu thanh và các nguyên âm của tiếng nói thường chữa từ ba
đến năm formant xác định, hai formant đầu là quan trọng nhất. Chu kỳ giữa các
lần thay đổi của các formant trong trường hợp tiêu biểu là từ 10 đến 20ms. Như
vậy nếu xét trong khoảng thời gian ngắn (10 → 20 ms) có thể coi tín hiệu tiếng
nói dừng.
3. Kênh thoại và C¸c ph−¬ng ph¸p m· hãa tiÕng nãi
Trong mạng điện thoại thông thường tín hiệu tiếng nói được mã hoá PCM theo
luật A hoặc luật μ với tốc độ 64kbs.Với cách mã hoá này, sản phẩm phát thanh
cuả con người được đem đi mã hoá và cho phép khôi phục một cách tương đối
trung thực các âm thanh trong giải tần tiếng nói. Nguyªn lý cña m· hãa d¹ng
sãng lµ t×m c¸ch sè hãa d¹ng sãng cña tiÕng nãi theo c¸ch thÝch hîp. T¹i phÝa
Kĩ thuật mã hoá tiếng nói dự đoán tuyến tính phân tích nhờ tổng hợp
Cao Tiến Việt _ Lớp K40ĐVT _ Khoa Điện Tử _ Trường Đại học KTCN
15
ph¸t, bé m· hãa sÏ nhËn c¸c tÝn hiÖu nãi t−¬ng tù liªn tôc vµ chuyÓn thµnh tÝn
hiÖu sè tr−íc khi truyÒn ®i. T¹i phÝa thu sÏ lµm nhiÖm vô ng−îc l¹i ®Ó kh«i phôc
tÝn hiÖu tiÕng nãi. Khi kh«ng cã lçi truyÒn dÉn th× d¹ng sãng cña tiÕng nãi kh«i
phôc rÊt gièng víi d¹ng sãng cña tiÕng nãi gèc. ¦u ®iÓm cña lo¹i m· hãa nµy lµ:
®é phøc t¹p, gi¸ thµnh thiÕt kÕ, ®é trÔ vµ c«ng suÊt tiªu thô thÊp. Bé m· hãa d¹ng
sãng ®¬n gi¶n nhÊt lµ ®iÒu chÕ xung m· (PCM), ®iÒu chÕ Delta (DM)… Tuy
nhiên, nh−îc ®iÓm cña bé m· hãa d¹ng sãng lµ kh«ng t¹o ®−îc tiÕng nãi chÊt
l−îng cao tại tèc ®é d−íi 16 kbit/s. Bé m· hãa nguån kh¾c phôc ®−îc nh−îc
®iÓm nµy.
Nguyªn lý cña m· hãa nguån lµ m· hãa kiÓu ph¸t ©m (vocoder), vÝ dô nh−
bé m· hãa b»ng dù ®o¸n tuyÕn tÝnh (Linear Prediction Coding-PLC). C¸c bé m·
hãa nµy cã thÓ thùc hiÖn ®−îc t¹i tèc ®é bit > 2kbps. H¹n chÕ chñ yÕu cña m·
hãa kiÓu ph¸t ©m PLC lµ viÖc m« pháng nguồn kÝch thÝch cßn ®¬n gi¶n nªn tiÕng
nãi t¸i t¹o ®−îc lµ tiÕng nãi d¹ng tæng hîp, chÊt l−îng kh«ng cao vµ khã cã thÓ
nhËn ra giäng ng−êi nãi chuyÖn.
Sự cần thiết phải tạo được tiếng nói chất lượng chuông tại các tốc độ bit
thấp dưới 10kb/s cho các ứng dụng trên các kênh bị hạn chế một cách cố hữu về
độ rộng băng tần đã thúc đẩy việc nghiên cứu nhằm phát triển các thuật toán
hiệu quả hơn nữa cho mã hoá tiếng nói LPC.
Vµo n¨m 1982, Atal ®· ®Ò xuÊt mét m« h×nh míi vÒ kÝch thÝch, ®−îc gäi
lµ kÝch thÝch ®a xung. Trong m« h×nh nµy, kh«ng cÇn biÐt tr−íc xem ®ã lµ ©m
h÷u thanh hay v« thanh. Sù kÝch thÝch ®−îc m« h×nh hãa bëi mét sè xung cã biªn
®é vµ vÞ trÝ ®−îc x¸c ®Þnh b»ng viÖc cùc tiÓu hãa sai lÖch, cã tÝnh ®Õn träng sè
thô c¶m, gi÷a tiÕng nãi gèc vµ tiÕng nãi tæng hîp. ViÖc ®−a ra m« h×nh nµy ®·
g©y chó ý vµ ®ã lµ m« h×nh ®Çu tiªn cña mét thÕ hÖ míi cña c¸c bé ®iÒu chÕ
tiÕng nãi ph©n tÝch b»ng tæng hîp (Analisis-by-synthesis). Chóng cã kh¶ n¨ng
cho tiÕng nãi chÊt l−îng cao t¹i tèc ®é quang 10kbps vµ cã thÓ tíi tËn 4,8 kbps.
TÝn hiÖu kÝch thÝch sÏ ®−îc tèi −u hãa mét c¸ch kü l−ìng vµ ng−êi ta sö dông kü
thuËt m· hãa d¹ng sãng ®Ó m· hãa tÝn hiÖu kÝch thÝch nµy mét c¸ch cã hiÖu qu¶.
Kĩ thuật mã hoá tiếng nói dự đoán tuyến tính phân tích nhờ tổng hợp
Cao Tiến Việt _ Lớp K40ĐVT _ Khoa Điện Tử _ Trường Đại học KTCN
16
Về cơ bản các bộ mã hoá tiếng nói có ba loại: mã hoá dạng sóng
(waveform) mã hoá nguồn (source) và mã hoá lai (hybrid - là kết hợp cả hai loại
mã hoá dạng trên).
4. Thông tin bằng tiếng nói.
Tiếng nói là phương thức cơ bản nhất của loài người để chuyển thông tin tới
một người khác. Với một băng thông chỉ 4kHz, tiếng nói có thể truyền thông tin
một cách biểu cảm về giọng nói. con người có khả năng nghe giọng nói của một
người khác từ bất kỳ một nơi nào trên thế giới
Những công nghệ mới về mã hoá tiếng nói đã đem đến những kết quả đáng
khích lệ cho ngành viễn thông cũng như công việc truyền phát thông tin. Ngày
nay thông tin bằng tiếng nói nhờ những ứng dụng về mã hoá và nén tiếng nói đã
trở nên rất phổ biến. Nhiều ứng dụng liên quan tới mã hoá tín hiệu tiếng nói thời
gian thực như đối với thông tin di động vệ tinh, với tế bào điện thoại và âm
thanh cho hệ thống Videophones và Video Teleconferencing. Những ứng dụng
khác như lưu trữ tiếng nói cho bộ tổng hợp tiếng nói hoặc để sử dụng lại hay để
truyền phát đi vào thời điểm khác sau đó.
Bộ ghi tiếng nói truyền thống có thể được phân loại làm hai loại chính:
- Bộ mã hoá dạng sóng
- Bộ mã hoá phân tích và tổ hợp tiếng nói
Bộ mã hoá dạng sóng copy dạng thực của tín hiệu đưa ra microphone và
nó như một mạch tương tự. Một kỹ thuật mã hoá dạng sóng chủ yếu là điều chế
xung mã (PCM), cái đang được sử dụng trong điện thoại hiện nay.
Bộ mã hoá tiếng nói sử dụng gần như khác biệt so với việc mã hoá tiếng
nói, được coi như thông số mã hoá hay việc phân tích/tổ hợp mã (là nơi tái tạo
ra tín hiệu bằng cách tách dạng sóng của tiếng nói ra tại bộ thu) Nhưng đấy chỉ
là một tín hiệu gần như tương đương với tín hiệu gốc.
Những hệ thống đó cung cấp tốc độ dữ liệu thấp hơn bởi việc sử dụng
chức năng mô phỏng tiếng nói tại bộ thu tín hiệu. Một trong những kỹ thuật phổ
Kĩ thuật mã hoá tiếng nói dự đoán tuyến tính phân tích nhờ tổng hợp
Cao Tiến Việt _ Lớp K40ĐVT _ Khoa Điện Tử _ Trường Đại học KTCN
17
biến nhất để phân tích/tổ hợp mã tiếng nói được gọi là mã hoá (LPC – Linear
Predictive coding).
Một số bộ mã hoá tiếng nói chất lượng cao bao gồm RELP – Residual
Excited Linear prediction (Mức dự báo tuyến tính bị kích thích) và CELP -
Coding Excited Linear prediction (Mã dự báo tuyến tính bị kích thích)
Ngoài ra còn có nhiều kỹ thuật mới để phân tích và nén tín hiệu tiếng nói
sử dụng Wavelet.
Wavelet một cách đơn giản chỉ là một chức năng toán học ứng dụng trong
một khoảng thời gian hữu hạn với một giá trị trung bình của zero có tác dụng mô
phỏng dữ liệu hiệu quả cùng các chức năng khác.
Một tín hiệu nào đó mà có thể được biểu hiện bởi một hệ thống có chức
năng cơ bản là đo, thông dịch được gọi là Wavelet mẹ “mother wavelet”. Chức
năng của hệ thống này là tạo được các hệ số của Wavelet tại những thang đo
khác nhau và những vị trí khác nhau và kết quả thu được là mô tả về biến đổi
Wavelet của tín hiệu gốc.
Những hệ số của Wavelet dặc trưng cho tín hiệu trong miền wavelet và
toàn bộ hoạt động của tín hiệu đều được mô tả từ các hệ số wavelet.
Tiếng nói là một quy trình ngẫu nhiên không tĩnh bởi tiếng nói của con
người là đa dạng biến đổi theo thời gian. Tín hiệu không tĩnh được đặc trưng bởi
vô vàn những đoạn ngắn và sự thay đổi bất ngờ. Đặc điểm của Wavelet là liện
tục sử dụng thuộc tính phân tích Tần số-thời gian làm cho chúng phù hợp với mã
tín hiệu tiếng nói.
Kĩ thuật mã hoá tiếng nói dự đoán tuyến tính phân tích nhờ tổng hợp
Cao Tiến Việt _ Lớp K40ĐVT _ Khoa Điện Tử _ Trường Đại học KTCN
18
4.1. Mô hình quá trình tạo tiếng nói.
Hình 1.8: Mô hình quá trình tạo tiếng nói
Hình 1.9 Mô hình cơ học của cơ quan phát âm người
Khi không khí bị ép từ phổi đi lên , đi qua các dây thanh âm (Vocal Cords)
dao động ( theo sự điều khiển của não bộ) và đi dọc theo cơ quan phát âm (tuyến
âm (Vocal Tract)) sẽ tạo ra tiếng nói . Sự dao động của các dây thanh âm tạo ra
sự đóng mở tương tự như một cánh cửa (thanh môn) . Sự đống mở này sẽ làm
cho luồng không khí từ phổi đi lên sẽ bị ngắt quãng khác nhau , làm cho tiếng
nói tạo ra cũng khác nhau .Ngoài sự tác động của các dây thanh âm , tiếng nói
tạo ra cũng phụ thuộc vào những thay đổi của cơ quan phát âm gồm : vòm họng ,
lưỡi , miệng , khoang mũi và mũi .Hình 1.9 biểu diễn mô hình cơ học của cơ
quan phát âm người.
Kĩ thuật mã hoá tiếng nói dự đoán tuyến tính phân tích nhờ tổng hợp
Cao Tiến Việt _ Lớp K40ĐVT _ Khoa Điện Tử _ Trường Đại học KTCN
19
Với mô hình cơ học như trên có thể biểu diễn cơ quan phát âm bằng một
mô hình gần đúng gồm các trụ có độ dài bằng nhau nhưng có đường kính khác
nhau như hình 1.10 . Chính hình dáng này đã tạo ra sự cộng hưởng âm thanh ,
các tần số này chính là tần số formant . Các tần số này tạo ra các âm vị khác
nhau tuỳ vào hình dáng cơ quan phát âm .Trong quá trình phát âm , người ta
nhận thấy rằng hình dáng cơ quan phát âm thay đổi rất chậm , do đó trong một
khoảng thời gian ngắn (trong một âm vị ) có thể xem như sự thay đổi là không
đáng kể.Vì vậy ta có thể biểu diễn cơ quan phát âm bằng một hệ thống tuyến
tính bất biến theo thời gian , có nghĩa là suốt trong một âm vị ,các tham số của
hệ thống sẽ gần như không đổi nhưng chúng sẽ thay đổi rất lớn từ âm vị này
sang âm vị khác.
Hình 1.10 Mô hình dạng ống cơ quan phát âm người
Với một số âm hữu thanh nhất định, khi dây thanh rung lên thì tốc độ
rung của dây thanh xác định cao độ của giọng nói. Phụ nữ và trẻ em có giọng nói
cao (dây thanh rung với tốc độ cao), còn đối với đàn ông thì có giọng trầm hơn
(dây thanh rung tốc độ chậm hơn). Với các âm vô thanh thì dây thanh không
rung, không khí tạo thành các luồng xoáy khi đi qua tuyến âm tạo nên tiếng nói.
Hình dạng của tuyến âm xác định âm được tạo ra. Khi nói tuyến âm thay
đổi tiết diện sẽ tạo ra các âm khác nhau. Tiết diện của tuyến âm thay đổi tốc độ
chậm (vào khoảng 10ms đến 100ms). Thông lượng không khí phát ra từ phổi xác
định cường độ của tiếng nói.
4.2. Mô hình hóa bộ máy phát thanh của con người
Nguyên lý bộ mã hoá nguồn là mã hóa kiểu phát âm (vocoder),ví dụ như
bộ mã hoá dự báo tuyến tính (LPC). Các bộ mã hoá này có thể thực hiện được
tại tốc độ bít cỡ 2 Kbps. Hạn chế chủ yếu của mã hoá kiểu phát âm LPC là giả
Kĩ thuật mã hoá tiếng nói dự đoán tuyến tính phân tích nhờ tổng hợp
Cao Tiến Việt _ Lớp K40ĐVT _ Khoa Điện Tử _ Trường Đại học KTCN
20
thiết rằng: tín hiệu tiếng nói bao gồm cả âm hữu thanh và vô thanh. Do đó, đối
với âm hữu thanh thì nguồn kích thích bộ máy phát âm sẽ là một dãy xung, còn
đối với các âm vô thanh thì nó sẽ là một nguồn nhiễu ngẫu nhiên (hình 1.9).
Trong thực tế, có rất nhiều cách để kích thích bộ máy phát âm.Và để đơn giản
hoá, người ta giả thiết rằng chỉ có một xung kích thích trong toàn bộ giai đoạn
lên giọng của tiếng nói, dù cho đó là âm hữu thanh hay vô thanh.
Hình 1.11: Mô hình hoá bộ máy phát thanh của con người.
Vào năm 1982, Atal đã đề ra một mô hình mới về kích thích, được gọi là
kích thích đa xung. Trong mô hình này, không cần biết trước đó là âm hữu thanh
hay vô thanh, đó có phải là giai đoạn lên giọng hay không. Sự kích thích được
mô hình hoá bởi một số xung (thông thường là 3 xung trên 5ms ) có biên độ và
vị trí được xác định bằng cực tiểu hoá sai lệch, có tính đến trọng số thụ cảm,
giữa tiếng nói gốc và tiếng nói tổng hợp. Việc đưa ra mô hình này đã tạo lên một
sự chú ý to lớn và đó là mô hình đầu tiên của một thế hệ mới của các bộ mã hoá
tiếng nó phân tích bằng tổng hợp. Chúng có khả năng cho tiếng nói chất lượng
cao tại tốc độ bit quanh 10 kbps và có thể đến tận 4,8 kbps. Tín hiệu kích thích
sẽ được tối ưu hoá một cách kỹ lưỡng và người ta sử dụng kỹ thuật mã hoá dạng
sóng để mã hoá tín hiệu kích thích này một cách có hiệu quả.
Nguồn xung
Nguồn tạp
Bộ lọc tổng
hợp
Tham số kích
thích
Tham số bộ lọc
Kĩ thuật mã hoá tiếng nói dự đoán tuyến tính phân tích nhờ tổng hợp
Cao Tiến Việt _ Lớp K40ĐVT _ Khoa Điện Tử _ Trường Đại học KTCN
21
4.3. Mô hình tổng quát của mã hoá tiếng nói theo phương pháp phân
tích bằng tổng hợp.
Hình 1.12. Mô hình mã hoá tiếng nói LPC phân tích bằng tổng hợp
Có ba loại thuật toán mã hoá thoại chủ yếu: Các bộ mã hoá dạng sóng, các
bộ mã hoá thông số và các bộ mã hoá lai. Đối tượng đằng sau các bộ mã hoá
dạng sóng là sinh ra một tín hiệu được tái tạo mà nó gần giống với tín hiệu gốc.
Bằng việc tăng tốc độ bit, thoại được tái tạo sẽ hội tụ về tín hiệu gốc. Các bộ mã
hoá thông số căn cứ vào việc tổng hợp phân tích đặc trưng thoại và chủ yếu dựa
trên cơ sở mô hình hệ thống nguồn.
Hình 1.13 Sơ đồ khối của một vocoder cơ bản
Các mô hình phát âm thể hiện cơ chế phát âm của con người một cách trực
tiếp, nghĩa là các cơ quan phát âm giọng nói của con người nhất định được mô
hình một cách rõ ràng. Tín hiệu kích thích được tạo ra bằng cách đưa tín hiệu
S* (n) TiÐng nãi t«ng hîp
b/ Bé Gi¶i m·
TiÕng nãi gèc
Bé t¹o tÝn hiÖu
kÝch thÝch Bé läc tæng hîp
TÝnh träng
sè sai sè
Cùc tiÓu ho¸ sai
sè
Bé t¹o tÝn hiÖu
kÝch thÝch Bé läc tæng hîp
u(n) S*(n) e(n)
a/ Bộ mã hoá
e w (n)
Bộ lọc
phân tích
Bộ lọc
tổng hợp
Phân tích
LP
Tín hiệu
kích thích
Tín hiệu
thoại ra
Các hệ số
phổ
Tín hiệu
thoại vào
Kĩ thuật mã hoá tiếng nói dự đoán tuyến tính phân tích nhờ tổng hợp
Cao Tiến Việt _ Lớp K40ĐVT _ Khoa Điện Tử _ Trường Đại học KTCN
22
thoại đầu vào qua bộ lọc phân tích. Tín hiệu kích thích này được bắt trước bởi
các xung tuần hoàn hay nhiễu trắng ngẫu nhiên tương ứng với tín hiệu thoại là
âm hữu thanh hay vô thanh. Tín hiệu kích thích này sau đó sẽ được lọc bằng bộ
lọc tổng hợp nhằm mục đích khôi phục lại tín hiệu thoại. Mặc dù tín hiệu thoại
được khôi phục là không được tự nhiên, nhung các bộ mã hoá thông số có ưu
điểm là sử dụng ít số bit. Vấn đề đặt ra là tại sao có lợi khi sử dụng số ít các bit
với chi phí về chất lượng? Các lý do là trong một số các ứng dụng lưu trữ, sử
dụng ít số bit sẽ yêu cầu dung lượng bộ nhớ ít hơn. trong các ứng dụng truyền
dẫn số liệu tốc độ bit thấp sẽ yêu cầu băng thông truyền dẫn nhỏ hơn.
Các bộ vocoder LPC kích thích độ cao cố định truyền thống sử dụng một
mô hình thông số đầy đủ để mã hoá một cách hiệu quả thông tin quan trọng của
giọng nói con người. Những bộ vocoder này nhằm tạo ra tín hiệu thoại dễ hiểu ở
tốc độ bit rất thấp (800-2400kbps), nhưng chúng nghe có vẻ không tự nhiên và
hay tạo ra các âm gây khoa chịu như các âm vo vo... hay gặp phải các vấn đề
như: nhiễu sóng, bị chèn tín hiệu, tín hiệu không rõ ràng....
Những tiếng ồn này làm lỗi quá trình thu phát tín hiệu. Để đảm bảo cho
thiết bị thu phát nhận được tín hiệu tốt trong những điều kiện kênh truyền gặp
trục trặc như trên, phải áp dụng phương pháp kiểm soát lỗi.
Trong đó u(n) :tín hiệu kích thích
S*(n): :tín hiệu tiếng nói tổng hợp
S(n) : Tín hiệu tiếng nói gốc
Ew(n ): tín hiệu sai số
Cấu trúc cơ bản của mô hình mã hoá tiếng nói phân tích bằng tổng hợp được
trình bày trên hình 1.13. Mô hình bao gồm 3 phần chính:
• Phần thứ nhất: Bộ lọc tổng hợp LPC, là bộ lọc toàn cực biến đổi theo thời
gian để mô hình hoá đường bao phổ ngắn hạn của dạng sóng tiếng nói. Bộ lọc
này thường được gọi là bộ lọc tương quan ngắn hạn do các hệ số của nó được
tính bằng cách dự đoán một mẫu tiếng nói từ một vài mẫu trước đó (thường từ 8
Kĩ thuật mã hoá tiếng nói dự đoán tuyến tính phân tích nhờ tổng hợp
Cao Tiến Việt _ Lớp K40ĐVT _ Khoa Điện Tử _ Trường Đại học KTCN
23
đến 16 mẫu). Bộ lọc tổng hợp cũng có thể bao gồm cả bộ lọc tương quan dài hạn
mắc nối tiếp với bộ lọc tương quan ngắn hạn. Bộ dự đoán dài hạn sẽ mô hình
hoá cấu trúc tinh của phổ tín hiệu.
• Phần thứ 2 : Bộ tạo kích thích. Là mạch tạo ra dãy xung có thông số biến
đổi , cho ra dãy kích thích cấp cho bộ lọc tổng hợp để tạo ra tiếng nói tái tạo ở
máy thu. Kích thích được xác định tối ưu theo tiêu chí cực tiểu hoá sai lệch được
tính trọng số theo độ thụ cảm giữa tiếng nói gốc và tiếng nói tổng hợp.
• Phần thứ 3 : Thủ tục được sử dụng trong việc tối thiểu hoá sai lệch (Gồm
2 khối: tính trọng số sai số và cực tiểu hoá sai số). Tiêu chuẩn cục tiểu hoá sai
lệch được sử dụng rộng rãi nhất là sai lệch bình phương trung bình (mes: mean
squared error). Trong mô hình này, tiêu chuẩn cực tiểu hoá sai số được sử dụng
là: tín hiệu sai lệch ew(n) được đưa qua một bộ lọc đánh giá trọng số sai số, có
tính trọng số thụ cảm,và bộ lọc này sẽ tạo dạng phổ tạp âm theo một cách nào đó
để công suất tín hiệu sẽ tập chung nhất tại các tần số formant của phổ tiếng nói.
Có rất nhiều phương pháp mô hình hoá sự kích thích: Phương pháp kích
thích đa xung (MPE), phương pháp kích thích xung đều (RPE), phương pháp dự
đoán tuyến tính kích thích theo bảng mã (CELP). ở đây đề tài giới thiệu một
phương pháp dự đoán tuyến tính kích thích mã CELP tiêu biểu. Hiện nay
phương pháp này đã trở thành công nghệ chủ yếu cho mã hoá tiếng nói tốc độ
thấp.
4.4. Nguyên lý chung của bộ mã hoá CELP( Code Excited Linear
Prediction)
Con người phát ra rất ít âm cơ sở, số kích thích thì hữu hạn và khá nhỏ,
nên tiến hành thử trước các âm tạo ra một từ điển, một bảng mã gọi mà mỗi một
mục từ là một kích thích.
Sơ đồ nguyên lý của phương pháp tổng hợp CELP được đưa ra trong
hình 1.14
Kĩ thuật mã hoá tiếng nói dự đoán tuyến tính phân tích nhờ tổng hợp
Cao Tiến Việt _ Lớp K40ĐVT _ Khoa Điện Tử _ Trường Đại học KTCN
24
Hình1.14. Sơ đồ nguyên lý của phương pháp tổng hợp CELP
Tại phía phát và thu có một bảng mã kích thích khác nhau. Sau khi phân
tích ở phần phát bộ tham số kích thích đã được xác định được đem so sánh với
tất cả các mục từ trong bảng mã để tìm ra mục từ giống nhất. Phần phát chỉ gửi
đi số mục từ trong bảng mã. Phần thu sẽ đem kích thích đã trữ sẵn ra để đem ra
bộ tái tạo tiếng nói.
Bảng mã kích thích gồm L từ mã (là các véc tơ ngẫu nhiên) có độ dài N
mẫu (thông thường L=1024,N=40 mẫu ứng với một khung kích thích 5ms).
Bằng cách tìm kiếm triệt để toàn bộ bảng mã ngẫu nhiên người ta sẽ chọn được
tín hiệu kích thích của một khung tiếng nói dài N mẫu
Bé läc tæng hîp ®· tÝnh träng sè ®−îc cho bëi :
)(1/(1)/(/1)(
1
∑
=
−−==
P
k
kk
k zazAzw γγ
Trong ®ã :
γ lµ mét ph©n sè tõ 0 ®Õn 1.
{ak} lµ c¸c tham sè bé läc tæng hîp LPC hay cßn gäi lµ hÖ sè dù ®o¸n.
P lµ bËc cña bé läc tæng hîpLPC hay bËc cña bé dù ®o¸n.
S*(n) TiÕng nãi tæng hîpBé läc tæng
h¬p
TrÔ khung
con
B¶ng m· thÝch øng
KhuÕch ®¹i
KhuÕch ®¹i
B¶ng m· ngÉu nhiªn
u(n)
Kĩ thuật mã hoá tiếng nói dự đoán tuyến tính phân tích nhờ tổng hợp
Cao Tiến Việt _ Lớp K40ĐVT _ Khoa Điện Tử _ Trường Đại học KTCN
25
Sau khi ®· x¸c ®Þnh ®−îc c¸c tham sè cña b¶ng m· thÝch øng ( bao gåm cã
t¨ng Ých vµ ®é trÔ lªn giäng) th× tiÕng nã tæng hîp ®· tÝnh träng sè s*(n) ®−îc cho
lµ :
)(*)()(*)()(* 0 nsnGynhncns k ++= αβ
Trong ®ã :
TÝch chËp lµ kh«ng nhí.
ck(n) lµ tõ m· kÝch thÝch víi chØ sè k.
β lµ hÖ sè tû lÖ.
h(n) lµ ph¶n øng xung cña bé läc tæng hîp ®· tÝnh träng sè W(z).
s0*(n) lµ ph¶n øng lèi vµo cña bé läc tæng hîp ®· tÝnh träng sè.
G lµ t¨ng Ých cña b¶ng m· thÝch øng.
yα(n) = c’α(n)*h(n) lµ ph¶n øng tr¹ng th¸i kh«ng cña bé läc tæng hîp ®·
tÝnh träng sè víi tõ m· c’α(n) ®−îc lùa chän tõ b¶ng m· thÝch øng.
Sai sè ®· tÝnh träng sè gi÷a tiÕng nã tæng hîp vµ tiÕng nãi gèc ®−îc cho
bëi:
)(*)()(- nsnsne −=
Trong ®ã:
s*(n) : TÝn hiÖu tiÕng nãi tæng hîp
s(n) : TÝn hiÖu tiÕng nãi gèc.
ew(n) : TÝn hiÖu sai sè
Sau ®ã sai sè nµy sÏ ®−îc cùc tiÓu ho¸ b»ng ph−¬ng ph¸p sai lÖch b×nh
ph−¬ng trung b×nh (mes): [ ]∑−
=
=
1
0
2
- )(
N
n
neE
Độ phức tạp của bộ mã hoá này tăng khi tốc độ bit giảm. Thí dụ CELP có
thể cho tiếng nói tốc độ thấp tới 4,8 kbps nhưng phải trả giá rất cao về tính toán
do : tín hiệu kích thích tối ưu được tìm kiếm thông qua bảng mã rất lớn (kích
thước bảng mã thường gồm khoảng 1024 mục từ). Đối với bảng mã có 1024 từ
Kĩ thuật mã hoá tiếng nói dự đoán tuyến tính phân tích nhờ tổng hợp
Cao Tiến Việt _ Lớp K40ĐVT _ Khoa Điện Tử _ Trường Đại học KTCN
26
mã và một khung kích thước 40 mẫu thì cần thực hiện khoảng 40.000 phép nhân
để soát bảng mã .
Có thể nhận xét rằng nhược điểm của phương pháp CELP là: cần phải có
một thủ tục đòi hỏi tính toán rất lớn và khó có thể thực hiện trong thời gian thực.
Tuy nhiên với VLSI tốc độ cao đã thực hiện được điều này.
5. Kết luận
Mã hoá dạng sóng là mã hoá chính sản phẩm tiếng nói của con người
thành tín hiệu số và truyền các chuỗi bit mã giá trị mẫu đó.
Mã hoá nguồn phát thanh là việc mã hoá các thông số kích thích, tham số
lọc của mô hình tạo tiếng nói thành các tín hiệu số và truyền các chuỗi bit mã
các thông số sang bên thu.
Mã hoá tiếng nói dự đoán phân tích bằng tổng hợp là sự kết hợp của hai
phương pháp mã hoá dạng sóng và mã hoá nguồn phát thanh, trong đó mô hình
lọc tổng hợp tiếng nói nhờ các thông số kích thích và lọc thì giống như đối với
các bộ mã hoá nguồn phát thanh còn tín hiệu kích thích lại được mã hoá một
cách hiệu quả bằng kỹ thuật mã hoá dạng sóng. Vì vậy, phương pháp này đã trở
thành công nghệ chủ yếu cho mã hoá tiếng nói tốc độ thấp ứng dụng trong thông
tin di động CDMA 2000MX, IS 95 của các hãng Viễn thông điện lực, SFone,
HNTelecom.
Do thời gian và trình độ có hạn nên đề tài không tránh khỏi những thiếu
sót , do vậy em rất mong nhận được sự đóng góp của các thầy cô và và các bạn
để đề tài được hoàn thiện hơn
Em xin ch©n thµnh c¶m ¬n !
Các file đính kèm theo tài liệu này:
- Kĩ thuật mã hoá tiếng nói dự đoán tuyến tính phân tích nhờ tổng hợp.pdf