Nâng cao chất lượng thoại trên mạng IP bằng kỹ thuật bù mất gói

Mất gói trong VoIP là một yếu tốlàm chất lượng thoại suy giảm, do vậy việc xem xét và giải quyết vấn đềnày rất quan trọng. Đồán đã thực hiện được các vấn đề: - Tìm hiểu cơ chế truyền gói thoại trong mạng IP. - Tìm hiểu các yếu tố ảnh hưởng đến chất lượng truyền dẫn thoại. - Tìm hiểu mô hình tạo tiếng nói và hai loại mã hóa tiếng nói thường được dùng trong mạng IP: LPC và CELP. - Tìm hiểu phương pháp sửa mất gói đối với bên phát và phương pháp bù mất gói đối với bên nhận: thay gói bịmất bằng nhiễu, lặp lại gói trước đó nhận được, dùng mô hình lọc nguồn LP hay dùng tuyến tính đệ quy. - Tìm hiểu các phương pháp đánh giá chất lượng tiếng nói chủquan và khách quan. - Mô phỏng bù mất gói đơn bằng ngôn ngữ Matlab; thực hiện đánh giá hiệu quảcác thuật toán bù bằng phương pháp đánh giá khách quan và kiểm nghiệm lại bằng phương pháp đánh giá chủ quan

pdf14 trang | Chia sẻ: lylyngoc | Lượt xem: 2380 | Lượt tải: 0download
Bạn đang xem nội dung tài liệu Nâng cao chất lượng thoại trên mạng IP bằng kỹ thuật bù mất gói, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
1 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG TRƯƠNG LÊ PHƯƠNG ANH NÂNG CAO CHẤT LƯỢNG THOẠI TRÊN MẠNG IP BẰNG KỸ THUẬT BÙ MẤT GĨI Chuyên ngành : Kỹ thuật điện tử Mã số : 60.52.70 TĨM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng, năm 2011 2 Cơng trình đươc hồn thành tại ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: TS. Phạm Văn Tuấn. Phản biện 1: TS. Ngơ Văn Sỹ Phản biện 2: TS. Lương Hồng Khanh Luận văn sẽ được bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp Thạc sĩ ngành Kỹ thuật điện tử họp tại Đại học Đà Nẵng vào ngày 26 tháng 06 năm 2011. Cĩ thể tìm luận văn tại: - Trung tâm Thơng tin - Học liệu Đại học Đà Nẵng - Trung tâm Học liệu Đại học Đà Nẵng 3 MỞ ĐẦU 1. TÍNH CẤP THIẾT CỦA ĐỀ TÀI Ngày nay, khi xã hội phát triển, nhu cầu liên lạc của con người càng trở nên bùng nổ và cấp thiết, các yêu cầu về loại hình dịch vụ thơng tin ngày càng phong phú. Tuy nhiên các dịch vụ này lại chiếm rất nhiều băng thơng đường truyền. Để sử dụng tài nguyên viễn thơng một cách hiệu quả nhất, kỹ thuật chuyển mạch gĩi đã ra đời. Cơng nghệ này chia dữ liệu cần vận chuyển thành các gĩi (hay các khung) cĩ kích thước và định dạng xác định. Mỗi gĩi như vậy sẽ được vận chuyển riêng rẽ và đến nơi nhận bằng các đường truyền khác nhau. Khi tồn bộ các gĩi dữ liệu đã đến nơi nhận thì chúng sẽ được hợp lại thành dữ liệu ban đầu. Tiết kiệm băng thơng đường truyền và nâng cao chất lượng cuộc gọi là điều quan trọng mà nhà cung cấp dịch vụ cần phải quan tâm. Tuy nhiên, khi truyền thoại trên mạng chuyển mạch gĩi, do thoại là dịch vụ thời gian thực nên nĩ chỉ cho phép thời gian trễ và tỷ lệ mất gĩi thấp. Mất gĩi lớn xảy ra làm chất lượng cuộc gọi kém đi, gây khĩ chịu cho khách hàng. Vì vậy, việc nghiên cứu và áp dụng các biện pháp để nâng cao chất lượng cuộc gọi trong mạng IP là điều rất cần thiết. 2. MỤC ĐÍCH NGHIÊN CỨU Đề tài tiến hành nghiên cứu tổng quan VoIP; các yếu tố ảnh hưởng chất lượng thoại, các nguyên nhân dẫn đến việc mất gĩi thoại; tìm hiểu mơ hình tạo tiếng nĩi, phân tích và áp dụng phương pháp bù mất gĩi thoại để nâng cao được chất lượng dịch vụ. 3. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU Đối tượng nghiên cứu : - Phương pháp xử lý tiếng nĩi . - Phương pháp bù mất gĩi đối với thoại trong mạng IP. 4 Phạm vi nghiên cứu : Cơng nghệ VoIP và các tiêu chuẩn QoS liên quan. 4. MỤC TIÊU NGHIÊN CỨU Nghiên cứu để hiểu rõ các phương pháp bù mất gĩi. 5. PHƯƠNG PHÁP NGHIÊN CỨU Về lý thuyết: Thu thập tài liệu để nghiên cứu các biện pháp bù mất gĩi để nâng cao chất lượng thoại. 6. Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN CỦA ĐỀ TÀI - Ứng dụng lý thuyết của kỹ thuật xử lý tín hiệu và các phương pháp xử lý tiếng nĩi để nâng cao chất lượng truyền dẫn thoại. - Hỗ trợ hiểu biết cho bản thân với tư cách là một kỹ thuật viên vận hành hệ thống VoIP. 7. KẾT CẤU CỦA LUẬN VĂN Luận văn gồm 4 chương: CHƯƠNG 1 – TỔNG QUAN VoIP & CHẤT LƯỢNG TRUYỀN DẪN THOẠI TRONG MẠNG IP 1.1. GIỚI THIỆU VoIP Cơng nghệ VoIP (Voice Over Internet Protocol) là cơng nghệ truyền thoại gĩi. Nguyên tắc thoại trên IP bao gồm việc số hĩa tiếng nĩi, tiếp theo là nén tín hiệu số phù hợp, chia tín hiệu thành các gĩi dữ liệu, cuối cùng là truyền các gĩi dữ liệu này trên mạng sử dụng cơng nghệ IP. Đến nơi nhận, các gĩi dữ liệu được tập hợp lại, tín hiệu dữ liệu nhận được giải mã, sau đĩ được chuyển đổi thành tín hiệu tương tự để phục hồi âm thanh. 1.2. LỢI ÍCH CỦA VoIP 1.3. H.323 – TIÊU CHUẨN VẬN CHUYỂN TIẾNG NĨI TRÊN MẠNG IP 1.3.1. Khái niệm H.323 1.3.2. Kiến trúc H.323 5 1.3.3. Các giao thức điều khiển, thiết lập cuộc gọi trong H.323 1.4. CHẤT LƯỢNG TRUYỀN DẪN THOẠI TRONG MẠNG IP Gateway là thiết bị trung gian giữa các mạng, thực hiện chức năng “phiên dịch”, thực hiện xử lý DSP và gĩi hĩa thoại. Các gĩi thoại được truyền linh hoạt trong mạng IP nhờ cơ chế hoạt động hiệu quả của các bộ định tuyến (Router). Router nhận các gĩi thoại trên đường truyền, lần lượt bĩc tách các header và đọc địa chỉ IP mạng để xác định đường đi tối ưu nhất tới đích. Vì được thực hiện nhiều quá trình xử lý tại Gateway (DSP, đĩng gĩi..) và phải qua nhiều Router trên đường truyền để đến đích nên thời gian trễ của gĩi thoại lớn, điều này ảnh hưởng rất nhiều đến chất lượng thoại. Về bản chất, mạng IP lại là mạng best-effort, nĩ khơng đảm bảo tin cậy hồn tồn, do vậy, mất gĩi luơn luơn cĩ thể xảy ra… Để cung cấp thoại cĩ chất lượng tốt nhất, ta cần quan tâm đến các yếu tố ảnh hưởng chất lượng như: trễ, mất gĩi hay echo; từ đĩ đề ra các phương thức giảm thiểu những ảnh hưởng này. 1.4.1. Trễ Trễ trong hệ thống VoIP cơ bản từ hai nguồn: trễ do bản thân Gateway gây ra và trễ do bản thân mạng dùng để kết nối hai Gateway gây ra. Vì trễ là tích lũy, do vậy, bất cứ thời gian trễ nào do các thành phần của VoIP gây ra sẽ trực tiếp ảnh hưởng đến tổng thời gian trễ tồn hệ thống. Trong VoIP, mục tiêu phấn đấu là thời gian trễ một hướng nhỏ hơn 300 ms 6 Hình 1.6. Hệ thống VoIP điển hình 1.4.1.1. Trễ do Gateway gây ra Hình 1.7. Quá trình xử lý của Gateway • Trễ giao diện mạng • Trễ trong quá trình xử lý tín hiệu số Xử lý tín hiệu số được thực hiện bằng phần cứng DSP chuyên dụng hay kết hợp thuật tốn phần mềm để thực hiện: nén/ giải nén tiếng nĩi, phát hiện tone, phát hiện im lặng, tạo tone, tạo nhiễu dễ chịu và triệt echo trên từng khung tiếng nĩi. Quá trình DSP thực hiện xử lý tồn bộ các khung dữ liệu cùng một lúc. Thời gian trễ của quá trình xử lý số tùy thuộc vào kích thước khung (frame) đối với từng phương pháp mã hĩa thoại. • Trễ xử lý gĩi Sau khi thực hiện xử lý số, hệ thống VoIP đặt vào bộ đệm các khung dữ liệu tiếng nĩi đã được mã hĩa trước khi gĩi hĩa để truyền đi. Mỗi gĩi dữ liệu VoIP bắt đầu với 40 byte header của giao thức IP, UDP và RTP. Header chứa địa chỉ IP nguồn/đích, số cổng UDP, số thứ Giao diện mạng IP Giao diện mạng T1, E1 Xử lý gĩi Xử lý tín hiệu số DSP coding Bộ đệm và đĩng gĩi Bộ đệm Jitter TCP/IP Ngăn xếp giao thức Giao diện mạng Ethernet PCM 7 tự gĩi và các thơng tin cần thiết khác để truyền dữ liệu. Sau header, cĩ một hay nhiều khung dữ liệu thoại mã hĩa theo sau. Quyết định dồn nén nhiều khung dữ liệu vào một gĩi đơn là sự cân nhắc quan trọng đối với mỗi hệ thống VoIP. Nếu khung dữ liệu cĩ kích thước nhỏ hơn so với 40 byte header, thì cần đặt nhiều hơn một khung thoại mã hĩa vào mỗi gĩi IP để giảm lãng phí do header IP gây ra. Tuy nhiên, điều này gây thêm nhiều thời gian trễ do thêm thời gian của chu kỳ khung khác. 1.4.1.2. Trễ do mạng IP gây ra 1.4.2. Echo 1.4.3. Mất gĩi Mạng VoIP là mạng khơng tin cậy về bản chất nên thường xảy ra hiện tượng mất gĩi. Phần lớn nguyên nhân mất gĩi cĩ thể là: - Mất gĩi vì lỗi truyền dẫn. Nếu checksum kiểm tra bị hỏng thì gĩi bị loại bỏ. - Gĩi bị mất do nghẽn mạng (mạng quá tải). Nếu khơng đủ khơng gian bộ đệm trong các Router, hàng đợi xảy ra hiện tượng tràn. Một Router thường cĩ bộ đệm giao tiếp ở ngõ vào, bộ đệm hệ thống và bộ đệm giao tiếp ở ngõ ra. Mất gĩi ở ngõ vào thường xảy ra khi Router khơng thể xử lý các gĩi đủ nhanh. Mất gĩi ở ngõ ra khi kết nối ở ngõ ra quá bận. - Mất gĩi xảy ra do gĩi trải qua một thời gian trễ trên mạng quá lớn và đến đích quá trễ. Đối với các ứng dụng khơng phải thời gian thực như truyền file hay email.., mất gĩi khơng quan trọng vì nĩ dùng cơ cấu phát lại. Tuy nhiên, trong trường hợp thơng tin thoại thời gian thực, các gĩi đến phải nằm trong cửa sổ thời gian thực tương đối hẹp để tái tạo tín hiệu tiếng nĩi. Do vậy cơ cấu phát lại thực sự khơng phù hợp. 8 Sau đây là các kỹ thuật được sử dụng để hiệu chỉnh và khơi phục sự mất gĩi. Các kỹ thuật này sẽ được trình bày kỹ hơn trong chương 3 phía sau. • Khơi phục các gĩi bị mất ở phía phát - Media-independent FEC - Media-dependent FEC: các gĩi thoại dự phịng được đi kèm với các gĩi thoại khác để cĩ thể thực hiện khơi phục gĩi bị mất. - Một gĩi thoại được chia ra thành các unit nhỏ hơn và xếp xen kẻ nhau trong các gĩi khác nhau. • Khơi phục các gĩi bị mất ở phía thu - Bên thu bù mất gĩi bằng cách thay thế nhiễu nền vào vị trí các gĩi bị mất hay lặp lại gĩi cuối cùng nhận được trong suốt khoảng thời gian khi gĩi bị mất. - Thực hiện ngoại suy hay nội suy gĩi bị mất từ các gĩi được nhận trước hay gĩi nhận sau.[12] - Thực hiện tái tạo gĩi bị mất theo mơ hình huấn luyện. 1.5. KẾT LUẬN CHƯƠNG Chương 1 đã trình bày một cách tổng quan về VoIP và các vấn đề cần quan tâm để nâng cao chất lượng tiếng nĩi trong mạng IP. Tuy nhiên, để cĩ cơ sở thực hiện việc bù mất gĩi sẽ trình bày ở chương 3, ta cần hiểu thêm về cơ chế tạo tiếng nĩi và các kỹ thuật xử lý. Chương 2 sẽ trình bày mơ hình tạo tiếng nĩi, các kỹ thuật trong xử lý tín hiệu tiếng nĩi và phương pháp mã hĩa được ứng dụng trong VoIP. CHƯƠNG 2 - KỸ THUẬT XỬ LÝ TIẾNG NĨI DỰA TRÊN MÃ HĨA DỰ ĐỐN TUYẾN TÍNH 2.1. QUÁ TRÌNH TẠO TIẾNG NĨI 9 Hình 2.2. Mơ hình cơ học của cơ quan phát âm người 2.2. MƠ HÌNH DỰ ĐỐN TUYẾN TÍNH Hình 2.6. Mơ hình tốn học của việc tạo tiếng nĩi Từ nguyên lý tạo tiếng nĩi người như trên, một mơ hình tốn học (mơ hình mã hĩa dự đốn tuyến tính) được dùng để mơ phỏng việc tạo tiếng nĩi:[13] Mối quan hệ giữa mơ hình vật lý và mơ hình tốn học: Bộ máy phát âm H(z) ( Bộ lọc LPC) Khơng khí u(n) (Kích thích) Sự rung của dây thanh âm V (Voiced) Chu kỳ rung của dây thanh âm T (Chu kỳ pitch) Phụ âm sát và phụ âm bật UV (Unvoiced) Độ lớn khơng khí G (Độ lợi) 2.3. FRAMING, OVERLAP-ADDING TRONG XỬ LÝ TÍN HIỆU TIẾNG NĨI N : kích thước của frame m : số lượng frame 10 Hình 2.7. Phân tích tín hiệu thành frame 2.4. PHƯƠNG PHÁP PHÂN TÍCH MÃ HĨA DỰ ĐỐN TUYẾN TÍNH Tín hiệu tiếng nĩi thay đổi theo thời gian. Ứng với một đoạn tiếng nĩi ngắn (gọi là segment hay frame), tiếng nĩi được xem là tín hiệu dừng. Nĩi cách khác, mơ hình bộ máy phát âm là khơng đổi trên mỗi segment. Thơng thường, mỗi segment cĩ chiều dài 20ms, nếu tiếng nĩi được lấy mẫu tại tần số 8kHz thì số mẫu trong 1 segment là 160 mẫu. Xét một frame tiếng nĩi: Đối với mơ hình dự đốn tuyến tính trên, bộ máy phát âm được xem như bộ lọc tồn cực với đầu vào bộ lọc là một chuỗi nhiễu trắng hay là một dãy xung tựa tuần hồn; đầu ra bộ lọc là tiếng nĩi số. Bộ lọc này là bộ lọc đệ quy nhưng chỉ lấy đầu vào là mẫu âm kích thích hiện tại u(n) để tính thay vì lấy m mẫu quá khứ của u(n). Tiếng nĩi đầu ra được mơ tả bằng cơng thức: ∑ = −−= M k k knsanGuns 1 )()()( (2.2) Với ka là hệ số dự đốn tuyến tính. M: bậc dự đốn . Gọi ≈ s (n) là mẫu hiện tại của tiếng nĩi được dự đốn tuyến tính từ M mẫu quá khứ của tiếng nĩi. = ≈ )(ns ∑ = − M k k knsa 1 )( (2.3) Như vậy, sai lệch e(n) giữa mẫu tiếng nĩi thực và mẫu dự đốn: ∑ = ≈ −−=−= M k k knsansnsnsne 1 )()()()()( (2.4) Do vậy, tổng của sai lệch dự đốn bình phương của cả frame: (2.5) ∑ ∑∑ = −−== n M k k n knsansneE 1 22 ))()(()( 11 2.4.1. Xác định các thơng số bộ lọc và độ lợi Để xác định các hệ số bộ lọc dự đốn tuyến tính, ta phải tối thiểu hĩa tổng sai lệch bình phương E bằng cách thiết lập đạo hàm của E đối với ka bằng với 1≤k≤M (2.6) Hệ số bộ lọc ka (hệ số dự đốn tuyến tính) được giải bằng thuật tốn Levinson-Durbin. Hệ số độ lợi cĩ giá trị bình phương bằng năng lượng dư thừa trong quá trình tối ưu hĩa bình phương để tìm các thơng số ak. [13] 2.4.2. Xác định Voiced/Unvoiced và xác định chu kỳ pitch 2.4.3. Bộ mã hĩa LPC -10 Trong b ộ mã hĩa LPC-10, tín hiệu tiếng nĩi được chia thành khung cĩ chiều dài 20ms hay 160 mẫu với tần số lấy m ẫu l à 8kHz. B ậc c ủa bộ lọc LPC là 10. Thơng thường, 10 thơng số bộ lọc dự đốn tuyến tính được chuyển sang thơng số cặp phổ vạch LSP tương đương vì LSP cĩ độ ổn định cao hơn. Quá trình mã hĩa LPC sẽ tính tốn và truyền đi các thơng số bộ lọc, dấu hiệu xác định voiced/unvoiced và chu kỳ pitch của khung tiếng nĩi đĩ. Vì tốc độ của bộ mã hĩa LPC-10 là 2.4kbps, do vậy, số bit cần dùng để mã hĩa 1 khung là: 2400*0.02 = 48 bit. 2.5. PHƯƠNG PHÁP MÃ HĨA CELP 0= ∂ ∂ ka E ACB-gain ACB-index Spectral parameters 10110 LPC spectral analysis Spectral filtering Adaptive codebook search Stochastic codebook search Stochastic excitation Adaptive excitation Delay Linear prediction filter + Speech SCB-gain SCB-index Divide into 4 subframes Divide into N frames 12 Hình 2.9. Thuật tốn CELP 2.5.1. Quá trình mã hĩa CELP Hình 2.10. Bộ mã hĩa CELP 2.5.2. Quá trình giải mã CELP Decoded samples Gp Gc LSP Pitch delay Gain Code index,sign Fixed codebook search Gain parameters Adaptive codebook LP filter extraction Synthesis filter Post filter High-pass filter + Pitch Input speech samples LPC info Gc Preprocessing LP analysis quantization interpolation Synthesis filter Fixed codebook search Adaptive codebook + Pitch analysis Fixed codebook search Perceptual weighting Gain quantization Encoded bit stream of payload bytes Gp LPC info + LPC info 13 Hình 2.11. Bộ giải mã CELP 2.6. KẾT LUẬN CHƯƠNG Chương này trình bày phương pháp phân tích tín hiệu tiếng nĩi. Đây là cơ sở thực hiện nâng cao chất lượng tiếng nĩi ở chương 3. CHƯƠNG 3 - CÁC PHƯƠNG PHÁP BÙ MẤT GĨI & ĐÁNH GIÁ CHẤT LƯỢNG TIẾNG NĨI 3.1. CÁC KỸ THUẬT PHỤC HỒI MẤT GĨI Cĩ hai kỹ thuật phục hồi mất gĩi: kỹ thuật phục hồi mất gĩi từ phía phát và kỹ thuật bù mất gĩi ở phía thu. Hai phương pháp này đều cố gắng phục hồi gĩi bị mất để cho tiếng nĩi cĩ chất lượng tốt nhất. 3.1.1. Kỹ thuật phục hồi mất gĩi từ phía phát Kỹ thuật này cĩ thể phân chia như theo hình dưới đây:[12] Hình 3.1. Phân loại kỹ thuật phục hồi mất gĩi từ phía phát 3.1.1.1. Truyền gĩi lại 3.1.1.2. Sửa lỗi phía trước (FEC-Forward Error Corection) Khơi phục mất gĩi ở phía phát Redundacy (Media dependent) Bị động Chủ động Truyền lại gĩi Sửa lỗi FEC (Media independent) Xen kẻ gĩi 14 Hình 3.2. Cơ chế phục hồi FEC Hình 3.3. Ví dụ cơ chế phục hồi gĩi Redundancy 3.1.1.3. Kỹ thuật sắp xếp xen kẻ (Interleaving) Hình 3.4. Ví dụ cơ chế sắp xếp xen kẻ 3.1.2. Kỹ thuật bù mất gĩi từ phía thu Kỹ thuật này tạo ra sự thay thế gĩi bị mất bởi gĩi tương tự nguyên bản. 3.1.2.1. Bù mất gĩi bằng kỹ thuật chèn (Insertion) 15 Cơ chế khơi phục mất gĩi này cĩ các loại: 11 12 13 14 15 Lost x Lost x 18 19 20 (a) Các gĩi nhận được cĩ chỉ thị mất gĩi 11 12 13 14 15 Nhiễu Nhiễu 18 19 2020 (b) Khơi phục bằng thay thế nhiễu nền 11 12 13 14 15 15 15 18 19 20 (c) Khơi phục bằng lặp lại gĩi trước đĩ Hình 3.5. Kỹ thuật phục hồi mất gĩi từ phía thu theo cơ chế chèn 3.1.2.2. Bù mất gĩi dựa vào mơ hình LP Kỹ thuật này dùng mơ hình dự đốn tuyến tính LP (Linear Prediction) của quá trình tạo tiếng nĩi. Hình 3.6. Sơ đồ khối thuật tốn bù mất gĩi dựa vào mơ hình LP Theo mơ hình LP, tín hiệu tiếng nĩi x(n) gồm hai thành phần: - Thơng số dự đốn chứa thơng tin bộ máy phát âm. 16 17 Voice packets  Reconstructed signal )( nx ∧ LP analysis Past samples x(n) Pitch period P e(n) Residual signal LP coefficients a(i) )( ne ∧ Excitation signal Prediction filter Pitch detector Excitation generator Synthesis filter 16 - Tín hiệu dư thừa (sai lệch) chứa thơng tin về tín hiệu kích thích. ∑ = +−= N i neinxianx 1 )()()()( (3.1) Tiếng nĩi được tạo ra bằng cách cho tín hiệu kích thích đi qua một bộ lọc tổng hợp (bộ máy phát âm) Phương pháp bù này được thực hiện hồn tồn từ bên thu đối với tín hiệu PCM. Nguyên tắc cơ bản của thuật tốn này là ước tính hệ số LP {a(i)} và tín hiệu kích thích {e(n)} của gĩi (frame) tiếng nĩi bị mất dựa vào thơng tin được trích ra từ frame tiếng nĩi nhận tốt trước đĩ. Hai thơng số này được kết hợp để tạo ra xấp xỉ cho gĩi bị mất. • Bộ phân tích LP Khối này dùng để tìm các hệ số LP {a(i)}, mơ phỏng hình dạng bộ máy phát âm của một frame tiếng nĩi. Frame tiếng nĩi nhận tốt trước đĩ được đưa vào bộ phân tích LP bậc 10 để được tạo ra 10 hệ số dự đốn tuyến tính nhờ thuật tốn Levinson- Durbin. 10 hệ số này được dùng làm hệ số của bộ lọc dự đốn và bộ lọc tổng hợp. • Bộ lọc dự đốn Các mẫu thuộc frame trước đĩ được lọc bằng bộ lọc dự đốn và chỉ cịn lại tín hiệu dư thừa. Tín hiệu này được dùng để dự đốn pitch trong frame tiếng nĩi và tạo tín hiệu kích thích cho frame bị mất. ∑ = −−= 10 1 )()()()( i inxianxne (3.2) • Bộ dự đốn pitch Khối này thực hiện ước đốn pitch của frame nhận tốt trước đĩ từ tín hiệu dư thừa. Thơng tin pitch này được dùng để xây dựng tín hiệu kích thích của frame bị mất. Đối với frame unvoiced, tín hiệu dư thừa khơng cĩ chu kỳ pitch. 17 Đối với frame voiced, vì tần số cơ bản của tiếng nĩi nằm trong khoảng 50Hz – 500Hz, chu kỳ pitch được xác định bằng cách tìm đỉnh của dãy chuẩn hĩa re(n)/re(0) trong khoảng thời gian tương ứng 3 đến 15ms trong frame tiếng nĩi 20ms theo cơng thức sau: ∑ = −= 10 1 )()()( i ae inrirnr (3.3) Với ra(i), r(n-i) lần lượt là chuỗi tự tương quan của các hệ số dự đốn và của các mẫu trong 1 frame. ∑ = += 10 1 )()()( i kka niaianr (3.4) ∑ − = += 1 0 )()()( N n insnsir (3.5) Chu kỳ pitch bằng giá trị n=Np, với re(Np)/re(0) là lớn nhất. • Bộ tạo tín hiệu kích thích Tín hiệu dư thừa và chu kỳ pitch của frame nhận được trước đĩ được dùng để tạo ra tín hiệu kích thích cho frame bị mất. Nếu frame nhận được trước đĩ là unvoiced thì tín hiệu kích thích của frame bị mất là nhiễu. Nếu frame nhận được trước đĩ là voiced thì tín hiệu kích thích của frame bị mất được tạo ra bằng cách: lặp P (pitch) mẫu cuối cùng trong tín hiệu dư thừa nhiều lần cho tới khi điền đầy số mẫu trong tín hiệu kích thích. Hình 3.7. Cách tạo tín hiệu kích thích của frame bị mất từ frame trước đĩ • Bộ lọc tổng hợp P P P P P Residual signal Excitation signal 18 Tín hiệu tiếng nĩi của frame bị mất được tái tạo bằng cách cho tín hiệu kích thích khi đi qua bộ lọc tổng hợp để được thêm vào thơng tin bộ máy phát . Các hệ số LP trong bộ phân tích LP được dùng làm hệ số trong bộ lọc tổng hợp. Bộ lọc tổng hợp là bộ lọc tồn cực bậc 10. ∑ = ∧∧∧ +−= 10 1 )()()()( i neinxianx (3.6) • Phương pháp bù mất gĩi dựa theo mơ hình LP là phương pháp ngoại suy, nĩ chỉ dùng các frame được nhận trước đĩ, khơng dùng các frame sau vì như thế sẽ tăng thêm thời gian trễ, điều này khơng tốt cho các ứng dụng thời gian thực. 3.1.2.3. Bù mất gĩi dùng dự đốn tuyến tính đệ quy Phương pháp này dùng dự đốn tuyến tính một cách đệ quy để ước lượng frame (gĩi) bị mất từ các mẫu (sample) tiếng nĩi thuộc các frame kế cận nhận được. Hình 3.8. Sơ đồ khối thuật tốn bù mất gĩi dùng dự đốn tuyến tính đệ quy Bù mất gĩi đơn dùng cả dự đốn trước và dự đốn sau. Cơng thức dự đốn trước (forward prediction) một mẫu từ các mẫu nhận được trước đĩ: ∑ = − ∧ −= N i ininf xax 1 , *1 (3.7) 19 Với nfx , ∧ là mẫu được dự đốn thuộc frame bị mất, inx − là các mẫu tiếng nĩi thuộc frame được nhận trước đĩ. N là bậc dự đốn; ia là hệ số LPC được tính từ M mẫu thuộc frame nhận được trước frame bị mất ( inx − với i= 1, 2, …, M và M là chiều dài của frame tiếng nĩi). Hệ số LPC được tính bằng cơng thức Levinson-Durbin. Các mẫu sau đĩ, infx + ∧ , được dự đốn một cách đệ quy bởi các mẫu đã được dự đốn và các mẫu nhận được trước đĩ. Ví dụ, nfx , ∧ và ix với i=n-1, n-2,…., n-N+1 được dùng để dự đốn mẫu 1, + ∧ nfx . Hình 3.9. Sơ đồ khối thuật tốn dự đốn các mẫu LPC Trong quá trình dự đốn các mẫu của gĩi bị mất, hệ số LPC của frame bị mất vẫn dùng nguyên lại hệ số LPC của frame nhận tốt trước đĩ. Quá trình dự đốn mẫu được lặp lại cho tồn bộ frame bị mất. ∑ = −+ ∧ + ∧ −= N j jinfjinf xax 1 ,, *1 (3.8) Khi dự đốn, độ lợi của tiếng nĩi dự đốn bị giảm dần. Vì vậy, cần cĩ một độ lợi tăng tuyến tính fG thêm vào. fG bắt đầu bằng 1 tại đầu frame bị mất và bằng 1.8 tại cuối frame bị mất. Độ lợi được nhân vào các mẫu tiếng nĩi dự đốn. Dự đốn sau (backward prediction) là dự đốn bằng cách dựa vào các mẫu phía sau. Cơng thức sau là dự đốn sau của một mẫu từ các mẫu nhận được sau đĩ: 20 ∑ = ++− ∧ −= N i Nininb xbx 1 1, *1 (3.9) Với nbx , ∧ là mẫu được dự đốn sau thuộc frame bị mất, 1++− Ninx là các mẫu tiếng nĩi thuộc frame nhận được sau đĩ; ib là hệ số LPC được tính từ M mẫu thuộc frame nhận được sau frame bị mất. Hệ số LPC cũng được tính bằng cơng thức Levinson-Durbin. Vì thực hiện dự đốn sau nên cần nhận được frame phía sau frame bị mất, do vậy, thời gian trễ xử lý tăng lên. Quá trình dự đốn mẫu được lặp lại cho tồn bộ frame bị mất với trật tự thời gian ngược. Độ lợi thích ứng bG được áp dụng theo cách tương tự. bG bắt đầu bằng 1 tại cuối frame bị mất và bằng 1.8 tại đầu frame bị mất. Độ lợi được nhân vào các mẫu tiếng nĩi dự đốn. Cĩ hai ước đốn cho frame bị mất, đĩ là infx + ∧ , và inbx + ∧ , . Dự đốn trước infx + ∧ , dự đốn phần đầu của frame bị mất tốt hơn; inbx + ∧ , dự đốn tốt hơn phần sau của frame bị mất. Do vậy, cần kết hợp hai dự đốn với trọng số tuyến tính để đạt được dự đốn của một mẫu đơn giản: inbinfin xxx + ∧ + ∧ + ∧ +−= ,, .).1( αα (3.10) Với α là trọng số tăng tuyến tính, α=0 tại đầu frame bị mất và bằng 1 tại cuối frame bị mất. Theo phương pháp dự đốn đệ quy, bù mất gĩi đơn thực hiện nội suy từ gĩi trước và gĩi sau của gĩi bị mất. Nội suy gĩi bị mất từ gĩi ở hai chiều cải thiện tốt hơn chất lượng tiếng nĩi, tuy nhiên, nĩ làm tăng độ trễ xử lý vì phải đợi thêm gĩi thoại. 3.2. CÁC PHƯƠNG PHÁP ĐÁNH GIÁ CHẤT LƯỢNG TIẾNG NĨI 3.2.1. Phương pháp đánh giá chủ quan 3.2.1.1. Phương pháp đánh giá tuyệt đối ACR Đánh giá chất lượng tiếng nĩi theo thang điểm MOS từ 1 -> 5 21 3.2.1.2. Phương pháp đánh giá tương đối • Đánh giá bằng phương pháp so sánh các mẫu tín hiệu theo CCR • Phương pháp đánh giá theo sự suy giảm chất lượng DCR 3.2.2. Phương pháp đánh giá khách quan 3.2.2.1. Đo tỷ số tín hiệu trên nhiễu trên từng khung • Trong miền thời gian • Trong miền tần số 3.2.2.2. Đo khoảng cách phổ dựa trên LPC • Phương pháp đo LLR • Phương pháp đo IS • Phương pháp đo theo khoảng cách cepstrum 3.2.2.3. Đánh giá mơ phỏng theo cảm nhận nghe của con người • Phương pháp đo Weighted Spectral Slope • Phương pháp đánh giá cảm nhận chất lượng thoại PESQ 3.3. KẾT LUẬN CHƯƠNG Chương này đã trình bày các phương pháp khơi phục mất gĩi ở phía phát & ở phía thu, đồng thời trình bày một số phương pháp chủ quan & khách quan chất lượng tiếng nĩi. CHƯƠNG 4 – THỰC HIỆN MƠ PHỎNG & ĐÁNH GIÁ CÁC PHƯƠNG PHÁP BÙ MẤT GĨI 4.1. GIỚI THIỆU CHƯƠNG Dựa vào lý thuyết đã nghiên cứu được, chương này xây dựng các lưu đồ thuật tốn bù mất gĩi ở bên nhận và thực hiện mơ phỏng các thuật tốn bù này bằng Matlab. Sau đĩ đánh giá các kết quả thu được bằng các phương pháp đánh giá khách quan và chủ quan. 4.2. QUY TRÌNH MƠ PHỎNG BÙ MẤT GĨI VÀ ĐÁNH GIÁ THUẬT TỐN Bước 1: Xây dựng thuật tốn Bước 2: Mơ phỏng cơ sở dữ liệu bị mất gĩi 22 Bước 3: Thực hiện các phương pháp bù mất gĩi dựa trên cơ sở dữ liệu Bước 4: Thực hiện đánh giá chất lượng thoại sau khi được bù mất gĩi Bước 5: Nhận xét & đánh giá 4.3. LƯU ĐỒ CÁC PHƯƠNG PHÁP BÙ MẤT GĨI Bắt đầu Cơ sở dữ liệu Giả lập mất gĩi đơn trên từng câu theo các tỷ lệ mất: 5%, 10%, 15%, 20%, 25%, 30%, 35%, 40% Thực hiện bù mất gĩi theo các phương pháp: - Thay thế bằng nhiễu - Lặp lại gĩi nhận được trước đĩ - Dựa vào mơ hình LP - Dự đốn tuyến tính đệ quy Cơ sở dữ liệu mới dùng cho việc đánh giá chất lượng Kết thúc Kết thúc Hình 4.1. Lưu đồ tổng quát thực hiện bù mất gĩi N Ứng với mỗi chỉ số chỉ gĩi bị mất: - Lấy gĩi trước đĩ để thực hiện bù cho gĩi bị mất. - Nếu mất gĩi đầu tiên thì bù gĩi đầu tiên bằng gĩi nhiễu. V = Vector mất gĩi Từ gĩi nhận được trước đĩ, xác định các thơng số: - Hệ số dự đốn tuyến tính LPC - Tín hiệu residual - Voiced/Unvoiced - Chu kỳ pitch P - Độ lợi Gain Thực hiện tạo gĩi bị mất: - Nếu gĩi trước là Unvoiced, gĩi bị mất cĩ: + Tín hiệu kích thích là nhiễu + Hệ số LPC & Gain là các hệ số của gĩi trước đĩ. - Nếu gĩi trước là Voiced, gĩi bị mất cĩ: + Tín hiệu kích thích được tạo ra bằng cách lấy P giá trị cuối cùng trong tín hiệu residual và lặp lại nhiều lần cho đến hết chiều dài gĩi + Hệ số LPC & Gain là các hệ số của gĩi trước đĩ. - Thực hiện giải mã LPC cho gĩi bị mất i = 1; (xét chỉ số thứ i của V) i = i+1; Ghép các gĩi lại theo tỷ lệ chồng lấp overlap là 50% i ≤ length(V) Y Bắt đầu 23 Hình 4.2. Lưu đồ thực hiện bù mất gĩi dựa vào mơ hình LP N Kết thúc Ứng với mỗi chỉ số chỉ gĩi bị mất: - Lấy gĩi trước đĩ và gĩi sau để thực hiện bù cho gĩi bị mất. - Nếu mất gĩi đầu tiên thì bù bằng backward prediction - Nếu mất gĩi cuối cùng thì bù bằng forward prediction V = Vector mất gĩi Forward prediction: - Từ gĩi nhận được trước đĩ, xác định: N hệ số dự đốn tuyến tính LPC i a (i=1 N). - Dự đốn các mẫu của gĩi bị mất từ các mẫu của gĩi trước đĩ: ∑ = − ∧ −= N i ininf xax 1 , *1 - fG tăng tuyến tính, f G = 1 tại đầu frame bị mất và bằng 1.8 tại cuối frame bị mất. i = 1; (xét chỉ số thứ i của V) i = i+1; Ghép các gĩi lại theo tỷ lệ chồng lấp overlap là 50% i ≤ length(V) Backward prediction: - Từ gĩi nhận được phía sau, xác định: N hệ số dự đốn tuyến tính LPC i b (i=1 N). - Dự đốn các mẫu của gĩi bị mất từ các mẫu của gĩi phía sau: ∑ = ++− ∧ −= N i Nininb xbx 1 1, *1 - bG tăng tuyến tính, b G = 1 tại cuối frame bị mất và bằng 1.8 tại đầu frame bị mất. Nội suy gĩi bị mất từ 2 gĩi: phía trước và phía sau: inbinfin xxx + ∧ + ∧ + ∧ +−= ,, .).1( αα α tăng tuyến tính, α=0 tại đầu gĩi bị mất và bằng 1 tại cuối gĩi. Bắt đầu Y 24 4.4. ĐÁNH GIÁ KHÁCH QUAN CHẤT LƯỢNG TIẾNG NĨI SAU KHI ĐƯỢC BÙ MẤT GĨI Cĩ nhiều tiêu chí để đánh giá khách quan chất lượng tiếng nĩi như: - Đo tỷ số tín hiệu trên nhiễu trên từng khung - Đo khoảng cách phổ dựa trên hệ số dự đốn tuyến tính LPC - Đánh giá mơ phỏng theo cảm nhận nghe của con người Các tiêu chí đánh giá khách quan này đều dựa vào sự so sánh giữa file sạch và file đã được bù mất gĩi. Hình 4.5. Đánh giá khách quan theo FWSEG-MARS Hình 4.10. Đánh giá khách quan theo CEP Hình 4.12. ánh giá khách quan theo PESQ Hình 4.3. Lưu đồ bù mất gĩi dùng dự đốn tuyến tính đệ quy 25 Hình 4.12. Đánh giá khách quan theo PESQ 4.5. ĐÁNH GIÁ CHỦ QUAN CHẤT LƯỢNG TIẾNG NĨI SAU KHI ĐƯỢC BÙ MẤT GĨI 4.5.1. Phân chia cơ sở dữ liệu cho từng người tham gia đánh giá 4.5.2. Hoạt động của cơng cụ đánh giá 4.5.3. Kết quả Mặc dù sử dụng 3 phương pháp đánh giá chủ quan (MOS, CCR, DCR) để đánh giá chất lượng tiếng nĩi sau khi bù mất gĩi, tuy nhiên, MOS vẫn là phương pháp cho thang điểm đánh giá hợp lý nhất, bởi nĩ phản ánh trực tiếp nhận xét của người nghe đối với chính chất lượng câu đã được xử lý đấy mà khơng phải tuân theo thang điểm tham chiếu khi so sánh câu được xử lý với câu bị lỗi. MOS 0 1 2 3 4 5 5% 10% 15% 20% 25% 30% 35% 40% Packet Loss (%) M O S Noise Repeat LP-based Recur_LP Hình 4.13.Đồ thị đánh giá chủ quan chất lượng theo thang điểm MOS 4.6. NHẬN XÉT Từ việc thực hiện bù mất gĩi, ta nhận thấy rằng: các yếu tố mất gĩi thoại khác nhau cũng tác động đến chất lượng sau khi bù. Nếu mất tại các gĩi im lặng (unvoiced) thì việc bù mất gĩi sẽ cho chất lượng tốt hơn khi mất gĩi thoại (voiced). Nếu mất gĩi tại các vị trí chuyển (từ unvoiced 26 voiced hay voiced  unvoiced) thì bù mất gĩi khơng thực hiện tốt. Nếu mất gĩi cĩ kích thước lớn thì chất lượng xử lý khơng tốt bằng mất gĩi cĩ kích thước nhỏ…. 4.5.3. KẾT LUẬN CHƯƠNG KẾT LUẬN VÀ KIẾN NGHỊ Mất gĩi trong VoIP là một yếu tố làm chất lượng thoại suy giảm, do vậy việc xem xét và giải quyết vấn đề này rất quan trọng. Đồ án đã thực hiện được các vấn đề : - Tìm hiểu cơ chế truyền gĩi thoại trong mạng IP. - Tìm hiểu các yếu tố ảnh hưởng đến chất lượng truyền dẫn thoại. - Tìm hiểu mơ hình tạo tiếng nĩi và hai loại mã hĩa tiếng nĩi thường được dùng trong mạng IP: LPC và CELP. - Tìm hiểu phương pháp sửa mất gĩi đối với bên phát và phương pháp bù mất gĩi đối với bên nhận: thay gĩi bị mất bằng nhiễu, lặp lại gĩi trước đĩ nhận được, dùng mơ hình lọc nguồn LP hay dùng tuyến tính đệ quy. - Tìm hiểu các phương pháp đánh giá chất lượng tiếng nĩi chủ quan và khách quan. - Mơ phỏng bù mất gĩi đơn bằng ngơn ngữ Matlab; thực hiện đánh giá hiệu quả các thuật tốn bù bằng phương pháp đánh giá khách quan và kiểm nghiệm lại bằng phương pháp đánh giá chủ quan. Tuy nhiên, việc thực hiện bù mất gĩi mới chỉ thực hiện giải quyết đối với mất gĩi đơn; thực hiện được một số phương pháp bù điển hình: kỹ thuật chèn, ngoại suy và nội suy cho gĩi bị mất. Bù mất gĩi chỉ mới thực hiện đối với miền PCM và miền LPC. Do vậy, hướng phát triển của đề tài trong tương lai sẽ là: - Thực hiện các phương pháp bù mất gĩi đối với mất gĩi chùm. - Tìm hiểu thêm các phương pháp bù mất gĩi khác như: thay đổi thang thời gian hay tái tạo gĩi bị mất dựa theo mơ hình huấn luyện. 27 - Thực hiện các phương pháp bù mất gĩi theo các miền mã hĩa khác. --- o O o ---

Các file đính kèm theo tài liệu này:

  • pdftomtat_53_1732.pdf
Luận văn liên quan