Lời nói đầu
Trong những năm gần đây do sự phát triển mạnh mẽ của Internet nên vấn
đề truyền dữ liệu trên mạng đặc biệt là truyền ảnh và âm thanh được quan tâm. Do đó việc nén dữ liệu đặc biệt dữ liệu phim ảnh là cần thiết hơn bao giờ hết. Trong phạm vi luận văn này tôi tập trung vào việc nén dữ liệu video.
Đối với nén ảnh động, chuẩn MPEG(Moving Photographic Experts Group) đã được xác lập bởi ISO và IEC. Đây là một kỹ thuật nén ảnh động đã mang lại nhiều thành công. Nó có thể đạt tỷ lệ nén khá cao 10:1 mà mắt thường khó phân biệt được. Tuy nhiên đây vẫn chưa phải là tỷ lệ cao tối −u.
Sự ra đời của Wavelet đã mở ra một công nghệ mới. Đó là chuẩn MJPEG2000. Sự ra đời của MJPEG2000 mở ra một tương lai mới cho kỹ thuật nén ảnh với những tính năng cao. Kỹ thuật Wavelet cũng được nghiên cứu trong nhiều phần mềm như Matlap .
Mục đích của luận văn này nhằm nghiên cứu một số phương pháp nén
ảnh động đang được quan tâm. Luận văn này được trình bày thành bốn chương và một phụ lục. Chương Một là tổng quan về nén ảnh động. Chương này giới thiệu một số chuẩn nén ảnh động là MPEG1,MPEG2,MPEG4 và MPEG7. Đồng thời cũng trình bày cấu trúc của video. Chương Hai trình bày phương pháp nén Scalable video. Chương này đề cập đến thuật toán LZC và
3D-SPIHT. Chuơng Ba đi sâu vào nghiên cứu đối tượng mã hoá của video dựa
trên biến đổi Wavelet. Chương Bốn nêu khái quát cách thiết kế và cài đặt chương trình. Chương này mang tính chất minh hoạ cho những gì đã được trình bày ở các chương trước. Phần phụ lục nêu một số chương trình nguồn thông dụng viết trên Visual C + + 6. 0.
Do thời gian có hạn nên tôi chỉ mới nghiên cứu được phần nào trong kỹ thuật nén ảnh động do vậy chắc chắn không tránh khỏi thiếu sót. Cuối cùng tôi xin chân thành cảm ơn sự giúp đỡ nhiệt tình và hiệu quả của PGS TS Hồ Anh Tuý đã giúp đỡ tôi hoàn thành luận văn này.
124 trang |
Chia sẻ: lvcdongnoi | Lượt xem: 2620 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Luận văn Nén ảnh động dùng wavelet nghành điện tử viễn thông, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
i m· ho¸ mÆt ph¼ng bit cho
môc ®Ých ®iÒu khiÓn tèc ®é... ThuËt to¸n m· ho¸ mÆt ph¼ng bit 3D-EZBC sÏ
®−îc giíi thiÖu trong ch−¬ng sau.
Luång bit m· ho¸ dïng cho øng dông phô thuéc tr¹ng th¸i ®Þnh d¹ng
nÐn. Do tÊt c¶ c¸c khung trong cïng 1 nhãm ¶nh ®−îc xö lý vµ m· ho¸ ®ång
thêi, nªn cÇn bé ®Öm khung Ng, ë ®©y Ng lµ sè khung cña nhãm ¶nh nh©n
®−îc. TrÔ lín nhÊt quan hÖ gi÷a 2 khung ®Çu cuèi 2Ng - 1 chu kú khung.
Trong hÖ thèng gi¶i m·, ho¹t ®éng biÕn ®æi ng−îc ®−îc thùc hiÖn ng−îc l¹i ®Ó
m· ho¸ mµ kh«ng cÇn bï chuyÓn ®éng. MÉu cña b¨ng con gi¶i m· ®−îc cÊu
tróc bëi mÉu t−¬ng tù - phô thuéc vµo viÖc thùc hiÖn thuËt to¸n l−îng tö ho¸
trong bé gi¶i m· ¶nh EZBC.
§iÒu ®¸ng nãi lµ kh«ng gièng nh− hÖ thèng m· ho¸ lai truyÒn thèng, bï
vµ ®¸nh gi¸ chuyÓn ®éng trong h×nh 2.18 ®−îc h×nh thµnh trªn c¶ hai tÝn hiÖu
®Çu vµo gèc. M¹ch vßng ph¶n håi DPCM vµ c¸c quan hÖ kh¸c kh«ng ®−îc
giíi thiÖu trong hÖ thèng m· ho¸ Video nµy.
2.2.3. B¨ng con m· ho¸ 3 chiÒu
ThuËt to¸n m· ho¸ mÆt ph¼ng bit 3D-EZBC ®−îc më réng trùc tiÕp cña
thuËt to¸n 2 chiÒu 2-D EZBC tíi c¸c khung riªng lÎ trong hÖ thèng b¨ng con 3
chiÒu m« t¶ trªn h×nh 2.5. C©y 1/4 ®Çu tiªn ®−îc thiÕt lËp cho b¨ng con riªng
lÎ tõ khung nhËn ®−îc. Gi¸ trÞ cña nót c©y 1/4 Qk (i, j, t) t¹i vÞ trÝ (i, j, t), møc
c©y 1/4 lµ l vµ b¨ng con k ®−îc x¸c ®Þnh nh− sau:
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 72
( ) ( )
( ) ( )
⎡ ⎤⎣ ⎦
⎧ ⎫⎡ ⎤ ⎡ ⎤⎣ ⎦ ⎣ ⎦⎪ ⎪⎡ ⎤ ⎨ ⎬⎣ ⎦ ⎡ ⎤ ⎡ ⎤⎪ ⎪⎣ ⎦ ⎣ ⎦⎩ ⎭
Q 0 (i, j,t) ∆ c (i, j,t)k k
Q l -1 2i,2j,t ,Q l -1 2i,2j+1,t ,k kQ l (i, j,t) ∆maxk Q l -1 2i+1,2j,t ,Q l -1 2i+1,2j+1,tk k
(2.13)
víi ck (i, j, t) lµ gi¸ trÞ b¨ng con t¹i vÞ trÝ (i, j, t), víi b¨ng con thø k. Víi viÖc
x©y dùng ®Ö quy c©y 1/4, nót ®Ønh cña c©y cã gi¸ trÞ biªn ®é lín nhÈt trong tÊt
c¶ c¸c mÉutõ b¨ng con gièng nhau trong khung nhËn ®−îc. Nót ®Ønh cña c©y
bao gåm LIN t¹i qu¸ tr×nh b¾t ®Çu cña mÆt ph¼ng bit.
D÷ liÖu trªn mÆt ph¼ng ®−îc m· ho¸ tõ mÉu cã nghÜa lín nhÊt MSB ®Õn
mÉu Ýt cã nghÜa nh©t LSB nhê kiÓm tra c¸c nót tõ LIN vµ tinh chØnh hÖ sè tõ
LSP. Chóng ta cã thÓ thùc hiÖn gièng nh− trong m· ho¸ 2-D EZBC cho
viÖcm· ho¸ entropy cña mÆt ph¼ng lÊy mÉu. Thñ tôc hoµn chØnh cã thÓ tãm t¾t
nh− sau:
§Þnh nghÜa
• m (i, j, t): bit cã nghÜa nhÊt (MSB) cña nót (i, j, t).
• Dk: ®é s©u cña c©y 1/4 cho b¨ng läc k.
• Dmax: max{k}{Dk}.
• K: tæng sè b¨ng con.
• n: chØ sè cña mÆt ph¼ng bit th«ng qua hiÖn thêi, t−¬ng øng víi
ng−ìng l−îng tö ho¸ 2n.
• Sn (i, j, t): nót kiÓm tra cã nghÜa (i, j, t) ®èi diÖn víi ng−ìng 2n,
( ) ⎧⎨⎩
<∆ nÕu
cßn l¹i
1 n m(i, j, t)
S i, j, tn 0
Nót (hay ®iÓm ¶nh) (i, j, t) lµ cã ý nghÜa nÕu Sn (i, j, t) = 1, vµ kh«ng cã
ý nghÜa trong tr−êng hîp cßn l¹i.
• LINk[l]: danh s¸ch c¸c nót kh«ng cã nghÜa tõ møc l cña b¨ng con k.
• LSPk: danh s¸ch c¸c ®iÓm ¶nh cã nghÜa tõ b¨ng con k.
• CodeLIN (k, l): hµm xö lý nót kh« trong LINk[l].
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 73
• CodeLSP (k): hµm ®Þnh nghÜa l¹i c¸c hÖ sè.
• CodeDescendants (k, l, i, j, t): hµm cho m· ho¸ cã nghÜa cña tÊt c¶
c¸c nót Qk[l] (i, j, t), dïng cho kiÓm tra møc ng−âng hiÖn thêi.
C¸c b−íc m· ho¸
1. Khëi t¹o
( ) ( ){ }0,0, t t k , l DkLIN lk cßn l¹i
subbank⎧⎪⎨⎪⎩
∀ ∈ =∆ Φ
LSPk = φ
( ) ( ){ }n n log max c i, j, tmax 2 k⎡ ⎤⎢ ⎥⎣ ⎦= ∆
2. for l = 0: Dmax
for k = 0: K - 1
- CodeLIN (k, l)
3. for k = 0: K - 1
- CodeLSP (k)
NÕu (n > 0), gi¶m n quay l¹i b−íc 2.
M· gi¶:
CodeLIN (k, l)
{
for mçi nót (i, j, t) trong LINk[l]
- M· ho¸ Sn (i, j, t)
- NÕu (Sn (i, j, t) = 0)
* Duy tr× phÇn cßn l¹i (i, j, t) trong LINk[l]
- ng−îc l¹i
* NÕu (l = 0), m· ho¸ bit dÊu cña ck (i, j, t) vµ thªm nót (i,
j, t) tíi LSPk
* ng−îc l¹i CodeDescendants (k, l, i, j, t)
}
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 74
CodeDescendants (k, l, i, j, t)
{
for mçi nót (x, y, t) trong { (2i, 2j, t), (2i, 2j+1, t), (2i+1, 2j, t), (2i+1,
2j+1, t)} cña møc l-1 trong c©y 1/4, b¨ng k
- M· ho¸ Sn (x, y, t)
- NÕu (Sn (x, y, t) = 0), thªm nót (x, y, t) vµo LINk[l - 1]
ng−îc l¹i
-NÕu (l = 1), m· ho¸ bit dÊu cña ck (x, y, t) vµ thªm nót (x,
y, t) vµo LSPk
ng−îc l¹i CodeDescendants (k, l - 1, x, y, t)
}
CodeLSP (k)
{
for mçi ®iÓm ¶nh (i, j, t) trong LSPk
- m· ho¸ bit n cña |ck (i, j, t)|
}
2.2.4. Tû lÖ dßng bÝt m· ho¸
TiÕp theo chóng ta sÏ xem xÐt c¸ch nÐn luång bit m· ho¸ tõ bé m· ho¸
®Ó cã thÓ ®¹t hiÖu qu¶ chu c¸c øng dông m· ho¸ Video thay ®æi.
2.2.4.1.HÖ thèng dßng bÝt
Gièng nh− c¬ cÊu cña mÆt ph¼ng m· ho¸ b¨ng con 3 chiÒu/wavelet cña
tÝn hiÖu Video víi tèc ®é chuyÓn ®éng cña khung. Trong tr−êng hîp nµy b¨ng
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 75
con läc 3 chiÒuchØ ra trªn h×nh 2.10, thêi gian ph©n tÝch Rt = 4 víi kh«ng gian
ph©n tÝch Rs = 2, kÕt qu¶ lµ tÝn hiÖu Video ®−îc ph©n thµnh 5 b¨ng l−íi m¾t
c¸o theo thêi gian vµ 3 b¨ng l−íi theo kh«ng gian minh ho¹ trªn h×nh 2.19.
B¨ng con m· ho¸ ®−îc tiÒn l−îng tö ho¸ víi b−íc l−îng tö τ ®−îc gi¶i m· víi
ph¹m vi l−îng tö ho¸ hiÖu qu¶ n2 . ,n n ,...,0maxτ = ∆ = , bëi mÆt ph¼ng gi¶i
m· bit n.
H×nh 2.19. TÇn sè ph©n gi¶i b¨ng con biÕn ®æi tÝn hiÖu Video 3-D
trong hÖ thèng m· ho¸ Vieo
Nhãm ¶nh riªng phôc vô cho ®¬n vÞ m· ho¸ c¬ b¶n cho viÖc h×nh thµnh
®iÒu khiÓn cña luång bit tû lÖ. Thø bËc cña líp bit m· ho¸ trong nhãm ¶nh
®−îc m« t¶ trªn h×nh 2.20.
Trªn cïng cña hÖ thèng m· ho¸, chØ ra trªn H×nh 2.20 (a), mçi nhãm
¶nh m· ho¸ gåm 1 ®¬n vÞ luång bit ®éc lËp {PMV, PY, PU, PV}, ë ®©y PMV
ký hiÖu luång bit cho tr−êng chuyÓn ®éng, vµ PY, PU, PV lµ hÖ sè b¨ng con
®¸p øng víi thµnh phÇn mµu Y, U, V cña tÝn hiÖu nguån Video.
Luång bit chuyÓn ®éng PMV gåm luång bit nhá h¬n {PMV rt |rt =1, . .
., Rt} liªn quan tíi vect¬ m· ho¸ bï chuyÓn ®éng cho b¨ng läc bï chuyÓn ®éng
trong biÓu ®å tû lÖ thêi gian rt, minh ho¹ trªn H×nh 2.20 (b). HÖ sè luång bit
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 76
PV ®−îc t¹o ra tõ sù lùa chän b¨ng con { 0, . . ., Rs } liªn quan tíi hÖ sè m· ho¸
b¨ng con tõ kh«ng gian tû lÖ (rt, rs) vµ thµnh phÇn mµu v ∈ {Y, U, V }, minh
ho¹ trªn H×nh 2.19 vµ 2.20 (c). Trong tÊt c¶ c¸c luång bit con ,t s
v
r rP ®−îc m·
ho¸ tõ MSB ®Õn LSB vµ mçi mÆt ph¼ng bit n th«ng qua sÏ ®−îc ph©n chia
thµnh c¸c mÆt ph¼ng bit con l. Líp hÖ thèng cho hÖ sè luång bit b¨ng con
,t s
v
r rP ®−îc cung cÊp trªn H×nh 2.20 (d), ë ®©y ,t sr rK lµ sè b¨ng con tû lÖ (rt, rs)
vµ Dmax vµ nmax ®Þnh nghÜa trong môc 2.2.3. Dmax = 9; nmax = 12 (víi ∆ =
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 77
1) lµ tham sè ®iÓn h×nh cho ph©n gi¶i SIF (môc 2.5).
H×nh 2.20. Líp hÖ thèng file luång bit ph¸t sinh trong hÖ thèng
m· ho¸ Video scalable EZBC.
(a) §Ønh hÖ thèng. (b) Lùa chän luång bit con chuyÓn ®éng (c) Lùa
chän hÖ sè luång bit con cho thµnh phÇn mµu v. (d) Líp hÖ thèng cho luång
bit con quan hÖ ®Õn kh«ng gian tû lÖ (rt, rs).
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 78
2.2.4.2. Lùa chän dßng bÝt m· ho¸ vµ truyÒn dÉn
Gièng nh− thuËt to¸n m· ho¸ mÆt ph¼ng bit 2 chiÒu 2-D EZBC, chó ý
®Æc biÖt nhËn ®−îc cho m« h×nh hÖ sè b¨ng con 3 chiÒu trong hÖ thèng m·
ho¸ Video v× thÕ luång bit ph©n gi¶i thÊp h¬n cã thÓ gi¶i m· mµ kh«ng cÇn
ph©n gi¶i b¨ng con ë møc cao h¬n. Luång bit b¨ng con trªn H×nh 2.20 ®−îc
m· ho¸ theo tõ m· s« häc ®éc lËp vµ ®−îc ®−a vµo ®Þa chØ ho¸ trong 1 file. KÕt
qu¶ lµ chóng ta cã thÓ chän bÊt kú thµnh phÇn v mµu nµo cña tÝn hiÖu Video
m· ho¸ kh«i phôc l¹i trong sù ph©n gi¶i kh«ng gian kh¸c nhau, tèc ®é khung
vµ møc chÊt l−îng, (R’t, R’s, Qn’), nhê sù lùa chän ®¬n vÞ m· ho¸
{ },, max, 0 ' ,0 ' , 't t sMV v nr r r t t s sP P r R r R n n n≤ ≤ ≤ ≤ ≤ ≤ .
Víi nhãm 8 tÇn sè ph©n chia trong c¶ kh«ng gian vµ thêi gian, viÖc
ph©n gi¶i tÝn hiÖu Video gi¶i m· (tèc ®é khung vµ kÝch th−íc ¶nh) cho phÐp
chia tû lÖ bëi luü thõa 2 trong khu«n d¹ng c¸c tham sè. Cung cÊp víi luång bit
m· ho¸ nhê kh¶ n¨ng dù ®o¸n héi tô tèt, tèc ®é m· ho¸ ®−îc thùc hiÖn liªn
tôc. Ba thµnh phÇn mµu cã thÓ nÐn l¹i l¹i hoÆc bÞ lo¹i bá khi kho dù tr÷ bit rÊt
thÊp.
Víi kh¶ n¨ng mÒm dÎo cña luång bit, hÖ thèng m· ho¸ cña chóng ta lµ
lý t−ëng cho m«i tr−êng øng dông hçn hîp, n¬i mµ m¹ng bao gåm c¸c b¨ng
th«ng kh¸c nhau vµ hÖ thèng ®Çu cuèi víi ®é phøc t¹p kh¸c nhau.
Víi øng dông server-client nh− m· ho¸ Video trªn Internet, luång bit
®¬n trong hÖ thèng cã thÓ co d·n theo sù thay ®æi b¨ng th«ng kh¸c nhau cña
kªnh vµ giíi h¹n cña thiÕt bÞ ®Çu cuèi.
TruyÒn h×nh qu¶ng b¸ vµ héi nghÞ ®a ®iÓm cã −u ®iÓm khi sö dông hÖ
thèng nµy. Thay v× göi rÊt nhiÒu luång bit tõ cïng 1 nguån Video víi bé g¶i
m· chuyªn dông (gäi lµ simulcast), chóng ta chØ cÇn truyÒn luång bit m· ho¸
®¬n th«ng qua toµn m¹ng (gäi lµ multicast). MÊt m¸t do d− thõa gi÷a c¸c
luång bit cã thÓ gi¶m thiÓu. Trong tr−êng hîp nµy, luång bit m· ho¸ nÐn cã
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 79
kh¶ n¨ng thÝch nghi víi viÖc tiÕp cËn ®a líp nh− h×nh 2.21, ë ®©y bé nhËn cã 3
møc ®é phøc t¹p kh¸c nhau.
Th«ng tin sai kh¸c gi÷a líp c¬ së (ký hiÖu lµ BL trong h×nh 2.21) vµ
nguån Video ban ®Çu ®−îc chøa trong líp t¨ng c−êng (ký hiÖu lµ EL0 vµ EL1
trong h×nh 2.8) vµ luång bit m· ho¸ líp thÊp h¬n ®−îc chia sÎ cao víi ng−êi sö
dông ®Çu cuèi. Trong chiÕn l−îc ph¸t thanh truyÒn thèng, truyÒn th«ng trªn
m¹ng ®−îc gi¶m bít cho hÕt nèi A trªn h×nh 2.16.
H×nh 2.21. Minh ho¹ viÖc tiÕp cËn ®a truyÒn thanh ®a líp trong Video
Mét vÝ dô kh¸c, luång bit m· ho¸ Video cã thÓ øng dông cho qu¶ng b¸
Video sö dông bé nhËn - ®iÒu khiÓn ®a líp (RLM) nghiªn cøu bëi McCanne
minh ho¹ trªn h×nh 2.17. Trong l−îc ®å nµy, líp bit m· ho¸ t¨ng c−êng cho
ph©n gi¶i ®−îc truyÒn th«ng qua kªnh ph©n chia. Ng−êi sö dông cuèi cïng cã
thÓ lùa chon gia nhËp hoÆc rêi bá nhãm.
Trong vÝ dô minh ho¹ h×nh 2.22, 5 luång bit ph¸t thanh qu¶ng b¸ tõ
nguån Video ®−îc cung cÊp cho gi¶i m· trong 2 kh«ng gian ph©n gi¶i, hai tèc
®é khung, vµ 2 møc l−îng tö. Nh− ®· chøng minh, luång bit m· ho¸ ®¬n trong
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 80
tr−êng hîp nµy cã thÓ phôc vô cho 4 ng−êi sö dông ®Çu cuèi víi ®Þnh d¹ng
nÐn kh¸c nhau sö dông nguån Video.
H×nh 2.22. Minh ho¹ scalable Video cho ®a truyÒn thanh
Tr¸i víi viÖc h×nh thµnh b¨ng con/h×nh kim tù th¸p – c¬ së cña thuËt
to¸n ®a ph©n gi¶i trong tµi liÖu nµy, hÖ thèng trong t−¬ng lai cung cÊp chÊt
l−îng/tèc ®é mong muèn cho øng dông m¹ng. Bªn c¹nh ®ã chÊt l−îng gi¶i m·
cho ph©n gi¶i kh«ng gian thêi gian kh«ng yªu cÇu b¾t buéc vÒ thêi gian m·
ho¸ ngay khi yªu cÇu chÊt l−îng Video d−íi møc cao nhÊt cung cÊp bëi lußng
bit l−u tr÷.
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 81
2.2.5. KÕt qu¶ thùc nghiÖm
ThuËt to¸n nÐn Video ®−îc thùc hiÖn trªn c¸c phÇn mÒm. Video dïng ®Ó
thö nghiÖm lµ Mobile Calendar, Flower Garden, Football vµ b¶ng Tennis
trong ph©n gi¶i SIF.
2.2.5.1. So s¸nh víi m· ho¸ Nonscalable
Chóng ta sÏ so s¸nh thuËt to¸n IMC3D-EZBC víi chuÈn m· ho¸
nonscalable MPEG-2. Tham sè miªu t¶ trong ch−¬ng tr−íc ®−îc chän cho kÕt
qu¶ m· ho¸ MPEG-2. B¶ng 2.13 cung cÊp hiÖu suÊt PSNR trung b×nh cho m·
ho¸ thµnh phÇn mµu liªn tiÕp Mobile Calendar, Flower Garden vµ Football t¹i
tèc ®é bit m· ho¸ 0.73, 1.2, vµ 2.4 Mbps.
Chóng ta cã thÓ chØ ra chuÈn MPEG-2 bëi 0.8–4.0 dB trong viÖc cung
cÊp c¸c ®Æc tÝnh ®a tèc ®é. Gièng nh− kÕt qu¶ quan s¸t trªn h×nh 2.22 cho
thµnh phÇn x¸m cña Video m· ho¸ Mobile Calendar.
B¶ng 2.5. So s¸nh hiÖu suÊt trung b×nh PSNR cña MPEG-2,
IMC3D-FSSQ, vµ IMC3D-EZBC (in dB)
H×nh 2.22. HiÓn thÞ thµnh phÇn chãi cña ¶nh kh«i phôc
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 82
th«ng qua bé m· ho¸ IMC3D-EZBC vµ MPEG-2
t¹i tèc ®é bit 0.73, 1.2, 2.4 vµ 4.8 Mbps.
Chóng ta còng chØ ra thµnh phÇn chãi cña ¶nh gèc trªn h×nh 2.22. H×nh
2.22 minh ho¹ ph¹m vi bit cã thÓ kÕt hîp bëi bé m· ho¸ IMC3D-EZBC.
H×nh 2.22. So s¸nh Y-PSNR t−¬ng øng víi ph¹m vi bit, Mobile Calendar.
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 83
2.2.5.2. So s¸nh m· ho¸ LZC vµ 3D-SPIHT
H×nh 2.23. So s¸nh thµnh phÇn chãi cña ¶nh tõ khung 001 cña bé gi¶i m· liªn
tiÕp Mobile Calendar t¹i tèc ®é bit 0.73, 1.2, 2.4, vµ 4.8 Mbps
(tõ trªn xuèng d−íi) víi MPEG-2 (bªn tr¸i) vµ IMC3D-EZBC (bªn ph¶i).
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 84
H×nh 2.24. Thµnh phÇn chãi cña ¶nh gièng nhau
trªn h×nh 2.23 tõ khung 001 cña ¶nh gèc Mobile Calendar.
B¶ng 2.6: So s¸nh PSNR cho 3 bé m· ho¸ LZC, 3DSPIHT,
vµ IMC3D-EZBC t¹i tèc ®é bit kh¸c nhau t¹i møc x¸m cña chuçi ¶nh kiÓm tra
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 85
H×nh 2.25: So s¸nh PSNR cho møc x¸m cña Flower Garden
IMC3D-EZBC còng ®−îc so s¸nh víi 2 tèc ®é cña bé m· ho¸ Video
3D-SPIHT vµ LZC. Víi LZC, chóng ta thiÕt lËp c©u tróc file sö dông 9 b¨ng
läc cña Adelson cho b¨ng läc kh«ng gian, khung cho mçi khèi truyÒn dÉn F =
32. B¶ng 2.6 tãm t¾t gi¸ trÞ trung b×nh PSNR cho møc x¸m m· ho¸ cña Video
kiÓm tra Mobile Calendar, Flower garden, vµ b¶ng Tennis at bitrates 0.6, 1.2,
and 2.4Mbps.
Kh«ng bï chuyÓn ®éng, 3D-SPIHT chØ ra h×nh thøc kÐm trªn Mobile
Calendar vµ Flower Garden, c¶ 2 clips víi sù chuyÓn ®éng lín. Gi¸ trÞ trung
b×nh PSNR cho møc x¸m m· ho¸ cña Flower Garden trong ph¹m vi tèc ®é
réng r·i ®−îc miªu t¶ trªn h×nh 2.133. KÕt qu¶ m· ho¸ chØ ra trong B¶ng 2.6
vµ h×nh 2.25 cho bé m· ho¸.
ChÊt l−îng thÞ gi¸c cho cÊu tróc khung ®−îc ®¸nh gi¸ trong h×nh
2.26.¶nh kh«i phôc cho thuËt to¸n 3D-SPIHT xuÊt hiÖn chËp chênkhi dïng
b¨ng läc thêi gian. ¶nh h−ëng nµy suy gi¶m trong LZC víi bï chuyÓn ®éng
toµn côc. H×nh 2.27 cung cÊp khung Y-PSNR kÕt qu¶ cña bé m· ho¸ (IMC3D-
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 86
EZBC) cho ¶nh liªn tiÕp Mobile Calendar t¹i tèc ®é bit kh¸c nhau víi c¸c
phiªn b¶n kh«ng bbï chuyÓn ®éng (3D-EZBC).
H×nh 2.26. So s¸nh ¶nh cÊu tróc bëi 3 bé m· ho¸ 3D-EZBC, LZC vµ SPIHT,
khung 001 cña møc x¸m Flower Garden t¹i 1.2 Mbps. Gi¸ trÞ trung b×nh
PSNRs cho toµn bé chuçi ¶nhghi trong B¶ng 2.6. Trªn cïng bªn tr¸it: ¶nh
gèc. Trªn cïng bªn ph¶i: 3D-SPIHT (23.28dB). D−íi cïng bªn tr¸i: LZC
(25.11 dB). D−íi cïng bªn ph¶i: IMC3D-EZBC (24.32 dB).
2.2.5.3. M· ho¸ tèc ®é ®a ph©n gi¶i
Môc nµy giíi thiÖu kÕt qu¶ ®a ph©n gi¶i ®a tèc ®é m· ho¸ sö dông thuËt
to¸n trong môc 2.2.4. Víi chuçi ¶nh kiÓm tra (trong ph©n gi¶i SIF), hÖ thèng
cã thÓ hç trî gi¶i m· khung t¹i tèc ®é 30, 15, 7.5, 3.75 hoÆc 1.875 fps, vµ
kh«ng gian ph©n gi¶i 352 x 240 hoÆc 176 x 120 pixels.
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 87
Trªn h×nh 2.28, chóng ta chØ ra khung ®Çu tiªn tõ Video kh«i phôc
Mobile Calendar t¹i tèc ®é bit m· ho¸ trung b×nh 0.505 bit/pixel (bpp) cho tÊt
c¶ c¸c møc ph©n gi¶i hç trî theo kh«ng gian vµ thêi gian. Gi¸ trÞ trung b×nh
PSNR ®−îc lËp trªn b¶ng 2.7.
H×nh 2.27. So s¸nh tõng khung Y-PSNR cña EZBC víi (IMC3D-EZBC)
vµ kh«ng bï chuyÓn ®éng (3D-EZBC) cho m· ho¸ Mobile Calendar
t¹i tèc ®é bit 2.4, 1.2, 0.6, 0.3 Mbps.
Trong b¶ng 2.8, chóng ta hiÓn thÞ líp byte cña nhãm ¶nh ®Çu tiªn cho
thµnh phÇn chãi cña luång bit m· ho¸ trong b¶ng 2.7.
øng dông phæ biÕn miªu t¶ trªn h×nh 2.8 víi møc ph©n gi¶i “t-LL”, “t-L” vµ
“Full”, luång bit m· ho¸ ë ®©y cã thÓ gi¶m t¾c nghÏn trªn ®−êng truyÒn th«ng
qua tèc ®é 960.0 Kbps (640.0 Kbps + 320.0 Kbps) cho kÕt nèi A.
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 88
B¶ng 2.7. Gi¸ trÞ trung b×nh PSNR (dB) cho m· ho¸ ®a ph©n gi¶i cña Mobile
Calendar víi møc ®é ph©n gi¶i kh«ng gian thêi gian vµ tèc ®é m· ho¸ 0.505
bpp.
B¶ng 2.8. Bè trÝ byte cña nhãm ¶nh ®Çu tiªn cho thµnh phÇn chãi
cña luång bit tû lÖ trong b¶ng2.7. TÇn sè ph©n chia ®¸p ønghiÓn thÞ trªn h×nh
2.27.
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 89
H×nh 2.28, 2.29, vµ 2.30 chØ ra khung ®Çu tiªn tõ bé gi¶i m· Flower Garden
liªn tiÕp t¹i tèc ®é bit 800, 200, vµ 50 Kbps.
H×nh 2.28. Khung ®Çu tiªn cña chuçi ¶nh kh«i phôc Mobile Calendar
t¹i møc ph©n gi¶i theo kh«ng gian vµ thêi gian thay ®æi vµ gi¶i m·
t¹i tèc ®é bit 0.505 bpp.
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 90
H×nh 2.29. Thùc hiÖn ph©n chia tÇn sè theo b¶ng 2.8.
B¶ng 2.9. So s¸nh PSNR (dB) cña IMC3D-EZBC
cã vµ kh«ng cã ph©n gi¶i tû lÖ, Football.
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 91
H×nh 2.30. Khung ®Çu tiªn tõ chuçi ¶nh kh«i phôc Flower Garden
víi møc ®é ph©n gi¶i kh¸c nhau, t¹i tèc ®é 800 Kbps.
CÆp chØ sè d−íi ®©y Y-PSNR cho khung ®Çu tiªn vµ gi¸ trÞ trung b×nh
Y-PSNR cho toµn bé chuçi ¶nh. (a) §Ønh bªn tr¸i: Ph©n gi¶i toµn bé, (27.88
dB, 26.25 dB). (b) §Ønh bªn ph¶i: t-L, (24.67 dB, 27.76 dB). (c) D−íi cïng
bªn tr¸i: t-LL, (32.57 dB, 30.83 dB). (d) D−íi cïng bªn ph¶i: t-LLL, (34.23
dB, 37.30dB).
2.2.6. Tãm t¾t vµ kÕt luËn
Ch−¬ng nµy giíi thiÖu hÖ thèng m· ho¸ Video b¨ng con 3 chiÒu/wavelet
IMC3D-EZBC. §Çu tiªn chóng ta kh¸i qu¸t l¹i c¸c ph−¬ng ph¸p m· ho¸ hiªn
thêi nh− chuÈn MPEG-2 vµ H.263+, víi viÖc kÕ thõa næi bËt cña FGS trong
MPEG-4. Chóng ta còng ®Ò cËp ®Õn nh÷ng h¹n chÕ cña ph−¬ng ph¸p DPCM.
§Ó tr¸nh ®Ö quy trong cÊu tróc m· ho¸, chóng ta ®Ò xuÊt ph−¬ng ph¸p m· ho¸
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 92
míi dùa trªn c¬ së b¨ng läc 3-D. HiÖu qu¶ cña thuËt to¸n nÐn ¶nh EZBC ®−îc
më réng víi 3 tham sè cho kÕt qu¶ m· ho¸ theo thêi gian kh«ng gian. Mét vµi
®Æc tÝnh cña EZBC nh− hiÖu qu¶ nÐn, ®¬n gi¶n vµ tû lÖ SNR vÉn ®−îc duy tr×.
Chóng ta còng ®Ò cËp ®Õn viÖc so s¸nh chuçi Video thùc hiÖn LZC vµ
3D-SPIHT. KÕt qu¶ h×nh thµnh khi chuyÓn ®éng víi tèc ®é cao trong Video.
H×nh 2.31. Khung ®Çu tiªn tõ chuçi ¶nh kh«i phôc Flower Garden
víi møc ph©n gi¶i kh¸c nhau víi tèc ®é 200 Kbps.
Bè trÝ ¶nh ®−îc m« t¶ trong h×nh trªn cïng. CÆp Y-PSNR cho khung
®Çu tiªn vµ gi¸ trÞ trung b×nh Y-PSNR cho toµn bé chuçi ¶nh.
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 93
• Ph©n gi¶i ®Çy ®ñ: (22.70 dB, 21.14 dB).
• Ph©n gi¶i t-LL: (24.58 dB, 23.16 dB).
• Ph©n gi¶i t-LLLL: (30.84 dB, 24.87 dB).
• Ph©n gi¶i s-LL: (27.74 dB, 24.77 dB).
• Ph©n gi¶i t-L-s-LL: (24.02 dB, 25.69 dB).
• Ph©n gi¶i t-LL-s-LL: (31.04 dB, 27.22 dB).
• Ph©n gi¶i t-LLs- LL: (35.04 dB, 30.83 dB).
H×nh 2.32. Khung ®Çu tiªn tõ chuçi m· ho¸ FlowerGarden
víi møc ®é ph©n gi¶i kh¸c nhau, tèc ®é 50 Kbps.
CÆp Y-PSNR cho khung ®Çu tiªn vµ gi¸ trÞ trung b×nh Y-PSNR cho toµn
chuçi ¶nh.
(a) §Ønh trªn cïng bªn tr¸i: t-LL, (13.03 dB, 17.56 dB).
(b) §Ønh trªn cïng bªn ph¶i: t-LLLL, (22.79 dB, 21.93 dB).
(c) §Ønh d−íi cïng bªn tr¸i: t-LL-s-LL, (20.48 dB, 20.05 dB).
(d) §Ønh trªn cïng, phÝa gi÷a: t-LLL-s-LL, (24.21 dB, 22.95 dB).
(e) §Ønh trªn cïng bªn ph¶i: t-LLLL-s-LL, (23.09 dB, 22.131 dB).
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 94
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 95
Ch−¬ng 3 §èi t−îng-c¬ së m· ho¸ SCALABLE
Trong nh÷ng n¨m g©n ®©y, ngµnh c«ng nghiÖp gi¶i trÝ, m¸y tÝnh, viÔn
th«ng ph¸t triÓn nhanh chãng ®· t¹o ra sù quan t©m rÊt lín trong c¸c øng dùng
phim ¶nh gäi chung lµ ®a truyÒn th«ng. Xu h−íng nµy cµng t¨ng nhanh do
nhu cÇu sö dông World Wide Web (WWW) trªn Internet.
Trong hÖ thèng m· ho¸ ¶nh vµ Video sè, mét bøc tranh ®−îc giíi thiÖu
nh− lµ m¶ng ®iÓm ¶nh h×nh ch÷ nhËt vµ ®−îc xö lý m· ho¸. Theo ®ã th× chØ
khung c¬ b¶n míi ®−îc xö lý. Ng−êi sö dông kh«ng thÓ truy cËp hoÆc ®iÒu
khiÓn ®èi t−îng trªn mµn h×nh khi mµ ch−a gi¶i m·.
Cã mét gi¶i ph¸p ®−îc cung cÊp bëi l−îc ®å m· ho¸ ®èi t−îng Video.
H×nh 3.1 ®· chØ ra s¬ ®å chung cña hÖ thèng m· ho¸ ®èi t−îng Video. Ph−¬ng
ph¸p tiÕp cËn cho m· ho¸ ®ã lµ xem xÐt tÝn hiÖu Video khi ph©n tÝch l−îc ®å
Video trong m¾t ng−êi.
§èi t−îng Video VO ®−îc m· ho¸ ®éc lËp vµ cã thÓ kh«i phôc l¹i tõ
luång bit. Ng−êi sö dông cã thÓ t¸c ®éng tíi bé m· ho¸, hoÆc lµ ph©n bè ®iÒu
khiÓn m· ho¸ trong tr−êng hîp tèc ®é bit ®−îc ®iÒu khiÓn kh¸c nhau hoÆc lµ
t¸c ®éng ®a thµnh phÇn nhê thay ®æi c¸c tham sè nh− lµ c¸c thµnh phÇn ng÷
c¶nh. Trong tr−êng hîp kh«ng cã kªnh ph¶n håi hay khi luång bit tån t¹i,
ng−êi sö dông cã thÓ gi¶i m· bëi viÖc s¾p xÕp vÞ trÝ cña VO hoÆc yªu cÇu ®a
kªnh.
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 96
H×nh 3.1: S¬ ®å khèi chung cña hÖ thèng m· ho¸ ®èi t−îng Video
Víi môc ®Ých cung cÊp kü thuËt chuÈn trong l−u tr÷, truyÒn dÉn vµ ®iÒu
khiÓn tèc ®é t¹i m«i tr−êng d÷ liÖu phim ¶nh, nhãm chuyªn gia vÒ ¶nh
Moving Picture Expert Group (MPEG) ®· ®Ò xuÊt kü thuËt m· ho¸ ®èi t−îng
Video nh− lµ h¹t nh©n trong chuÈn MPEG-4. øng dông ¶nh ¶o bao gåm c¬ së
kh«i phôc vµ l−u tr÷, tiÒn xö lý tinh vi tr−êng quay, vµ luång Video trªn
Internet/ Intranet.
Trong luËn v¨n nµy, ta sÏ ph¸t triÓn thuËt to¸n dùa trªn ®èi t−îng m·
ho¸ ¶nh ®−îc më réng cña EZBC. L−îc ®å míi nµy cã thÓ lµm viÖc nh− lµ
mét c«ng cô m· ho¸ trong hÖ thèng ®èi t−îng m· ho¸ Video. Do luång bit cho
¶nh vµ Video ®−îc t¹o ra ®éc lËp, ®−êng nÐt g©y ra bëi c¸c yÕu tè kh«ng tù
nhiªn trong mËt ®é ¶nh däc theo biªn cña ®èi t−îng th−êng g©y nhiÔu khi xem
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 97
xÐt trong øng dông ®èi t−îng m· ho¸. §iÒu nµy sÏ ®−îc ph©n tÝch trong
ch−¬ng tiÕp theo.
PhÇn cßn l¹i ®−îc cÊu tróc nh− sau:
• Môc 3.2: NÒn t¶ng cña ®èi t−îng m· ho¸.
• Môc 3.3: H×nh thøc cña thuËt to¸n m· ho¸ míi.
• Môc 3.4: Tãm t¾t ch−¬ng.
3.1. §èi t−îng c¬ b¶n - C¬ së m· ho¸
3.1.1 MÆt ph¼ng ®èi t−îng Video
Trong chuÈn MPEG-4, ®èi t−îng Video trong chuçi phim ¶nh mang l¹i
cho ng−êi sö dông quyÒn truy cËp chØnh söa. Thêi gian lÊy mÉu cña ®èi t−îng
Video ®−îc gäi lµ mÆt ph¼ng Video (VOP’s). Khung Video bao gåm tÊt c¶ c¸c
nhãm ¶nh tõ ®èi t−îng Video trong phim ¶nh nhËn ®−îc.
Kh¸i niÖm chung ®−îc minh ho¹ trªn h×nh 3.2. ë ®©y cã 3 mÆt ph¼ng
Video (bao gåm c¶ c¬ së) t¹o thµnh h×nh ¶nh hîp nhÊt. Chóng ta chó ý r»ng
l−îc ®å m· ho¸ ®èi t−îng nµy gi¶m thiÓu so víi m· ho¸ tõng khung truyÒn
thèng khi toµn bé chuçi ¶nh ®−îc xem nh− lµ 1 ®èi t−îng Video ®¬n lÎ.
Th«ng tin vÒ thµnh phÇn ¶nh ®−îc chøa trong mÆt ph¼ng alpha, cÊu tróc
®−îc sö dông réng r·i trong tÝnh to¸n ®å ho¹ cho miªu t¶ phim ¶nh. Trong mÆt
ph¼ng nhÞ ph©n alpha, ‘0’ x¸c ®Þnh ®iÓm ¶nh trong suèt vµ ‘1’ ký hiÖu cho
®iÓm ¶nh ®ôc. Mçi nhãm ¶nh ®−îc chØ ®Þnh cho mÆt ph¼ng alpha x¸c ®Þnh ®èi
t−îng Video t−¬ng øng, ®−îc thÓ hiÖn hoÆc Èn ®i t¹i h×nh ¶nh kÕt hîp trong
cïng 1 thêi gian. Mét møc ®é Video trung gian trong suèt cho phÐp sö dông
mÆt ph¼ng x¸m tû lÖ alpha, víi 8 bits/pixel. KÕt qu¶ lµ c−êng ®é ¶nh ghÐp lai
nhËn ®−îc bëi:
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 98
[ ] [ ] [ ]
0
, , . ,
N
c i j
j
I m n m n I m nα
=
=∑ (3.1)
ë ®©y N lµ sè ®èi t−îng Video, vµ [ ],j m nα vµ Ij [m, n] lµ mÆt ph¼ng alpha vµ
c−êng ®é ¶nh cña ®èi t−îng Video j.
H×nh 3.2. VÝ dô ¶nh ghÐp hîp bao gåm 3 mÆt ph¼ng ®èi t−îng Video
(mçi mÆt ph¼ng x¸c ®Þnh bëi 1 thµnh phÇn mµu).
Víi mÆt ph¼ng alpha, th«ng tin ®iÒu khiÓn ®èi t−îng Video trong h×nh
3.1 cã thÓ ®¸p øng bëi thuËt to¸n vÕt ®èi t−îng on hoÆc off, dùa trªn mét vµi
kü thuËt ph©n ¶nh/chuyÓn ®éng. Hoµn toµn ®óng ®¾n khi cho r»ng ®èi t−îng
Video ®−îc t¹o ra hoÆc tån t¹i nh− tiªu ®Ò ti vi/ phim ¶nh vµ ®å ho¹ m¸y tÝnh.
L−îc ®å ph©n tÝch h×nh (3.1) cung cÊp kiÕn tróc phæ biÕn cho kÕt hîp gi÷a
thuéc tÝnh tù nhiªn vµ nh©n t¹o cña ®èi t−îng Video.
3.1.2. C«ng cô m· ho¸ cho ®èi t−îng Video
Mét nhãm ¶nh h−íng ®èi t−îng ®−îc miªu t¶ bëi h×nh d¹ng, thµnh phÇn
mµu vµ th«ng tin chuyÓn ®éng. ThuËt to¸n khèi thÝch hîp tiªu chuÈn cho ®¸nh
gi¸ chuyÓn ®éng cã thÓ më réng cho m· ho¸ h−íng ®èi t−îng Video trªn c¬ së
khèi biªn boundary blocks, nh− chuÈn MPEG-4.
3.1.2.1. §Þnh d¹ng m∙ ho¸
Kü thuËt m· ho¸ theo h×nh d¹ng ®−îc dïng ®Ó giíi thiÖu th«ng tin mÆt
ph¨ng alpha. ThuËt to¸n m· ho¸ h×nh d¹ng chung cã thÓ øng dông trùc tiÕp
cho mÆt ph¼ng nhÞ ph©n. Víi mÆt ph¼ng alpha cã tû lÖ x¸m m· ho¸, chóng ta
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 99
cã thÓ m· ho¸ tÝn hiÖu hç trî sö dông bé m· ho¸ nhÞ ph©n ch÷ nhËt nhê gi¸ trÞ
m· ho¸ trong suèt bªn trong ®èi t−îng dùa trªn c¬ së kÕt cÊu bé m· ho¸.
T−¬ng tù nh− øng dông nÐn ¶nh truyÒn thèng, m· ho¸ h×nh d¹ng cã thÓ cã tæn
thÊt hoÆc tæn thÊt rÊt Ýt. M· ho¸ b¶n ®å bit hoÆc chuçi m· ho¸ lµ hai ph−¬ng
ph¸p phæ biÕn cho nÐn ®Þnh d¹ng Ýt tæn hao. Trong b¶n ®å bit m· ho¸(mét
trong c¸c chuÈn MPEG-4), ranh giíi khèi gåm ®Çy ®ñ mÆt ph¼ng ®èi t−îng
Video ®· ®−îc ®Þnh nghÜa. MÆt ph¼ng bit x¸c ®Þnh phÇn ®ôc (d¹ng nhÞ ph©n)
cña ®iÓm ¶nh riªng lÎ trong ranh giíi khèi hîp ®−îc m· ho¸ entropy. Trong
chuçi m· ho¸, tÊt c¶ ranh giíi ®iÓm ¶nh tõ ®èi t−îng ®−îc ph¸t hiÖn däc theo
®−êng viÒn ®èi t−îng. Thay ®æi quan hÖ trùc tiÕp (®i tõ ®iÓm nµy ®Õn ®iÓm
kh¸c) lµ th«ng tin yªu cÇu m· ho¸. CÊu tróc l¹i h×nh ¶nh chÝnh x¸c cña mÆt
ph¼ng ®èi t−îng Video nh»m môc ®Ých gi¶m gi¸ cña bit trong m· ho¸ theo
h×nh d¹ng cã tæn hao. ThuËt to¸n nÐn h×nh d¹ng cã tæn hao bao gåm tÝnh xÊp
xØ h×nh häc, miªu t¶ Fourier vµ tiÒm Èn viÖc m· ho¸.
3.1.2.2. CÊu tróc m∙ ho¸
Khèi truyÒn thèng vµ b¨ng con biÕn ®æi cho øng dông m· ho¸ ¶nh ®−îc
thùc hiÖn cho tÝn hiÖu trong h×nh ch÷ nhËt. Trong tr−êng hîp nµy, DCT ®−îc
thiÕt lËp trong chuÈn m· ho¸ quèc tÕ th−êng lµ khèi 8 x 8. BiÕn ®æi DWT ®−îc
h×nh thµnh cho toµn bé ¶nh.
Mét vµi thuËt to¸n ®−îc ®Ò cËp trong luËn v¨n nh»m t¨ng hiÖu qu¶ biÕn
®æi cÊu tróc h×nh d¹ng tÝn hiÖu cho ®èi t−îng - c¬ së m· ho¸. ThuËt to¸n ®Öm
rÊt ®¬n gi¶n vµ ®−îc giíi thiÖu trong luËn v¨n. Víi c¸ch tiÕp cËn nh− trªn,
®−êng viÒn khèi tõ h×nh d¹ng tuú ý cña mÆt ph¼ng ®èi t−îng Video ®−îc ®Öm
trong ph¹m vi khèi. Nã ®−îc sö dông trong chuÈn MPEG-4 sö dông DCT vµ
trong OWT (Object Wavelet Transform).
Tuy nhiªn ph−¬ng ph¸p nµy t¹o ra nhiÒu mÉu tÝn hiÖu ®Ó m· ho¸ sau
khi biÕn ®æi, do ®ã nã kh«ng hiÖu qu¶ trong nÐn. C«ng cô m· ho¸ xem biªn
®èi t−îng nh− lµ kÕt qu¶ tÝn hiÖu ®Öm. H×nh d¹ng thÝch nghi DCT (SA-DCT)
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 100
minh ho¹ trªn h×nh 3.3 lµ mét l−îc ®å phæ biÕn kh¸c cña ®èi t−îng vµ ®−îc
chän trong chuÈn MPEG-4 phiªn b¶n 2. §Æc tÝnh −u viÖt cña ph−¬ng ph¸p nµy
lµ nã hÖ sè biÕn ®æi chÝnh x¸c gièng nh− ®Çu vµo. Tuy nhiªn ®Æc tÝnh thèng kª
cña hÖ sè theo chiÒu ngang ®−îc thay ®æi bëi mét hÖ sè ho¹t ®éng minh ho¹
trªn h×nh 3.3 (b). §iÒu nµy cã thÓ lµm gi¶m hiÖu qu¶ truyÒn theo chiÒu ngang.
ThuËt to¸n t−¬ng tù ®−îc ph¸t triÓn cho biÕn ®æi wavelet thÝch nghi - Adaptive
Wavelet Transforms (SAWT).
MiÒn kh¸c- c¬ së biÕn ®æi wavelet RBDWT víi ®Æc tÝnh ®iÓn h×nh sÏ ®Ò
cËp ®Õn trong môc 3.2.
3.2. §èi t−îng-C¬ së m· ho¸ sö dông EZBC
Trong môc nµy chóng ta sÏ ph¸t triÓn thuËt to¸n m· ho¸ EZBC nh»m
t¨ng hiÖu qu¶ trªn ®èi t−îng - c¬ së m· ho¸ ¶nh. ThuËt to¸n ®−a ra cã thÓ øng
dông trªn c¬ cÊu m· ho¸ mÆt ph¼ng ®èi t−îng Video VOP - c¬ së cña hÖ thèng
m· ho¸ Video. §Çu tiªn chóng ta cung cÊp tæng quan vÒ hÖ thèng. Cèt lâi cña
thuËt to¸n, ®èi t−îng - c¬ së m· ho¸ mÆt ph¼ng bit EZBC, sÏ ®−îc ®Ò cËp chi
tiÕt trong môc sau.
H×nh 3.3. C¸c b−íc thùc hiÖn SA-DCT.
§iÓm ¶nh t−¬ng ®−¬ng vïng x¸m, ®ã lµ mÉu bªn trong cña ®èi t−îng.
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 101
3.2.1. Tæng quan
§èi t−îng ®Ò xuÊt - c¬ së cña hÖ thèng m· ho¸ ¶nh EZBC (OB-EZBC)
biÓu thÞ trªn h×nh 3.4 (a). Bé m· ho¸ chÊp nhËn ®èi t−îng ¶nh, ký hiÖu bëi
VOP’s, nh− lµ ®Çu vµo vµ m· ho¸ chóng riªng lÎ. §Çu vµo cña mÆt ph¼ng ®èi
t−îng Video cã thÓ tån t¹i trùc tiÕp bëi øng dông cña mét vµi thuËt to¸n ph©n
chia.
Gi¶ thiÕt r»ng mÆt ph¼ng alpha kÕt hîp víi mÆt ph¼ng ®èi t−îng Video
riªng lÎ ®−îc l−îng tö ho¸ sang d¹ng nhÞ ph©n. V× thÕ mçi ®iÓm ¶nh ®Çu vµo
®−îc xem nh− lµ bªn trong hoÆc bªn ngoµi cña mét ®èi t−îng. BÊt kú thuËt
to¸n m· ho¸ ®Þnh d¹ng nµo ®· giíi thiÖu trong môc 3.1.2.1 còng cã thÓ ®−îc
thiÕt lËp ®Ó giíi thiÖu th«ng tin ®Þnh d¹ng trong hÖ thèng. M· ho¸ ®Þnh d¹ng
cã tæn hao cã thÓ ®−îc øng dông ngay khi h×nh d¹ng ®èi t−îng kh«i phôc
®−îc ®−a cho chuçi kÕt cÊu m· ho¸ tuÇn tù.
CÊu tróc tÝn hiÖu ph©n chia theo miÒn - c¬ së biÕn ®æi wavelet rêi r¹c
(RBDWT), ®−îc miªu t¶ 1 c¸ch ng¾n gän. HÖ sè biÕn ®æi w ®−îc m· ho¸ bëi
®èi t−îng ®Ò xuÊt lµ hÖ sè m· ho¸ mÆt ph¼ng bit c¬ b¶n EZBC (xem chi tiÕt
trong môc 3.2.3). MÆt ph¼ng ph©n chia alpha hay mÆt n¹ m, cung cÊp th«ng
tin ®Þnh d¹ng cho ®èi t−îng biÕn ®æi trong b¨ng con riªng lÎ, ®−îc dïng lµm
®Çu vµo cho mÆt ph¼ng bit m· ho¸. Luång bit cho m· ho¸ ®Þnh d¹ng vµ cÊu
tróc m· ho¸ cña ®èi t−îng riªng lÎ ®−îc biªn dÞch trong luång vµo bé xö lý ®Ó
ph¸t sinh luång bit cuèi cïng.
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 102
(b) Mét nh¸nh b¨ng con cña kü thuËt m· ho¸ mÆt ph¼ng bit OB-EZBC
H×nh 3.4. S¬ ®å khèi cña ®èi t−îng c¬ së cña hÖ thèng m· ho¸ ¶nh EZBC.
3.2.2. MiÒn – C¬ së biÕn ®æi Wavelet rêi r¹c
MiÒn - c¬ së biÕn ®æi wavelet rêi r¹c (RBDWT) ph©n chia cho tÝn hiÖu
¶nh cã h×nh d¹ng tuú ý. ThuËt to¸n biÕn ®æi b¨ng con nµy kh«ng më réng, ®ã
lµ mét ®Æc tÝnh ®iÓn h×nh cho hiÖu qu¶ nÐn. Sè mÉu ®Çu vµo gièng hÖt kÕt qu¶
hÖ sè biÕn ®æi. C¬ së biÕn ®æi wavelet rêi r¹c RBDWT thiÕt lËp trong hÖ thèng
nµy lµ phiªn b¶n ®· ®−îc hiÖu chØnh. Trong qu¸ tr×nh thùc hiÖn, bé läc QMF
®−îc thay thÕ bëi bé läc Daubechies 9/7. ThuËt to¸n kh«ng më réng tÝn hiÖu
c©n ®èi cho b¨ng läc ®a tèc ®é ®−îc sö dông ®Ó qu¶n lý biªn cña ®èi t−îng.
§−êng ph©n ®o¹n cña viÖc lÊy mÉu xuèng ®−îc h×nh thµnh víi toµn
h×nh ¶nh nguån kÕt hîp, thay v× kÕt hîp côc bé trong ®−êng viÒn cña b¨ng läc
®Çu vµo. Sau ®ã cã thÓ g©y ra trÔ pha tõ hµng nµy ®Õn hµng kh¸c, tõ cét nµy
®Õn cét kh¸c tíi tæn hao ®¸ng kÓ. MÉu tõ ®−êng ph©n chia cña 1 ®¬n vÞ chiÒu
dµi ch½n ®−îc chia tû lÖ bëi hÖ sè 1 chiÒu DC råi sau ®ã ®−îc copy sang b¨ng
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 103
läc th«ng thÊp. MÉu tõ 1 ®¬n vÞ chiÒu dµi ph©n chia trong vÞ trÝ lÎ ®−îc ®Æt tªn
lµ“SINGLE” vµ sau ®ã ®−îc m· ho¸ riªng.
3.2.3. §èi t−îng-C¬ së m· ho¸ mÆt ph¼ng bÝt EZBC
§èi t−îng - ph−¬ng tiÖn m· ho¸ mÆt ph¼ng bit EZBC cho b¨ng con k
thÓ hiÖn trªn h×nh 3.4 (b), ë ®©y wk vµ mk ký hiÖu lµ hÖ sè RBDWT vµ d¹ng
mÆt n¹ ph©n tÝch cho b¨ng con k.
Trong khèi tiÒn l−îng tö, tÊt c¶ c¸c mÉu ngoµi b¨ng con cña biªn miÒn
¶nh ®−îc thiÕt lËp gi¸ trÞ 0 v× thÕ c¸c hÖ sè kh«ng hîp lÖ sÏ kh«ng ¶nh h−ëng
tíi kÕt qu¶ cña c©y 1/4 trong b¨ng con. Trong mÆt n¹ pha, møc c©y 1/4 riªng
lÎ ®−îc chØ ®Þnh 1 mÆt n¹ nhÞ ph©n nÕu nh− nót cña c©y 1/4 n»m “INSIDE”
hoÆc “OUTSIDE” dùa tren viÖc ph©n tÝch h×nh d¹ng mÆt n¹. Chóng ta sÏ ®Þnh
nghÜa hÖ sè b¨ng con (1 nót d−íi cïng cña c©y 1/4) lµ “OUTSIDE” nÕu nã
®−îc chØ ®Þnh ra ngoµi biªn cña ®èi t−îng ¶nh. Nót c©y 1/4 Q[l] (i, j) lµ
“OUTSIDE” nÕu tÊt c¶ c¸c nót phô thuéc {Q[l -1] (2i, 2j), Q[l -1] (2i, 2j +1),
Q[l -1] (2i+1, 2j), Q[l -1] (2i+1, 2j +1)} lµ “OUTSIDE”.
L−îc ®å m« h×nh ng÷ c¶nh nµy khëi t¹o trong m· ho¸ entropy truyÒn
thèng lo¹i bá trong c¸ch nµy nh÷ng c¸i xem nh− lµ l©n cËn “OUTSIDE” khi
kh«ng cã nghÜa. Víi th«ng tin ®Þnh d¹ng nhËn ®−îc vµ kÕt qu¶ ph©n tÝch mÆt
n¹, bé gi¶i m· cã thÓ nhËn c¸c b−íc gièng nhau khi nh− bé m· ho¸ vµ cã nót
“OUTSIDE” ®−îc l−ít qua mµ kh«ng cã bÊt kú th«ng tin g× thªm vµo.
Víi hÖ sè m· ho¸ “SINGLE” t¹o ra trong viÖc ph©n tÝch tr¹ng th¸i b¨ng
con, hai danh s¸ch thªm vµo LISG (danh s¸ch c¸c tÝn hiÖu ®¬n kh«ng quan
träng) vµ LSSG (danh s¸ch c¸c tÝn hiÖu ®¬n quan träng) ®−îc t¹o ra t¹i mçi
møc ph©n gi¶i. Qu¸ tr×nh ®ã gièng nh− thñ tôc m· ho¸ cho møc ®iÓm ¶nh
pixel-level LIN vµ LSP.
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 104
3.3. KÕt qu¶ thùc nghiÖm
§èi t−îng ®Ò xuÊt – c¬ së thuËt to¸n EZBC (OB-EZBC) ®−îc øng dông
trong phÇn mÒm nµy. H×nh thøc bé m· ho¸ míi ®−îc ®¸nh gi¸ th«ng qua viÖc
thö nghiÖm bé m· ho¸. Chóng ta sö dông ®èi t−îng h×nh ¶nh m· ho¸ trÝch ra
tõ chuçi ¶nh kiÓm nghiÖm MPEG-4. MÆt n¹ cã h×nh d¹ng/ph©n ®o¹ncho ¶nh
m· ho¸ ®−îc cung cÊp bëi chuÈn MPEG. Chóng ta sÏ hiÖn thÞ ¶nh kiÓm tra vµ
mÆt n¹ trªn h×nh 3.5.
Trong b¶ng 3.1, chóng ta cung cÊp kÕt qu¶ PSNR cho m· ho¸ ®èi t−îng
¶nh cËn c¶nh h×nh 3.5 sö dông bé m· ho¸ OB-EZBC t¹i tèc ®é bit m· ho¸
trung b×nh 0.1, 0.5, vµ 1.0 bpp. PSNR vµ gi¸ trÞ tèc ®é bit ®−îc tÝnh to¸n ®iÓm
¶nh cËn c¶nh vµ gi¸ cña bit cho cÊu tróc m· ho¸. Bé m· ho¸ míi ®−îc so s¸nh
víi c¸c tr¹ng th¸i kh¸c-c¬ së thuËt ton¸ m· ho¸ b¶ng 3.2, ë ®©y chóng ta liÖt
kª gi¸ trÞ PSNR ghi trong khung 000 cña AKIYO t¹i tèc ®é bit 1.0 bpp nhê
thuËt to¸n so s¸nh nµy. Bé m· ho¸ OB-SPECK giíi thiÖu bëi Lu lµ phiªn b¶n
më réng cña SPECK (mµ kh«ng sö dông m· ho¸ sè häc). SA-ZTE vµ SA-DCT
®−îc thùc hiÖn trong m« h×nh MPEG-4. ThuËt to¸n Egger lµ sù kÕt hîp cña
SAWT vµ EZW. §èi t−îng Han – dùa trªn c¬ cÊu bé m· ho¸ co b¨ng läc
gièng nhau (sö dông RBDWT) nh− lµ OB-EZBC vµ bit ph©n bè gi÷a b¨ng con
vµ ®èi t−îng ®−îc tèi −u ho¸ bëi thuËt to¸n BFOS. Tèc ®é bit tÝnh to¸n cho
b¶ng 3.2 chØ dùa trªm gi¸ bit cho cÊu tróc m· ho¸.
B¶ng 3.1. KÕt qu¶ PSNR cña OB-EZBC cho m· ho¸ ®èi t−îng cËn c¶nh
B¶ng 3.2. So s¸nh PSNR m· ho¸ cho AKIYO
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 105
Trªn h×nh 3.6, chóng ta so s¸nh h×nh thøc cña OB-EZBC víi h×nh thøc
truyÒn thèng (frame-based) EZBC cho AKIYO t¹i tèc ®é bit m· ho¸ 0.1 vµ
0.5 bpp. KÕt qu¶ lµ EZBC ®−îc ph¸t sinh bëi miÒn m· ho¸ h×nh ch÷ nhËt bao
trïm ®èi t−îng ¶nh cËn c¶nh víi c¸c ®iÓm ¶nh nÒn t¶ng bªn trong ranh giíi
miÒn thiÕt lËp gi¸ trÞ 0. C«ng b»ng mµ nãi, gia cña bit cho ®Þnh d¹ng m· ho¸
nhËn ®−îc trong kÐt qu¶ tÝnh to¸n h×nh 3.6 (b) vµ (d) dïng 827 bits hoÆc.022
bpp. Nh− chóng ta thÊy, h×nh thøc ®Ò xuÊt OB-EZBC h×nh thµnh tèt h¬n c¶
bªn trong (®−êng viªn) lÉn bªn ngoµi (PSNR).
Trong h×nh 3.7, chóng ta giíi thiÖu ®èi t−îng m· ho¸ Foreman t¹i tèc
dé bit kh¸c nhau vµ kÕt hîp ph©n gi¶i. KÕt qu¶ PSNR liÖt kª trong b¶ng 3.3.
Trong h×nh 3.8, chóng ta chØ ra chÊt l−îng ¶nh cho bÒ mÆt cña ¶nh kiÓm tra
MISS AMERICA c¶i thiÖn ®−îc t¨ng c−êng t¹i cung gi¸ cña bit. Trªn h×nh
3.9, ®èi t−îng gi¶i m· tõ luång bit m· ho¸ t¹o nªn cho ¶nh cuèi cïng. §iÒu
nµy minh ho¹ r»ng, víi luång bit m· ho¸ cao, chóng ta cã thÓ cho phÐp hiÖu
qu¶ trong ®èi t−îng ¶nh riªng lÎ trong ph¹m vi ph©n gi¶i kh¸c nhau vµ chÊt
l−îng møc nÐn sö dông nÐn ®¬n.
B¶ng 3.3. Gi¸ trÞ PSNR cho m· ho¸ ®èi t−îng ¶nh FOREMAN trong h×nh 3.7.
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 106
3.4. Tãm t¾t vµ kÕt luËn
Ch−¬ng nµy giíi thiÖu hÖ thèng m· ho¸ OB-EZBC. KÕt hîp RBDWT vµ
bé m· ho¸ mÆt ph¼ng bit OB-EZBC (më réng EZBC), thuËt to¸n ®Ò xuÊt cã
kh¶ n¨ng hiÖu qu¶ víi ¶nh h×nh d¹ng tuú ý. Nã ®−îc khëi t¹o nh− lµ céng cô
m· ho¸ trong hÖ thèng m· ho¸ Video. ThuËt to¸n nµy gi¶m quy vÒ thuËt to¸n
EZBC truyÒn thèng cho miÒn ¶nh m· ho¸ ch÷ nhËt.
(b) Frame 000 and its shape mask from sequence FOREMAN.
H×nh 3.5: MÆt n¹ ¶nh gèc
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 107
H×nh 3.6. So s¸nh kÕt qu¶ cña EZBC vµ OB-EZBC.
(a)Trªn cïng bªn tr¸i: EZBC, 0.1 bpp, PSNR = 24.42 dB.
(b) Trªn cïng bªn ph¶i: OB-EZBC, 0.1 bpp, PSNR = 25.51 dB.
(c) D−íi cïng bªn tr¸i: EZBC, 0.5 bpp, PSNR = 32.70 dB.
(d) D−íi cïng bªn ph¶i: OB-EZBC, 0.5 bpp, PSNR = 34.40 dB.
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 108
H×nh 3.7. Khung kh«i phôc 000 cña FOREMAN
t¹i ®é ph©n gi¶i kh¸c vµ tèc ®é bit (0.1, 0.5, vµ 1.0 bpp tõ trªn xuèng d−íi).
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 109
H×nh 3.8. MISS AMERICA m· ho¸ t¹i 0.05 bpp.
HÖ sè mÆt ph¼ng bit liªn quan ®Õn bÒ mÆt ¶nh
bÞ t¨ng bëi møc 0 (gi÷a bªn tr¸i), 1 møc (gi÷a bªn ph¶i),
ba møc (trªn cïng bªn ph¸i) vµ 5 møc (d−íi cïng bªn ph¶i).
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 110
H×nh 3.9. VÝ dô cña øng dông m· ho¸ scalable- 4 ®èi t−îng ¶nh tõ h×nh 3.5
®−îcgi¶i m· t¹i tèc ®é bittrung b×nh 1.0 bpp vµ ®é ph©n gi¶i kh¸c nhau cho
¶nh cuèi cïng.
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 111
Ch−¬ng 4: Ch−¬ng tr×nh thö nghiÖm vµ ®¸nh gi¸ kÕt
qu¶
4.1. X©y dùng ch−¬ng tr×nh
4.1.1. Kh¸i qu¸t chung
Ch−¬ng tr×nh cña t«i ®−îc viÕt trªn nÒn Visual C++ 6.0.Ch−¬ng
tr×nh thùc hiÖn c¸c chøc n¨ng sau:
9 ChuyÓn tõ file video AVI (*.avi) sang file RAW(*.raw).
9 HiÓn thÞ c¸c th«ng sè cña file avi.
9 ChuyÓn tõ file RGB(*.rgb) sang file ®Þnh d¹ng YUV
(*.yuv).
9 HiÓn thÞ th«ng tin file RGB vµ YUV.
9 T¹o file MPEG4 tõ file ®Çu vµo d¹ng MP3,H.263,ACC,
AMR,DIVX,MP4AV,M4V,CMP,XVID.
9 HiÓn thÞ th«ng tin file MPEG4.
9 ChuyÓn tõ file RAW sang file WAVELET.
4.1.2. CÊu tróc ch−¬ng tr×nh
CÊu tróc ch−¬ng tr×nh gåm c¸c chøc n¨ng chÝnh sau:
a. Cöa sæ thùc hiÖn nÐn cho phÐp nhËp file video *.avi ®Çu vµo, ghi file
®Çu ra d¹ng .raw
b. Cöa sæ hiÓn thÞ cho phÐp hiÓn thÞ th«ng tin vÒ file *.avi nh− lo¹i file
avi,tèc ®é frame,sè frame trong file,®é lín cña 1 frame.
c. Cöa sæ thùc hiÖn nÐn cho phÐp nÐn tõ file *.rgb ®Çu vµo,ghi ra file
*.yuv víi 2 tham sè tuú chän lµ chiÒu cao vµ chiÒu réng cña frame.
d. Cöa sæ hiÓn thÞ cho phÐp hiÓn thÞ th«ng tin vÒ file *.rgb (hoÆc
*.yuv) víi th«ng sè ®Çu vµo nh− chiÕu cao chiÒu réng sè frames/s
®Çu ra gåm kÝch th−íc y,u,v vµ frame ®· ®äc.
e. Cöa sæ thùc hiÖn nÐn cho phÐp nÐn tõ file *.mp3,H.263,ACC,
AMR,DIVX,MP4AV,M4V,CMP,XVID. ®Çu vµo,ghi ra file MPEG4
(*.mp4) ®Çu ra víi c¸c tham sè tuú chän lµ tèc ®é frame, sö dông
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 112
®Þnh d¹ng file ACC,cho phÐp file AVI, tÝnh to¸n tèc ®é bit H263,cho
phÐp thay ®æi tèc ®é bÝt,tèi −u ho¸,liÖt kª c¸c track...
f. Cöa sæ hiÓn thÞ cho phÐp hiÓn thÞ th«ng tin vÒ file *.mp4 ®Çu ra gåm
sè track,lo¹i track,th«ng tin cña tõng track.
g. Ch−¬ng tr×nh wavelet thùc hiÖn nÐn file Video ®Çu vµo ®Þnh d¹ng
RAW(*.raw) sö dông Wavelet, ghi ra file ®Çu ra WAVELET(*.wl).
h. Ch−¬ng tr×nh gi¶i nÐn thùc hiÖn ®äc file WAVELET(*.wl) ®Çu vµo.
Trong ch−¬ng tr×nh cã sö dông mét sè cÊu tróc d÷ liÖu, c¸c module thùc hiÖn
thuËt to¸n cho qu¸ tr×nh nÐn vµ qu¸ tr×nh gi¶i nÐn...Do m· nguån cho ch−¬ng
tr×nh kh¸ dµi, v× vËy t«i chØ ®−a mét sè phÇn vµo trong phÇn phô lôc cña luËn
v¨n.
4.2. §¸nh gi¸ kÕt qu¶ thö nghiÖm
4.2.1 D÷ liÖu thö nghiÖm
D÷ liÖu thö nghiÖm lµ hai tÖp:
TÖp air.rgb : dung l−îng 426 Kb,file thu trùc tiÕp 3 tÝn hiÖu Red Green vµ
Blue.
TÖp Sound.mp3: dung l−îng 2.85 KB ®©y lµ file mp3.§©y lµ file nh¹c Audio
®Þnh d¹ng theo chuÈn MP3.
TÖp Demo.mp3: dung l−îng 36.3 KB ®©y lµ file mp3.§©y lµ file nh¹c Audio
®Þnh d¹ng theo chuÈn MP3.
TÖp global.avi : dung l−îng 3.46 MB.KÝch th−íc frame 320x240 gåm 107
frames.Tèc ®é truyÒn 15 frames/s. §©y lµ tÖp cña thö nghiÖm cña Visual C++.
4.2.2. KÕt qu¶ thö nghiÖm
KÕt qu¶ thu ®−îc cho tÖp air.rgb nh− sau:
§¸nh gi¸ cho tÖp air.rgb :
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 113
RGB YUV YUV YUV YUV
TÖp gèc air.rgb air.yuv air.yuv air.yuv air.yuv
Lo¹i tÖp RGB YUV YUV YUV YUV
Dung l−îng 426 Kb 214 Kb 225 Kb 253 Kb 213 Kb
ChiÒu réng
frames
320 pixels 40 pixels 320 pixels 240 pixels 40 pixels
ChiÒu cao
frames
240 pixels 30 pixels 240 pixels 240 pixels 40 pixels
Sè frames xö
lý
122 2 3 91
KÝch th−íc Y 1200 76800 57600 1600
KÝch th−íc
UV
300 19200 14400 400
B¶ng 4.1: §¸nh gi¸ tham sè cña tÖp air.rgb vµ air.yuv
§¸nh gi¸ cho tÖp Demo.mp3 vµ Sound.mp3 tèc ®é 30 frames/s thu ®−îc kÕt
qu¶
TÖp gèc Demo.mp3 Demo.mp4 Sound.mp3 Sound.mp4
Lo¹i tÖp MP3 MPEG4 MP3 MPEG4
Dung l−îng 36.3 KB 41.8 KB 2.85 KB 4.45 KB
Video frames/s 30 30
Time Scale 9000 9000
Play load 1460 1460
B¶ng 4.2: §¸nh gi¸ tham sè cña tÖp Demo.mp3 vµ Sound.mp3
Ph©n tÝch th«ng tin file Demo.mp4 vµ Sound.mp3 ta thu ®−îc :
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 114
Tªn tÖp STT track Lo¹i track Th«ng tin track
Demo.mp4 1 Audio MPEG-2
Audio,56Kbps,90000Hz
2 Hint Playload MPA cho
track 1
B¶ng 4.3: Tham sè cña tÖp Demo.mp3
Tªn tÖp STT track Lo¹i track Th«ng tin track
Sound.mp4 1 Audio MPEG-1
Audio,128Kbps,90000Hz
2 Hint Playload MPA cho track
1
B¶ng 4.4: Tham sè cña tÖp Sound.mp3
KÕt qu¶ thu ®−îc cho tÖp global.avi nh− sau:
TÖp gèc Global.avi Global.raw Global.wl
Lo¹i tÖp AVI RAW WAVELET
Dung l−îng 3.46 MB 3.38 MB 15.1KB
ChiÒu réng
frames
320 pixels 320 pixels 320 pixels
ChiÒu cao
frames
240 pixels 240 pixels 240 pixels
Sè frames 107 107 15
B¶ng 4.5: §¸nh gi¸ tÖp Global.avi
Minh ho¹ mét frame trong file global.avi:
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 115
H×nh 4.1: Mét frame trong file Global.avi
4.2.3. NhËn xÐt vÒ tû sè nÐn,chÊt l−îng nÐn
§èi víi tÖp air.rgb:
Dung l−îng ®Çu vµo 426 Kb, dung l−îng ®Çu ra 225 Kb cïng kÝch th−íc
frames 320x240. Do ®ã tØ sè nÐn lµ:
426 1.89333
225R
C = =
Dung l−îng ®Çu vµo lµ 426 Kb, dung l−îng ®Çu ra lµ 214 Kb kÝch th−íc
40x30. Do ®ã tØ sè nÐn lµ :
426 1.9999
214R
C = =
§èi víi tÖp Sound.Mp3 vµ Demo.mp3 ta cã:
Víi tÖp ®Çu vµo MP3 ®Çu ra chóng ta cã tÖp ®Þnh d¹ng MPEG4.ë ®©y chóng
ta chó ý ®Õn chÊt l−îng cña ®Çu ra h¬n lµ chÊt l−îng nÐn.File MPEG4 ë ®©y
cã chÊt l−îng cao kh«ng cã nhiÔu øng dông trong truyÒn th«ng ®a ph−¬ng
tiÖn.
§èi víi tÖp Global.avi:
Dung l−îng ®Çu vµo file Global.avi 3.46 Mb, dung l−îng ®Çu ra Global.raw
3.38 Mb cïng kÝch th−íc frames 320x240 pixels. Do ®ã tØ sè nÐn lµ:
3.46 1.026
3.38R
C = =
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 116
Dung l−îng ®Çu vµo file Global.raw 3.38MB , dung l−îng ®Çu ra Global.wl
15.1 Kb kÝch th−íc 320x240 víi sè khung xö lý lµ 15. Do ®ã tØ sè nÐn lµ :
3.38.1024 229.2
15.1R
C = =
Qua ®©y chóng ta thÊy ®èi víi ph−¬ng ph¸p dïng wavelet chóng ta cã tû lÖ
nÐn rÊt cao so víi c¸c ph−¬ng ph¸p nÐn th«ng th−êng.H×nh sau minh ho¹ quan
hÖ gi÷a kÝch th−íc khung vµ tû sè nÐn:
Víi file Global.wl kÝch th−íc 320x240 l−îng tö lµ 129 vµ tæn hao
dpcm =65 sè frame 15 ta cã :
STT MSE RMSE PSNR
1 2754.689 52.485 13.76
2 2624.778 51.233 13.97
3 2720.400 52.157 13.82
4 2718.881 52.143 13.82
5 2744.705 52.390 13.78
6 2893.206 53.789 13.55
7 2929.208 54.122 13.50
8 2901.895 53.869 13.54
9 2825.329 53.154 13.65
10 2708.651 52.045 13.84
11 2645.592 51.435 13.94
12 2468.484 49.684 14.24
13 2413.063 49.123 14.34
14 2729.685 52.246 13.80
15 2884.536 53.708 13.56
B¶ng 4.6: Sai sè psnr cña tÖp Global.wl
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 117
Ta cã ®å thÞ sau:
MSE
0
500
1000
1500
2000
2500
3000
3500
1 3 5 7 9 11 13 15
MSE
H×nh 4.2. §å thÞ quan hÖ MSE gi÷a c¸c khung
0
10
20
30
40
50
60
1 3 5 7 9 11 13 15
RMSE
PSNR
H×nh 4.3. §å thÞ quan hÖ RMSE vµ PSNR gi÷a c¸c khung
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 118
KÕt luËn
LuËn v¨n xin ®−îc kÕt thóc víi 1 vµi ®Þnh h−íng.
1. øng dông luËn v¨n
Mét thuËt to¸n m· ho¸ ¶nh míi dïng wavelet (EZBC) ®· ®−îc giíi
thiÖu trong ch−¬ng tr−íc. ThuËt to¸n nµy ®−a ®Õn 2 kü thuËt thµnh c«ng ®ã lµ
- thiÕt lËp sù ph©n chia vµ m« h×nh ng÷ c¶nh - cho hiÖu qu¶ m· ho¸ entropy
®Æc tr−ng cho mÆt ph¼ng m· ho¸. Kh«ng gièng nh− c©y nhÞ ph©n truyÒn
thèng- c¬ së bé m· ho¸ ph©n chia, chóng ta cã thÓ thiÕt lËp c©y tø ph©n - dùa
trªn l−îc ®å khèi m· ho¸ zeroblock cho viÖc ph©n chia hÖ sè m· ho¸ wavelet.
§Çu tiªn chóng ta sÏ khai th¸c tÝnh thèng kª phô thuéc vµo c©y quadtree giíi
thiÖu trong bé gi¶i m·. Bé m· ho¸ cña chóng ta cã 1 vµi ®Æc tÝnh −u viÖt so víi
mÆt ph¼ng m· ho¸ truyÒn thèng lµ tèc ®é ®iÒu khiÓn chÝnh x¸c vµ dô ®o¸n gi¶i
m· ®a tèc ®é.
ThuËt to¸n nµy lµ lý t−ëng cho m· ho¸ ph©n gi¶i scalable. Sù c¶i thiÖn
rÊt lín cña PSNR th«ng qua thuËt to¸n ®ã lµ kÕt qu¶ m« pháng.
Mét hÖ thèng ph©n tÝch tæng hîp theo thêi gian víi viÖc bï chuyÓn ®éng chÝnh
x¸c 1 nöa ®iÓm ¶nh (IMCTF) ®−îc gi−ãi thiÖu trong ch−¬ng 6. B¨ng läc thêi
gian cho phÐp gi¶i m· hoµn chØnh tÝn hiÖu Video. ChÊt l−îng ¶nh cña b¨ng läc
gi¶i m· Video kh«ng bÞ ¶nh h−ëng tõ hiÖn t−îng bãng mê t¸c ®éng th−êng
thÊy trong bé m· ho¸ 3-D th«ng th−êng (kh«ng bï chuyÓn ®éng).
HÖ thèng m· ho¸ Video míi (IMC3D-EZBC) ®−îc tr×nh bµy trong
ch−¬ng 7. Chóng ta minh ho¹ kÕt qu¶ thùc nghiÖm ®ã lµ sù thay ®æi tèc ®é bit
m· ho¸ vµ ph©n gi¶i kh«ng gian thêi gian cã thÓ ®−îc gi¶i m· tõ 1 file nÐn
®¬n lÎ sö dông hÖ thèng m· ho¸ míi.
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 119
§èi t−îng míi - dùa trªn hÖ thèng m· ho¸ OB-EZBC, më réng tõ khung
®Çu vµo EZBC, ®−îc tr×nh bµy trong ch−¬ng 3. ThuËt to¸n ®Ò xuÊt cã kh¶
n¨ng m· ho¸ h×nh d¹ng ¶nh tuú ý. Kh¶ n¨ng cao cña EZBC ®−îc gi÷ l¹i vµ
luång bit cho ®èi t−îng riªng lÎ cã thÓ ph©n gi¶i tû lÖ vµ m· ho¸ tèc ®é ®éc
lËp.
2. H−íng ph¸t triÓn cho t−¬ng lai
Mét vµi h−íng ph¸t triÓn cho t−¬ng lai:
• ¦u ®iÓm cña m« h×nh ng÷ c¶nh: Sù thy ®æi mang tÝnh thèng kª phô thuéc
cã thÓ ®−îc quan s¸t trong cÊu tróc h×nh th¸p. §iÒu ®ã hy väng r»ng viÖc
c¶i thiÖn nÐn ¶nh cã thÓ ®¹t ®−îc bëi m« h×nh chiÕn l−îc tinh vi cã lîi cho
viÖc lùa chän vµ l−îng tö ho¸.
• M« h×nh thèng kª chÝnh x¸c cho hÖ sè wavelet: L−îc ®å l−îng tö ho¸ l¹i cã
thÓ ®−îc c¶i thiÖn sö dông k¶ n¨ng m« h×nh chÝnh x¸c, chuÈn hoa bëi hµm
mËt ®é Gaussian, thay v× h×nh thµnh hµm mËt ®é hiÖn thêi.
• ViÖc thÝch nghi trong cÊu tróc b¨ng con vµ kÝch th−íc GOP: Ph©n tÝch 2
b¨ng con vµ kÝch th−íc cè ®Þnh GOP (chØ cho Video) ®−îc sö dông cho hÖ
thèng m· ho¸ hiÖn thêi. KÕt qu¶ t×m ®−îc trong môc 6.5. TËp trung n¨ng
l−îng b¨ng con sÏ t¨ng khi ph©n chia tÇn sè cao cho m« h×nh ¶nh. Cã thÓ
c¶i thiÖn nhê sö dông ph©n gi¶i gãi wavelet cho viÖc tèi −u ho¸ b¨ng con
theo kh«ng gian vµ thêi gian.
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 120
TµI LIÖU THAM KH¶O
[1] M. R. Aaron, “The digital (r)evolution, ” IEEE Commu. Mag., pp.21–22,
1974.
[2] J. M. Shapiro, “Embedded image coding using zerotrees of wavelet
coefficients, ” IEEE Trans. on Signal Processing, vol.41, pp.3445–3462,
Dec.1993.
[3] G. K. Wallace, “The JPEG still picture compression standard,
”Communications of the ACM, vol.34, pp.30–44, April 1991.
[4] W. P. Pennebaker and J. L. Mitchell, JPEG Still Image Data
Compression Standard. New York: Van Nostrand Reinhold, 1993.
[5] ISO/IEC, Information Technology — Lossless and Near-Lossless
Compression of Continuous-Tone Still Images. ISO/IEC 14495-1, ITU
Recommend. T.87, Dec.1994.
[6] M. J. Weinberger, G. Seroussi, and G. Sapiro, “The LOCO-I lossless
image compression algorithm: principles and standardization into JPEG-LS, ”
IEEE Trans. Image Processing, vol.9, pp.1309–1324, Aug.2000. [Online].
Available: http: //www. hpl. hp. com/loco.
[7] ISO/IEC, Information Technology — Coding of Moving Pictures and
Associated Audio for Digital Storage Media at up to 1.5 Mbps. ISO/IEC
11172-2, 1992.
[8] ISO/IEC, Information Technology — Generic Coding of Moving Pictures
and Associated Audio Informations: Video. ISO/IEC 13818-2, 1995.
[9] ISO/IEC, Information Technology — Coding of Audio-Visual Objects —
Part 2: Visual. ISO/IEC 14496-2, Dec.1994.
[10] ITU Telecommunication Standardization Sector of ITU, Video Codec
for Audiovisual Services at p × 64 kbits/sec. ITU-T Recommendation H.261,
1994.
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 121
[11] ITU Telecommunication Standardization Sector of ITU, Video
Coding for Low Bitrate Communication. ITU-T Recommendation H.263,
Mar.1996.
[12] ITU Telecommunication Standardization Sector of ITU, Video
Coding for Low Bitrate Communication. ITU-T Recommendation H.263
Version 2, Jan.1993.
[13] Digital Imaging Group, Inc, Flashpix Format Specification, version
1.0.2, July 1993.
[14] D. Taubman, “High performance scalable image compression with
EBCOT, ”IEEE Trans. Image Processing, vol.9, pp.1158 –1170, July 2000.
[15] ISO/IEC, ISO/IEC FCD 15444-1: Information Technology — JPEG 2000
image coding system: Core coding system. ISO/IEC JTC1/SC 29/WG N1646,
Mar.2000.
[16] W. Li, “Overview of fine granularity scalability in MPEG-4 Video
standard” IEEE Trans. Circuits and Syst. for Video Technol., vol.11, pp.301–
317, Mar.2001.Speical Issue on Streaming Video.
[17] S. -T. Hsiang and J. W. Woods, “Embedded image coding using
zeroblocks of subband/wavelet coefficients and context modeling, ” in Proc.
of IEEE In tSymp. on Circuits and Systems, vol.3, (Geneva), pp.662–665, May
2000.
[18] S. -T. Hsiang and J. W. Woods, “Embedded Video coding using motion
compensated 3-D subband/wavelet filter bank, ” in Packet Video Workshop,
(Sardinia, Italy), May 2000.
[19] S.-T. Hsiang, “Embedded image coding using zeroblocks of
subband/wavelet coefficients and context modeling, ” in Proc.2001 IEEE
Data Compression Conference, (Snowbird, Utah), Mar.2001.
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 122
PHô LôC
THUËT NG÷ tiÕng anh
3-D three - dimensional
AGP alphabet and group partitioning
APSG alphabet partitioning and sample grouping
CREW Compression with Reversible Embedded Wavelets
CSF contrast sensitivity function
DCT discrete cosine transform
DFD displaced frame difference
DPCM differential pulse code modulation
DVR display visual resolution
DWT discrete wavelet transform
EBCOT Embedded Block Coding with Optimal Truncation
EZBC Embedded ZeroBlock Coding and context modeling
EZW Embedded image coding using Zerotrees of Wavelet
coefficients
FGS fine granularity scalability
GOP group of pictures
HDTV high definition television
HVS human visual system
HVSBM hierarchical variable size block matching
IMCTF invertible motion compensated temporal subband/wavelet
filtering system
JND just noticeable distortion
JPEG Joint Photographic Experts Group
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t 123
LSB least significant bit
LZC Layered Zero Coding
MC motion compensated/compensation
MND minimally noticeable distortion
MPEG Moving Picture Experts Group
MSB most significant bit
MSE mean square error
PCM pulse code modulation
PSF point spread function
PSNR peak signal-to-noise ratio
R-D rate-distortion
RBDWT region-based discrete wavelet transform
ROI region Of interest
RWT reversible wavelet transform
SA-DCT shape adaptive discrete cosine transform
SAQ successive approximation quantization
SNR signal-to-noise ratio
SPIHT Set-Partitioning In Hierarchical Trees
UTQ uniform threshold quantization/quantizer
VO Video object
VOP Video object plane
WMSE weighted mean square error
bpp bits per pixel
bps bits per second
cpd cycles per degree
ppd pixels per degree
ppi pixels per inch
Các file đính kèm theo tài liệu này:
- Nén ảnh động dùng Wavelet nghành Điện tử Viễn Thông.pdf