Thông thường, các bài toán phân lớp được nghiên cứu với phương
pháp lấy mẫu ngẫu nhiên, nghĩa là các mẫu huấn luyện được lựa chọn
ngẫu nhiên từ các mẫu có sẵn. Hướng tiếp cận này thường được gọi là
"học từ ví dụ" hay còn được gọi là "học bị động". Một hướng tiếp cận
khác là mô hình học chủ động trong đó các chương trình học có một
số kiểm soát trên dữ liệu được dùng để huấn luyện. Trong trường hợp
này, các thuật toán học đóng một vai trò quan trọng trong việc định
nghĩa các tiêu chuẩn để lựa chọn dữ liệu cho huấn luyện. Giả thuyết
quan trọng trong tiếp cận này là nếu các dữ liệu được thêm vào tập
huấn luyện được lựa chọn đúng đắn thì mặc dù với ít dữ liệu huấn
luyện nhưng thuật toán học có thể đạt được hiệu quả tốt hơn so với
việc học sử dụng tất cả các dữ liệu hiện có [42]
134 trang |
Chia sẻ: tueminh09 | Ngày: 25/01/2022 | Lượt xem: 611 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Luận án Nâng cao hiệu quả tra cứu ảnh dựa trên hiệu chỉnh độ đo tương tự và phản hồi liên quan, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
liên quan của các bộ đặc trưng, luận án đề xuất
tiếp cận theo hướng giải quyết bài toán tối ưu đa mục tiêu có ràng buộc
với hàm mục tiêu được xây dựng theo ngữ cảnh độ lệch nhỏ nhất. Theo
cách này, ước lượng độ liên quan của các bộ đặc trưng được chuyển
thành bài toán quy hoạch tuyến tính và có thể giải nhanh bởi phương
pháp đơn hình. Bên cạnh đó, trọng số liên quan được điều chỉnh cho
bộ đặc trưng, thay vì cho từng đặc trưng riêng lẻ đã tạo ra độ đo tương
tự thể hiện sát hơn với mong muốn của người dùng. Do vậy độ chính
xác tra cứu đã được tăng lên và tốt hơn các phương pháp khác.
92
Chương 4
HỌC CHỦ ĐỘNG SVM DỰA
TRÊN PHẢN HỒI LIÊN QUAN
Hệ thống tra cứu ảnh dựa trên nội dung nhằm mục đích để trả
lại các hình ảnh liên quan nhất trong một cơ sở dữ liệu theo quan điểm
của người sử dụng với một truy vấn nhất định. Do có sự cảm nhận
khác nhau của người dùng nên có thể có các thay đổi ý nghĩa của sự
liên quan giữa các người dùng cho một cùng một truy vấn. Do vậy, các
hệ thống này thường dựa trên một quá trình học chủ động để trả về
một tập nhỏ các ảnh để người dùng gán nhãn tại mỗi vòng lặp. Những
ảnh được gán nhãn sau đó được sử dụng như tập huấn luyện trong các
mô hình học máy để cải thiện hiệu quả tra cứu trong các bước tiếp
theo. Chương này trình bày một chiến lược học chủ động để xây dựng
tập ảnh huấn luyện hiệu quả để cải thiện biên quyết định trong SVM
dựa trên các thông tin phản hồi từ người dùng. Nội dung của chương
được công bố trong các công trình CT4 và CT5.
93
4.1 Học chủ động
Thông thường, các bài toán phân lớp được nghiên cứu với phương
pháp lấy mẫu ngẫu nhiên, nghĩa là các mẫu huấn luyện được lựa chọn
ngẫu nhiên từ các mẫu có sẵn. Hướng tiếp cận này thường được gọi là
"học từ ví dụ" hay còn được gọi là "học bị động". Một hướng tiếp cận
khác là mô hình học chủ động trong đó các chương trình học có một
số kiểm soát trên dữ liệu được dùng để huấn luyện. Trong trường hợp
này, các thuật toán học đóng một vai trò quan trọng trong việc định
nghĩa các tiêu chuẩn để lựa chọn dữ liệu cho huấn luyện. Giả thuyết
quan trọng trong tiếp cận này là nếu các dữ liệu được thêm vào tập
huấn luyện được lựa chọn đúng đắn thì mặc dù với ít dữ liệu huấn
luyện nhưng thuật toán học có thể đạt được hiệu quả tốt hơn so với
việc học sử dụng tất cả các dữ liệu hiện có [42].
Để thực hiện việc học chủ động thì thuật toán học cần phải có
khả năng tạo được các truy vấn cho chuyên gia để yêu cầu họ gán nhãn
cho các dữ liệu, sao cho dữ liệu được gán nhãn là những dữ liệu chứa
nhiều thông tin hữu ích cho quá trình học. Tuy nhiên, vấn đề khó và
quan trọng nhất là cách để đánh giá thế nào là một mẫu chưa được
gán nhãn được coi là chứa nhiều thông tin nhất.
4.2 Học chủ động SVM với phản hồi liên quan
4.2.1 Học chủ động SVM
SVM đã được giới thiệu đầu tiên bởi Vapnik [110] vào cuối những
năm 90 và đến nay vẫn còn được quan tâm bởi cộng đồng nghiên cứu
học máy. Với nền tảng lý thuyết mạnh mẽ và chặt chẽ, nó đang được
94
sử dụng cho nhiều ứng dụng và là một phương pháp học mẫu nhỏ phổ
biến có hiệu năng tốt cho bài toán phân loại mẫu. Giả sử có một tập
l mẫu được gán nhãn L = {(x1, y1), . . . , (xl, yl)}, với xi ∈ Rd là một
véc-tơ trong không gian d chiều và yi ∈ {1,−1} là các nhãn. Ý tưởng
chính của SVM là tìm siêu phẳng
f(x) = wTx + b (4–1)
để chia tách các điểm có yi = 1 và các điểm có yi = −1 sao cho siêu
phẳng phân tách có lề cực đại trong khi tỷ lệ lỗi phân lớp là nhỏ nhất.
Đây là bài toán quy hoạch toàn phương và nó có thể được giải bởi tìm
w và b sao cho cực tiểu hóa hàm
1
2‖w‖
2 + C
l∑
i=1
ξi s.t. yi(wTxi + b) ≥ 1− ξi, ξi ≥ 0 . (4–2)
Nếu viết điều kiện phân loại dưới dạng đối ngẫu thì bài toán đối
ngẫu của SVM chính là bài toán tối ưu tìm các tham số αi, i = 1 . . . l
để cực đại hóa hàm
L(α) =
l∑
i=1
αi − 12
l∑
i,j=1
αiαjyiyjK(xi,xj) (4–3)
sao cho
l∑
i=1
yiαi = 0, 0 6 αi 6 C,
với K(xi,xj) là hàm nhân. Trên thực tế ứng dụng, có hai loại hàm
nhân được sử dụng rộng rãi nhất. Đó là hàm đa thức (polynomial
function) và hàm RBF (radial basis function). Hàm nhân đa thức là
hàm số trên không gian Rd có dạng
K(x, y) = (x.y)p, (4–4)
95
Hàm nhân RBF là hàm số có dạng
K(x, y) = exp
(
−(x−y)2
2σ2
)
, (4–5)
trong đó σ thường được gọi là độ rộng (width) của hàm. Trong trường
hợp này, số chiều của không gian đặc trưng là vô tận, và do vậy năng
lực của các hàm tuyến tính cũng trở nên không giới hạn. Luận án sử
dụng hàm này trong thực nghiệm.
Hàm quyết định của SVM được định nghĩa bởi:
f(x) =
l∑
i=1
αiyiK(x,xi) + b (4–6)
và đường biên quyết định sẽ là ∑li=1 αiyiK(x,xi) + b = 0.
Trong tra cứu ảnh với phản hồi liên quan dựa trên SVM, hàm
quyết định được sử dụng để đo độ liên quan giữa ảnh với ảnh truy
vấn. Nói chung, ảnh có giá trị tuyệt đối của hàm quyết định càng lớn
thì khả năng tin cậy dự đoán sẽ càng cao. Trong phương pháp phản
hồi liên quan dựa trên SVM truyền thống, người dùng sẽ chọn các ảnh
được xếp hạng trên cùng, tức là các ảnh có giá trị lớn nhất của hàm
quyết định f(x) để xây dựng tập huấn luyện cho SVM.
x∗ = arg max
x
(f(x)). (4–7)
Phương pháp này được gọi là học bị động, nó hướng tới việc chọn các
ảnh liên quan nhất. Tuy nhiên, những ảnh này có thể không phải là
các ảnh mẫu tốt cho huấn luyện SVM, do vậy đường biên quyết định
của SVM có thể sẽ không được cải thiện.
Ngược lại với phương pháp học bị động là phương pháp học chủ
động đang được quan tâm và có nhiều hứa hẹn trong những năm gần
96
đây. Phương pháp này hướng tới việc chọn các ảnh không chắc chắn,
đó là các ảnh gần nhất với đường biên quyết định SVM.
x∗ = arg min
x
|f(x)|. (4–8)
Với phương pháp này, đường biên quyết định có thể sẽ được cập nhật
tốt hơn. Hình 4.1 minh họa các cách khác nhau để lựa chọn ảnh gán
nhãn. Trong ví dụ này, ảnh được biểu diễn bởi véc-tơ đặc trưng 2-D.
Các vòng tròn rỗng là các ảnh người dùng đang tìm kiếm (ảnh liên
quan) và các vòng tròn đặc là các ảnh người dùng không quan tâm
(ảnh không liên quan). Tại bước đầu tiên, người dùng cung cấp hai
nhãn được biểu diễn trong ảnh bởi vòng tròn lớn (như trong Hình
4.1(a). Các vòng tròn lớn được sử dụng để huấn luyện bộ phân lớp,
những vòng tròn nhỏ là ảnh chưa được gán nhãn. Đường màu đen
đậm là đường biên quyết định sau khi huấn luyện. Trong hệ thống
phản hồi liên quan truyền thống, các ảnh liên quan nhất được trả về
bởi hệ thống sẽ được lựa chọn để gán nhãn. Như minh họa trong Hình
4.1(b), cách lựa chọn này không hiệu quả do đường biên quyết định
không được cập nhật. Trong khi đó, phương pháp học chủ động lựa
chọn các ảnh không chắc chắn, là những ảnh gần nhất với đường biên
quyết định, và kết quả là đường biên quyết định đã được thay đổi tạo
sự phân tách tốt hơn giữa các ảnh liên quan và không liên quan như
trong hình 4.1(c)
4.2.2 Các nghiên cứu liên quan
Học với phản hồi liên quan trong CBIR đã được nghiên cứu rộng
rãi và là một trong cách để thu hẹp khoảng cách ngữ nghĩa giữa đặc
trưng mức thấp và các khái niệm mức cao một cách hiệu quả. Trong
97
Hình 4.1: Minh họa học chủ động SVM. Một bộ phân lớp tuyến tính được tính
toán để phân lớp dữ liệu liên quan(vòng trong rỗng) và không liên quan (vòng
tròn đặc).
tra cứu ảnh, phản hồi liên quan trước hết sẽ thu thập các điều chỉnh
liên quan của người dùng trên trên các ảnh được tra cứu được trả về
bởi hệ thống. Sau đó, nó sẽ điều chỉnh kết quả tra cứu bằng việc học
các ảnh truy vấn từ các thông tin phản hồi được cung cấp. Về cơ bản,
RF là một kỹ thuật học có giám sát, và nó tập trung vào sự tương tác
giữa người dùng và hệ thống trên cơ sở yêu cầu người dùng thực hiện
gán nhãn cho những phản hồi.
Hầu hết các phương pháp phản hồi liên quan trước đây có thể
được phân thành hai nhóm: Phương pháp cập nhật trọng số và Phương
pháp dịch chuyển truy vấn. Phương pháp cập nhật trọng số nhằm điều
chỉnh trọng số của các đặc trưng mức thấp cho phù hợp với mong muốn
của người dùng [48, 88]. Các phương pháp dịch chuyển truy vấn, về cơ
bản cố gắng cải thiện ước lượng về "điểm truy vấn lý tưởng" bằng việc
di chuyển điểm truy vấn tiến gần hơn đến các điểm dương và cách xa
các điểm âm. Kỹ thuật thường được sử dụng trong phương pháp này
là công thức của Rocchio, [14, 15]
Q′ = αQ+ β
1
NR′
∑
i∈D′R
Di
− γ
1
NN ′
∑
i∈D′N
Di
, (4–9)
với Q và Q′ là truy vấn gốc và truy vấn sau khi được cập nhật, D′R và
98
D′N là các mẫu dương và mẫu âm được trả về từ phản hồi của người
dùng, NR′ và NN ′ là số lượng mẫu dương và mẫu âm tương ứng, α, β, γ
là các hằng số.
Gần đây hơn, các nhà nghiên cứu đã xem RF như là bài toán
phân lớp, trong đó các ảnh mẫu được cung cấp bởi người dùng được
sử dụng để huấn luyện bộ phân lớp. Bộ phân lớp này sau đó được sử
dụng để phân chia cơ sở dữ liệu thành các ảnh liên quan và không liên
quan với ảnh truy vấn. Các giá trị quyết định sẽ được sử dụng như là
độ tương tự của các ảnh đối với ảnh truy vấn, do vậy phương pháp
còn được xem như là phương pháp điều chỉnh độ đo tương tự. Các kỹ
thuật học điển hình bao gồm Mạng nơ-ron [2, 78], học cây quyết định
[65], học Bayesian [101], Boosting [106], SVM [107], FSVM [115].
Trong các mô hình RF, RF dựa trên SVM là phổ biến. So với
các thuật toán học khác, SVM được xem như là một ứng cử viên tốt
cho FR với một số lý do: khả năng khái quát mà không có giả định
hạn chế về dữ liệu, học và đánh giá nhanh cho phản hồi phù hợp, linh
hoạt, ví dụ như tri thức trước có thể dễ dàng sử dụng để điều chỉnh
nhân của nó [112]. Tuy nhiên, với phản hồi liên quan dựa trên SVM,
kích thước của tập huấn luyện là quá nhỏ, đặc biệt là trong các vòng
phản hồi ban đầu. Điều này đã làm hạn chế đáng kể khả năng học của
nó.
Học chủ động SVM là một kỹ thuật thành công và phổ biến cho
phản hồi liên quan trong những ứng dụng tra cứu ảnh dựa trên nội
dung [71, 84, 112, 116]. Học chủ động SVM sẽ coi các ảnh gần nhất với
đường biên quyết định như là các ảnh chứa nhiều thông tin nhất và
chúng sẽ được lựa chọn để cho người dùng gán nhãn trong mỗi vòng
phản hồi liên quan [44, 61, 107].
99
Mặc dù RF dựa trên học chủ động SVM có thể làm việc tốt
hơn các phương pháp phản hồi liên quan dựa trên SVM truyền thống,
nhưng hiệu năng của học chủ động SVM thường bị hạn chế bởi số mẫu
được gán nhãn. Vấn đề này thường gặp phải trong các trường hợp phản
hồi liên quan. Để khắc phục hạn chế này, một số mô hình học chủ động
SVM đã được đề xuất. Hoi và cộng sự [43] đề xuất mô hình học chủ
động SVM bán giám sát. Phương pháp này trước hết xây dựng một
hàm nhân bởi học hỗn hợp cả những dữ liệu đã được gán nhãn và chưa
được gán nhãn. Sau đó, kernel này sẽ được sử dụng để học hàm phân
lớp cho học chủ động thông qua bài toán tối ưu min-max. Wang và
cộng sự [112] đề xuất mô hình phân lớp SVM kết hợp cho CBIR với
phản hồi liên quan sử dụng ước lượng tham số kỳ vọng cực đại. Trong
phương pháp này, một mô hình SVM bất đối xứng trước tiên được
sử dụng để cải thiện tính ổn định của phân lớp SVM và sự cân bằng
trong huấn luyện. Sau đó, một SVM không gian con ngẫu nhiên được
sử dụng để vượt qua vấn đề quá khớp. Cuối cùng, SVM tích hợp được
hình thành từ SVM bất đối xứng và SVM không gian con ngẫu nhiên
sử dụng ước lượng tham số kỳ vọng cực đại. Zhang và cộng sự [121]
đề xuất sơ đồ học chủ động SVM với mô hình lựa chọn động các mẫu
cho học chủ động. Việc lựa chọn được thực hiện từng bước, sử dụng
nhãn của các mẫu được lựa chọn trước đó để hướng dẫn lựa chọn các
mẫu tiếp theo. Các mẫu phản hồi sẽ được xác định dựa trên cả đường
biên quyết định và các mẫu được gán nhãn trước đó.
Trong các phương pháp đã giới thiệu, việc lựa chọn các mẫu để
người dùng gán nhãn trong mỗi vòng lặp phản hồi chỉ được xác định
bởi đường biên quyết định SVM. Tuy nhiên, trong các vòng lặp đầu
của phản hồi, đường biên quyết định SVM có thể không chính xác do
thiếu mẫu huấn luyện. Trong trường hợp này, các mẫu không nên được
100
lựa chọn có thể sẽ được lựa chọn bởi các phương pháp này và nó sẽ
làm cho việc học sau đó không hiệu quả. Do vậy, hiệu năng tra cứu sẽ
kém ngay cả khi một số vòng học đã được thực hiện.
4.3 Phản hồi liên quan trong CBIR
4.3.1 Phát biểu bài toán
Trong hệ thống tra cứu ảnh dựa trên nội dung, phản hồi liên
quan có thể được phát biểu như bài toán học chủ động. Ở đây, những
ảnh thông tin nhất chưa được gán nhãn sẽ được lựa chọn để cải thiện
hiệu năng phân lớp. Ký hiệu L = {(x1, y1), ..., (xl, yl)} là l ảnh được
gán nhãn thông qua quá trình phản hồi liên quan từ người dùng, và
U = {xl+1, ...,xl+u} là u ảnh chưa được gán nhãn với xi ∈ Rd biểu
diễn một ảnh bởi một véc-tơ d chiều. Ký hiệu S là một tập k ảnh
chưa được gán nhãn để người dùng lựa chọn trong mỗi vòng phản hồi,
risk(f,S,L,U) là một hàm thử dựa trên bộ phân lớp f . Lựa chọn các
mẫu chưa được gán nhãn thông tin nhất cho phản hồi liên quan có thể
được phát biểu như bài toán tối ưu: Tìm S∗ sao cho cực tiểu hóa hàm
risk [43],
S∗ = arg min
S⊆U∧|S|=k
risk(f,S,L,U) (4–10)
4.3.2 Xây dựng hàm lựa chọn tập huấn luyện
Như đã trình bày ở trên, phương pháp SVM chủ động sẽ lựa chọn
các ảnh gần đường biên quyết định. Với mỗi truy vấn, sau khi đường
biên quyết định được học, những ảnh gần với đường biên quyết định
được dùng để người dùng lựa chọn gán nhãn. Tuy nhiên, trong những
101
vòng lặp ban đầu, đường biên quyết định có thể không được chính xác
do thiếu mẫu huấn luyện và mẫu huấn luyện âm nhiều hơn mẫu huấn
luyện dương. Do vậy, việc xếp hạng kết quả cũng như lựa chọn các
mẫu để xây dựng tập huấn luyện dựa trên đường biên quyết định sẽ
không hiệu quả. Trong trường hợp này, kết hợp với độ đo tương tự của
đặc trưng mức thấp sẽ là tốt hơn để xếp hạng kết quả cũng như dùng
để lựa chọn các mẫu để xây dựng tập huấn luyện có khả năng thay
đổi đường biên quyết định của SVM.
Ký hiệu DE(xi) là khoảng cách của ảnh i so với đường biên quyết
định của SVM. Khoảng cách này được định nghĩa bởi:
DE(xi) = |f(xi)| = |(wTxi + b)| (4–11)
với w và b là véc-tơ chuẩn và bias của siêu phẳng phân tách tương
ứng, xi là véc tơ đặc trưng biểu diễn ảnh i.
Gọi DS(xi) là độ đo khoảng cách của ảnh i với ảnh truy vấn.
Khoảng cách này được định nghĩa bởi:
DS(xi) =
‖xi − xc‖ if f(xi) ≥ 0
∞ ngược lại
(4–12)
với ‖xi − xc‖ là khoảng cách Ơ-cơ-lit giữa ảnh i và ảnh c. Hàm lựa
chọn ảnh thứ i được định nghĩa như sau:
DSE(xi) =
Nrel
Nrel +Nnonrel
DE(xi) + (1− Nrel
Nrel +Nnonrel
)DS(xi)
(4–13)
Ở đây, Nrel là tổng số ảnh liên quan và Nnonrel tổng số ảnh không liên
quan trong mỗi vòng phản hồi. Cả DE,DS đều được chuẩn hóa để
mỗi phần tử của nó đều nằm trong khoảng [0,1]. Trong luận án, hàm
102
lựa chọn ảnh cho gán nhãn được định nghĩa như sau:
x∗ = arg min
x∈U
DSE(x) (4–14)
Thủ tục lựa chọn ảnh để xây dựng tập huấn luyện được mô tả
tóm tắt trong Thuật toán (4.6).
Thuật toán 4.6 : Học chủ động với SVM
Input: L,U /* Dữ liệu đã được gán nhãn và chưa được gán nhãn */
k,K /* Số ảnh lựa chọn và hàm nhân cho SVM, */
Output: Danh sách ảnh được lựa chọn cho gán nhãn S.
Procedure:
1: Huấn luyện bộ phân lớp SVM: f ∗ = SVMTrain(L,K);
2: Tính toán DE = (|f ∗(xl+1)|, . . . , |f ∗(xn)|); theo công thức (4–11)
3: Tính toán DS = (DS(xl+1), . . . , DS(xn)); theo công thức (4–12)
4: S = φ;
5: while |S| 6 k do
6: for each xj ∈ U do
7: DSE(xj) = NrelNrel+NnonrelDE(xj) + (1−
Nrel
Nrel+Nnonrel )DS(xj)
8: end for
9: x∗ = arg minx∈U DSE(x);
10: S ← S ∪ {x∗};
11: U ← U{x∗};
12: end while
13: return S
4.3.3 Thực nghiệm đánh giá
4.3.3.1 Trích chọn đặc trưng
Trong thí nghiệm này, luận án sử dụng tập dữ liệu Corel Photo
Gallery được tổ chức thành các nhóm đồng nhất để đánh giá hiệu năng
của phương pháp đề xuất. Ba kiểu đặc trưng được sử dụng trong thực
nghiêm: Màu sắc, kết cấu và hình dạng như trong [43].
• Với đặc trưng màu sắc, trước hết, không gian màu từ RGB được
chuyển đổi thành không gian màu HSV. Sau đó ba mô men màu:
103
trung bình, phương sai và độ lệch chuẩn trong mỗi kênh màu sẽ
được trích chọn. Do đó một véc-tơ 9 chiều mô tả mô men màu sẽ
được sử dụng.
• Với đặc trưng kết cấu, biến đổi wavelet rời rạc được thực hiện
trên ảnh đa mức xám. Mỗi phân tích wavelet trên ảnh 2 chiều trả
về bốn ảnh con thu nhỏ. Với phân tích ba mức được thực hiện và
các đặc trưng được trích chọn từ 9 ảnh con, thu được một véc-tơ
đặc trưng 9 chiều biểu diễn cho mỗi ảnh.
• Với đặc trưng hình dạng, biểu đồ hướng cạnh được sử dụng. Thông
tin cạnh chứa trong ảnh được tạo ra và xử lý sử dụng thuật toán
phát hiện biên Canny. Biểu đồ hướng cạnh sau đó được lượng tử
hóa thành 18 khối với 20 độ cho mỗi khối. Do đó tổng số 18 đặc
trưng cạnh được trích chọn.
Tất cả các đặc trưng này được kết hợp thành một véc-tơ đặc trưng 36
chiều và sau đó chúng được chuẩn hóa thành phân bố chuẩn để loại
bỏ sự ảnh hưởng của co dãn. Khoảng cách Ơ-cơ-lit đã được sử dụng
để để tính toán độ tương tự giữa các ảnh.
4.3.3.2 Đánh giá hiệu quả
Các thí nghiệm đã được thực hiện để chỉ ra tính hiệu quả của
phương pháp đề xuất và so sánh hiệu năng với 3 phương pháp phản
hồi liên quan Active[107], SSL batch[43], Dynamic batch[121]. Để minh
họa tình huống thực tế của người dùng trực tuyến, 20 ảnh được lựa
chọn ngẫu nhiên từ mỗi lớp của cơ sở dữ liệu ảnh để làm ảnh truy vấn.
Tại bước đầu tiên của mỗi phiên tra cứu, các ảnh trong cơ sở dữ liệu
được sắp xếp theo khoảng cách Ơ-cơ-lit so với ảnh truy vấn. Những
104
điều chỉnh của người dùng về sự liên quan được mô phỏng một cách tự
động trong mỗi vòng lặp. Như trong các nghiên cứu trước liên quan,
trong vòng lặp đầu tiên, 20 kết quả tra cứu đầu tiên được sử dụng để
gán nhãn liên quan hoặc không liên quan dựa vào thông tin lớp. Các
vòng lặp sau đó, 20 ảnh thông tin nhất được lựa chọn bởi thuật toán
đề xuất sẽ được sử dụng để người dùng gán nhãn. Các ảnh trong cùng
một lớp được xem là liên quan và số còn lại được xem là không liên
quan. Tất cả các ảnh được gán nhãn trong vòng lặp phản hồi sau đó
sẽ được sử dụng để huấn luyện một mô hình phân lớp mới.
Hình 4.2: Kết quả tra cứu không có phản hồi
Kết quả truy vấn khi chưa có phản hồi đối với ảnh truy vấn
612078.jpg được chỉ ra trong hình 4.2. Ảnh trên cùng bên trái là ảnh
truy vấn, các ảnh được đóng khung màu đỏ là ảnh cùng lớp ngữ nghĩa
với ảnh truy vấn, số còn lại là khác lớp ngữ nghĩa. Quan sát hình vẽ
ta thấy, số lượng ảnh liên quan đến ảnh truy vấn rất ít; có rất nhiều
ảnh mặc dù khoảng cách rất gần với ảnh truy vấn nhưng ngữ nghĩa
rất khác và ngược lại. Tuy nhiên, sau 4 vòng phản hồi, số lượng ảnh
liên quan của phương pháp đề xuất đã được cải thiện đáng kể như chỉ
ra trong hình 4.3 (12/20 ảnh đúng so với 6/20).
105
Hình 4.3: Kết quả tra cứu sau 4 vòng phản hồi
Độ đo trung bình độ chính xác theo công thức (1–24) đã được sử
dụng để đánh giá hiệu năng của hệ thống trong mỗi vòng phản hồi.
Kết quả trong hình 4.4 và hình 4.5 chỉ ra sự biến thiên của giá trị
MAP theo số vòng lặp phản hồi. Phương pháp đề xuất cho kết quả tốt
hơn ngay từ vòng lặp đầu tiên của phản hồi. Tuy nhiên khi số vòng
lặp tăng lên, kết quả của các phương pháp gần tiệm cận nhau. Điều
này là do khi số vòng lặp tăng lên thì số ảnh được gán nhãn tăng lên,
khi đó, độ đo dựa vào láng giềng gần nhất không còn nhiều tác dụng
và độ chính xác chỉ phụ thuộc vào phân lớp SVM.
4.4 Tổng kết chương
Trong chương này, luận án đã đề xuất một phương pháp pháp
phản hồi chủ động để xây dựng tập huấn luyện hiệu quả cho SVM
trong CBIR. Điều kiện để lựa chọn ảnh để xây dựng tập huấn luyện
trong SVM được định nghĩa dựa trên sự kết hợp giữa hàm quyết định
SVM với độ đo tương tự láng giềng gần nhất. Với điều kiện này, luận
án đã giải quyết được hạn chế của SVM do sự thiếu hụt dữ liệu huấn
106
Hình 4.4: Mối quan hệ giữa trung bình độ chính xác và tốp các ảnh trả về của
các vòng phản hồi: (a) Vòng phản hồi thứ nhất, (b) Vòng phản hồi thứ hai, (c)
Vòng phản hồi thứ ba, và (d) vòng phản hồi thứ bốn
Hình 4.5: Mối quan hệ giữa trung bình độ chính xác và số lần lặp của tốp các
ảnh trả về: (a) Tốp 20 ảnh đầu tiên trả về, (b) Tốp 40 ảnh đầu tiên trả về, (c)
Tốp 60 ảnh đầu tiên trả về, và (d) tốp 80 ảnh đầu tiên trả về
luyện trong tra cứu ảnh để tăng độ chính xác tra cứu ngay từ các vòng
lặp ban đầu. Các thực nghiệm được thực hiện để so sánh hiệu năng
của phương pháp đề xuất với ba phương pháp phản hồi liên quan khác.
Ngay tại các vòng phản hồi thứ nhất, thứ hai, và thứ ba, phương pháp
đề xuất đã cho kết tra cứu cao hơn các phương pháp khác.
107
KẾT LUẬN
Luận án đã trình bày khái quát các vấn đề cơ bản trong CBIR.
Trên cơ sở khảo sát và phân tích các nghiên cứu liên quan, luận án đã
tập trung nghiên cứu hai vấn đề cơ bản trong tra cứu ảnh là xây dựng
độ đo tương tự và thu hẹp khoảng cách ngữ nghĩa dựa trên RF. Các
kết quả đạt được của luận án được tóm tắt như sau:
- Đề xuất cải tiến kỹ thuật đối sánh hình dạng dựa trên đối sánh
siêu đồ thị xương nhằm tăng độ chính xác. Trong đề xuất này,
mối quan hệ không gian giữa các đỉnh của đồ thị xương được kết
hợp để xây dựng độ tương tự giữa các đỉnh thay vì chỉ sử dụng
độ đo từng cặp như trong đề xuất [5]. Độ tương tự giữa các đỉnh
được xây dựng dựa trên mối quan hệ bộ ba đã tạo ra khả năng
bất biến với các phép biến đổi affine và tỷ lệ. Bài toán đối sánh
giữa hai đồ thị xương, sau đó được phát biểu trong ngữ cảnh đối
sánh siêu đồ thị và được giải bằng giải pháp xếp hạng trên siêu
đồ thị kết hợp thông qua thuật toán bước ngẫu nhiên. Với mô
hình này, độ tương tự giữa các hình dạng được tính toán chính
xác hơn do nó xét tới cả cấu trúc không gian của xương biểu diễn
hình dạng.
- Đề xuất mô hình xây dựng độ tương tự kết hợp nhiều đặc trưng
trong tra cứu ảnh với phản hồi liên quan. Đề xuất này dựa trên
một mô hình toán học được sử dụng rộng rãi trong các hệ thống
hỗ trợ quyết định. Trong mô hình này, thông tin phản hồi từ người
dùng được mô hình hóa bởi tập mờ và được sử dụng để học trọng
108
số liên quan của các bộ đặc trưng. Các trọng số liên quan sau đó
được sử dụng như là hàm mật độ mờ trong tích phân Choquet
để kết hợp các độ đo tương tự của các bộ đặc trưng thành phần
thành độ đo chung. Trong đề xuất, học độ liên quan của các bộ
đặc trưng được phát biểu theo bài toán tối ưu đa mục tiêu có
ràng buộc với hàm mục tiêu tuyến tính. Trọng số liên quan được
điều chỉnh cho bộ đặc trưng có xét đến mức độ tương tác giữa
chúng, thay vì cho từng đặc trưng riêng lẻ đã tạo ra độ đo tương
tự thể hiện sát hơn với mong muốn của người dùng. Do vậy, độ
chính xác tra cứu đã được tăng lên.
- Trong CBIR, RF thường được sử dụng để thu hẹp khoảng cách
ngữ nghĩa giữa đặc trưng mức thấp và các khái niệm mức cao
dựa trên việc học từ thông tin phản hồi từ người dùng. Hiệu quả
của các phương pháp RF phụ thuộc vào việc thiết kế chiến lược
xây dựng tập huấn luyện phù hợp với mô hình học. Luận án đã
đề xuất kỹ thuật phản hồi chủ động để xây dựng tập huấn luyện
hiệu quả cho SVM trong CBIR. Điều kiện lựa chọn ảnh để xây
dựng tập huấn luyện cho SVM được định nghĩa dựa trên sự kết
hợp giữa hàm quyết định SVM với độ đo tương tự láng giềng gần
nhất. Điều kiện này cho phép chọn ra được những ảnh chứa nhiều
thông tin để xây dựng tập huấn luyện, cải thiện được hiệu quả
phân lớp của SVM. Do vậy, độ chính xác tra cứu đã được tăng
lên ngay từ các vòng lặp ban đầu.
- Luận án đã tiến hành thực hiện các thực nghiệm khác nhau như:
đánh giá bước đầu về độ chính xác đối sánh tra cứu, khảo sát
việc thay đổi các thông số, khảo sát mức độ hiệu quả giữa các kỹ
thuật đề xuất với một số kỹ thuật đã công bố của các công trình
109
khác giúp đánh giá tổng quan hơn về hiệu quả truy vấn của các
kỹ thuật được đề xuất trong luận án.
Nhìn chung, luận án đã tổng hợp các công trình công bố quan
trọng có liên quan đến hướng nghiên cứu, có những đề xuất về xây
dựng độ đo tương tự và hiệu chỉnh đồ đo tương tự, và đã kiểm chứng
hiệu quả của các đề xuất thông qua thực nghiệm với kết quả cải tiến
hơn. Luận án cho rằng kết quả nghiên cứu đã đạt được là thiết thực
và có đóng góp cụ thể, đạt được các mục tiêu đề ra. Tuy vậy, các kết
quả trình bày trong luận án vẫn còn khiêm tốn cần cải tiến và nghiên
cứu thêm trong các công trình nghiên cứu khác trong thời gian tới.
110
Danh mục công trình của tác giả
CT1 Ngô Trường Giang, Ngô Quốc Tạo, Nguyễn Đức Dũng, “Applying
Random Walks for Shape Matching”, Kỷ yếu hội thảo Quốc gia
lần thứ 15 “Một số vấn đề chọn lọc của Công nghệ thông tin và
truyền thông”, Hà Nội, 12-2012.
CT2 Ngô Trường Giang, Ngô Quốc Tạo, Nguyễn Đức Dũng, “Shape
Similarity Based on Skeleton Hyper-Graph Matching”. Hội nghị
quốc gia lần thứ VI “Nghiên cứu cơ bản và ứng dụng Công nghệ
thông tin – FAIR(Fundamental and Applied IT Research)”, Huế,
6-2013.
CT3 Giang, N.T., Tao, N.Q., Dung, N.D. and The, N.T., “Skeleton
Based Shape Matching Using Reweighted Random Walks” Proc.
of IEEE on 9th International Conference on Information, Commu-
nications and Signal Processing (ICICS), pp. 1-5, Dec, 2013.
CT4 Giang, N.T., Tao, N.Q., Dung, N.D. and The, N.T., “Batch Mode
Active Learning for Interactive Image Retrieval”, Proc. of IEEE
on International Symposium on Multimedia (ISM 2014).
CT5 Giang, N.T., Tao, N.Q., Dung, N.D. , “Image Retrieval with Rele-
vance Feedback using SVM Active Learning” International Jour-
nal of Electrical and Computer Engineering, Vol.6, No.6, 2016,
(Scopus).
CT6 Giang, N.T.,The, N.T., Tao, N.Q., Dung, N.D., Chu, S.C., “Sim-
ilarity Shape Based on Skeleton Graph Matching” Journal of In-
formation Hiding and Multimedia Signal Processing, Vol.7, No.6,
2016, (Scopus).
CT7 Giang, N.T., Tao, N.Q., Dung, N.D. , Huy, N.H, “Learning In-
teraction Measure with Relevance Feedback in Image Retrieval”
Journal of Computer Science and Cybernetics, Vol.32, No.2, 2016.
111
Tài liệu tham khảo
[1] A. Frome, Y. S., and Malik, J. Image retrieval and classification using
local distance functions. In Advanc es in Neural Information Processing
Systems, 2006. Proceedings. Conference on (December 2006), pp. 417–424.
[2] Ambika, P., and Samath, J. Unsupervised neural network for content
based image retrieval by utilizing content and model annotations. Research
Journal of Information Technology 5 (2013), 468–472.
[3] Arevalillo-Herráez, M., Ferri, F. J., and Domingo, J. A naive
relevance feedback model for content-based image retrieval using multiple
similarity measures. Pattern Recognition 43, 3 (2010), 619–629.
[4] Bai, X., Latecki, L., and yu Liu, W. Skeleton pruning by contour
partitioning with discrete curve evolution. IEEE Transactions on Pattern
Analysis and Machine Intelligence 29, 3 (2007), 449–462.
[5] Bai, X., and Latecki, L. J. Path similarity skeleton graph matching.
IEEE Transactions on Pattern Analysis and Machine Intelligence 30, 7
(2008), 1282–1292.
[6] Baseski, E., Erdem, A., and Tari, S. Dissimilarity between two skeletal
trees in a context. Pattern Recognition 42, 3 (2009), 370–385.
[7] Beliakov, G. Fitting fuzzy measures by linear programming. programming
library fmtools. In Fuzzy Systems, 2008. FUZZ-IEEE 2008. (IEEE World
Congress on Computational Intelligence). IEEE International Conference on
(June 2008), pp. 862–867.
[8] Belongie, S., Malik, J., and Puzicha, J. Shape matching and object
recognition using shape contexts. IEEE Transactions on Pattern Analysis
and Machine Intelligence 24, 4 (2002), 509–522.
112
[9] Belongie, S., Malik, J., and Puzicha, J. Shape matching and object
recognition using shape contexts. IEEE Trans. Pattern Anal. Mach. Intell.
24, 4 (Apr. 2002), 509–522.
[10] Blum, H. Biological shape and visual science (part i). Journal of Theoretical
Biology 38, 2 (1973), 205–287.
[11] B.Sebastian, T., and B.Kimia, B. Curves vs. skeletons in object recog-
nition. Signal Processing 85, 2 (2005), 247–263.
[12] Carson, C., Belongie, S., Greenspan, H., and Malik, J. Blobworld:
image segmentation using expectation-maximization and its application to
image querying. IEEE Transactions on Pattern Analysis and Machine In-
telligence 24, 8 (Aug 2002), 1026–1038.
[13] Chen, Y., Wang, J. Z., and Krovetz, R. Clue: Cluster-based retrieval
of images by unsupervised learning. IEEE Transactions on Image Processing
14 (2003), 2005.
[14] Chen, Z., and Fu, B. On the Complexity of Rocchio’s Similarity-Based
Relevance Feedback Algorithm. Springer Berlin Heidelberg, Berlin, Heidel-
berg, 2005, pp. 216–225.
[15] Chen, Z., and Zhu, B. Some formal analysis of rocchio’s similarity-based
relevance feedback algorithm. Inf. Retr. 5, 1 (Jan. 2002), 61–86.
[16] Chertok, M., and Keller, Y. Efficient high order matching. IEEE
Transactions on Pattern Analysis and Machine Intelligence 32, 12 (2010),
2205–2215.
[17] Cho, M., Lee, J., and Lee, K. M. Reweighted random walks for graph
matching. In Proceedings of the 11th European conference on Computer
vision: Part V (2010), pp. 492–505.
[18] Choi, Y., Kim, D., and Krishnapuram, R. Relevance feedback for
content-based image retrieval using the choquet integral. In Multimedia and
Expo, 2000. ICME 2000. 2000 IEEE International Conference on (2000),
vol. 2, pp. 1207–1210 vol.2.
[19] Conte, D., Foggia, P., Sansone, C., and Vento, M. Thirty years
of graph matching in pattern recognition. International journal of pattern
recognition and artificial intelligence 18, 3 (2004), 265–298.
113
[20] Cox, I. J., Miller, M. L., Minka, T. P., Papathomas, T. V., and
Yianilos, P. N. The bayesian image retrieval system, pichunter: theory,
implementation, and psychophysical experiments. IEEE Transactions on
Image Processing 9, 1 (Jan 2000), 20–37.
[21] da S. Torres, R., Falcão, A. X., Gonc¸alves, M. A., Papa, J. P.,
Zhang, B., Fan, W., and Fox, E. A. A genetic programming framework
for content-based image retrieval. Pattern Recognition 42, 2 (2009), 283–292.
Learning Semantics from Multimedia Content.
[22] Datta, R., Joshi, D., Li, J., and Wang, J. Z. Image retrieval: Ideas,
influences, and trends of the new age. ACM Comput. Surv. 40, 2 (May 2008),
5:1–5:60.
[23] Daugman, J. G. Uncertainty relation for resolution in space, spatial fre-
quency, and orientation optimized by two-dimensional visual cortical filters.
J. Opt. Soc. Am. A 2, 7 (Jul 1985), 1160–1169.
[24] Demirci, M. F., Osmanlioglu, Y., Shokoufandeh, A., and Dick-
inson, S. Efficient many-to-many feature matching under the l1 norm.
Computer Vision and Image Understanding 115, 7 (July 2011), 976–983.
[25] Do, M. N., and Vetterli, M. Wavelet-based texture retrieval using
generalized gaussian density and kullback-leibler distance. Trans. Img. Proc.
11, 2 (Feb. 2002), 146–158.
[26] Donald, K. M., and Smeaton, A. F. A Comparison of Score, Rank and
Probability-Based Fusion Methods for Video Shot Retrieval. Springer Berlin
Heidelberg, Berlin, Heidelberg, 2005, pp. 61–70.
[27] Douze, M., Jégou, H., Sandhawalia, H., Amsaleg, L., and Schmid,
C. Evaluation of gist descriptors for web-scale image search. In Proceedings
of the ACM International Conference on Image and Video Retrieval (New
York, NY, USA, 2009), CIVR ’09, ACM, pp. 19:1–19:8.
[28] Duchenne, O., Bach, F., Kweon, I.-S., and Ponce, J. A tensor-based
algorithm for high-order graph matching. IEEE Transactions on Pattern
Analysis and Machine Intelligence 33, 12 (2011), 2383–2395.
[29] Fei-Fei, L., Fergus, R., and Perona, P. Learning generative visual
models from few training examples: An incremental bayesian approach tested
114
on 101 object categories. Comput. Vis. Image Underst. 106, 1 (Apr. 2007),
59–70.
[30] Felzenszwalb, P., and Schwartz, J. Hierarchical matching of de-
formable shapes. In Computer Vision and Pattern Recognition, 2007. CVPR
’07. IEEE Conference on (2007), pp. 1–8.
[31] Flickner, M., Sawhney, H., Niblack, W., Ashley, J., Huang, Q.,
Dom, B., Gorkani, M., Hafner, J., Lee, D., Petkovic, D., Steele,
D., and Yanker, P. Query by image and video content: The qbic system.
Computer 28, 9 (Sept. 1995), 23–32.
[32] FOGGIA, P., PERCANNELLA, G., and VENTO, M. Graph match-
ing and learning in pattern recognition in the last 10 years. International
Journal of Pattern Recognition and Artificial Intelligence 28, 01 (2014).
[33] Frigui, H. Interactive image retrieval using fuzzy sets. Pattern Recognition
Letters 22, 9 (2001), 1021–1031.
[34] Goh, W. B. Strategies for shape matching using skeletons. Computer
Vision and Image Understanding 110, 3 (June 2008), 326–345.
[35] Grabisch, M. The application of fuzzy integrals in multicriteria decision
making. European Journal of Operational Research 89, 3 (1996), 445–456.
[36] Grabisch, M., Kojadinovic, I., and Meyer, P. A review of methods
for capacity identification in choquet integral based multi-attribute utility
theory: Applications of the kappalab r package. European Journal of Oper-
ational Research 186, 2 (2008), 766–785.
[37] Gupta, A., and Jain, R. Visual information retrieval. Commun. ACM
40, 5 (May 1997), 70–79.
[38] Han, L., Wilson, R., and Hancock, E. A supergraph-based generative
model. In Proceedings of the 2010 20th International Conference on Pattern
Recognition (2010), pp. 1566–1569.
[39] Han, Y., Xu, Z., Ma, Z., and Huang, Z. Image classification with
manifold learning for out-of-sample data. Signal Processing 93, 8 (2013),
2169–2177. Indexing of Large-Scale Multimedia Signals.
115
[40] Haveliwala, T. H. Topic-sensitive pagerank. In Proceedings of the 11th
International Conference on World Wide Web (New York, NY, USA, 2002),
WWW ’02, ACM, pp. 517–526.
[41] He, J., Li, M., Zhang, H.-J., Tong, H., and Zhang, C. Manifold-
ranking based image retrieval. In Proceedings of the 12th Annual ACM
International Conference on Multimedia (New York, NY, USA, 2004), MUL-
TIMEDIA ’04, ACM, pp. 9–16.
[42] Ho, S.-S., and Wechsler, H. Query by transduction. IEEE Trans.
Pattern Anal. Mach. Intell. 30, 9 (Sept. 2008), 1557–1571.
[43] Hoi, S. C. H., Jin, R., Zhu, J., and Lyu, M. R. Semisupervised svm
batch mode active learning with applications to image retrieval. Journal
ACM Transactions on Information Systems 27, 3 (May 2009), 16:1–16:29.
[44] Hoi, S. C. H., and Lyu, M. R. A semi-supervised active learning frame-
work for image retrieval. In Proceedings of the 2005 IEEE Computer Soci-
ety Conference on Computer Vision and Pattern Recognition (CVPR’05)-
Volume 2-Volume 02 (2005), CVPR ’05, pp. 302–309.
[45] Huijsmans, D. P., and Sebe, N. How to complete performance graphs
in content-based image retrieval: add generality and normalize scope. IEEE
Transactions on Pattern Analysis and Machine Intelligence 27, 2 (Feb 2005),
245–251.
[46] Huiskes, M. J., and Lew, M. S. Performance evaluation of relevance
feedback methods. In Proceedings of the 2008 International Conference
on Content-based Image and Video Retrieval (New York, NY, USA, 2008),
CIVR ’08, ACM, pp. 239–248.
[47] Jiang, B., Tang, J., Luo, B., Chen, Z., and Chen, Z. Skeleton graph
matching based on a novel shape tree. In Computing, Communication, Con-
trol, and Management, 2009. CCCM 2009. ISECS International Colloquium
on (2009), vol. 4, pp. 636–639.
[48] Jing, F., Li, M., Zhang, L., Zhang, H.-J., and Zhang, B. Learn-
ing in Region-Based Image Retrieval. Springer Berlin Heidelberg, Berlin,
Heidelberg, 2003, pp. 206–215.
116
[49] Ko, B., and Byun, H. Integrated region-based image retrieval using re-
gion’s spatial relationships. In Pattern Recognition, 2002. Proceedings. 16th
International Conference on (2002), vol. 1, pp. 196–199 vol.1.
[50] Kokare, M., Chatterji, B. N., and Biswas, P. K. A survey on current
content based image retrieval methods. IETE Journal of Research 48, 3-4
(2002), 261–271.
[51] Krishnan, A. R., Kasim, M. M., and Bakar, E. M. N. E. A. A short
survey on the usage of choquet integral and its associated fuzzy measure in
multiple attribute analysis. Procedia Computer Science 59 (2015), 427–434.
[52] Kushki, A., Androutsos, P., Plataniotis, K. N., and Venet-
sanopoulos, A. N. Query feedback for interactive image retrieval. IEEE
Transactions on Circuits and Systems for Video Technology 14, 5 (May
2004), 644–655.
[53] Kushki, A., Androutsos, P., Plataniotis, K. N., and Venet-
sanopoulos, A. N. Retrieval of images from artistic repositories using
a decision fusion framework. IEEE Transactions on Image Processing 13, 3
(March 2004), 277–292.
[54] Latecki, L., Wang, Q., Koknar-Tezel, S., and Mega-
looikonomou, V. Optimal subsequence bijection. In Proceedings of
the Seventh IEEE International Conference on Data Mining (2007),
pp. 565–570.
[55] Latecki, L. J., Lakamper, R., and Eckhardt, T. Shape descriptors
for non-rigid shapes with a single closed contour. In Computer Vision and
Pattern Recognition, 2000. Proceedings. IEEE Conference on (2000), vol. 1,
pp. 424–429 vol.1.
[56] Lee, J., Cho, M., and Lee, K.-M. A graph matching algorithm using
data-driven markov chain monte carlo sampling. In Proceedings of the 20th
International Conference on Pattern Recognition (2010), pp. 2816–2819.
[57] Lee, J., Cho, M., and Lee, K. M. Hyper-graph matching via reweighted
random walks. In Proceedings of the IEEE Conference on Computer Vision
and Pattern Recognition (2011), CVPR ’11, pp. 1633–1640.
117
[58] Leordeanu, M., and Hebert, M. A spectral technique for correspon-
dence problems using pairwise constraints. In Proceedings of the Tenth IEEE
International Conference on Computer Vision-Volume 2 (2005), pp. 1482–
1489.
[59] Lew, M. S., Sebe, N., Djeraba, C., and Jain, R. Content-based
multimedia information retrieval: State of the art and challenges. ACM
Trans. Multimedia Comput. Commun. Appl. 2, 1 (Feb. 2006), 1–19.
[60] Ling, H., and Jacobs, D. Shape classification using the inner-distance.
IEEE Transactions on Pattern Analysis and Machine Intelligence 29, 2
(2007), 286–299.
[61] Liu, R., Wang, Y., Baba, T., Masumoto, D., and Nagata, S. Svm-
based active feedback in image retrieval using clustering and unlabeled data.
Pattern Recognition 41, 8 (2008), 2645–2655.
[62] Liu, X., Yao, H., Ji, R., Xu, P., and Sun, X. Bidirectional-isomorphic
manifold learning at image semantic understanding & representation. Mul-
timedia Tools and Applications 64, 1 (2013), 53–76.
[63] Liu, Y., Zhang, D., Lu, G., and Ma, W.-Y. A survey of content-based
image retrieval with high-level semantics. Pattern Recogn. 40, 1 (Jan. 2007),
262–282.
[64] Ma, W. Y., and Manjunath, B. S. Netra: a toolbox for navigating large
image databases. In Image Processing, 1997. Proceedings., International
Conference on (Oct 1997), vol. 1, pp. 568–571 vol.1.
[65] MacArthur, S. D., Brodley, C. E., and Shyu, C.-R. Relevance
feedback decision trees in content-based image retrieval. In Content-based
Access of Image and Video Libraries, 2000. Proceedings. IEEE Workshop on
(2000), pp. 68–72.
[66] Macrini, D., Dickinson, S., Fleet, D., and Siddiqi, K. Object cat-
egorization using bone graphs. Computer Vision and Image Understanding
115, 8 (Aug. 2011), 1187–1206.
[67] Macrini, D., Dickinson, S. J., Fleet, D. J., and Siddiqi, K. Bone
graphs: Medial shape parsing and abstraction. Computer Vision and Image
Understanding 115, 7 (2011), 1044–1061.
118
[68] Macrini, D., Siddiqi, K., and Dickinson, S. From skeletons to bone
graphs: Medial abstraction for object recognition. In Computer Vision and
Pattern Recognition, 2008. CVPR 2008. IEEE Conference on (2008), pp. 1–
8.
[69] Manjunath, B. S., Ohm, J. R., Vasudevan, V. V., and Yamada, A.
Color and texture descriptors. IEEE Transactions on Circuits and Systems
for Video Technology 11, 6 (Jun 2001), 703–715.
[70] Michel, G. K-order additive discrete fuzzy measures and their representa-
tion. Fuzzy Sets Syst. 92, 2 (Dec. 1997), 167–189.
[71] Min, R., and Cheng, H. Effective image retrieval using dominant color
descriptor and fuzzy support vector machine. Pattern Recognition 42, 1
(2009), 147–157.
[72] Mukherjea, S., Hirata, K., and Hara, Y. Amore: A world wide web
image retrieval engine. World Wide Web 2, 3 (1999), 115–132.
[73] Muller, H., Mu¨ller, W., Squire, D. M., Marchand-Maillet, S.,
and Pun, T. Performance evaluation in content-based image retrieval:
overview and proposals. Pattern Recognition Letters 22, 5 (2001), 593–601.
Image/Video Indexing and Retrieval.
[74] Muneesawang, P., and Guan, L. An interactive approach for cbir using
a network of radial basis functions. IEEE Transactions on Multimedia 6, 5
(Oct 2004), 703–716.
[75] Munkres, J. Algorithms for the assignment and transportation problems.
Journal of the Society for Industrial and Applied Mathematics 5, 1 (1957),
32–38.
[76] Murofushi, T., and Sugeno, M. An interpretation of fuzzy measures
and the choquet integral as an integral with respect to a fuzzy measure.
Fuzzy Sets and Systems 29, 2 (1989), 201–227.
[77] Narukawa, Y., and Murofushi, T. Choquet integral and Sugeno integral
as aggregation functions. Springer Berlin Heidelberg, Berlin, Heidelberg,
2003, pp. 27–39.
119
[78] Nematipour, S., S. J. M. R. Relevance feedback optimization in content
based image retrieval via enhanced radial basis function networ. In Multi
conference of Engineers and Computer Scientists, Proceedings. Proceedings
of the International Multi conference on (2011), vol. 1.
[79] Ojala, T., Pietikainen, M., and Maenpaa, T. Multiresolution gray-
scale and rotation invariant texture classification with local binary patterns.
IEEE Transactions on Pattern Analysis and Machine Intelligence 24, 7 (Jul
2002), 971–987.
[80] Oliva, A., and Torralba, A. Modeling the shape of the scene: A holistic
representation of the spatial envelope. International Journal of Computer
Vision 42, 3 (2001), 145–175.
[81] Ortega, M., Rui, Y., Chakrabarti, K., Porkaew, K., Mehrotra,
S., and Huang, T. S. Supporting ranked boolean similarity queries in
mars. IEEE Transactions on Knowledge and Data Engineering 10, 6 (Nov
1998), 905–925.
[82] Pentland, A., Picard, R. W., and Sclaroff, S. Photobook: Content-
Based Manipulation of Image Databases. Springer US, Boston, MA, 1996,
pp. 43–80.
[83] Prasad, B. E., Gupta, A., Toong, H. M. D., and Madnick, S. E.
A microcomputer-based image database management system. IEEE Trans-
actions on Industrial Electronics IE-34, 1 (Feb 1987), 83–88.
[84] Rahman, M. M., Bhattacharya, P., and Desai, B. C. A framework
for medical image retrieval using machine learning and statistical similarity
matching techniques with relevance feedback. IEEE Transactions on Infor-
mation Technology in Biomedicine 11, 1 (Jan. 2007), 58–69.
[85] Regalia, P. A., and Kofidis, E. The higher-order power method revis-
ited: convergence proofs and effective initialization. In 2000 IEEE Interna-
tional Conference on Acoustics, Speech, and Signal Processing. Proceedings
(Cat. No.00CH37100) (2000), vol. 5, pp. 2709–2712 vol.5.
[86] Rubner, Y., Tomasi, C., and Guibas, L. J. The earth mover’s distance
as a metric for image retrieval. International Journal of Computer Vision
40, 2 (2000), 99–121.
120
[87] Rui, Y., and Huang, T. Optimizing learning in image retrieval. In Com-
puter Vision and Pattern Recognition, 2000. Proceedings. IEEE Conference
on (2000), vol. 1, pp. 236–243 vol.1.
[88] Rui, Y., Huang, T. S., Ortega, M., and Mehrotra, S. Relevance
feedback: a power tool for interactive content-based image retrieval. IEEE
Transactions on Circuits and Systems for Video Technology 8, 5 (Sep 1998),
644–655.
[89] Santini, S., and Jain, R. Similarity measures. IEEE Transactions on
Pattern Analysis and Machine Intelligence 21, 9 (Sep 1999), 871–883.
[90] Scho¨lkopf, B., Platt, J., and Hofmann, T. Learning with Hy-
pergraphs: Clustering, Classification, and Embedding. MIT Press, 2007,
pp. 1601–1608.
[91] Sebastian, T., Klein, P., and Kimia, B. Recognition of shapes by
editing their shock graphs. IEEE Transactions on Pattern Analysis and
Machine Intelligence 26, 5 (2004), 550–571.
[92] Shen, W., Bai, X., Hu, R., Wang, H., and Jan Latecki, L. Skeleton
growing and pruning with bending potential ratio. Pattern Recogn. 44, 2
(2011), 196–209.
[93] Shen, W., Wang, Y., Bai, X., Wang, H., and Latecki, L. J. Shape
clustering: Common structure discovery. Pattern Recognition 46, 2 (2013),
539–550.
[94] SHIH, J.-L., and CHEN, L.-H. A context-based approach for color im-
age retrieval. International Journal of Pattern Recognition and Artificial
Intelligence 16, 02 (2002), 239–255.
[95] Siddiqi, K., Shokoufandeh, A., Dickinson, S., and Zucker, S.
Shock graphs and shape matching. International Journal of Computer Vi-
sion 35, 1 (1999), 13–32.
[96] Silvia, A., Salvatore, G., Fabio, L., and Benedetto, M. Assess-
ing non-additive utility for multicriteria decision aid. European Journal of
Operational Research 158, 3 (2004), 734–744.
[97] Smith, A. R. Color gamut transform pairs. SIGGRAPH Comput. Graph.
12, 3 (Aug. 1978), 12–19.
121
[98] Smith, J. R., and Chang, S.-F. Visualseek: A fully automated content-
based image query system. In Proceedings of the Fourth ACM International
Conference on Multimedia (New York, NY, USA, 1996), MULTIMEDIA ’96,
ACM, pp. 87–98.
[99] Snoek, C. G. M., Worring, M., and Smeulders, A. W. M. Early
versus late fusion in semantic video analysis. In Proceedings of the 13th
Annual ACM International Conference on Multimedia (New York, NY, USA,
2005), MULTIMEDIA ’05, ACM, pp. 399–402.
[100] Stricker, M. A., and Orengo, M. Similarity of color images. In Storage
and Retrieval for Image and Video Databases (1995), pp. 381–392.
[101] Su, Z., Zhang, H., Li, S., and Ma, S. Relevance feedback in content-
based image retrieval: Bayesian framework, feature subspaces, and progres-
sive learning. IEEE Transactions on Image Processing 12, 8 (Aug 2003),
924–937.
[102] Sunao, H., Joo Kooi, T., Hyoungseop, K., and Seiji, I. A media-art
employing virtual shadows with shape recognition. International Journal of
Innovative Computing, Information and Control 5, 3 (2009), 601–607.
[103] Swain, M. J., and Ballard, D. H. Color indexing. International Journal
of Computer Vision 7, 1 (1991), 11–32.
[104] T. Murofushi, M. S. An interpretation of fuzzy measure and the choquet
integral as an integral with respect to a fuzzy measure. Fuzzy Sets and
Systems 29 (1989), 201–227.
[105] Thomee, B., and Lew, M. S. Interactive search in image retrieval: a sur-
vey. International Journal of Multimedia Information Retrieval 1, 2 (2012),
71–86.
[106] Tieu, K., and Viola, P. Boosting image retrieval. International Journal
of Computer Vision 56, 1 (2004), 17–36.
[107] Tong, S., and Chang, E. Support vector machine active learning for
image retrieval. In Proceedings of the10th ACM International Conference on
Multimedia (2001), pp. 107–118.
122
[108] Torralba, A., Fergus, R., and Freeman, W. T. 80 million tiny
images: A large data set for nonparametric object and scene recognition.
IEEE Transactions on Pattern Analysis and Machine Intelligence 30, 11
(Nov 2008), 1958–1970.
[109] Vailaya, A., Figueiredo, M. A., Jain, A. K., and Zhang, H.-J.
Image classification for content-based indexing. Trans. Img. Proc. 10, 1
(Jan. 2001), 117–130.
[110] Vapnik, V. N. The Nature of Statistical Learning Theory. Springer-Verlag
New York, Inc., New York, NY, USA, 1995.
[111] Wang, F., Er, G., and Dai, Q. Inequivalent manifold ranking for content-
based image retrieval. In 2008 15th IEEE International Conference on Image
Processing (Oct 2008), pp. 173–176.
[112] Wang, X.-Y., Chen, J.-W., and Yang, H.-Y. A new integrated svm
classifiers for relevance feedback content-based image retrieval using em pa-
rameter estimation. Applied Soft Computing 11, 2 (2011), 2787–2804.
[113] Wang, Z. J., Wiederhold, G., Firschein, O., and Xin Wei, S.
Content-based image indexing and searching using daubechies’ wavelets. In-
ternational Journal on Digital Libraries 1, 4 (1998), 311–328.
[114] Wei Han, C., Ming Cheng, C., Chung Ming, K., Nai Chung, Y.,
and Ding Shun, H. An efficient contour-based layered shape descriptor for
image retrieval. International Journal of Innovative Computing, Information
and Control 7, 7(A) (2011), 3903–3922.
[115] Wu, K., and Yap, K.-H. Fuzzy svm for content-based image retrieval:
a pseudo-label support vector machine framework. IEEE Computational
Intelligence Magazine 1, 2 (May 2006), 10–16.
[116] Wu, R.-S., and Chung, W.-H. Ensemble one-class support vector ma-
chines for content-based image retrieval. Expert Systems with Applications
36, 3, Part 1 (2009), 4451–4459.
[117] Xu, B., Bu, J., Chen, C., and Cai, D. A bregman divergence opti-
mization framework for ranking on data manifold and its new extensions. In
Proceedings of the Twenty-Sixth AAAI Conference on Artificial Intelligence
(2012), AAAI’12, AAAI Press, pp. 1190–1196.
123
[118] Xu, B., Bu, J., Chen, C., Wang, C., Cai, D., and He, X. Emr: A
scalable graph-based ranking model for content-based image retrieval. IEEE
Transactions on Knowledge and Data Engineering 27, 1 (Jan 2015), 102–114.
[119] Zaboli, H., and Rahmati, M. An improved shock graph approach for
shape recognition and retrieval. In Modelling Simulation, 2007. AMS ’07.
First Asia International Conference on (2007), pp. 438–443.
[120] Zass, R., and Shashua, A. Probabilistic graph and hypergraph matching.
In Proceedings of the IEEE Conference on Computer Vision and Pattern
Recognition (2008), pp. 1–8.
[121] Zhang, X., Cheng, J., Xu, C., Lu, H., and Ma, S. A dynamic batch
sampling mode for svm active learning in image retrieval. In Recent Advances
in Computer Science and Information Engineering, vol. 128 of Lecture Notes
in Electrical Engineering. 2012, pp. 399–406.
[122] Zhou, S. X., and Huang, S. T. Relevance feedback in image retrieval:
A comprehensive review. Multimedia Systems 8, 6 (2003), 536–544.
[123] Zhu, J., Hoi, S. C., Lyu, M. R., and Yan, S. Near-duplicate keyframe
retrieval by nonrigid image matching. In Proceedings of the 16th ACM Inter-
national Conference on Multimedia (New York, NY, USA, 2008), MM ’08,
ACM, pp. 41–50.
124
Các file đính kèm theo tài liệu này:
- luan_an_nang_cao_hieu_qua_tra_cuu_anh_dua_tren_hieu_chinh_do.pdf