Luận án Nâng cao hiệu quả tra cứu ảnh dựa trên hiệu chỉnh độ đo tương tự và phản hồi liên quan

Thông thường, các bài toán phân lớp được nghiên cứu với phương pháp lấy mẫu ngẫu nhiên, nghĩa là các mẫu huấn luyện được lựa chọn ngẫu nhiên từ các mẫu có sẵn. Hướng tiếp cận này thường được gọi là "học từ ví dụ" hay còn được gọi là "học bị động". Một hướng tiếp cận khác là mô hình học chủ động trong đó các chương trình học có một số kiểm soát trên dữ liệu được dùng để huấn luyện. Trong trường hợp này, các thuật toán học đóng một vai trò quan trọng trong việc định nghĩa các tiêu chuẩn để lựa chọn dữ liệu cho huấn luyện. Giả thuyết quan trọng trong tiếp cận này là nếu các dữ liệu được thêm vào tập huấn luyện được lựa chọn đúng đắn thì mặc dù với ít dữ liệu huấn luyện nhưng thuật toán học có thể đạt được hiệu quả tốt hơn so với việc học sử dụng tất cả các dữ liệu hiện có [42]

pdf134 trang | Chia sẻ: tueminh09 | Ngày: 25/01/2022 | Lượt xem: 594 | Lượt tải: 0download
Bạn đang xem trước 20 trang tài liệu Luận án Nâng cao hiệu quả tra cứu ảnh dựa trên hiệu chỉnh độ đo tương tự và phản hồi liên quan, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
liên quan của các bộ đặc trưng, luận án đề xuất tiếp cận theo hướng giải quyết bài toán tối ưu đa mục tiêu có ràng buộc với hàm mục tiêu được xây dựng theo ngữ cảnh độ lệch nhỏ nhất. Theo cách này, ước lượng độ liên quan của các bộ đặc trưng được chuyển thành bài toán quy hoạch tuyến tính và có thể giải nhanh bởi phương pháp đơn hình. Bên cạnh đó, trọng số liên quan được điều chỉnh cho bộ đặc trưng, thay vì cho từng đặc trưng riêng lẻ đã tạo ra độ đo tương tự thể hiện sát hơn với mong muốn của người dùng. Do vậy độ chính xác tra cứu đã được tăng lên và tốt hơn các phương pháp khác. 92 Chương 4 HỌC CHỦ ĐỘNG SVM DỰA TRÊN PHẢN HỒI LIÊN QUAN Hệ thống tra cứu ảnh dựa trên nội dung nhằm mục đích để trả lại các hình ảnh liên quan nhất trong một cơ sở dữ liệu theo quan điểm của người sử dụng với một truy vấn nhất định. Do có sự cảm nhận khác nhau của người dùng nên có thể có các thay đổi ý nghĩa của sự liên quan giữa các người dùng cho một cùng một truy vấn. Do vậy, các hệ thống này thường dựa trên một quá trình học chủ động để trả về một tập nhỏ các ảnh để người dùng gán nhãn tại mỗi vòng lặp. Những ảnh được gán nhãn sau đó được sử dụng như tập huấn luyện trong các mô hình học máy để cải thiện hiệu quả tra cứu trong các bước tiếp theo. Chương này trình bày một chiến lược học chủ động để xây dựng tập ảnh huấn luyện hiệu quả để cải thiện biên quyết định trong SVM dựa trên các thông tin phản hồi từ người dùng. Nội dung của chương được công bố trong các công trình CT4 và CT5. 93 4.1 Học chủ động Thông thường, các bài toán phân lớp được nghiên cứu với phương pháp lấy mẫu ngẫu nhiên, nghĩa là các mẫu huấn luyện được lựa chọn ngẫu nhiên từ các mẫu có sẵn. Hướng tiếp cận này thường được gọi là "học từ ví dụ" hay còn được gọi là "học bị động". Một hướng tiếp cận khác là mô hình học chủ động trong đó các chương trình học có một số kiểm soát trên dữ liệu được dùng để huấn luyện. Trong trường hợp này, các thuật toán học đóng một vai trò quan trọng trong việc định nghĩa các tiêu chuẩn để lựa chọn dữ liệu cho huấn luyện. Giả thuyết quan trọng trong tiếp cận này là nếu các dữ liệu được thêm vào tập huấn luyện được lựa chọn đúng đắn thì mặc dù với ít dữ liệu huấn luyện nhưng thuật toán học có thể đạt được hiệu quả tốt hơn so với việc học sử dụng tất cả các dữ liệu hiện có [42]. Để thực hiện việc học chủ động thì thuật toán học cần phải có khả năng tạo được các truy vấn cho chuyên gia để yêu cầu họ gán nhãn cho các dữ liệu, sao cho dữ liệu được gán nhãn là những dữ liệu chứa nhiều thông tin hữu ích cho quá trình học. Tuy nhiên, vấn đề khó và quan trọng nhất là cách để đánh giá thế nào là một mẫu chưa được gán nhãn được coi là chứa nhiều thông tin nhất. 4.2 Học chủ động SVM với phản hồi liên quan 4.2.1 Học chủ động SVM SVM đã được giới thiệu đầu tiên bởi Vapnik [110] vào cuối những năm 90 và đến nay vẫn còn được quan tâm bởi cộng đồng nghiên cứu học máy. Với nền tảng lý thuyết mạnh mẽ và chặt chẽ, nó đang được 94 sử dụng cho nhiều ứng dụng và là một phương pháp học mẫu nhỏ phổ biến có hiệu năng tốt cho bài toán phân loại mẫu. Giả sử có một tập l mẫu được gán nhãn L = {(x1, y1), . . . , (xl, yl)}, với xi ∈ Rd là một véc-tơ trong không gian d chiều và yi ∈ {1,−1} là các nhãn. Ý tưởng chính của SVM là tìm siêu phẳng f(x) = wTx + b (4–1) để chia tách các điểm có yi = 1 và các điểm có yi = −1 sao cho siêu phẳng phân tách có lề cực đại trong khi tỷ lệ lỗi phân lớp là nhỏ nhất. Đây là bài toán quy hoạch toàn phương và nó có thể được giải bởi tìm w và b sao cho cực tiểu hóa hàm 1 2‖w‖ 2 + C l∑ i=1 ξi s.t. yi(wTxi + b) ≥ 1− ξi, ξi ≥ 0 . (4–2) Nếu viết điều kiện phân loại dưới dạng đối ngẫu thì bài toán đối ngẫu của SVM chính là bài toán tối ưu tìm các tham số αi, i = 1 . . . l để cực đại hóa hàm L(α) = l∑ i=1 αi − 12 l∑ i,j=1 αiαjyiyjK(xi,xj) (4–3) sao cho l∑ i=1 yiαi = 0, 0 6 αi 6 C, với K(xi,xj) là hàm nhân. Trên thực tế ứng dụng, có hai loại hàm nhân được sử dụng rộng rãi nhất. Đó là hàm đa thức (polynomial function) và hàm RBF (radial basis function). Hàm nhân đa thức là hàm số trên không gian Rd có dạng K(x, y) = (x.y)p, (4–4) 95 Hàm nhân RBF là hàm số có dạng K(x, y) = exp ( −(x−y)2 2σ2 ) , (4–5) trong đó σ thường được gọi là độ rộng (width) của hàm. Trong trường hợp này, số chiều của không gian đặc trưng là vô tận, và do vậy năng lực của các hàm tuyến tính cũng trở nên không giới hạn. Luận án sử dụng hàm này trong thực nghiệm. Hàm quyết định của SVM được định nghĩa bởi: f(x) = l∑ i=1 αiyiK(x,xi) + b (4–6) và đường biên quyết định sẽ là ∑li=1 αiyiK(x,xi) + b = 0. Trong tra cứu ảnh với phản hồi liên quan dựa trên SVM, hàm quyết định được sử dụng để đo độ liên quan giữa ảnh với ảnh truy vấn. Nói chung, ảnh có giá trị tuyệt đối của hàm quyết định càng lớn thì khả năng tin cậy dự đoán sẽ càng cao. Trong phương pháp phản hồi liên quan dựa trên SVM truyền thống, người dùng sẽ chọn các ảnh được xếp hạng trên cùng, tức là các ảnh có giá trị lớn nhất của hàm quyết định f(x) để xây dựng tập huấn luyện cho SVM. x∗ = arg max x (f(x)). (4–7) Phương pháp này được gọi là học bị động, nó hướng tới việc chọn các ảnh liên quan nhất. Tuy nhiên, những ảnh này có thể không phải là các ảnh mẫu tốt cho huấn luyện SVM, do vậy đường biên quyết định của SVM có thể sẽ không được cải thiện. Ngược lại với phương pháp học bị động là phương pháp học chủ động đang được quan tâm và có nhiều hứa hẹn trong những năm gần 96 đây. Phương pháp này hướng tới việc chọn các ảnh không chắc chắn, đó là các ảnh gần nhất với đường biên quyết định SVM. x∗ = arg min x |f(x)|. (4–8) Với phương pháp này, đường biên quyết định có thể sẽ được cập nhật tốt hơn. Hình 4.1 minh họa các cách khác nhau để lựa chọn ảnh gán nhãn. Trong ví dụ này, ảnh được biểu diễn bởi véc-tơ đặc trưng 2-D. Các vòng tròn rỗng là các ảnh người dùng đang tìm kiếm (ảnh liên quan) và các vòng tròn đặc là các ảnh người dùng không quan tâm (ảnh không liên quan). Tại bước đầu tiên, người dùng cung cấp hai nhãn được biểu diễn trong ảnh bởi vòng tròn lớn (như trong Hình 4.1(a). Các vòng tròn lớn được sử dụng để huấn luyện bộ phân lớp, những vòng tròn nhỏ là ảnh chưa được gán nhãn. Đường màu đen đậm là đường biên quyết định sau khi huấn luyện. Trong hệ thống phản hồi liên quan truyền thống, các ảnh liên quan nhất được trả về bởi hệ thống sẽ được lựa chọn để gán nhãn. Như minh họa trong Hình 4.1(b), cách lựa chọn này không hiệu quả do đường biên quyết định không được cập nhật. Trong khi đó, phương pháp học chủ động lựa chọn các ảnh không chắc chắn, là những ảnh gần nhất với đường biên quyết định, và kết quả là đường biên quyết định đã được thay đổi tạo sự phân tách tốt hơn giữa các ảnh liên quan và không liên quan như trong hình 4.1(c) 4.2.2 Các nghiên cứu liên quan Học với phản hồi liên quan trong CBIR đã được nghiên cứu rộng rãi và là một trong cách để thu hẹp khoảng cách ngữ nghĩa giữa đặc trưng mức thấp và các khái niệm mức cao một cách hiệu quả. Trong 97 Hình 4.1: Minh họa học chủ động SVM. Một bộ phân lớp tuyến tính được tính toán để phân lớp dữ liệu liên quan(vòng trong rỗng) và không liên quan (vòng tròn đặc). tra cứu ảnh, phản hồi liên quan trước hết sẽ thu thập các điều chỉnh liên quan của người dùng trên trên các ảnh được tra cứu được trả về bởi hệ thống. Sau đó, nó sẽ điều chỉnh kết quả tra cứu bằng việc học các ảnh truy vấn từ các thông tin phản hồi được cung cấp. Về cơ bản, RF là một kỹ thuật học có giám sát, và nó tập trung vào sự tương tác giữa người dùng và hệ thống trên cơ sở yêu cầu người dùng thực hiện gán nhãn cho những phản hồi. Hầu hết các phương pháp phản hồi liên quan trước đây có thể được phân thành hai nhóm: Phương pháp cập nhật trọng số và Phương pháp dịch chuyển truy vấn. Phương pháp cập nhật trọng số nhằm điều chỉnh trọng số của các đặc trưng mức thấp cho phù hợp với mong muốn của người dùng [48, 88]. Các phương pháp dịch chuyển truy vấn, về cơ bản cố gắng cải thiện ước lượng về "điểm truy vấn lý tưởng" bằng việc di chuyển điểm truy vấn tiến gần hơn đến các điểm dương và cách xa các điểm âm. Kỹ thuật thường được sử dụng trong phương pháp này là công thức của Rocchio, [14, 15] Q′ = αQ+ β  1 NR′ ∑ i∈D′R Di − γ  1 NN ′ ∑ i∈D′N Di  , (4–9) với Q và Q′ là truy vấn gốc và truy vấn sau khi được cập nhật, D′R và 98 D′N là các mẫu dương và mẫu âm được trả về từ phản hồi của người dùng, NR′ và NN ′ là số lượng mẫu dương và mẫu âm tương ứng, α, β, γ là các hằng số. Gần đây hơn, các nhà nghiên cứu đã xem RF như là bài toán phân lớp, trong đó các ảnh mẫu được cung cấp bởi người dùng được sử dụng để huấn luyện bộ phân lớp. Bộ phân lớp này sau đó được sử dụng để phân chia cơ sở dữ liệu thành các ảnh liên quan và không liên quan với ảnh truy vấn. Các giá trị quyết định sẽ được sử dụng như là độ tương tự của các ảnh đối với ảnh truy vấn, do vậy phương pháp còn được xem như là phương pháp điều chỉnh độ đo tương tự. Các kỹ thuật học điển hình bao gồm Mạng nơ-ron [2, 78], học cây quyết định [65], học Bayesian [101], Boosting [106], SVM [107], FSVM [115]. Trong các mô hình RF, RF dựa trên SVM là phổ biến. So với các thuật toán học khác, SVM được xem như là một ứng cử viên tốt cho FR với một số lý do: khả năng khái quát mà không có giả định hạn chế về dữ liệu, học và đánh giá nhanh cho phản hồi phù hợp, linh hoạt, ví dụ như tri thức trước có thể dễ dàng sử dụng để điều chỉnh nhân của nó [112]. Tuy nhiên, với phản hồi liên quan dựa trên SVM, kích thước của tập huấn luyện là quá nhỏ, đặc biệt là trong các vòng phản hồi ban đầu. Điều này đã làm hạn chế đáng kể khả năng học của nó. Học chủ động SVM là một kỹ thuật thành công và phổ biến cho phản hồi liên quan trong những ứng dụng tra cứu ảnh dựa trên nội dung [71, 84, 112, 116]. Học chủ động SVM sẽ coi các ảnh gần nhất với đường biên quyết định như là các ảnh chứa nhiều thông tin nhất và chúng sẽ được lựa chọn để cho người dùng gán nhãn trong mỗi vòng phản hồi liên quan [44, 61, 107]. 99 Mặc dù RF dựa trên học chủ động SVM có thể làm việc tốt hơn các phương pháp phản hồi liên quan dựa trên SVM truyền thống, nhưng hiệu năng của học chủ động SVM thường bị hạn chế bởi số mẫu được gán nhãn. Vấn đề này thường gặp phải trong các trường hợp phản hồi liên quan. Để khắc phục hạn chế này, một số mô hình học chủ động SVM đã được đề xuất. Hoi và cộng sự [43] đề xuất mô hình học chủ động SVM bán giám sát. Phương pháp này trước hết xây dựng một hàm nhân bởi học hỗn hợp cả những dữ liệu đã được gán nhãn và chưa được gán nhãn. Sau đó, kernel này sẽ được sử dụng để học hàm phân lớp cho học chủ động thông qua bài toán tối ưu min-max. Wang và cộng sự [112] đề xuất mô hình phân lớp SVM kết hợp cho CBIR với phản hồi liên quan sử dụng ước lượng tham số kỳ vọng cực đại. Trong phương pháp này, một mô hình SVM bất đối xứng trước tiên được sử dụng để cải thiện tính ổn định của phân lớp SVM và sự cân bằng trong huấn luyện. Sau đó, một SVM không gian con ngẫu nhiên được sử dụng để vượt qua vấn đề quá khớp. Cuối cùng, SVM tích hợp được hình thành từ SVM bất đối xứng và SVM không gian con ngẫu nhiên sử dụng ước lượng tham số kỳ vọng cực đại. Zhang và cộng sự [121] đề xuất sơ đồ học chủ động SVM với mô hình lựa chọn động các mẫu cho học chủ động. Việc lựa chọn được thực hiện từng bước, sử dụng nhãn của các mẫu được lựa chọn trước đó để hướng dẫn lựa chọn các mẫu tiếp theo. Các mẫu phản hồi sẽ được xác định dựa trên cả đường biên quyết định và các mẫu được gán nhãn trước đó. Trong các phương pháp đã giới thiệu, việc lựa chọn các mẫu để người dùng gán nhãn trong mỗi vòng lặp phản hồi chỉ được xác định bởi đường biên quyết định SVM. Tuy nhiên, trong các vòng lặp đầu của phản hồi, đường biên quyết định SVM có thể không chính xác do thiếu mẫu huấn luyện. Trong trường hợp này, các mẫu không nên được 100 lựa chọn có thể sẽ được lựa chọn bởi các phương pháp này và nó sẽ làm cho việc học sau đó không hiệu quả. Do vậy, hiệu năng tra cứu sẽ kém ngay cả khi một số vòng học đã được thực hiện. 4.3 Phản hồi liên quan trong CBIR 4.3.1 Phát biểu bài toán Trong hệ thống tra cứu ảnh dựa trên nội dung, phản hồi liên quan có thể được phát biểu như bài toán học chủ động. Ở đây, những ảnh thông tin nhất chưa được gán nhãn sẽ được lựa chọn để cải thiện hiệu năng phân lớp. Ký hiệu L = {(x1, y1), ..., (xl, yl)} là l ảnh được gán nhãn thông qua quá trình phản hồi liên quan từ người dùng, và U = {xl+1, ...,xl+u} là u ảnh chưa được gán nhãn với xi ∈ Rd biểu diễn một ảnh bởi một véc-tơ d chiều. Ký hiệu S là một tập k ảnh chưa được gán nhãn để người dùng lựa chọn trong mỗi vòng phản hồi, risk(f,S,L,U) là một hàm thử dựa trên bộ phân lớp f . Lựa chọn các mẫu chưa được gán nhãn thông tin nhất cho phản hồi liên quan có thể được phát biểu như bài toán tối ưu: Tìm S∗ sao cho cực tiểu hóa hàm risk [43], S∗ = arg min S⊆U∧|S|=k risk(f,S,L,U) (4–10) 4.3.2 Xây dựng hàm lựa chọn tập huấn luyện Như đã trình bày ở trên, phương pháp SVM chủ động sẽ lựa chọn các ảnh gần đường biên quyết định. Với mỗi truy vấn, sau khi đường biên quyết định được học, những ảnh gần với đường biên quyết định được dùng để người dùng lựa chọn gán nhãn. Tuy nhiên, trong những 101 vòng lặp ban đầu, đường biên quyết định có thể không được chính xác do thiếu mẫu huấn luyện và mẫu huấn luyện âm nhiều hơn mẫu huấn luyện dương. Do vậy, việc xếp hạng kết quả cũng như lựa chọn các mẫu để xây dựng tập huấn luyện dựa trên đường biên quyết định sẽ không hiệu quả. Trong trường hợp này, kết hợp với độ đo tương tự của đặc trưng mức thấp sẽ là tốt hơn để xếp hạng kết quả cũng như dùng để lựa chọn các mẫu để xây dựng tập huấn luyện có khả năng thay đổi đường biên quyết định của SVM. Ký hiệu DE(xi) là khoảng cách của ảnh i so với đường biên quyết định của SVM. Khoảng cách này được định nghĩa bởi: DE(xi) = |f(xi)| = |(wTxi + b)| (4–11) với w và b là véc-tơ chuẩn và bias của siêu phẳng phân tách tương ứng, xi là véc tơ đặc trưng biểu diễn ảnh i. Gọi DS(xi) là độ đo khoảng cách của ảnh i với ảnh truy vấn. Khoảng cách này được định nghĩa bởi: DS(xi) =  ‖xi − xc‖ if f(xi) ≥ 0 ∞ ngược lại (4–12) với ‖xi − xc‖ là khoảng cách Ơ-cơ-lit giữa ảnh i và ảnh c. Hàm lựa chọn ảnh thứ i được định nghĩa như sau: DSE(xi) = Nrel Nrel +Nnonrel DE(xi) + (1− Nrel Nrel +Nnonrel )DS(xi) (4–13) Ở đây, Nrel là tổng số ảnh liên quan và Nnonrel tổng số ảnh không liên quan trong mỗi vòng phản hồi. Cả DE,DS đều được chuẩn hóa để mỗi phần tử của nó đều nằm trong khoảng [0,1]. Trong luận án, hàm 102 lựa chọn ảnh cho gán nhãn được định nghĩa như sau: x∗ = arg min x∈U DSE(x) (4–14) Thủ tục lựa chọn ảnh để xây dựng tập huấn luyện được mô tả tóm tắt trong Thuật toán (4.6). Thuật toán 4.6 : Học chủ động với SVM Input: L,U /* Dữ liệu đã được gán nhãn và chưa được gán nhãn */ k,K /* Số ảnh lựa chọn và hàm nhân cho SVM, */ Output: Danh sách ảnh được lựa chọn cho gán nhãn S. Procedure: 1: Huấn luyện bộ phân lớp SVM: f ∗ = SVMTrain(L,K); 2: Tính toán DE = (|f ∗(xl+1)|, . . . , |f ∗(xn)|); theo công thức (4–11) 3: Tính toán DS = (DS(xl+1), . . . , DS(xn)); theo công thức (4–12) 4: S = φ; 5: while |S| 6 k do 6: for each xj ∈ U do 7: DSE(xj) = NrelNrel+NnonrelDE(xj) + (1− Nrel Nrel+Nnonrel )DS(xj) 8: end for 9: x∗ = arg minx∈U DSE(x); 10: S ← S ∪ {x∗}; 11: U ← U{x∗}; 12: end while 13: return S 4.3.3 Thực nghiệm đánh giá 4.3.3.1 Trích chọn đặc trưng Trong thí nghiệm này, luận án sử dụng tập dữ liệu Corel Photo Gallery được tổ chức thành các nhóm đồng nhất để đánh giá hiệu năng của phương pháp đề xuất. Ba kiểu đặc trưng được sử dụng trong thực nghiêm: Màu sắc, kết cấu và hình dạng như trong [43]. • Với đặc trưng màu sắc, trước hết, không gian màu từ RGB được chuyển đổi thành không gian màu HSV. Sau đó ba mô men màu: 103 trung bình, phương sai và độ lệch chuẩn trong mỗi kênh màu sẽ được trích chọn. Do đó một véc-tơ 9 chiều mô tả mô men màu sẽ được sử dụng. • Với đặc trưng kết cấu, biến đổi wavelet rời rạc được thực hiện trên ảnh đa mức xám. Mỗi phân tích wavelet trên ảnh 2 chiều trả về bốn ảnh con thu nhỏ. Với phân tích ba mức được thực hiện và các đặc trưng được trích chọn từ 9 ảnh con, thu được một véc-tơ đặc trưng 9 chiều biểu diễn cho mỗi ảnh. • Với đặc trưng hình dạng, biểu đồ hướng cạnh được sử dụng. Thông tin cạnh chứa trong ảnh được tạo ra và xử lý sử dụng thuật toán phát hiện biên Canny. Biểu đồ hướng cạnh sau đó được lượng tử hóa thành 18 khối với 20 độ cho mỗi khối. Do đó tổng số 18 đặc trưng cạnh được trích chọn. Tất cả các đặc trưng này được kết hợp thành một véc-tơ đặc trưng 36 chiều và sau đó chúng được chuẩn hóa thành phân bố chuẩn để loại bỏ sự ảnh hưởng của co dãn. Khoảng cách Ơ-cơ-lit đã được sử dụng để để tính toán độ tương tự giữa các ảnh. 4.3.3.2 Đánh giá hiệu quả Các thí nghiệm đã được thực hiện để chỉ ra tính hiệu quả của phương pháp đề xuất và so sánh hiệu năng với 3 phương pháp phản hồi liên quan Active[107], SSL batch[43], Dynamic batch[121]. Để minh họa tình huống thực tế của người dùng trực tuyến, 20 ảnh được lựa chọn ngẫu nhiên từ mỗi lớp của cơ sở dữ liệu ảnh để làm ảnh truy vấn. Tại bước đầu tiên của mỗi phiên tra cứu, các ảnh trong cơ sở dữ liệu được sắp xếp theo khoảng cách Ơ-cơ-lit so với ảnh truy vấn. Những 104 điều chỉnh của người dùng về sự liên quan được mô phỏng một cách tự động trong mỗi vòng lặp. Như trong các nghiên cứu trước liên quan, trong vòng lặp đầu tiên, 20 kết quả tra cứu đầu tiên được sử dụng để gán nhãn liên quan hoặc không liên quan dựa vào thông tin lớp. Các vòng lặp sau đó, 20 ảnh thông tin nhất được lựa chọn bởi thuật toán đề xuất sẽ được sử dụng để người dùng gán nhãn. Các ảnh trong cùng một lớp được xem là liên quan và số còn lại được xem là không liên quan. Tất cả các ảnh được gán nhãn trong vòng lặp phản hồi sau đó sẽ được sử dụng để huấn luyện một mô hình phân lớp mới. Hình 4.2: Kết quả tra cứu không có phản hồi Kết quả truy vấn khi chưa có phản hồi đối với ảnh truy vấn 612078.jpg được chỉ ra trong hình 4.2. Ảnh trên cùng bên trái là ảnh truy vấn, các ảnh được đóng khung màu đỏ là ảnh cùng lớp ngữ nghĩa với ảnh truy vấn, số còn lại là khác lớp ngữ nghĩa. Quan sát hình vẽ ta thấy, số lượng ảnh liên quan đến ảnh truy vấn rất ít; có rất nhiều ảnh mặc dù khoảng cách rất gần với ảnh truy vấn nhưng ngữ nghĩa rất khác và ngược lại. Tuy nhiên, sau 4 vòng phản hồi, số lượng ảnh liên quan của phương pháp đề xuất đã được cải thiện đáng kể như chỉ ra trong hình 4.3 (12/20 ảnh đúng so với 6/20). 105 Hình 4.3: Kết quả tra cứu sau 4 vòng phản hồi Độ đo trung bình độ chính xác theo công thức (1–24) đã được sử dụng để đánh giá hiệu năng của hệ thống trong mỗi vòng phản hồi. Kết quả trong hình 4.4 và hình 4.5 chỉ ra sự biến thiên của giá trị MAP theo số vòng lặp phản hồi. Phương pháp đề xuất cho kết quả tốt hơn ngay từ vòng lặp đầu tiên của phản hồi. Tuy nhiên khi số vòng lặp tăng lên, kết quả của các phương pháp gần tiệm cận nhau. Điều này là do khi số vòng lặp tăng lên thì số ảnh được gán nhãn tăng lên, khi đó, độ đo dựa vào láng giềng gần nhất không còn nhiều tác dụng và độ chính xác chỉ phụ thuộc vào phân lớp SVM. 4.4 Tổng kết chương Trong chương này, luận án đã đề xuất một phương pháp pháp phản hồi chủ động để xây dựng tập huấn luyện hiệu quả cho SVM trong CBIR. Điều kiện để lựa chọn ảnh để xây dựng tập huấn luyện trong SVM được định nghĩa dựa trên sự kết hợp giữa hàm quyết định SVM với độ đo tương tự láng giềng gần nhất. Với điều kiện này, luận án đã giải quyết được hạn chế của SVM do sự thiếu hụt dữ liệu huấn 106 Hình 4.4: Mối quan hệ giữa trung bình độ chính xác và tốp các ảnh trả về của các vòng phản hồi: (a) Vòng phản hồi thứ nhất, (b) Vòng phản hồi thứ hai, (c) Vòng phản hồi thứ ba, và (d) vòng phản hồi thứ bốn Hình 4.5: Mối quan hệ giữa trung bình độ chính xác và số lần lặp của tốp các ảnh trả về: (a) Tốp 20 ảnh đầu tiên trả về, (b) Tốp 40 ảnh đầu tiên trả về, (c) Tốp 60 ảnh đầu tiên trả về, và (d) tốp 80 ảnh đầu tiên trả về luyện trong tra cứu ảnh để tăng độ chính xác tra cứu ngay từ các vòng lặp ban đầu. Các thực nghiệm được thực hiện để so sánh hiệu năng của phương pháp đề xuất với ba phương pháp phản hồi liên quan khác. Ngay tại các vòng phản hồi thứ nhất, thứ hai, và thứ ba, phương pháp đề xuất đã cho kết tra cứu cao hơn các phương pháp khác. 107 KẾT LUẬN Luận án đã trình bày khái quát các vấn đề cơ bản trong CBIR. Trên cơ sở khảo sát và phân tích các nghiên cứu liên quan, luận án đã tập trung nghiên cứu hai vấn đề cơ bản trong tra cứu ảnh là xây dựng độ đo tương tự và thu hẹp khoảng cách ngữ nghĩa dựa trên RF. Các kết quả đạt được của luận án được tóm tắt như sau: - Đề xuất cải tiến kỹ thuật đối sánh hình dạng dựa trên đối sánh siêu đồ thị xương nhằm tăng độ chính xác. Trong đề xuất này, mối quan hệ không gian giữa các đỉnh của đồ thị xương được kết hợp để xây dựng độ tương tự giữa các đỉnh thay vì chỉ sử dụng độ đo từng cặp như trong đề xuất [5]. Độ tương tự giữa các đỉnh được xây dựng dựa trên mối quan hệ bộ ba đã tạo ra khả năng bất biến với các phép biến đổi affine và tỷ lệ. Bài toán đối sánh giữa hai đồ thị xương, sau đó được phát biểu trong ngữ cảnh đối sánh siêu đồ thị và được giải bằng giải pháp xếp hạng trên siêu đồ thị kết hợp thông qua thuật toán bước ngẫu nhiên. Với mô hình này, độ tương tự giữa các hình dạng được tính toán chính xác hơn do nó xét tới cả cấu trúc không gian của xương biểu diễn hình dạng. - Đề xuất mô hình xây dựng độ tương tự kết hợp nhiều đặc trưng trong tra cứu ảnh với phản hồi liên quan. Đề xuất này dựa trên một mô hình toán học được sử dụng rộng rãi trong các hệ thống hỗ trợ quyết định. Trong mô hình này, thông tin phản hồi từ người dùng được mô hình hóa bởi tập mờ và được sử dụng để học trọng 108 số liên quan của các bộ đặc trưng. Các trọng số liên quan sau đó được sử dụng như là hàm mật độ mờ trong tích phân Choquet để kết hợp các độ đo tương tự của các bộ đặc trưng thành phần thành độ đo chung. Trong đề xuất, học độ liên quan của các bộ đặc trưng được phát biểu theo bài toán tối ưu đa mục tiêu có ràng buộc với hàm mục tiêu tuyến tính. Trọng số liên quan được điều chỉnh cho bộ đặc trưng có xét đến mức độ tương tác giữa chúng, thay vì cho từng đặc trưng riêng lẻ đã tạo ra độ đo tương tự thể hiện sát hơn với mong muốn của người dùng. Do vậy, độ chính xác tra cứu đã được tăng lên. - Trong CBIR, RF thường được sử dụng để thu hẹp khoảng cách ngữ nghĩa giữa đặc trưng mức thấp và các khái niệm mức cao dựa trên việc học từ thông tin phản hồi từ người dùng. Hiệu quả của các phương pháp RF phụ thuộc vào việc thiết kế chiến lược xây dựng tập huấn luyện phù hợp với mô hình học. Luận án đã đề xuất kỹ thuật phản hồi chủ động để xây dựng tập huấn luyện hiệu quả cho SVM trong CBIR. Điều kiện lựa chọn ảnh để xây dựng tập huấn luyện cho SVM được định nghĩa dựa trên sự kết hợp giữa hàm quyết định SVM với độ đo tương tự láng giềng gần nhất. Điều kiện này cho phép chọn ra được những ảnh chứa nhiều thông tin để xây dựng tập huấn luyện, cải thiện được hiệu quả phân lớp của SVM. Do vậy, độ chính xác tra cứu đã được tăng lên ngay từ các vòng lặp ban đầu. - Luận án đã tiến hành thực hiện các thực nghiệm khác nhau như: đánh giá bước đầu về độ chính xác đối sánh tra cứu, khảo sát việc thay đổi các thông số, khảo sát mức độ hiệu quả giữa các kỹ thuật đề xuất với một số kỹ thuật đã công bố của các công trình 109 khác giúp đánh giá tổng quan hơn về hiệu quả truy vấn của các kỹ thuật được đề xuất trong luận án. Nhìn chung, luận án đã tổng hợp các công trình công bố quan trọng có liên quan đến hướng nghiên cứu, có những đề xuất về xây dựng độ đo tương tự và hiệu chỉnh đồ đo tương tự, và đã kiểm chứng hiệu quả của các đề xuất thông qua thực nghiệm với kết quả cải tiến hơn. Luận án cho rằng kết quả nghiên cứu đã đạt được là thiết thực và có đóng góp cụ thể, đạt được các mục tiêu đề ra. Tuy vậy, các kết quả trình bày trong luận án vẫn còn khiêm tốn cần cải tiến và nghiên cứu thêm trong các công trình nghiên cứu khác trong thời gian tới. 110 Danh mục công trình của tác giả CT1 Ngô Trường Giang, Ngô Quốc Tạo, Nguyễn Đức Dũng, “Applying Random Walks for Shape Matching”, Kỷ yếu hội thảo Quốc gia lần thứ 15 “Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông”, Hà Nội, 12-2012. CT2 Ngô Trường Giang, Ngô Quốc Tạo, Nguyễn Đức Dũng, “Shape Similarity Based on Skeleton Hyper-Graph Matching”. Hội nghị quốc gia lần thứ VI “Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin – FAIR(Fundamental and Applied IT Research)”, Huế, 6-2013. CT3 Giang, N.T., Tao, N.Q., Dung, N.D. and The, N.T., “Skeleton Based Shape Matching Using Reweighted Random Walks” Proc. of IEEE on 9th International Conference on Information, Commu- nications and Signal Processing (ICICS), pp. 1-5, Dec, 2013. CT4 Giang, N.T., Tao, N.Q., Dung, N.D. and The, N.T., “Batch Mode Active Learning for Interactive Image Retrieval”, Proc. of IEEE on International Symposium on Multimedia (ISM 2014). CT5 Giang, N.T., Tao, N.Q., Dung, N.D. , “Image Retrieval with Rele- vance Feedback using SVM Active Learning” International Jour- nal of Electrical and Computer Engineering, Vol.6, No.6, 2016, (Scopus). CT6 Giang, N.T.,The, N.T., Tao, N.Q., Dung, N.D., Chu, S.C., “Sim- ilarity Shape Based on Skeleton Graph Matching” Journal of In- formation Hiding and Multimedia Signal Processing, Vol.7, No.6, 2016, (Scopus). CT7 Giang, N.T., Tao, N.Q., Dung, N.D. , Huy, N.H, “Learning In- teraction Measure with Relevance Feedback in Image Retrieval” Journal of Computer Science and Cybernetics, Vol.32, No.2, 2016. 111 Tài liệu tham khảo [1] A. Frome, Y. S., and Malik, J. Image retrieval and classification using local distance functions. In Advanc es in Neural Information Processing Systems, 2006. Proceedings. Conference on (December 2006), pp. 417–424. [2] Ambika, P., and Samath, J. Unsupervised neural network for content based image retrieval by utilizing content and model annotations. Research Journal of Information Technology 5 (2013), 468–472. [3] Arevalillo-Herráez, M., Ferri, F. J., and Domingo, J. A naive relevance feedback model for content-based image retrieval using multiple similarity measures. Pattern Recognition 43, 3 (2010), 619–629. [4] Bai, X., Latecki, L., and yu Liu, W. Skeleton pruning by contour partitioning with discrete curve evolution. IEEE Transactions on Pattern Analysis and Machine Intelligence 29, 3 (2007), 449–462. [5] Bai, X., and Latecki, L. J. Path similarity skeleton graph matching. IEEE Transactions on Pattern Analysis and Machine Intelligence 30, 7 (2008), 1282–1292. [6] Baseski, E., Erdem, A., and Tari, S. Dissimilarity between two skeletal trees in a context. Pattern Recognition 42, 3 (2009), 370–385. [7] Beliakov, G. Fitting fuzzy measures by linear programming. programming library fmtools. In Fuzzy Systems, 2008. FUZZ-IEEE 2008. (IEEE World Congress on Computational Intelligence). IEEE International Conference on (June 2008), pp. 862–867. [8] Belongie, S., Malik, J., and Puzicha, J. Shape matching and object recognition using shape contexts. IEEE Transactions on Pattern Analysis and Machine Intelligence 24, 4 (2002), 509–522. 112 [9] Belongie, S., Malik, J., and Puzicha, J. Shape matching and object recognition using shape contexts. IEEE Trans. Pattern Anal. Mach. Intell. 24, 4 (Apr. 2002), 509–522. [10] Blum, H. Biological shape and visual science (part i). Journal of Theoretical Biology 38, 2 (1973), 205–287. [11] B.Sebastian, T., and B.Kimia, B. Curves vs. skeletons in object recog- nition. Signal Processing 85, 2 (2005), 247–263. [12] Carson, C., Belongie, S., Greenspan, H., and Malik, J. Blobworld: image segmentation using expectation-maximization and its application to image querying. IEEE Transactions on Pattern Analysis and Machine In- telligence 24, 8 (Aug 2002), 1026–1038. [13] Chen, Y., Wang, J. Z., and Krovetz, R. Clue: Cluster-based retrieval of images by unsupervised learning. IEEE Transactions on Image Processing 14 (2003), 2005. [14] Chen, Z., and Fu, B. On the Complexity of Rocchio’s Similarity-Based Relevance Feedback Algorithm. Springer Berlin Heidelberg, Berlin, Heidel- berg, 2005, pp. 216–225. [15] Chen, Z., and Zhu, B. Some formal analysis of rocchio’s similarity-based relevance feedback algorithm. Inf. Retr. 5, 1 (Jan. 2002), 61–86. [16] Chertok, M., and Keller, Y. Efficient high order matching. IEEE Transactions on Pattern Analysis and Machine Intelligence 32, 12 (2010), 2205–2215. [17] Cho, M., Lee, J., and Lee, K. M. Reweighted random walks for graph matching. In Proceedings of the 11th European conference on Computer vision: Part V (2010), pp. 492–505. [18] Choi, Y., Kim, D., and Krishnapuram, R. Relevance feedback for content-based image retrieval using the choquet integral. In Multimedia and Expo, 2000. ICME 2000. 2000 IEEE International Conference on (2000), vol. 2, pp. 1207–1210 vol.2. [19] Conte, D., Foggia, P., Sansone, C., and Vento, M. Thirty years of graph matching in pattern recognition. International journal of pattern recognition and artificial intelligence 18, 3 (2004), 265–298. 113 [20] Cox, I. J., Miller, M. L., Minka, T. P., Papathomas, T. V., and Yianilos, P. N. The bayesian image retrieval system, pichunter: theory, implementation, and psychophysical experiments. IEEE Transactions on Image Processing 9, 1 (Jan 2000), 20–37. [21] da S. Torres, R., Falcão, A. X., Gonc¸alves, M. A., Papa, J. P., Zhang, B., Fan, W., and Fox, E. A. A genetic programming framework for content-based image retrieval. Pattern Recognition 42, 2 (2009), 283–292. Learning Semantics from Multimedia Content. [22] Datta, R., Joshi, D., Li, J., and Wang, J. Z. Image retrieval: Ideas, influences, and trends of the new age. ACM Comput. Surv. 40, 2 (May 2008), 5:1–5:60. [23] Daugman, J. G. Uncertainty relation for resolution in space, spatial fre- quency, and orientation optimized by two-dimensional visual cortical filters. J. Opt. Soc. Am. A 2, 7 (Jul 1985), 1160–1169. [24] Demirci, M. F., Osmanlioglu, Y., Shokoufandeh, A., and Dick- inson, S. Efficient many-to-many feature matching under the l1 norm. Computer Vision and Image Understanding 115, 7 (July 2011), 976–983. [25] Do, M. N., and Vetterli, M. Wavelet-based texture retrieval using generalized gaussian density and kullback-leibler distance. Trans. Img. Proc. 11, 2 (Feb. 2002), 146–158. [26] Donald, K. M., and Smeaton, A. F. A Comparison of Score, Rank and Probability-Based Fusion Methods for Video Shot Retrieval. Springer Berlin Heidelberg, Berlin, Heidelberg, 2005, pp. 61–70. [27] Douze, M., Jégou, H., Sandhawalia, H., Amsaleg, L., and Schmid, C. Evaluation of gist descriptors for web-scale image search. In Proceedings of the ACM International Conference on Image and Video Retrieval (New York, NY, USA, 2009), CIVR ’09, ACM, pp. 19:1–19:8. [28] Duchenne, O., Bach, F., Kweon, I.-S., and Ponce, J. A tensor-based algorithm for high-order graph matching. IEEE Transactions on Pattern Analysis and Machine Intelligence 33, 12 (2011), 2383–2395. [29] Fei-Fei, L., Fergus, R., and Perona, P. Learning generative visual models from few training examples: An incremental bayesian approach tested 114 on 101 object categories. Comput. Vis. Image Underst. 106, 1 (Apr. 2007), 59–70. [30] Felzenszwalb, P., and Schwartz, J. Hierarchical matching of de- formable shapes. In Computer Vision and Pattern Recognition, 2007. CVPR ’07. IEEE Conference on (2007), pp. 1–8. [31] Flickner, M., Sawhney, H., Niblack, W., Ashley, J., Huang, Q., Dom, B., Gorkani, M., Hafner, J., Lee, D., Petkovic, D., Steele, D., and Yanker, P. Query by image and video content: The qbic system. Computer 28, 9 (Sept. 1995), 23–32. [32] FOGGIA, P., PERCANNELLA, G., and VENTO, M. Graph match- ing and learning in pattern recognition in the last 10 years. International Journal of Pattern Recognition and Artificial Intelligence 28, 01 (2014). [33] Frigui, H. Interactive image retrieval using fuzzy sets. Pattern Recognition Letters 22, 9 (2001), 1021–1031. [34] Goh, W. B. Strategies for shape matching using skeletons. Computer Vision and Image Understanding 110, 3 (June 2008), 326–345. [35] Grabisch, M. The application of fuzzy integrals in multicriteria decision making. European Journal of Operational Research 89, 3 (1996), 445–456. [36] Grabisch, M., Kojadinovic, I., and Meyer, P. A review of methods for capacity identification in choquet integral based multi-attribute utility theory: Applications of the kappalab r package. European Journal of Oper- ational Research 186, 2 (2008), 766–785. [37] Gupta, A., and Jain, R. Visual information retrieval. Commun. ACM 40, 5 (May 1997), 70–79. [38] Han, L., Wilson, R., and Hancock, E. A supergraph-based generative model. In Proceedings of the 2010 20th International Conference on Pattern Recognition (2010), pp. 1566–1569. [39] Han, Y., Xu, Z., Ma, Z., and Huang, Z. Image classification with manifold learning for out-of-sample data. Signal Processing 93, 8 (2013), 2169–2177. Indexing of Large-Scale Multimedia Signals. 115 [40] Haveliwala, T. H. Topic-sensitive pagerank. In Proceedings of the 11th International Conference on World Wide Web (New York, NY, USA, 2002), WWW ’02, ACM, pp. 517–526. [41] He, J., Li, M., Zhang, H.-J., Tong, H., and Zhang, C. Manifold- ranking based image retrieval. In Proceedings of the 12th Annual ACM International Conference on Multimedia (New York, NY, USA, 2004), MUL- TIMEDIA ’04, ACM, pp. 9–16. [42] Ho, S.-S., and Wechsler, H. Query by transduction. IEEE Trans. Pattern Anal. Mach. Intell. 30, 9 (Sept. 2008), 1557–1571. [43] Hoi, S. C. H., Jin, R., Zhu, J., and Lyu, M. R. Semisupervised svm batch mode active learning with applications to image retrieval. Journal ACM Transactions on Information Systems 27, 3 (May 2009), 16:1–16:29. [44] Hoi, S. C. H., and Lyu, M. R. A semi-supervised active learning frame- work for image retrieval. In Proceedings of the 2005 IEEE Computer Soci- ety Conference on Computer Vision and Pattern Recognition (CVPR’05)- Volume 2-Volume 02 (2005), CVPR ’05, pp. 302–309. [45] Huijsmans, D. P., and Sebe, N. How to complete performance graphs in content-based image retrieval: add generality and normalize scope. IEEE Transactions on Pattern Analysis and Machine Intelligence 27, 2 (Feb 2005), 245–251. [46] Huiskes, M. J., and Lew, M. S. Performance evaluation of relevance feedback methods. In Proceedings of the 2008 International Conference on Content-based Image and Video Retrieval (New York, NY, USA, 2008), CIVR ’08, ACM, pp. 239–248. [47] Jiang, B., Tang, J., Luo, B., Chen, Z., and Chen, Z. Skeleton graph matching based on a novel shape tree. In Computing, Communication, Con- trol, and Management, 2009. CCCM 2009. ISECS International Colloquium on (2009), vol. 4, pp. 636–639. [48] Jing, F., Li, M., Zhang, L., Zhang, H.-J., and Zhang, B. Learn- ing in Region-Based Image Retrieval. Springer Berlin Heidelberg, Berlin, Heidelberg, 2003, pp. 206–215. 116 [49] Ko, B., and Byun, H. Integrated region-based image retrieval using re- gion’s spatial relationships. In Pattern Recognition, 2002. Proceedings. 16th International Conference on (2002), vol. 1, pp. 196–199 vol.1. [50] Kokare, M., Chatterji, B. N., and Biswas, P. K. A survey on current content based image retrieval methods. IETE Journal of Research 48, 3-4 (2002), 261–271. [51] Krishnan, A. R., Kasim, M. M., and Bakar, E. M. N. E. A. A short survey on the usage of choquet integral and its associated fuzzy measure in multiple attribute analysis. Procedia Computer Science 59 (2015), 427–434. [52] Kushki, A., Androutsos, P., Plataniotis, K. N., and Venet- sanopoulos, A. N. Query feedback for interactive image retrieval. IEEE Transactions on Circuits and Systems for Video Technology 14, 5 (May 2004), 644–655. [53] Kushki, A., Androutsos, P., Plataniotis, K. N., and Venet- sanopoulos, A. N. Retrieval of images from artistic repositories using a decision fusion framework. IEEE Transactions on Image Processing 13, 3 (March 2004), 277–292. [54] Latecki, L., Wang, Q., Koknar-Tezel, S., and Mega- looikonomou, V. Optimal subsequence bijection. In Proceedings of the Seventh IEEE International Conference on Data Mining (2007), pp. 565–570. [55] Latecki, L. J., Lakamper, R., and Eckhardt, T. Shape descriptors for non-rigid shapes with a single closed contour. In Computer Vision and Pattern Recognition, 2000. Proceedings. IEEE Conference on (2000), vol. 1, pp. 424–429 vol.1. [56] Lee, J., Cho, M., and Lee, K.-M. A graph matching algorithm using data-driven markov chain monte carlo sampling. In Proceedings of the 20th International Conference on Pattern Recognition (2010), pp. 2816–2819. [57] Lee, J., Cho, M., and Lee, K. M. Hyper-graph matching via reweighted random walks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (2011), CVPR ’11, pp. 1633–1640. 117 [58] Leordeanu, M., and Hebert, M. A spectral technique for correspon- dence problems using pairwise constraints. In Proceedings of the Tenth IEEE International Conference on Computer Vision-Volume 2 (2005), pp. 1482– 1489. [59] Lew, M. S., Sebe, N., Djeraba, C., and Jain, R. Content-based multimedia information retrieval: State of the art and challenges. ACM Trans. Multimedia Comput. Commun. Appl. 2, 1 (Feb. 2006), 1–19. [60] Ling, H., and Jacobs, D. Shape classification using the inner-distance. IEEE Transactions on Pattern Analysis and Machine Intelligence 29, 2 (2007), 286–299. [61] Liu, R., Wang, Y., Baba, T., Masumoto, D., and Nagata, S. Svm- based active feedback in image retrieval using clustering and unlabeled data. Pattern Recognition 41, 8 (2008), 2645–2655. [62] Liu, X., Yao, H., Ji, R., Xu, P., and Sun, X. Bidirectional-isomorphic manifold learning at image semantic understanding & representation. Mul- timedia Tools and Applications 64, 1 (2013), 53–76. [63] Liu, Y., Zhang, D., Lu, G., and Ma, W.-Y. A survey of content-based image retrieval with high-level semantics. Pattern Recogn. 40, 1 (Jan. 2007), 262–282. [64] Ma, W. Y., and Manjunath, B. S. Netra: a toolbox for navigating large image databases. In Image Processing, 1997. Proceedings., International Conference on (Oct 1997), vol. 1, pp. 568–571 vol.1. [65] MacArthur, S. D., Brodley, C. E., and Shyu, C.-R. Relevance feedback decision trees in content-based image retrieval. In Content-based Access of Image and Video Libraries, 2000. Proceedings. IEEE Workshop on (2000), pp. 68–72. [66] Macrini, D., Dickinson, S., Fleet, D., and Siddiqi, K. Object cat- egorization using bone graphs. Computer Vision and Image Understanding 115, 8 (Aug. 2011), 1187–1206. [67] Macrini, D., Dickinson, S. J., Fleet, D. J., and Siddiqi, K. Bone graphs: Medial shape parsing and abstraction. Computer Vision and Image Understanding 115, 7 (2011), 1044–1061. 118 [68] Macrini, D., Siddiqi, K., and Dickinson, S. From skeletons to bone graphs: Medial abstraction for object recognition. In Computer Vision and Pattern Recognition, 2008. CVPR 2008. IEEE Conference on (2008), pp. 1– 8. [69] Manjunath, B. S., Ohm, J. R., Vasudevan, V. V., and Yamada, A. Color and texture descriptors. IEEE Transactions on Circuits and Systems for Video Technology 11, 6 (Jun 2001), 703–715. [70] Michel, G. K-order additive discrete fuzzy measures and their representa- tion. Fuzzy Sets Syst. 92, 2 (Dec. 1997), 167–189. [71] Min, R., and Cheng, H. Effective image retrieval using dominant color descriptor and fuzzy support vector machine. Pattern Recognition 42, 1 (2009), 147–157. [72] Mukherjea, S., Hirata, K., and Hara, Y. Amore: A world wide web image retrieval engine. World Wide Web 2, 3 (1999), 115–132. [73] Muller, H., Mu¨ller, W., Squire, D. M., Marchand-Maillet, S., and Pun, T. Performance evaluation in content-based image retrieval: overview and proposals. Pattern Recognition Letters 22, 5 (2001), 593–601. Image/Video Indexing and Retrieval. [74] Muneesawang, P., and Guan, L. An interactive approach for cbir using a network of radial basis functions. IEEE Transactions on Multimedia 6, 5 (Oct 2004), 703–716. [75] Munkres, J. Algorithms for the assignment and transportation problems. Journal of the Society for Industrial and Applied Mathematics 5, 1 (1957), 32–38. [76] Murofushi, T., and Sugeno, M. An interpretation of fuzzy measures and the choquet integral as an integral with respect to a fuzzy measure. Fuzzy Sets and Systems 29, 2 (1989), 201–227. [77] Narukawa, Y., and Murofushi, T. Choquet integral and Sugeno integral as aggregation functions. Springer Berlin Heidelberg, Berlin, Heidelberg, 2003, pp. 27–39. 119 [78] Nematipour, S., S. J. M. R. Relevance feedback optimization in content based image retrieval via enhanced radial basis function networ. In Multi conference of Engineers and Computer Scientists, Proceedings. Proceedings of the International Multi conference on (2011), vol. 1. [79] Ojala, T., Pietikainen, M., and Maenpaa, T. Multiresolution gray- scale and rotation invariant texture classification with local binary patterns. IEEE Transactions on Pattern Analysis and Machine Intelligence 24, 7 (Jul 2002), 971–987. [80] Oliva, A., and Torralba, A. Modeling the shape of the scene: A holistic representation of the spatial envelope. International Journal of Computer Vision 42, 3 (2001), 145–175. [81] Ortega, M., Rui, Y., Chakrabarti, K., Porkaew, K., Mehrotra, S., and Huang, T. S. Supporting ranked boolean similarity queries in mars. IEEE Transactions on Knowledge and Data Engineering 10, 6 (Nov 1998), 905–925. [82] Pentland, A., Picard, R. W., and Sclaroff, S. Photobook: Content- Based Manipulation of Image Databases. Springer US, Boston, MA, 1996, pp. 43–80. [83] Prasad, B. E., Gupta, A., Toong, H. M. D., and Madnick, S. E. A microcomputer-based image database management system. IEEE Trans- actions on Industrial Electronics IE-34, 1 (Feb 1987), 83–88. [84] Rahman, M. M., Bhattacharya, P., and Desai, B. C. A framework for medical image retrieval using machine learning and statistical similarity matching techniques with relevance feedback. IEEE Transactions on Infor- mation Technology in Biomedicine 11, 1 (Jan. 2007), 58–69. [85] Regalia, P. A., and Kofidis, E. The higher-order power method revis- ited: convergence proofs and effective initialization. In 2000 IEEE Interna- tional Conference on Acoustics, Speech, and Signal Processing. Proceedings (Cat. No.00CH37100) (2000), vol. 5, pp. 2709–2712 vol.5. [86] Rubner, Y., Tomasi, C., and Guibas, L. J. The earth mover’s distance as a metric for image retrieval. International Journal of Computer Vision 40, 2 (2000), 99–121. 120 [87] Rui, Y., and Huang, T. Optimizing learning in image retrieval. In Com- puter Vision and Pattern Recognition, 2000. Proceedings. IEEE Conference on (2000), vol. 1, pp. 236–243 vol.1. [88] Rui, Y., Huang, T. S., Ortega, M., and Mehrotra, S. Relevance feedback: a power tool for interactive content-based image retrieval. IEEE Transactions on Circuits and Systems for Video Technology 8, 5 (Sep 1998), 644–655. [89] Santini, S., and Jain, R. Similarity measures. IEEE Transactions on Pattern Analysis and Machine Intelligence 21, 9 (Sep 1999), 871–883. [90] Scho¨lkopf, B., Platt, J., and Hofmann, T. Learning with Hy- pergraphs: Clustering, Classification, and Embedding. MIT Press, 2007, pp. 1601–1608. [91] Sebastian, T., Klein, P., and Kimia, B. Recognition of shapes by editing their shock graphs. IEEE Transactions on Pattern Analysis and Machine Intelligence 26, 5 (2004), 550–571. [92] Shen, W., Bai, X., Hu, R., Wang, H., and Jan Latecki, L. Skeleton growing and pruning with bending potential ratio. Pattern Recogn. 44, 2 (2011), 196–209. [93] Shen, W., Wang, Y., Bai, X., Wang, H., and Latecki, L. J. Shape clustering: Common structure discovery. Pattern Recognition 46, 2 (2013), 539–550. [94] SHIH, J.-L., and CHEN, L.-H. A context-based approach for color im- age retrieval. International Journal of Pattern Recognition and Artificial Intelligence 16, 02 (2002), 239–255. [95] Siddiqi, K., Shokoufandeh, A., Dickinson, S., and Zucker, S. Shock graphs and shape matching. International Journal of Computer Vi- sion 35, 1 (1999), 13–32. [96] Silvia, A., Salvatore, G., Fabio, L., and Benedetto, M. Assess- ing non-additive utility for multicriteria decision aid. European Journal of Operational Research 158, 3 (2004), 734–744. [97] Smith, A. R. Color gamut transform pairs. SIGGRAPH Comput. Graph. 12, 3 (Aug. 1978), 12–19. 121 [98] Smith, J. R., and Chang, S.-F. Visualseek: A fully automated content- based image query system. In Proceedings of the Fourth ACM International Conference on Multimedia (New York, NY, USA, 1996), MULTIMEDIA ’96, ACM, pp. 87–98. [99] Snoek, C. G. M., Worring, M., and Smeulders, A. W. M. Early versus late fusion in semantic video analysis. In Proceedings of the 13th Annual ACM International Conference on Multimedia (New York, NY, USA, 2005), MULTIMEDIA ’05, ACM, pp. 399–402. [100] Stricker, M. A., and Orengo, M. Similarity of color images. In Storage and Retrieval for Image and Video Databases (1995), pp. 381–392. [101] Su, Z., Zhang, H., Li, S., and Ma, S. Relevance feedback in content- based image retrieval: Bayesian framework, feature subspaces, and progres- sive learning. IEEE Transactions on Image Processing 12, 8 (Aug 2003), 924–937. [102] Sunao, H., Joo Kooi, T., Hyoungseop, K., and Seiji, I. A media-art employing virtual shadows with shape recognition. International Journal of Innovative Computing, Information and Control 5, 3 (2009), 601–607. [103] Swain, M. J., and Ballard, D. H. Color indexing. International Journal of Computer Vision 7, 1 (1991), 11–32. [104] T. Murofushi, M. S. An interpretation of fuzzy measure and the choquet integral as an integral with respect to a fuzzy measure. Fuzzy Sets and Systems 29 (1989), 201–227. [105] Thomee, B., and Lew, M. S. Interactive search in image retrieval: a sur- vey. International Journal of Multimedia Information Retrieval 1, 2 (2012), 71–86. [106] Tieu, K., and Viola, P. Boosting image retrieval. International Journal of Computer Vision 56, 1 (2004), 17–36. [107] Tong, S., and Chang, E. Support vector machine active learning for image retrieval. In Proceedings of the10th ACM International Conference on Multimedia (2001), pp. 107–118. 122 [108] Torralba, A., Fergus, R., and Freeman, W. T. 80 million tiny images: A large data set for nonparametric object and scene recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence 30, 11 (Nov 2008), 1958–1970. [109] Vailaya, A., Figueiredo, M. A., Jain, A. K., and Zhang, H.-J. Image classification for content-based indexing. Trans. Img. Proc. 10, 1 (Jan. 2001), 117–130. [110] Vapnik, V. N. The Nature of Statistical Learning Theory. Springer-Verlag New York, Inc., New York, NY, USA, 1995. [111] Wang, F., Er, G., and Dai, Q. Inequivalent manifold ranking for content- based image retrieval. In 2008 15th IEEE International Conference on Image Processing (Oct 2008), pp. 173–176. [112] Wang, X.-Y., Chen, J.-W., and Yang, H.-Y. A new integrated svm classifiers for relevance feedback content-based image retrieval using em pa- rameter estimation. Applied Soft Computing 11, 2 (2011), 2787–2804. [113] Wang, Z. J., Wiederhold, G., Firschein, O., and Xin Wei, S. Content-based image indexing and searching using daubechies’ wavelets. In- ternational Journal on Digital Libraries 1, 4 (1998), 311–328. [114] Wei Han, C., Ming Cheng, C., Chung Ming, K., Nai Chung, Y., and Ding Shun, H. An efficient contour-based layered shape descriptor for image retrieval. International Journal of Innovative Computing, Information and Control 7, 7(A) (2011), 3903–3922. [115] Wu, K., and Yap, K.-H. Fuzzy svm for content-based image retrieval: a pseudo-label support vector machine framework. IEEE Computational Intelligence Magazine 1, 2 (May 2006), 10–16. [116] Wu, R.-S., and Chung, W.-H. Ensemble one-class support vector ma- chines for content-based image retrieval. Expert Systems with Applications 36, 3, Part 1 (2009), 4451–4459. [117] Xu, B., Bu, J., Chen, C., and Cai, D. A bregman divergence opti- mization framework for ranking on data manifold and its new extensions. In Proceedings of the Twenty-Sixth AAAI Conference on Artificial Intelligence (2012), AAAI’12, AAAI Press, pp. 1190–1196. 123 [118] Xu, B., Bu, J., Chen, C., Wang, C., Cai, D., and He, X. Emr: A scalable graph-based ranking model for content-based image retrieval. IEEE Transactions on Knowledge and Data Engineering 27, 1 (Jan 2015), 102–114. [119] Zaboli, H., and Rahmati, M. An improved shock graph approach for shape recognition and retrieval. In Modelling Simulation, 2007. AMS ’07. First Asia International Conference on (2007), pp. 438–443. [120] Zass, R., and Shashua, A. Probabilistic graph and hypergraph matching. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (2008), pp. 1–8. [121] Zhang, X., Cheng, J., Xu, C., Lu, H., and Ma, S. A dynamic batch sampling mode for svm active learning in image retrieval. In Recent Advances in Computer Science and Information Engineering, vol. 128 of Lecture Notes in Electrical Engineering. 2012, pp. 399–406. [122] Zhou, S. X., and Huang, S. T. Relevance feedback in image retrieval: A comprehensive review. Multimedia Systems 8, 6 (2003), 536–544. [123] Zhu, J., Hoi, S. C., Lyu, M. R., and Yan, S. Near-duplicate keyframe retrieval by nonrigid image matching. In Proceedings of the 16th ACM Inter- national Conference on Multimedia (New York, NY, USA, 2008), MM ’08, ACM, pp. 41–50. 124

Các file đính kèm theo tài liệu này:

  • pdfluan_an_nang_cao_hieu_qua_tra_cuu_anh_dua_tren_hieu_chinh_do.pdf
Luận văn liên quan