Luận án Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở

Thực thể có tên là những thực thể có thể được tham khảo đến bằng tên riêng, như con người, tổ chức, hoặc nơi chốn. Phân giải nhập nhằng thực thể có tên là nhằm ánh xạ mỗi tên trong một văn bản vào một thực thể trong một nguồn tri thức cho trước. Nổi lên gần đây như là một bài toán đầy thách thức, nhưng có nhiều ý nghĩa trong việc hiện thực hóa Web có ngữ nghĩa, cũng như phát triển nâng cao các ứng dụng xử lý ngôn ngữ tự nhiên, phân giải nhập nhằng thực thể có tên đã thu hút sự quan tâm của nhiều nhóm nghiên cứu khắp thế giới. Luận án đề xuất ba phương pháp cho bài toán này, trong đó nghiên cứu sâu ba yếu tố quan trọng ảnh hưởng đến hiệu quả phân giải nhập nhằng là các nguồn tri thức sử dụng, đặc trưng biểu diễn thực thể, và mô hình phân giải nhập nhằng. Các nguồn tri thức được khai thác là các ontology đóng và Wikipedia. Các ontology đóng được xây dựng bởi các chuyên gia theo hướng tiếp cận từ trên xuống, với các khái niệm có quan hệ thứ bậc dựa trên một tập từ vựng có kiểm soát và các ràng buộc chặt chẽ. Wikipedia, xem như một ontology mở, được xây dựng bởi những người tình nguyện theo hướng tiếp cận từ dưới lên, với các khái niệm được hình thành từ một tập từ vựng tự do và các thoả thuận mang tính cộng đồng. Các đặc trưng được nghiên cứu là tên của các thực thể đồng xuất hiện, định danh của các thực thể đã được xác định, và các từ cùng với các cụm từ xuất hiện xung quanh tên đang được xem xét và xung quanh các tên là đồng tham chiếu với tên đó trong văn bản. Ngoài ra luận án cũng khai thác vị trí xuất hiện, chiều dài của các tên, và tên thường dùng của các thực thể. Luận án đề xuất ba mô hình phân giải nhập nhằng tương ứng với ba phương pháp nói trên là: (i) mô hình dựa trên heuristic; (ii) mô hình dựa trên thống kê; và (iii) mô hình lai - kết hợp heuristic và thống kê.

164 trang | Chia sẻ: lvcdongnoi | Lượt xem: 2811 | Lượt tải: 0

Bạn đang xem trước 20 trang tài liệu Luận án Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

huật chọn ngẫu nhiên một ứng viên, và ánh xạ n vào ứng viên đó. Kết quả ánh xạ ngẫu nhiên sẽ được so sánh với kết quả ánh xạ của phương pháp WIN trong Bảng 5.3 bên dưới. Các công trình của Mihalcea và Csoma (2007), Medelyan và CS (2008), Milne và Witten (2008) cũng so sánh các kết quả phân giải nhập nhằng của các tác giả đó với các kết quả ánh xạ ngẫu nhiên. Chúng tôi tiến hành đánh giá phương pháp WIN trong điều kiện không có nhiễu ở đầu vào, tức là thực thi Giải thuật 5.1 trên tập dữ liệu De32; và trong điều kiện có nhiễu ở đầu vào, tức là thực thi Giải thuật 5.1 trên tập dữ liệu De31. Để đánh giá hiệu quả của mỗi giai đoạn, chúng tôi thực thi Giải thuật 5.1 theo ba cách sau: • Cách 1. Chỉ áp dụng các heuristic, tức là chỉ thực thi các dòng từ 1 đến 19 của Giải thuật 5.1 (không thực thi các dòng từ 20 đến 31); 128 Chương 5. Phân giải nhập nhằng dựa trên Wikipedia • Cách 2. Chỉ áp dụng mô hình thống kê, thực thi Giải thuật 4.2 với đầu vào E là tập rỗng, tương đương với thực thi dòng 1, 2 và 20 đến 31 của Giải thuật 5.1 (không thực thi các dòng từ 3 đến 19); • Cách 3. Kết hợp các heuristic và một mô hình thống kê, nghĩa là thực thi toàn bộ Giải thuật 5.1. Bảng 5.3: Độ chính xác và độ đầy đủ ánh xạ sau khi thực thi Giải thuật 5.1 trên tập dữ liệu De32 Con người Nơi chốn Tổ chức Tất cả Tall 866 665 330 1.861 Ngẫu nhiên TR 866 665 330 1.861 TC 456 255 184 895 TI 410 410 146 966 MP=MR=MF 52,65% 38,34% 55,75% 48,09% Heuristic TR 756 616 212 1.584 TC 737 598 199 1.534 TI 110 49 118 277 MP 97,48% 97,07% 93,42% 96,78% MR 85,10% 89,92% 60,30% 82,42% MF 90,87% 93,36% 73,43% 89,05% Thống kê TR 866 665 330 1.861 TC 779 438 274 1.491 TI 87 227 56 370 MP=MR=MF 89,95% 65,86% 83,03% 80,11% Kết hợp heuristic và thống kê TR 866 665 330 1.861 TC 817 626 288 1.731 TI 48 37 36 121 MP =MR=MF 95,38% 92,78% 87,27% 93,01% Bảng 5.3 trình bày các kết quả thí nghiệm trên cùng tập dữ liệu De32. Bởi vì De32 là tập De31 đã được sửa lỗi, do đó Tp nhận giá trị bằng 0 và không được thể hiện trong bảng dữ 5.3.Thí nghiệm và đánh giá 129 liệu. Số liệu cho thấy phương pháp chọn ngẫu nhiên cho kết quả thấp với độ F ánh xạ đạt 48,09%. Với tập dữ liệu không có nhiễu De32, phương pháp cơ bản, Giải thuật 5.1 thực thi theo cách 2, và Giải thuật 5.1 thực thi theo cách 3 cho kết quả được trình bày trong các dòng “Ngẫu nhiên”, “Thống kê” và “Kết hợp heuristic và thống kê” trong Bảng 5.3. Kết quả cho thấy các phương pháp có độ chính xác, độ đầy đủ và độ F ánh xạ bằng nhau là vì tổng số ánh xạ thực hiện bởi phương pháp bằng với tổng số ánh xạ chuẩn vàng. Kết quả thực thi các heuristic cho độ chính xác cao, chứng tỏ các heuristic được đề xuất có độ tin cậy cao. Độ chính xác, độ đầy đủ và độ F ánh xạ khác nhau đối với trường hợp chỉ thực thi các heuristic là vì nhiều trường hợp phương pháp không thực hiện ánh xạ. Có việc không thực hiện ánh xạ cho một số tên là vì, như chúng tôi đã trình bày ở Phần 5.2, các heuristic cần bảo đảm độ chính xác cao, nên chắc thì mới ánh xạ. Độ đầy đủ ánh xạ sau khi áp dụng các heuristic đạt 82,42% cho thấy số trường hợp nhập nhằng còn lại sau Giai đoạn 1 là không nhiều. Hơn nữa, độ chính xác ánh xạ là khá cao (96.78%) cho tất cả các lớp. Điều đó cho thấy định danh của các thực thể đã được xác định, làm đầu vào cho Giai đoạn 2 của Giải thuật 5.1, có độ tin cậy cao. Phương pháp thống kê của chúng tôi cũng cho kết quả khá tốt, với độ F ánh xạ đạt 80,11%. Kết quả kết hợp giữa các heuristic và mô hình thống kê cho kết quả tốt nhất với độ F ánh xạ đạt 93,01%. Bảng 5.4: Độ chính xác và độ đầy đủ ánh xạ sau khi thực thi Giải thuật 5.1 trên tập dữ liệu De31 Con người Nơi chốn Tổ chức Tất cả Tall 866 665 330 1.861 TR 784 625 297 1.716 TC 604 550 217 1.371 TP 15 0 0 15 TI 175 75 80 330 MP 76,58% 88,00% 73,06% 80,12% MR 70,85% 82,70% 66,97% 74,43% MF 73,60% 85,26% 69,88% 77,17% 130 Chương 5. Phân giải nhập nhằng dựa trên Wikipedia Bảng 5.4 trình bày các kết quả thí nghiệm khi chúng tôi thực thi Giải thuật 5.1 trên tập dữ liệu De31. Kết quả độ F ánh xạ đạt được là 77.17%, thấp hơn so với khi thực thi Giải thuật 5.1 trên tập dữ liệu De32. Điều đó cho thấy nhiễu từ phần tiền xử lý có tác động lớn đến hiệu quả phân giải nhập nhằng. Số liệu trong dòng cuối cùng của Bảng 5.3 và Bảng 5.4 cho thấy phần tiền xử lý tạo ra lỗi tập trung chủ yếu vào các thực thể là con người (độ F ánh xạ là 95.08% trong Bảng 5.3 so với 73.60% trong Bảng 5.4) và các tổ chức (độ F ánh xạ là 87.27% trong Bảng 5.3 so với 69.88% trong bảng 5.4). So với các phương pháp phân giải nhập nhằng dựa trên Wikipedia, tập dữ liệu chúng tôi sử dụng gồm 40 tài liệu chứa 1.861 thực thể có tên với 1115 trường hợp nhập nhằng, chỉ nhỏ hơn so với tập dữ liệu của Kulkarni và CS (2009) và Overell (2009) về số lượng thực thể. Tập dữ liệu của Kulkarni và CS (2009) gồm 119 tài liệu chứa 19.000 từ khóa. Tuy nhiên, Kulkarni và CS (2009) không cho biết trong số đó có bao nhiêu tên riêng. Tập dữ liệu của Overell (2009) gồm 477 tài liệu chứa 2150 vùng địa lý với 808 trường hợp nhập nhằng. Nếu chỉ tính các trường hợp nhập nhằng thì tập dữ liệu của Overell (2009) chứa số trường hợp nhập nhằng nhỏ hơn so với số trường hợp nhập nhằng trong tập dữ liệu của chúng tôi (808 so với 1115). Cucerzan (2007) thí nghiệm trên tập dữ liệu gồm 20 tài liệu chứa 756 thực thể có tên. Hassell và CS (2006) thí nghiệm trên tập dữ liệu gồm 20 tài liệu chứa 758 thực thể có tên. Milne và Witten (2008) thí nghiệm trên tập tài liệu gồm 50 tài liệu chứa 449 từ khóa cần phân giải nhập nhằng. 5.4 Kết luận Chương này trình bày phương pháp phân giải nhập nhằng thứ ba trong luận án này. Đây là một phương pháp lai, lặp cải thiện dần, gồm hai giai đoạn, một giai đoạn áp dụng các heu- ristic, và một giai đoạn triển khai một mô hình thống kê để phân giải nhập nhằng. Các heu- ristic dựa trên sự xuất hiện của phần văn bản phân giải nhập nhằng trong nhan đề của các ứng viên xung quanh tên đang xét. Vị trí xuất hiện các tên, và quan hệ đồng tham chiếu giữa các tên cũng được khai thác. Với các tên chỉ được sử dụng để đề cập đến các thực thể thuộc lớp nơi chốn hoặc lớp con của lớp nơi chốn, một thực thể mặc định sẽ được thiết lập cho tên đó. Trong giai đoạn thứ hai chúng tôi áp dụng mô hình phân hạng dựa trên thống kê để phân giải nhập nhằng cho các trường hợp còn lại sau giai đoạn áp dụng các heuristic. Các đặc trưng trong văn bản được rút trích để biểu diễn mỗi tên là các từ xuất hiện xung 5.4.Kết luận 131 quanh nó, các từ xuất hiện xung quanh các tên đồng tham chiếu với nó, tên của các thực thể chưa được xác định trong văn bản, và định danh của các thực thể đã được xác định trong văn bản. Ngoài ra vị trí xuất hiện của các tên cũng được xem xét trong giai đoạn này. Các đặc trưng rút trích để biểu diễn mỗi thực thể trong Wikipedia bao gồm nhan đề của trang thực thể, các nhan đề đổi hướng, nhãn các thể loại, nhãn của các liên kết ra trong trang thực thể tương ứng. Chúng tôi tiến hành thí nghiệm và đánh giá hiệu quả của phương pháp dựa trên hai tập dữ liệu là một tập dữ liệu có nhiễu, và một tập dữ liệu đã khử nhiễu thủ công. Chúng tôi đánh giá phương pháp WIN theo hai cách. Cách thứ nhất, thực hiện trên tập dữ liệu có nhiễu ở đầu vào, do lỗi tích lũy từ phần tiền xử lý. Cách thứ hai, thực hiện trên tập dữ liệu không có nhiễu. Độ F ánh xạ đạt được lần lượt trên hai tập dữ liệu này là 77,17% và 93,01%. 132 Chương 6 TỔNG KẾT 6.1 Tóm tắt Mục tiêu của luận án này là giải quyết bài toán phân giải nhập nhằng thực thể có tên, nhằm xác định đúng thực thể trong một nguồn tri thức mà một tên trong một văn bản đề cập. Thách thức của bài toán là trong thực tế một tên có thể được dùng để đề cập đến nhiều thực thể khác nhau trong các ngữ cảnh khác nhau, mỗi thực thể đó được gọi là một ứng viên, và mỗi thực thể có thể có nhiều tên gọi khác nhau. Một phương pháp phân giải nhập nhằng bao gồm việc thực hiện ba bước chính theo trình tự liệt kê như sau: xác định các cụm từ trong một văn bản là tên của các thực thể, rút trích các đặc trưng của chúng, và ánh xạ mỗi tên trong số đó vào đúng thực thể trong một nguồn tri thức mà nó đề cập đến. Trước khi đề xuất các phương pháp phân giải nhập nhằng chúng tôi cũng đã phân tích cấu trúc của một văn bản tập trung vào lĩnh vực tin tức, cách thức mà tác giả văn bản đặt các tên vào văn bản sao cho không tạo ra hiểu nhầm cho người đọc, và cách thức một người nào đó đọc hiểu một văn bản. Thông thường, các thực thể đồng xuất hiện và các từ xuất hiện xung quanh tên đang được xem xét là cơ sở để chọn lựa ứng viên phù hợp. Khi bắt gặp một khái niệm nhập nhằng, một người nào đó sẽ dựa vào ngữ cảnh xung quanh, các thực thể xuất hiện trước đó, và vốn hiểu biết của mình để xác định đúng đối tượng được đề cập đến. Từ những quan sát đó, chúng tôi đề xuất các heuristic và khai thác các đặc trưng tương ứng để phân giải nhập nhằng. Sau đây chúng tôi trình bày tóm tắt mô hình phân giải nhập nhằng lặp cải thiện dần, các nguồn tri thức về thực thể, và các đặc trưng để biểu diễn thực thể mà luận án đề xuất. 6.1.Tóm tắt 133 Mô hình phân giải nhập nhằng Luận án đề xuất phương pháp luận phân giải nhập nhằng theo cách lặp cải thiện dần. Ý tưởng lặp cải thiện dần là điểm mới nổi bật của luận án. Khởi đầu từ tập các hạt giống (tập này có thể rỗng), các thực thể khác sẽ được xác định dựa trên các hạt giống đó. Quá trình phân giải nhập nhằng lặp cải thiện dần, bao gồm một số bước lặp. Tại mỗi bước lặp, với một tên cần phân giải nhập nhằng, các ứng viên sẽ được phân hạng dựa vào ngữ cảnh xuất hiện của nó. Các thực thể sau khi đã được xác định tại mỗi bước lặp sẽ được bổ sung vào tập các hạt giống và tham gia vào việc xác định các thực thể trong các bước lặp tiếp theo. Cứ thế quá trình phân giải nhập nhằng diễn tiến lặp đi lặp lại cho đến khi nào các thực thể được đề cập đến trong văn bản đã được xác định hết hoặc giữa hai bước lặp không có thêm thực thể nào mới được xác định. Dựa trên phương pháp luận này, chúng tôi đề xuất ba phương pháp phân giải nhập nhằng là OntoNEON (Chương 3), NOW (Chương 4) và WIN (Chương 5). Chúng tôi cũng đề xuất hai mô hình phân hạng các ứng viên là phân hạng các ứng viên dựa trên mối quan hệ ngữ nghĩa giữa các thực thể (Phần 3.2) và phân hạng các ứng viên dựa trên thống kê (Phần 4.2). Mô hình phân hạng các ứng viên dựa trên mối quan hệ ngữ nghĩa giữa các thực thể đã được xác định trong văn bản với ứng viên đang xét, và ứng viên có nhiều mối quan hệ nhất với các thực thể xung quanh sẽ được chọn. Mô hình phân hạng dựa trên thống kê biểu diễn các thực thể trong một không gian véctơ dựa trên các đặc trưng của các thực thể. Với một tên cần phân giải nhập nhằng, độ tương tự giữa véctơ đặc trưng của nó và mỗi vectơ đặc trưng của mỗi ứng viên sẽ được tính toán sử dụng cosine của góc giữa hai véctơ. Ứng viên có độ tương tự cao nhất sẽ được chọn. Các mô hình phân hạng ứng viên được thể hiện trong ba phương pháp phân giải nhập nhằng. Mô hình phân hạng các ứng viên dựa trên mối quan hệ ngữ nghĩa giữa các thực thể được triển khai trong phương pháp OntoNEON. Mô hình phân hạng dựa trên thống kê được triển khai trong NOW và WIN. Chúng tôi cũng đề xuất các heuristic hoàn toàn mới so với các nghiên cứu trước về bài toán phân giải nhập nhằng thực thể có tên là các heuris- tic H1, H2, H3, H5, và H6. Phương pháp OntoNEON dựa vào các heuristic để phân giải nhập nhằng. Phương pháp này triển khai mô hình phân hạng các ứng viên dựa trên mối quan hệ ngữ nghĩa của mỗi ứng viên với các thực thể đã được xác định trong ngữ cảnh của nó. Bên cạnh đó, mối 134 Chương 6.Tổng kết quan hệ đồng tham chiếu giữa các tên và mức độ phổ biến của các thực thể cũng được On- toNEON khai thác để phân giải nhập nhằng. Phương pháp NOW tiến hành làm giàu thông tin mô tả về các thực thể trong một on- tology đóng bằng các đặc trưng của chính các thực thể đó được rút trích từ Wikipedia. Mô hình phân hạng ứng viên dựa trên thống kê sau đó được triển khai để phân hạng các ứng viên sử dụng ontology đã được làm giàu. Để đánh giá sự tác động của các đặc trưng trên văn bản và Wikipedia vào hiệu quả phân giải nhập nhằng và chọn lựa các đặc trưng tốt nhất cho việc phân giải nhập nhằng, chúng tôi cũng khai phá các đặc trưng bằng cách kết hợp chúng theo một số cách khác nhau. Phương pháp WIN là một phương pháp lai, gồm hai giai đoạn, kết hợp việc áp dụng một số heuristic và một mô hình thống kê để phân giải nhập nhằng. Các heuristic được áp dụng để thu giảm các ứng viên và chọn ứng viên phù hợp nếu có thể. Trong giai đoạn áp dụng các heuristic, các trường hợp nếu được phân giải nhập nhằng phải bảo đảm đạt độ tin cậy cao. Các trường hợp còn lại sau giai đoạn áp dụng các heuristic sẽ được phân giải nhập nhằng bằng một mô hình thống kê. Luận án cũng đề xuất các độ đo mới để đánh giá hiệu quả của các phương pháp phân giải nhập nhằng, phù hợp cho các trường hợp khi mà các tên trong các văn bản được nhận ra bán phần, và các thực thể được đề cập đến trong văn bản có thể không được mô tả trong nguồn tri thức sử dụng. Các độ đo mới này sẽ thu giảm về các độ đo chuẩn khi trong tập dữ liệu thí nghiệm không có tên nào được nhận ra bán phần. Nguồn tri thức Chúng tôi khai thác các ontology “đóng”, đại diện cho các ontology do một nhóm nhỏ các chuyên gia xây dựng, và Wikipedia, được xem là một ontology “mở”, do chính cộng đồng người sử dụng xây dựng. Nội dung thông tin trên các ontology đóng có chất lượng cao, tuy nhiên kích thước của các ontology nhỏ, mức độ cập nhật chậm, và có giới hạn về mức độ bao phủ các chủ đề thông tin. Trong khi đó Wikipedia có kích thước lớn, là từ điển bách khoa trực tuyến lớn nhất hiện nay, không giới hạn về chủ đề thông tin, tốc độ phát triển rất nhanh, và nội dung thông tin có độ tin cậy cao (Giles, 2005). Số lượng tính chất của các thực thể được định nghĩa trong một ontology đóng là không nhiều, trong khi số tính chất của các thực thể trong thực tế thì rất đa dạng. Do đó nhiều tính chất của một thực thể có thể không được mô tả trong một ontology đóng. Hơn nữa, ngay cả 6.2. Hướng nghiên cứu mở rộng 135 các tính chất của một thực thể được định nghĩa bởi ontology đóng cũng chưa chắc đã được điền đầy đủ thông tin, cho nên chúng tôi sử dụng Wikipedia để làm giàu thông tin mô tả về các thực thể trong một ontology đóng, nhằm mở rộng biểu diễn của các thực thể, và bổ khuyết các thông tin còn thiếu của các thực thể đó. Các ontology đóng và Wikipedia được khai thác để phát triển một mô hình phân hạng các ứng viên dựa vào mối quan hệ ngữ nghĩa với các thực thể xung quanh, và một mô hình phân hạng các ứng viên dựa trên thống kê như đã trình bày ở trên, để thực hiện việc phân giải nhập nhằng. Trong các phương pháp phân giải nhập nhằng mà luận án đề xuất, các nguồn tri thức được khai thác đóng vai trò vừa là nguồn cung cấp các đặc trưng của các thực thể có tên, vừa là đích đến của các ánh xạ. Các đặc trưng Luận án này khai thác nhiều đặc trưng khác nhau, bao gồm các đặc trưng trích từ các văn bản, và các đặc trưng trích từ các nguồn tri thức sử dụng. Đối với các nguồn tri thức, các đặc trưng được trích dựa trên các tính chất của các thực thể, bao gồm các thuộc tính và các mối quan hệ. Các đặc trưng được khai thác để biểu diễn các tên trong văn bản là định danh và tên của các thực thể đồng xuất hiện, các từ cùng với các cụm từ xuất hiện xung quanh tên đang được xem xét và các tên đồng tham chiếu với tên đang được xem xét. Ngoài ra, vị trí xuất hiện và chiều dài của các tên cũng được chúng tôi khai thác, trong đó chúng tôi có xem xét một tên có phải là tên thường dùng của một thực thể hay không. Đối với các đặc trưng trích từ văn bản, ngoại trừ các đặc trưng là tên của các thực thể đồng xuất hiện và các từ hay các cụm từ xuất hiện xung quanh tên đang được xem xét, các đặc trưng còn lại được chúng tôi khai thác hoàn toàn mới. Đối với các đặc trưng trích từ các nguồn tri thức sử dụng, điểm mới của luận án thể hiện ở chỗ đánh giá các kết hợp khác nhau của các đặc trưng, và thẩm định các kết hợp nào là tốt nhất cho phân giải nhập nhằng các thực thể có tên. 6.2 Hướng nghiên cứu mở rộng Từ các nghiên cứu và các kết quả đạt được của luận án này, chúng tôi đề nghị một số vấn đề và các hướng nghiên cứu tiếp theo như sau: 136 Chương 6.Tổng kết • Thứ nhất, từ kết quả của phương pháp OntoNEON, mô hình phân hạng các ứng viên dựa trên mối quan hệ ngữ nghĩa của các ứng viên với các thực thể đã được xác định trong văn bản có thể được áp dụng cho Wikipedia. Trong đó mối quan hệ ngữ nghĩa giữa các thực thể được tính toán dựa vào các thông tin trích từ infobox của các trang thực thể trong Wikipedia. • Thứ hai, kết quả thí nghiệm trong Chương 3 và Chương 5 cho thấy một số heuristic đạt độ chính xác cao. Do đó, các heuristic này có thể được sử dụng để tự động xây dựng một tập huấn luyện. Nghĩa là khởi nguồn từ một tập văn bản thô, các heuristic được sử dụng để xác định các thực thể trong đó dựa trên một nguồn tri thức để tạo tập dữ liệu huấn luyện. Sau đó, một mô hình học có giám sát sẽ được triển khai để học ngữ cảnh xuất hiện các tên và áp dụng mô hình học được cho một văn bản mới. • Thứ ba, kết quả trong Chương 4 và Chương 5 cho thấy việc mở rộng ngữ cảnh của các thực thể được đề cập đến trong các văn bản bằng định danh của các thực thể đã được xác định là có ý nghĩa. Tuy nhiên thông tin của các thực thể đã được xác định đó không chỉ có định danh, mà còn có nhiều thông tin khác như các tên khác nhau, các tính chất. Các thông tin này có thể được sử dụng để mở rộng ngữ cảnh phục vụ việc phân giải nhập nhằng. 137 CÁC CÔNG TRÌNH CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN 1. Nguyen, H.T. and Cao, T.H. (2010). Enriching ontologies for named entity disambiguation. In Proc. of The Fourth International Conference on Advances in Semantic Processing (SEMAPRO 2010), ISBN: 978-1-61208-000-0, IARIA, pp. 37-42 (Best Paper Award). 2. Nguyễn Thanh Hiên và Cao Hoàng Trụ (2010). Một phương pháp dựa trên Wikipedia để phân giải nhập nhằng thực thể có tên. Chuyên san các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT, Tạp chí công nghệ thông tin và truyền thông, ISSN 0866-7093, Tập V-1, Số 3(23):16-28. 3. Nguyen, H.T. and Cao, T.H. (2010). Exploring Wikipedia and text features for named entity disambiguation. In Proc. of the 2nd Asian Conference on Intelligent Information and Database Systems (ACIIDS 2010); Lecture Notes in Computer Science (LNCS), vol. 5991, ISBN 978-3-642-12100-5, Springer-Verlag, pp. 11-20. 4. Nguyen, H.T. and Cao, T.H. (2008). Named entity disambiguation: A hybrid statistical and rule-based incremental approach. In Proc. of 3rd Asian Semantic Web Conference (ASWC 2008); LNCS, vol. 5367, ISBN 978-3-540-89703-3, Springer-Verlag, pp. 420-433. 5. Nguyen, H.T. and Cao, T.H. (2008). Named entity disambiguation on an ontology enriched by Wikipedia. In Proc. of the 6th IEEE International Conference on Research, Innovation and Vision for the Future (RIVF 2008), ISBN 978-1-4244- 2379-8, IEEE Xplore, pp. 247-254. 6. Nguyễn Thanh Hiên và Cao Hoàng Trụ (2008). Một tiếp cận phân giải đồng tham chiếu và nhập nhằng thực thể trong các văn bản tiếng Việt. Chuyên san các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT, Tạp chí công nghệ thông tin và truyền thông, ISSN 0866-7093, Số 19:74-83. 7. Nguyen, H.T. and Cao, T.H. (2007). A knowledge-based approach to named entity disambiguation in news articles. In Proc. of 20th Australian Joint Conference on Artificial Intelligence (AI 2007); LNCS (LNAI), vol. 4830, ISBN 978-3-540-76926- 2, Springer-Verlag, pp. 619–624. 8. Nguyen, H.T. and Cao, T.H. (2007). A knowledge-based method to resolve name ambiguity in Vietnamese texts. In Addendum Contributions of the 5th International Conference on Research, Innovation and Vision for the Future (RIVF 2007), ISBN 2-912590-4-0, Studia Informatica Universalis, pp. 83-88. 138 TÀI LIỆU THAM KHẢO 1. Aleman-Meza, B., Nagarajan, M., Ramakrishnan, C., Ding, L., Kolari, P., Sheth, A.P., Arpinar, I.B., Joshi, A., and Finin, T. (2006). Semantic analytics on social net- works: Experiences in addressing the problem of conflict of interest detection. In Proc. of 15th International World Wide Web Conference (WWW 2006), pp.407-416. 2. Amitay, E., Har’El, N., Sivan, R., and Soffer, A. (2004). Web-a-Where: Geotagging Web content. In Proc. of the 27th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 273–280. 3. Andogah, J., Bouma, G., Nerbonne, J., and Koster. E. (2008). Placename ambiguity resolution. In Proc. of LREC 2008 workshop on Methodologies and Resources for Processing Spatial Language. 4. Angwin, J. and Fowler, G.A. (2009). Volunteers log off as Wikipedia ages. Wall Street Journal. (ngày 27 tháng 11 năm 2009). 5. Antoniou, G. and Van Harmelen, V. (2004). A semantic web primer. MIT Press. 6. Artiles, J., Gonzalo, J., and Sekine, S. (2007). The SemEval-2007 WePS evaluation: Establishing a benchmark for the Web People Search task. In Proc. of the Fourth In- ternational Workshop on Semantic Evaluations (SemEval-2007), pp.64-69. 7. Artiles, J., Gonzalo, J., and Sekine, S. (2009). WePS 2 evaluation campaign: over- view of the Web People Search clustering task. In Proc. of 2nd Web People Search Evaluation Workshop (WePS 2009), in 18th WWW Conference. 8. Auer, S., Bizer, C., Kobilarov, G., Lehmann, C., Richard, C., and Zachary, I. (2007). DBPedia: A nucleus for a Web of open data. In Proc. of ISWC/ASWC 2007; LNCS, vol.4825, Springer-Verlag, pp. 722-35. 9. Bizer, C., Lehmann, J., Kobilarov, G., Auer, S., Becker, C., Cyganiak, R., and Hellman, S. (2009). DBpedia – A Crystallization point for the Web of data. Journal of Web Semantics: Science, Services and Agents on the World Wide Web, 7(3):154– 165. Tài liệu tham khảo 139 10. Bagga, A. and Baldwin, B. (1998a). Algorithms for scoring coreference chains. In The First International Conference on Language Resources and Evaluation Work- shop on Linguistics Coreference. 11. Bagga, A. and Baldwin, B. (1998b). Entity-based cross-document coreferencing using the vector space model. In Proc. of the 17th International Conference on Computa- tional Linguistics, pp.79-85. 12. Baldwin, B. 1997. Cogniac: High precision coreference with limited knowledge and linguistic resources. In Proc. of the ACL’97/EACL’97 Workshop on Operational Fac- tors in Practical, Robust Anaphora Resolution, pp. 38–45. 13. Berners-Lee, T., Hendler, J., and Lassila, O. (2001). The Semantic Web. Scientific American, pp. 34–43. 14. Berners-Lee, T. (1999). Weaving the Web. Harper SanFrancisco, San Francisco, Cali- fornia. 15. Bekkerman, R. and McCallum A. (2005). Disambiguating Web appearances of people in a social network. In Proc. of the 14th International Conference on World Wide Web, pp. 463–470. 16. Benjelloun, O., Garcia-Molina, H., Menestrina, D., Su, Q., Whang, S.E., and Widom, J. (2009). Swoosh: a generic approach to entity resolution. The VLDB Journal — The International Journal on Very Large Data Bases, 18(1):255-276. 17. Bikel, D.M., Schwartz, R.L., and Weischedel, R.M. (1999). An algorithm that learns what’s in a name. Machine Learning, 34(1-3):211–231. 18. Bilenko, M., Mooney, R.J., Cohen, W.W., Ravikumar, P., and Fienberg, S.E. (2003). Adaptive name matching in information integration. IEEE Intelligent Systems, 18(5):16-23. 19. Borthwick, A. (1998). A maximum entropy approach to named entity recognition. PhD’s Thesis, Computer Science Deparment, New York University. 20. Bloehdorn, S., Cimiano, P., Hotho, A., and Staab, S. (2005). An ontology-based framework for text mining. In Alexander Mehler, Andreas Wolff (Eds.), LDV Forum 140 Tài liệu tham khảo - GLDV Journal for Computational Linguistics and Language Technology, 20(1):87- 112. 21. Bontcheva, K., Dimitrov, M., Maynard, D., Tablan, V., and Cunningham, H. (2002). Shallow Methods for Named Entity Coreference Resolution. In Proc. of TALN 2002 Workshop. 22. Bunescu, R. and Paşca, M. (2006). Using encyclopedic knowledge for named entity disambiguation. In Proc. of the 11th Conference of the European Chapter of the Asso- ciation for Computational Linguistics (EACL 2006), pp. 9–16. 23. Bunescu, R. (2007). Learning for information extraction: From named entity recogni- tion and disambiguation to relation extraction. PhD’s thesis, University of Texas at Austin. 24. Buscaldi, D. and Rosso, P. (2008). Map-based vs. knowledge-based toponym disam- biguation. In Proc. of the 2nd international Workshop on Geographic Information Retrieval, GIR'08, ACM Press, pp. 19-22. 25. Carbonell, J. and Brown, R. (1988). Anaphora resolution: A multi-strategy approach. In Proc. of the 12th International Conference on Computational Linguistics (COL- ING’1988), 1:96-101. 26. Carter, D. M. (1987). Interpreting anaphors in natural language texts. Ellis Hor- wood, Chichester, UK. 27. Cardie, C. and Wagstaff, K. (1999). Noun phrase coreference as clustering. In Proc. of SIGDAT Conference on Empirical Methods in NLP and Very Large Corpora, pp. 82–89. 28. Chen, Y. and Martin, J. (2007). Towards robust unsupervised personal name disam- biguation. In Proc. of Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL 2007). 29. Chinchor, N. and Robinson, P. (1997). MUC-7 named entity task definition (Version 3.5). In Proc. of Message Understanding Conference 7 (MUC-7). 30. Chinchor, N. (1998). Overview of MUC-7/MET-2. In Proc. of the Seventh Message Understanding Conference (MUC-7). Tài liệu tham khảo 141 31. Chinchor, N. (1992). Muc-4 evaluation metrics. In Proc. of the Fourth Message Un- derstanding Conference, pp. 22–29. 32. Cimiano, P. and Völker, J. (2005). Towards large-scale, open-domain and ontology- based named entity classification. In Proc. of the 5th International Conference on Re- cent Advances in Natural Language Processing (RANLP 2005), pp. 166-172. 33. Clough, P. (2005). Extracting Metadata for Spatially-Aware Information Retrieval on the Internet. In Proc. of Workshop on Geographic Information Retrieval (GIR'2005), held in conjunction with CIKM2005, pp. 25-30. 34. Collins, M. and Singer, Y. (1999). Unsupervised models for named entity classifica- tion. In Proc. of the Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora, pp. 100-110. 35. Cohen, W., Ravikumar, P., and Fienberg, S. (2003). A Comparison of distance string metrics for name-matching tasks. In IJCAI-03 II-Web Workshop. 36. Cucerzan, S. (2007). Large-scale named entity disambiguation based on Wikipedia data. In Proc. of Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL 2007). 37. Cunningham, H., Maynard, D., Bontcheva, K., and Tablan, V. (2002). GATE: A framework and graphical development environment for robust NLP tools and applica- tions. In Proc. of the 40th Annual Meeting of the Association for Computational Lin- guistics (ACL 2002). 38. Cunningham, H., Maynard, D., and Tablan, V. (2000). JAPE: A java annotation pat- terns. Technical report CS--00--10, Univ. of Sheffield. 39. Dasu, T., Johnson, T., Muthukrishnan, S., and Shkapenyuk, V. (2002). Mining Data- base Structure; or, How to Build a Data Quality Browser. In Proc. of 2002 ACM SIGMOD International Conference on Management of Data, pp. 240-251. 40. Dean, J. and Ghemawat, S. (2004). Mapreduce: Simplified data processing on large clusters. In Proc. of OSDI ’04: Sixth Symposium on Operating System Design and Implementation, San Francisco, CA, google labs, 137–150. 142 Tài liệu tham khảo 41. Dill, S., Eiron, N., Gibson, D., Gruhl, D., Guha, R.V., Jhingran, A., Kanungo, T., Ra- jagopalan, S., Tomkins, A., Tomlin, J.A., and Zien, J.Y. (2003). SemTag and Seeker: Bootstrapping the semantic web via automated semantic annotation. In Proc. of Twelfth International World Wide Web Conference (WWW 2003), pp. 178-186. 42. Dimitrov, M., Bontcheva, K., Cunningham, H., and Maynard, D. (2002). A light- weight approach to coreference resolution for named entities in text. In Proc. of the 4th Discourse Anaphora and Anaphor Resolution Colloquium (DAARC). 43. Doddington, G., Mitchell, A., Przybocki, M., Ramshaw, L., Strassel, S., and Wei- schedel, R. (2004). ACE program – task definitions and performance measures. In Proc. of LREC’2004, pp. 837-840. 44. Douthat, A. (1998). The message understanding conference scoring software users manual. In Proc. of the 7th Message Understanding Conference (MUC-7). 45. Elmagarmid, A., Panagiotis, G., and Verykios, V. (2007). Duplicate record detection: A survey. IEEE Transactions on Knowledge and Data Engineering, 19(1):1-16. 46. Encyclopedia Britannica Inc. (2006). Fatally flawed. Press release, March, 2006. 47. Emigh, W. and Herring, S. (2005). Collaborative authoring on the Web: A genre analysis of online encyclopedias. In Proc. of the 38th Hawaii International Confe- rence on System Sciences. 48. Fader, A., Soderland, S., and Etzioni, O. (2009). Scaling Wikipedia-based named ent- ity disambiguation to arbitrary web text. In Proc. of Wiki-AI Workshop at IJCAI’09 Conference. 49. Fernandez, N., Blazquez, J.M., Sanchez, L., and Bernardi, A. (2007). IdentityRank: named entity disambiguation in the context of the NEWS project. In Proc. of ESWC 2007; LNCS, vol. 4519, Springer-Verlag, pp. 640-654. 50. Fleischman, M.B. and Hovy, E. (2004). Multi-document person name resolution. In Proc. of 42nd Annual Meeting of the Association for Computational Linguistics (ACL), Reference Resolution Workshop, pp. 66-82. Tài liệu tham khảo 143 51. Frank, E., Paynter, G.W., Witten, I.H., Gutwin, C., and Nevill-Manning, C.G. (1999). Domain-specific keyphrase extraction. In Proc. of International Joint Conference on Artificial Intelligence, pp. 668–673. 52. Gale, W., Church, K., and Yarowsky, D. (1992). One sense per discourse. In Proc. of the 4th DARPA SNL Workshop, pp.233-237. 53. Gabrilovich, E. (2006). Feature generation for textual information retrieval using world knowledge. PhD’s thesis, Technion. 54. Garbin, E. & Mani, I. (2005). Disambiguating toponyms in news. In Proc. of the con- ference on Human Language Technology and Empirical Methods in Natural Lan- guage, pp. 363-370. 55. Giles, Jim. (2005). Internet encyclopedias go head to head. Nature, 438(7070):900- 901. 56. Gooi, C.H. and Allan, J. (2004). Cross-document coreference on a large-scale corpus. In Proc. of the Annual Meeting of the North American Chapter of the Association for Computational Linguistics - Human Language Technologies (NAACL-HLT 2004). 57. Grishman, R. and Sundheim, B. (1996). Message Understanding Conference - 6: A brief history. In Proc. of COLING, pp. 466-471. 58. Griffith, V. (2007). WikiScanner: List anonymous Wikipedia edits from interesting organizations. 14 August, 2007. 59. Gruber, T. (1995). Toward principles for the design of ontologies used for knowledge sharing. International Journal of Human-Computer Studies, 43(5-6):907-928. 60. Guha, R. and Garg, A. (2004). Disambiguating people in search. In Proc. of the 13th World Wide Web Conference (WWW 2004), ACM Press. 61. Guha, R., and McCool, R. (2003). TAP: A semantic web test-bed. Journal of Web Semantics, 1(1):81–87. 62. Guarino, N. (1998). Formal ontology and information systems. In N. Guariono (Ed.), FOIS'98, Trent, Italy, IOS Press. 144 Tài liệu tham khảo 63. Han, H., Giles, L., Zha, H., Li, C., and Tsioutsiouliklis, K. (2004). Two supervised learning approaches for name disambiguation in author citations. In Proc. of ACM/IEEE Joint Conference on Digital Libraries (JCDL 2004), pp.296-305. 64. Hassell, J., Aleman-Meza, B., and Arpinar, I.B. (2006). Ontology-driven automatic entity disambiguation in unstructured text. In Proc. of ISWC 2006; LNCS, vol. 4273, Springer-Verlag, pp. 44–57. 65. Hepp, M., Bachlechner, D., and Siorpaes, K. (2006). Harvesting wiki consensus - us- ing Wikipedia entries as ontology elements. In Proc. of the Workshop on Semantic Wikis at the ESWC 2006 (ESWC 2006), pp.54-65. 66. Humphreys, K., Gaizauskas, R., Azzam, S., Huyck, C., Mitchell, B., Cunningham, H., and Wilks, Y. (1998). University of Sheffield: Description of the LaSIE-II system as used for MUC-7. In Proc. of the 7th Message Understanding Conference (MUC-7). 67. Ide, N. and Véronis, J. (1998). Word sense disambiguation: The state of the art. Com- putational Linguistics, 24(1):1-40. 68. Jain, A.K., Murty, M.N., and Flynn, P.J. (1999). Data clustering: A review. ACM Computing Surveys, 31(3):264–323. 69. Kiryakov, A., Popov, B., Terziev, I., Manov, D., and Ognyanoff, D. (2005). Semantic annotation, indexing, and retrieval. Journal of Web Semantics, 2(1):49-79. 70. Kulkarni, S., Singh, A., Ramakrishnan, G., and Chakrabarti, S. (2009). Collective an- notation of Wikipedia entities in web text. In Proc. of the 15th ACM SIGKDD Interna- tional Conference on Knowledge Discovery and Data Mining (KDD 2009), pp 457- 466. 71. Leaman, R. and Gonzalez, G. (2008). Banner: An executable survey of advances in biomedical named entity recognition. In Pacific Symposium on Biocomputing, pp 652-663. 72. Lefever, E., Fayruzov, T., Hoste, V., and De Cock, M. (2009). Fuzzy ants clustering for web people search. In 2nd Web People Search Evaluation Workshop (WePS 2009), 18th WWW Conference. Tài liệu tham khảo 145 73. Leidner, J. (2007). Toponym Resolution in Text: Annotation, Evaluation and Applica- tions of Spatial Grounding of Place Names. Ph.D’s thesis, School of Informatics, University of Edinburgh, Edinburgh, Scotland, UK. 74. Leidner, J., Sinclair, G., and Webber, B. (2003). Grounding spatial named entities for information extraction and question answering. In Proc. of NAACL-HLT 2003 Work- shop on the Analysis of Geographic References, pp. 31–38. 75. Lesk, M. (1986). Automatic sense disambiguation using machine readable dictiona- ries: How to tell a pine cone from an ice cream cone. In Proc. of the 5th SIGDOC, pp. 24–26. 76. Ley, M. (2002). The DBLP computer science bibliography: Evolution, research is- sues, perspectives. In Proc. of the 9th International Symposium on String Processing and Information Retrieval, pp 1-10. 77. Lenat, D. B. (1995). CYC: A large-scale investment in knowledge infrastructure. Communications of the ACM, 38(11):33-38. 78. Li, H., Srihari, R.K., Niu, C., and Li, W. (2003). InfoXtract location normalization: a hybrid approach to geographic references in information extraction. In Proc. of NAACL-HLT 2003 Workshop on the Analysis of Geographic References, pp. 39–44. 79. Liu, J. and Birnbaum, L. (2007). Measuring semantic similarity between named enti- ties by searching the web directory. In Proc. of IEEE/WIC/ACM International Confe- rence on Web Intelligence, pp. 461-465. 80. Mann, G. and Yarowsky, D. (2003). Unsupervised personal name disambiguation. In Proceedings of Seventh Conference on Natural Language Learning, pp.33–40. 81. Malin. B. (2005). Unsupervised name disambiguation via social network similarity. In Proc. of SIAM Worksop on Link Analysis, Counterterrorism, and Security, pp.93- 102. 82. Mayfield, J., Alexander, D., Dorr, B., Eisner, J., Elsayed, T., Finin, T., Fink, C., Freedman, M., Garera, N., McNamee, P., Mohammad, S., Oard, D., Piatko, C., Sayeed, A., Syed, Z., and Weischedel, R. (2009). Cross-Document Coreference Reso- 146 Tài liệu tham khảo lution: A Key Technology for Learning by Reading. In Proc. of the AAAI 2009 Spring Symposium on Learning by Reading and Learning to Read. 83. Matuszek, C., Cabral, J., Witbrock, M., and DeOliveira, J. (2006). An Introduction to the Syntax and Content of Cyc. In Proc. of the 2006 AAAI Spring Symposium on Formalizing and Compiling Background Knowledge and Its Applications to Know- ledge Representation and Question Answering. 84. Mikheev, A., Moens, M., and Grover, C. (1999). Named entity recognition without gazetteers. In Proc. of the Ninth Conference of the European Chapter of the Associa- tion for Computational Linguistics (EACL 1999), pp.1–8. 85. Mikheev, A., Grover, C., and Moens, M. (1998). Description of the ltg system used for MUC-7. In Proc. of 7th Message Understanding Conference (MUC-7). 86. Miller, G.A. 1995. WordNet: A lexical database for English. Communications of the ACM, 38:39–41. 87. Mihalcea, R. (2007). Using Wikipedia for automatic word sense disambiguation. In Proc. of Human Language Technologies: The Annual Conference of the North Amer- ican Chapter of the Association for Computational Linguistics (HLT/NAACL 2007), pp. 196–203. 88. Mihalcea, R. and Csomai, A. (2007). Wikify!: linking documents to encyclopedic knowledge. In Proc. of the 16th ACM Conference on Information and Knowledge management (CIKM 2007), pp. 233-242. 89. Milne, D. and Witten, I.H. (2008). Learning to link with Wikipedia. In Proc. of the 17th ACM Conference on Information and Knowledge Management (CIKM 2008), pp. 509-518. 90. Milne, D., Medelyan, O., and Witten, I. H. (2006). Mining domain-specific thesauri from Wikipedia: A case study. In Proc. of the International Conference on Web Intel- ligence (IEEE/WIC/ACM WI 2006), pp. 442-448. 91. Mihalcea, R. (2007). Using Wikipedia for automatic word sense disambiguation. In Proc. of Human Language Technologies: The Annual Conference of the North Amer- ican Chapter of the Association for Computational Linguistics (HLT/NAACL 2007). Tài liệu tham khảo 147 92. Medelyan, O., Milne, D., Legg, C., and Witten, I.H. (2009). Mining meaning from Wikipedia. International Journal of Human-Computer Studies, 67(9):716-754. 93. Medelyan, O., Witten, I.H., and Milne, D. (2008). Topic indexing with Wikipedia. In Proc. of WIKIAI'2008. 94. MUC-6. 1995. Proc. of the 6th Message Understanding Conference (MUC-6). Mor- gan Kaufmann, San Francisco, CA. 95. Navigli, R. 2009. Word sense disambiguation: A Survey. ACM Computing Surveys, 41(2):1-69. 96. Nadeau, D. and Sekine, S. (2007.) A survey of named entity recognition and classifi- cation. Journal of Linguisticae Investigationes, 30(1):3–26. 97. Nadeau. (2007). Semi-supervised named entity recognition. PhD’s thesis, Ottawa- Carleton Institute for Computer Science, Ottawa, CA. 98. Nature. (2006). Encyclopedia Britainnica and Nature: a respone. Open letter, March 2006. 99. Noy, N.F. and McGuinness, D.L. (2001). Ontology development 101: A guide to creating your first ontology. Technical Report KSL-01-05, Stanford Knowledge Sys- tems Laboratory. Available at: mcguinness.html 100. Ng, V. and Cardie, C. (2002). Improving machine learning approaches to coreference resolution. In Proceedings of the 40th Annual Meeting of the Association for Compu- tational Linguistics (ACL 2002), pp.104-111. 101. Nguyen, H.T. and Cao, T.H. (2010b). Enriching ontologies for named entity disam- biguation. In Proc. of The Fourth International Conference on Advances in Semantic Processing (SEMAPRO 2010), IARIA, pp. 37-42. 102. Nguyễn Thanh Hiên và Cao Hoàng Trụ (2010). Một phương pháp dựa trên Wikipedia để phân giải nhập nhằng thực thể có tên. Chuyên san các công trình nghiên cứu, phát 148 Tài liệu tham khảo triển và ứng dụng CNTT-TT, Tạp chí công nghệ thông tin và truyền thông, Tập V-1, Số 3(23):16-28. 103. Nguyen, H.T. and Cao, T.H. (2010a). Exploring Wikipedia and text features for named entity disambiguation. In Proc. of the 2nd Asian Conference on Intelligent In- formation and Database Systems (ACIIDS 2010); Lecture Notes in Computer Science (LNCS), vol. 5991, Springer-Verlag, pp. 11–20. 104. Nguyen, H.T. and Cao, T.H. (2008b). Named entity disambiguation: A hybrid statis- tical and rule-based incremental approach. In Proc.of 3rd Asian Semantic Web Confe- rence (ASWC 2008); LNCS, vol. 5367, Springer-Verlag, pp. 420-433. 105. Nguyen, H.T. and Cao, T.H. (2008a). Named entity disambiguation on an ontology enriched by Wikipedia. In Proc. of the 6th IEEE International Conference on Re- search, Innovation and Vision for the Future (RIVF 2008), pp. 247-254. 106. Nguyễn Thanh Hiên và Cao Hoàng Trụ (2008). Một tiếp cận phân giải đồng tham chiếu và nhập nhằng thực thể trong các văn bản tiếng Việt. Chuyên san các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT, Tạp chí công nghệ thông tin và truyền thông, Số 19:74-83. 107. Nguyen, H.T. and Cao, T.H. (2007b). A knowledge-based approach to named entity disambiguation in news articles. In Proc. of 20th Australian Joint Conference on Ar- tificial Intelligence (AI 2007); LNCS (LNAI), vol. 4830, Springer-Verlag, pp. 619– 624. 108. Nguyen, H.T. and Cao, T.H. (2007a). A knowledge-based method to resolve name ambiguity in Vietnamese texts. In Addendum Contributions of the 5th International Conference on Research, Innovation and Vision for the Future (RIVF 2007), Studia Informatica Universalis, pp. 83-88. 109. Nguyễn Thanh Hiên (2005). Phân giải sự đồng tham chiếu các thực thể có tên tiếng Việt. Luận văn thạc sĩ, Khoa Khoa học và Kỹ thuật máy tính, Đại học Bách Khoa Tp. HCM, Việt Nam. Tài liệu tham khảo 149 110. Nguyen, V.T.T. and Cao, T.H. (2007). VN-KIM IE: Automatic extraction of Viet- namese named-entities on the Web. Journal of New Generation Computing, 25(3):277-292. 111. NIST 2008. (2008). ACE 2008 Evaluation Plan. /speech/ tests/ace/2008 /doc/ace08-evalplan.v1.1.pdf 112. Niu, C., Li, W., and Srihari, R.K. (2004). Weakly supervised learning for cross- document person name disambiguation supported by information extraction. In Proc. of the 42nd Annual Meeting of the Association for Computational Linguistics (ACL 2004). 113. Overell, S. and Rüger, S. (2008). Using co-occurrence models for placename disam- biguation. International Journal of Geographical Information Science, 22(3):265- 287. 114. Overell, S. and Rüger, S. (2006). Identifying and grounding descriptions of places. In Ross Purves and Chris Jones (Eds.), Third Workshop on Geographic Information Re- trieval held at SIGIR 2006, ACM Press. 115. Overell, S. (2009). Geographic Information Retrieval: Classification, Disambigua- tion and Modelling. PhD’s Thesis, Department of Computing, Imperial College Lon- don. 116. Ohta, T., Tateisi, Y., Kim, J., Mima, H., and Tsujii, J. (2002). The GENIA corpus: An annotated research abstract corpus in molecular biology domain. In Proc. of the Second International Conference on Human Language Technology Research, pp. 82- 86. 117. Pedersen, T., Purandare, A., and Kulkarni, A. (2005). Name discrimination by clus- tering similar contexts. In Proc. of the Sixth International Conference on Intelligent Text Processing and Computational Linguistics, pp. 226-237. 118. Pedersen, T. and Kulkarni, A. (2006). Automatic cluster stopping with criterion func- tions and the gap statistic. In Proc. of Human Language Technologies: The Annual Conference of the North American Chapter of the Association for Computational Linguistics (HLT/NAACL 2006), pp. 276-279. 150 Tài liệu tham khảo 119. Pilz, A., Molzberger, L., and Paa, G. (2009). Entity resolution by kernel methods. In Proc. Sabre TMS 2009, pp. 15-22. 120. Pouliquen, B., Steinberger, R., Ignat, C., and Groeve, T. (2004). Geographical infor- mation recognition and visualization in texts written in various languages. In Proc. of the 2004 ACM Symposium on Applied Computing, pp.1051–1058. 121. Rauch, E., Bukatin, M., and Baker, K. (2003). A confidence-based framework for disambiguating geographic terms. In Proc. of HLTNAACL 2003 Workshop: Analysis of Geographic References, pp. 50–54. 122. Riloff, E. and Jones, R. (1999). Learning dictionaries for information extraction by multi-level bootstrapping. In Proc. of the Sixteenth National Conference on Artificial Intelligence (AAAI 1999), pp. 474-479. 123. Sarmento, L., Kehlenbeck, A., Oliveira, E., and Ungar, L. (2009). An approach to web-scale named-entity disambiguation. In Proc. of Conference MLDM 2009; LNAI 5632, Springer-Verlag, pp.689-703. 124. Salton, G., Wong, A., and Yang, C. S. (1975). A Vector Space Model for automatic indexing. Communications of the ACM, 18(11): 613–620. 125. Sarawagi, S. 2008. Information extraction. FnT Databases, 1(3):261-377. 126. Schockaert, S., De Cock, M., Cornelis, C., and Kerre, E. (2007). Clustering web search results using fuzzy ants. International Journal of Intelligent Systems, 22(5):455-474. 127. Schilder, F., Versley, Y., and Habel, C. (2004). Extracting spatial information: groun- ding, classifying and linking spatial expressions. In Workshop on Geographic Infor- mation Retrieval held at the Twenty-Seventh Annual International ACM SIGIR Con- ference on Research and Development in Information Retrieval. 128. Syed, Z., Finin, T., and Joshi, A. (2008). Wikipedia as an ontology for describing documents. In Proc. of the Second International Conference on Weblogs and Social Media, AAAI Press. 129. Smith, D. and Mann, G. (2003). Bootstrapping toponym classifiers. In Proc. of HLT- NAACL 2003 Workshop on Analysis of Geographic References, pp. 45–49. Tài liệu tham khảo 151 130. Smith, D. and Crane G. (2001). Disambiguating geographic names in a historical digital library. In Research and Advanced Technology for Digital Libraries: Fifth Eu- ropean Conference (ECDL 2001), pp. 127–136. 131. Soon, W.M., Ng, H.T., and Lim, C.Y. (2001). A machine learning approach to core- ference resolution of noun phrases. Computational Linguistics, 27(4):521-544. 132. Suchanek, F. M., Kasneci, G., and Weikum, G. (2007). Yago - A Core of semantic knowledge. In Proc. of 16th World Wide Web Conference, pp. 697-706. 133. Sundheim, B.M. (1991). Overview of the third message understanding evaluation and conference. In Proc. of the Third Message Understanding Conference, pp. 3–16. 134. Tjong Kim Sang, E.F. (2002). Introduction to the CoNLL-2002 shared task: Lan- guage-independent named entity recognition. In Proc. of Sixth Conference on Natural Language Learning (CoNLL-2002), pp.155-158. 135. Tjong Kim Sang, E.F. and De Meulder, F. (2003). Introduction to the CoNLL-2003 shared task: Languageindependent named entity recognition. In Proc. of Seventh Con- ference on Natural Language Learning (CoNLL-2003), pp. 142–147. 136. Terziev, I., Kiryakov, A., and Mano, D. (2005). Base upper-level ontology (bulo) guidance. Technical Report Deliverable 1.8.1, SEKT project, UK. 137. Tri, T.Q., Thao, P.T.X., Hung, N.Q., Dien, D., and Nigel, C. (2007). NER in Viet- namese documents. Progress in Informatics, No.4, pp 5-13. 138. van Rijsbergen, C. (1979). Information Retrieval. Butterworths. London. 139. Vilain, M., Burger, J., Aberdeen, J., Connolly, D., and Hirschman, L. (1995). A Mod- el-theoretic coreference scoring scheme. In Proc. of Fourth Message Understanding Conference (MUC-4). 140. Volz, R., Kleb, J., and Müller, W. (2007). Towards ontology based disambiguation of geographical identifers. Workshop on Identity, Identifers, Identifcations (I3), 16th In- ternational World Wide Web Conference (WWW 2007). 141. Vu, Q.M., Masada, T., Takasu, A., and Adachi, J. (2007). Personal name disambigua- tion in web search using knowledge base. DBSJ Letters, 5(4):53-56. 152 Tài liệu tham khảo 142. Wacholder, N., Ravin, Y., and Choi, M. (1997). Disambiguation of proper names in text. In Proc. of 5th Applied Natural Language Processing Conference (ANLP 1997), pp. 202–208. 143. Waters, N. (2007). Why you can’t cite Wikipedia in my class. Communication of ACM, 50(9):15-17. 144. Weaver, G., Strickland, B., and Crane, G. (2006). Quantifying the accuracy of rela- tional statements in Wikipedia: a methodology. In Proc. of the 6th ACM/IEEE-CS Joint Conference on Digital libraries (JCDL 2006), pp 358-358. 145. Winkler, W.E. (2006). Overview of Record Linkage and Current Research Direc- tions. Technical Report Statistical Research Report Series RRS2006/02, US Bureau of the Census, Washington, D.C. 146. Wikimedia. (2009). Statistics. truy cập ngày 06 tháng 11 năm 2009. 147. Yang, X., Zhou, G.D., Su, J., and Tan, C.L. (2003). Coreference resolution using competition learning approach. In Proc. of the 41st Annual Meeting of the Association for Computational Linguistics (ACL 2003), pp. 176-183. 148. Young, J. (2006). Wikipedia founder discourages academic use of his creation. The Chronical of Higher Education: The Wired Campus, June 2006. Available at 149. Zhou, G.D. and Su, J. (2004). A high-performance coreference resolution system us- ing a constraint-based multi-agent strategy. In Proc. of the 42nd Annual Meeting of the Association for Computational Linguistics (ACL 2004). 150. Zong, W., Wu, D., Sun, A., Lim, E-P., and Goh, D.H. (2005). On assigning place names to geography related web pages. In Proc. of the 5th ACM/IEEE-CS Joint Con- ference on Digital libraries (JCDL 2005), pp. 354-362. 151. Zesch, T., Gurevych, I., and Mühlhäuser, M. (2007). Analyzing and Accessing Wiki- pedia as a Lexical Semantic Resource. In Georg Rehm and Andreas Witt and Lothar Lemnitzer (Ed.) Data Structures for Linguistic Resources and Applications. pp. 197- 205.

Các file đính kèm theo tài liệu này:

Luận án tiến sĩ kỹ thuật - Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở.pdf