Thực thể có tên là những thực thể có thể được tham khảo đến bằng tên riêng, như con
người, tổ chức, hoặc nơi chốn. Phân giải nhập nhằng thực thể có tên là nhằm ánh xạ mỗi
tên trong một văn bản vào một thực thể trong một nguồn tri thức cho trước. Nổi lên gần
đây như là một bài toán đầy thách thức, nhưng có nhiều ý nghĩa trong việc hiện thực hóa
Web có ngữ nghĩa, cũng như phát triển nâng cao các ứng dụng xử lý ngôn ngữ tự nhiên,
phân giải nhập nhằng thực thể có tên đã thu hút sự quan tâm của nhiều nhóm nghiên cứu
khắp thế giới. Luận án đề xuất ba phương pháp cho bài toán này, trong đó nghiên cứu sâu
ba yếu tố quan trọng ảnh hưởng đến hiệu quả phân giải nhập nhằng là các nguồn tri thức sử
dụng, đặc trưng biểu diễn thực thể, và mô hình phân giải nhập nhằng.
Các nguồn tri thức được khai thác là các ontology đóng và Wikipedia. Các ontology
đóng được xây dựng bởi các chuyên gia theo hướng tiếp cận từ trên xuống, với các khái
niệm có quan hệ thứ bậc dựa trên một tập từ vựng có kiểm soát và các ràng buộc chặt chẽ.
Wikipedia, xem như một ontology mở, được xây dựng bởi những người tình nguyện theo
hướng tiếp cận từ dưới lên, với các khái niệm được hình thành từ một tập từ vựng tự do và
các thoả thuận mang tính cộng đồng. Các đặc trưng được nghiên cứu là tên của các thực
thể đồng xuất hiện, định danh của các thực thể đã được xác định, và các từ cùng với các
cụm từ xuất hiện xung quanh tên đang được xem xét và xung quanh các tên là đồng tham
chiếu với tên đó trong văn bản. Ngoài ra luận án cũng khai thác vị trí xuất hiện, chiều dài
của các tên, và tên thường dùng của các thực thể. Luận án đề xuất ba mô hình phân giải
nhập nhằng tương ứng với ba phương pháp nói trên là: (i) mô hình dựa trên heuristic; (ii)
mô hình dựa trên thống kê; và (iii) mô hình lai - kết hợp heuristic và thống kê.
164 trang |
Chia sẻ: lvcdongnoi | Lượt xem: 2642 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Luận án Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
huật chọn ngẫu nhiên một ứng viên, và ánh xạ n vào ứng
viên đó. Kết quả ánh xạ ngẫu nhiên sẽ được so sánh với kết quả ánh xạ của phương pháp
WIN trong Bảng 5.3 bên dưới. Các công trình của Mihalcea và Csoma (2007), Medelyan
và CS (2008), Milne và Witten (2008) cũng so sánh các kết quả phân giải nhập nhằng của
các tác giả đó với các kết quả ánh xạ ngẫu nhiên.
Chúng tôi tiến hành đánh giá phương pháp WIN trong điều kiện không có nhiễu ở đầu
vào, tức là thực thi Giải thuật 5.1 trên tập dữ liệu De32; và trong điều kiện có nhiễu ở đầu
vào, tức là thực thi Giải thuật 5.1 trên tập dữ liệu De31. Để đánh giá hiệu quả của mỗi giai
đoạn, chúng tôi thực thi Giải thuật 5.1 theo ba cách sau:
• Cách 1. Chỉ áp dụng các heuristic, tức là chỉ thực thi các dòng từ 1 đến 19 của Giải
thuật 5.1 (không thực thi các dòng từ 20 đến 31);
128 Chương 5. Phân giải nhập nhằng dựa trên Wikipedia
• Cách 2. Chỉ áp dụng mô hình thống kê, thực thi Giải thuật 4.2 với đầu vào E là tập
rỗng, tương đương với thực thi dòng 1, 2 và 20 đến 31 của Giải thuật 5.1 (không
thực thi các dòng từ 3 đến 19);
• Cách 3. Kết hợp các heuristic và một mô hình thống kê, nghĩa là thực thi toàn bộ
Giải thuật 5.1.
Bảng 5.3: Độ chính xác và độ đầy đủ ánh xạ sau khi thực thi Giải thuật 5.1 trên tập dữ liệu
De32
Con người Nơi chốn Tổ chức Tất cả
Tall 866 665 330 1.861
Ngẫu
nhiên
TR 866 665 330 1.861
TC 456 255 184 895
TI 410 410 146 966
MP=MR=MF 52,65% 38,34% 55,75% 48,09%
Heuristic
TR 756 616 212 1.584
TC 737 598 199 1.534
TI 110 49 118 277
MP 97,48% 97,07% 93,42% 96,78%
MR 85,10% 89,92% 60,30% 82,42%
MF 90,87% 93,36% 73,43% 89,05%
Thống kê
TR 866 665 330 1.861
TC 779 438 274 1.491
TI 87 227 56 370
MP=MR=MF 89,95% 65,86% 83,03% 80,11%
Kết hợp
heuristic
và
thống kê
TR 866 665 330 1.861
TC 817 626 288 1.731
TI 48 37 36 121
MP =MR=MF 95,38% 92,78% 87,27% 93,01%
Bảng 5.3 trình bày các kết quả thí nghiệm trên cùng tập dữ liệu De32. Bởi vì De32 là tập
De31 đã được sửa lỗi, do đó Tp nhận giá trị bằng 0 và không được thể hiện trong bảng dữ
5.3.Thí nghiệm và đánh giá 129
liệu. Số liệu cho thấy phương pháp chọn ngẫu nhiên cho kết quả thấp với độ F ánh xạ đạt
48,09%. Với tập dữ liệu không có nhiễu De32, phương pháp cơ bản, Giải thuật 5.1 thực thi
theo cách 2, và Giải thuật 5.1 thực thi theo cách 3 cho kết quả được trình bày trong các
dòng “Ngẫu nhiên”, “Thống kê” và “Kết hợp heuristic và thống kê” trong Bảng 5.3. Kết
quả cho thấy các phương pháp có độ chính xác, độ đầy đủ và độ F ánh xạ bằng nhau là vì
tổng số ánh xạ thực hiện bởi phương pháp bằng với tổng số ánh xạ chuẩn vàng.
Kết quả thực thi các heuristic cho độ chính xác cao, chứng tỏ các heuristic được đề
xuất có độ tin cậy cao. Độ chính xác, độ đầy đủ và độ F ánh xạ khác nhau đối với trường
hợp chỉ thực thi các heuristic là vì nhiều trường hợp phương pháp không thực hiện ánh xạ.
Có việc không thực hiện ánh xạ cho một số tên là vì, như chúng tôi đã trình bày ở Phần
5.2, các heuristic cần bảo đảm độ chính xác cao, nên chắc thì mới ánh xạ. Độ đầy đủ ánh
xạ sau khi áp dụng các heuristic đạt 82,42% cho thấy số trường hợp nhập nhằng còn lại sau
Giai đoạn 1 là không nhiều. Hơn nữa, độ chính xác ánh xạ là khá cao (96.78%) cho tất cả
các lớp. Điều đó cho thấy định danh của các thực thể đã được xác định, làm đầu vào cho
Giai đoạn 2 của Giải thuật 5.1, có độ tin cậy cao. Phương pháp thống kê của chúng tôi
cũng cho kết quả khá tốt, với độ F ánh xạ đạt 80,11%. Kết quả kết hợp giữa các heuristic
và mô hình thống kê cho kết quả tốt nhất với độ F ánh xạ đạt 93,01%.
Bảng 5.4: Độ chính xác và độ đầy đủ ánh xạ sau khi thực thi Giải thuật 5.1 trên tập dữ liệu
De31
Con người Nơi chốn Tổ chức Tất cả
Tall 866 665 330 1.861
TR 784 625 297 1.716
TC 604 550 217 1.371
TP 15 0 0 15
TI 175 75 80 330
MP 76,58% 88,00% 73,06% 80,12%
MR 70,85% 82,70% 66,97% 74,43%
MF 73,60% 85,26% 69,88% 77,17%
130 Chương 5. Phân giải nhập nhằng dựa trên Wikipedia
Bảng 5.4 trình bày các kết quả thí nghiệm khi chúng tôi thực thi Giải thuật 5.1 trên tập
dữ liệu De31. Kết quả độ F ánh xạ đạt được là 77.17%, thấp hơn so với khi thực thi Giải
thuật 5.1 trên tập dữ liệu De32. Điều đó cho thấy nhiễu từ phần tiền xử lý có tác động lớn
đến hiệu quả phân giải nhập nhằng. Số liệu trong dòng cuối cùng của Bảng 5.3 và Bảng 5.4
cho thấy phần tiền xử lý tạo ra lỗi tập trung chủ yếu vào các thực thể là con người (độ F
ánh xạ là 95.08% trong Bảng 5.3 so với 73.60% trong Bảng 5.4) và các tổ chức (độ F ánh
xạ là 87.27% trong Bảng 5.3 so với 69.88% trong bảng 5.4).
So với các phương pháp phân giải nhập nhằng dựa trên Wikipedia, tập dữ liệu chúng
tôi sử dụng gồm 40 tài liệu chứa 1.861 thực thể có tên với 1115 trường hợp nhập nhằng,
chỉ nhỏ hơn so với tập dữ liệu của Kulkarni và CS (2009) và Overell (2009) về số lượng
thực thể. Tập dữ liệu của Kulkarni và CS (2009) gồm 119 tài liệu chứa 19.000 từ khóa.
Tuy nhiên, Kulkarni và CS (2009) không cho biết trong số đó có bao nhiêu tên riêng. Tập
dữ liệu của Overell (2009) gồm 477 tài liệu chứa 2150 vùng địa lý với 808 trường hợp
nhập nhằng. Nếu chỉ tính các trường hợp nhập nhằng thì tập dữ liệu của Overell (2009)
chứa số trường hợp nhập nhằng nhỏ hơn so với số trường hợp nhập nhằng trong tập dữ liệu
của chúng tôi (808 so với 1115). Cucerzan (2007) thí nghiệm trên tập dữ liệu gồm 20 tài
liệu chứa 756 thực thể có tên. Hassell và CS (2006) thí nghiệm trên tập dữ liệu gồm 20 tài
liệu chứa 758 thực thể có tên. Milne và Witten (2008) thí nghiệm trên tập tài liệu gồm 50
tài liệu chứa 449 từ khóa cần phân giải nhập nhằng.
5.4 Kết luận
Chương này trình bày phương pháp phân giải nhập nhằng thứ ba trong luận án này. Đây là
một phương pháp lai, lặp cải thiện dần, gồm hai giai đoạn, một giai đoạn áp dụng các heu-
ristic, và một giai đoạn triển khai một mô hình thống kê để phân giải nhập nhằng. Các heu-
ristic dựa trên sự xuất hiện của phần văn bản phân giải nhập nhằng trong nhan đề của các
ứng viên xung quanh tên đang xét. Vị trí xuất hiện các tên, và quan hệ đồng tham chiếu
giữa các tên cũng được khai thác. Với các tên chỉ được sử dụng để đề cập đến các thực thể
thuộc lớp nơi chốn hoặc lớp con của lớp nơi chốn, một thực thể mặc định sẽ được thiết lập
cho tên đó. Trong giai đoạn thứ hai chúng tôi áp dụng mô hình phân hạng dựa trên thống
kê để phân giải nhập nhằng cho các trường hợp còn lại sau giai đoạn áp dụng các heuristic.
Các đặc trưng trong văn bản được rút trích để biểu diễn mỗi tên là các từ xuất hiện xung
5.4.Kết luận 131
quanh nó, các từ xuất hiện xung quanh các tên đồng tham chiếu với nó, tên của các thực
thể chưa được xác định trong văn bản, và định danh của các thực thể đã được xác định
trong văn bản. Ngoài ra vị trí xuất hiện của các tên cũng được xem xét trong giai đoạn này.
Các đặc trưng rút trích để biểu diễn mỗi thực thể trong Wikipedia bao gồm nhan đề của
trang thực thể, các nhan đề đổi hướng, nhãn các thể loại, nhãn của các liên kết ra trong
trang thực thể tương ứng.
Chúng tôi tiến hành thí nghiệm và đánh giá hiệu quả của phương pháp dựa trên hai
tập dữ liệu là một tập dữ liệu có nhiễu, và một tập dữ liệu đã khử nhiễu thủ công. Chúng
tôi đánh giá phương pháp WIN theo hai cách. Cách thứ nhất, thực hiện trên tập dữ liệu có
nhiễu ở đầu vào, do lỗi tích lũy từ phần tiền xử lý. Cách thứ hai, thực hiện trên tập dữ liệu
không có nhiễu. Độ F ánh xạ đạt được lần lượt trên hai tập dữ liệu này là 77,17% và
93,01%.
132
Chương 6
TỔNG KẾT
6.1 Tóm tắt
Mục tiêu của luận án này là giải quyết bài toán phân giải nhập nhằng thực thể có tên, nhằm
xác định đúng thực thể trong một nguồn tri thức mà một tên trong một văn bản đề cập.
Thách thức của bài toán là trong thực tế một tên có thể được dùng để đề cập đến nhiều thực
thể khác nhau trong các ngữ cảnh khác nhau, mỗi thực thể đó được gọi là một ứng viên, và
mỗi thực thể có thể có nhiều tên gọi khác nhau. Một phương pháp phân giải nhập nhằng
bao gồm việc thực hiện ba bước chính theo trình tự liệt kê như sau: xác định các cụm từ
trong một văn bản là tên của các thực thể, rút trích các đặc trưng của chúng, và ánh xạ mỗi
tên trong số đó vào đúng thực thể trong một nguồn tri thức mà nó đề cập đến.
Trước khi đề xuất các phương pháp phân giải nhập nhằng chúng tôi cũng đã phân tích
cấu trúc của một văn bản tập trung vào lĩnh vực tin tức, cách thức mà tác giả văn bản đặt
các tên vào văn bản sao cho không tạo ra hiểu nhầm cho người đọc, và cách thức một
người nào đó đọc hiểu một văn bản. Thông thường, các thực thể đồng xuất hiện và các từ
xuất hiện xung quanh tên đang được xem xét là cơ sở để chọn lựa ứng viên phù hợp. Khi
bắt gặp một khái niệm nhập nhằng, một người nào đó sẽ dựa vào ngữ cảnh xung quanh,
các thực thể xuất hiện trước đó, và vốn hiểu biết của mình để xác định đúng đối tượng
được đề cập đến. Từ những quan sát đó, chúng tôi đề xuất các heuristic và khai thác các
đặc trưng tương ứng để phân giải nhập nhằng.
Sau đây chúng tôi trình bày tóm tắt mô hình phân giải nhập nhằng lặp cải thiện dần,
các nguồn tri thức về thực thể, và các đặc trưng để biểu diễn thực thể mà luận án đề xuất.
6.1.Tóm tắt 133
Mô hình phân giải nhập nhằng
Luận án đề xuất phương pháp luận phân giải nhập nhằng theo cách lặp cải thiện dần.
Ý tưởng lặp cải thiện dần là điểm mới nổi bật của luận án. Khởi đầu từ tập các hạt giống
(tập này có thể rỗng), các thực thể khác sẽ được xác định dựa trên các hạt giống đó. Quá
trình phân giải nhập nhằng lặp cải thiện dần, bao gồm một số bước lặp. Tại mỗi bước lặp,
với một tên cần phân giải nhập nhằng, các ứng viên sẽ được phân hạng dựa vào ngữ cảnh
xuất hiện của nó. Các thực thể sau khi đã được xác định tại mỗi bước lặp sẽ được bổ sung
vào tập các hạt giống và tham gia vào việc xác định các thực thể trong các bước lặp tiếp
theo. Cứ thế quá trình phân giải nhập nhằng diễn tiến lặp đi lặp lại cho đến khi nào các
thực thể được đề cập đến trong văn bản đã được xác định hết hoặc giữa hai bước lặp không
có thêm thực thể nào mới được xác định.
Dựa trên phương pháp luận này, chúng tôi đề xuất ba phương pháp phân giải nhập
nhằng là OntoNEON (Chương 3), NOW (Chương 4) và WIN (Chương 5). Chúng tôi cũng
đề xuất hai mô hình phân hạng các ứng viên là phân hạng các ứng viên dựa trên mối quan
hệ ngữ nghĩa giữa các thực thể (Phần 3.2) và phân hạng các ứng viên dựa trên thống kê
(Phần 4.2).
Mô hình phân hạng các ứng viên dựa trên mối quan hệ ngữ nghĩa giữa các thực thể đã
được xác định trong văn bản với ứng viên đang xét, và ứng viên có nhiều mối quan hệ nhất
với các thực thể xung quanh sẽ được chọn. Mô hình phân hạng dựa trên thống kê biểu diễn
các thực thể trong một không gian véctơ dựa trên các đặc trưng của các thực thể. Với một
tên cần phân giải nhập nhằng, độ tương tự giữa véctơ đặc trưng của nó và mỗi vectơ đặc
trưng của mỗi ứng viên sẽ được tính toán sử dụng cosine của góc giữa hai véctơ. Ứng viên
có độ tương tự cao nhất sẽ được chọn.
Các mô hình phân hạng ứng viên được thể hiện trong ba phương pháp phân giải nhập
nhằng. Mô hình phân hạng các ứng viên dựa trên mối quan hệ ngữ nghĩa giữa các thực thể
được triển khai trong phương pháp OntoNEON. Mô hình phân hạng dựa trên thống kê
được triển khai trong NOW và WIN. Chúng tôi cũng đề xuất các heuristic hoàn toàn mới
so với các nghiên cứu trước về bài toán phân giải nhập nhằng thực thể có tên là các heuris-
tic H1, H2, H3, H5, và H6.
Phương pháp OntoNEON dựa vào các heuristic để phân giải nhập nhằng. Phương
pháp này triển khai mô hình phân hạng các ứng viên dựa trên mối quan hệ ngữ nghĩa của
mỗi ứng viên với các thực thể đã được xác định trong ngữ cảnh của nó. Bên cạnh đó, mối
134 Chương 6.Tổng kết
quan hệ đồng tham chiếu giữa các tên và mức độ phổ biến của các thực thể cũng được On-
toNEON khai thác để phân giải nhập nhằng.
Phương pháp NOW tiến hành làm giàu thông tin mô tả về các thực thể trong một on-
tology đóng bằng các đặc trưng của chính các thực thể đó được rút trích từ Wikipedia. Mô
hình phân hạng ứng viên dựa trên thống kê sau đó được triển khai để phân hạng các ứng
viên sử dụng ontology đã được làm giàu. Để đánh giá sự tác động của các đặc trưng trên
văn bản và Wikipedia vào hiệu quả phân giải nhập nhằng và chọn lựa các đặc trưng tốt
nhất cho việc phân giải nhập nhằng, chúng tôi cũng khai phá các đặc trưng bằng cách kết
hợp chúng theo một số cách khác nhau.
Phương pháp WIN là một phương pháp lai, gồm hai giai đoạn, kết hợp việc áp dụng
một số heuristic và một mô hình thống kê để phân giải nhập nhằng. Các heuristic được áp
dụng để thu giảm các ứng viên và chọn ứng viên phù hợp nếu có thể. Trong giai đoạn áp
dụng các heuristic, các trường hợp nếu được phân giải nhập nhằng phải bảo đảm đạt độ tin
cậy cao. Các trường hợp còn lại sau giai đoạn áp dụng các heuristic sẽ được phân giải nhập
nhằng bằng một mô hình thống kê.
Luận án cũng đề xuất các độ đo mới để đánh giá hiệu quả của các phương pháp phân
giải nhập nhằng, phù hợp cho các trường hợp khi mà các tên trong các văn bản được nhận
ra bán phần, và các thực thể được đề cập đến trong văn bản có thể không được mô tả trong
nguồn tri thức sử dụng. Các độ đo mới này sẽ thu giảm về các độ đo chuẩn khi trong tập dữ
liệu thí nghiệm không có tên nào được nhận ra bán phần.
Nguồn tri thức
Chúng tôi khai thác các ontology “đóng”, đại diện cho các ontology do một nhóm nhỏ
các chuyên gia xây dựng, và Wikipedia, được xem là một ontology “mở”, do chính cộng
đồng người sử dụng xây dựng. Nội dung thông tin trên các ontology đóng có chất lượng
cao, tuy nhiên kích thước của các ontology nhỏ, mức độ cập nhật chậm, và có giới hạn về
mức độ bao phủ các chủ đề thông tin. Trong khi đó Wikipedia có kích thước lớn, là từ điển
bách khoa trực tuyến lớn nhất hiện nay, không giới hạn về chủ đề thông tin, tốc độ phát
triển rất nhanh, và nội dung thông tin có độ tin cậy cao (Giles, 2005).
Số lượng tính chất của các thực thể được định nghĩa trong một ontology đóng là không
nhiều, trong khi số tính chất của các thực thể trong thực tế thì rất đa dạng. Do đó nhiều tính
chất của một thực thể có thể không được mô tả trong một ontology đóng. Hơn nữa, ngay cả
6.2. Hướng nghiên cứu mở rộng 135
các tính chất của một thực thể được định nghĩa bởi ontology đóng cũng chưa chắc đã được
điền đầy đủ thông tin, cho nên chúng tôi sử dụng Wikipedia để làm giàu thông tin mô tả về
các thực thể trong một ontology đóng, nhằm mở rộng biểu diễn của các thực thể, và bổ
khuyết các thông tin còn thiếu của các thực thể đó.
Các ontology đóng và Wikipedia được khai thác để phát triển một mô hình phân hạng
các ứng viên dựa vào mối quan hệ ngữ nghĩa với các thực thể xung quanh, và một mô hình
phân hạng các ứng viên dựa trên thống kê như đã trình bày ở trên, để thực hiện việc phân
giải nhập nhằng. Trong các phương pháp phân giải nhập nhằng mà luận án đề xuất, các
nguồn tri thức được khai thác đóng vai trò vừa là nguồn cung cấp các đặc trưng của các
thực thể có tên, vừa là đích đến của các ánh xạ.
Các đặc trưng
Luận án này khai thác nhiều đặc trưng khác nhau, bao gồm các đặc trưng trích từ các
văn bản, và các đặc trưng trích từ các nguồn tri thức sử dụng. Đối với các nguồn tri thức,
các đặc trưng được trích dựa trên các tính chất của các thực thể, bao gồm các thuộc tính và
các mối quan hệ. Các đặc trưng được khai thác để biểu diễn các tên trong văn bản là định
danh và tên của các thực thể đồng xuất hiện, các từ cùng với các cụm từ xuất hiện xung
quanh tên đang được xem xét và các tên đồng tham chiếu với tên đang được xem xét.
Ngoài ra, vị trí xuất hiện và chiều dài của các tên cũng được chúng tôi khai thác, trong đó
chúng tôi có xem xét một tên có phải là tên thường dùng của một thực thể hay không.
Đối với các đặc trưng trích từ văn bản, ngoại trừ các đặc trưng là tên của các thực thể
đồng xuất hiện và các từ hay các cụm từ xuất hiện xung quanh tên đang được xem xét, các
đặc trưng còn lại được chúng tôi khai thác hoàn toàn mới. Đối với các đặc trưng trích từ
các nguồn tri thức sử dụng, điểm mới của luận án thể hiện ở chỗ đánh giá các kết hợp khác
nhau của các đặc trưng, và thẩm định các kết hợp nào là tốt nhất cho phân giải nhập nhằng
các thực thể có tên.
6.2 Hướng nghiên cứu mở rộng
Từ các nghiên cứu và các kết quả đạt được của luận án này, chúng tôi đề nghị một số vấn
đề và các hướng nghiên cứu tiếp theo như sau:
136 Chương 6.Tổng kết
• Thứ nhất, từ kết quả của phương pháp OntoNEON, mô hình phân hạng các ứng
viên dựa trên mối quan hệ ngữ nghĩa của các ứng viên với các thực thể đã được xác
định trong văn bản có thể được áp dụng cho Wikipedia. Trong đó mối quan hệ ngữ
nghĩa giữa các thực thể được tính toán dựa vào các thông tin trích từ infobox của
các trang thực thể trong Wikipedia.
• Thứ hai, kết quả thí nghiệm trong Chương 3 và Chương 5 cho thấy một số heuristic
đạt độ chính xác cao. Do đó, các heuristic này có thể được sử dụng để tự động xây
dựng một tập huấn luyện. Nghĩa là khởi nguồn từ một tập văn bản thô, các heuristic
được sử dụng để xác định các thực thể trong đó dựa trên một nguồn tri thức để tạo
tập dữ liệu huấn luyện. Sau đó, một mô hình học có giám sát sẽ được triển khai để
học ngữ cảnh xuất hiện các tên và áp dụng mô hình học được cho một văn bản mới.
• Thứ ba, kết quả trong Chương 4 và Chương 5 cho thấy việc mở rộng ngữ cảnh của
các thực thể được đề cập đến trong các văn bản bằng định danh của các thực thể đã
được xác định là có ý nghĩa. Tuy nhiên thông tin của các thực thể đã được xác định
đó không chỉ có định danh, mà còn có nhiều thông tin khác như các tên khác nhau,
các tính chất. Các thông tin này có thể được sử dụng để mở rộng ngữ cảnh phục vụ
việc phân giải nhập nhằng.
137
CÁC CÔNG TRÌNH CỦA TÁC GIẢ
LIÊN QUAN ĐẾN LUẬN ÁN
1. Nguyen, H.T. and Cao, T.H. (2010). Enriching ontologies for named entity
disambiguation. In Proc. of The Fourth International Conference on Advances in
Semantic Processing (SEMAPRO 2010), ISBN: 978-1-61208-000-0, IARIA, pp.
37-42 (Best Paper Award).
2. Nguyễn Thanh Hiên và Cao Hoàng Trụ (2010). Một phương pháp dựa trên
Wikipedia để phân giải nhập nhằng thực thể có tên. Chuyên san các công trình
nghiên cứu, phát triển và ứng dụng CNTT-TT, Tạp chí công nghệ thông tin và
truyền thông, ISSN 0866-7093, Tập V-1, Số 3(23):16-28.
3. Nguyen, H.T. and Cao, T.H. (2010). Exploring Wikipedia and text features for
named entity disambiguation. In Proc. of the 2nd Asian Conference on Intelligent
Information and Database Systems (ACIIDS 2010); Lecture Notes in Computer
Science (LNCS), vol. 5991, ISBN 978-3-642-12100-5, Springer-Verlag, pp. 11-20.
4. Nguyen, H.T. and Cao, T.H. (2008). Named entity disambiguation: A hybrid
statistical and rule-based incremental approach. In Proc. of 3rd Asian Semantic
Web Conference (ASWC 2008); LNCS, vol. 5367, ISBN 978-3-540-89703-3,
Springer-Verlag, pp. 420-433.
5. Nguyen, H.T. and Cao, T.H. (2008). Named entity disambiguation on an ontology
enriched by Wikipedia. In Proc. of the 6th IEEE International Conference on
Research, Innovation and Vision for the Future (RIVF 2008), ISBN 978-1-4244-
2379-8, IEEE Xplore, pp. 247-254.
6. Nguyễn Thanh Hiên và Cao Hoàng Trụ (2008). Một tiếp cận phân giải đồng tham
chiếu và nhập nhằng thực thể trong các văn bản tiếng Việt. Chuyên san các công
trình nghiên cứu, phát triển và ứng dụng CNTT-TT, Tạp chí công nghệ thông tin và
truyền thông, ISSN 0866-7093, Số 19:74-83.
7. Nguyen, H.T. and Cao, T.H. (2007). A knowledge-based approach to named entity
disambiguation in news articles. In Proc. of 20th Australian Joint Conference on
Artificial Intelligence (AI 2007); LNCS (LNAI), vol. 4830, ISBN 978-3-540-76926-
2, Springer-Verlag, pp. 619–624.
8. Nguyen, H.T. and Cao, T.H. (2007). A knowledge-based method to resolve name
ambiguity in Vietnamese texts. In Addendum Contributions of the 5th International
Conference on Research, Innovation and Vision for the Future (RIVF 2007), ISBN
2-912590-4-0, Studia Informatica Universalis, pp. 83-88.
138
TÀI LIỆU THAM KHẢO
1. Aleman-Meza, B., Nagarajan, M., Ramakrishnan, C., Ding, L., Kolari, P., Sheth,
A.P., Arpinar, I.B., Joshi, A., and Finin, T. (2006). Semantic analytics on social net-
works: Experiences in addressing the problem of conflict of interest detection. In
Proc. of 15th International World Wide Web Conference (WWW 2006), pp.407-416.
2. Amitay, E., Har’El, N., Sivan, R., and Soffer, A. (2004). Web-a-Where: Geotagging
Web content. In Proc. of the 27th Annual International ACM SIGIR Conference on
Research and Development in Information Retrieval, pp. 273–280.
3. Andogah, J., Bouma, G., Nerbonne, J., and Koster. E. (2008). Placename ambiguity
resolution. In Proc. of LREC 2008 workshop on Methodologies and Resources for
Processing Spatial Language.
4. Angwin, J. and Fowler, G.A. (2009). Volunteers log off as Wikipedia ages. Wall
Street Journal. (ngày 27
tháng 11 năm 2009).
5. Antoniou, G. and Van Harmelen, V. (2004). A semantic web primer. MIT Press.
6. Artiles, J., Gonzalo, J., and Sekine, S. (2007). The SemEval-2007 WePS evaluation:
Establishing a benchmark for the Web People Search task. In Proc. of the Fourth In-
ternational Workshop on Semantic Evaluations (SemEval-2007), pp.64-69.
7. Artiles, J., Gonzalo, J., and Sekine, S. (2009). WePS 2 evaluation campaign: over-
view of the Web People Search clustering task. In Proc. of 2nd Web People Search
Evaluation Workshop (WePS 2009), in 18th WWW Conference.
8. Auer, S., Bizer, C., Kobilarov, G., Lehmann, C., Richard, C., and Zachary, I. (2007).
DBPedia: A nucleus for a Web of open data. In Proc. of ISWC/ASWC 2007; LNCS,
vol.4825, Springer-Verlag, pp. 722-35.
9. Bizer, C., Lehmann, J., Kobilarov, G., Auer, S., Becker, C., Cyganiak, R., and
Hellman, S. (2009). DBpedia – A Crystallization point for the Web of data. Journal
of Web Semantics: Science, Services and Agents on the World Wide Web, 7(3):154–
165.
Tài liệu tham khảo 139
10. Bagga, A. and Baldwin, B. (1998a). Algorithms for scoring coreference chains. In
The First International Conference on Language Resources and Evaluation Work-
shop on Linguistics Coreference.
11. Bagga, A. and Baldwin, B. (1998b). Entity-based cross-document coreferencing using
the vector space model. In Proc. of the 17th International Conference on Computa-
tional Linguistics, pp.79-85.
12. Baldwin, B. 1997. Cogniac: High precision coreference with limited knowledge and
linguistic resources. In Proc. of the ACL’97/EACL’97 Workshop on Operational Fac-
tors in Practical, Robust Anaphora Resolution, pp. 38–45.
13. Berners-Lee, T., Hendler, J., and Lassila, O. (2001). The Semantic Web. Scientific
American, pp. 34–43.
14. Berners-Lee, T. (1999). Weaving the Web. Harper SanFrancisco, San Francisco, Cali-
fornia.
15. Bekkerman, R. and McCallum A. (2005). Disambiguating Web appearances of
people in a social network. In Proc. of the 14th International Conference on World
Wide Web, pp. 463–470.
16. Benjelloun, O., Garcia-Molina, H., Menestrina, D., Su, Q., Whang, S.E., and Widom,
J. (2009). Swoosh: a generic approach to entity resolution. The VLDB Journal — The
International Journal on Very Large Data Bases, 18(1):255-276.
17. Bikel, D.M., Schwartz, R.L., and Weischedel, R.M. (1999). An algorithm that learns
what’s in a name. Machine Learning, 34(1-3):211–231.
18. Bilenko, M., Mooney, R.J., Cohen, W.W., Ravikumar, P., and Fienberg, S.E. (2003).
Adaptive name matching in information integration. IEEE Intelligent Systems,
18(5):16-23.
19. Borthwick, A. (1998). A maximum entropy approach to named entity recognition.
PhD’s Thesis, Computer Science Deparment, New York University.
20. Bloehdorn, S., Cimiano, P., Hotho, A., and Staab, S. (2005). An ontology-based
framework for text mining. In Alexander Mehler, Andreas Wolff (Eds.), LDV Forum
140 Tài liệu tham khảo
- GLDV Journal for Computational Linguistics and Language Technology, 20(1):87-
112.
21. Bontcheva, K., Dimitrov, M., Maynard, D., Tablan, V., and Cunningham, H. (2002).
Shallow Methods for Named Entity Coreference Resolution. In Proc. of TALN 2002
Workshop.
22. Bunescu, R. and Paşca, M. (2006). Using encyclopedic knowledge for named entity
disambiguation. In Proc. of the 11th Conference of the European Chapter of the Asso-
ciation for Computational Linguistics (EACL 2006), pp. 9–16.
23. Bunescu, R. (2007). Learning for information extraction: From named entity recogni-
tion and disambiguation to relation extraction. PhD’s thesis, University of Texas at
Austin.
24. Buscaldi, D. and Rosso, P. (2008). Map-based vs. knowledge-based toponym disam-
biguation. In Proc. of the 2nd international Workshop on Geographic Information
Retrieval, GIR'08, ACM Press, pp. 19-22.
25. Carbonell, J. and Brown, R. (1988). Anaphora resolution: A multi-strategy approach.
In Proc. of the 12th International Conference on Computational Linguistics (COL-
ING’1988), 1:96-101.
26. Carter, D. M. (1987). Interpreting anaphors in natural language texts. Ellis Hor-
wood, Chichester, UK.
27. Cardie, C. and Wagstaff, K. (1999). Noun phrase coreference as clustering. In Proc.
of SIGDAT Conference on Empirical Methods in NLP and Very Large Corpora, pp.
82–89.
28. Chen, Y. and Martin, J. (2007). Towards robust unsupervised personal name disam-
biguation. In Proc. of Joint Conference on Empirical Methods in Natural Language
Processing and Computational Natural Language Learning (EMNLP-CoNLL 2007).
29. Chinchor, N. and Robinson, P. (1997). MUC-7 named entity task definition (Version
3.5). In Proc. of Message Understanding Conference 7 (MUC-7).
30. Chinchor, N. (1998). Overview of MUC-7/MET-2. In Proc. of the Seventh Message
Understanding Conference (MUC-7).
Tài liệu tham khảo 141
31. Chinchor, N. (1992). Muc-4 evaluation metrics. In Proc. of the Fourth Message Un-
derstanding Conference, pp. 22–29.
32. Cimiano, P. and Völker, J. (2005). Towards large-scale, open-domain and ontology-
based named entity classification. In Proc. of the 5th International Conference on Re-
cent Advances in Natural Language Processing (RANLP 2005), pp. 166-172.
33. Clough, P. (2005). Extracting Metadata for Spatially-Aware Information Retrieval on
the Internet. In Proc. of Workshop on Geographic Information Retrieval (GIR'2005),
held in conjunction with CIKM2005, pp. 25-30.
34. Collins, M. and Singer, Y. (1999). Unsupervised models for named entity classifica-
tion. In Proc. of the Joint SIGDAT Conference on Empirical Methods in Natural
Language Processing and Very Large Corpora, pp. 100-110.
35. Cohen, W., Ravikumar, P., and Fienberg, S. (2003). A Comparison of distance string
metrics for name-matching tasks. In IJCAI-03 II-Web Workshop.
36. Cucerzan, S. (2007). Large-scale named entity disambiguation based on Wikipedia
data. In Proc. of Joint Conference on Empirical Methods in Natural Language
Processing and Computational Natural Language Learning (EMNLP-CoNLL 2007).
37. Cunningham, H., Maynard, D., Bontcheva, K., and Tablan, V. (2002). GATE: A
framework and graphical development environment for robust NLP tools and applica-
tions. In Proc. of the 40th Annual Meeting of the Association for Computational Lin-
guistics (ACL 2002).
38. Cunningham, H., Maynard, D., and Tablan, V. (2000). JAPE: A java annotation pat-
terns. Technical report CS--00--10, Univ. of Sheffield.
39. Dasu, T., Johnson, T., Muthukrishnan, S., and Shkapenyuk, V. (2002). Mining Data-
base Structure; or, How to Build a Data Quality Browser. In Proc. of 2002 ACM
SIGMOD International Conference on Management of Data, pp. 240-251.
40. Dean, J. and Ghemawat, S. (2004). Mapreduce: Simplified data processing on large
clusters. In Proc. of OSDI ’04: Sixth Symposium on Operating System Design and
Implementation, San Francisco, CA, google labs, 137–150.
142 Tài liệu tham khảo
41. Dill, S., Eiron, N., Gibson, D., Gruhl, D., Guha, R.V., Jhingran, A., Kanungo, T., Ra-
jagopalan, S., Tomkins, A., Tomlin, J.A., and Zien, J.Y. (2003). SemTag and Seeker:
Bootstrapping the semantic web via automated semantic annotation. In Proc. of
Twelfth International World Wide Web Conference (WWW 2003), pp. 178-186.
42. Dimitrov, M., Bontcheva, K., Cunningham, H., and Maynard, D. (2002). A light-
weight approach to coreference resolution for named entities in text. In Proc. of the
4th Discourse Anaphora and Anaphor Resolution Colloquium (DAARC).
43. Doddington, G., Mitchell, A., Przybocki, M., Ramshaw, L., Strassel, S., and Wei-
schedel, R. (2004). ACE program – task definitions and performance measures. In
Proc. of LREC’2004, pp. 837-840.
44. Douthat, A. (1998). The message understanding conference scoring software users
manual. In Proc. of the 7th Message Understanding Conference (MUC-7).
45. Elmagarmid, A., Panagiotis, G., and Verykios, V. (2007). Duplicate record detection:
A survey. IEEE Transactions on Knowledge and Data Engineering, 19(1):1-16.
46. Encyclopedia Britannica Inc. (2006). Fatally flawed. Press release, March, 2006.
47. Emigh, W. and Herring, S. (2005). Collaborative authoring on the Web: A genre
analysis of online encyclopedias. In Proc. of the 38th Hawaii International Confe-
rence on System Sciences.
48. Fader, A., Soderland, S., and Etzioni, O. (2009). Scaling Wikipedia-based named ent-
ity disambiguation to arbitrary web text. In Proc. of Wiki-AI Workshop at IJCAI’09
Conference.
49. Fernandez, N., Blazquez, J.M., Sanchez, L., and Bernardi, A. (2007). IdentityRank:
named entity disambiguation in the context of the NEWS project. In Proc. of ESWC
2007; LNCS, vol. 4519, Springer-Verlag, pp. 640-654.
50. Fleischman, M.B. and Hovy, E. (2004). Multi-document person name resolution. In
Proc. of 42nd Annual Meeting of the Association for Computational Linguistics
(ACL), Reference Resolution Workshop, pp. 66-82.
Tài liệu tham khảo 143
51. Frank, E., Paynter, G.W., Witten, I.H., Gutwin, C., and Nevill-Manning, C.G. (1999).
Domain-specific keyphrase extraction. In Proc. of International Joint Conference on
Artificial Intelligence, pp. 668–673.
52. Gale, W., Church, K., and Yarowsky, D. (1992). One sense per discourse. In Proc. of
the 4th DARPA SNL Workshop, pp.233-237.
53. Gabrilovich, E. (2006). Feature generation for textual information retrieval using
world knowledge. PhD’s thesis, Technion.
54. Garbin, E. & Mani, I. (2005). Disambiguating toponyms in news. In Proc. of the con-
ference on Human Language Technology and Empirical Methods in Natural Lan-
guage, pp. 363-370.
55. Giles, Jim. (2005). Internet encyclopedias go head to head. Nature, 438(7070):900-
901.
56. Gooi, C.H. and Allan, J. (2004). Cross-document coreference on a large-scale corpus.
In Proc. of the Annual Meeting of the North American Chapter of the Association for
Computational Linguistics - Human Language Technologies (NAACL-HLT 2004).
57. Grishman, R. and Sundheim, B. (1996). Message Understanding Conference - 6: A
brief history. In Proc. of COLING, pp. 466-471.
58. Griffith, V. (2007). WikiScanner: List anonymous Wikipedia edits from interesting
organizations. 14 August, 2007.
59. Gruber, T. (1995). Toward principles for the design of ontologies used for knowledge
sharing. International Journal of Human-Computer Studies, 43(5-6):907-928.
60. Guha, R. and Garg, A. (2004). Disambiguating people in search. In Proc. of the 13th
World Wide Web Conference (WWW 2004), ACM Press.
61. Guha, R., and McCool, R. (2003). TAP: A semantic web test-bed. Journal of Web
Semantics, 1(1):81–87.
62. Guarino, N. (1998). Formal ontology and information systems. In N. Guariono (Ed.),
FOIS'98, Trent, Italy, IOS Press.
144 Tài liệu tham khảo
63. Han, H., Giles, L., Zha, H., Li, C., and Tsioutsiouliklis, K. (2004). Two supervised
learning approaches for name disambiguation in author citations. In Proc. of
ACM/IEEE Joint Conference on Digital Libraries (JCDL 2004), pp.296-305.
64. Hassell, J., Aleman-Meza, B., and Arpinar, I.B. (2006). Ontology-driven automatic
entity disambiguation in unstructured text. In Proc. of ISWC 2006; LNCS, vol. 4273,
Springer-Verlag, pp. 44–57.
65. Hepp, M., Bachlechner, D., and Siorpaes, K. (2006). Harvesting wiki consensus - us-
ing Wikipedia entries as ontology elements. In Proc. of the Workshop on Semantic
Wikis at the ESWC 2006 (ESWC 2006), pp.54-65.
66. Humphreys, K., Gaizauskas, R., Azzam, S., Huyck, C., Mitchell, B., Cunningham,
H., and Wilks, Y. (1998). University of Sheffield: Description of the LaSIE-II system
as used for MUC-7. In Proc. of the 7th Message Understanding Conference (MUC-7).
67. Ide, N. and Véronis, J. (1998). Word sense disambiguation: The state of the art. Com-
putational Linguistics, 24(1):1-40.
68. Jain, A.K., Murty, M.N., and Flynn, P.J. (1999). Data clustering: A review. ACM
Computing Surveys, 31(3):264–323.
69. Kiryakov, A., Popov, B., Terziev, I., Manov, D., and Ognyanoff, D. (2005). Semantic
annotation, indexing, and retrieval. Journal of Web Semantics, 2(1):49-79.
70. Kulkarni, S., Singh, A., Ramakrishnan, G., and Chakrabarti, S. (2009). Collective an-
notation of Wikipedia entities in web text. In Proc. of the 15th ACM SIGKDD Interna-
tional Conference on Knowledge Discovery and Data Mining (KDD 2009), pp 457-
466.
71. Leaman, R. and Gonzalez, G. (2008). Banner: An executable survey of advances in
biomedical named entity recognition. In Pacific Symposium on Biocomputing, pp
652-663.
72. Lefever, E., Fayruzov, T., Hoste, V., and De Cock, M. (2009). Fuzzy ants clustering
for web people search. In 2nd Web People Search Evaluation Workshop (WePS
2009), 18th WWW Conference.
Tài liệu tham khảo 145
73. Leidner, J. (2007). Toponym Resolution in Text: Annotation, Evaluation and Applica-
tions of Spatial Grounding of Place Names. Ph.D’s thesis, School of Informatics,
University of Edinburgh, Edinburgh, Scotland, UK.
74. Leidner, J., Sinclair, G., and Webber, B. (2003). Grounding spatial named entities for
information extraction and question answering. In Proc. of NAACL-HLT 2003 Work-
shop on the Analysis of Geographic References, pp. 31–38.
75. Lesk, M. (1986). Automatic sense disambiguation using machine readable dictiona-
ries: How to tell a pine cone from an ice cream cone. In Proc. of the 5th SIGDOC, pp.
24–26.
76. Ley, M. (2002). The DBLP computer science bibliography: Evolution, research is-
sues, perspectives. In Proc. of the 9th International Symposium on String Processing
and Information Retrieval, pp 1-10.
77. Lenat, D. B. (1995). CYC: A large-scale investment in knowledge infrastructure.
Communications of the ACM, 38(11):33-38.
78. Li, H., Srihari, R.K., Niu, C., and Li, W. (2003). InfoXtract location normalization: a
hybrid approach to geographic references in information extraction. In Proc. of
NAACL-HLT 2003 Workshop on the Analysis of Geographic References, pp. 39–44.
79. Liu, J. and Birnbaum, L. (2007). Measuring semantic similarity between named enti-
ties by searching the web directory. In Proc. of IEEE/WIC/ACM International Confe-
rence on Web Intelligence, pp. 461-465.
80. Mann, G. and Yarowsky, D. (2003). Unsupervised personal name disambiguation. In
Proceedings of Seventh Conference on Natural Language Learning, pp.33–40.
81. Malin. B. (2005). Unsupervised name disambiguation via social network similarity.
In Proc. of SIAM Worksop on Link Analysis, Counterterrorism, and Security, pp.93-
102.
82. Mayfield, J., Alexander, D., Dorr, B., Eisner, J., Elsayed, T., Finin, T., Fink, C.,
Freedman, M., Garera, N., McNamee, P., Mohammad, S., Oard, D., Piatko, C.,
Sayeed, A., Syed, Z., and Weischedel, R. (2009). Cross-Document Coreference Reso-
146 Tài liệu tham khảo
lution: A Key Technology for Learning by Reading. In Proc. of the AAAI 2009 Spring
Symposium on Learning by Reading and Learning to Read.
83. Matuszek, C., Cabral, J., Witbrock, M., and DeOliveira, J. (2006). An Introduction to
the Syntax and Content of Cyc. In Proc. of the 2006 AAAI Spring Symposium on
Formalizing and Compiling Background Knowledge and Its Applications to Know-
ledge Representation and Question Answering.
84. Mikheev, A., Moens, M., and Grover, C. (1999). Named entity recognition without
gazetteers. In Proc. of the Ninth Conference of the European Chapter of the Associa-
tion for Computational Linguistics (EACL 1999), pp.1–8.
85. Mikheev, A., Grover, C., and Moens, M. (1998). Description of the ltg system used
for MUC-7. In Proc. of 7th Message Understanding Conference (MUC-7).
86. Miller, G.A. 1995. WordNet: A lexical database for English. Communications of the
ACM, 38:39–41.
87. Mihalcea, R. (2007). Using Wikipedia for automatic word sense disambiguation. In
Proc. of Human Language Technologies: The Annual Conference of the North Amer-
ican Chapter of the Association for Computational Linguistics (HLT/NAACL 2007),
pp. 196–203.
88. Mihalcea, R. and Csomai, A. (2007). Wikify!: linking documents to encyclopedic
knowledge. In Proc. of the 16th ACM Conference on Information and Knowledge
management (CIKM 2007), pp. 233-242.
89. Milne, D. and Witten, I.H. (2008). Learning to link with Wikipedia. In Proc. of the
17th ACM Conference on Information and Knowledge Management (CIKM 2008), pp.
509-518.
90. Milne, D., Medelyan, O., and Witten, I. H. (2006). Mining domain-specific thesauri
from Wikipedia: A case study. In Proc. of the International Conference on Web Intel-
ligence (IEEE/WIC/ACM WI 2006), pp. 442-448.
91. Mihalcea, R. (2007). Using Wikipedia for automatic word sense disambiguation. In
Proc. of Human Language Technologies: The Annual Conference of the North Amer-
ican Chapter of the Association for Computational Linguistics (HLT/NAACL 2007).
Tài liệu tham khảo 147
92. Medelyan, O., Milne, D., Legg, C., and Witten, I.H. (2009). Mining meaning from
Wikipedia. International Journal of Human-Computer Studies, 67(9):716-754.
93. Medelyan, O., Witten, I.H., and Milne, D. (2008). Topic indexing with Wikipedia. In
Proc. of WIKIAI'2008.
94. MUC-6. 1995. Proc. of the 6th Message Understanding Conference (MUC-6). Mor-
gan Kaufmann, San Francisco, CA.
95. Navigli, R. 2009. Word sense disambiguation: A Survey. ACM Computing Surveys,
41(2):1-69.
96. Nadeau, D. and Sekine, S. (2007.) A survey of named entity recognition and classifi-
cation. Journal of Linguisticae Investigationes, 30(1):3–26.
97. Nadeau. (2007). Semi-supervised named entity recognition. PhD’s thesis, Ottawa-
Carleton Institute for Computer Science, Ottawa, CA.
98. Nature. (2006). Encyclopedia Britainnica and Nature: a respone. Open letter, March
2006.
99. Noy, N.F. and McGuinness, D.L. (2001). Ontology development 101: A guide to
creating your first ontology. Technical Report KSL-01-05, Stanford Knowledge Sys-
tems Laboratory. Available at:
mcguinness.html
100. Ng, V. and Cardie, C. (2002). Improving machine learning approaches to coreference
resolution. In Proceedings of the 40th Annual Meeting of the Association for Compu-
tational Linguistics (ACL 2002), pp.104-111.
101. Nguyen, H.T. and Cao, T.H. (2010b). Enriching ontologies for named entity disam-
biguation. In Proc. of The Fourth International Conference on Advances in Semantic
Processing (SEMAPRO 2010), IARIA, pp. 37-42.
102. Nguyễn Thanh Hiên và Cao Hoàng Trụ (2010). Một phương pháp dựa trên Wikipedia
để phân giải nhập nhằng thực thể có tên. Chuyên san các công trình nghiên cứu, phát
148 Tài liệu tham khảo
triển và ứng dụng CNTT-TT, Tạp chí công nghệ thông tin và truyền thông, Tập V-1,
Số 3(23):16-28.
103. Nguyen, H.T. and Cao, T.H. (2010a). Exploring Wikipedia and text features for
named entity disambiguation. In Proc. of the 2nd Asian Conference on Intelligent In-
formation and Database Systems (ACIIDS 2010); Lecture Notes in Computer Science
(LNCS), vol. 5991, Springer-Verlag, pp. 11–20.
104. Nguyen, H.T. and Cao, T.H. (2008b). Named entity disambiguation: A hybrid statis-
tical and rule-based incremental approach. In Proc.of 3rd Asian Semantic Web Confe-
rence (ASWC 2008); LNCS, vol. 5367, Springer-Verlag, pp. 420-433.
105. Nguyen, H.T. and Cao, T.H. (2008a). Named entity disambiguation on an ontology
enriched by Wikipedia. In Proc. of the 6th IEEE International Conference on Re-
search, Innovation and Vision for the Future (RIVF 2008), pp. 247-254.
106. Nguyễn Thanh Hiên và Cao Hoàng Trụ (2008). Một tiếp cận phân giải đồng tham
chiếu và nhập nhằng thực thể trong các văn bản tiếng Việt. Chuyên san các công
trình nghiên cứu, phát triển và ứng dụng CNTT-TT, Tạp chí công nghệ thông tin và
truyền thông, Số 19:74-83.
107. Nguyen, H.T. and Cao, T.H. (2007b). A knowledge-based approach to named entity
disambiguation in news articles. In Proc. of 20th Australian Joint Conference on Ar-
tificial Intelligence (AI 2007); LNCS (LNAI), vol. 4830, Springer-Verlag, pp. 619–
624.
108. Nguyen, H.T. and Cao, T.H. (2007a). A knowledge-based method to resolve name
ambiguity in Vietnamese texts. In Addendum Contributions of the 5th International
Conference on Research, Innovation and Vision for the Future (RIVF 2007), Studia
Informatica Universalis, pp. 83-88.
109. Nguyễn Thanh Hiên (2005). Phân giải sự đồng tham chiếu các thực thể có tên tiếng
Việt. Luận văn thạc sĩ, Khoa Khoa học và Kỹ thuật máy tính, Đại học Bách Khoa Tp.
HCM, Việt Nam.
Tài liệu tham khảo 149
110. Nguyen, V.T.T. and Cao, T.H. (2007). VN-KIM IE: Automatic extraction of Viet-
namese named-entities on the Web. Journal of New Generation Computing,
25(3):277-292.
111. NIST 2008. (2008). ACE 2008 Evaluation Plan. /speech/
tests/ace/2008 /doc/ace08-evalplan.v1.1.pdf
112. Niu, C., Li, W., and Srihari, R.K. (2004). Weakly supervised learning for cross-
document person name disambiguation supported by information extraction. In Proc.
of the 42nd Annual Meeting of the Association for Computational Linguistics (ACL
2004).
113. Overell, S. and Rüger, S. (2008). Using co-occurrence models for placename disam-
biguation. International Journal of Geographical Information Science, 22(3):265-
287.
114. Overell, S. and Rüger, S. (2006). Identifying and grounding descriptions of places. In
Ross Purves and Chris Jones (Eds.), Third Workshop on Geographic Information Re-
trieval held at SIGIR 2006, ACM Press.
115. Overell, S. (2009). Geographic Information Retrieval: Classification, Disambigua-
tion and Modelling. PhD’s Thesis, Department of Computing, Imperial College Lon-
don.
116. Ohta, T., Tateisi, Y., Kim, J., Mima, H., and Tsujii, J. (2002). The GENIA corpus: An
annotated research abstract corpus in molecular biology domain. In Proc. of the
Second International Conference on Human Language Technology Research, pp. 82-
86.
117. Pedersen, T., Purandare, A., and Kulkarni, A. (2005). Name discrimination by clus-
tering similar contexts. In Proc. of the Sixth International Conference on Intelligent
Text Processing and Computational Linguistics, pp. 226-237.
118. Pedersen, T. and Kulkarni, A. (2006). Automatic cluster stopping with criterion func-
tions and the gap statistic. In Proc. of Human Language Technologies: The Annual
Conference of the North American Chapter of the Association for Computational
Linguistics (HLT/NAACL 2006), pp. 276-279.
150 Tài liệu tham khảo
119. Pilz, A., Molzberger, L., and Paa, G. (2009). Entity resolution by kernel methods. In
Proc. Sabre TMS 2009, pp. 15-22.
120. Pouliquen, B., Steinberger, R., Ignat, C., and Groeve, T. (2004). Geographical infor-
mation recognition and visualization in texts written in various languages. In Proc. of
the 2004 ACM Symposium on Applied Computing, pp.1051–1058.
121. Rauch, E., Bukatin, M., and Baker, K. (2003). A confidence-based framework for
disambiguating geographic terms. In Proc. of HLTNAACL 2003 Workshop: Analysis
of Geographic References, pp. 50–54.
122. Riloff, E. and Jones, R. (1999). Learning dictionaries for information extraction by
multi-level bootstrapping. In Proc. of the Sixteenth National Conference on Artificial
Intelligence (AAAI 1999), pp. 474-479.
123. Sarmento, L., Kehlenbeck, A., Oliveira, E., and Ungar, L. (2009). An approach to
web-scale named-entity disambiguation. In Proc. of Conference MLDM 2009; LNAI
5632, Springer-Verlag, pp.689-703.
124. Salton, G., Wong, A., and Yang, C. S. (1975). A Vector Space Model for automatic
indexing. Communications of the ACM, 18(11): 613–620.
125. Sarawagi, S. 2008. Information extraction. FnT Databases, 1(3):261-377.
126. Schockaert, S., De Cock, M., Cornelis, C., and Kerre, E. (2007). Clustering web
search results using fuzzy ants. International Journal of Intelligent Systems,
22(5):455-474.
127. Schilder, F., Versley, Y., and Habel, C. (2004). Extracting spatial information: groun-
ding, classifying and linking spatial expressions. In Workshop on Geographic Infor-
mation Retrieval held at the Twenty-Seventh Annual International ACM SIGIR Con-
ference on Research and Development in Information Retrieval.
128. Syed, Z., Finin, T., and Joshi, A. (2008). Wikipedia as an ontology for describing
documents. In Proc. of the Second International Conference on Weblogs and Social
Media, AAAI Press.
129. Smith, D. and Mann, G. (2003). Bootstrapping toponym classifiers. In Proc. of HLT-
NAACL 2003 Workshop on Analysis of Geographic References, pp. 45–49.
Tài liệu tham khảo 151
130. Smith, D. and Crane G. (2001). Disambiguating geographic names in a historical
digital library. In Research and Advanced Technology for Digital Libraries: Fifth Eu-
ropean Conference (ECDL 2001), pp. 127–136.
131. Soon, W.M., Ng, H.T., and Lim, C.Y. (2001). A machine learning approach to core-
ference resolution of noun phrases. Computational Linguistics, 27(4):521-544.
132. Suchanek, F. M., Kasneci, G., and Weikum, G. (2007). Yago - A Core of semantic
knowledge. In Proc. of 16th World Wide Web Conference, pp. 697-706.
133. Sundheim, B.M. (1991). Overview of the third message understanding evaluation and
conference. In Proc. of the Third Message Understanding Conference, pp. 3–16.
134. Tjong Kim Sang, E.F. (2002). Introduction to the CoNLL-2002 shared task: Lan-
guage-independent named entity recognition. In Proc. of Sixth Conference on Natural
Language Learning (CoNLL-2002), pp.155-158.
135. Tjong Kim Sang, E.F. and De Meulder, F. (2003). Introduction to the CoNLL-2003
shared task: Languageindependent named entity recognition. In Proc. of Seventh Con-
ference on Natural Language Learning (CoNLL-2003), pp. 142–147.
136. Terziev, I., Kiryakov, A., and Mano, D. (2005). Base upper-level ontology (bulo)
guidance. Technical Report Deliverable 1.8.1, SEKT project, UK.
137. Tri, T.Q., Thao, P.T.X., Hung, N.Q., Dien, D., and Nigel, C. (2007). NER in Viet-
namese documents. Progress in Informatics, No.4, pp 5-13.
138. van Rijsbergen, C. (1979). Information Retrieval. Butterworths. London.
139. Vilain, M., Burger, J., Aberdeen, J., Connolly, D., and Hirschman, L. (1995). A Mod-
el-theoretic coreference scoring scheme. In Proc. of Fourth Message Understanding
Conference (MUC-4).
140. Volz, R., Kleb, J., and Müller, W. (2007). Towards ontology based disambiguation of
geographical identifers. Workshop on Identity, Identifers, Identifcations (I3), 16th In-
ternational World Wide Web Conference (WWW 2007).
141. Vu, Q.M., Masada, T., Takasu, A., and Adachi, J. (2007). Personal name disambigua-
tion in web search using knowledge base. DBSJ Letters, 5(4):53-56.
152 Tài liệu tham khảo
142. Wacholder, N., Ravin, Y., and Choi, M. (1997). Disambiguation of proper names in
text. In Proc. of 5th Applied Natural Language Processing Conference (ANLP 1997),
pp. 202–208.
143. Waters, N. (2007). Why you can’t cite Wikipedia in my class. Communication of
ACM, 50(9):15-17.
144. Weaver, G., Strickland, B., and Crane, G. (2006). Quantifying the accuracy of rela-
tional statements in Wikipedia: a methodology. In Proc. of the 6th ACM/IEEE-CS
Joint Conference on Digital libraries (JCDL 2006), pp 358-358.
145. Winkler, W.E. (2006). Overview of Record Linkage and Current Research Direc-
tions. Technical Report Statistical Research Report Series RRS2006/02, US Bureau of
the Census, Washington, D.C.
146. Wikimedia. (2009). Statistics. truy cập ngày
06 tháng 11 năm 2009.
147. Yang, X., Zhou, G.D., Su, J., and Tan, C.L. (2003). Coreference resolution using
competition learning approach. In Proc. of the 41st Annual Meeting of the Association
for Computational Linguistics (ACL 2003), pp. 176-183.
148. Young, J. (2006). Wikipedia founder discourages academic use of his creation. The
Chronical of Higher Education: The Wired Campus, June 2006. Available at
149. Zhou, G.D. and Su, J. (2004). A high-performance coreference resolution system us-
ing a constraint-based multi-agent strategy. In Proc. of the 42nd Annual Meeting of
the Association for Computational Linguistics (ACL 2004).
150. Zong, W., Wu, D., Sun, A., Lim, E-P., and Goh, D.H. (2005). On assigning place
names to geography related web pages. In Proc. of the 5th ACM/IEEE-CS Joint Con-
ference on Digital libraries (JCDL 2005), pp. 354-362.
151. Zesch, T., Gurevych, I., and Mühlhäuser, M. (2007). Analyzing and Accessing Wiki-
pedia as a Lexical Semantic Resource. In Georg Rehm and Andreas Witt and Lothar
Lemnitzer (Ed.) Data Structures for Linguistic Resources and Applications. pp. 197-
205.
Các file đính kèm theo tài liệu này:
- Luận án tiến sĩ kỹ thuật - Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở.pdf