Tóm tắt
Với sự phát triển của Internet, con người ngày nay không chỉ có nhiều hơn cơ hội
tiếp xúc với các nguồn cung cấp tin tức mà còn có thể có được nó đúng lúc hơn. Các tờ
báo điện tử ở Việt Nam cung cấp mỗi ngày hàng chục cho tới hàng trăm tin mới thuộc
nhiều lĩnh vực khác nhau sẵn sàng đáp ứng các yêu cầu mọi lúc, mọi nơi của người đọc.
Tuy nhiên, bên cạnh những tiện ích, tồn tại những vấn đề cần được giải quyết như sự gia
tăng về số lượng, tính đa dạng về nội dung của tin tức ở các nguồn khác nhau, sự phù hợp
cá nhân, .Trong bối cảnh đó, sự giúp đỡ của một hệ thống tư vấn tin tức là cần thiết, bằng
cách duyệt qua không gian các lựa chọn, nó dự đoán các tin tức hữu ích tiềm năng với
từng người dùng cá nhân.
Xây dựng hồ sơ sở thích người dùng là một trong các thành phần cơ bản nhất của hệ
thống tư vấn. Tuy nhiên, những mô hình (như trong khảo sát của Gauch và cộng sự [14] )
đang được sử dụng hiện nay vẫn tồn tại nhiều vấn đề chưa được giải quyết, ví dụ như: tính
nhập nhằng ngữ nghĩa trong các hồ sơ dựa trên từ khóa, hoặc đòi hòi thông tin suy diễn từ
WordNet để xác định ngữ nghĩa trong các hồ sơ dựa trên mạng ngữ nghĩa, .Thêm vào đó,
các giải pháp này còn thiếu khả năng tính hợp mềm dẻo các nhân tố ngữ cảnh.
Khóa luận này trình bày một mô hình hệ thống tư vấn tin tức sử dụng một mô hình
sở thích ngươi dùng mới. Dựa trên khai phá dữ liệu từ ngữ cảnh duyệt web của người
dùng, hệ thống coi sở thích của người sử dụng là một kết hợp của tập các chủ đề ẩn xuất
hiện phổ biến và tập các thực thể trong các tin tức người dùng từng quan tâm.
ii
Mục lục
Mở đầu . 1
Chương 1. Khái quát về các hệ thống tư vấn . . 3
1.1. Bài toán tư vấn . 3
1.2. Các kĩ thuật tư vấn . . 5
1.2.1. Kĩ thuật tư vấn dựa trên nội dung . . 5
1.2.2. Kĩ thuật tư vấn cộng tác . . 8
1.2.3. Kĩ thuật tư vấn lai . 11
1.3. Sơ lược về hệ thống tư vấn tin tức của khóa luận . 13
1.3.1. Đặc trưng của tư vấn tin tức. 13
1.3.2. Hướng tiếp cận của khóa luận . 14
Chương 2. Mô hình hóa sở thích người dùng cho các hệ tư vấn dựa trên nội dung. 16
2.1. Tiến trình mô hình sở thích người dùng . 16
2.2. Thu thập thông tin về người dùng . 17
2.2.1. Phương pháp định danh người dùng . 17
2.2.2. Các phương pháp thu thập thông tin . 18
2.3. Xây dựng mô hình sở thích người dùng . 21
2.3.1. Phương pháp dựa trên từ khóa có trọng số . 21
2.3.2. Phương pháp dựa trên mạng ngữ nghĩa . 22
2.3.3. Phương pháp dựa trên cây phân cấp khái niệm . 23
Chương 3. Mô hình . 24
3.1. Cơ sở lý thuyết . 25
3.1.1. Phân tích thông tin chủ đề dựa trên mô hình chủ đề LDA. 25
3.1.2. Nhận dạng các thực thể trong tài liệu dựa trên từ điển . 27
3.2. Phân tích sở thích người dùng . 28
3.2.1. Thông tin trong phiên duyệt web người dùng . 28
3.2.2. Mô hình sở thích người dùng . 29
3.3. Áp dụng mô hình môi quan tâm người dùng vào tư vấn tin tức . 30
3.3.1. Pha phân tích dữ liệu tư vấn . 30
3.3.2. Pha tư vấn trực tuyến . 33
3.4. Đánh giá kết quả tư vấn. 36
Chương 4: Thực nghiệm và đánh giá . 37
iii
4.1. Môi trường thực nghiệm . . 37
4.2. Dữ liệu và công cụ . . 37
4.2.1. Dữ liệu . . 37
4.2.2. Công cụ . 38
4.3. Thực nghiệm . . 39
4.3.1. Ví dụ về phân tích tin tức . 39
4.3.2. Ví dụ phân tích sở thích người dùng . . 40
4.3.3. Tư vấn tin tức . 42
4.4. Kết quả thực nghiệm và đánh giá . . 43
Kết luận . 46
Tài liệu tham khảo . . 48
59 trang |
Chia sẻ: lvcdongnoi | Lượt xem: 2579 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Khóa luận Giải pháp mở rộng thông tin ngữ cảnh phiên duyệt web người dùng nhằm nâng cao chất lượng tư vấn trong hệ thống tư vấn tin tức, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
có thể được thu thập hiện qua việc nhập trực tiếp bởi người dùng hay thu thập ẩn
thông qua một các tử phần mềm. Nó có thể thu thập từ máy khách của người dùng hay thu
thập từ chính máy chủ ứng dụng. Phụ thuộc vào cách thức thu thập dữ liệu này mà những
dạng dữ liệu khác nhau về người dùng có thể được thu thập. Một số lựa chọn và ảnh
hưởng của các lựa chọn được trình bày ở mục 2.2.2. Nhìn chung, các hệ thống thu thập
thông tin ẩn và thu thập thông tin từ máy chủ được ưa thích hơn do đặt ít hơn gánh nặng
cung cấp thông tin về phía người dùng và hạn chế được phiền hà vì yêu cầu cài đặt thêm
phần mềm [14].
2.2.1. Phương pháp định danh người dùng
Định danh người dùng là tiêu chí quan trọng giúp hệ thống phân biệt, và xây dựng
hồ sơ khác nhau cho những người dùng khác nhau. Gauch và cộng sự [14] liệt kê ra 5
cách tiếp cận cơ bản trong định danh người dùng: các tử phần mềm (software agent), đăng
nhập (login), proxy server, cookie và phiên duyệt web(session). Mỗi phương pháp đều có
những ưu, nhược điểm riêng và ảnh hưởng các dữ liệu người dùng có thể thu thập được.
Ba phương pháp đầu tiên chính xác hơn, nhưng chúng yêu cầu sự tham gia của
người dùng. Các tử phần mềm là một phần mềm nhỏ được đặt trên máy người dùng, thu
thập thông tin về họ và chia sẻ chúng với máy chủ thông qua một vài giao thức. Giải pháp
này có độ tin cậy cao nhất vì có nhiều hơn sự điều khiển khi triển khai ứng dụng và các
giao thức. Nó cũng có khả năng thu thập được nhiều thông tin nhất vì có quyền truy cập
tới nhiều hơn các nguồn thông tin người dùng. Tuy nhiên, nó yêu cầu sự tham gia của
người dùng để cài đặt phần mềm, đó là một cản trở không dễ chịu. Giải pháp có độ tin cậy
thứ hai là dựa trên việc đăng nhập. Bởi vì người dùng định danh chính họ thông qua đăng
nhập, cách định danh này thường chính xác và có thể sử dụng để xác định người dùng
dùng nhiều máy khách khác nhau. Mặt trở ngại của phương pháp này là người dùng cần
thực hiện một tiến trình đăng kí và thực hiện đăng nhập và đăng xuất cho mỗi lần sử dụng.
Ở giải pháp thứ ba, một proxy server sẽ làm nhiệm vụ thu thập thông tin người dùng,
phương pháp này hữu ích khi cần thu thập thông tin về một nhóm người dùng hoặc một
18
người dùng sử dụng nhiều máy tính, tương tự như hai giải pháp trên, nó yêu cầu người
dùng tham gia bằng cách đăng kí cùng một địa chỉ proxy cho tất cả các máy họ sử dụng.
Hai phương pháp sau, cookie và phiên duyệt web không yêu cầu bất cứ sự tham gia
nào từ phía người dùng. Trong lần đầu tiên trình duyệt máy khách truy cập vào hệ thống ,
một userid được tạo ra, id này sẽ được lưu trong cookie máy người dùng. Một người dùng
truy cập vào cùng một trang web được xác định là duy nhất nếu cùng một userid được sử
dụng. Tuy nhiên, nếu người dùng sử dụng nhiều hơn một máy tính, hay một loại trình
duyệt, sẽ có những cookie khác nhau, và tương ứng là những hồ sơ người dùng khác
nhau. Hơn nữa, giải pháp này cũng gặp vấn đề khi có nhiều hơn một người dùng cho một
máy, hoặc trường hợp người dùng xóa, hay tắt cookie. Đối với phiên duyệt web, trở ngại
cũng tương tự khi có nhiều hơn một người dùng cho một máy hay có sử dụng nhiều hơn
một máy, một trình duyệt, nhưng nó không lưu trữ userid giữa những lần duyệt. Một
người dùng bắt đầu với một phiên duyệt web mới, thông tin trong phiên duyệt web lưu lại
vết các hành vi người dùng tương tác với hệ thống trong một lần duyệt web của họ ví dụ
danh sách các pageview, thời gian giành cho mỗi pageview, địa chỉ IP,…
Ưu điểm quan trọng của giải pháp định danh dựa trên phiên duyệt web là nó không
đặt bất cứ gánh nặng nào về phía người dùng, không gặp những nghi ngại về tính riêng tư
(tức là không lưu lại bất cứ thông tin nào về người dùng) và cũng không yêu cầu bật
cookie ở trình duyệt.
2.2.2. Các phương pháp thu thập thông tin
Thông thường, các kĩ thuật thu thập thông tin được phân theo tính chất của dữ liệu
thu thập được. Theo đó, tương ứng với hai kiểu thông tin người dùng ẩn và hiện, có hai
phương pháp thu thập thông tin người dùng.
2.2.2.1. Phương pháp thu thập thông tin người dùng hiện
Phương pháp thu thập thông tin người dùng hiện (hay thông tin phản hồi hiện) thu
thập những thông tin được nhập trực tiếp bởi người dùng, thông thường qua các HTML
Form. Dữ liệu thu thập có thể là các là các thông tin như ngày sinh, tình trạng hôn nhân,
nghề nghiệp, sở thích,…
Một trong các hệ tư vấn sớm nhất Syskill & Webert [23] tư vấn các trang web dựa
vào các phản hồi hiện. Nếu người dùng đánh giá cao một vài liên kết từ một trang, Syskill
19
& Webert sẽ tư vấn các trang liên kết khác. Thêm vào đó, hệ thống còn có thể tạo một
truy vấn tới máy tìm kiếm Lycos1 để trích xuất các trang web có thể người dùng sẽ ưa
thích.
Một vấn đề với các thông tin phản hồi hiện đó là nó đặt gánh nặng cung cấp thông
tin về phía người dùng. Vì vậy, nếu người dùng không muốn phải cung cấp các thông tin
riêng tư, họ sẽ không tham gia hoặc không cung cấp thông tin chính xác. Hơn nữa, vì các
hồ sơ được duy trì tĩnh trong khi tồn tại các đặc điểm có thể thay đổi như sở thích, thói
quen,…khiến cho những hồ sơ này có thể trở nên không chính xác nữa theo thời gian.
Một lý lẽ cho những hệ thống sử dụng thông tin phản hồi hiện là trong một vài trường hợp
người dùng thích cung cấp, chia sẻ thông tin của họ.
2.2.2.2. Phương pháp thu thập thông tin người dùng ẩn
Hồ sơ người dùng trong phương pháp này được xây dựng dựa trên các thông tin
phản hồi ẩn. Ưu điểm của phương pháp này là không yêu cầu bất cứ sự xen vào nào của
người dùng trong suốt tiến trình xây dựng và duy trì các hồ sơ người dùng. Công trình của
Kelly và Teevan [20] cung cấp một cái nhìn tổng quát về các kĩ thuật phổ biến để thu thập
thông tin phản hồi ẩn và các thông tin về người dùng có thể suy diễn từ hành vi của họ.
Theo đó, Gauch và các cộng sự [14] thống kê tóm tắt các cách tiếp cận của kĩ thuật
thu thập thông tin phản hồi ẩn.
1
Hình 3. Các hệ thống tư vấn dựa trên thông tin phản hồi hiện.
20
Bảng 2. Các kĩ thuật thu thập thông tin ẩn [14].
Kĩ thuật Thông tin thu thập
Bề rộng
thông tin Ưu và Nhược Ví dụ
Browser Cache Lịch sử duyệt web
Bất cứ
trang
web nào
Ưu: Người dùng không cần cài đặt bất cứ
thứ gì.
Nhược: Người dùng phải upload cache
định kì.
OBIWAN
[24]
Proxy Servers Hành vi duyệt web
Bất cứ
trang
web nào
Ưu: Người dùng có thể sử dụng nhiều
trình duyệt.
Nhược: Người dùng phải sử dụng proxy
server.
OBIWAN
[24]
Browser Agents Hành vi duyệt web
Bất cứ
ứng
dụng
hướng
cá nhân
nào
Ưu: Các tử có thể thu thập tất cả các hành
vi web.
Nhược: Cài đặt và sử dụng ứng dụng mới
khi đang duyệt web.
WebMate
[12]
Desktop Agents
Tất cả hành
vi người
dùng
Bất cứ
ứng
dụng
hướng
cá nhân
nào
Ưu: Tất cả các tập tin và hành vi của
người dùng.
Nhược: Yêu cầu cài đặt phần mềm.
Google
Desktop
Web Logs Hành vi duyệt web
Các
trang
web có
log
Ưu: Thông tin về nhiều người dùng.
Nhược: Có thể có ít thông tin vì chỉ từ một
trang web.
Mobasher
[7]
Search Logs
Truy vấn
và Url
được click
Các
trang tìm
kiếm
Ưu: Thu thập và sử dụng thông tin từ
nhiều trang
Nhược:Cookies phải được bật và/hoặc yêu
cầu đăng nhập.
Nhược: Có thể có rất ít thông tin.
Misearch
Dựa trên nguồn gốc các thông tin ẩn này, có thể chia các thông tin phản hồi ẩn thành
hai loại: thông tin ẩn phía máy khách (client log) thu được từ bốn cách tiếp cận đầu và
thông tin ẩn phía máy chủ (server log) thu được từ hai cách tiếp cận còn lại.
Trong khi các kĩ thuật thu thập thông tin phía máy khách đặt gánh nặng về phía
người dùng để thu thập và chia sẻ log các hành vi của họ. Các kĩ thuật thu thập thông tin
phía máy chủ (như search log và web log) thu thập chỉ những thông tin trong quá trình
21
tương tác của người dùng và hệ thống. Điều này làm cho các thông tin có thể thu thập từ
máy chủ ít hơn nhưng có ưu thế hơn về độ phức tạp của dữ liệu thu thập được cũng như
tránh được các nghi ngại về tính riêng tư của người dùng.
2.3. Xây dựng mô hình sở thích người dùng
Thông thường dựa trên các đặc trưng của dữ liệu thu thập được, có những cách tiếp
cận khác nhau để xây dựng mô hình sở thích người dùng. Dữ liệu thu thập từ người dùng
có thể được chia làm hai loại chính là dữ liệu có cấu trúc và không cấu trúc. Các dữ liệu
có cấu trúc như các đánh giá theo điểm, nghề nghiệp, tuổi tác, … Các dữ liệu không cấu
trúc là các dữ liệu dạng văn bản như nội dung của các tin tức đã xem, mô tả của các bộ
phim đã xem, hay các lời nhận xét dưới dạng ngôn ngữ tự nhiên …
Gauch và cộng sự trong [14] mô tả khá chi tiết ba phương pháp xây dựng mô hình
sở thích người dùng dựa trên các dữ liệu dạng văn bản là phương pháp dựa từ khóa khóa
có trọng số, phương pháp dựa trên các mạng ngữ nghĩa và phương pháp dựa trên cây phân
cấp khái niệm. Đây là các giải pháp mô hình sở thích người dùng thường được sử dụng
cho các hệ thống tư vấn dựa trên nội dung.
2.3.1. Phương pháp dựa trên từ khóa có trọng số
Mối quan tâm được mô tả bằng tập các từ khóa có trọng số. Trong đó, từ khóa được
trích xuất từ tập các dữ liệu người dùng với trọng số thường được đánh giá thông qua mô
hình trọng số tf*idf. Đây là giải pháp được đưa ra sớm nhất và dễ dàng cài đặt nhất, tuy
nhiên vấp phải các trở ngại về vấn đề nhập nhằng ngữ nghĩa và kích thước không gian từ
khóa. Ví dụ điển hình của phương pháp tiếp cận này là WebMate [12], hồ sơ người dùng
chứa một vector từ khóa cho mỗi lĩnh vực quan tâm của người dùng, và một ý tưởng mở
rộng của WebMate[12], Alipes [31] sử dụng ba vector từ khóa cho mỗi mối quan tâm
người sử dụng bao gồm: một vector mô tả tính dài hạn, hai vector mô tả tính ngắn hạn:
một tích cực và một tiêu cực.
22
Hình 4. Mô hình mối quan tâm người dùng dựa trên từ khóa.
2.3.2. Phương pháp dựa trên mạng ngữ nghĩa
Mối quan tâm được mô tả bằng tập các node (từ khóa hoặc khái niệm) và các cạnh
liên kết. Đầu tiên, các từ khóa cũng được trích xuất từ dữ liệu người dùng. Khái niệm có
thể bao gồm một hoặc nhiều từ khóa liên kết với nhau ( ví dụ như: quan hệ đồng nghĩa
suy diễn từ WordNet ). Trọng số giữa cạnh được xác định dựa trên sự xuất hiện đồng thời
của hai node hoặc các từ khóa thuộc vào hai node trong cùng một văn bản. Điển hình cho
mô hình này là hệ thống InfoWeb [15], mỗi hồ sơ người dùng được biểu diễn bởi một
mạng ngữ nghĩa các khái niệm. Ban đầu, mạng ngữ nghĩa chứa một tập các node khái
niệm không liên kết gọi là các node hành tinh với một trọng số. Càng nhiều thông tin thu
thập được, hồ sơ về người dùng càng được làm giàu thông qua các từ khóa có trọng số
liên kết với các khái niệm. Các từ khóa được biểu diễn như các node vệ tinh xung quanh
các khái niệm chính, trọng số liên kết giữa các khái niệm tương ứng cũng được thêm vào.
Hình 5. Mô hình mối quan tâm người dùng dựa trên mạng ngữ nghĩa[15].
23
2.3.3. Phương pháp dựa trên cây phân cấp khái niệm
Mối quan tâm người dùng được mô tả tập các khái niệm có trọng số. Ban đầu, các
khái niệm không trích ra từ văn bản mà được định nghĩa trước từ cây phân cấp các mục
mở ODP (The Open Directory Project)[30]. Dữ liệu người dùng được phân lớp vào một
trong các nhánh của cấu trúc phân cấp này. Vấn đề của phương pháp này là mức độ chi
tiết của mục có thể làm mất thông tin về các mối quan tâm chung và sự phụ thuộc vào độ
chính xác của các cây phân cấp khái niệm. Một trong các dự án đầu tiên sử dụng phương
pháp này là OBIWAN [24]. Ban đầu, họ dùng cấu trúc phân cấp khái niệm từ 3 mức đầu
tiên của ODP[30]. Dữ liệu người dùng được tự động phân lớp để tìm ra các các khái niệm
phù hợp nhất, các trọng số khái niệm tương ứng được tăng lên.
Hình 6. Mô hình mối quan tâm người dùng dựa trên mạng khái niệm [24].
24
Chương 3. Mô hình
Đối với người dùng trong các hệ thống tư vấn, các yếu tố thuộc về ngữ cảnh sử dụng
hiện tại của người dùng ảnh hưởng lớn tới các lựa chọn trong tương lai của họ.
Các tin tức trong phiên duyệt web hiện phản ánh chính xác hơn những chủ đề hay
các thực thể người dùng muốn tìm hiểu thêm thông tin. Do vậy, phân tích thông tin từ các
tin tức này là một giải pháp tiềm năng để mở rộng thông tin ngữ cảnh so với phương pháp
chỉ phân tích trang tin hiện tại.
Trong khi các kĩ thuật biểu diễn sở thích người dùng hiện còn tồn tại các trở ngại
như trình bày trong chương 2. Có thể có một cách tiếp cận mới cho các vấn đề này dựa
trên phỏng đoán rằng một người dùng A có thể ưa thích một tin tức X nếu như A đã xem
các tin tức cùng chủ đề với X và X liên quan đến nhiều hơn các thực thể định danh mà A
quan tâm (ví dụ như tên một câu lạc bộ bóng đá như: ManU, hay tên một nhân vật nổi
tiếng như tổng thống Mỹ Obama).
Như vậy, một hồ sơ người dùng có thể được mô tả hình thức như sau:
Bảng 3. Ví dụ về một hồ sơ sở thích người dùng.
Người dùng Chủ đề quan tâm Thực thể quan tâm
An
“Bóng đá”, “Du
lịch”,…
ManU, Chealsea, Đà
Lạt, Hội An,…
Các tin tức có thể được gán nhãn chủ đề bằng tay, tuy nhiên đó là một giải pháp
không khả thi do đòi hỏi chi phí lớn, đặc biệt khi có quá nhiều tin tức nảy sinh hay trong
các hệ thống tư động thu thập tin tức như RSSReader. Một hướng tiếp cận tiềm năng là sử
dụng phân tích chủ đề ẩn. Trong đó, ý tưởng cơ bản là xem các văn bản là một phân phối
xác suất theo chủ đề và mỗi chủ đề lại có phân phối xác suất trên các từ. Đã có nhiều
nghiên cứu khẳng định được tính ứng dụng của phân tích chủ đề ẩn như mô hình phân
lớp, phâm cụm dữ liệu [22], bài toán xác định độ phù hợp giữa nội dung một trang web và
các thông điệp quảng cáo[21],…
Trong các mục sau, khóa luận trình bày một giải pháp xác định các sở thích người
dùng theo cách tiếp cận mới này.
25
3.1. Cơ sở lý thuyết
3.1.1. Phân tích thông tin chủ đề dựa trên mô hình chủ đề LDA.
Phân tích chủ đề cho văn bản nói chung và cho dữ liệu Web nói riêng có vai trò
quan trọng trong việc “hiểu” và định hướng thông tin trên Web. Khi ta hiểu một trang
Web có chứa những chủ đề hay thông tin gì thì dễ dàng hơn cho việc xếp loại, sắp xếp, và
tóm tắt nội dung của trang Web đó. Trong phân lớp văn bản, mỗi văn bản thường được
xếp vào một lớp cụ thể nào đó. Trong phân tích chủ đề, chúng ta giả sử mỗi văn bản đề
cập đến nhiều hơn một chủ đề (K chủ đề) và mức độ liên quan đến chủ đề được biểu diễn
bằng phân phối xác suất của của tài liệu đó trên các chủ đề.
Hình 7. Tài liệu với K chủ đề ẩn.
Có rất nhiều phương pháp phân tích thông tin chủ đề từ văn bản, điển hình là mô
hình LDA [13]. LDA là một mô hình sinh (generative model) và thực hiện phân tích chủ
đề từ các tập dữ liệu văn bản hoàn toàn phi giám sát (fully unsupervised). Về mục tiêu,
tương tự với LSA, LDA đưa ra một kĩ thuật mô tả thu gọn các tập dữ liệu rời rạc (như tập
văn bản). Về mặt trực quan, LDA tìm những cấu trúc chủ đề (topics) và khái niệm
(concepts) trong tập văn bản dựa trên thông tin về đồng xuất hiện (co-occurrence) của các
từ khóa trong văn bản, và cho phép mô hình hóa các khái niệm đồng nghĩa (synonymy) và
đa nghĩa (polysemy). Về mặt mô hình hóa, LDA hoạt động tương đối giống với pLSA
(probabilistic LSA) [19]. Tuy vậy, LDA ưu việt hơn pLSA ở một vài điểm như tính đầy
đủ và tính khái quát cao hơn [13][17].
26
Hình 8. Biểu diễn đồ họa LDA[13].
Ước lượng giá trị tham số cho mô hình LDA.
Hình 9. Ước lượng tham số tập dữ liệu văn bản.
Ước lượng tham số cho mô hình LDA bằng phương pháp cực đại hóa hàm
likelihood trực tiếp và một cách chính xác có độ phức tạp thời gian rất cao và không khả
thi trong thực tế. Người ta thường sử dụng các phương pháp xấp xỉ như Variational
Methods [13] và Gibbs Sampling [17]. Gibbs Sampling được xem là một thuật toán
nhanh, đơn giản, và hiệu quả để huấn luyện LDA.
27
Sử dụng mô hình LDA để suy diễn chủ đề.
Theo Nguyễn Cẩm Tú [22], với một mô hình chủ đề đã được huấn luyện tốt dựa trên
tập dữ liệu toàn thể (Universial Dataset) bao phủ miền ứng dụng, ta có thể thực hiện một
tiến trình quá trình suy diễn chủ đề cho các tài liệu mới tương tự như quá trình ước lượng
tham số (tức là xác định được phân phối trên các chủ đề của tài liệu qua tham số theta).
Tác giả cũng chỉ ra rằng sử dụng dữ liệu từ VnExpress1 huấn luyện được các mô hình có
ưu thế hơn trong các phân tích chủ đề trên dữ liệu tin tức, trong khi các mô hình được
huấn luyện bởi dữ liệu từ Wiki2 tốt hơn trong phân tích chủ đề các tài liệu mang tính học
thuật.
Dựa trên những nghiên cứu đó, chúng tôi lựa chọn mô hình được chủ đề được huấn
luyện bởi tập dữ liệu toàn thể thu thập từ trang Vnexpress cho phân tích chủ đề. Một tiến
trình phân tích chủ đề tổng quát được minh họa như sau:
Hình 10. Suy diễn chủ đề sử dụng tập dữ liệu VnExpress[22].
3.1.2. Nhận dạng các thực thể trong tài liệu dựa trên từ điển
Đối với một đối tượng văn bản, nội dung của nó liên quan nhiều đến các thực thể
chứa trong văn bản đó. Đối tượng thực thể có thể là tên người, tên một địa điểm hoăc một
tổ chức,…Phương pháp nhận dạng các thực thể dựa trên từ điển đơn giản chỉ xem xét đến
sự hiện diện của các thực thể thuộc vào một tập từ điển thực thể trong văn bản đang tiến
1 www.vnexpress.net
2 www.wikipedia.org
28
hành phân tích. Thuật toán đối sánh xâu Aho-Corasick [3] là phương pháp nhận dạng thực
thể dựa trên từ điển điển hình. Ý tưởng cơ bản của phương pháp này khá đơn giản này,
các thực thể trong từ điển được xem là các mẫu, một ôtômát hữu hạn trạng thái xây dựng
từ các mẫu này sẽ được sử dụng để xác định sự hiện diện của các mẫu trong văn bản.
3.2. Phân tích sở thích người dùng
3.2.1. Thông tin trong phiên duyệt web người dùng
Một phiên duyệt web là một chuỗi các pageview của một người dùng đơn trong một
lần duyệt đơn [7]. Trong đó, các pageview là tập hợp các đối tượng web hiển thị tới người
dùng. Mỗi pageview có thể được xem như một tập hợp các đối tượng web hay các tài
nguyên biểu diễn cho một hành vi người dùng cụ thể như đọc một trang tin tức, xem
thông tin một sản phẩm hoặc thêm một sản phẩm vào giỏ hàng,…Mô hình sử dụng phiên
duyệt web là danh sách các url tương ứng với các trang web người dùng truy cập vào hệ
thống.
Bảng 4. Thông tin trong phiên duyệt web.
Session ID (Profile ID) Url
1 www.bestnews4u.com?newsid=102
1 www.bestnews4u.com?newsid=82
1 www.bestnews4u.com?newsid=11
1 www.bestnews4u.com?newsid=1021
2 www.bestnews4u.com?newsid=102
2 www.bestnews4u.com?newsid=144
29
3.2.2. Mô hình sở thích người dùng
Trong mô hình này, sở thích của người dùng được biểu diễn bởi hai thông tin: Tập
các chủ đề ẩn người dùng quan tâm nhất và tập các thực thể liên quan.
Xác định tập chủ đề ẩn người dùng quan tâm được thực hiện qua 3 bước
Bước 1: Từ tập tài liệu mô tả sở thích người dùng, các chủ đề và phân phối của
chúng vào từng tài liệu được tính toán.
Ứng với mỗi tài liệu di thuộc vào tập D các tài liệu mô tả mối quan tâm người sử
dụng, sử dụng phân tích chủ đề ẩn ta được kết quả là tập các topic của tài liệu di,
kí hiệu là các TPj thuộc vào tập các topic TP, với trọng số wtpj.
Topics(di) = {(TPj, wtpj),…}
Bước 2: Xếp hạng chủ đề dựa trên thống kê tính phổ biến
Rank (TPj) = Số lần xuất hiện của TPj trong ma trận D x TP với wtpj lớn hơn một
ngưỡng
Bước 3: Xác định Top N chủ đề ẩn có hạng cao nhất được sử dụng để biểu diễn
mô hình người dùng.
Các thực thể liên
quan
Các tin tức
người dùng
quan tâm trong
phiên
Các chủ đề ẩn phổ
biến
Hình 11. Mô hình sở thích người dùng dựa trên chủ đề ẩn và thực thể.
30
Xác định tập thực thể qua 2 bước
Bước 1: Xác định tài liệu cần phân tích thực thể. Các tài liệu được sử dụng đề
phân tích các thực thể biểu diễn sở thích người dùng thỏa mãn hai điều kiện
sau:
o Là các tin tức thuộc phiên duyệt web người dùng
o Là các tin tức có nội dung liên quan đến chủ đề người dùng quan tâm đã
xác định ở quá trình xác định chủ đề ẩn phổ biến.
Bước 2: Trích xuất các thực thể từ các văn bản tin tức.
3.3. Áp dụng mô hình sở thích người dùng vào tư vấn tin tức
Nghiên cứu của chúng tôi phát triển một mô hình hệ thống tư vấn sử dụng mô hình
mối quan tâm đề xuất ở phần trước. Trong đó, ý tưởng chung của việc tư vấn dựa trên
xem các tin tức tư vấn tiềm năng là các tin tức mang thông tin về chủ đề và các thực thể
người dùng từng quan tâm. Ứng dụng tư vấn được tích hợp trong một hệ thống quản lý
nội dung (Content Management System). Vì vậy, giải pháp được đưa ra là xác định chủ đề
và các thực thể nằm trong mỗi tin tức được thực hiện ngay sau khi dữ liệu tin tức được
nhập vào cơ sở dữ liệu các tin tức của hệ thống. Khóa luận xem giai đoạn này là pha xử lý
phân tích dữ liệu tư vấn. Sau pha này, mỗi tin tức sẽ tương ứng với hai danh sách một
danh sách các chủ đề và một danh sách các thực thể. Pha tư vấn trực tuyến thực hiện thu
thập thông tin về sở thích người dùng thông qua thống kê các chủ đề phổ biến trong phiên
duyệt web, sau đó tự động sinh các truy vấn cho cơ sở dữ liệu, kết quả đạt được là dữ liệu
tư vấn liên quan thuộc về nhiều chủ đề và chứa các thông tin về các thực thể người dùng
từng quan tâm.
3.3.1. Pha phân tích dữ liệu tư vấn
Input: Mỗi văn bản tin tức.
Output: Phân tích chủ đề và thực thể của từng tin tức.
Pha phân tích chủ đề ẩn.
o Suy diễn chủ đề ẩn
o Lựa chọn chủ đề chính
Pha phân tích thực thể liên quan.
31
o Xác định các thực thể
o Lựa chọn thực thể chính
Pha này xử lý các tin tức trước khi được lưu trữ vào cơ sở dữ liệu. Quá trình xử lý
gồm hai pha phân tích độc lập.
Phân tích các chủ đề ẩn
Tin tức được suy diễn các chủ đề nó thuộc vào theo một mô hình chủ đề ẩn đã được
huấn luyện. Pha này, được thực hiện bởi hai bước:
Bước 1. Suy diễn chủ đề ẩn:
Nhận đầu vào là các văn bản tin tức, bước này phân tích xác suất các chủ
đề ẩn phản ánh nội dung trong văn bản. Các chủ đề có xác suất lớn hơn là các
Top chủ đề có
xác suất cao
Top các thực thể
có trọng số cao
Mô hình chủ
đề
Từ điển thực
thể
Tin tức
Suy diễn chủ đề
Xác định thực thể
Cơ sở dữ liệu
tin tức
Hình 12. Mô hình pha phân tích dữ liệu tư vấn
32
chủ đề mà nội dung chính của tin tức hướng tới. Chú ý rằng số lượng các chủ đề
ẩn là không đổi, và mỗi chủ đề đều có một xác suất phản ánh nội dung của văn
bản. Ví dụ, nếu ta chọn mô hình với 100 chủ đề ẩn để phân tích, mỗi văn bản
được xác định bởi một vector 100 chiều, với mỗi chiều là một chủ đề và mỗi giá
trị trong các chiều là trọng số xác suất của chủ đề tương ứng.
Bước 2. Xác định top các chủ đề có phân phối cao:
Từ các vector phân phối chủ đề của văn bản tin tức, ta cần xác định đâu là
các chủ đề có thể đại diện cho nội dung thông tin của tin tức. Các chủ đề này có
thể được nhận ra bởi hai ràng buộc:
o Số lượng chủ đề có thể biểu diễn nội dung cho một văn bản phải nằm
trong một giới hạn.
o Xác suất của chủ đề đó phải lớn hơn một ngưỡng cho trước.
Phân tích các thực thể liên quan.
Vì giá trị của tin tức còn liên quan đến các thực thể mà nó đề cập tới, ví dụ như tin
tức về kì nghỉ của tổng thống có giá trị hơn tin tức về kì nghỉ của một người bình thường.
Pha này xác định các thực thể nằm trong văn bản tin tức. Các thực thể có thể được trích
xuất từ văn bản thông qua hai bước:
Bước 1: Xác định tất cả các thực thể trong nội dung tin tức.
Nếu coi văn bản tin tức tương ứng với một xâu và mỗi thực thể trong từ điển
là một mẫu, ta có thể áp dụng một thuật toán đối sánh xâu để nhận ra tất cả các
thực thể nằm trong nội dung của tin tức. Kết quả của bước này là một danh sách
các thực thể với trọng số là số lần xuất hiện của nó trong văn bản.
Bước 2: Lựa chọn các thực thể có trọng số cao để lưu trữ.
Những thực thể được nhận định là liên quan nhiều hơn tới nội dung của văn
bản nếu nó được nhắc tới hơn một số lần nào đó, bước này thực hiện lọc bớt các
thực thể xuất hiện quá ít (nhỏ hơn một ngưỡng). Các thực thể được lưu trữ như
biểu diễn một phần giá trị của tin tức.
33
3.3.2. Pha tư vấn trực tuyến
Input: Tập Url lưu trong phiên duyệt web.
Output: Tập các tin tức tư vấn.
Pha tiền xử lý tập Url trong phiên.
o Đưa các Url về một chuẩn thống nhất, xác định các tin tức trong phiên.
Pha phân tích mối quan tâm người dùng.
o Xác định tin tức trong phiên và các chủ đề tương ứng.
o Phân tích chủ đề ẩn phổ biến.
o Xác định tập thực thể liên quan trong phiên.
Pha xác định các tin tức tư vấn.
o Lọc ra danh sách các tin có cùng chủ đề phổ biến ẩn.
o Xếp hạng lại các tin có liên quan đến nhiều thực thể.
Tập url các tin
tức trong phiên
Tiền xử lý CSDL tin
tức
Tập các tin tức
trong phiên với
các chủ đề ẩn.
Thống kê các chủ
đề phổ biến
Các thực thể người
dùng quan tâm
trong phiên
Truy vấn 1 Truy vấn 2
Các tin tức có chủ
đề là chủ đề phổ
biến.
Truy vấn 3
Xếp hạng lại các
tin tức
Top các tin tức
giành cho tư vấn
Hình 13. Mô hình pha tư vấn trực tuyến.
34
Tiền xử lý dữ liệu
Các Url lưu trong phiên người dùng được đưa về dạng chuẩn và thống nhất.
Loại bỏ các Url không tương ứng với một tin tức chi tiết.
Đưa các Url về dạng chuẩn, loại bỏ các tham số thừa.
Ví dụ: www.bestnews4u.com?newsid=20#top
www.bestnews4u.com?newsid=20
Loại bỏ các Url trùng lặp.
Lọc lấy trường định danh tin tức (newsid) trong các địa chỉ Url.
Phân tích sở thích người dùng
Như đã trình bày trong chương 3, sở thích người dùng có thể được xác định thông
qua các chủ đề phổ biến và các thực thể. Để nâng cao tốc độ đáp ứng, các phân tích về
chủ đề và thực thể cho từng tin tức đã được thực hiện trong pha phân tích dữ liệu tư vấn.
Vì vậy, sở thích người dùng có thể trực tiếp trích xuất từ cơ sở dữ liệu. Một cách hình
thức, công việc này gồm ba bước:
Bước 1. Trích xuất từ cơ sở dữ liệu các tin tức trong phiên và các chủ đề tương
ứng. (truy vấn 1 như minh họa hình 14) .
Bước 2. Thống kê các chủ đề ẩn phổ biến:
Từ dữ liệu thu được ở bước 1, hệ thống thống kê các chủ đề xuất hiện lặp lại
trên các tin tức.
Trong thực tế, khi số lượng các tin tức trong phiên còn ít, chưa có sự chồng
lấn về chủ đề hay các tin tức có thể nằm ở những chủ đề riêng rẽ. Do vậy, hệ thống
chưa thể xác định được chủ đề nào được quan tâm phổ biến, giải pháp cho tình
huống này là lựa chọn các chủ đề của tin tức gần nhất được người dùng truy cập.
Trong các trường hợp còn lại, một ngưỡng nào đó được sử dụng để xác định tính
phổ biến của chủ đề.
Bước 3. Xác định tập thực thể trong các tin tức thuộc các chủ đề ẩn phổ biến:
Mỗi tin tức có nội dung liên quan đến một tập hợp các thực thể. Sau khi đã
xác định được các chủ đề phổ biến, cần có một phương pháp xác định thực thể vừa
thuộc vào các tin tức vừa thuộc phiên truy cập, vừa liên quan đến chủ đề phổ biến
35
(có thể có những tin tức không thuộc về chủ đề phổ biến). Vì vậy, truy vấn thực
hiện trích xuất các thực thể cần thỏa mãn hai ràng buộc (truy vấn 2 như minh họa
hình 14):
o Thuộc vào các tin tức trong phiên.
o Thuộc vào các tin tức có chủ đề là chủ đề phổ biến.
Tư vấn tin tức
Giai đoạn cuối cùng của tiến trình tư vấn là tìm ra những tin tức phù hợp nhất với
sở thích người dùng. Vì vậy, sự tư vấn có thể đạt được theo hai bước sau:
Bước 1: Xác định các tin tức ứng viên từ tập các tin tức có thể tin vấn.
Hệ thống lọc ra các tin tức thuộc vào cùng chủ đề với mối quan tâm người
dùng, thông qua đối sánh chủ đề ẩn của các tin tức trong cơ sở dữ liệu và chủ đề ẩn
được phân tích là được người dùng quan tâm phổ biến (truy vấn 3 minh họa hình
14).
Bước 2: Xếp hạng lại các tin tức.
Kết quả của bước 1 là một lớp các tin tức có thể người dùng quan tâm ở mức
chủ đề, có thể có quá nhiều tin tức như vậy, do vậy cần có một giải pháp xếp hạng
lại các tin tức này. Một giải pháp có thể triển khai dựa trên ý tưởng một phần tiêu
chí ra quyết định của người dùng phụ thuộc ở việc xem xét tin tức đó có liên quan
đến các thực thể đang được họ quan tâm hay không.
Từ tập thực thể của các tin tức tư vấn tiềm năng, hạng của một tin tức được
xác định bằng số thực thể nó đề cập tới thuộc vào danh sách các thực thể người
dùng quan tâm trong phiên duyệt web đã được phân tích trong pha trước.
Bước 3: Tư vấn top các tin tức xếp hạng cao nhất.
Quá trình xếp hạng cho ra một danh sách các tin tức được sắp xếp theo thứ tự
giảm dần về mức độ liên quan tới các thực thể người dùng đang quan tâm. Bước
này, hệ thống chọn ra N tin tức tiềm năng nhất để tư vấn tới người đọc.
36
3.4. Đánh giá kết quả tư vấn.
Việc đánh giá chất lượng của tin tức tư vấn trả về bởi hệ thống là một bài toán khó,
vì không có một độ đo ngữ nghĩa đánh giá chính xác được sự phù hợp giữa người dùng và
tin tức hệ thống trả lại.
Herlocker [18] đưa ra hai nguyên nhân chủ yếu dẫn tới việc đánh giá các hệ thống
tư vấn là khó khăn. Nguyên nhân đầu tiên là chất lượng của hệ tư vấn phụ thuộc vào tập
dữ liệu sử dụng. Một hệ tư vấn tin tức có mô hình tốt chưa chắc đã tư vấn tốt hơn một hệ
tư vấn có dữ liệu tốt (như một cơ sở dữ liệu tin tức phong phú). Nguyên nhân thứ hai là
việc đánh giá hệ tư vấn có thể hướng tới các mục tiêu khác nhau. Trong một số hệ thống,
các đánh giá có thể dựa trên số lần tư vấn dẫn đến quyết định đúng và sai. Trong một số
khác, các đánh giá có thể dựa trên xem xét người dùng hài lòng hoặc không hài lòng đối
với các kết quả tư vấn.
Do các nguyên nhân này, để đánh giá tính đúng đắn của mô hình tư vấn đã được
đề xuất, chúng tôi chủ yếu dựa vào việc thu thập ý kiến người sử dụng về kết quả tư vấn.
Bên cạnh đó, dựa vào kết quả nghiên cứu về phân tích sở thích của người sử dụng
thông qua lịch sử trình duyệt (history browser) được chúng tôi đề xuất trong công trình
nghiên cứu sinh viên 2010 [1], chúng tôi đưa ra một phương pháp đánh giá tự động mô
hình phân tích sở thích dựa vào sự tương đồng giữa sở thích nổi trội trong phiên duyệt
web với sở thích nổi trội của lịch sử duyệt web của người sử dụng trong cùng một thời
điểm. Phương pháp đánh giá này sẽ xem xét sự tương đồng giữa sở thích của người sử
dụng trên nhiều trang và sở thích người sử dụng trên hệ thống để đưa ra sự đánh giá.
Chúng tôi so sánh 2 loại sở thích trên bằng cách lấy 3 chủ đề ẩn phổ biến nhất của 2 loại
sở thích ra làm đại diện, nếu giữa chúng có sự xuất hiện của 1 chủ đề cụ thể nào thì xem
như chúng tương đồng. Kết quả đánh giá sẽ được thể hiện trong phần tiếp theo.
37
Chương 4: Thực nghiệm và đánh giá
4.1. Môi trường thực nghiệm
Bảng 5. Môi trường thực nghiệm.
Thành phần Thông số
CPU Core 2 Duo 2.0 GHz
RAM 2 GB
HDD 320 GB
OS Windows 7 Ultimate
4.2. Dữ liệu và công cụ
4.2.1. Dữ liệu
Dữ liệu tư vấn
Để xây dựng bộ dữ liệu tư vấn của hệ thống, chúng tôi thu thập dữ liệu từ 3 trang
web là: Dantri, Vnexpress, 24h. Sau quá trình tiến hành tiền xử lý như bóc tách lấy nội
dung chính của tin tức, chúng tôi thu được 4333 tin :
2060 tin trên website Dantri.com.vn
1291 tin trên website Vnexpress.net
982 tin trên website 24h.com.vn
Dữ liệu phiên duyệt web của người sử dụng
Chúng tôi tiến hành thu thập 30 phiên duyệt web của 30 người sử dụng trên các
website Dantri và Vnexpress thông qua việc phân tích các history.
Dữ liệu lịch sử trình duyệt của người sử dụng
Thu thập 30 dữ liệu lịch sử trình duyệt (history browser) của chính nhưng người sử
dụng ở trên có thời gian trong khoảng 15 phút trước và sau của 30 phiên duyệt web đã lấy.
38
4.2.2. Công cụ
Bảng 6. Công cụ.
Công cụ Mô tả
SessionRecommendation Tác giả: Uông Huy Long
Mô tả: Bộ công cụ phân tích sở thích duyệt web của người sử
dụng thông qua Session và tư vấn tin tức dựa trên sở thích đã
được phân tích
JGibbLDA Tác giả: Nguyễn Cẩm Tú và Phan Xuân Hiếu
Mô tả: Công cụ phân tích chủ đề ẩn cho tài liệu viết trên nền
Java
Website:
VutmDic Tác giả: Trần Mai Vũ
Mô tả: Bộ từ điển thực thể gồm 6479 thực thể thuộc 4 loại
thực thể: địa danh trong nước, địa danh nước ngoài, tên người,
tên tổ chức.
Vnexpress 100topics Tác giả: Nguyễn Cẩm Tú và Phan Xuân Hiếu
Mô tả: Bộ dữ liệu 100 chủ đề ẩn được phân tích từ Vnexpress
dùng để phân tích chủ đề ẩn
Website:
100topics.txt
Crawler4j Tác giả: Yasser Ganjisaffar
Mô tả: Công cụ thu thập dữ liệu từ các website báo điện tử
Website:
39
4.3. Thực nghiệm
4.3.1. Ví dụ về phân tích tin tức
Bảng 7. Một số chủ đề ẩn
Topic 86 Topic 23 Topic 94
du_lịch
tour
thái_lan
du_khách
đẹp
khách
singapore
phố
cổ
điểm_đến
bãi_biển
sinh_thái
de_france
việt_nam
vàng
thể_thao
hc
chạy
thế_giới
vn
sea_games
điền_kinh
vđv
giành
nội_dung
asiad
học_sinh
quốc_tế
em
thi
tốt_nghiệp
giáo_viên
quốc_gia
lớp
thpt
tổ_chức
giỏi
kỳ_thi
olympic
Du lịch Bắc Kinh dịp Olympic cực khó
28/07/2008 08:17 Theo các hãng lữ hành Hà Nội,
hiện nay nhu cầu khách đi du lịch Bắc Kinh vào
thời điểm diễn ra Olympic 2008 tăng cao song
các công ty không thể đáp ứng được. Vào thời
điểm này, giá phòng khách sạn tại Bắc Kinh tăng
gấp 5 lần so với trước kia, lượng xe vận chuyển
khách du lịch không thể đặt được do đã được huy
động phục vụ Olympic.
Mặt khác, vào thời điểm này, thủ tục xin cấp visa
vào Trung Quốc cũng gặp nhiều khó khăn. Do vậy,
không chỉ giá tour đến Bắc Kinh tăng đột biến mà
các hãng lữ hành tại Trung Quốc còn từ chối khi
phía Việt Nam đề nghị đưa khách sang…
Danh sách các chủ đề:
- Topic 86
- Topic 23
- Topic 94
Danh sách các thực thể:
- Bắc kinh
- Hà Nội
- Olympic
- Trung Quốc
- Việt Nam
Hình 14. Biểu diễn tin tức theo chủ đề và thực thể.
40
4.3.2. Ví dụ phân tích sở thích người dùng
Các tin tức được phiên duyệt web lưu trữ được dùng để phân tích sở thích người
dùng tại thời điểm hiện tại. Quá trình phân tích sẽ tiến hành như trong mô hình đề xuất ở
chương 3 với 2 bước là phân tích chủ đề ẩn và nhận dạng các thực thể có trong tin tức. Ví
dụ, đối với 4 url được nêu ra trong bảng dưới, hệ thống sẽ phân tích ra 3 chủ đề ẩn nổi trội
trong từng tin tức và các thực thể tồn tại trong các tin tức đấy (thực thể là các từ được tô
màu).
Bảng 8. Ví dụ về phân tích sở thích người dùng.
STT Tin tức Chủ
đề 1
Chủ
đề 2
Chủ
đề 3
1
Url:
chi-20-trieu-bang-mua-benzema.htm
“Quỷ đỏ” MU ưu tiên chi 20 triệu bảng mua Benzema
(Dân trí) - Lo ngại về hàng tấn công phụ thuộc quá nhiều vào
phong độ Wayne Rooney hiện nay, Manchester United có kế
hoạch chi ra 20 triệu bảng để mua chân sút Karim Benzema
trong mùa Hè này.
Do sự sa sút phong độ thảm hại của tiền đạo Berbatov, hàng
công của Manchester United hiện nay dựa nhiều vào phong
độ của Wayne Rooney. Trước nguy cơ chân sút này bị quá tải
ở mùa tới do phải thi đấu liên miên từ World Cup cho tới các
chuyến du đấu, MU đang có kế hoạch lên phương án dự
phòng.
…
19 70 72
2
Url:
thi-ngay-nghi-le.htm
“Bở hơi tai” đi siêu thị ngày nghỉ lễ
(Dân trí) - Chen nhau mua hàng, ngạt thở chờ tính tiền, thậm
chí nhiều người phải bỏ hàng “thoát thân”… Đó là tình cảnh
nhiều người gặp phải khi đi siêu thị trong những ngày nghỉ lễ
vừa qua.
Thay vì đi du lịch, một bộ phận không nhỏ người dân ở
86 78 14
41
TPHCM lại vung tiền cho mua sắm trong dịp nghỉ lễ dài ngày
30/4 - 1/5 vừa qua. Đáp lại, các siêu thị cũng có nhiều chương
trình khuyến mãi hấp dẫn để tạo sức hút với người dân…
3
Url:
tuc-boi-thu-danh-hieu-ca-nhan.htm
Wayne Rooney tiếp tục bội thu danh hiệu cá nhân
(Dân trí) - Với phong độ chói sáng trong mùa giải năm nay,
Wayne Rooney một lần nữa lại ẵm về các danh hiệu cá nhân
cao quý. Mới đây anh đã đoạt thêm 2 giải thưởng Cầu thủ
xuất sắc nhất do các CĐV MU và các đồng đội bình chọn.
Với tỷ lệ phiếu bầu áp đảo 83% Rooney đã vượt qua các đồng
đội Patrice Evra và Antonio Valencia để trở thành Cầu thủ
xuất sắc nhất năm 2010 của MU (Sir Matt Busby Player of
the Year). Giải thưởng do các CĐV của Quỷ đỏ khắp nơi trên
thế giới bình chọn thông qua website ManUtd.com. Đây là lần
thứ hai chân sút người Anh có được vinh dự này sau thành
công lần đầu vào năm 2006.
19 4 70
4
Url:
mu-bao-ve-thanh-cong-carling-cup.htm
Owen, Rooney giúp MU bảo vệ thành công Carling Cup
(Dân trí) - Dù để Aston Villa vượt lên dẫn trước ngay đầu trận
nhưng với bản lĩnh của mình, “Quỷ đỏ” đã lội ngược dòng để
giành chiến thắng 2-1 nhờ hai pha lập công của Owen và
Rooney, qua đó lần thứ hai liên tiếp vô địch Carling Cup.
Trận chung kết tại Wembley tối nay, 28/2, diễn ra cởi mở và
hấp dẫn ngay sau tiếng còi khai cuộc. Aston Villa bất ngờ mở
tỷ số ngay phút 4 sau cú sút penalty thành công của James
Milner. Bị dội “gáo nước lạnh” từ sớm nhưng MU không hề
nao núng và nhanh chóng quân bình tỷ số chỉ sau đó 9 phút,
với pha chớp thời cơ của Owen.
Dù sau đó cựu tiền đạo Newcastle phải rời sân ở cuối hiệp 1
do bị đau nhưng người vào thay anh, Wayne Rooney tiếp tục
hoàn thành xuất sắc nhiệm vụ. Tiền đạo đang có phong độ ghi
bàn “cực khủng” này chính là tác giả bàn thắng ấn định tỷ số
2-1 ở phút 74, giúp MU đăng quang chức vô địch Carling
Cup lần thứ hai liên tiếp...
19 39 37
42
Hệ thống nhận ra điểm tương đồng chủ đề giữa các tin tức mới được đọc. Như trong
ví dụ, chủ đề phổ biến là : 19 (3 lần), 70 (2 lần) (ví dụ một số từ khóa có trọng số cao
trong 2 chủ đề 19 và 70 được nêu trong bảng dưới) và các thực thể nổi trội như: MU,
Wayne Rooney, Newcastle, Carling Cup, Owen,...
Phân phối trên các từ của chủ đề 19 Phân phối trên các từ của chủ đề 70
giải
vô_địch
cầu_thủ
đội
mùa
bóng
vòng
trận
hạng
bóng_đá
đấu
thi_đấu
…
0.06996495208178817
0.028954524962552533
0.025173421752977616
0.021828599682969036
0.01935633989209313
0.014993528496429764
0.014266393263819203
0.011503279379899072
0.011212425286854849
0.011212425286854849
0.010921571193810624
0.010485290054244287
đồng
hàng
tiền
triệu
tỷ
chiếm
lừa
trăm
chục
giả
chiếm_đoạt
nghìn
…
0.07584530113531
0.03834504357859601
0.03463622689716275
0.03133950095811097
0.02227350462571858
0.011765190694991037
0.008674510127129994
0.008262419384748521
0.006614056415222632
0.006408011044031896
0.00620196567284116
0.0053777841880782145
4.3.3. Tư vấn tin tức
Các tin tức được xem là liên quan nếu nó thuộc vào cùng chủ đề phổ biến trong
các tin tức người dùng quan tâm, ví dụ với các tin tức được liệt kê trong bảng 8. Các tin
tức liên quan là các tin tức có chủ đề thuộc vào 19 hoặc 70.
Hình 15. Kết quả phân tích cho thấy các thông tin liên quan đến chủ đề 19.
43
Tuy nhiên, nếu chỉ tư vấn các tin tức thuộc cùng chủ đề thì có thể có quá nhiều tin
tức được lựa chọn, cần có một giải pháp để sắp xếp lại các tin tức này, khóa luận sử dụng
những thực thể nằm trong các tin tức đã được xem thuộc về chủ đề được quan tâm phổ
biến (như MU, Wayne Rooney, Newcastle, Carling Cup, Owen,...) để xếp hạng lại những
kết quả thu được.
Top N các tin tức thu được sẽ được sử dụng để đưa ra tư vấn với người dùng. Ví dụ,
tin tức có thể được tư vấn.
Garry Neville và 10 sự kiện đáng nhớ trong sự nghiệp ở MU - Bóng đá - Tin bên
lề. Score: 4
Gary Neville, tên đầy đủ là Gary Alexander Neville, hiện nay đang là người đứng thứ 5 trong
danh sách những cầu thủ khoác áo nhiều nhất của MU với 597 trận đấu trên tất cả các đấu
trường. Xếp trên anh là Paul Scholes với 641 lần ra sân và Ryan Giggs đang là người dẫn đầu
danh sách này với 836 lần. Neville cũng là 1 trong 9 cầu thủ trong top hơn 500 lần xuất hiện
trong màu áo đỏ của MU.
Neville là sản phẩm của lò đào tạo trẻ MU những năm 90 và đã có vinh dự được đeo băng đội
trưởng trong đội hình Manchester United đoạt cúp vô địch FA dành cho các đội trẻ năm
1992. Mùa bóng đó chứng kiến sự ra đời của lứa cầu thủ tài năng như David Beckham, Ryan
4.4. Kết quả thực nghiệm và đánh giá
Chúng tôi tiến hành đánh giá độ chính xác của mô hình dựa vào 2 phương pháp
đánh giá đã được nêu ở mục 3.4:
Đánh giá mô hình phân tích sở thích dựa vào tính tương đồng chủ đề giữa mối
quan tâm người dùng nhận ra từ lịch sử duyệt web lưu trong máy khách và mối
quan tâm người dùng nhận ra từ phiên duyệt web lưu tại máy chủ.
Đánh giá độ chính xác của mô hình dựa vào đánh giá của người sử dụng: thống
kê các đánh giá trực tiếp của người dùng qua việc kiểm tra thông tin tư vấn là
phù hợp hay không phù hợp. Kết quả đo độ chính xác là độ chính xác trung bình
tính trên 30 người sử dụng.
44
Bảng 9. Đánh giá mô hình phân tích sở thích.
Chủ đề Độ chính xác của chủ đề với mối quan
tâm người dùng
Chủ đề đứng đầu 85%
Chủ đề đứng thứ hai 79%
Chủ đề đứng thứ ba 72%
Chủ đề đứng thứ tư 66%
Chủ đề đứng thứ năm 57%
Kết quả so sánh độ tương đồng chủ đề giữa phiên duyệt web và các trang web người
dùng truy cập trước và sau phiên duyệt web cho thấy những phân tích về mối quan tâm
người dùng có thể sử dụng để tổng hợp các mối quan tâm hiện tại và dự đoán các tin tức
có thể được người dùng ưa thích trong tương lai.
Bảng 10. Độ chính xác của mô hình dựa vào đánh giá của người sử dụng.
Số lượng các tin tức
người dùng đã duyệt
qua
Độ chính xác của 1
kết quả tư vấn
Độ chính xác của 3
kết quả tư vấn
Độ chính xác của 5
kết quả tư vấn
1 tin tức 70% 68.3% 65.2%
3 tin tức 76.7% 64.3% 66.4%
5 tin tức 83.3% 79.4% 76.5%
7 tin tức 56.7% 43.7% 42%
Từ các số liệu bảng 10, có thể đưa ra các kết luận sau:
Kết quả tư vấn đạt tốt nhất ở trường hợp phiên duyệt web lưu trữ 5 tin tức.
Các trường hợp phiên duyệt web lưu trữ 1 và 3 tin tức hiệu quả thấp hơn là vì
đôi khi người dùng quan tâm đến các tin tức thuộc các lĩnh vực hoàn toàn
độc lập, chưa xuất hiện tính phổ biến trong các chủ đề được phân tích. Ở
trường hợp còn lại khi số tin tức lưu trong phiên là 7, nhiễu do một số chủ đề
ít được quan tâm trong các tin tức cũ tăng lên. Vì hệ thống chỉ xác định các
chủ đề phổ biến mà chưa quan tâm tới trọng số của mỗi chủ đề, trong một số
45
trường hợp, những chủ đề ít được quan tâm trở thành phổ biến, làm giảm độ
chính xác của mô hình.
Nhìn chung, độ chính xác của mô hình tư vấn giảm dần theo số lượng các tin
tức được tư vấn. Tuy nhiên việc đưa ra nhiều tư vấn cung cấp cho người
dùng nhiều lựa chọn hơn.
46
Kết luận
Các hệ thống tư vấn đã nhận được nhiều quan tâm từ cộng đồng nghiên cứu và các
tổ chức kinh tế vì những đóng góp của nó trong giải quyết vấn đề tràn ngập thông tin và
cung cấp các dịch vụ hướng cá nhân. Tuy nhiên, đối với lĩnh vực tư vấn tin tức, các hướng
tiếp cận hiện nay vẫn còn nhiều vấn đề cần giải quyết. Nắm bắt được nhu cầu đó, khóa
luận tiến hành nghiên cứu, khảo sát một số hướng tiếp cận giải quyết bài toán tư vấn đã
có. Sau đó, dựa trên các khảo sát này, khóa luận đề xuất một giải pháp tư vấn cho các hệ
thống cung cấp tin tức.
Các kết quả chính đạt được
Khóa luận đã tìm hiểu các khái niệm, thuật ngữ, kĩ thuật liên quan đến các hệ thống
tư vấn. Dựa vào khảo sát các đặc trưng của tư vấn tin tức, phân tích ưu nhược điểm của
các phương pháp xây dựng hai thành phần chính của hệ tư vấn là mô hình sở thích người
dùng và các thuật toán tư vấn, khóa luận đề xuất một giải pháp tư vấn tin tức dựa trên khai
phá ngữ cảnh sử dụng hiện tại của người dùng. Trong đó, hệ thống thực thi một thuật toán
tư vấn dựa trên phân tích chủ đề ẩn và các thực thể trong nội dung của những tin tức
người dùng vừa truy cập (hướng tiếp cận dựa trên nội dung). Hướng tiếp cận này có nhiều
tiềm năng và đã được chứng minh thông qua một số số liệu thống kê kết quả ban đầu.
Một số vấn đề cần tiếp tục giải quyết
Tuy mô hình đã bước đầu đạt được một số kết quả khả quan, nhưng vẫn còn tồn tại
nhiều vấn đề cần giải quyết. Đầu tiên, vì chưa có các độ đo ngữ nghĩa cho các hệ thống tư
vấn tương tự, các đánh giá chủ yếu dựa trên các nhận định chủ quan về tính phù hợp hay
không phù hợp của kết quả tư vấn. Thêm vào đó, hạn chế về số lượng và chất lượng của
kho dữ liệu tin tức cũng ảnh hưởng xấu đến chất lượng của sự tư vấn. Cuối cùng, do hệ
thống sử dụng dữ liệu từ phiên duyệt web người dùng, kết quả tư vấn khi người dùng mới
truy cập một vài tin tức đầu còn chưa cao.
47
Hướng nghiên cứu tiếp theo
Trong thời gian tới, ngoài việc tiếp tục giải quyết các vấn đề còn tồn tại, chúng
tôi định hướng một số nghiên cứu tiếp theo:
- Nghiên cứu thêm về các yếu tố ngữ cảnh và ảnh hưởng của chúng đến quyết
định của người dùng.
- Nghiên cứu các hướng áp dụng của giải pháp mở rộng thông tin ngữ cảnh người
dùng như cung cấp các thông tin quảng cáo phù hợp với ngữ cảnh sử dụng.
48
Tài liệu tham khảo
Tiếng Việt
[1] Uông Huy Long, Nguyễn Đạo Thái, Trần Xuân Tứ. Mô hình tư vấn dựa trên
việc phân tích chủ đề ẩn sự quan tâm của người dùng, Công trình sinh viên nghiên
cứu khoa học, Đại học Công Nghệ, ĐHQGHN, 2009.
Tiếng Anh
[2] G.Adomavicius, A.Tuzhilin. Towards the Next Generation of Recommender
Systems:A Survey of the State-of-the-Art and Possible Extensions, IEEE
Transactions on Knowledge and Data Engineering, 2005.
[3] Aho, Alfred V.; Margaret J. Corasick. "Efficient string matching: An aid to
bibliographic search". Communications of the ACM 18 (6): 333–340, June 1975.
[4] Ansari, A., S. Essegaier, and R. Kohli. Internet recommendations systems.
Journal of Marketing Research, pages 363-375, 2000.
[5] Basu, C., H. Hirsh, and W. Cohen. Recommendation as classification:
Using social and content-based information in recommendation. In Recommender
Systems. Papers from 1998 Workshop. Technical Report WS-98-08. AAAI Press, 1998.
[6] Balabanovic, M. and Y. Shoham. Fab: Content-based, collaborative
recommendation. Communications of the ACM, 40(3):66-72, 1997.
[7] Bamshad Mobasher: Data Mining for Web Personalization. The Adaptive
Web 2007:90-135.
[8] Belkin, N.J., Croft, W.B.: Information filtering and information retrieval: two
sides of the same coin?. Communications of the ACM 35(12), 29–38 (1992).
[9] Billsus, D. and M. Pazzani. Learning collaborative information filters.
In International Conference on Machine Learning, Morgan Kaufmann Publishers,
49
1998.
[10] Breese, J. S., D. Heckerman, and C. Kadie. Empirical analysis of predictive
algorithms for collaborative filtering. In Proceedings of the Fourteenth Conference on
Uncertainty in Artificial Intelligence, Madison, WI, 1998.
[11] Burke, R. Hybrid Recommender Systems: Survey and Experiments. User
Modeling and User-Adapted Interaction 12, 4 (Nov. 2002), 331-370.
[12] Chen, L., Sycara, K.: A Personal Agent for Browsing and Searching. In:
Proceedings of the 2nd International Conference on Autonomous Agents,
Minneapolis/St. Paul, May 9-13, (1998) 132-139.
[13] David M. Blei, Andrew Y. Ng, Michael I. Jordan: Latent Dirichlet Allocation.
Journal of Machine Learning Research (JMLR) 3:993-1022 (2003).
[14] Gauch, S., Speretta, M., Chandramouli, A., Micarelli, A. User profiles for
personalized information access, In: Brusilovsky, P., Kobsa, A., and Neidl, W., Eds.
The Adaptive Web: Methods and Strategies of Web Personalization. Springer- Verlag,
Berlin Heidelberg New York, 2007, 54-89.
[15] Gentili, G., Micarelli, A., Sciarrone, F.: Infoweb: An Adaptive Information
Filtering System for the Cultural Heritage Domain. Applied Artificial Intelligence
17(8-9) (2003) 715-744.
[16] Guarino, N., Masolo, C., Vetere, G.: OntoSeek: Content-Based Access to the
Web. IEEE Intelligent Systems, May 14(3) (1999) 70-80.
[17] Heinrich, G., “Parameter Estimation for Text Analysis”, Technical Report.
[18] Herlocker, .L., Konstan, J.A., Terveen, L.G., Riedl, J.T.: Evaluating
Collaborative Filtering Recommender Systems. ACM Transactionson Information
Systems 22(1), 5–53(2004).
[19] Thomas Hofmann. Probabilistic latent semantic indexing. In Proceedings of
50
SIGIR-99, (1999) 35–44.
[20] Kelly, D., Teevan, J.: Implicit feedback for inferring user preference: a
bibliography. ACM SIGIR Forum 37(2) (2003) 18-28.
[21] Le Dieu Thu. Online context advertising, Undergraduate Thesis, College of
Technology, Vietnam National University, Hanoi, 2008.
[22] Nguyen Cam Tu. Hidden Topic Discovery toward Classification and Clustering
in Vietnamese Web Documents, Master Thesis, College of Technology, Vietnam
National University, Hanoi, 2008.
[23] Pazzani, M., Muramatsu, J., Billsus, D.: Syskill & Webert: Identifying
Interesting Web Sites. In: Proceedings of the 13th National Conference On Artificial
Intelligence Portland, Oregon, August 4–8 (1996) 54-61.
[24] Pretschner, A.: Ontology Based Personalized Search. Master’s thesis. University
of Kan- sas, June (1999).
[25] Popescul, A., L. H. Ungar, D. M. Pennock, and S. Lawrence. Probabilistic
Models for Unified Collaborative and Content-Based Recommendation in Sparse-
Data Environments. In Proc. of the 17th Conf. on Uncertainty in Artificial
Intelligence, Seattle, WA, 2001.
[26] R.Baeza, F.Silvestri. Web Query Log Mining, ACM SIGIR Conference tutorial,
2009.
[27] G. Salton, A. Wong, C.S. Yang. A Vector Space Model for Automatic Indexing,
Communication of the ACM, 18 (11), 1975.
[28] Sieg, A., Mobasher, B., Burke, R.: Inferring users information context:
Integrating user profiles and concept hierarchies. In: 2004 Meeting of the
International Federation of Classification Societies, IFCS, Chicago, July (2004).
[29] Soboroff, I. and C. Nicholas. Combining content and collaboration in
51
text filtering. In 43 IJCAI'99 Workshop: Machine Learning for Information Filtering,
1999.
[30] The Open Directory Project (ODP),
[31] Widyantoro, D.H., Yin, J., El Nasr, M., Yang, L., Zacchi, A., Yen, J.: Alipes:
A Swift Messenger In Cyberspace. In: Proc. 1999 AAAI Spring Symposium Workshop
on Intelli- gent Agents in Cyberspace, Stanford, March 22-24 (1999) 62-67.
Các file đính kèm theo tài liệu này:
- Giải pháp mở rộng thông tin ngữ cảnh phiên duyệt web người dùng nhằm nâng cao chất lượng tư vấn trong hệ thống tư vấn tin tức.pdf