Tóm tắt Luận án Giải pháp xếp hạng và tính toán song song trên nền tảng Apache Spark
Tính toán song song đang là xu thế của công nghệ cũng là lĩnh vực đang được rất quan tâm.
Để có thể đáp ứng phục vụ ngày càng nhiều người dùng và ngày các nhiều dữ liệu trên WWW.
Tính toán song song đã giúp việc xử lý dữ liệu lớn trên nhiều máy tính khác nhau để mở rộng
khả năng tính toán, mở rộng khả năng chịu lỗi.
Luận văn này đã tiếp cập vấn đề học máy xếp hạng và nghiên cứu, đưa ra mô hình, áp dụng
vào máy tìm kiếm Cốc Cốc để nâng cao chất lượng của bộ máy tìm kiếm.
Luận văn đã được những kết quả:
• Đưa ra cái nhìn tổng quát về bộ máy tìm kiếm và các thành phần bên trong một bộ máy
tìm kiếm
• Trình bày các mô xếp hạng truyến thống và học máy xếp và các phương pháp đánh giá
chất lượng của mô hình xếp hạng.
• Tìm hiểu nghiên cứu Apache Spark và Elasticsearch hai phần mềm mã nguồn mở cho lưu
trữ và tính toán song song.
• Đưa ra mô hình xếp hạng phim trực tuyến cho máy tìm kiếm tại Cốc Cốc có khả năng mở
rộng và khả năng tính toán song song và nâng cao chất lượng cũng như tỉ lệ CTR.
23 trang |
Chia sẻ: yenxoi77 | Lượt xem: 518 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Tóm tắt Luận án Giải pháp xếp hạng và tính toán song song trên nền tảng Apache Spark, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
GIẢI PHÁP XẾP HẠNG VÀ TÍNH TOÁN SONG SONG
TRÊN NỀN TẢNG APACHE SPARK
Nguyễn Đông Đức
LUẬN ÁN THẠC SĨ
Bản tóm tắt
Chuyên ngành: Hệ Thống Thông Tin
12/2016
MỤC LỤC
Tóm tắt .............................................................................................................................. iv
1.1. Tổng quan về học máy xếp hạng .............................................................................. 5
1.2. Mô hình xếp hạng truyền thống ............................................................................... 6
1.2.1. Mô hình xếp hạng dựa trên độ liên quan ........................................................... 6
1.2.2. Mô hình xếp hạng dựa trên độ quan trọng ........................................................ 7
1.3. Phương pháp đánh giá mô hình xếp hạng ................................................................ 8
1.3.1. Phương pháp MRR (Mean Reciprocal Rank) .................................................... 8
1.3.2. Phương pháp đánh giá MAP (Mean Average Precision) .................................. 8
1.3.3. Phương pháp đánh giá DCG (Discounted Cumulative Gain) ........................... 9
1.4. Học máy xếp hạng .................................................................................................. 10
1.4.1. Nền tảng cơ sở của học máy ............................................................................ 10
1.4.1.1. Hướng tiếp cận Pointwise
................................................................... 10
1.4.1.2. Hướng tiếp cận Pairwise .......................................................................... 10
1.4.1.3. Hướng tiếp cận Listwise ........................................................................ 11
GIẢI PHÁP XẾP HẠNG KẾT QUẢ TÌM KIẾM ....................................................... 12
2.1. Công nghệ .............................................................................................................. 12
2.2. Mô hình hệ thống ................................................................................................... 12
2.3. Thu thập và xử lý dữ liệu ....................................................................................... 13
2.3.1. Thu thập dữ liệu phim ...................................................................................... 14
2.3.2. Thu thập lịch sử click của người dùng ............................................................ 15
2.3.3. Đánh chỉ mục cho dữ liệu ................................................................................ 16
2.4. Xác định vector đặc trưng cho mô hình ................................................................. 16
THỰC NGHIỆM VÀ ĐÁNH GIÁ ................................................................................ 18
3.1. Dữ liệu .................................................................................................................... 18
3.2. Môi trường thực nghiệm ........................................................................................ 19
3.2.1. Cấu hình phần cứng ......................................................................................... 19
3.2.2. Các công cụ được sử dụng .............................................................................. 19
3.3. Quá trình thực nghiệm. ........................................................................................... 19
3.3.1. Tiền xử lý dữ liệu ............................................................................................. 20
iii
3.3.2. Tiến hành thực nghiệm .................................................................................... 20
3.3.2.1. So sánh hiệu quả thời gian ........................................................................ 20
3.3.2.2. So sánh chất lượng xếp hạng .................................................................... 22
KẾT LUẬN ...................................................................................................................... 23
iv
Tóm tắt
Trong những năm gần đây, với sự phát triển nhanh chóng của WWW(World Wide Web) và
những khó khăn trong việc tìm kiếm thông tin mong muốn, hệ thống tìm kiếm thông tin hiệu
quả đã trở nên quan trọng hơn bao giờ hết, và các công cụ tìm kiếm đã trở thành một công cụ
thiết yếu đối với nhiều người. Xếp hạng thông tin một thành phần không thể thiếu trong mọi
công cụ tìm kiếm, thành phần này chịu trách nhiệm cho sự kết hợp giữa các truy vấn xử lý và
tài liệu được lập chỉ mục. Ngoài ra, Ranking cũng là thành phần then chốt cho nhiều ứng dụng
tìm kiếm thông tin khác, ví dụ như lọc cộng tác, tóm tắt văn bản và các hệ thống quảng cáo trực
tuyến. Sử dụng mô hình học máy trong quá trình xếp hạng dẫn đến tạo ra cách mô hình các mô
hình xếp hạng sáng tạo và hiệu quả hơn, và cũng dẫn đến phát triển một lĩnh vực nghiên cứu
mới có tên là học máy xếp hạng (Learning to rank).
Trong mô hình mới này có rất nhiều cách tiếp cận như Pointwise , Pairwise, Listwise Luận
văn này sẽ nghiên cứu các cách tiếp cận cho bài toán xếp hạng sử dụng Apache Spark và các
thành phần bên trong nó cho việc phân tích dữ liệu đồng thời trên quy mô lớn có thể mở rộng
dễ dàng cũng như khả năng chịu lỗi.
5
Chương 1
TỔNG QUAN VỀ HỌC MÁY XẾP HẠNG
1.1. Tổng quan về học máy xếp hạng
Với sự phát triển nhanh trong của thế giới Web dẫn đến tràn ngập thông tin trên mạng
internet. Một nghiên cứu đã được tiến hành năm 2005 chỉ ra rằng thế giới Web chứa khoảng
11.5 tỉ tài liệu tại thời điểm tháng 1 năm 2005. Trong cùng năm đó, Yahoo đã thông báo rằng
cỗ máy tìm kiếm của họ chứa khoảng hơn 19.2 tài liệu web. Ngày nay con số này đã lên đến
hơn 50 triệu tỉ tài liệu đã được đánh chỉ mục trong các cỗ máy tìm kiếm. Từ những số liệu này
chúng ta có thể thầy rằng số lượng tài liệu web đang tăng lên nhất nhanh.
Với kích thước cực kỳ lớn của thế giới Web rõ ràng rằng người dùng thông thường khó có
thể tìm kiếm thông tin mà họ mong muốn bằng cách duyệt và tìm kiếm thông tin trên những
trang web. Việc tìm kiếm và trích xuất thông tin đã trở nên quan trọng hơn bao giờ hết, và các
công cụ tìm kiếm đã dần dần trở thành một công cụ thiết yếu mà mọi người dùng internet đều
sử dụng.
Một kiến trúc điển hình của công cụ tìm kiếm được hiển thị trong Hình 1-1
6
Hình 1-1 - Hệ thống tìm kiếm tổng quát
1.2. Mô hình xếp hạng truyền thống
Trong các tài liệu của hệ thống truy hồi thông tin, rất nhiều mô hình xếp hạng đã được đề
xuất Error! Reference source not found. có thể tạm phân loại 2 mô hình chính đó là mô hình
xếp hạng dựa trên độ liên quan (Relevance Ranking Modal) và mô hình xếp hạng dựa trên độ
quan trọng (Importance Ranking Models)
1.2.1. Mô hình xếp hạng dựa trên độ liên quan
Mục tiêu của mô hình xếp hạng liên quan là tạo ra một danh sách các tài liệu được xếp hạng
theo mức độ liên quan giữa tài liệu và truy vấn. Sau đó sắp xếp tất các các tài liệu theo thứ tự
giảm dần theo các chỉ số liên quan của chúng.
Mô hình xếp hạng liên quan trong hệ thống truy hồi thông tin đầu tiên được dựa trên sự xuất
hiện các term của truy vấn trong tài liệu. Ví dụ điển hình cho mô hình này là mô hình Boolean
Error! Reference source not found.. Về cơ bản mô hình có thể đoán một tài liệu là liên quan
hay là không liên quan với truy vấn nhưng không đo được mức độ liên quan.
7
Một mô hình về đo độ liên quan mới là mô hình không gian Vector (Vector Space modal –
SVM) được đưa ra Error! Reference source not found.. Cả tài liệu và truy vấn được định
nghĩa như những vector trong một không gian Euclid, trong đó tích trong của 2 vector được sử
dụng để đo mức độ tương tự của truy vấn và tài liệu. Để tạo ra vector hiệu quả đại diện truy vấn
và tài liệu thì mỗi từ trong không gian vector sẽ có một trọng số, có nhiều phương pháp xếp
hạng khác nhau, nhưng tf-idf (term frequency–inverse document frequency) Error! Reference
source not found. là một phương pháp phổ biến để đánh giá và xếp hạng một từ trong một tài
liệu. Về cơ bản thì tf-idf là một kỹ thuật (cụ thể là ranking function) giúp chuyển đổi thông tin
dưới dạng văn bản thành một Vector space model thông qua các trọng số. Vector space model
và tf-idf được phát triển bởi Gerard Salton vào đầu thập niên 1960s.
TF của một term t trong một vector được định là số lần xuất hiện của nó trong tài liệu.
IDF được định nghĩa như sau
𝐼𝐷𝐹 𝑡 = 𝑙𝑜𝑔 𝑁𝑛(𝑡) (2.1)
trong đó N là số lượng tài liệu liệu trong tập hợp truy vấn, và n(t) là só lượng tài liệu mà
chứa term t
1.2.2. Mô hình xếp hạng dựa trên độ quan trọng
Trong tài liệu truy hồi thông tin, cũng có rất nhiều mô hình mà xếp hạng các tài liệu dựa
trên độ quan trọng của chúng. Một mô hình rất nổi tiếng đó là PageRank, mô hình này được áp
dụng đặc biệt hệ thống tìm kiếm Web bởi vì nó sử dụng cấu trúc siêu liên kết Web để xếp hạng.
Hình 1-2 – Minh họa thuật toán PageRank
8
Mô hình này được Page và các đồng tác giả đã đưa ra ý tưởng là độ quan trọng của một
trang chịu ảnh hưởng của độ quan trọng từ các trang liên kết đến nó.
1.3. Phương pháp đánh giá mô hình xếp hạng
1.3.1. Phương pháp MRR (Mean Reciprocal Rank)
Cho truy vấn q, vị trí xếp hạng của phần tử liên quan đầu tiên trong danh sách xếp hạng mà
mô hình xếp hạng trả về được biểu diển là r1. Sau đó
./0 được định nghĩa như như một MRR cho
truy vấn q. Có thể hiểu rằng những tài liệu được xếp hạng dưới r1 xe không được quan tâm
trong MRR.
Hình 1-3 – Kết quả truy hồi cho truy vấn “learning to rank”
Nhìn vào ví dụ được minh họa trong Hình 1-3. Vì vị trí đầu tiền trong kết quả truy hồi liên
quan là r1 =1. Do đó MRR cho truy vấn này là 1.
1.3.2. Phương pháp đánh giá MAP (Mean Average Precision)
Để định nghĩa MAP Error! Reference source not found., thì cần phải định nghĩa độ chính
xác tại vị trí k (P@k) đầu tiên. Giả sử rằng chúng có điểm số đánh giá nhị phân cho tài liệu, v.v,
Nhãn là 1 cho tài liệu liên quan và nhãn là 0 cho tài liệu không liên quan. Sau đó P@k được
định nghĩa như sau
(2.10)
9
Trong đó I{·} là hàm đặc trưng và π−1(j) biểu thị vị trí tài liệu xếp hạng tại vị trí j of the
list π.
Sau đó trung bình độ chính xác (AP) được định nghĩa như sau
(2.11)
Trong đó m là tổng số tài liệu tương ứng với truy vấn q, và m1 là số lượng tài liệu mà có
nhán là 1.
Giá trị trung bình của AP cho toàn bộ test truy vấn được gọi là độ chính xác trung bình
(MAP)
Với ví dụ được chỉ ra trong Hình 1-3. Vì tài liệu đầu tiên trong kết quả truy hồi là liên quan,
rõ ràng P@1 = 1. Bởi vì tài liệu thứ 2 là không liên quan nên P@2 = .1. Cuối cùng tài liệu thứ
3 là liên quan từ đó suy ra P@3 = 12 .
Từ đó ta có 𝐴𝑃 = .1 1 + 12 = 78
1.3.3. Phương pháp đánh giá DCG (Discounted Cumulative Gain)
DCG Error! Reference source not found. là một phương pháp đánh giá có thể sử dụng
điểm số đánh số đánh giá cho nhiều loại đánh giá có thứ tự, vì nó đã có hệ số chiết khấu vị trí
rõ ràng trong định nghĩa của nó. Định ngĩa một cách chính thức như sau, giả sử danh sách sắp
xếp cho truy vấn q là π, sau đó DCG tại vị trí k được định nghĩa như sau:
(2.12)
Trong đó G(·) là đánh giá của một tài liệu hàm này thường được gán bằng G(z) = (2z − 1)
và η(j ) là hệ số chiết khấu được được gán bằng η(j ) = 1/ log(j + 1)
10
Bằng cách bình thường hóa DCG@k với giá trị cực đại có thể Zk, chúng ta sẽ có được một
phương pháp đo khác là Normalized DCG (NDCG).
(2.13)
Dó đó NDCG sẽ luôn luôn có giá trị từ 0 và 1
Với ví dụ được chỉ ra ở Hình 1-3. Có thể dễ dàng tính được DCG@3 = 1.5, và Z3=1.63.
Cuối cùng NDCG = NDCG@3 = ..7..82 = 0.92
1.4. Học máy xếp hạng
1.4.1. Nền tảng cơ sở của học máy
Có rất nhiều thuật toán học máy xếp hạng sử trong đó có ba cách tiếp cận cho mô hình học
máy đó là các tiếp cận pointwise, pairwise và listwise.
1.4.1.1. Hướng tiếp cận Pointwise
Theo hướng này, các đối tượng xi trong dữ liệu học có một điểm số hay thứ tự yi. Tiếp đó,
học xếp hạng có thể được xấp xỉ bởi hồi quy (hồi quy có thứ tự). Với D = {(xi, yi)}, hàm tính
hạng h(x ) thỏa mãn, r(xi) = yi. Một số thuật toán học xếp hạng như: OPRF [4], SLR [7], ...
1.4.1.2. Hướng tiếp cận Pairwise
Có D = {(xi, xj)} là tập các cặp đối tượng được sắp thứ tự, với mỗi cặp (xi, xj) có thứ hạng
của xi cao hơn thứ hạng của xj, hay xi phù hợp hơn xj: xi> xj). Tìm r(x):
∀ 𝒙𝒊, 𝒙 𝒋 ∈ 𝑺 𝒄ó 𝒙𝒊 > 𝒙 𝒋 𝒕𝒉ì 𝒓(𝒙𝒊) > 𝒓(𝒙 𝒋) (2.14)
Một số thuật toán học xếp hạng như SVM-rank, RankRLS ...
11
1.4.1.3. Hướng tiếp cận Listwise
Các thuật toán theo hướng này cố gắng trực tiếp sắp xếp tất cả các đối tượng trong dữ liệu
học. Điều này thực sự khó khăn. Khi thứ hạng của K đối tượng đầu tiên được xác định thì tất
cả các đối tượng khác đều có hạng thấp hơn.
Với D={x1,x2...,xm} có sắp thứ tự: x1 >x2 >...>xm, tìm hàm tính hạng r(x) sao cho r(x1)
> r(x2)> ... > r(xm).
Một số thuật toán học xếp hạng như ListMLE, Listnet, PermuRank
Luận văn này sẽ sử dụng cách tiếp này để nghiên cứu và thực nghiệm xếp hạng.
12
Chương 2
GIẢI PHÁP XẾP HẠNG KẾT QUẢ TÌM
KIẾM
2.1. Công nghệ
Như đã trình bày ở trên chúng tôi thực hiện xây dựng hệ thống xếp hạng có thể tính toán
song song trên nhiều máy tính làm rút ngắn thời gian truy vấn, huấn luyện dữ liệu. Bên cạch hệ
thống cần phải chạy theo thời gian thực, khả năng mở rộng và khả năng chịu lỗi. Sau đây là các
công nghệ đã được sử dụng trong hệ thống này.
Hệ thống sử dụng Elasticsearch và ApacheSpark để tính toán và xử lý song song
2.2. Mô hình hệ thống
Phần này sẽ giới thiệu toàn bộ mô hình từ thu thập dữ liệu, huấn luyến mô hình, và phục vụ
tìm kiếm các bộ phim cho hệ thống tìm kiếm tại Cốc Cốc.
13
Hình 2-1 – Mô hình giải pháp xếp hạng và tính toán song song
2.3. Thu thập và xử lý dữ liệu
Dữ liệu sẽ được thu thập từ nhiều trang web và thông tin của người dùng từ hệ thống crawler
và search của cốc cốc
14
2.3.1. Thu thập dữ liệu phim
Đầu tiên là hệ thống sẽ trích xuất các thông tin từ trang web đánh giá phim IMDb (Internet
Movie Database).
Hình 2-2 – Thông tin phim trên trang IMDb
IMDb là một website trực tuyến nó đóng vai trò như một thư viện, nơi lưu trữ những thông
tin chi tiết về các tác phẩm điện ảnh nổi tiếng, ngoài ra IMDb còn là website uy tín đóng vai trò
như một nhà phê bình. IMDb cũng là nơi tổng hợp những ý kiến đánh giá, xếp hạng của một
tác phẩm điện ảnh dựa trên các yếu tố như kịch bản, công tác đạo diễn, bối cảnh, hiệu quả hình
ảnh, kỹ thuật quay phimIMDb rất có uy tín với giới độc giả Internet, cũng như các tín đồ của
môn nghệ thuật thứ 7. Ngoài nội dung phê bình đánh giá về các tác phẩm thuộc lĩnh vực điện
ảnh, IMDb còn đánh giá những tác phẩm truyền hình hay những ngôi sao điện ảnh, nhà sản
xuất phim
Thứ Hai là hệ thông sẽ bóc tách các thông tin như được miêu tả ở Hình 2-3 (Các vùng được
bôi đỏ sẽ được trích xuất thông tin) các thống tin được trích xuất bao gồm những thành phần
được bôi đỏ như sau.
15
Hình 2-3 – Thông tin được trích xuất trong trang phim trực tuyến.
2.3.2. Thu thập lịch sử click của người dùng
Đây là dữ liệu có được có được khi hệ thống đã được đưa ra để sử dụng, dữ liệu này cũng
được coi như là một tham số trong vector đặc điểm dùng để huấn luyện mô hình. Dữ liệu thông
tin lịch sử được thu thập bao gồm: truy vấn, định danh người dùng, liên kết phim được click,
hạng được click.
Khi hệ thống chưa được đưa ra sử dụng thì thông này sẽ được thu thập từ hệ thống tìm kiếm
của cốc cốc và trích xuất thông tin click của người dùng từ những trang phim được định trước.
16
Hình 2-4 – Mô hình lưu trữ lịch sử của người dùng
2.3.3. Đánh chỉ mục cho dữ liệu
Tất cả các thông tin được thu được như thông tin phim, dữ liệu IMDb, lịch sử click của
người dùng được đánh chỉ mục vào các document trong hệ thống Elasticsearch như sau:
2.4. Xác định vector đặc trưng cho mô hình
Vector đặc trưng được sử dụng trong mô hình huấn luyện bao gồm các giá trị điểm số được
tính toán dữa trên truy vấn và tài liệu, các thuộc tính thuộc tính của vector đặc trược được biểu
diễn trong bảng dưới đây
Bảng 2.1 – Bảng mô tả vector đặc trinh cho mô hình học máy xếp hạng
Số thứ tự Mô tả
17
1 Tổng điểm số TF của tiêu đề phim
2 Độ dài của tiêu đề phim
3 Điểm số BM25 của truy vấn và tiêu đề phim
4 Tổng điểm số TF của nội dụng phim
5 Độ dài của nội dung phim
6 Điểm số BM25 của truy vấn và nội dung phim.
7 Hạng trang web của tài liệu
8 Hạng của domain gốc của tài liệu
9 Điểm số IMDB của tài liệu
10 Tổng số lượt click của tài liệu
11 Thơi gian sản xuất phim (Năm hiện tại – Năm sản xuất)
18
Chương 3
THỰC NGHIỆM VÀ ĐÁNH GIÁ
3.1. Dữ liệu
Mô hình sử dụng 130.380 thông tin phim được trích xuất từ IMDb và 93.270 liết kết phim
được trích xuất
Mô hình sử dụng query log của hệ thống tìm kiếm tại Cốc Cốc được phân loại theo chủ đề
phim. Query log là thành phần quan trọng của một bộ máy tìm kiếm, đây là dữ liệu thu thập lại
hành vi của người sử dụng qua từng truy vấn mà người dùng đó thao tác trên bộ máy tìm kiếm.
Dữ liệu log này không chứa tài liệu quảng cáo mà được hiển thị ra cho người sử dụng. Đây
cũng là dữ liệu cho bộ huấn luyện cũng như đánh giá. Dữ liệu về query log cũng được tổng hợp
theo hàng tuần và được lưu trữ như sơ đồ hình Hình 2-4
Dữ liệu huấn luyện sử dụng lịch sử ba tháng query log của người dùng được lọc theo nội
dụng truy vấn và liên kết của tài liệu để xác định có phải là truy vấn để truy hồi thông tin phim
trực tuyến hay không. Sau khi đã trích chọn thu được 20 triệu truy vấn dữ liệu click. Dữ liệu
bao gồm các thông tin sau đây:
• User: định danh của người dùng
• Query: nội dung query, đây là nội dung query được người dùng nhập vào.
• Time: thời điểm người dùng click vào URL.
• URL: URL được người dùng click.
• Position: vị trí của url được click trong danh sách kết quả trả về.
19
3.2. Môi trường thực nghiệm
3.2.1. Cấu hình phần cứng
Quá trình thực nghiệm được tiến hành trên máy tính có cấu hình phần cứng như sau:
Bảng 3.1 - Thông số máy chủ sử dụng trong thực nghiệm.
STT Thông số Số lượng
1
OS: Debian 8.0
HDD: 2TB
RAM: 32GB
CPU: 2.7 GHz x 24 Core
3
2
OS: Debian 8.0
HDD: 1TB
RAM: 64GB
CPU: 2.7 GHz x 24 Core
1
3.2.2. Các công cụ được sử dụng
Dưới đây là các công cụ mã nguồn mở được sử dụng
Bảng 3.2 - Danh sách phần mềm mã nguồn mở được sử dụng
STT
Tên phần
mềm
Nguồn
Phiên
bản
1
elasticsearch-
hadoop
https://www.elastic.co/downloads/hadoop 2.4.0
2
Apache Spark
2.0.1
3
Ranklib
https://sourceforge.net/p/lemur/wiki/RankLib/ 2.7
3.3. Quá trình thực nghiệm.
Quá trình thực nghiệm gồm các bước chính sau đây:
20
• Xử lý dữ liệu: tiền xử lý dữ liệu, xây dựng tập tài liệu học cho mô hình, véc tơ hóa dữ
liệu. Đánh chỉ mục cho dữ liệu.
• Xây dựng hàm xếp hạng: tiến hành training trên tập dữ liệu đã có bằng thuật toán ListNet
trong tự viện RankLib 2.7
• Đánh giá kết quả mô hình: Đánh giá thời gian thực thi của mô hình bằng một máy tính
và ba máy tính.
3.3.1. Tiền xử lý dữ liệu
Sau khi khi trích xuất được các thông tin phim như điểm Imdb và các tài liệu phim online
dữ liệu sẽ được đánh chỉ mục vào trong Elasticsearch theo các trường được miêu tả tại Error!
Reference source not found. và Error! Reference source not found.
Tiếp đến là phần xác định điểm Imdb cho tất cả tài liệu phim online đã được đánh chỉ mục.
Mỗi tên bộ phim trong liệu phim online sẽ được tìm kiếm tương ứng bảng dữ liệu Imdb, các dữ
liệu trong imdb như đạo diễn, diễn viên, năm sản xuất sẽ được làm yếu tố để đánh giá xem một
dữ liệu phim imdb sẽ phù hợp nhất với dữ liệu phim online nào.
Bước tiếp theo là lọc các truy vấn và liên kết phim online phù hợp dựa vào các liên kết phim
online có phải là tên miền hợp lệ không với quy tắc là mỗi truy vấn phải có 10 liên kết được
người dùng click là domain phim. Tại bước này ta thu được gần 430.000 truy vấn liên quan tới
phim.
Từ các dữ liệu được trích xuất trên ta tiến hành trích xuất vector đặc trưng với các phần tử
được miêu tả trong Bảng 2.1
3.3.2. Tiến hành thực nghiệm
Để có thể đánh giá thời gian thực thi và làm rõ mục tiêu của luận văn là xây dựng mô hình
xếp hạng bằng tính toán song song. Cách thức thực nghiệm sẽ được chia thành hai phần một
phần là so sánh hiệu quả thời gian một phần là so sánh về chất lượng của phương pháp xếp
hạng.
3.3.2.1. So sánh hiệu quả thời gian
Để so sánh hiệu quả thời gian tôi tiến hành chạy các bước thực nghiệm trên một máy đơn
và ba máy tính có thống số trong Error! Reference source not found.. Kết quả của quá trình
thực nghiệm này được biểu diễu dưới đây
Bảng 3.3 – Bảng đánh giá hiệu quả về mặt thời gian
21
Một máy tính Ba máy tính
Đánh chỉ mục dữ liệu cho
hơn 3 triệu bản ghi
32 phút 15s 13 phút 27s
Huấn luyện mô hình cho
gần 500.000 truy vấn và tài
liệu
2h 30phút 44 phút
Chạy 1.000.000 truy vấn
của người dùng
45 phút 23s 18phút 09s
Từ bảng kết quả trên cho thấy với ba máy tính tốc độ xử lý đã tăng lên rất nhiều do đã tận
dụng sức mạnh của nhiều máy tính trong cùng một khoảng thời gian. Mô hình cũng cho phép
có thể kế nối với nhiều máy hơn nữa để giảm thời gian chạy hoặc tăng khối lượng tính toán.
22
3.3.2.2. So sánh chất lượng xếp hạng
Mô hình đã được chạy trên hệ thống Cốc Cốc như một thành phần của hệ thống tìm kiếm.
Hình 3-1 – Hệ thống tìm kiếm phim online trên cốc cốc
Hình 3-1 biểu diễn chức năng tìm kiếm phim với truy vấn “diep vien 007”. Sau khi áp
dụng mô hình xếp hạng mới và giải pháp tính toán song song, tốc độ và chất lượng của hệ thống
tìm kiếm phim online cụ thể là điểm số CTR(Click through Rate) đã được cải thiện đáng kể.
Dưới đây là bảng thống kê về chỉ số CTR trước và sau 10 ngày sau khi triển khai mô hình mới.
Bảng 3.4 – Tỉ lệ CTR trước vào sau khi áp dụng mô hình
Kết quả trước và sau 10
ngày
Số lần hiển thị
Số lần nhấp
chuột
CTR
Trước khi áp dụng mô hình
(03/09/2016 – 13/09/2016)
923.070 79,107 8,57%
Sau khi áp dụng mô hình
(14/09/2016 – 24/09/2016)
1.110.402 136.579 12,3%
23
Chương 4
KẾT LUẬN
Tính toán song song đang là xu thế của công nghệ cũng là lĩnh vực đang được rất quan tâm.
Để có thể đáp ứng phục vụ ngày càng nhiều người dùng và ngày các nhiều dữ liệu trên WWW.
Tính toán song song đã giúp việc xử lý dữ liệu lớn trên nhiều máy tính khác nhau để mở rộng
khả năng tính toán, mở rộng khả năng chịu lỗi.
Luận văn này đã tiếp cập vấn đề học máy xếp hạng và nghiên cứu, đưa ra mô hình, áp dụng
vào máy tìm kiếm Cốc Cốc để nâng cao chất lượng của bộ máy tìm kiếm.
Luận văn đã được những kết quả:
• Đưa ra cái nhìn tổng quát về bộ máy tìm kiếm và các thành phần bên trong một bộ máy
tìm kiếm
• Trình bày các mô xếp hạng truyến thống và học máy xếp và các phương pháp đánh giá
chất lượng của mô hình xếp hạng.
• Tìm hiểu nghiên cứu Apache Spark và Elasticsearch hai phần mềm mã nguồn mở cho lưu
trữ và tính toán song song.
• Đưa ra mô hình xếp hạng phim trực tuyến cho máy tìm kiếm tại Cốc Cốc có khả năng mở
rộng và khả năng tính toán song song và nâng cao chất lượng cũng như tỉ lệ CTR.
Các file đính kèm theo tài liệu này:
- tom_tat_luan_an_giai_phap_xep_hang_va_tinh_toan_song_song_tr.pdf