Luận văn Nghiên cứu hệ thống search engine và xây dựng ứng dụng tìm kiếm nội dung tài liệu
          
        
            
               
            
 
            
                
                    Tên đề tài : “ Nghiên cứu hệ thống Search Engine và xây dựng ứng dụng tìm kiếm nội dung tài liệu” 
Hiện nay ,việc tìm kiếm thông tin là nhu cầu quá sức cấp thiết.Tìm kiếm trên môi trường Internet đã có sự hỗ trợ tuyệt vời của những nhà phát triển như Google,Yahoo Ngược lại thị trường tìm kiếm nội dung tài liệu trong môi trường máy tính cá nhân thì chưa thật sự thõa mãn nhu cầu người sử dụng .Bởi lẽ nhu cầu phát triển ở thị trường này đòi hỏi tìm kiếm thông tin đặc trưng hay nhu cầu bảo mật cao,chi phí rẻ, thời gian ngắn Ví dụ những ứng dụng tìm kiếm như Google destop , Foxit Reader, Notepad++ nhưng chưa thật sự đáp ứng nhu cầu sử dụng như vấn đề bảo mật,hỗ trợ nhiều định dạng file, hoạt động của CPU,hỗ trợ Tiếng Việt, thời gian tìm kiếm Bởi vậy đó là lí do em phát triển đề tài khắc phục những nhược điểm đó.Nói đến việc tìm kiếm thông tin thì hệ thống Search Engine được coi là một mô hình rất tối ưu sẽ đáp ứng tốt nhất được nhu cầu của người sử dụng Bởi vậy em đã nghiên cứu cách hoạt động và cấu tạo một hệ thống Search Engine và từ đó xây dựng một ứng dụng tìm kiếm dựa trên mô hình này cùng với sự hỗ trợ ban đầu về Tiếng Việt.Trong đó, một phần hệ thống được phát triển dựa trên thư viện Lucene tích hợp những phát triển thêm về xử lí ngôn ngữ.Bước đầu , em đã xây dựng ứng dụng đáp ứng được những mục tiêu đặt ra.Ứng dụng hỗ trợ hầu hết những định dạng cơ bản như .pdf,.html.docx,.xml và xây dựng thêm phần robot spyder tự động tìm kiếm file tài liệu và lưu trữ thông tin hỗ trợ tìm kiếm, phần bóc tách nội dung tài liệu,xây dựng thêm một số lớp hỗ trợ xử lí tài liệu Tiếng Việt,ứng dụng chạy không sử dụng nhiều tài nguyên CPU .Phát triển ứng dụng theo hướng mở giúp mọi người có thể viết thêm nhiều hỗ trợ định dạng file tài liệu và nhiều xử lí ngôn ngữ hơn nữa trong thời gian đến.
                
              
                                            
                                
            
 
            
                
33 trang | 
Chia sẻ: lvcdongnoi | Lượt xem: 2908 | Lượt tải: 4
              
            Bạn đang xem trước 20 trang tài liệu Luận văn Nghiên cứu hệ thống search engine và xây dựng ứng dụng tìm kiếm nội dung tài liệu, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Luận Văn Tốt Nghiệp Kỹ Sư 
Đại học Bách Khoa 
Khoa Công Nghệ Thông Tin 
1 
 Mở đầu 
 Mô hình hệ thống Search Engine 
 Phân tích và thiết kế 
 Demo 
 Kết luận & Hướng phát triển 
2 
3 
Số lượng 
thông tin 
tăng 
Nhu cầu 
tìm kiếm 
tăng 
4 
Web 
Mở đầu
Hỗ trợ tốt 
5 
 Sử dụng tài nguyên CPU 
 Hỗ trợ nhiều định dạng 
 Thời gian tìm kiếm 
 Bảo mật dữ liệu 
 Mã nguồn bí mật 
 Hỗ trợ ngôn ngữ 
 Khả năng phát triển 
 Cài thêm các ứng dụng hỗ trợ file 
Các vấn đề gặp phải 
 Mở đầu 
 Mô hình hệ thống Search Engine 
 Phân tích và thiết kế 
 Demo 
 Kết luận & Hướng phát triển 
6 
7 
Bộ 
Thu 
thập 
thông 
tin 
Bộ 
lập 
chỉ 
mục 
Bộ 
tìm 
kiếm 
 Mở đầu 
 Mô hình hệ thống Search Engine 
 Phân tích và thiết kế 
 Demo 
 Kết luận & Hướng phát triển 
8 
9 
Mô hình hệ thống 
 API Lucence 
Phát 
triển 
10 
Thuật toán : 
11 
Extractor pdf 
Extractor html 
Extractor docx 
Extractor xml 
Extractor rtd 
12 
Xử Lí Text (Lucene) 
Phương pháp : 
13 
• WhitespaceTokenizer 
• StandardTokenizer 
• Chuyển font VNI sang unicode 
• Streaming 
 book, books →book 
• Stop-word 
 “á”,”vâng”.. 
14 
Dựa trên mô hình không gian vector và được tính theo công thức : 
Phương pháp : 
 Lập chỉ mục 
15 
Phương pháp : 
16 
Phương pháp lưu trữ từ : 
17 
 .CFS File : Lưu trữ chỉ mục của hệ thống 
 .gen :Tổng hợp lưu trữ các segment nhỏ 
 Segment_N : segment được thêm vào 
 .lock :ngăn nhiều xử lí index trong 1 thời gian 
(Mỗi chỉ mục bao gồm nhiều segment nhỏ , sau đó 
nhập lại segment lớn ) 
18 
19 
Câu truy vấn 
Phân tich truy vấn 
Dựa vào file nghịch đảo , lấy danh 
sách các tài liệu tương ứng với 
từng mục từ 
Kết hợp các phép toán tử đưa ra 
kết quả 
Sắp xếp kết quả theo thư tự giảm 
dần của độ ưu tiên 
Kết quả 
Từ Điển 
Index 
Thuật toán 
Thu thập thông tin : Nhanh (Cần Giảm) 
 - Sử dụng thông tin file 
Lập chỉ mục : Chậm ( Cần Nhanh) 
 -Đọc và lấy văn bản của file 
 -Xử lý văn bản 
 -Lập Index 
 -Mở tệp tin ở đĩa và ghi vào đĩa 
20 
-Nhiều luồng thu thập thông tin 
-Một luồng lập chỉ mục (Tránh lỗi)->tăng số lượng 
21 
22 
1.Chuyển trạng thái “Sleep” trong 1 khoảng 
thời gian nếu tìm được một file hợp lệ 
2.Chuyển trạng thái “Sleep” trong 1 khoảng 
thời gian sau khi đã lướt qua n file không 
hợp lệ 
Giảm hoạt động các luồng thu thập 
thông tin 
23 
 Sử dụng nhiều luồng hiển thị 
 T = Tmax > T =T1+T2…… 
T : Thời gian hiển thị tất cả kết quả 
T1: Thời gian hiển thị kết quả số 1 
24 
25 
Add,delete Spyder
Search
Manual Index
User
View File
26 
UI
CoreData Index
27 
Data Index
File data
Index
.lock
.cfs
.gen
Segments_N
...
28 
29 
TabPage
TabControl
Static TabPage
Index TabPageSearch TabPage
Main TabControl
MainForm
FormPanel
 Mở đầu 
 Mô hình hệ thống Search Engine 
 Phân tích và thiết kế 
 Demo 
 Kết luận & Hướng phát triển 
30 
31 
Tên Loại tài liệu Số file,dung lượng Truy vấn Thời gian 
Ứng Dụng Docx,pdf,html,xml
... 
550 (~2GB) “Lucene” 0,15 giây 
Foxit Reader pdf 150(~200MB) “Lucene” 5,05 phút 
Notepad ++ Html,xml 30(~40MB) “Lucene” 1,34 phút 
 Mở đầu 
 Mô hình hệ thống Search Engine 
 Phân tích và thiết kế 
 Demo 
 Kết luận & Hướng phát triển 
32 
Em xin chân thành 
cảm ơn 
33 
            Các file đính kèm theo tài liệu này:
Slice.pdf
Demo Bao Cao TT.pdf