Tóm tắt
Vấn đề thư rác từ lâu đã gây không ít phiền nhiễu cho người sử dụng thư Điện tử
và là vấn đề đau đầu của những người quản lý mạng. Có rất nhiều giải pháp chống thư
rác đã được đưa ra và áp dụng trong thực tế. Tuy nhiên, các phương pháp này đều tỏ ra
chưa thực sự hiệu quả và mang những nhược điểm cố hữu của nó. Trong luận văn này,
trên cơ sở nghiên cứu cấu trúc và các tính chất đặc trương của mạng thư Điện tử (Email
Networks) từ đó đề xuất một phương pháp lọc thư rác mới dựa trên mạng thư điện tử.
Khác với phương pháp lọc thư rác dựa trên mạng thư Điện tử trước đây [1], phương
pháp đưa ra đã khai thác được tính chất có hướng của đồ thị mạng thư Điện tử và xem
xét đồ thị mạng thư Điện tử là đồ thị có trọng số để Xây dựng một công thức tính độ
phân cụm (clustering coefficient) mới. Để kiểm chứng phương pháp đưa ra, khóa luận
thực hiện thí nghiệm trên log files của máy chủ e-mail thực của Đại học Quốc gia Hà
Nội. Kết quả thực nghiệm cho thấy được tính đúng đắn của phương pháp và phương
pháp này có thể khắc phục được nhiều nhược điểm cố hữu của các giải pháp trước đây.
Mục lục
LỜI CẢM ƠN 3
MỞ ĐẦU .8
CHƯƠNG 1: TỔNG QUAN VỀ THƯ RÁC .10
1.1 Khái niệm thư rác 10
1.1.1 Thư rác là gì ? . .10
1.1.2 Các đặc điểm của thư rác. .11
1.1.3 Phân loại thư rác .12
1.1.4 Những thiệt hại do thư rác gây ra 13
1.2 Các giải pháp cho vấn đề lọc thư rác .16
1.2.1 Ban hành các bộ luật chống thư rác 16
1.2.2 Các phương pháp lọc thư rác trước đây . .16
CHƯƠNG 2: KIẾN THỨC CƠ SỞ .26
2.1 Mạng phức hợp (Complex Networks) 26
2.1.1 Độ dài đường dẫn trung bình . 30
2.1.2 Độ phân cụm . .31
2.1.3 Độ phân bố bậc 31
2.2 Các mô hình của mạng phức hợp 33
2.2.1 Mạng cặp thông thường (Regular coupled networks) .33
2.2.2 Đồ thị ngẫu nhiên (Random Graphs) . 34
2.2.3 Các mô hình Small-world 36
2.2.4 Các mô hình Scale-free 39
2.3 Mạng Xã hội (Social Networks) . 41
2.4 Mạng thư Điện tử (Email Networks) . .43
2.4.1 Mạng thư Điện tử scale-free. .43
2.4.2 Tính chất Small-world của mạng thư điện tử. .44
2.4.3 Mạng thư Điện tử là mạng có hướng 46
2.4.4 Sự lan rộng của virus trong mạng thư điện tử .4 8
2.4.5 Mạng thư Điện tử khi bị spam tấn công .49
- 6 -
CHƯƠNG 3: ỨNG DỤNG MẠNG THƯ Điện tử TRONG LỌC
THƯ RÁC .50
3.2 Đề xuất phương pháp . 51
3.3 Đặc điểm của phương pháp .53
CHƯƠNG 4: THỰC NGHIỆM TRÊN LOG FILES 55
4.1 Đặc điểm dữ liệu 55
4.2 Kết quả thực nghiệm và phân tích .57
4.3 Nhận xét 60
KếT LUậN .61
64 trang |
Chia sẻ: lvcdongnoi | Lượt xem: 2724 | Lượt tải: 4
Bạn đang xem trước 20 trang tài liệu Đề tài Nghiên cứu mạng thư điện tử và ứng dụng trong lọc thư rác, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ẽ có bao
nhiêu nút bị nâng theo? ER chỉ ra rằng nếu xác suất p lớn hơn một ngưỡng pc nào đó
pc~(lnN)/N thì hầu hết mọi node trong đồ thị ngẫu nhiên là được kết nối, điều này có
nghĩa là bạn sẽ nhặt tất cả các nút bằng cách nâng một nút lên.
Hình 2.9 Sự phát triển của một đồ thị ngẫu nhiên: khởi tạo 10 node
trong(a), nối các cặp node với xác suất p=0.1 trong (b), p= 0.15 trong
(c) và p= 0.25 trong (d).
Bậc trung bình của một đồ thị ngẫu nhiên là pNNpk ≅−>=< )1( . Gọi Lrand là độ dài
đường dẫn trung bình của mạng ngẫu nhiên. Bằng quan sát ta có thể thấy sẽ có
randLk >< các node trong mạng ngẫu nhiên có khoảng cách Lrand hoặc rất gần với nó.
Do vậy, randLkN >< kNLrand /ln~ . Sự gia tăng của hàm
- 36 -
loga trong độ dài đường dẫn trung bình với độ lớn của mạng là một ảnh hưởng phổ
biến của small-world. Bởi vì lnN tăng chậm so với N, nó cho phép chiều dài trung bình
phải khá nhỏ thậm chí ngay cả trong một mạng khá lớn. Mặt khác, trong mạng ngẫu
nhiên hoàn toàn (ví dụ mạng của những người bạn thân) xác suất mà hai người bất kì
của bạn là bạn của nhau không lớn hơn xác suất hai người được trọn ngẫu nhiên trong
mạng của bạn là bạn của nhau. Vì thế, độ phân cụm của mô hình ER là
1/ =<= NkpC . Điều này có nghĩa là mạng ngẫu nhiên trên diện rộng nói chung
là không bị phân cụm. Trong thực tế, với N lớn thuật toán ER sinh ra một mạng đồng
nhất có các liên kết tuân theo phân phối Poisson (Hình 2.10).
Hình 2.10 Phân bố Poisson
Hình 2.11 Phân bố hàm lũy thừa
2.2.3 Các mô hình Small-world
Như đã đề cập ở trên, những mạng lưới (lattice) thông thường bị phân cụm
nhưng nhìn chung nó không thừa kế đặc tính small-world. Mặt khác, đồ thị ngẫu nhiên
có tính chất small-world nhưng lại không bị phân cụm. Chính vì thế, cả mô hình lưới
thông thường và mô hình ngẫu nhiên ER đều không thỏa mãn trong việc xây dựng lại
một số thuộc tính quan trọng của của nhiều mạng thực. Xét một cách tổng quát, hầu
hết những mạng thế giới thực cũng không hoàn toàn thông thường, cũng không hoàn
toàn ngẫu nhiên. Sự thật là mọi người thường biết những hàng xóm của họ nhưng cái
“vòng tròn” của những người quen của họ có thể bị hạn chế đối với những người sống
bên cạnh phía bên phải giống như mô hình lưới lattice được đề cập ở trên. Bên cạnh đó,
những tình huống giống như những liên kết giữa các trang web trong mạng World
Wide Web cũng không được tạo bởi mô hình ngẫu nhiên hay tiến trình ER như mong
đợi.
- 37 -
Nhằm mục đích miêu tả sự chuyển đổi từ lưới lattice thông thường sang một
đồ thị ngẫu nhiên, Watts và Strogatz [36] đã đưa ra mô hình mạng được gọi là mạng
small-world. Mô hình WS được sinh ra giống như Hình 2.12.
Hình 2.12 Trong mạng những người bạn thân thông thường (a), mọi
người là bạn chỉ với 4 người hàng xóm gần nhất. Trong mạng small-
world (b), trung bình một người biết 4 người khác nhưng những
người này có thể không phải là những người gần nhất. Trong mạng
ngẫu nhiên (c), trung bình mỗi người vẫn biết 4 người khác nhưng 4
người này ở vị trí rải rác
Thuật toán của mô hình WS Small-world.
Khởi đầu theo thứ tự: Bắt đầu với mạng phân cặp nearest-
neighbor bao gồm N node được sắp vào một vòng tròn, các node i sắp kề
sát các node hàng xóm của nó, i=1,2,3,...,K/2 với K là số nguyên chẵn
Ngẫu nhiên hóa các liên kết: Nối các cặp đỉnh một cách ngẫu
nhiên bằng một cung với xác suất p, thay đổi giá trị của p trong khoảng từ
p=0 đến p=1 để có kết quả giám sát tỉ mỉ.
Việc nối các đỉnh ở trong nội dung trên có nghĩa là làm thay đổi một đầu cuối
của liên kết tới một node được chọn một cách ngẫu nhiên từ cả mạng với ràng buộc bất
kì hai node khác nhau không thể có hơn một liên kết giữa chúng và không có node nào
liên kết với chính nó. Tiến trình này tạo ra pNK/2 các cung có sắp xếp dài, các cung
này liên kết tất cả các node với nhau và nó cũng có thể là một phần của những node
hàng xóm khác. Đối với hệ số phân cụm C(p) và độ dài đường dẫn trung bình L(p)
- 38 -
trong mô hình WS có thể được xem như một hàm cho việc nối các đỉnh với xác suất p.
Một lưới lattice tròn thông thường (p=0) có độ phân cụm cao ( 4/3)0( ≅C ) nhưng nó
có độ dài đường dẫn trung bình dài ( 1)0( 2 >>≅ KNL ) (Hình 2.11). Người ta đã chứng
minh rằng, đối với một mạng có xác suất liên kết p nhỏ khi mà các thuộc tính cục bộ
của mạng vẫ gần giống với những thuộc tính của mạng thông thường nguyên thủy, và
khi độ phân cụm không lớn hơn nhiều so với giá trị khởi tạo của nó ( )0(~)( CpC ) thì
độ dài đường dẫn trung bình giảm nhanh chóng giống như trong các mạng ngẫu
nhiên( )0()( LpL >> ) (Hình 2.13). Đây là một kết quả nghiên cứu thực nghiệm trong tự
nhiên. Một mặt có thể tạo một vài liên kết ngẫu nhiên để giảm đáng kể độ dài đường
dẫn trung bình. Mặt khác, một vài kết nối đã được tạo ra thì không thể thay đổi thuộc
tính phân cụm địa phương của mạng.
Hình 2.13 Độ dài đường dẫn trung bình và độ phân cụm
của mô hình WS small-world
Mô hình small-world cũng có thể được xem như mạng đồng nhất trong đó tất
cả các node có số cung xấp xỉ bằng nhau. Với sự tôn kính tác giả, mô hình WS small-
world được tạo ra giống với mô hình đồ thị ngẫu nhiên ER. Những công trình nghiên
cứu trên mạng small-world WS đã mở ra những nghiên cúu trên những mô hình mới
của mạng phức hợp, bao gồm một số sự biến đổi của mô hình WS. Một sự biến đổi
phổ biến đã được đề xuất bởi Newman và Watts [24] được biết đến như là mô hình
NW small-world. Trong mô hình NW, không thể phá vỡ được liên kết giữa hai node
hàng xóm gần nhất nhưng thay vì đó có thể thêm với xác suất p một liên kết p nối
giữa các cặp node. Tương tự như trên, trong mô hình này không cho phép một node
kết cặp với một node khác hơn một lần và không kết cặp với chính nó. Với p=0, mô
- 39 -
hình NW giảm so với mạng kết cặp nearest-neighbor và nếu p=1 nó trở thành mạng
cặp đôi đầy đủ. Mô hình NW có phần dễ hơn trong phân tích so với mô hình WS
nguyên thủy bởi vì nó điều khiển sự tạo thành của các cụm biệt lập, ngược lại điều này
lại có thể xảy ra thực sự trong mô hình WS. Với p đủ nhỏ và N đủ lớn, mô hình NW về
cơ bản là tương đương với mô hình WS. Ngày nay, hai mô hình này cùng nhau là mô
hình nguyên thủy của mô hình small-world một cách phổ biến.
Mô hình Small-world đóng vai trò chủ chốt trong các mạng xã hội, nơi mà
hầu hết mọi người đều là bạn bè với những người hàng xóm ngay bên cạnh, ví dụ
những người hàng xóm trên cùng một con phố hoặc những người bạn đồng nghiệp
trong cùng một văn phòng. Mặt khác, nhiều người có những người bạn cách xa về
khoảng cách chẳng hạn những người bạn ở các nước khác nhau sẽ được biểu diễn bởi
những cung rất dài được nối trong mô hình WS hoặc bởi kết nối thêm vào như trong
mô hình NW.
2.2.4 Các mô hình Scale-free
Một đặc trưng phổ biến của đồ thị ngẫu nhiên ER và mô hình WS small-world
đó là sự phân bố liên kết của mạng đồng nhất, đạt giá trị cực đại tại giá trị trung bình
và giảm nhanh theo hàm mũ. Các mạng như vậy gọi là mạng hàm mũ (exponentially
networks). Một khám phá có ý nghĩa gần đây trong lĩnh vực mạng phức hợp là một số
các mạng large-scale bao gồm Internet, WWW và mạng trao đổi chất có tính chất
scale-free và phân bố liên kết có dạng hàm lũy thừa (Hình 2.11).
Để giải thích nguồn gốc của độ phân bố hàm mũ, Barabási và Albert (BA) đã
đưa ra một mô hình mạng khác [4,5]. Họ đã tranh cãi là nhiều mô hình mạng hiện nay
không thể có đầy đủ cả hai thuộc tính quan trọng nhất của hầu hết các mạng thực.
Thứ nhất, các mạng thực là mở (có thể mở rộng) và chúng được tạo thành
động bằng cách thêm tiếp các node mới vào mạng nhưng các node khác (các node đã
tồn tại trong mạng) là tĩnh trong khi tất cả các cung có thể được thêm vào hay sắp xếp
lại. Số các node là cố định trong suốt quá trình định hình tiến trình. Thí dụ, WWW vẫn
tiếp tục tạo ra những trang web mới.
Thứ hai, cả đồ thị ngẫu nhiên và mô hình small-world đều có xác suất không
thay đổi khi tạo ra những cung mới nhưng điều này lại không đúng trong thực tế. Bằng
quan sát ta có thể thấy những trang web có rất nhiều liên kết (chẳng hạn trang chủ của
Yahoo hoặc CNN) rất có khả năng nó sẽ có nhiều trong liên kết đến nữa. Điều này cái
gọi là hiện tượng “rich-get-richer”.
- 40 -
Mô hình BA đưa ra giả thuyết là hai vấn đề chính của việc xây dựng một
mạng mang cấu trúc scale-free đó là việc phát triển và ưu tiên gắn kèm. Giả thuyết này
đã được chứng minh bằng thực tế bởi hầu hết các mạng tiếp tục phát triển bằng cách
thêm các node mới và các node mới được ưu tiên gắn với các node đã tồn tại với một
số lớn các kết nối (hiện tượng “rich-get-richer).
Tiến trình tạo ra một mô hình BA được tiến hành theo:
Thuật toán mô hình BA Scale-Free
1. Khởi tạo: Bắt đầu với một lượng nhỏ mo các node.
Lặp lại qua trình tạo các node: một node mới được thêm vào và nó
được liên kết với 0mm ≤ các node đã tồn tại
2. Sự gắn thêm ưu tiên:
Xác suất ∏i mà 1 node mới sẽ được kết nối với node i (một
trong số m node đang tồn tại) phụ thuộc vào cấp ki của node i, hay
∏ ∑=i j ji kk /
Sau t lần các bước, kết quả của thuật toán này trong một mạng với N= t+ mo
node và mt cung (Hình 2.14). Phát triển theo 2 luật này, mạng phát triển thành trạng
thái scale-invariant (rộng bất biến): Hình của độ phân bố không thay đổi trong khoảng
thời gian cụ thể và không thay đổi theo sự gia tăng của sự co giãn mạng. Độ phân cụm
tương ứng được thể hiện bởi hàm lũy thừa với số mũ 3, đó là xác suất tìm một node có
k cung là có tỉ lệ với k-3.
Những kết quả bằng số đã xác định rằng, trong sự so sánh với một đồ thị ngẫu
nhiên có cùng cỡ và cùng bậc trung bình, đường dẫn của mô hình scale-free có phần
nhỏ hơn và độ phân cụm lại cao hơn. Điều này khẳng định sự tồn tại của một vài node
mới bậc rất cao (ví dụ, với số lượng liên kết rất lớn) đóng vai trò “chìa khóa” trong
việc mang các node khác nhau trong mạng đến gần nhau hơn. Mặc dù, cho tới ngày
nay chưa có một công thức tính độ dài trung bình của đường dẫn cho mô hình scale-
free. Mô hình BA là mô hình nhỏ nhất sử dụng kĩ thuật đáp ứng cho độ phân bố lũy
thừa. Mô hình này có một số giới hạn rõ ràng khi so sánh với một số mạng thế giới
thực. Sự theo dõi này có ảnh hưởng trong việc nghiên cứu và phát triển mạng, với mục
đích khắc phục những giới hạn trong mô hình BA. Một sự tổng kết của mô hình này đã
được Albert và Barabási [2] đưa ra.
- 41 -
Hình 2.14 Một mạng scale-free gồm 130 node được tạo ra
theo mô hình BA scale-free. Năm node lớn nhất có màu
đỏ, chúng kết nối với 60% các node khác có màu xanh
2.3 Mạng xã hội (Social Networks)
Như đã trình bày ở phần trên, mạng xã hội chính là một ví dụ cụ thể của mạng
phức hợp. Nó là thành phần khá lớn và quan trọng trong mạng phức hợp. Một cách cụ
thể, mạng xã hội là mạng của một nhóm người hoạt động (actors) và các mối quan hệ
gắn kết họ với nhau. Những người hoạt động có thể là những cá nhân hoặc là tập thể
(các đơn vị như các phòng ban, các tổ chức, các gia đình...). Những người này trao đổi
tài nguyên với nhau và chính điều này đã gắn kết họ lại với nhau trong một mạng xã
hội. Tài nguyên ở đây bao gồm dữ liệu, thông tin, sản phẩm và các dịch vụ, hỗ trợ xã
hội hoặc hỗ trợ tài chính. Mỗi loại tài nguyên trao đổi được xem như một mỗi liên kết
của mạng xã hội và những cá nhân duy trì mối liên hệ này được tương ứng với việc
duy trì một nút (tie). Sức bền của nút này được sắp xếp từ yếu đến mạnh phụ thuộc vào
số lượng và các kiểu của nguồn tài nguyên họ trao đổi, mức độ thường xuyên trao đổi
và sự thân mật trong quá trình trao đổi giữa họ.
Các mối quan hệ trao đổi thường được tiến hành trong một số lượng dân số
lựa chọn nhất định. Những nhà phân tích trong lĩnh vực mạng dựa vào các quan hệ
giữa các thành viên của một cộng đồng, các hàng xóm, một nhóm hoặc một lớp để
hiểu cách các mạng xác định dân số hay các nhóm nhỏ bên trong một mạng lớn. Cách
- 42 -
mà một người kết nối với một người khác thể hiện cấu trúc nền tảng của mạng, bao
gồm những người thuộc và không thuộc vào một mạng và các kiểu trao đổi nào để xác
định một mạng. Mạng này được duy trì bởi sự trao đổi của các tài nguyên đơn lẻ hay
rất nhiều tài nguyên lớn tương ứng với các nút mạnh hay yếu. Ví dụ, các nhà phân tích
có thể dò tìm sự trao đổi thông tin về công việc của những người quen biết nhưng
không mấy thân thiện, mối quan hệ trong dòng tộc hoặc mối quan hệ giữa những
người công nhân. Các mạng xã hội được lần dấu bởi những sự chuyển đổi này chỉ ra
cách các nguồn tài nguyên di chuyển trong một mạng, cách mà các actors xác định vị
trí để tác động tới nguồn tài nguyên trao đổi và các kiểu của tài nguyên trao đổi rất
quan trọng trong những môi trường khác nhau.
Hình 2.15 Mô hình mạng xã hội
Vấn đề nghiên cứu cấu trúc của mạng xã hội đã gây được sự chú ý và quan
tâm sâu sắc của các nhà nghiên cứu trong nhiều năm qua. Đầu tiên là thí nghiệm của
Stanley Milgram (1967). Milgram đã bị cuốn hút vào việc khám phá ra độ dài đường
dẫn giữa mọi người trong một mạng xã hội trên diện rộng. Mặc dù thí nghiệm của ông
đã không toàn diện và đầy đủ song giả thuyết của ông đường kính của các mạng xã hội
là nhỏ vẫn còn có giá trị. Trên thực tế, người ta đã tìm hiểu được nhiều mạng xã hội
thỏa mãn giả thuyết đường kính nhỏ của Milgram, bao gồm các mạng cộng tác khoa
học (Newman [26]) và đồ thị các cuộc gọi điện thoại...
- 43 -
Sự quan tâm nghiên cứu về mạng xã hội của các nhà khoa học được thể hiện
thông qua những phát minh khoa học về mạng xã hội trong nhiều thập kỉ qua. nó được
mô hình và phân tích bằng các công cụ lý thuyết đồ thị. Qua những nghiên cứu này,
người ta đã chứng mình được mạng xã hội thực có xu hướng có cấu trúc của mạng bất
ngẫu nhiên (non-random) ngoài ra nó còn mang hai tính chất nổi bật và quan trọng
nhất của mạng phức hợp đó là thuộc tính small-world và thuộc tính độ phân phối theo
hàm lũy thừa của mạng scale-free (Albert & Barabasi [2], Strogatz [32]).
2.4 Mạng thư điện tử (Email Networks)
Mạng thư điện tử là một loại trong mạng xã hội. Nó là mạng của những người
trao đổi thư với nhau. Trong đó, mỗi node của mạng thư điện tử là một địa chỉ email
của những người dùng khác nhau và nếu hai người dùng bất kì có sự trao đổi thư với
nhau thì sẽ có một cung liên kết nối giữa hai node là địa chỉ tương ứng của hai người
dùng này.
Mô hình mạng thư điện tử đầu tiên được biết đến là mô hình mạng thư điện tử
của H. Ebel, L.-I. Mielsch và S. Bornholdt [11]. Họ đã chỉ ra được rằng mạng trao đổi
thư điện tử là mạng có hướng và nó mang cả hai thuộc tính của mạng small-world và
mạng scale-free.
2.4.1 Mạng thư điện tử scale-free.
Mạng thư điện tử
dùng để nghiên cứu của H.
Ebel, L.-I. Mielsch và S.
Bornholdt được tạo ra từ log
files của một máy chủ email
tại trường đại học Keil, log
files này ghi lại địa chỉ gửi
và địa chỉ nhận của mọi thư
điện tử từ hoặc tới một tài
khoản của các sinh viên
trong khoảng thời gian 112
ngày.
Hình 2.16 Sự phân bố bậc k của các node trong mạng thư
điện tử
Mạng bao gồm N=59812 node (bao gồm 5156 tài khoản của sinh viên) với giá trị bậc
trung bình của các node là =2.88 và gồm một vài cụm có ít hơn 150 node và một
- 44 -
thành phần lớn nhất có 56969 node (bậc trung bình =2.96). Sự phân phối bậc
của các node tuân theo hàm lũy thừa 81.1)( −∝ kkn với giới hạn số mũ (Hình 2.16).
Ví dụ của mạng thư điện tử ở trên giới hạn trong một máy chủ email riêng
biệt. Vì thế, bậc của những người dùng của máy chủ email này được nhận biết một
cách chính xác. Ở đây, những người dùng bên trong tương ứng với những địa chỉ
email của các sinh viên. Các node bên ngoài chính là những node tương ứng với địa
chỉ email khác có mối quan hệ với những node bên trong là địa chỉ email của các sinh
viên này. H. Ebel, L.-I. Mielsch và S. Bornholdt đã chỉ giải quyết độ phân cụm đối với
các các node bên trong (Hình 2.17) và nhận thấy rằng nó có thể được xấp xỉ bởi hàm
lũy thừa 32.1int )( −∝ kkn cũng như là giá trị bậc trung bình =14.86. Bậc của các
node bên ngoài thông thường bị đánh giá thấp, số mũ này nhỏ hơn so với toàn mạng.
Chính vì vậy, có nhiều node có bậc nhỏ trong sự phân bố của toàn mạng (Hình 2.16)
từ đó trong sự phân cụm giới hạn với các node bên ngoài (Hình 2.17). Chú ý rằng
ngưỡng của cả các độ phân phối là giống nhau. Vì thế, các địa chỉ gửi hầu hết là các
node bên trong (ví dụ thư quảng cáo hay thư rác) không được xem là bậc tĩnh.
Hình 2.17 Sự phân bố bậc k của các node ứng với địa chỉ
email của các sinh viên bên trong máy chủ email
2.4.2 Tính chất Small-world của mạng thư điện tử.
Bên cạnh tính chất scale-free, mạng thư điện tử còn mang tính chất của mạng
“small-world” [36]. Ví dụ, đối với hai node hàng xóm của cùng một node nào đó thì
xác suất mà hai node hàng xóm này có liên kết với nhau là rất cao và tồn tại đường dẫn
trung bình rất nhỏ l của một đường dẫn ngắn nhất giữa hai node. Để đánh giá sự phân
- 45 -
cụm của mỗi mạng người ta dùng độ phân cụm C tương ứng với mỗi mạng này. Độ
phân cụm C được định nghĩa như sau: Độ phân cụm vC của node v được đưa ra bằng
tỉ lệ tồn tại các liên kết vE giữa vk hàng xóm đầu tiên của nó và tổng số các cung có
thể )1(21 −vv kk . Bằng việc tính trung bình các vC của tất cả các node trong mạng cho ta
độ phân cụm của mạng.
vvv
v
vv kk
ECC
)1(
2
−=>=< (2.2)
Một định nghĩa đơn giản khác cho độ phân cụm:
triplesofnumber
triplesconnectedfullyofnumberC
__
)____(3×=∆ (2.3)
Trong đó, number_of_fully_connected_triples là tổng số các bộ ba node có liên
kết cặp đầy đủ với nhau (có ba cung liên kết giữa ba node đó), còn number_of_triples
là tổng số bộ ba node mà không đầy đủ các liên kết (chỉ có hai liên kết giữa ba node
đó).
Nhìn vào công thức (2.2) và (2.3) ta có thể thấy hai công thức này là không
tương đương. Công thức (2.2) có ý nghĩa định tính (vật lý) còn công thức (2.3) mang ý
nghĩa định lượng. Khi tính toán độ phân cụm của một mạng người ta thường tìm hiểu
xem nó có chịu ảnh hưởng bởi độ lớn của mạng không. Với dữ liệu tiến hành thực
nghiệm ta không thể bao quát hết được các liên kết của các node bên ngoài với nhau
hay nói cách khác mối liên kết giữa các node bên ngoài nói chung là không xác định
được.
Áp dụng định nghĩa (2.2) và (2.3) đối với mạng ví dụ ở trên người ta tính được
độ phân cụm của mạng 21044.3 −×=C và 31015.3 −∆ ×=C . So sánh giá trị này với độ
phân cụm của mạng mạng ngẫu nhiên có xác suất nối giữa hai node là p không đổi khi
đó độ phân cụm của mạng ngẫu nhiên là pCrand = . Cả hai giá trị C và ∆C đều lớn hơn
độ phân cụm trong một mạng ngẫu nhiên thực sự có cùng độ lớn (cùng số node)
51082.4 −×=randC . Giá trị của phân số tính độ phân cụm phân bố bởi phần của các node
bên trong thì nhỏ hơn phần của các node bên ngoài bởi vì mạng ví dụ không bao quát
hết được những liên kết giữa các node bên ngoài mà những node bên ngoài thì lại
chiếm đa phần các node hàng xóm của các node bên trong. Vì vậy, hầu hết các node
bên ngoài có một lượng lớn các node bên trong là các node hàng xóm của nó và các
node bên ngoài này kết nối với các node bên ngoài khác một cách thưa thớt. Theo định
- 46 -
nghĩa tính hệ số phân cụm (2.2) và (2.3) thì ∆C nhỏ hơn C thậm chí nó còn nhỏ hơn
2' 1087.1 −×=C là hệ số phân cụm của mạng có cỡ xác định với cùng sự phân bố cấp độ
nhưng được gán các liên kết một cách ngẫu nhiên [9].
Theo tính toán với mạng thư điện tử ví dụ này, giá trị đường dẫn trung bình
ngắn nhất trong thành phần lớn nhất của mạng được xác định là bằng 03.095.4 ±=l
với thuật toán Diskstra [31]. Nó lớn hơn độ dài đường dẫn trong một mạng có độ phân
phối bậc của các node là như nhau 43.3' =l [9]. Nó vẫn nhỏ hơn độ dài đường dẫn của
mạng ngẫu nhiên 10.10=randl (là mạng mà tất cả các cặp của các node được kết nối
với nhau bằng độ lớn xác suất không đổi theo cùng bậc trung bình [9,27]) Điều này có
thể giải thích là vì trong mạng thư điện tử có một số node có số lượng các liên kết lớn
(hubs) thể hiện tính của mạng scale-free.
2.4.3 Mạng thư điện tử là mạng có hướng
Mạng thư điện tử có thể được nghiên cứu như một đồ thị có hướng. Trong
mỗi một thư điện tử ta có thể xác định được người gửi và người nhận. Do đó, đường
liên kết của hai node có hướng trỏ từ người gửi đến người nhận. Tuy nhiên, ta cũng có
thể coi mạng thư điện tử như là một đồ thị không có hướng được đề cập trong nội
dung phân tích sự lan truyền của virus được trình bày ở dưới đây. Điều này cũng có
vẻ hợp lý bởi bởi vì việc nhận thư và việc gửi thư được điều khiển bởi những tiến trình
khác nhau.
Hình 2.18 Phân phối in-degree đối với mạng thư điện tử
- 47 -
Khi xem xét mạng thư điện tử là mạng có hướng, ta có thể xác định chính xác
số liên kết node đó với các node bên trong và số liên kết của các node đó với các node
bên ngoài. Do đó một lần nữa, việc tính toán độ phân phối bậc đối với của tất cả các
node xung quanh và chỉ các node xung quanh ở bên trong lại được đặt ra. Độ phân
phối bậc chỉ tính riêng đối với các node hàng xóm bên trong máy chủ email của một
node (in-degree) rất giống với độ phân phối bậc tính cho tất cả các node và tính cho
các node bên ngoài (Hình 2.18). Chúng đều có thể xấp xỉ bằng hàm lũy thừa
49.1)( −∝ iin . Theo giả thuyết về sự phát triển trong mô hình mạng của Huberman và
Adamic [1,17] có thể giải thích vì sao ta có thể chọn số mũ cho hàm phân phối mũ của
in-degree nhận giá trị khoảng -1.5 như trên. Họ đề xuất rằng số các liên kết một node
nhận tại một thời điểm là một phân số ngẫu nhiên của các liên kết nó vừa được nhận.
Đối với các out-degree thì sự phân bố phức tạp hơn. Trong toàn mạng, sự
phân bố của các out-degree j tuân theo sự phân bố bậc của mạng scale-free
03.2)( −∝ jjn (Hình 2.19). Mặc dù sự phân phối tương ứng cho các node bên trong là
trải rộng nhưng không thể hiện tính chất scale-free như sự phân phối đối với các node
bên ngoài. Nguyên nhân của hiện tượng này là do việc giới hạn cỡ của mạng ví dụ
nhưng cũng có thể chỉ ra các lỗi có hệ thống gây ra do khả năng các sinh viên sử dụng
nhưng account khác (bên ngoài) cho việc gửi email. Độ co dãn của số mũ out-degree
của tất cả các mạng nằm trong khoảng khá rộng cho vấn đề truyền thông và các mạng
xã hội ví dụ như mạng của các ngôi sao điện ảnh hoặc mạng điện thoại.
Hình 2.19 Phân phối out-degree đối với mạng thư điện tử
- 48 -
2.4.4 Sự lan rộng của virus trong mạng thư điện tử
Hiện tượng lan truyền virus thông qua mạng thư điện tử là một hiện tượng khá
phổ biến trong xã hội ngày nay. Môt virus thư điện tử hay một con sâu thư điện tử là
một chương trình được đính kèm với một thư điện tử. Khi người nhận mở thư điện tử
có chứa sâu thì chương trình email của người nhận sẽ bị điều khiển để gửi lại một số
các email nhiễm virus tới các địa chỉ email được tìm thấy trong sổ địa chỉ của người
nhận (address book) hoặc trong những email được lưu trữ trong thư mục inbox trong
hòm thư của người nhận.
Các virus thư điện tử theo cách này sẽ được nhân lên một cách nhanh chóng,
do vậy mạng thư điện tử sẽ là vô hướng. Cách lan rộng của các virus theo hình thức
này khác với chuỗi thư điện tử (chain email). Đối với chuỗi thư điện tử, trước khi
chuyển tiếp chuỗi thư điện tử tới người khác người nhận sẽ bị hỏi có đồng ý chuyển
không, nếu đồng ý thì mới chuyển tiếp chuổi thư điện tử tới địa chỉ khác, nếu không
đồng ý thì chuỗi thư điện tử sẽ không được chuyển tiếp. Đối với thư virus, người dùng
không hề biết việc thư virus này bị gửi tới tất cả những người có trong sổ địa chỉ của
mình. Virus thư điện tử có thể là nguyên nhân dẫn đến nhiều sự phá hoại mạng máy
tính một cách nghiêm trọng bằng việc pháp hủy dữ liệu trong các máy tính nhiễm virus
hoặc gây quá tải trên máy chủ email và một số thiết bị khác. Trong tháng 5 năm 2000,
sâu email “I love you” nhiễm tới 500.000 hệ thống riêng rộng và làm tẵc nghẽn 20%
số máy ở Đức.
Trong các mạng scale-free, ngưỡng cho tỉ lệ lan truyền thư virus thấp hơn
nhiều so với việc lan truyền thư virus trong các mạng được khám phá ra trước đây và
thậm trí triệt tiêu. Điều này có nghĩa là các cấu trúc tự tổ chức của mạng thư điện tử
làm cho việc lan rộng của các virus máy tính cũng như là của bất cứ thông tin nào khác
trở nên dễ dàng. Thêm vào đó, trong mạng thư điện tử ta rất hay gặp trường hợp các
node ngẫu nhiên trong mạng không hoạt động như mong đợi (failures). Ví dụ, một số
người tham gia không trả lời thư điện tử hoặc máy của người nhận có cài chương trình
ngăn virus.
Kết luận trên của mạng thư điện tử đã gợi ý ra những ứng dụng hữu dụng và
có lợi nhưng đồng thời cũng chỉ ra cái nguy hiểm mang tính cố hữu của mạng thư điện
tử. Sự bảo mật trong quá trình liên lạc bằng thư điện tử có thể phát triển theo hướng
xác định ra địa chỉ trung tâm của các node có lượng liên kết cao và theo dõi chúng để
tìm ra địa chỉ lan truyền virus một cách kĩ lưỡng hơn.
- 49 -
Như vây, mạng thư điện tử là một mạng mà các node được chỉ ra bằng các địa
chỉ email và các liên kết bởi sự chuyển đổi giữa các thư điện tử được thừa kế cả hai
thuộc tính scale-free và small-world. Mạng thư điện tử có thể được xem như là một
mạng không có hướng hoặc có hướng.
2.4.5 Mạng thư điện tử khi bị spam tấn công
Mạng thư điện tử thông thường (không bị tấn công bởi các spam) mang các
đặc trưng scale-free và small-world, nó không mang tính chất của mạng ngẫu nhiên
như đã trình bày ở trên. Khi mạng bị tấn công bởi các spam thì cấu trúc của mạng sẽ
thay đổi như thế nào?
Không giống như kiểu lan truyền của virus trong mạng thư điện tử là bị gửi
một cách tự động cho tất cả những người có trong danh sách địa chỉ hoặc những người
được lưu trong thư mục Inbox, spam do một tổ chức gửi với một số lượng lớn tới
những đia chỉ người dùng rất ngẫu nhiên. Thông thường các tổ chức gửi thư rác này có
một chương trình để tìm địa chỉ thư điện tử của người dùng rồi dùng những địa chỉ tìm
ra đó để gửi thư rác do đó những người bị gửi thư rác này thường không có mối quan
hệ thân thích gì với nhau.
Khi đó, trong mạng thư điện tử bị tấn công bởi spam địa chỉ gửi spam trở
thành một node rất đặc biệt. Nó gửi đi một lượng thư lớn tới rất nhiều người ngẫu
nhiên (những người không có mối quan hệ gì với nhau) và nó hầu như không nhận thư
phản hồi từ người khác.
Như vậy, mạng thư điện tử bị tấn công bởi spam là một mạng thư điện tử
nhưng có thêm một số node đặc biệt của những địa chỉ gửi thư rác. Như vậy, mạng thư
điện tử bị tấn công bởi vẫn mang đặc trưng ban đầu của nó đó là hai đặc trưng của
mạng scale-free và small-world. Ngoài ra, do bị ảnh hưởng của những node là địa chỉ
gửi spam, mạng mang thêm tính chất của mạng ngẫu nhiên.
Tóm lại, trong mạng thư điện tử, các node thông thường có quan hệ thư qua
lại với các node hàng xóm của nó trong mạng và giữa các node hàng xóm của node
này cũng có quan hệ qua lại thư với nhau còn những node tương ứng với những địa chỉ
gửi spam gửi thư rất nhiều mà không nhận thư của ai và giữa các node hàng xóm của
node gửi spam này thường ngẫu nhiên và không có mối quan hệ với nhau. Đây chính
một đặc điểm khác nhau giữa các node thông thường và các node gửi thư rác. Những
đặc điểm khác biệt của các node gửi spam là cơ sở cho phương pháp lọc thư rác bằng
bằng đồ thị thư điện tử mà sẽ được trình bày trong chương 3.
- 50 -
Chương 3
ỨNG DỤNG MẠNG THƯ ĐIỆN TỬ
TRONG LỌC THƯ RÁC
Phương pháp lọc thư rác được sử dụng phổ biến trong hầu hết các
máy chủ email hiện nay đó là phương pháp dựa trên việc thiết lập các quy
tắc SpamAssassin và phương pháp thống kê Bayesian. Tuy vậy, các phương
pháp này thường chiếm một lượng tài nguyên lớn của máy chủ khi thực
hiện quá trình xác minh các thư điện tử gửi đến là thư rác và thư thường,
đặc biệt là đối với những máy chủ có nhiều người dùng và lượng thư điện
tử trao đổi là lớn. Chương này trình bày một phương pháp lọc thư rác khá
hiệu quả và có thể giảm tải việc tính toán cho máy chủ email rất nhiều. Đó
là phương pháp lọc thư rác dựa trên việc tính độ phân cụm của mạng thư
điện tử. Đây là một hướng tiếp cận mới và đang được các nhà khoa học
trên thế giới quan tâm phát triển.
3.1 Yêu cầu của bài toán đặt ra
Cuộc chiến tranh giữa những kẻ gửi thư rác và các bộ lọc thư rác dường như
không thể chấm dứt. Những người phát triển phần mềm lọc thư rác thì cố gắng tìm
hiểu một đặc điểm riêng nào đó của thư rác và dựa trên những đặc điểm này để lọc thư
rác. Nhưng những kẻ phát tán thư rác (spammers) thích nghi rất nhanh với các biện
pháp ngăn ngừa thư rác, chỉ một thời gian không lâu sau những kẻ gửi thư rác này lại
tìm ra được cách khắc phục những đặc điểm đó. Như vậy, nó sẽ trở thành vòng tròn
luẩn quẩn. Một bộ lọc tốt phải là một bộ lọc kết hợp được các phương pháp lọc để các
phương pháp này có thể phát huy thế mạnh của mình và khắc phục những nhược điểm
của các phương pháp khác.
Xu hướng của một công cụ lọc thư rác hiệu quả phải đảm bảo một số yêu cầu
tối thiểu như:
Bộ lọc có thể lọc được nhiều loại thư rác với độ chính xác cao.
Tự động cập nhập thêm danh sách các spam mới mà không cần có sự can
thiệp của con người.
- 51 -
Tự động thiết đặt các quy tắc lọc thư rác cho phù hợp đối với từng người dùng
hoặc từng tổ chức.
3.2 Đề xuất phương pháp
Với những yêu cầu đặt ra như trên, chương này trình bày phương pháp mới có
sử dụng các tính chất của mạng thư điện tử để xây dựng công cụ lọc thư rác. Đây là
phương pháp sử dụng lý thuyết đồ thị tự động trong việc xác định mạng ứng mỗi
người dùng. Một người dùng thư điện tử tương tự như đang sử dụng mạng thư điện tử
của anh ta. Mạng này gồm một node tương ứng với anh ta và những node được nhận
thư từ anh ta cũng như những node mà anh ta gửi thư đến. Mạng có hướng, với những
thư điện anh ta nhận từ người khác thì sẽ có cung hướng từ những người đó tới anh ta,
còn những thư điện tử mà anh ta gửi đi tương ững với những cung hướng từ anh ta đến
người đó. Số lượng trao đổi thư giữa hai node bất kì trong mạng chính là trọng số của
cung nối giữa hai người đó.
Ta ký hiệu đồ thị mạng thư điện tử là G = (E, V), trong đó E là tập các đỉnh
(địa chỉ người dùng) và V là tập các cung nối các cặp đỉnh trong đồ thị. Một cách phổ
biến [6,11,24,25,29], các tác giả thường dùng cách đánh chỉ số cho các đỉnh của đồ thị,
vì vậy E là tập các số tự nhiên không vượt quá N, với N là số địa chỉ người dùng trong
mạng điện tử.
Tính chất quan trọng trưng quan trọng cho mạng xã hội (nói chung) và mạng
thư điện tử nói riêng là scale-free và small-world. Theo [11], độ đo scale-free được
tính theo số cung gắn với các đỉnh trong đồ thị, mang ý nghĩa về phân bố cung đối với
các đỉnh trong đồ thị. Thông thường, số cung gắn với các đỉnh khác nhau là khác nhau.
Độ đo scale-free của mạng thường chịu ảnh hưởng nhiều bởi các đỉnh với số lượng lớn
các cung liên kết đến. Theo [24], độ đo small-world thể hiện độ dài liên kết giữa các
đỉnh trong đồ thị. Độ đo này được tính tương ứng với chiều dài trung bình của đường
dẫn ngắn nhất giữa hai đỉnh bất kì.
P.O. Boykin và V. Roychowdhury [6] xuất phát theo hướng tiếp cận dựa theo
header có trong Inblox của mỗi người dùng. Các tác giả mô hình hóa sự trao đổi thư
điện tử của tập người dùng, một mạng thư điện tử, như một mạng social network. Dựa
theo ý nghĩa của hai độ đo đặc trưng trên đây, công thức sau đây để tính độ phân cụm
của đỉnh thứ i trong mạng thư điện tử được đề xuất:
)1(
*2
−= ii
i
i kk
E
C (3.1)
- 52 -
Trong đó, Ci là độ phân cụm của đỉnh i, ki số đỉnh kết nối với đỉnh i, Ei là số
lượng cung nối giữa các đỉnh láng giềng của i.
Tuy nhiên, để tính độ phân cụm cho các đỉnh trong mạng thư điện tử công
thức này có một vài hạn chế. Thứ nhất, nó đã bỏ qua tất cả các đỉnh có k = 1. Thứ hai
và là quan trọng hơn, kết quả tính toán không cho phép phân biệt được các đỉnh tuy có
cùng giá trị E = 0 nhưng có giá trị k khác nhau (C = 0 khi E = 0).
Để khắc phục những nhược điểm trên, công thức để tính toán độ phân cụm C
được thay đổi như sau:
1)1(
)1(*2
+−
+=
ii
i
i kk
E
C (3.2)
Tuy nhiên, nhằm hướng tới mục tiêu tính toán độ tin cậy của người dùng,
công thức trên vẫn chưa thực sự thuyết phục. Thông thường thì những người nhận
được nhiều thư là những người có độ tin cậy cao. Nếu sử dụng công thức (3.2) để tính
thì vẫn không phân biệt được trường hợp một người gửi thư cho nhiều người khác và
trường hợp một người nhận thư từ nhiều người khác. Vì vậy, cần phải xem xét đồ thị
thư điện tử trên phương diện có hướng và có trọng số do đó đề xuất công thức tính độ
phân cụm mới như sau:
i
ii
i
i RSS
E
C *2.0
1)1(
)1(*2 ++−
+= (3.3)
Trong đó, Ei là số cung nối giữa các node xung quanh node i, Si là số node mà
có một cung từ node i đến các node này (số node mà được node i gửi thư đến), Ri là số
node mà có cung từ các node này đến i (số node gửi thư cho node i).
Công thức đảm bảo nếu một người gửi thư cho nhiều node lân cận mà những
node lân cận này có mối quan hệ với nhau thì độ phân cụm cao và nếu người này được
nhận thư từ các node lân cận khác nữa thì độ phân cụm của người đó càng lớn. Đối với
những spam thường không nhận thư nên Ri = 0.
Trong một khoảng thời gian dài, người dùng thường trao đổi qua lại nhiều thư
với nhau. Số lượng thư trao đổi càng nhiều càng đánh giá mức độ thân quen của họ.
Để có một cái nhìn khái quát, em đưa trọng số cung vào để tính toán độ phân cụm.
Trọng số cung w của mỗi cung là số lượng thư được trao đổi giữa hai node người dùng.
Công thức mới cho các đại lượng Ei, Si, Ri
- 53 -
∑
=
−+=
Edge
j
ji wE
1
)05.0*)1(1( (3.4)
∑
=
−+=
Send
j
ji wS
1
)05.0*)1(1( (3.5)
∑
=
−+=
cieve
j
ji wR
Re
1
)05.0*)1(1( (3.6)
Trọng số cung chỉ có ý nghĩa khẳng định thêm mức độ quan hệ giữa hai node
với nhau. Vì thế, chúng tôi chỉ dùng hệ số 0.05 để tạo ra sự chênh lệch không quá lớn.
Công thức độ phân cụm mà đưa ra ở trên thể hiện được cả hai thuộc tính
scale-free và small-world.của mạng xã hội. Số hạng thứ nhất của công thức (3.3) thể
hiện cho tích chất small-world còn số hạng thứ hai của công thức (3.3) thể hiện cho
tính chất scale-free.
3.3 Đặc điểm của phương pháp
Phương pháp này có một số ưu điểm sau:
Anti-spam phát triển theo hướng không phụ thuộc vào nội dung: Phương
pháp mà chúng tôi đưa ra khắc phục được nhược điểm của hướng tiếp cận
nội dung đó là không can thiệp vào nội dung thư của người dùng. Hơn thế
nữa, bộ lọc có thể áp dụng cho bất cứ loại ngôn ngữ của nước nào hoặc với
những thư có kiểu đặc biệt (như chèn hình ảnh, âm thanh, website…) mà
không cần phải đưa ra những quy tắc riêng cho từng loại.
Tự động thiết lập các quy tắc: Phương pháp này khắc phục được nhược
điểm của hướng tiếp cận header đó là khả năng tự động thiết lập các quy tắc
để tìm ra spammer. Blacklist sẽ được tự động cập nhật thêm những
spammer vào mà không cần sự can thiệp của người quản trị.
Anti-spam phát triển theo hướng bản địa hóa các quy tắc: một nhóm các
quy tắc chỉ dành cho một nhóm server nhất định, được thiết lập chỉ dựa vào
dữ liệu của server đó.
Giải quyết được vấn đề cold-start: Thời gian mà hệ thống phải học để lọc
được thư rác giảm rất nhiều so với các hướng tiếp cận khác. Hệ thống không
cần sự can thiệp của người dùng lúc đầu phân loại đâu là địa chỉ tin cậy, đâu
là địa chỉ gửi thư rác. Trong khi đó, một số phương pháp lọc thư rác hiệu
- 54 -
quả (thí dụ Bayesian) phải cần một tập dữ liệu đủ lớn và cập nhật, người
dùng phải phân biệt và cho máy học đâu là thư rác, đâu là thư bình thường.
Ngăn được sự tấn công của spammers: Những spammers muốn tấn công
được hệ thống nó phải làm cho độ phân cụm của nó cao. Tuy nhiên, muốn
có hệ số phân cụm cao ngoài việc phải tạo ra mạng có tính chất social
network cho nó, nó còn phải được nhận thư từ những người ở bên trong hệ
thống và điều này là không thể với một spammer.
Giảm sự truy cập tới máy chủ email: Đối với những máy chủ email lớn (thí
dụ Yahoo mail, Gmail…) việc giảm tải sự truy cập đến máy chủ là rất cần
thiết. Với hướng tiếp cận dựa trên nội dung phải xử lý nội dung của từng thư
để xác định spam nhưng phương pháp của chúng tôi chỉ cần xử lý với log
files của máy chủ. Như vậy sẽ giảm rất nhiều thời gian cũng như các tiến
trình xử lý ở phía máy chủ.
- 55 -
Chương 4
THỰC NGHIỆM TRÊN LOG FILES
Để chứng minh sự đúng đắn của thuật toán đã đưa ra ở chương 3,
chương này trình bày thực nghiệm tiến hành trên log files của máy chủ
email của Đại học Quốc Gia Hà Nội trong thời gian một tuần và kết quả
thu được từ thực nghiệm.
4.1 Đặc điểm dữ liệu
Dữ liệu dùng để xây dựng đồ thị mạng thư điện tử được lấy từ log files của
một máy chủ email Đai học Quốc gia Hà Nội trong khoảng thời gian một tuần. Từ log
files này cung cấp những thông tin về người gửi, người nhận và thời gian của các thư
điện tử được gửi đi, nhận về thông qua máy chủ email này. Log files không ghi nội
dung thư, vì vậy không xâm phạm đến tính riêng tư của người dùng.
Hình 4.1 Đồ thì thư điện tử của máy chủ email của Đại học Quốc Gia Hà Nội
(từ ngày 28/3 đến 03/04 năm 2006)
- 56 -
Sau khi phân tích dữ liệu thống kê được tổng số 19875 người dùng tương ứng
với 19875 địa chỉ email khác nhau. Trong đó có 1150 người dùng bên trong máy chủ
email và 18725 người dùng ở bên ngoài. Tổng số thư được trao đổi trong khoảng thời
gian này là 88842 thư.
Từ dữ liệu thu được em xây dựng được đồ thị mạng thư điện tử với mỗi node
là một địa chỉ email, một cung có hướng từ node tương ứng với địa chi gửi tới node
tương ứng với địa chỉ nhận. Trọng số của cung là số lượng thư ứng với cung đó ở
những thời điểm gửi khác nhau.
Hình 4.1 minh họa một đồ thị mạng thư điện tử của máy chủ email của Đại
học Quốc gia Hà Nội trong khoảng thời gian một tuần từ ngày 28/03 đến ngày 03/04
năm 2006. Hình 4.2 minh họa đồ thị mạng thư điện tử của máy chủ trong một giờ (từ
18:00 đến 19:00 ngày 28/3). Các node màu xanh tương ứng với những người dùng bên
trong máy chủ email, các node màu đỏ tương ứng với những người dùng bên ngoài.
Chiều của mũi tên cho biết thư được gửi đi từ người gửi đến người nhận.
Hình 4.2 Đồ thì thư điện tử của máy chủ email của Đại học Quốc
Gia Hà Nội (từ 18:00 đến 19:00 ngày 28/3/2006)
- 57 -
4.2 Kết quả thực nghiệm và phân tích
Với dữ liệu trên, sau khi tiến hành tính toán độ phân cụm của người dùng
bằng công thức(3) chúng tôi thu được kết quả kết quả rất khả quan.
Hình 4.3 Biểu đồ độ phân cụm của người dùng bên trong máy chủ email
Hình 4.4 Biểu đồ độ phân cụm của người dùng bên ngoài máy chủ email
- 58 -
Hình 4.3 biểu đồ độ phân cụm của người dùng bên trong máy chủ email. Biểu
đồ hiển thị tổng số người dùng ứng với một độ phân cụm nào đó.
Hình 4.4 biểu đồ độ phân cụm của người dùng bên ngoài máy chủ email. Biểu
đồ biểu thị tổng số người dùng ứng với một độ phân cụm nào đó.
Từ biểu đồ hình 4.3 và hình 4.4 cho thấy người dùng bên trong email server
thường có độ phân cụm cao (tập trung từ 0 đến 180) trong khi đó người dùng bên
ngoài thì độ phân cụm rất thấp (tập trung từ 0 đến 2.5). Hình 4.4 cho thấy một số
lượng không nhỏ những người dùng có độ phân cụm rất thấp (từ 0 đến 0.5) đây rất có
thể là những địa chỉ gửi thư rác (xem chi tiết trong bảng 2).
Giá trị độ phân
cụm
Tổng số người
dùng
Người dùng bên
trong
Người dùng bên
ngoài
1.0≤C 653 0 653
5.01.0 ≤< C 1329 15 1314
0.15.0 ≤< C 1734 28 1706
5.10.1 ≤< C 761 33 728
0.25.1 ≤< C 7560 39 7521
5.20.2 ≤< C 6606 309 6297
0.35.2 ≤< C 583 106 477
0.40.3 ≤< C 184 171 13
0.50.4 ≤< C 100 96 4
0.5>C 366 352 14
Bảng 2 Sự phân bố tổng số địa chỉ của người dùng, người dùng bên ngoài và người
dùng bên trong máy chủ email theo khoảng giá trị độ phân cụm.
Hình 4.5 là đồ thị mạng thư điện tử của một người dùng ở bên ngoài có độ
phân cụm thấp C=0.00055. Từ đồ thị ta có thể thấy rõ người này đã phát tán một lượng
thư lớn đến rất nhiều địa chỉ khác mà không nhận được thư từ bất kì người dùng nào.
Số liên kết giữa những người dùng bị người này gửi thư đến rất ít, chỉ có một liên kết
từ người dùng 420 gửi đến người dùng 430 (đây có thể là sự trùng hợp một cách ngẫu
nhiên). Do đó ta có thể khẳng định đây là người dùng có độ tin cậy thấp và là một địa
chỉ gửi thư rác.
- 59 -
Hình 4.5 Đồ thị của người dùng bên ngoài máy chủ
có độ phân cụm thấp
Hình 4.6 Đồ thị người dùng bên trong máy chủ có độ
phân cụm cao.
Hình 4.6 là đồ thị
mạng thư điện tử của
người dùng bên trong máy
chủ email có độ phân cụm
cao C= 20.887. Nhìn đồ thị
này ta có thể thấy người
dùng này nhận được rất
nhiều thư từ người dùng
khác và địa chỉ này cũng
gửi nhiều thư đi nhưng
giữa những người nhận thư
từ địa chỉ này có mỗi quan
hệ chằng chịt với nhau. Do
vậy, độ phân cụm của
người dùng này cao hay
nói cách khác đây chính là
người dùng có độ tin cậy
cao và không phải là địa
chỉ gửi thư rác.
Hình 4.7 là đồ thị
mạng thư điện tử của
người dùng bên ngoài máy
chủ email có độ phân cụm
C= 1.7595. Từ đồ thị ta
thấy người dùng này gửi
thư cho một lượng người
không quá lớn và có sự
nhận lại thư từ những
người gửi đi. Do đó, đây là
một địa chỉ email bình
thường và không phải là
địa chỉ phát tán thư rác.
- 60 -
Hình 4.7 Đồ thị người dùng bên ngoài máy chủ
có độ phân cụm cao
4.3 Nhận xét
Từ các hình vẽ và bảng thống kê 2 cho ta thấy, công thức tính độ phân cụm
trên rất hợp lý và hiệu quả trong đánh giá độ tin cậy của người dùng trong một máy
chủ email.
Những người dùng quan trọng (nhận thư từ nhiều node khác và những người
họ gửi thư có mối quan hệ với nhau) mạng thư điện tử của họ có độ phân cụm cao.
Ngược lại, mạng của người dùng không quan trọng có độ phân cụm thấp. Đặc biệt, với
những node tương ứng với spammers thì mạng thư điện tử có độ phân cụm rất thấp.
Kết quả hậu kiểm trực tiếp đã khẳng định tính đúng đắn của đánh giá nhận xét trên đây.
Từ kết quả trên có thể xây dựng được một công cụ lọc thư rác hiệu quả bằng
cách xác định hai ngưỡng của độ phân cụm C. Ngưỡng thứ nhất gọi là Cspam Nếu node
nào có độ phân cụm nhỏ hơn Cspam thì địa chỉ ứng với node ấy chính là địa chỉ gửi thư
rác. Ngưỡng thứ hai gọi là Cham. Nếu node nào có độ phân cụm lớn hơn Cham thì địa chỉ
ứng với node đó là một địa chỉ tin cậy không phải là địa chỉ gửi thư rác.
Những địa chỉ tương ứng với các node có độ phân cụm nhỏ hơn Cspam sẽ bị
đưa vào Blacklist. Ngược lại, những địa chỉ tương ứng với các node có độ phân cụm
lớn hơn Cham được đưa vào Whitelist. Những địa chỉ tương ứng với những node còn lại
( Cspam < C < Cham) được đưa vào Greylist để theo dõi trong thời gian tiếp theo.
- 61 -
Kết luận
Lọc spam bằng phương pháp dùng mạng thư điện tử là một hướng mới và
khắc phục được nhiều nhược điểm cố hữu của các phương pháp trước đây. Hướng tiếp
cận này đặc biệt hiệu quả trong việc sử dụng làm bộ lọc cơ sở cho việc giải quyết một
cách tổng quát cho vấn đề thư rác trong trường hợp đòi sự chính xác cao nhưng không
giải quyết được bằng những bộ lọc dựa trên nội dung.
Trên thực tế, hiện tại địa chỉ email có thể được làm giả, có nghĩa là spam có
thể giả danh địa chỉ email tin cậy, tuy vậy khi các phương pháp SPF, Domain-keys,
CallID được áp dụng rộng rãi (đây là xu hướng phát triển của anti-spam), mọi địa chỉ
email của người gửi sẽ là địa chỉ email thật. Vì vậy, để có một công cụ lọc thư rác này
thực sự hiệu quả cần kết hợp thêm với các phương pháp khác.
Khóa luận đã hệ thống hóa một số vấn đề lý thuyết về thư rác, các hướng tiếp
cận trong vấn đề lọc thư rác trước đây đồng thời trình bày một số khái niệm và đặc
điểm của các mạng phức hợp, mạng xã hội và mạng thư điện tử. Một cách tính mới
cho độ phân cụm của mạng thư điện được đề xuất, quá trình tiến hành thực nghiệm đối
với cách tính mới này và đã thu được một số kết quả rất khả quan.
Với kết quả thu được, dự định trong thời gian tới sẽ tiến hành thử nghiệm tích
hợp chương trình lọc thư rác này vào máy chủ email của Đại học Quốc Gia Hà Nội.
Kết quả của khóa luận đóng góp vào đề tài nghiên cứu cơ bản và đề tài cấp nhà nước
về lọc nội dung trên Internet.
- 62 -
Tài liệu tham khảo
[1] LA Adamic and BA Huberman. “Power-law distribution of the World Wide
Web”. Science, 287:2115a, 2000
[2] R. Albert and A-L. Barabási, “Statistical mechanics of complex networks”,
Review of Modern Physics, vol. 74, pp. 47-91, January 2002.
[3] R. Albert, H. Jeong and A.-L. Barabási, “Diameter of the World Wide Web,”
Nature, vol. 401, pp. 130-131, Sept. 1999.
[4] A-L. Barabási and R. Albert, “Emergence of scaling in random networks”,
Science, vol. 286, pp. 509-512, Oct. 1999.
[5] A-L. Barabási, R. Albert and H. Jeong, “Mean-field theory for scalefree random
networks”, Physica A, vol. 272, pp. 173-187, 1999.
[6] P.O. Boykin and V. Roychowdhury (2005). Leveraging social networks to fight
spam. IEEE Computer, 38(4):61–68, 2005.
[7] R. F. i Cancho, C. Janssen and R. V. Sole, “Topology of technology graphs:
small world patterns in electronic circuits”, Phys. Rev. E, vol. 64, 046119, Sept.
2001.
[8] R. F. i Cancho and R. V. Sole, “The small-world of human language”, Proc. R.
Soc. London, Ser. B, vol. 268, no. 1482, pp. 2261 - 2265, 2001
[9] J. Davidsen, H. Ebel, and S. Bornholdt, “Emergence of a small world from local
interaction: Modeling acquaintance networks”, Phys. Rev. Lett. 88, 128701
(2002)
[10] Deborah Fallows (2003). Spam: How it is hurting email and degrading life on
the internet. Technical report, Pew Internet and American Life Project, Oct 2003.
[11] H. Ebel, L-I. Mielsch and S. Bornholdt (2002). Scale-free topology of email
networks, Phys. Rev. E, 66, 035103 (R), Sept. 2002.
[12] P. Erdös and A. Rényi, “On the evolution of random graphs”, Publ. Math. Inst.
Hung. Acad. Sci., vol. 5, pp. 17-60, 1959.
[13] M. Faloutsos, P. Faloutsos and C. Faloutsos, “On power-law relationships of the
Internet topology”, Comput. Commun. Rev., vol. 29, pp. 251- 263, 1999.
[14] J. Golbeck and J. Hendler (2004). Reputation Network Analysis for Email
Filtering. Proc. of the Conference on Email and Anti-Spam (CEAS), Mountain
View, CA, USA, July 2004.
[15] A. Gray and M. Haahr. Personalised (2004). Collaborative Spam Filtering. Proc.
of the Conference on Email and Anti-Spam (CEAS), Mountain View, CA, USA,
July 2004.
- 63 -
[16] Guanrong Chen “Complex networks: Modelling, control and synchoroniation” ,
Science, vol. 208, no. 554, pp. 824-827, Oct. 2003.
[17] BA Huberman and LA Adamic, "Growth dynamics of the world-wide web,"
Nature 401, 131 (1999)
[18] H. Jeong, B. Tombor, R. Albert, Z. Oltvai, and A.-L. Barabási, “The large-scale
organization of metabolic networks,” Nature, vol. 407, pp.651-653, Oct. 2000.
[19] Medina, I. Matta, J. Byers, “On the origin of power-laws in Internet topologies”,
ACM SIGCOMM Comput. Commun. Rev., vol. 30, no. 2, 18-28, 2000.
[20] Mehran Sahami, Susan Dumais, David Heckerman and Eric Horvitz (1998). A
Bayesian Approach to Filtering Junk Email. Proceedings of AAAI-98 Workshop
on Learning for Text Categorization.
[21] S. Milgram, “The small-world problem”, Psychology Today, vol. 2, pp. 60-67,
1967
[22] R. Milo, S. Shen-Orr, S. Itzkovitz, N. Kashtan, D. Chklovskii and U.Alon,
“Network motifs: Simple building blocks of complex networks”, Science, vol.
298, no. 5594, pp. 824-827, Oct. 2002.
[23] J. M. Montoya and R. V. Solé, “Small-world patterns in food webs”, J.Theor.
Biol. vol. 214, 405-412, 2002.
[24] M. E. J. Newman and D. J. Watts, “Renormalization group analysis of the
small-world network model”, Phys. Lett. A, vol. 263, pp. 341-346, 1999.
[25] M. E. J. Newman, S. Forrest, and J. Balthrop (2002), “Email networks and the
spread of computer viruses”. Physical Review E 66, 2002.
[26] M. E. J. Newman, “Scientific collaboration networks: I. Network construction
and fundamental results”, Phys. Rev. E, vol. 62, 016131, 2001.
[27] MEJ Newman, SH Strogatz and DJ Watts, “Random graphs with arbitrary
degree distributions and their applications”, Phys. Rev. E 64, 026118 (2001)
[28] R. Pastor-Satorras and A. Vespignani, “Immunization of complex networks”,
Phys. Rev. E65, 036104 (2002)
[29] Paul Alexandru Chirita, J¨org Diederich, Wolfgang Nejdl (2005). MailRank:
Using Ranking for Spam Detection. CIKM ’05 Bremen, Germany
[30] M. Perone (2004). An overview of spam blocking techniques. Technical report,
Barracuda Networks, 2004.
[31] Kenneth H. Rosen, “Handbook of Discrete and Combinatorial Mathematics”,
CRC Prss, Boca Raton, 2000
- 64 -
[32] S. H. Strogatz, “Exploring complex networks”, Nature, vol. 410, pp. 268-276,
March 2001
[33] S. Valverde, R. Ferrer-Cancho and R. V. Sole, “Scale-Free Networks from
optimal design”, arXiv: cond-mat/0204344, April 2002.
[34] A. Vazquez, R. Pastor-Satorras and A. Vespignani, “Internet topology at the
router and autonomous system level”, arXiv: cond-mat/0206084, June 2002.
[35] X. F. Wang, “Complex networks: topology, dynamics and synchronization”, Int.
J. Bifurcation & Chaos, vol. 12, no. 5, pp. 885-916, May 2002.
[36] D. J. Watts and S. H. Strogatz, “Collective dynamics of ‘small world’ networks”,
Nature, vol. 393, pp. 440-442, June 1998.
[37] R. J. Williams, N. D. Martinez, E. L Berlow, J. A. Dunne and A-L. Barabasi,
“Two degrees of separation in complex food webs”, Proc. Natl.Acad. Sci, vol 99,
no. 20, 12913-12916, Oct. 2002.
[38] G.L. Wittel and S.F. Wu (2004). On Attacking Statistical Spam Filters. Proc. of
the Conference on Email and Anti-Spam (CEAS), Mountain View, CA, USA,
July 2004.
[39] Spam Filtering Research
Các file đính kèm theo tài liệu này:
- Nghiên cứu mạng thư điện tử và ứng dụng trong lọc thư rác.pdf