Luận văn Đánh giá mức độ phổ biến của quảng cáo và quảng cáo độc hại trên Website

 Nhận xét Nội dung của luận văn tập trung vào việc khảo sát, thống kê mức độ phổ biến của quảng cáo, quảng cáo độc hại trên các website . Việc khảo sát, thống kê tập trung vào các website của Việt Nam trên một số lĩnh vực cụ thể. Tuy nhiên, trong quá trình khảo sát thực tế nhận thấy các website này chưa có quảng cáo độc hại. Qua đó, có thể nhận thấy rằng, việc thực hiện phân phối quảng cáo độc hại trên website của những “kẻ xấu” ngày càng tinh vi và khó phát hiện, có thể gây hại đối với người dùng duyệt web. Do đó, kết quả của luận văn đã đóng góp một phần nhỏ trong việc phát hiện quảng cáo độc hại trên website, mặc dù mức độ và khả năng phát hiện chưa cao.  Ý nghĩa Kết quả của luận văn sẽ giúp các cơ quan quản lý nhà nước về lĩnh vực Thông tin và Truyền thông (Bộ Thông tin và Truyền thông hoặc Sở Thông tin và Truyền thông các tỉnh/thành phố trực thuộc Trung ương) theo dõi, kiểm tra được danh sách các websites của các tổ chức, cá nhân thuộc phạm vi quản lý của cơ quan mình; làm cơ sở phục vụ cho công tác quản lý, chỉ đạo đối với các tổ chức, cá nhân là chủ sở hữu hoặc các tổ chức, cá nhân có liên quan đến thực hiện quảng cáo trên website, sao cho việc quản lý, vận hành quảng cáo trên website được tốt hơn, sạch hơn và đảm bảo an toàn cho người dùng duyệt web. Mặt khác, kết quả của luận văn cũng tư vấn giúp các tổ chức, cá nhân trong việc lựa chọn đăng ký tên miền (.com, .net, .org, ), thuê hosting (trong nước hay nước ngoài) dựa trên những tên miền có tỷ lệ % quảng cáo độc hại nhiều nhất, ít nhất.

46 trang | Chia sẻ: yenxoi77 | Lượt xem: 928 | Lượt tải: 1Free

Bạn đang xem trước 20 trang tài liệu Luận văn Đánh giá mức độ phổ biến của quảng cáo và quảng cáo độc hại trên Website, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

ng đó người muốn truyền thông phải trả tiền cho các phương tiện truyền thông đại chúng để đưa thông tin đến thuyết phục hay tác động đến người nhận thông tin. 1.2. Quảng cáo trực tuyến Quảng cáo trực tuyến [1], còn được gọi là tiếp thị trực tuyến hoặc quảng cáo trên Internet, là một hình thức tiếp thị và quảng cáo trong đó sử dụng Internet để cung cấp các thông điệp tiếp thị quảng cáo cho người tiêu dùng. Nó bao gồm tiếp thị email, tiếp thị công cụ tìm kiếm (SEM), tiếp thị truyền thông xã hội, nhiều loại quảng cáo hiển thị (bao gồm biểu ngữ quảng cáo trên web), và quảng cáo di động. Giống như phương tiện truyền thông quảng cáo khác, quảng cáo trực tuyến thường bao gồm một nhà xuất bản, người kết hợp quảng cáo vào nội dung trực tuyến của mình, và một nhà quảng cáo, những người cung cấp các quảng cáo được hiển thị trên nội dung của nhà xuất bản. 1.3. Các tác nhân tham gia quảng cáo trực tuyến 1.3.1. Publisher Publisher là các nhà xuất bản trang web, thực hiện việc bán không gian quảng cáo trên các trang web của mình, quản lý và thu lợi nhuận từ việc bán quảng cáo đó. Trước khi Ad Network - Advertising Network (mạng quảng cáo trực tuyến) ra đời, các Publisher phải thực hiện việc chào bán quảng cáo bằng cách liên hệ với từng Advertiser để giới thiệu và thuyết phục họ mua quảng cáo trên website của mình. Việc bán quảng cáo đòi hỏi phải có đội ngũ bán hàng thật chuyên nghiệp, do đó, chỉ có các Publisher lớn như (Vnexpress, Dantri, Tuoitre,) mới có khả năng đầu tư vào đội ngũ bán hàng chất lượng, do đó việc cạnh tranh của các Publisher vừa và nhỏ sẽ ngày càng khó khăn hơn. Do không có cơ hội tiếp cận với các Adveriser nên không gian quảng cáo trên website sẽ bị bỏ phí, và lãng phí lượng truy cập từ người xem website của Publisher. 1.3.2. Advertiser Advertiser (nhà quảng cáo) là một công ty hoặc cá nhân có Website bán hàng hóa hoặc dịch vụ trực tuyến, Advertiser hợp tác với Publisher để quảng cáo hàng hóa, dịch vụ giúp họ. Hay nói cách khác, Advertiser sẽ quảng cáo hình ảnh, sản phẩm, dịch vụ hoặc/và quảng bá thương hiệu trên website của 11 Publisher. Trước khi Ad Network ra đời thì các Advertiser sẽ liên hệ với từng Publisher để thoả thuận và thực hiện các hợp đồng quảng cáo. Do từng Publisher có những quy định và mức phí khác nhau nên việc thoả thuận có một số trở ngại về thời gian và chi phí không như mong muốn. 1.3.3. Ad network - Advertising Network Ad network chỉ một mạng quảng cáo liên kết nhiều website lại và giúp nhà quảng cáo (Advertiser) – có thể đăng quảng cáo cùng lúc trên nhiều website của nhiều Publisher khác nhau. Nói cách khác, AdNetwork là trung gian kết nối Publisher và Advertiser. 1.3.4. Mô hình hoạt động của quảng cáo trực tuyến Hình 1.1. Mô hình hoạt động của quảng cáo trực tuyến (Nguồn: 1.4. Các hình thức quảng cáo trực tuyến 1.4.1. Quảng cáo hiển thị Quảng cáo hiển thị truyền tải thông điệp quảng cáo một cách trực quan bằng việc sử dụng văn bản, logo, hình ảnh động, video, hình ảnh, hoặc các phương tiện đồ hoạ khác. Quảng cáo hiển thị thường nhắm mục tiêu người dùng với những đặc điểm riêng biệt để gia tăng hiệu quả quảng cáo. Những người quảng cáo trực tuyến (thông qua máy chủ của họ) thường sử dụng cookies (kỹ thuật để xác định người dùng duy nhất) để quyết định quảng cáo nào sẽ được hiển thị với những khách hàng riêng biệt. Cookies có thể theo dõi khi nào một người dùng rời trang web mà không mua bất kỳ gì, vì thế nhà quảng cáo có thể 12 tái định vị người dùng với việc hiển thị quảng cáo từ những trang mà người dùng đã từng xem. Khi các nhà quảng cáo thu thập dữ liệu từ các website riêng biệt về hoạt động trực tuyến của người dùng, họ có thể tạo một bức tranh toàn cảnh và chi tiết về sở thích và mối quan tâm của người dùng để phân phối quảng cáo hướng mục tiêu hơn. Tập hợp các dữ liệu này được gọi là hướng mục tiêu theo hành vi của người sử dụng. Các nhà quảng cáo cũng có thể hướng mục tiêu đến độc giả của họ bằng cách sử dụng quảng cáo theo ngữ cảnh và ngữ nghĩa để hiển thị quảng cáo liên quan đến nội dung của trang web mà các quảng cáo xuất hiện. Tái định vị, hướng mục tiêu theo hành vi sử dụng và quảng cáo theo ngữ cảnh được thiết kế để gia tăng lợi nhuận trên vốn đầu tư hơn kiểu quảng cáo không hướng mục tiêu. Các nhà quảng cáo cũng có thể phân phối quảng cáo dựa trên vị trí địa lý người dùng thông qua nhắm mục tiêu địa lý. Địa chỉ IP của người dùng chứa đựng vài thông tin địa lý (mức tối thiểu là quốc gia hoặc khu vực chung). Thông tin vị trí địa lý từ IP có thể được kết hợp với thông tin khác để thu hẹp vùng địa lý. Ví dụ, với những thiết bị di động, những nhà quảng cáo đôi lúc dùng GPS của điện thoại hoặc vị trí của tháp di động gần đó. Cookies và những dữ liệu ổn định khác trên thiết bị của người dùng có thể được sử dụng để thu hẹp vị trí của người dùng hơn nữa. Hình 1.2: Hình ảnh minh họa về quảng cáo hiển thị 1.4.2. Biểu ngữ quảng cáo Biểu ngữ quảng cáo trên web điển hình là những quảng cáo đồ hoạ hiển thị trong một trang web. Nhiều biểu ngữ quảng cáo được phân phối bởi một máy chủ quảng cáo trung tâm. 13 Biểu ngữ quảng cáo có thể dùng đa phương tiện (rich media) để kết hợp video, âm thanh, hình ảnh động (gif), nút bấm, biểu mẫu, hoặc các yếu tố tương tác khác sử dụng Java applet, HTML5, Adobe Flash và những chương trình khác Hình 1.3: Hình ảnh minh họa về biểu ngữ quảng cáo 1.4.3. Khung quảng cáo Những khung quảng cáo là dạng đầu tiên của biểu ngữ quảng cáo trên web. Từ “biểu ngữ quảng cáo” thường đề cập đến khung quảng cáo truyền thống. Trang web của publisher kết hợp khung quảng cáo bằng việc thiết lập một không gian riêng trên trang web. Tổ chức IAB (Interactive Advertising Bureau) đề xuất đơn vị đo lường kích thước tiêu chuẩn cho các mẫu quảng cáo là pixel (viết tắt là px). Hình 1.4: Hình ảnh minh họa về khung quảng cáo 14 1.4.4. Quảng cáo Pop-ups/pop-unders Kiểu quảng cáo pop-up được hiển thị trên một khung cửa sổ mới của trình duyệt và nằm trên cửa sổ trang web mà người dùng đang xem. Còn kiểu quảng cáo pop-under mở một cửa sổ trình duyệt nằm dưới trang web mà người dùng đang xem. Hình 1.5: Hình ảnh minh họa về quảng cáo popup 1.4.5. Quảng cáo trôi Kiểu quảng cáo trôi (floating ad hoặc overlay ad) là một dạng của kiểu quảng cáo đa phương tiện xuất hiện chồng lên nội dung của trang web. Floating ad có thể biến mất hoặc gây ít khó chịu hơn sau một thời gian định trước. Hình 1.6: Hình ảnh minh họa về quảng cáo Float ad 1.4.6. Quảng cáo mở rộng Kiểu quảng cáo mở rộng (expanding ad) thay đổi kích thước theo một điều kiện đã định trước, ví dụ như trong một khoảng thời gian người xem xem một trang web, người xem nhấn chuột vào quảng cáo hoặc người xem di chuyển con trỏ chuột lên quảng cáo. Expanding ads cho phép các nhà quảng cáo đặt nhiều thông tin hơn vào một không gian quảng cáo hạn chế. 15 Hình 1.7: Hình ảnh minh họa về quảng cáo Expanding ad 1.4.7. Biểu ngữ đánh lừa Biểu ngữ đánh lừa (trick banners) là một dạng quảng cáo mô phỏng các thông báo thường gặp của các chương trình mà người xem hay sử dụng (ví dụ như thông báo có email mới) nhằm dụ dỗ người xem click vào biểu ngữ quảng cáo. Do đó, đây là kiểu quảng cáo có tỷ lệ nhấn chuột cao so với các loại hình quảng cáo thông thường khác. Tuy nhiên, kiểu quảng cáo này sẽ gây ra cảm giác bực bội và có thể tẩy chay nhà quảng cáo do họ đã bị lừa. Hình 1.8: Hình ảnh minh họa về Trick banners 1.4.8. Quảng cáo chiếm khe Kiểu quảng cáo chiếm khe (interstitial ad) hiển thị trước khi người dùng có thể truy cập vào nội dung cần xem, đôi khi họ còn phải đợi một khoảng thời gian để quảng cáo hiển thị. Hình 1.9: Hình ảnh minh họa về Interstitial ads 16 1.4.9. Quảng cáo dạng văn bản Quảng cáo dạng văn bản (text ads) hiển thị liên kết dựa trên văn bản, nó có thể hiển thị độc lập với trang web hoặc có thể chèn liên kết dựa trên nội dung mà người dùng đang xem. Hình 1.10: Hình ảnh minh họa về Text ads 1.4.10. Tiếp thị mô tơ tìm kiếm Tiếp thị mô tơ tìm kiếm (Search Engine Marketing,viết tắt là SEM) được thiết kế để gia tăng khả năng hiển thị của một trang web trong các trang kết quả tìm kiếm. Các công cụ tìm kiếm cung cấp những kết quả được tài trợ và các kết quả cơ bản (organic, không tài trợ) dựa trên truy vấn của người dùng. Các công cụ tìm kiếm thường sử dụng các dấu hiệu trực quan để phân biệt giữa kết quả được tài trợ và kết quả cơ bản. SEM cũng bao gồm các nỗ lực của các nhà quảng cáo nhằm làm trang web của họ hiển thị ở vị trí cao hơn các trang web khác trên kết quả tìm kiếm và thường được gọi là tối ưu hóa mô tơ tìm kiếm (Search Engine Optimization - SEO). Hình 1.11: Hình ảnh minh họa về Search Engine Marketing 17 1.4.11. Tiếp thị trên mạng xã hội Tiếp thị trên mạng xã hội (Social media marketing – SMM) là dạng xúc tiến thương mại được thực hiện thông qua các dịch vụ mạng xã hội. Nhiều công ty quảng bá sản phẩm của họ bằng việc thường xuyên cập nhật và cung cấp những lời mời đặc biệt (như phiếu giảm giá, vé tham gia sự kiện) thông qua các trang hồ sơ của họ trên mạng xã hội. Hình 1.12: Hình ảnh minh họa về Social media marketing 1.4.12. Quảng cáo trên thiết bị di động Quảng cáo trên thiết bị di động (mobile advertising) bao gồm các dạng quảng cáo tĩnh hoặc sử dụng các đa phương tiện để hiển thị quảng cáo thông qua các phương tiện: tin nhắn SMS (Short Message Service) hay MMS (Multimedia Messaging Service), các trang web dành riêng cho di động, các ứng dụng hoặc game cho di động. Hình 1.13: Hình ảnh minh họa về Mobile Advertising 18 1.4.13. Quảng cáo bằng email Quảng cáo bằng email là một dạng quảng cáo bằng cách gửi đi các thông tin giới thiệu sản phẩm & dịch vụ qua email đến nhiều người trong danh sách của nhà quảng cáo. Danh sách người nhận email có thể được thu thập với sự đồng ý của người nhận hoặc thông qua mua bán thông tin. Hình 1.14: Hình ảnh minh họa về Email Advertising 1.4.14. Quảng cáo trực tuyến đã được phân loại Đây là dạng quảng cáo trên các trang sản phẩm/dịch vụ cụ thể và có tính chuyên biệt. Ví dụ: các thông tin tuyển dụng trên các trang tìm kiếm việc làm, các thông tin mua bán nhà đất trên các website về bất động sản 1.4.15. Phần mềm quảng cáo Là một dạng phần mềm khi được cài đặt vào máy tính của người dùng, nó sẽ tự động hiển thị quảng cáo. Các quảng cáo có thể xuất hiện trên bản thân phần mềm, tích hợp vào trang web đang xem của người dùng, hoặc ở dạng pop- ups/pop-unders. Phần mềm quảng cáo được cài đặt mà không có sự cho phép của người dùng là một dạng của phần mềm độc hại (malware). Hình 1.15: Hình ảnh minh họa về phần mềm quảng cáo 19 1.4.16. Tiếp thị liên kết Tiếp thị liên kết xảy ra khi những nhà quảng cáo liên kết với các bên thứ 3 để tạo ra các khách hàng tiềm năng cho họ. Các chi nhánh bên thứ 3 nhận đuợc thanh toán dựa trên doanh số mà họ tạo ra thông qua các hoạt động xúc tiến của họ. Hình 1.16: Hình ảnh minh họa về tiếp thị liên kết 1.5. Phương pháp tính chi phí quảng cáo Advertisers và Publishers sử dụng nhiều phương pháp tính toán chi phí quảng cáo như CPM, CPC, CPA, Fixed cost. 1.5.1. CPM (Cost Per Mile) CPM (Cost per Mile), tính tiền dựa trên mỗi 1000 lượt views. Hình thức này CPM cũng có thể là các banner dạng file gif, flash, video,... với dạng này, sản phẩm hay logo của bạn có thể xuất hiện ở một hay nhiều vị trí khác nhau trên một hay nhiều websites. Quảng cáo CPM phù hợp cho các đối tượng muốn quảng bá thương hiệu, các công ty có ngân sách quảng cáo lớn. 1.5.2. CPC (Cost Per Click) CPC (Cost per Click hay PPC Pay per Click đều là một), có nghĩa là Advertisers chỉ phải trả tiền cho mỗi click từ khách hàng quan tâm đến thông tin quảng cáo của mình. Hình thức quảng cáo này thường có định dạng hỗn hợp gồm jpg, text (logo, sản phẩm + mô tả về sản phẩm). Hình thức CPC thường có vị trí không đẹp và kích thước nhỏ, hình thức này chủ yếu nhắm đến đối tượng bán lẻ, bán hàng trực tuyến. Giá mỗi click thường từ vài nghìn cho đến vài chục nghìn tuỳ nhà cung cấp và tuỳ từng website. 1.5.3. CPA (Cost Per Action) CPA (Cost Per Action hay Cost Per Acquisition) hoặc PPP (Pay Per Performance) là hình thức Advertisers trả tiền cho Publishers dựa trên số lần khách hàng thực hiện một hành động như đăng ký tài khoản, mua hàng, ... Hình 20 thức này Advertisers có thể đo đếm hiệu quả trong mối liên hệ với số tiền bỏ ra chính xác hơn nên có thể là xu hướng trong tương lai. 1.5.4. Chi phí cố định (Fixed cost) Phương pháp tính này có nghĩa là Advertiser chi trả một khoản chi phí cố định để quảng cáo của họ xuất hiện trên trang web của Publisher cụ thể (thông thường là trong một khoảng thời gian quy định) mà không phân biệt khả năng hiển thị hay phản hồi của người xem đối với thông tin quảng cáo. 1.6. Lợi ích của quảng cáo trực tuyến 1.6.1. Chi phí Quảng cáo trực tuyến có chi phí thấp hơn so với quảng cáo ngoại tuyến (tivi, báo chí, quảng cáo ngoài trời,) do tận dụng lợi thế về chi phí thấp khi triển khai các dịch vụ trực tuyến. 1.6.2. Khả năng đo lường Các nhà quảng cáo trực tuyến có thể thu thập dữ liệu về hiệu quả quảng cáo của họ, chẳng hạn như số khách hàng tiềm năng hoặc những phản hồi từ người xem. Nó có thể là làm thế nào để người xem biết tới quảng cáo của họ, liệu quảng cáo có dẫn đến việc bán được hàng, và liệu một quảng cáo có được hiển thị trong vùng có khả năng thấy của người xem. Điều này giúp các nhà quảng cáo cải thiện các chiến dịch quảng cáo của họ theo thời gian. 1.6.3. Các định dạng (kiểu) quảng cáo Các nhà quảng cáo có nhiều cách trình bày thông điệp quảng cáo của họ, bao gồm khả năng chuyển tải hình ảnh, video, âm thanh, và các liên kết. Không giống như nhiều loại hình quảng cáo offline, quảng cáo trực tuyến có thể tương tác với người xem. Ví dụ như một số quảng cáo cho phép người dùng nhập câu truy vấn hoặc cho phép người dùng theo dõi các nhà quảng cáo trên các mạng xã hội và thậm chí còn có thể kết hợp với các trò chơi. 1.6.4. Khả năng hướng mục tiêu Publisher có thể cung cấp cho các nhà quảng cáo khả năng tiếp cận với thị trường và phù hợp với mục tiêu của quảng cáo. Quảng cáo trực tuyến có thể dùng vị trí địa lý của người xem để hiển thị các thông tin quảng cáo liên quan đến nơi họ đang sống. Mặt khác, quảng cáo cũng có thể hiển thị riêng biệt đối với từng đối tượng cụ thể qua sự quan tâm và hành vi của họ trên internet. Ngoài ra, họ còn dùng kỹ thuật thống kê để tránh hiển thị thông tin quảng cáo đến cùng một người xem nhiều lần trong một khoảng thời gian định trước, điều này giúp giảm bớt sự khó chịu của người xem đối với các thông tin quảng cáo. 21 1.6.5. Phạm vi phân phối Hầu như không có bất kỳ giới hạn nào về vị trí địa lý mà thông tin quảng cáo có thể hiển thị với người xem (trừ khi các nhà quảng cáo không muốn). Ví dụ, với quảng cáo trên báo chí, thật khó để tờ báo tuổi trẻ có thể đến với những người Việt tại Mỹ, nhưng đối với quảng cáo trực tuyến thì điều này không trở thành trở ngại để có thể làm điều đó. 1.6.6. Tốc độ triển khai Sau khi việc thiết kế quảng cáo hoàn tất, quảng cáo trực tuyến có thể được triển khai ngay lập tức. Việc phân phối quảng cáo không cần phải theo lịch xuất bản nội dung của Publisher. Hơn nữa việc thay thế các thông tin quảng cáo cũ có thể thực hiện nhanh hơn rất nhiều so với quảng cáo offline. 1.7. Những vấn đề lo ngại về quảng cáo trực tuyến 1.7.1. Gian lận trong quảng cáo Có một số cách để các nhà quảng cáo phải trả chi phí nhiều hơn các chi phí đáng ra họ chỉ phải trả. Ví dụ, gian lận nhấn chuột xảy ra khi một Publisher hoặc bên thứ 3 nhấn chuột (thủ công hay tự động) vào một thông tin quảng cáo tính chi phí theo kiểu CPC mà không hề quan tâm đến thông tin quảng cáo Gian lận nhấn chuột đặc biệt liên quan đến các trang web khiêu dâm. Trong năm 2011, một số trang web khiêu dâm lừa đảo đã tung ra hàng tá các trang ẩn trên máy tính của người xem, buộc họ phải nhấn vào hàng trăm liên kết quảng cáo mà người xem không hề biết. Cũng giống như các nhà xuất bản offline, gian lận hiển thị trực tuyến có thể xảy ra khi Publishers phóng đại số lượt hiển thị quảng cáo mà họ phân phối. Để đấu tranh với nạn gian lận hiển thị, một số nhà xuất bản và các hiệp hội ngành công nghiệp quảng cáo đang phát triển cách để tính số lượt hiển thị trực tuyến đáng tin cậy. 1.7.2. Thay đổi về công nghệ 1.7.2.1. Máy khách không đồng nhất Bởi vì người dùng có hệ điều hành khách nhau, trình duyệt khác nhau và phần cứng khác nhau (pc, mobile, tablet, kích cỡ màn hình khác nhau) nên quảng cáo trực tuyến có thể sẽ xuất hiện với người xem theo cách khác với ý định của các nhà quảng cáo. Vào năm 2012, một nghiên cứu của comScore chỉ ra rằng 31% thông tin quảng cáo không nằm trong vùng có thể thấy được khi chúng được xử lý, điều đó có nghĩa là chúng đã không bao giờ có cơ hội có thể thấy được. 22 1.7.2.2. Chương trình ngăn chặn quảng cáo Các chương trình ngăn chặn quảng cáo hay các chương trình lọc quảng cáo có nghĩa là quảng cáo sẽ không hiển thị đến người xem bởi vì người xem dùng kỹ thuật để ẩn giấu hoặc chặn các quảng cáo. Nhiều trình duyệt ngăn chặn các quảng cáo dạng pop-ups/pop-unders theo mặc định. Một số phần mềm hoặc các tiện ích tích hợp với trình duyệt cũng có thể ngăn chặn việc nạp quảng cáo hoặc khóa các đối tượng trên trang web dựa trên hành vi đặc trưng liên quan đến quảng cáo. Khoảng 9% của tổng lượt xem web đến từ các trình duyệt có phần mềm ngăn chặn quảng cáo, và một vài Publisher có trên dưới 40% lượt người xem có tiện ích chặn quảng cáo tích hợp trong trình duyệt. 1.7.2.3. Kỹ thuật chống hướng mục tiêu Một số trình duyệt web cung cấp chế độ riêng tư để giúp người dùng ẩn thông tin về họ với publishers và advertisers. Hậu quả là các nhà quảng cáo không thể dùng cookies để hiển thị quảng cáo đúng đối tượng mà họ muốn nhắm tới. 1.8. Kỹ thuật đưa nội dung quảng cáo lên website Việc đưa nội dung quảng cáo lên website thực ra là việc hiển thị những đoạn văn bản, hình ảnh, âm thanh, video trên website để quảng bá hình ảnh, dịch vụ của tổ chức, cá nhân. Hiện nay, có rất nhiều kỹ thuật được sử dụng để đưa nội dung quảng cáo lên website chẳng hạn như sử dụng ngôn ngữ HTML, JavaScript, XML, ActionScript, 1.8.1. Sử dụng HTML - Website sử dụng thẻ HTML để tạo quảng cáo Hình 1.17: Ảnh hiển thị minh họa sử dụng HTML - Mã nguồn tạo quảng cáo <a href=" 30df-4acb-bd09-c0e1da34211a;" target="_blank"> <img src=" 364x90.jpg" border="0" height="90px" width="364px"> 23 1.8.2. Sử dụng Javascript - Website sử dụng mã Javascript để tạo quảng cáo Hình 1.18: Ảnh hiển thị minh họa sử dụng Javascript - Mã nguồn tạo quảng cáo <a href="https://www.thegioididong.com/galaxy-note-7" onclick="jQuery.ajax({ url: '//www.thegioididong.com/bannertracking?bid=8626&r='+ (new Date).getTime(), async: true, cache: false });"> <img src="//cdn1.tgdd.vn/qcao/29_07_2016_07_37_20_Note-7-800- 300.jpg" alt="Tháng 7 - Note 7 - Đặt Gạch"> 1.8.3. Sử dụng XML - Hình ảnh quảng cáo Hình 1.19: Ảnh hiển thị minh họa sử dụng XML - Mã nguồn tạo quảng cáo <Advertisements xmlns=""> ~/images/Contoso_ad.gif Ad for Contoso, Ltd. Web site 100 24 1.8.4. Sử dụng ActionScript đối với Flash - Hình ảnh quảng cáo Flash Hình 1.20: Ảnh hiển thị minh họa sử dụng ActionScript - Mã nguồn tạo quảng cáo <embed src="banner.swf" quality="high" type="application/x- shockwave-flash" width="950" height="91" pluginspage="" allowScriptAccess="always" /> 25 CHƯƠNG 2. QUẢNG CÁO ĐỘC HẠI 2.1. Khái niệm Quảng cáo độc hại [2] là việc sử dụng quảng cáo trực tuyến để lây lan phần mềm độc hại. Quảng cáo độc hại liên quan đến tiêm độc hại hoặc quảng cáo phần mềm độc hại vào mạng lưới quảng cáo trực tuyến hợp pháp và các trang web. Quảng cáo trực tuyến cung cấp một nền tảng vững chắc cho sự lây lan phần mềm độc hại vì nỗ lực đáng kể là đưa chúng vào để thu hút người sử dụng và bán hay quảng cáo sản phẩm. Bởi vì nội dung quảng cáo có thể được đưa vào các trang web nổi tiếng và có uy tín, quảng cáo độc hại cung cấp cho các kẻ gian tà một cơ hội để “đẩy” các cuộc tấn công của chúng để người dùng web có thể không nhìn thấy các quảng cáo, do bức tường lửa, nhiều biện pháp phòng ngừa an toàn, hoặc tương tự. Quảng cáo độc hại là “hấp dẫn đối với những kẻ tấn công bởi vì chúng có thể dễ dàng lây lan trên một số lượng lớn các trang web hợp pháp mà không trực tiếp ảnh hưởng đến những trang web này”. 2.2. Phương thức làm việc Các trang web hoặc các nhà xuất bản web vô tình kết hợp một quảng cáo bị hỏng hoặc độc hại vào trang của họ. Sau khi quảng cáo được đặt ra, và người dùng bắt đầu nhấp vào nó, máy tính của họ có thể bị nhiễm: “người dùng nhấp chuột vào quảng cáo để truy cập vào trang quảng cáo, và thay vào đó là trực tiếp bị nhiễm hoặc chuyển hướng đến một trang web độc hại. Những trang web này lừa người sử dụng sao chép virus hoặc phần mềm gián điệp thường cải trang thành các tập tin flash, mà là rất phổ biến trên web”. Sự chuyển hướng thường được xây dựng vào quảng cáo trực tuyến, và sự lây lan của phần mềm độc hại này thường thành công vì người dùng mong đợi một chuyển hướng xảy ra khi nhấp chuột vào một quảng cáo. Một chuyển hướng đang diễn ra chỉ cần được đồng chọn tham gia để lây nhiễm máy tính của người dùng. 2.3. Các loại quảng cáo độc hại Bằng cách truy cập các trang web bị ảnh hưởng bởi quảng cáo độc hại, người sử dụng có nguy cơ bị lây nhiễm. Có rất nhiều phương pháp khác nhau được sử dụng để tiêm chích quảng cáo hoặc chương trình độc hại vào các trang web: 2.3.1. Quảng cáo pop-up cho tải lừa đảo Chẳng hạn như các chương trình chống virus giả mạo mà cài đặt phần mềm độc hại trên máy tính hay đơn giản chỉ là các cửa sổ bật lên (pop-up) giả mạo hiển thị máy tính của bạn đang bị nhiễm virus và yêu cầu người dùng phải 26 cài đặt các phần mềm khác để diệt virus. Nó sẽ hiển thị liên tục khiến người dùng rất khó chịu và hoang mang nhưng nếu người dùng bấm vào cài đặt thêm phần mềm có thể sẽ bị cài mã độc hoặc các phần mềm độc hại trên máy tính người dùng. Kiểu quảng cáo này cũng thường xuyên xuất hiện đối với thiết bị di động khi người dùng điện thoại truy cập vào các website từ các ứng dụng duyệt web mặc định, hay những ứng dụng như Uc Browser, Firefox và Chrome để đọc báo thì thiết bị của người dùng hiện ra một bảng thông báo rằng: “Trên thiết bị đang ẩn chứa rất nhiều virus, mã độc, bạn cần cài thêm một ứng dụng khác để có thể quét sạch hoàn toàn và sửa chữa thiết bị của bạn”. 2.3.2. Trong văn bản hoặc trong nội dung quảng cáo Quảng cáo trong văn bản là một hình thức quảng cáo trực tuyến, trong đó nhà điều hành trang web cho phép cho các dịch vụ quảng cáo liên kết từ khóa trong blog của họ hoặc những nội dung khác với các trang web của công ty quảng cáo. Các từ được gạch chân đôi trong quảng cáo trực tuyến được gọi là quảng cáo trong văn bản. Hình 2.1: Minh hoạ quảng cáo trong văn bản 2.3.3. Tải về tự động (Drive-by Download) Tải về tự động làm việc thông qua việc khai thác lỗ hổng trình duyệt, các thành phần plug-in trên trình duyệt. Chúng có thể diễn ra theo một số cách thức khác nhau và bạn có khi vẫn đang lướt web trong khi phần mềm độc hại tự động được tải về máy. Trang web nguồn lây nhiễm có thể là do chính các hacker tạo ra hoặc cũng có thể là trang web hợp pháp bị hacker xâm nhập thông qua lỗ hổng của web. Đôi khi, tải về tự động còn đưa ra nhắc nhở người dùng chấp nhận một hành động cho phép phần mềm độc hại hoạt động trên máy tính. Ví dụ phổ biến 27 nhất là cài đặt và sử dụng phần mềm độc hại giả mạo. Bạn truy cập vào một trang web và đột nhiên một cửa sổ pop-up trông giống một chương trình chống virus hợp pháp xuất hiện trên máy tính, nó chỉ ra rằng đã phát hiện ra một loại virus và yêu cầu bạn kích vào đây để quét virus miễn phí. Hình 2.2. Mô hình hoạt động của tải về tự động (Nguồn: 2.3.4. Thành phần giao diện Để cài đặt các thành phần giao diện (widget), các lĩnh vực xuất bản yêu cầu một số bước được thực hiện bởi một người sử dụng để tạo điều kiện khả năng của widget bao gồm nội dung của bên thứ ba [3]. Cụ thể: - Các thành phần giao diện chỉ có thể được cài đặt sau khi đăng ký. Người sử dụng chọn các mã thành phần giao diện dựa trên nền tảng mục tiêu - chẳng hạn như blogger, MySpace,... trong đó các thành phần giao diện sẽ được cài đặt. - Sau khi đăng ký xong, nhà xuất bản yêu cầu người dùng đăng nhập vào trang web hoặc blog của mình như vậy việc cài đặt thành phần giao diện có thể được hoàn thành. Sau khi cài đặt, các nhà xuất bản bắt đầu gửi tin tức và quảng cáo tới trang web người đã đăng ký. - Sau khi thành phần giao diện được nhúng trong trang web của người dùng, người sử dụng có thể nhận được nội dung ngẫu nhiên từ các nhà cung cấp nội dung khác nhau thông qua một khu vực quảng cáo dễ bị tổn thương mà hoạt động như một nhà cung cấp dịch vụ trung gian. 28 Đối với mục đích quảng cáo, khu vực xuất bản dễ bị tổn thương sử dụng các liên kết chuyển hướng để quảng cáo trên trang web của nhà xuất bản. Tuy nhiên, lưu lượng truy cập web có thể dễ dàng chuyển từ nơi thành phần giao diện được cài đặt tới bất kỳ khu vực nào. Điều này cho thấy thành phần giao diện trong bất kỳ khu vực ngẫu nhiên có thể dẫn đến chuyển hướng lưu lượng truy cập từ trang web của một nhà xuất bản dễ bị tổn thương thông qua các liên kết quảng cáo. Những kẻ tấn công có thể khai thác kịch bản này bằng cách thực hiện ba bước sau: - Bước 1: Những kẻ tấn công như là một người sử dụng hợp pháp (theo thứ tự để có được một thành phần giao điện để đưa vào một số khu vực) như hình sau: Hình 2.3: Đăng ký một widget trên lỗ hổng vùng quảng cáo Các thành phần giao diện là bao gồm trong cùng một khu vực như thể hiện hình sau: 29 Hình 2.4: Widget được cài đặt - Bước 2: Những kẻ tấn công có thể kích hoạt dễ bị tổn thương dường như đã chết thông qua các siêu liên kết bằng cách kích hoạt URL từ khu vực xuất bản dễ bị tổn thương như sau, nơi 'outbrain.com' là một khu vực quảng cáo dễ bị tổn thương và 'xsstesting-blog là một blog mà phục vụ phần mềm độc hại: gspot.com - Bước 3: Những người sử dụng đi đến các thành phần giao diện nghĩ rằng họ đang đi vào trang web của nhà xuất bản thấy mình chuyển hướng đến trang web của kẻ tấn công. Một cuộc tấn công thành công có thể được xem như là một cơ chế đáp ứng yêu cầu trong hình sau: 30 Hình 2.5: Nạn nhân trình duyệt được chuyển hướng đến vùng độc hại Cuộc tấn công này là kết quả của một lỗi thiết kế trong việc thực hiện vật dụng. Những kẻ tấn công có thể khai thác kịch bản này bằng cách tạo ra các quảng cáo độc hại (sử dụng tên của nhà xuất bản) được nhúng với các URL chuyển hướng mà khai thác lỗi thiết kế trong lĩnh vực xuất bản dễ bị tổn thương để thực hiện chuyển hướng về phía miền độc hại. Điều này cho thấy làm thế nào một vật dụng quảng cáo dễ bị tổn thương có thể bị phá vỡ bởi một kẻ tấn công. 2.3.5. iframe ẩn Iframe ẩn là một cách để những kẻ tấn công để ẩn các đối tượng được sử dụng để phát tán phần mềm độc hại. Đặc tả HTTP bao gồm iframe để nhúng một trang web vào một trang web khác. Iframe có thể được sử dụng để tải nội dung động cho quảng cáo. Chức năng này của iframe có thể được khai thác để kích hoạt lây nhiễm. Iframe được sử dụng rộng rãi để bỏ qua Same Origin Policy (SOP) và khởi động Cross Domain Attack (CDA). Những kẻ tấn công có thể dễ dàng nhúng iframe ẩn mà phục vụ quảng cáo độc hại để lây lan phần mềm độc hại trong khi tương tác với người sử dụng hợp pháp. Thông thường, các iframe được khai thác bằng cách sử dụng các thủ tục sau đây để chạy mã độc hại: - Các kịch bản trong iframe được phép thực hiện trong ngữ cảnh của quá trình trình duyệt (ngữ cảnh càng mạnh hơn, lỗ hổng lớn hơn có thể được khai thác). - Không có đặc tả an ninh giới hạn sử dụng Active X. - Chuyển hướng trình duyệt có thể được thực hiện dễ dàng thông qua iframe. - Truy cập đến các đối tượng cục bộ không bị hạn chế hoàn toàn. Các iframe ẩn được sử dụng cho quảng cáo độc hại được xây dựng như sau: <iframe src=“” width=1 height=1 style=“visibility:hidden;position:absolute”> <iframe src= width=0 height=0> Ngoài ra, kẻ tấn công có thể che giấu mục đích độc hại của họ sử dụng kỹ thuật Javascript để mã hóa các liên kết độc hại. Iframe có một khiếm khuyết mặc định được thừa kế của hạn chế mối quan hệ tin cậy giữa các khu vực khác nhau 31 được giao tiếp với nhau. Các mối quan hệ tin cậy không thể xác định được tất cả thời gian trong các khu vực khác nhau được chia sẻ nội dung. Không có khả năng xác định chính xác sự tin cậy là lý do tại sao nó là rất khó để hạn chế hiện nội dung trong iframe và lý do tại sao nó được thực hiện trong ngữ cảnh của trang web phần tử cấp trên. Những kẻ tấn công tải quảng cáo độc hại trong iframe để chạy trong khu vực phần tử cấp trên lây nhiễm trực tiếp như vậy quá trình phát hiện trở nên khó khăn hơn. 2.3.6. Mạng phân phối nội dung Một mạng phân phối nội dung (CDN) là một máy chủ quảng cáo của bên thứ ba cung cấp nội dung tới các khu vực khác nhau trên web. CDN là sự lựa chọn ưa thích cho những kẻ tấn công để lây lan phần mềm độc hại bằng cách khai thác các máy chủ web CDN - những kẻ tấn công có thể đơn giản là cho phép các máy chủ hỗ trợ trong việc phổ biến các phần mềm độc hại. Quảng cáo sử dụng Flash, Silverlight, pop-up, các tập tin Windows Media Player và Javascript một cách rộng rãi. Tuy nhiên, đây là một mối quan tâm nghiêm trọng bởi vì nếu một máy chủ CDN được khai thác, kẻ tấn công có thể tiêm mã độc vào các hình thức quảng cáo và mã được phân phối rộng rãi. Có một phản ứng dây chuyền bởi vì nếu một máy chủ phần tử cấp trên bị nhiễm, các nút con cũng sẽ tự động bị lây nhiễm. Hư hỏng một máy chủ phục vụ hàng ngàn các trang web lan truyền quảng cáo độc hại rộng rãi và thường xuyên một cách đáng tin cậy. Việc xác định các tập tin Windows Media Player đang được sử dụng trong quảng cáo độc hại cho lây lan phần mềm độc hại. Một kẻ tấn công có thể thực hiện các bước sau để thiết kế và tiêm vào các file .wmv độc hại như là quảng cáo độc hại: - Bước 1: Kẻ tấn công 'cửa sau' các tập tin .wmv sử dụng Windows Script Editor, với mã độc hại, được thực hiện thông qua cuộc tấn công (XSS) Cross Site Scripting. 32 Hình 2.6: Thiết kế tập tin backdoor .wmv - Bước 2: Kẻ tấn công tiêm tập tin .wmv này trong một iframe và tiêm vào đoạn mã trong một khu vực CDN dễ bị tổn thương. Khi tập tin này được phân phối qua các khu vực, nó bắt đầu lây lan các tập tin XSS độc hại và vượt qua các bộ lọc Internet Explorer XSS. Như vậy, CDN có tiềm năng trở thành một vấn đề lớn đối với các phần mềm độc hại với web. Hình 2.7: Tập tin WMV lây lan tập tin VBScript độc hại 2.3.7. Biểu ngữ độc hại Quảng cáo biểu ngữ được sử dụng rộng rãi để lây lan rộng rãi. Chủ yếu, những kẻ tấn công khai thác máy chủ mà lưu trữ một số trang web trên một máy chủ duy nhất - một kịch bản phổ biến. Như trên, tấn công các máy chủ một cách dễ dàng để lây nhiễm một số lượng lớn các trang web. Ngoài ra, từ các quảng cáo biểu ngữ trên diện rộng, một cuộc tấn công thông qua chúng cũng sẽ được phổ biến rộng rãi. Trong cuộc tấn công này, những kẻ tấn công khai thác một lỗ hổng XSS hay SQL injection trong các trang web được lưu trữ trên máy chủ để có toàn quyền kiểm soát. Những kẻ tấn công sau đó sử dụng hai kỹ thuật cụ thể để lây nhiễm các trang web với các biểu ngữ độc hại như sau: - Những kẻ tấn công cập nhật cơ sở dữ liệu với iframe độc hại bằng cách khai thác tiêm SQL để kích hoạt lây nhiễm ổn định. - Những kẻ tấn công thỏa hiệp máy chủ lưu trữ chia sẻ và sử dụng kịch bản tự động để làm cho mã độc hại trên trang web chính của các host khác nhau. Khi người dùng truy cập một trang web cụ thể, biểu ngữ độc hại được hiển thị cùng với nội dung động. Nhấp chuột vào các biểu ngữ và người sử dụng bị lây nhiễm, hoặc chỉ đơn giản là hiển thị các biểu ngữ có thể dẫn đến lây nhiễm. 33 2.3.8. Quảng cáo của bên thứ ba Ở đây nói đến vai trò của các mạng quảng cáo (máy chủ quảng cáo). Thông thường, các trang web có liên quan đến quảng cáo của bên thứ ba là nội dung, phương tiện truyền thông hoặc các trang web truyền thông xã hội có thể kiếm được tiền thông qua quảng cáo. Các kỹ thuật của bên thứ ba là nhà quảng cáo muốn đặt quảng cáo trên các trang web để tiếp cận đối tượng của nó. Tuy nhiên, nhiều nhà quảng cáo không có những công cụ để phục vụ quảng cáo của mình, hoặc các nhà xuất bản không muốn bán quảng cáo trực tiếp cho các nhà quảng cáo. Do đó, có sự xuất hiện và tham gia của các máy chủ quảng cáo của bên thứ ba, kết nối giữa nhà quảng cáo và nhà xuất bản quảng cáo. 2.3.9. Các ứng dụng của bên thứ ba Chẳng hạn như diễn đàn, các hệ trợ giúp, CRM (customer relationship management) và CMS (content management systems) và các ứng dụng khác ngoài ứng dụng web có thể bị khai thác lỗ hổng nếu không được vá đúng cách. Khi cài đặt phần mềm nếu không cẩn thận người dùng sẻ gặp rắc rối với các phần mềm ăn theo của bên thứ 3 như các phần mềm adware (phần mềm quảng cáo), các ứng dụng mà không mong muốn có thể theo dõi người dùng hoặc bị thêm vào các công cụ (tool bar) ở trình duyệt web. Phần lớn các trường hợp thêm vào ứng dụng của bên thứ ba là nguy hại cho người dùng vì vậy người dùng nên lưu ý khi cài đặt các phần mềm vì khi dính phải các ứng dụng, hay các phần mềm ấy chúng ta sẻ thấy vô cùng khó chịu và khó có thể loại bỏ hoàn toàn khỏi hệ thống. 2.3.10. Cướp liên kết Cướp liên kết cho phép quảng cáo tự động chuyển hướng người sử dụng tới website mà họ không có ý muốn thăm. Các kịch bản quảng cáo không thể truy nhập Document Object Model (DOM) của trang web của nhà xuất bản vì vi phạm Same-Origin Policy (SOP). Tuy nhiên, kịch bản độc hại được chứa trong một quảng cáo có thể chuyển hướng toàn bộ các trang tới đích đã được lựa chọn trước bằng cách thiết lập biến top.location trong Browser Object Model (BOM). Bằng cách này, các nạn nhân được chuyển đến một vị trí tùy ý và không được lựa chọn theo như ý ban đầu. 2.4. Kỹ thuật thực hiện mã độc 2.4.1. Che dấu mã Để trốn tránh việc phân tích phát hiện các hành vi nguy hiểm, một số quảng cáo độc hại sử dụng các kỹ thuật che dấu để tránh quét dựa trên chữ ký phần mềm chống virus [4]. Chẳng hạn như: 34 - Hàm eval() và document.write() được tiêm vào kịch bản để tiêm vào mã động. - Để hình thành một chuỗi dài không đọc được, sử dụng hàm escap() mã hóa các ký tự, và cuối cùng sử dụng hàm unescape() trong kịch bản hoặc một trình duyệt để giải mã. - Để đạt được sự thay thế chuỗi con, thường sử dụng một hàm hoặc biến. - Tùy biến các thủ tục giải mã được viết trong kịch bản. 2.4.2. Chuyển hướng URL Nhiều quảng cáo độc hại tự động chuyển hướng tới URL khác. Khi trình duyệt truy cập một URL, thời gian phản hồi của URL này sẽ tự động hướng dẫn các trình duyệt để truy cập vào một hoặc nhiều URL khác mà không ảnh hưởng đến nội dung của màn hình vào người sử dụng. Chuyển hướng sử dụng công nghệ sau: - Sử dụng mã phản hồi 301, 302 của giao thức http để chuyển hướng. - Sử dụng các thẻ html bao gồm các thuộc tính src của iframe, khung trong khung và các thẻ kịch bản liên kết đến địa chỉ bên ngoài. - Sử dụng các hàm của kịch bản bao gồm: window.location.replace(), window. location.href() và window.open(). 2.4.3. Khai thác các lỗ hổng Hệ thống Web độc hại hoặc các lỗ hổng trình duyệt nguy hiểm là lợi thế của chương trình, khi người dùng truy cập vào các trang này, các thủ tục này có thể tải về trojan hoặc phần mềm độc hại khác trên máy chủ dẫn đến tình trạng không an toàn của máy chủ. Để sử dụng các trình duyệt Internet, lỗ hổng Internet Explorer rủi ro cao hơn, sử dụng các phương pháp chung được chia thành hai sau: - Do sơ hở dẫn lỗi cho việc thực hiện các shellcode trong mã nguồn của trang có chứa shellcode. - Sử dụng các thành phần hoặc các lỗ hổng khác để tải về và chạy chương trình. Các hàm phổ biến là hàm CreateObject(), hàm ActiveXObject() hoặc các tập tin địa chỉ URL chứa trong các thẻ object. Cần hai mức kiểm tra cho mã trang cho các đặc điểm trên. Mức đầu tiên là mô hình chữ ký được trích xuất phù hợp cho kịch bản. Tập trung vào các chức năng mã hóa, kịch bản mức rủi ro cao để kiểm tra. Mức thứ hai, kiểm tra độ dài của URL và hậu tố tên tập tin trong iframe có mức độ rủi ro cao, khung, kịch 35 bản và liên kết thẻ và kiểm tra các thẻ đối tượng nếu chúng có chứa địa chỉ URL của tập tin. Một số đặc điểm của mã nguồn URL độc hại được phân tích ở trên có chứa các URL sở hữu các đặc tính được tải vào máy chủ cơ sở dữ liệu thông qua một tìm kiếm hình ảnh trên web, công cụ tìm kiếm có sẵn cho người sử dụng các URL, và nó có thể gây ra nhiễm độc đối với PC người dùng và phá hủy những dữ liệu người sử dụng, ăn cắp thông tin được lưu trữ trên các máy phục vụ người dùng, tên người dùng và mật khẩu, và thậm chí có thể gây ra hư hỏng về phần cứng. Mục đích của phương pháp phát hiện URL tĩnh là các URL độc hại được phát hiện. 36 CHƯƠNG 3. ĐÁNH GIÁ MỨC ĐỘ PHỔ BIẾN CỦA QUẢNG CÁO VÀ QUẢNG CÁO ĐỘC HẠI 3.1. Mục đích Mục đích của chương này là đánh giá mức độ phổ biến của quảng cáo và quảng cáo độc hại trên các websites quan tâm (trong phạm vi luận văn này sẽ khảo sát các website của Việt Nam). Sau khi có được danh sách các website sẽ tiến hành khảo sát, đánh giá nhằm đưa ra con số thống kê về quảng cáo, quảng cáo độc hại theo lĩnh vực, tên miền. Trên cơ sở đó, các tổ chức, cá nhân sẽ có các giải pháp cụ thể nhằm giảm thiểu quảng cáo độc hại trên website của tổ chức mình. Trên thực tế, nhiều trang web không phải là quảng cáo nhưng độc hại. Tuy nhiên, luận văn này chỉ tập trung vào quảng cáo vì những lý do chủ yếu sau: - Quảng cáo gây ức chế, làm phiền và khó chịu cho người dùng duyệt web. - Quảng cáo là nơi dễ bị kẻ xấu lợi dụng, trà trộn, giả mạo để thực hiện các hành vi xấu, ảnh hưởng đến người dùng. 3.2. Quy trình Hình 3.1: Quy trình thu thập quảng cáo, quảng cáo độc hại VirusTotal Macilious Ads List of websites Phantomjs Get href links from the anchor tags Get src links from the iframe tags Adblock Plus Parser Ads Statistics 37 Quy trình khảo sát quảng cáo và quảng cáo độc hại trên các websites bao gồm bốn bước như sau: - Đầu tiên, lập danh sách website cần khảo sát (là đầu vào), sau đó dùng PhantomJS để lấy URLs của các tài nguyên trên từng website. - Tiếp theo, sử dụng EasyList của AdblockPlus để lấy URLs quảng cáo trong số các URL đã thu thập được ở bước đầu tiên. - Sau đó, sử dụng VirusTotal để nhận diện quảng cáo độc hại trong số các URL quảng cáo ở bước thứ hai. - Cuối cùng phân tích, đánh giá kết quả. 3.3. Chi tiết các bước thực hiện 3.3.1. Lập danh sách website được khảo sát và thu thập tài nguyên trên các website Đầu tiên, chúng tôi thu thập tập URLs các websites của Việt Nam theo một số lĩnh vực. Tiếp theo, chúng tôi phát triển một crawler (con bọ) để lấy các tài nguyên trên từng website. Crawler chúng tôi phát triển dựa vào Phantomjs. Phantomjs là một “headless browser” (trình duyệt web không sử dụng giao diện đồ họa người dùng). Chúng tôi thu thập tổng cộng 237 website thuộc các lĩnh vực: mua bán, rao vặt (45 website); giáo dục, đào tạo (53 website); du lịch (51 website); y tế (33 website); báo chí (55 website). Do mỗi website có số lượng tài nguyên rất lớn và quảng cáo xuất hiện chủ yếu ở những tài nguyên cấp cao nên chúng tôi giới hạn độ sâu tìm kiếm của crawler là 2. Với độ sâu đó, chúng tôi đã thu thập được 7404 tài nguyên khác nhau. 3.3.2 Thu thập quảng cáo Chúng tôi phát triển tiếp một kich bản cho Phantomjs để phân tích trang web và thu thập tất cả các iframe; trong hầu hết các trường hợp, quảng cáo là nằm trong iframe. Tuy nhiên, không phải tất cả iframe nằm trong trang web chứa các quảng cáo. Vì vậy, để phân biệt các iframe có liên quan đến quảng cáo, chúng tôi sử dụng EasyList. EasyList bao gồm các vùng và các mẫu URL cho các máy chủ liên quan đến quảng cáo, và được sử dụng bởi các plugin trình duyệt là Adblock Plus để chặn quảng cáo. Sau khi thu được hầu hết tất cả các URL của IFRAME trên webpage, chúng tôi sử dụng một API của Adblock Plus để xem trong những URL của iframe mà chúng tôi thu thập, thì URL nào là URL quảng cáo. Nếu kết quả trả về mà URL bị block (khóa), thì URL đó là URL quảng cáo, còn ngược lại không phải URL quảng cáo. * Bước cụ thể: 38 - Đầu tiên thu thập iframe dựa vào PhantomJS: Đầu ra của bước này là một danh sách các URL của các iframe được lưu vào tập tin daura.txt. - Tiếp theo, chúng tôi đối chiếu nội dung trong tập tin daura.txt với nội dung trong tập tin easylist.txt bằng cách sử dụng API của AdblockPlus để lọc ra URL quảng cáo trong số URL ở trong tập tin daura.txt. EasyList là tập hợp các quy tắc gốc thiết kế cho Adblock tự động loại bỏ các nội dung không mong muốn từ internet, bao gồm quảng cáo gây phiền nhiễu, biểu ngữ khó chịu và theo dõi phiền hà. Đầu ra của bước này là danh sách các URL quảng cáo, được lưu vào tập tin Ads.txt. 3.3.3 Nhận diện quảng cáo độc hại Sau khi đã có được các URL quảng cáo, chúng tôi thực hiện lần lượt gửi từng URL quảng cáo đã thu thập được ở bước 3.3.2 lên VirusTotal [5] để biết quảng cáo là độc hại hay lành tính. Ở đây, VirusTotal là dịch vụ trực tuyến miễn phí, giúp phân tích tập tin và URL nghi ngờ và tạo điều kiện cho việc nhanh chóng phát hiện virus, sâu máy tính, trojan và tất cả các loại phần mềm độc hại khác. Sản phẩm Antivirus là giải pháp tốt nhất cho loại này. Tuy nhiên, không phải tất cả các nhà cung cấp có thể nhận ra các phần mềm độc hại tương tự. Ngoài ra, việc tiếp cận với nhiều sản phẩm chống virus là một quá trình mất nhiều thời gian và tốn nhiều nguồn lực. Do đó, VirusTotal có thể giải quyết vấn đề này. VirusTotal là một dịch vụ trực tuyến phân tích những file sử dụng 51 sản phẩm chống virus khác nhau và cơ chế quét để kiểm tra các phần mềm độc hại. Chúng ta có thể gửi mẫu tới VirusTotal và nhận được một báo cáo với việc phân loại các mẫu của công ty chống virus khác nhau. Bất cứ khi nào một quảng cáo đã cố gắng để buộc người dùng tải về phần mềm, chúng ta chuyển tiếp phần mềm này tới VirusTotal và lấy phân loại của nó. Bằng cách này, chúng ta có thể quyết định chính xác nếu các phần mềm tải về là lành tính hay độc hại. 3.3.4. Tổng hợp và phân tích kết quả Sau khi thu thu thập và chạy các kịch bản để nhận biết quảng cáo, quảng cáo độc hại; bảng dưới đây thống kê tập URL, URL quảng cáo, URL quảng cáo độc hại của các website theo lĩnh vực và tên miền.  Thống kê dưới dạng bảng: - Thống kê theo lĩnh vực: 39 Lĩnh vực Số lượng URL Số lượng URL quảng cáo Tỷ lệ (%) URL quảng cáo/URL URL quảng cáo độc hại Tỷ lệ (%) URL quảng cáo độc hại/URL quảng cáo Tổng cộng 7404 364 Mua bán, rao vặt 798 32 4% 0 0% Báo chí 1668 90 5,4% 0 0% Du lịch 2022 78 3,9% 0 0% Giáo dục 1485 31 2,1% 0 0% Y tế 1431 133 9,3% 0 0% Bảng 3.1. Thống kê quảng cáo theo lĩnh vực - Thống kê theo tên miền: Tên miền Số lượng URL Số lượng URL quảng cáo Tỷ lệ (%) URL quảng cáo/URL URL quảng cáo độc hại Tỷ lệ (%) URL quảng cáo độc hại/URL quảng cáo Tổng cộng 7404 364 Tên miền .com 6321 345 5% 0 0% Tên miền .edu 443 16 4% 0 0% Tên miền .info 4 0 0 0 0% Tên miền .org 341 2 1% 0 0% Tên miền .net 295 1 0,3% 0 0% Bảng 3.2. Thống kê quảng cáo theo tên miền 40  Thống kê dưới dạng biểu đồ trực quan - Thống kê theo lĩnh vực Biểu đồ 3.1. Thống kê quảng cáo theo lĩnh vực - Thống kê theo tên miền Biểu đồ 3.2. Thống kê quảng cáo theo tên miền 41 KẾT LUẬN  Nhận xét Nội dung của luận văn tập trung vào việc khảo sát, thống kê mức độ phổ biến của quảng cáo, quảng cáo độc hại trên các website . Việc khảo sát, thống kê tập trung vào các website của Việt Nam trên một số lĩnh vực cụ thể. Tuy nhiên, trong quá trình khảo sát thực tế nhận thấy các website này chưa có quảng cáo độc hại. Qua đó, có thể nhận thấy rằng, việc thực hiện phân phối quảng cáo độc hại trên website của những “kẻ xấu” ngày càng tinh vi và khó phát hiện, có thể gây hại đối với người dùng duyệt web. Do đó, kết quả của luận văn đã đóng góp một phần nhỏ trong việc phát hiện quảng cáo độc hại trên website, mặc dù mức độ và khả năng phát hiện chưa cao.  Ý nghĩa Kết quả của luận văn sẽ giúp các cơ quan quản lý nhà nước về lĩnh vực Thông tin và Truyền thông (Bộ Thông tin và Truyền thông hoặc Sở Thông tin và Truyền thông các tỉnh/thành phố trực thuộc Trung ương) theo dõi, kiểm tra được danh sách các websites của các tổ chức, cá nhân thuộc phạm vi quản lý của cơ quan mình; làm cơ sở phục vụ cho công tác quản lý, chỉ đạo đối với các tổ chức, cá nhân là chủ sở hữu hoặc các tổ chức, cá nhân có liên quan đến thực hiện quảng cáo trên website, sao cho việc quản lý, vận hành quảng cáo trên website được tốt hơn, sạch hơn và đảm bảo an toàn cho người dùng duyệt web. Mặt khác, kết quả của luận văn cũng tư vấn giúp các tổ chức, cá nhân trong việc lựa chọn đăng ký tên miền (.com, .net, .org,), thuê hosting (trong nước hay nước ngoài) dựa trên những tên miền có tỷ lệ % quảng cáo độc hại nhiều nhất, ít nhất. 42 TÀI LIỆU THAM KHẢO [1] https://en.wikipedia.org/wiki/Online_advertising, theo Wikipedia website. [2] https://en.wikipedia.org/wiki/Malvertising, theo Wikipedia website. [3] Aditya K Sood, Richard J Enbody, Michigan State University, “Malvertising – exploiting web advertising”, Computer Fraud & Security, p11-p15, 2011. [4] Fuqiang Yu, “Malicious URL Detection Algorithm based on BM Pattern Matching”, International Journal of Security and Its Applications Vol.9, No.9 (2015). [5] The Dark Alleys of Madison Avenue, “Understanding Malicious Advertisements”, 2014. [6] Đỗ Gia Quân, Phát hiện và ngăn chặn quảng cáo độc hại dựa vào URL, Khoá luận tốt nghiệp 2016, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, Hà Nội, 2016. 43 PHỤ LỤC Mã nguồn để lọc URL, URL quảng cáo, URL quảng cáo độc hại * Kịch bản để lấy các URL "use strict" // variable var system = require('system'), fs = require('fs'), path = 'output2.txt', //file = 'url.txt', ifurls = [], // output iframe url list MAX_DEPTH = 2, // depth maximum can do links = [], // link list in webpage depths = [],// depth list can do visitedurls = [] ; // main if ( system.args.length <2) { console.log( " Type your url "); phantomjs.exit(); } else { links.push(system.args[1]); depths.push(0); next_page(); } // open and evaluate one page with l function explore(l, d) { if (d >= MAX_DEPTH) { return; phantom.exit(0); } var page = require('webpage').create(); console.log("Crawling..." + d.toString() + " " + l); page.open(l, function(status) { console.log(status); if (status == "success" && document.body) { 44 // lay tat ca cac link "src" of "iframe" trong webpage var url = page.evaluate(function() { var nodes = []; var matches1 = document.getElementsByTagName("iframe"); for (var i=0 ; i < matches1.length ; i++) { if (matches1[i].src != '') nodes.push(matches1[i].src); } return nodes; }); // lay tat ca các link "href" cua "a" trong webpage var urlSet = page.evaluate(function() { // l var urlnodes = []; var matches_urlSet = document.getElementsByTagName("a"); for (var i = 0;i<matches_urlSet.length;i++) { urlnodes.push(matches_urlSet[i].href); } return urlnodes; }); var depthset = []; for (var i = 0 ; i <urlSet.length; i++) { depthset.push(d+1); } } 45 if (links.length > 0) setTimeout(next_page, 1); }); * Kịch bản lấy URL quảng cáo EASYLIST_FILE = "easylist.txt" OUTPUT_URL = "output.txt" ADS_URL = "ads.txt" rop = open(EASYLIST_FILE,'r') rules = rop.readlines() i = 0 for r in rules: rules[i]= r[0:len(r)-1] i += 1 # open file and read file have iframe ra = open(OUTPUT_URL,'r') rads = ra.readline() reads = rads.split(",") from adblockparser import AdblockRules abp = AdblockRules(rules) # write data into ads file wa = open(ADS_URL,'w') list_ads = [] count_TRUE = 0 total = 0 for iad in reads: total += 1 result = abp.should_block(iad) if result and iad not in list_ads: count_TRUE += 1 list_ads.append(iad) ads = wa.write(iad+'\n') print iad print result print "------------------------" 46 print count_TRUE print str(total) print str((count_TRUE*1.0/total)*100) + "%" * Kịch bản lấy URL quảng cáo độc hại ra = open('ads.txt','r') rads = ra.readlines() list_source_dk= [] for i in range(4): list_source_dk.append(''.join(rads[i*25: (i+1)*25])) # tao tap macilious gom nhung url doc hai malicious_count = 0 total_ads = 0 macilious = [] # Su dung VirusTotal API de phan loai quang cao doc hai for item in list_source_dk: parameters = {"resource": item, "apikey": MY_API, "scan": '1'} data = urllib.urlencode(parameters) req = urllib2.Request(url, data) response = urllib2.urlopen(req) jsonstr = response.read() listjson = simplejson.loads(jsonstr) print listjson total = 0 for i in listjson: if i.get('positives') > 0: macilious.append(i.get('resource').encode('utf-8')) malicious_count += 1

Các file đính kèm theo tài liệu này:

luan_van_danh_gia_muc_do_pho_bien_cua_quang_cao_va_quang_cao.pdf