Sử dụng Screaming Frog hoặc Deep Crawl kiểm tra các link bị loại bỏ bởi Penguin

Bạn có thể nhập một biểu thức chính quy (RegEx) để áp dụng cho mỗi trang được thu thập thông tin. Và tương tự như Screaming Frog, bạn có thể tải lên file tin văn bản của URL để thu thập thông tin. Nhưng vì Deep Crawl là dựa trên mô hình đám mây, nên một số lượng lớn các url vẫn được Deep Crawl thu thập và phân tích một cách nhanh chóng hiệu quả.

21 trang | Chia sẻ: lylyngoc | Lượt xem: 2926 | Lượt tải: 0

Bạn đang xem trước 20 trang tài liệu Sử dụng Screaming Frog hoặc Deep Crawl kiểm tra các link bị loại bỏ bởi Penguin, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

Sử dụng Screaming Frog hoặc Deep Crawl kiểm tra các link bị loại bỏ bởi Penguin Kỹ sư Matt Cutts của Google đã thông báo rằng Penguin 2.0 đã đã chính thức được đưa vào sử dụng vào ngày 22 tháng 5 và các webmaster hãy chuẩn bị tinh thần cho những điều thay đổi sắp tới. Với việc phát hành bản update thuật toán khiến nhiều SEO-er đang tự hỏi rằng Google còn muốn gây ra những cản trở gì cho SEO. Tôi đã làm rất nhiều phân tích với Google Penguin kể từ ngày 24 tháng 4 năm 2012 khi Penguin 1.0 lần đầu được tiên tung ra, vì vậy tôi luôn chuẩn bị sẵn sàng để bắt đầu phân tích những update mới nhất của Penguin. Tương tự như các phương pháp tôi sử dụng để phân tích Penguin 1.0, tôi bắt đầu phân tích rất nhiều những site mà bị Penguin 2.0 tấn công để tìm hiểu sâu hơn về bản cập nhật thuật toán mới này. Khi Penguin 2.0 được chính thức đưa vào sử dụng, Cutts giải thích rằng Penguin 1.0 chỉ phân tích homepage của một website. Và dựa trên phân tích của với 15 site bị tấn công bới Penguin 1.0, tôi đã hiểu rõ về điều này. Khi phân tích cấu hình của các liên kết trong các trang web bị ảnh hưởng bởi Penguin 2.0, bạn có thể thấy rất nhiều liên kết không tự nhiên trỏ đến một trang trong web, không chỉ trang chủ. Hầu hết những trang tôi phân tích thì đều như thế.. Nhiều liên kết không tự nhiên = nhiều liên kết bị loại bỏ Nếu site của bạn từng bị tấn công bởi Penguin 2.0 (hoặc 1.0), bạn phải phân tích tất cả các cấu hình liên kết, xác định những liên kết không tự nhiên đã loại bỏ. Đối với một số trang web, đây là một điều hết sức khó khăn. Có một số trang web tôi đã phân tích, thì có hàng trăm hàng ngàn liên kết để loại bỏ (thậm chí còn nhiều hơn). Và càng nhiều liên kết bạn cần phải loại bỏ, thì bạn càng gặp khó khăn để tạo nên một site chất lượng. Nhưng ngay cả khi bạn phân tích, download, và sắp xếp các liên kết này, thì làm thế nào để bạn biết những link mà đã bị loại bỏ? Chắc chắn, bạn có thể kiểm tra chúng một cách thủ công, nhưng bạn có thể không thực hiện được điều này cho đến năm 2023. Sẽ không còn gì tuyệt với hơn nếu có một số cách tự động để kiểm tra các link inbound spam mà bạn đang cố gắng loại bỏ? Và ngay bây giờ, tôi sẽ tiết lộ cho cách bạn các cách đấy. Trên thực tế, có hai công cụ SEO rất hữu ích và tiết kiệm thời gian khi thực hiện điều này. Công cụ Screaming Frog Một trong những công cụ SEO ưa dùng của tôi là Screaming Frog. Tôi thường sử dụng nó cho một số nhiệm vụ quan trọng liên quan đến web về các vẫn đề thu thập dữ liệu, kiểm tra sitemap XML, đánh dấu lỗi thu nhập dữ liệu, kiểm tra sự tối ưu hóa on-page với số lượng lớn, vv. Hầu như không ngày nào là tôi không sử dụng Screaming Forg cho các công việc liên quan đến SEO của mình. . Và kể từ khi Penguin 1.0 ra mắt, tôi đã sử dụng Frog Screaming cho một nhiệm vụ quan trọng - kiểm tra xem liệu các liên kết spam inbound có còn hoạt động hay không. Sử dụng Screaming Frog, bạn có thể sử dụng một bộ lọc tùy chỉnh để kiểm tra mã html cụ thể trên website mà bạn đang thu thập dư liệu. Và sau khi thu thập dữ liệu, bạn có thể xem các trang nào vẫn dùng code đó (hoặc không dùng code đó). Điều này có thể giúp bạn tiết kiệm rất nhiều thời gian. Ngoài ra, phân tích các trang web ảnh bị hưởng bởi Penguin 1.0 và 2.0 cho tôi thấy rằng có nhiều trang web ảnh hưởng bởi phần mềm độc hại, bị đánh dấu là các trang web tấn công, vv. Khi kiểm tra các liên kết inbound spam, bạn chắc chắn sẽ giảm thiểu được nguy cơ bị ảnh hưởng bới các phần mềm độc hại đó. Sử dụng Screaming Frog có thể giúp bạn tránh truy cập vào các trang spam. Nó là một lợi ích của việc sử dụng công cụ này. Lưu ý: Tuần trước, Cyrus Shepard đã có một bài viết rất hay về các công cụ từ chối backlink và khẳng định rằng bạn có thể sử dụng Frog Screaming để kiểm tra việc loại bỏ các trang (nếu trang web chứa các liên kết spam dẫn đến lỗi 404). Bạn chắc chắn có thể làm điều đó, nhưng có những lúc các trang vẫn tồn tại và chỉ có các link được loại bỏ. Các phương pháp tôi đang cung cấp ở đây là về việc những link đã được gỡ bỏ từ các trang mà vẫn tồn tại trên web. Nói cách khác, webmaster đang loại bỏ các liên kết nhưng vẫn muốn giữ các trang đó hoạt động. Sử dụng Frog Screaming để kiểm tra các liên kết inbound. Bây giờ tôi sẽ giải thích những gì bạn nên làm. Tôi chắc rằng có rất nhiều bạn đọc bài viết này có thể sử dụng một số cách để tiết kiệm thời gian mà vẫn xác định được những liên kết bị loại bỏ. Nhưng bây giờ chúng ta hãy cùng nhau tìm hiểu một cách chi tiết về các bước trong Screaming Frog. 1. Phân tích, xuất, và sắp xếp liên kết của bạn Bước đầu tiên là bước khó khăn nhất, và không có một hưỡng dẫn cụ thể nào cho bước này. Bạn sẽ cần phải phân tích cấu trúc liên kết, xác định các liên kết spam, và sau đó chuyển định dạng sang Excel. Bạn có thể, và nên sử dụng một số công cụ để phân tích cấu trúc liên kết như: Majestic SEO, Open Site Explorer, Google Webmaster Tools, Bing Webmaster Tools, vv Bạn nên download liên kết, đánh dấu các liên kết không tự nhiên, và sắp xếp chúng chúng bằng bảng Excel 2. Sao chép URL vào file text Bạn có thể sử dụng Screaming Frog ở chế độ "List”, có nghĩa là nó sẽ thu thập các url mà bạn cung cấp trong một file text. Đó là những gì bạn phải làm, việc copy các liên kết không tự nhiên của bạn từ Excel vào một trình soạn thảo văn bản là rất quan trọng. Tôi sử dụng Textpad, nhưng bạn có thể sao chép các url của bạn vào bất kỳ trình soạn thảo văn bản nào. Mỗi url trên 1 dòng riêng biệt Mẹo: Nếu bạn đang làm việc với rất nhiều liên kết, dễ dàng hơn nếu bạn tổ chức chúng theo loại. Ví dụ, bạn có thể có một worksheet cho các danh bạ, một cho các comment spam, một cho các bài viết trên web… Điều đó sẽ giữ cho việc thu thập thông tin chặt chẽ hơn so với việc cố gắng để thu thập thông tin tất cả các link cùng một lúc. 3. Khởi động Screaming Frog Bây giờ bạn đã có file văn bản, hãy khởi đông. Khởi động Screaming Frog và chọn "Mode" từ tab menu trên cùng, và sau đó chọn "List". Một lần nữa, bạn phải cung cấp danh sách các url cho Screaming Frog kiểm tra. 4. Chọn File. Khi bạn chọn chế độ "List" trong Screaming Frog, bạn có thể nhấp vào "Select File" để chọn File văn bản của bạn. Sau đó dẫn đến những file văn bản đầu tiên bạn muốn sử dụng. Screaming Frog sẽ đọc các file và preview các URL nó sẽ phân tích. Nhấn OK. 5. Bộ lọc tùy chỉnh Bạn có thể nghĩ ngay đến việc click vào nút "Start" trong lúc này, nhưng đừng vội làm thế. Chúng ta vẫn cần phải định dạng các bộ lọc tùy chỉnh để xác định những URL mà vẫn có một phần code HTML trên web. Nhấp vào "Configure" và sau đó nhấp tiếp "Custom" để mở ra giao diện của bộ lọc tùy chỉnh. Đây là nơi bạn có thể nhập mã HTML để tìm kiếm trên mỗi trang nó thu thập. Bạn có thể chọn đánh dấu URL có chứa hoặc không chứa mã html Chúng ta sử dụng chức năng "Contain” cho quá trình lọc đầu tiên và nhập tên miền đầy đủ trang web (bao gồm cả giao thức) trong hộp văn bản cho mã HTML (ví dụ, Nếu trang đó vẫn chứa tên miền đầy đủ trong mã nguồn, đó có một cơ hội tốt cho các liên kết vẫn còn hoạt động. Nhấn "OK" khi bạn đã làm xong. 6. Thu thập thông tin của những trang đã được đanh dấu. Click "Start" và Screaming Frog sẽ kiểm tra từng url để tìm kiếm các mã HTML trong danh dách mà chúng ta đã add ở bước trước. Nếu có nhiều liên kết cần phải thu thập thông tin, bạn có thể thu nhỏ cửa sổ và làm việc khác trong việc thu thập dữ liệu đang diễn ra, nhưng hãy chú ý đến thời gian. Kết quả của bạn sẽ xuất hiện trong tab "Custom" ở phần bên phải của giao diện Screaming Frog. Đó là nơi các url phù hợp với bộ lọc tùy chỉnh sẽ hiển thị. 7. Xuất kết quả Sau khi bạn đã thu thập thông tin của từng trang để biết link trang đó còn tồn tại không, bạn có thể dễ dàng nhìn thấy được những link nào vẫn còn hoạt đông được cho ra bởi Screaming Frog. Sau đó, bạn có thể dễ dàng xuất kết quả vào một tập tin csv, và có thể được mở file đó trong Excel. Xem xét các url mà vẫn còn link đến trang web của bạn, và theo dõi với chúng. Bạn cần phải làm đi làm lại quá trình này nhiều lần. Xin chúc mừng, bạn đã hoàn thành việc kiểm tra các liên kết. Cập nhập worksheet và tiếp tục loại bỏ Bây giờ bạn đã nhận được thông tin phản hồi ngay lập tức từ Screaming Frog về những liên kết này được thực sự loại bỏ, và đến lúc bạn phải cập nhật bảng tính. Hãy tổ chức worksheet một cách rõ ràng theo ngày, do đó bạn có thể theo dõi sự tiến bộ của bạn theo thời gian. Hãy nhớ rằng, bạn nên ghi lại tất cả các việc làm của bạn để chắc chắn rằng bạn đang theo dõi được sự loại bỏ link. Điều quan trọng là có một file Excel có cấu trúc tốt liên kết tới những link mà bạn đánh dấu, và những link bạn muốn từ chối (nếu bạn cần phải sử dụng các công cụ từ chối backlink cho bất kỳ các liên kết còn lại). Và đúng như thế, có thể bạn sẽ cần phải sử dụng các công cụ từ chối backlink. Hãy cố gắng và loại bỏ các link đó bằng cách thủ công. Kiểm tra page kĩ hơn với Deep Crawl Như tôi đã đề cập ở trên, có một số trang web với những liên kết vô cùng tinh vi và phức tạp. Ví dụ, có một số trang web tôi đã phân tích với hàng trăm hàng ngàn các liên kết spam (hoặc hơn). Đối với tình huống như thế này, danh sách các liên kết không tự nhiên có thể làm Screaming Frog hoạt động chậm lại và phải phân tích trong một thời gian dài. Và đó là khi tôi sử dụng một công cụ mới mà tôi cũng rất ưu dùng. Đó là công cụ Deep Crawl Deep Crawl là một giải pháp dựa trên mô hình đám mây để thực hiện thu thập thông tin ở quy mô lớn. Đối với SEO-er, đó là một giải pháp nhiệm vụ nặng nề. Bạn cũng có thể sử dụng regEx (biểu thức hính quy) để kiểm tra sự hiện diện của nội dung trên một trang web trong Deep Crawl để xem xét kỹ lưỡng một trang web hơn. Điều tôi thích ở Deep Crawl là thu thập thông tin rất hiệu quả. Ngoài ra, vì Deep Crawl dựa trên mô hình đám mây, tôi có thể tùy chỉnh các thiết lập để thu thập dữ liệu, lập bảng biểu. Sau đó, Deep Crawl sẽ gửi email cho tôi khi việc thu thập dữ liệu đã được hoàn thành. Dưới đây là một ảnh chụp màn hình của bộ lọc "Extraction", bạn có thể áp dụng cho Deep Crawl. Bạn có thể nhập một biểu thức chính quy (RegEx) để áp dụng cho mỗi trang được thu thập thông tin. Và tương tự như Screaming Frog, bạn có thể tải lên file tin văn bản của URL để thu thập thông tin. Nhưng vì Deep Crawl là dựa trên mô hình đám mây, nên một số lượng lớn các url vẫn được Deep Crawl thu thập và phân tích một cách nhanh chóng hiệu quả. Tóm tắt: Đối phó với Penguin là một việc khó khăn, đặc biệt là trường hợp khi bạn có hàng chục ngàn các liên kết không tự nhiên trỏ đến site của bạn. Các công cụ SEO có thể tự động hóa một số nhiệm vụ khó khắn, giúp bạn làm việc với website hiệu quả hơn. Screaming Frog và Deep Crawl đều có thể giúp bạn rất nhiều trong các tình huống mà Penguin gây ra. Hy vọng rằng bài viết này đã giúp bạn nắm rõ cách sử dụng Screaming Frog và Deep Crwal để thu thập thông tin, kiểm tra các liên kết bị loại bỏ mà không cần phải xem xét lại từng trang.

Các file đính kèm theo tài liệu này:

ccseo_157__5855.pdf