Sử dụng Screaming Frog hoặc Deep Crawl kiểm tra các link bị loại bỏ bởi Penguin
Bạn có thể nhập một biểu thức chính quy (RegEx) để áp
dụng cho mỗi trang được thu thập thông tin. Và tương tự như
Screaming Frog, bạn có thể tải lên file tin văn bản của URL
để thu thập thông tin. Nhưng vì Deep Crawl là dựa trên mô
hình đám mây, nên một số lượng lớn các url vẫn được Deep
Crawl thu thập và phân tích một cách nhanh chóng hiệu quả.
21 trang |
Chia sẻ: lylyngoc | Lượt xem: 2690 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Sử dụng Screaming Frog hoặc Deep Crawl kiểm tra các link bị loại bỏ bởi Penguin, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Sử dụng Screaming Frog hoặc
Deep Crawl kiểm tra các link bị
loại bỏ bởi Penguin
Kỹ sư Matt Cutts của Google đã thông báo rằng Penguin 2.0
đã đã chính thức được đưa vào sử dụng vào ngày 22 tháng 5
và các webmaster hãy chuẩn bị tinh thần cho những điều thay
đổi sắp tới. Với việc phát hành bản update thuật toán khiến
nhiều SEO-er đang tự hỏi rằng Google còn muốn gây ra
những cản trở gì cho SEO.
Tôi đã làm rất nhiều phân tích với Google Penguin kể từ
ngày 24 tháng 4 năm 2012 khi Penguin 1.0 lần đầu được tiên
tung ra, vì vậy tôi luôn chuẩn bị sẵn sàng để bắt đầu phân tích
những update mới nhất của Penguin. Tương tự như các
phương pháp tôi sử dụng để phân tích Penguin 1.0, tôi bắt
đầu phân tích rất nhiều những site mà bị Penguin 2.0 tấn
công để tìm hiểu sâu hơn về bản cập nhật thuật toán mới này.
Khi Penguin 2.0 được chính thức đưa vào sử dụng, Cutts giải
thích rằng Penguin 1.0 chỉ phân tích homepage của một
website. Và dựa trên phân tích của với 15 site bị tấn công bới
Penguin 1.0, tôi đã hiểu rõ về điều này.
Khi phân tích cấu hình của các liên kết trong các trang web bị
ảnh hưởng bởi Penguin 2.0, bạn có thể thấy rất nhiều liên kết
không tự nhiên trỏ đến một trang trong web, không chỉ trang
chủ. Hầu hết những trang tôi phân tích thì đều như thế..
Nhiều liên kết không tự nhiên = nhiều liên kết bị loại bỏ
Nếu site của bạn từng bị tấn công bởi Penguin 2.0 (hoặc 1.0),
bạn phải phân tích tất cả các cấu hình liên kết, xác định
những liên kết không tự nhiên đã loại bỏ. Đối với một số
trang web, đây là một điều hết sức khó khăn. Có một số trang
web tôi đã phân tích, thì có hàng trăm hàng ngàn liên kết để
loại bỏ (thậm chí còn nhiều hơn). Và càng nhiều liên kết bạn
cần phải loại bỏ, thì bạn càng gặp khó khăn để tạo nên một
site chất lượng.
Nhưng ngay cả khi bạn phân tích, download, và sắp xếp các
liên kết này, thì làm thế nào để bạn biết những link mà đã bị
loại bỏ? Chắc chắn, bạn có thể kiểm tra chúng một cách thủ
công, nhưng bạn có thể không thực hiện được điều này cho
đến năm 2023.
Sẽ không còn gì tuyệt với hơn nếu có một số cách tự động để
kiểm tra các link inbound spam mà bạn đang cố gắng loại
bỏ? Và ngay bây giờ, tôi sẽ tiết lộ cho cách bạn các cách đấy.
Trên thực tế, có hai công cụ SEO rất hữu ích và tiết kiệm thời
gian khi thực hiện điều này.
Công cụ Screaming Frog
Một trong những công cụ SEO ưa dùng của tôi là Screaming
Frog. Tôi thường sử dụng nó cho một số nhiệm vụ quan
trọng liên quan đến web về các vẫn đề thu thập dữ liệu, kiểm
tra sitemap XML, đánh dấu lỗi thu nhập dữ liệu, kiểm tra sự
tối ưu hóa on-page với số lượng lớn, vv. Hầu như không
ngày nào là tôi không sử dụng Screaming Forg cho các công
việc liên quan đến SEO của mình. .
Và kể từ khi Penguin 1.0 ra mắt, tôi đã sử dụng Frog
Screaming cho một nhiệm vụ quan trọng - kiểm tra xem liệu
các liên kết spam inbound có còn hoạt động hay không. Sử
dụng Screaming Frog, bạn có thể sử dụng một bộ lọc tùy
chỉnh để kiểm tra mã html cụ thể trên website mà bạn đang
thu thập dư liệu. Và sau khi thu thập dữ liệu, bạn có thể xem
các trang nào vẫn dùng code đó (hoặc không dùng code đó).
Điều này có thể giúp bạn tiết kiệm rất nhiều thời gian.
Ngoài ra, phân tích các trang web ảnh bị hưởng bởi Penguin
1.0 và 2.0 cho tôi thấy rằng có nhiều trang web ảnh hưởng
bởi phần mềm độc hại, bị đánh dấu là các trang web tấn
công, vv. Khi kiểm tra các liên kết inbound spam, bạn chắc
chắn sẽ giảm thiểu được nguy cơ bị ảnh hưởng bới các phần
mềm độc hại đó.
Sử dụng Screaming Frog có thể giúp bạn tránh truy cập vào
các trang spam. Nó là một lợi ích của việc sử dụng công cụ
này.
Lưu ý: Tuần trước, Cyrus Shepard đã có một bài viết rất hay
về các công cụ từ chối backlink và khẳng định rằng bạn có
thể sử dụng Frog Screaming để kiểm tra việc loại bỏ các
trang (nếu trang web chứa các liên kết spam dẫn đến lỗi 404).
Bạn chắc chắn có thể làm điều đó, nhưng có những lúc các
trang vẫn tồn tại và chỉ có các link được loại bỏ.
Các phương pháp tôi đang cung cấp ở đây là về việc những
link đã được gỡ bỏ từ các trang mà vẫn tồn tại trên web. Nói
cách khác, webmaster đang loại bỏ các liên kết nhưng vẫn
muốn giữ các trang đó hoạt động.
Sử dụng Frog Screaming để kiểm tra các liên kết
inbound.
Bây giờ tôi sẽ giải thích những gì bạn nên làm. Tôi chắc rằng
có rất nhiều bạn đọc bài viết này có thể sử dụng một số cách
để tiết kiệm thời gian mà vẫn xác định được những liên kết bị
loại bỏ. Nhưng bây giờ chúng ta hãy cùng nhau tìm hiểu một
cách chi tiết về các bước trong Screaming Frog.
1. Phân tích, xuất, và sắp xếp liên kết của bạn
Bước đầu tiên là bước khó khăn nhất, và không có một
hưỡng dẫn cụ thể nào cho bước này. Bạn sẽ cần phải phân
tích cấu trúc liên kết, xác định các liên kết spam, và sau đó
chuyển định dạng sang Excel.
Bạn có thể, và nên sử dụng một số công cụ để phân tích cấu
trúc liên kết như: Majestic SEO, Open Site Explorer, Google
Webmaster Tools, Bing Webmaster Tools, vv
Bạn nên download liên kết, đánh dấu các liên kết không tự
nhiên, và sắp xếp chúng chúng bằng bảng Excel
2. Sao chép URL vào file text
Bạn có thể sử dụng Screaming Frog ở chế độ "List”, có nghĩa
là nó sẽ thu thập các url mà bạn cung cấp trong một file text.
Đó là những gì bạn phải làm, việc copy các liên kết không tự
nhiên của bạn từ Excel vào một trình soạn thảo văn bản là rất
quan trọng. Tôi sử dụng Textpad, nhưng bạn có thể sao chép
các url của bạn vào bất kỳ trình soạn thảo văn bản nào. Mỗi
url trên 1 dòng riêng biệt
Mẹo: Nếu bạn đang làm việc với rất nhiều liên kết, dễ dàng
hơn nếu bạn tổ chức chúng theo loại. Ví dụ, bạn có thể có
một worksheet cho các danh bạ, một cho các comment spam,
một cho các bài viết trên web… Điều đó sẽ giữ cho việc thu
thập thông tin chặt chẽ hơn so với việc cố gắng để thu thập
thông tin tất cả các link cùng một lúc.
3. Khởi động Screaming Frog
Bây giờ bạn đã có file văn bản, hãy khởi đông. Khởi động
Screaming Frog và chọn "Mode" từ tab menu trên cùng, và
sau đó chọn "List". Một lần nữa, bạn phải cung cấp danh sách
các url cho Screaming Frog kiểm tra.
4. Chọn File.
Khi bạn chọn chế độ "List" trong Screaming Frog, bạn có thể
nhấp vào "Select File" để chọn File văn bản của bạn. Sau đó
dẫn đến những file văn bản đầu tiên bạn muốn sử dụng.
Screaming Frog sẽ đọc các file và preview các URL nó sẽ
phân tích. Nhấn OK.
5. Bộ lọc tùy chỉnh
Bạn có thể nghĩ ngay đến việc click vào nút "Start" trong lúc
này, nhưng đừng vội làm thế. Chúng ta vẫn cần phải định
dạng các bộ lọc tùy chỉnh để xác định những URL mà vẫn có
một phần code HTML trên web.
Nhấp vào "Configure" và sau đó nhấp tiếp "Custom" để mở
ra giao diện của bộ lọc tùy chỉnh. Đây là nơi bạn có thể nhập
mã HTML để tìm kiếm trên mỗi trang nó thu thập. Bạn có
thể chọn đánh dấu URL có chứa hoặc không chứa mã html
Chúng ta sử dụng chức năng "Contain” cho quá trình lọc đầu
tiên và nhập tên miền đầy đủ trang web (bao gồm cả giao
thức) trong hộp văn bản cho mã HTML (ví
dụ, Nếu trang đó vẫn chứa tên
miền đầy đủ trong mã nguồn, đó có một cơ hội tốt cho các
liên kết vẫn còn hoạt động. Nhấn "OK" khi bạn đã làm xong.
6. Thu thập thông tin của những trang đã được đanh dấu.
Click "Start" và Screaming Frog sẽ kiểm tra từng url để tìm
kiếm các mã HTML trong danh dách mà chúng ta đã add ở
bước trước. Nếu có nhiều liên kết cần phải thu thập thông tin,
bạn có thể thu nhỏ cửa sổ và làm việc khác trong việc thu
thập dữ liệu đang diễn ra, nhưng hãy chú ý đến thời gian.
Kết quả của bạn sẽ xuất hiện trong tab "Custom" ở phần bên
phải của giao diện Screaming Frog. Đó là nơi các url phù hợp
với bộ lọc tùy chỉnh sẽ hiển thị.
7. Xuất kết quả
Sau khi bạn đã thu thập thông tin của từng trang để biết link
trang đó còn tồn tại không, bạn có thể dễ dàng nhìn thấy
được những link nào vẫn còn hoạt đông được cho ra bởi
Screaming Frog. Sau đó, bạn có thể dễ dàng xuất kết quả vào
một tập tin csv, và có thể được mở file đó trong Excel. Xem
xét các url mà vẫn còn link đến trang web của bạn, và theo
dõi với chúng. Bạn cần phải làm đi làm lại quá trình này
nhiều lần.
Xin chúc mừng, bạn đã hoàn thành việc kiểm tra các liên kết.
Cập nhập worksheet và tiếp tục loại bỏ
Bây giờ bạn đã nhận được thông tin phản hồi ngay lập tức từ
Screaming Frog về những liên kết này được thực sự loại bỏ,
và đến lúc bạn phải cập nhật bảng tính. Hãy tổ chức
worksheet một cách rõ ràng theo ngày, do đó bạn có thể theo
dõi sự tiến bộ của bạn theo thời gian. Hãy nhớ rằng, bạn nên
ghi lại tất cả các việc làm của bạn để chắc chắn rằng bạn
đang theo dõi được sự loại bỏ link.
Điều quan trọng là có một file Excel có cấu trúc tốt liên kết
tới những link mà bạn đánh dấu, và những link bạn muốn từ
chối (nếu bạn cần phải sử dụng các công cụ từ chối backlink
cho bất kỳ các liên kết còn lại). Và đúng như thế, có thể bạn
sẽ cần phải sử dụng các công cụ từ chối backlink. Hãy cố
gắng và loại bỏ các link đó bằng cách thủ công.
Kiểm tra page kĩ hơn với Deep Crawl
Như tôi đã đề cập ở trên, có một số trang web với những liên
kết vô cùng tinh vi và phức tạp. Ví dụ, có một số trang web
tôi đã phân tích với hàng trăm hàng ngàn các liên kết spam
(hoặc hơn). Đối với tình huống như thế này, danh sách các
liên kết không tự nhiên có thể làm Screaming Frog hoạt động
chậm lại và phải phân tích trong một thời gian dài. Và đó là
khi tôi sử dụng một công cụ mới mà tôi cũng rất ưu dùng. Đó
là công cụ Deep Crawl
Deep Crawl là một giải pháp dựa trên mô hình đám mây để
thực hiện thu thập thông tin ở quy mô lớn. Đối với SEO-er,
đó là một giải pháp nhiệm vụ nặng nề. Bạn cũng có thể sử
dụng regEx (biểu thức hính quy) để kiểm tra sự hiện diện của
nội dung trên một trang web trong Deep Crawl để xem xét kỹ
lưỡng một trang web hơn.
Điều tôi thích ở Deep Crawl là thu thập thông tin rất hiệu
quả. Ngoài ra, vì Deep Crawl dựa trên mô hình đám mây, tôi
có thể tùy chỉnh các thiết lập để thu thập dữ liệu, lập bảng
biểu. Sau đó, Deep Crawl sẽ gửi email cho tôi khi việc thu
thập dữ liệu đã được hoàn thành.
Dưới đây là một ảnh chụp màn hình của bộ lọc "Extraction",
bạn có thể áp dụng cho Deep Crawl.
Bạn có thể nhập một biểu thức chính quy (RegEx) để áp
dụng cho mỗi trang được thu thập thông tin. Và tương tự như
Screaming Frog, bạn có thể tải lên file tin văn bản của URL
để thu thập thông tin. Nhưng vì Deep Crawl là dựa trên mô
hình đám mây, nên một số lượng lớn các url vẫn được Deep
Crawl thu thập và phân tích một cách nhanh chóng hiệu quả.
Tóm tắt:
Đối phó với Penguin là một việc khó khăn, đặc biệt là trường
hợp khi bạn có hàng chục ngàn các liên kết không tự nhiên
trỏ đến site của bạn. Các công cụ SEO có thể tự động hóa
một số nhiệm vụ khó khắn, giúp bạn làm việc với website
hiệu quả hơn. Screaming Frog và Deep Crawl đều có thể giúp
bạn rất nhiều trong các tình huống mà Penguin gây ra.
Hy vọng rằng bài viết này đã giúp bạn nắm rõ cách sử dụng
Screaming Frog và Deep Crwal để thu thập thông tin, kiểm
tra các liên kết bị loại bỏ mà không cần phải xem xét lại từng
trang.
Các file đính kèm theo tài liệu này:
- ccseo_157__5855.pdf