Đã chặn bởi robots.txt vẫn bị lập chỉ mục (“indexed, though blocked by robots.txt”) trong Google Search Console (GSC) xảy ra khi mà Google index (lập chỉ mục) các URL mà họ không được phép thu thập thông tin từ người làm SEO hay nhà quản trị website.
Ở trong hầu hết các trường hợp, đây chỉ là một vấn đề hết sức đơn giản khi mà bạn đã thực hiện việc chặn thu thập thông tin ở trong tệp robots.txt của mình.
Tuy nhiên, lại có một số tác động bên ngoài khác có thể đã gây ra sự cố này, vì vậy chúng ta hãy cùng thực hiện quy trình khắc phục sự cố dưới đây nhằm chẩn đoán và khắc phục lại mọi thứ sớm, hiệu quả nhất có thể:
Bước đầu tiên, bạn cần phải tự hỏi chính bản thân xem liệu là bạn có muốn Google lập chỉ mục cho URL này hay không.
1. Nếu bạn không muốn URL được Google lập chỉ mục
Bạn chỉ cần thêm thẻ noindex meta robots và đảm bảo cho phép việc thu thập thông tin – giả sử đây là thẻ Canonical.
Nếu như bạn chặn việc thu thập thông tin trên một trang, thì Google vẫn có thể lập chỉ mục trang đó vì thu thập thông tin và lập chỉ mục (index) là hai việc khác nhau. Trừ khi Google có thể thu thập dữ liệu trên một trang, họ sẽ không nhìn thấy thẻ meta ngăn lập chỉ mục mà vẫn tiếp tục lập chỉ mục cho trang đó vì nó có liên kết.
Nếu URL này chuẩn hóa cho một trang khác, đừng thêm thẻ noindex meta robots. Chỉ cần đảm bảo có sẵn các tín hiệu chuẩn hóa phù hợp, bao gồm cả thẻ Canonical trên trang ‘chuẩn’ và cho phép việc thu thập thông tin để các tín hiệu được đi qua và hợp nhất một cách chính xác.
2. Nếu bạn muốn URL được Google lập chỉ mục
Bạn cần tìm hiểu về lý do tại sao mà Google lại không thể thu thập dữ liệu URL đó và xóa chúng.
Nguyên nhân rất có thể là do khối thu thập thông tin trong robots.txt. Tuy nhiên, có một vài trường hợp khác mà bạn có thể thấy thông báo cho biết rằng bạn đang bị chặn.
Hãy xem qua những thứ dưới đây dựa theo thứ tự mà bạn có thể tìm kiếm chúng:
- Kiểm tra khối thu thập thông tin có trong robots.txt
- Kiểm tra các khối ngắt quãng
- Kiểm tra các khối tác nhân từ phía người dùng
- Kiểm tra các khối IP
Kiểm tra khối thu thập thông tin có trong robots.txt
Cách dễ dàng nhất để xem được vấn đề này là sử dụng trình Kiểm tra robots.txt có trong GSC, trình Kiểm tra này sẽ gắn cờ quy tắc chặn cho bạn.
Nếu như bạn biết được mình đang cần tìm gì hay bạn không có quyền truy cập vào GSC, bạn có thể điều hướng tới domain.com/robots.txt để tìm tệp. Các bạn có thể đọc thêm thông tin về robots.txt qua bài viết này của VietMoz Academy. Tuy nhiên, bạn có thể đang tìm kiếm một tuyên bố ‘không cho phép’ như:
Disallow: /
Ngoài ra, có thể có một tác nhân từ phía người dùng cụ thể đã được đề cập hoặc có thể là nó đã chặn tất cả mọi người. Nếu như trang web của bạn là mới hoặc mới được ra mắt gần đây, rất có thể bạn sẽ muốn tìm:
User-agent: *
Disallow: /
Làm thế nào để khắc phục được điều này
Có thể, bạn sẽ muốn xóa câu lệnh disallow gây ra khối thu thập thông tin. Tuy nhiên, cách mà bạn thực hiện việc này sẽ rất khác nhau, tùy thuộc vào nền tảng mà bạn đang sử dụng.
Nền tảng WordPress
Nếu như sự cố gây ảnh hưởng tới toàn bộ trang web của bạn, thì nguyên nhân rất có thể là do bạn đã vào mục Settings trong WordPress để ngăn việc lập chỉ mục. Lỗi này thường xảy ra đối với các trang web mới hoặc sau các lần bạn di chuyển trang web.
Hãy thực hiện theo các bước dưới đây để khắc phục:
- Nhấp vào mục ‘Settings’
- Nhấp vào ‘Reading’
- Đảm bảo rằng phần ‘Search Engine Visibility’ đã được bỏ chọn.
WordPress với Yoast
Nếu bạn đang sử dụng plugin Yoast SEO, bạn hoàn toàn có thể chỉnh sửa trực tiếp tệp robots.txt để thực hiện việc xóa câu lệnh chặn.
- Nhấp vào ‘Yoast SEO’
- Nhấp vào phần ‘Công cụ’
- Nhấp vào ‘Trình chỉnh sửa tệp’
WordPress với Rank Math
Cũng tương tự như Yoast, Rank Math cho phép người dùng chỉnh sửa trực tiếp tệp robots.txt và thực hiện như sau:
- Nhấp vào ‘Rank Math’
- Nhấp vào ‘Cài đặt chung’
- Nhấp vào ‘Chỉnh sửa robots.txt’
FTP hoặc Hosting
Nếu bạn có quyền truy cập vào FTP của trang web, bạn có thể chỉnh sửa tệp robots.txt một cách trực tiếp để xóa tuyên bố không cho phép xảy ra sự cố. Nhà cung cấp dịch vụ lưu trữ của bạn có thể cấp cho bạn quyền truy cập vào Trình quản lý tệp, cho phép bạn truy cập trực tiếp vào tệp robots.txt.
Kiểm tra các khối ngắt quãng
Các sự cố về gián đoạn có thể sẽ khó khắc phục hơn, nguyên do các điều kiện gây ra khối ngắt quãng có thể không phải lúc nào cũng xuất hiện.
Điều mà tôi có thể khuyên bạn là nên kiểm tra lịch sử robots.txt của mình.
Ví dụ: trong Trình kiểm tra robots.txt của GSC, khi bạn nhấp vào menu thả xuống, bạn sẽ thấy được các phiên bản trước đây của tệp và có thể nhấp vào xem chúng đang chứa những gì.
Công cụ Wayback Machine trên archive.org cũng có lịch sử của các tệp robots.txt dành cho những trang web mà chúng thu thập thông tin. Bạn có thể chọn vào bất kỳ ngày nào mà họ có dữ liệu và xem trong tệp đó bao gồm những gì vào một ngày cụ thể đó.
Hoặc bạn có thể sử dụng phiên bản beta của ‘the Changes report’, nơi cho phép bạn dễ dàng xem các thay đổi về mặt nội dung giữa hai phiên bản khác nhau.
Làm thế nào để khắc phục được chúng
Quá trình khắc phục các khối giai đoạn sẽ phụ thuộc vào nguyên nhân gây ra sự cố đó.
Ví dụ: Một nguyên nhân có thể xảy ra là do bộ đệm được chia sẻ giữa môi trường thử nghiệm và môi trường thực tế. Khi bộ đệm ẩn đi môi trường thử nghiệm trong trạng thái đang hoạt động, rất có thể tệp robots.txt đã bao gồm cả lệnh chặn.
Và khi bộ nhớ cache từ môi trường thực tế đi vào hoạt động, trang web đó có thể thu thập dữ liệu được. Ở trong trường hợp này, có thể bạn muốn tách bộ nhớ cache hoặc loại trừ các tệp .txt khỏi bộ nhớ cache trong môi trường thử nghiệm.
Kiểm tra các khối tác nhân từ phía người dùng
Chặn các tác nhân từ phía người dùng là khi một website chủ động chặn một tác nhân người dùng cụ thể như Googlebot hoặc AhrefsBot. Nói theo cách khác, trang web đang phát hiện một bot cụ thể và thực hiện việc chặn các tác nhân tương ứng.
Nếu bạn có thể xem một trang tốt ở ngay trong trình duyệt thông thường của mình nhưng lại bị chặn sau khi thay đổi tác nhân người dùng của mình, thì điều đó có nghĩa là tác nhân người dùng cụ thể mà bạn nhập vào đã bị chặn.
Bạn có thể chỉ định một tác nhân người dùng cụ thể thông qua cách sử dụng Chrome devtools. Một tùy chọn khác mà bạn có thể chọn là sử dụng tiện ích mở rộng của trình duyệt để thay đổi tác nhân người dùng giống như tùy chọn này.
Ngoài ra, bạn có thể kiểm tra các khối tác nhân người dùng bằng lệnh cURL dưới đây và đây là cách thực hiện (trên Windows):
- Nhấn Windows + R để mở “Run”.
- Nhập “cmd” và sau đó nhấn “OK”.
- Bạn nhập một lệnh cURL như sau:
curl -A “user-agent-name-here” -Lv [URL]
curl -A “Mozilla/5.0 (compatible; AhrefsBot/7.0; +http://ahrefs.com/robot/)” -Lv https://ahrefs.com
Làm thế nào để khắc phục được chúng
Thật không may, đây là một lỗi mà việc biết được cách khắc phục sẽ phụ thuộc vào nơi mà bạn tìm thấy khối tác nhân đó. Trên nhiều hệ thống khác nhau có thể chặn bot, bao gồm .htaccess, cấu hình máy chủ, tường lửa, CDN hoặc thậm chí một số thứ mà bạn có thể không tìm thấy được, thứ mà nhà cung cấp dịch vụ lưu trữ của bạn đang kiểm soát.
Cách tốt nhất mà bạn có thể làm là liên hệ với nhà cung cấp dịch vụ lưu trữ hoặc CDN của bạn và hỏi họ xem khối tác nhân này đến từ đâu và cách mà bạn có thể giải quyết nó.
Ví dụ: đây là hai cách khác nhau để chặn tác nhân người dùng trong .htaccess mà bạn có thể cần tìm.
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} Googlebot [NC]
RewriteRule .* – [F,L]
Hoặc…
BrowserMatchNoCase “Googlebot” bots
Order Allow,Deny
Allow from ALL
Deny from env=bots
Kiểm tra các khối IP
Nếu bạn đã xác nhận được rằng mình không bị robots.txt chặn và loại trừ các khối tác nhân người dùng, thì rất có thể đó là một khối IP.
Làm thế nào để khắc phục được nó
Các khối IP là vấn đề khó có thể theo dõi. Đối với các khối tác nhân người dùng, cách tốt nhất là bạn có thể liên hệ với nhà cung cấp dịch vụ lưu trữ hoặc CDN và hỏi họ xem khối này đến từ đâu và bạn có thể giải quyết chúng như thế nào.
Dưới đây là một ví dụ mà bạn có thể đang tìm kiếm trong .htaccess:
deny from 123.123.123.123
Tóm lại
Hầu hết, cảnh báo “indexed, though blocked by robots.txt” đều là kết quả từ một khối robots.txt. Hy vọng rằng, qua bài viết này đã giúp bạn biết được cách tìm và khắc phục sự cố về lỗi “Mặc dù đã chặn robots.txt nhưng vẫn bị lập chỉ mục”.
Nếu như có bất kỳ câu hỏi thắc mắc nào, hãy để lại bình luận ở phía bên dưới cho VietMoz Academy nhé!