Chuyển tới nội dung
Khóa học SEO tiêu chuẩn
  • Trang chủ
  • Giới thiệu
    • Giới thiệu VietMoz Academy
    • Cơ sở vật chất
    • Hoạt động cộng đồng
  • Chương trình đào tạo
    • Khóa học SEO tiêu chuẩn
    • Google Marketing
      • Khóa học Adwords Pro Sales
      • Khoá học Google Map Premium
      • Khóa học SEO HCM Special
      • Khóa học GA4 from Zero to Hero
    • Thực hành quảng cáo Facebook
      • Khóa học Winning Facebook Ads
      • Khóa học Facebook Marketing
    • Khoá học kinh doanh thương mại điện tử trên sàn Shopee
    • Marketing tinh gọn
      • Marketing Fundamentals
      • Khoá học MSP – Thực hành xây dựng chiến lược marketing
      • Khoá học Digital Masterclass
      • Khóa học Sale Promotion
  • Blog
    • Tin tức
    • Lịch tuyển sinh
    • Cách làm SEO
      • Wiki SEO – Thư viện thuật ngữ quan trọng
    • Blog Marketing
    • Kiến thức Google Adwords
    • Blog Facebook Marketing
    • Blog Content
  • Liên hệ
    • Đăng ký học
    • Hướng dẫn thanh toán
    • Bản đồ đường đi
Mục lục nội dung
1 1. Nếu bạn không muốn URL được Google lập chỉ mục
2 2. Nếu bạn muốn URL được Google lập chỉ mục
2.1 Kiểm tra khối thu thập thông tin có trong robots.txt
2.1.1 Làm thế nào để khắc phục được điều này
2.1.1.1 Nền tảng WordPress
2.1.1.2 WordPress với Yoast
2.1.1.3 WordPress với Rank Math
2.1.1.4 FTP hoặc Hosting
2.2 Kiểm tra các khối ngắt quãng
2.2.1 Làm thế nào để khắc phục được chúng
2.3 Kiểm tra các khối tác nhân từ phía người dùng
2.3.1 Làm thế nào để khắc phục được chúng
2.4 Kiểm tra các khối IP
2.4.1 Làm thế nào để khắc phục được nó
3 Tóm lại
Mục lục nội dung
1 1. Nếu bạn không muốn URL được Google lập chỉ mục
2 2. Nếu bạn muốn URL được Google lập chỉ mục
2.1 Kiểm tra khối thu thập thông tin có trong robots.txt
2.1.1 Làm thế nào để khắc phục được điều này
2.1.1.1 Nền tảng WordPress
2.1.1.2 WordPress với Yoast
2.1.1.3 WordPress với Rank Math
2.1.1.4 FTP hoặc Hosting
2.2 Kiểm tra các khối ngắt quãng
2.2.1 Làm thế nào để khắc phục được chúng
2.3 Kiểm tra các khối tác nhân từ phía người dùng
2.3.1 Làm thế nào để khắc phục được chúng
2.4 Kiểm tra các khối IP
2.4.1 Làm thế nào để khắc phục được nó
3 Tóm lại

Khắc phục lỗi “Đã chặn bởi robots.txt vẫn bị lập chỉ mục” trong GSC

Đăng vào 08/05/2024 bởi Lê NamDanh mục: Cách làm SEO
Đã chặn bởi robots.txt nhưng vẫn bị lập chỉ mục
Mục lục nội dung
1 1. Nếu bạn không muốn URL được Google lập chỉ mục
2 2. Nếu bạn muốn URL được Google lập chỉ mục
2.1 Kiểm tra khối thu thập thông tin có trong robots.txt
2.1.1 Làm thế nào để khắc phục được điều này
2.1.1.1 Nền tảng WordPress
2.1.1.2 WordPress với Yoast
2.1.1.3 WordPress với Rank Math
2.1.1.4 FTP hoặc Hosting
2.2 Kiểm tra các khối ngắt quãng
2.2.1 Làm thế nào để khắc phục được chúng
2.3 Kiểm tra các khối tác nhân từ phía người dùng
2.3.1 Làm thế nào để khắc phục được chúng
2.4 Kiểm tra các khối IP
2.4.1 Làm thế nào để khắc phục được nó
3 Tóm lại

Đã chặn bởi robots.txt vẫn bị lập chỉ mục (“indexed, though blocked by robots.txt”) trong Google Search Console (GSC) xảy ra khi mà Google index (lập chỉ mục) các URL mà họ không được phép thu thập thông tin từ người làm SEO hay nhà quản trị website.

Ở trong hầu hết các trường hợp, đây chỉ là một vấn đề hết sức đơn giản khi mà bạn đã thực hiện việc chặn thu thập thông tin ở trong tệp robots.txt của mình.

Tuy nhiên, lại có một số tác động bên ngoài khác có thể đã gây ra sự cố này, vì vậy chúng ta hãy cùng thực hiện quy trình khắc phục sự cố dưới đây nhằm chẩn đoán và khắc phục lại mọi thứ sớm, hiệu quả nhất có thể:

Đã chặn bởi robots.txt nhưng vẫn bị lập chỉ mục

Bước đầu tiên, bạn cần phải tự hỏi chính bản thân xem liệu là bạn có muốn Google lập chỉ mục cho URL này hay không.

1. Nếu bạn không muốn URL được Google lập chỉ mục

Bạn chỉ cần thêm thẻ noindex meta robots và đảm bảo cho phép việc thu thập thông tin – giả sử đây là thẻ Canonical.

Nếu như bạn chặn việc thu thập thông tin trên một trang, thì Google vẫn có thể lập chỉ mục trang đó vì thu thập thông tin và lập chỉ mục (index) là hai việc khác nhau. Trừ khi Google có thể thu thập dữ liệu trên một trang, họ sẽ không nhìn thấy thẻ meta ngăn lập chỉ mục mà vẫn tiếp tục lập chỉ mục cho trang đó vì nó có liên kết.

Nếu URL này chuẩn hóa cho một trang khác, đừng thêm thẻ noindex meta robots. Chỉ cần đảm bảo có sẵn các tín hiệu chuẩn hóa phù hợp, bao gồm cả thẻ Canonical trên trang ‘chuẩn’ và cho phép việc thu thập thông tin để các tín hiệu được đi qua và hợp nhất một cách chính xác.

2. Nếu bạn muốn URL được Google lập chỉ mục

Bạn cần tìm hiểu về lý do tại sao mà Google lại không thể thu thập dữ liệu URL đó và xóa chúng.

Nguyên nhân rất có thể là do khối thu thập thông tin trong robots.txt. Tuy nhiên, có một vài trường hợp khác mà bạn có thể thấy thông báo cho biết rằng bạn đang bị chặn.

Hãy xem qua những thứ dưới đây dựa theo thứ tự mà bạn có thể tìm kiếm chúng:

  1. Kiểm tra khối thu thập thông tin có trong robots.txt
  2. Kiểm tra các khối ngắt quãng
  3. Kiểm tra các khối tác nhân từ phía người dùng
  4. Kiểm tra các khối IP

Kiểm tra khối thu thập thông tin có trong robots.txt

Cách dễ dàng nhất để xem được vấn đề này là sử dụng trình Kiểm tra robots.txt có trong GSC, trình Kiểm tra này sẽ gắn cờ quy tắc chặn cho bạn.

Kiểm tra khối thu thập thông tin trong robots.txt

Nếu như bạn biết được mình đang cần tìm gì hay bạn không có quyền truy cập vào GSC, bạn có thể điều hướng tới domain.com/robots.txt để tìm tệp. Các bạn có thể đọc thêm thông tin về robots.txt qua bài viết này của VietMoz Academy. Tuy nhiên, bạn có thể đang tìm kiếm một tuyên bố ‘không cho phép’ như:

Disallow: /

Ngoài ra, có thể có một tác nhân từ phía người dùng cụ thể đã được đề cập hoặc có thể là nó đã chặn tất cả mọi người. Nếu như trang web của bạn là mới hoặc mới được ra mắt gần đây, rất có thể bạn sẽ muốn tìm:

User-agent: *
Disallow: /

KHÔNG TÌM THẤY SỰ CỐ NÀO? Có thể đã có ai đó sửa khối robots.txt và giải quyết các vấn về này trước khi bạn xem xét vấn đề. Đây là tình huống tốt nhất. Tuy nhiên, nếu như sự cố dường như đã được giải quyết nhưng nó lại xuất hiện ngay sau đó, thì rất có thể bạn đã gặp phải lỗi các khối ngắt quãng (intermittent blocks).

Làm thế nào để khắc phục được điều này

Có thể, bạn sẽ muốn xóa câu lệnh disallow gây ra khối thu thập thông tin. Tuy nhiên, cách mà bạn thực hiện việc này sẽ rất khác nhau, tùy thuộc vào nền tảng mà bạn đang sử dụng.

Nền tảng WordPress

Nếu như sự cố gây ảnh hưởng tới toàn bộ trang web của bạn, thì nguyên nhân rất có thể là do bạn đã vào mục Settings trong WordPress để ngăn việc lập chỉ mục. Lỗi này thường xảy ra đối với các trang web mới hoặc sau các lần bạn di chuyển trang web.

Hãy thực hiện theo các bước dưới đây để khắc phục:

  1. Nhấp vào mục ‘Settings’
  2. Nhấp vào ‘Reading’
  3. Đảm bảo rằng phần ‘Search Engine Visibility’ đã được bỏ chọn.

Nền tảng WordPress

WordPress với Yoast

Nếu bạn đang sử dụng plugin Yoast SEO, bạn hoàn toàn có thể chỉnh sửa trực tiếp tệp robots.txt để thực hiện việc xóa câu lệnh chặn.

  1. Nhấp vào ‘Yoast SEO’
  2. Nhấp vào phần ‘Công cụ’
  3. Nhấp vào ‘Trình chỉnh sửa tệp’
WordPress với Rank Math

Cũng tương tự như Yoast, Rank Math cho phép người dùng chỉnh sửa trực tiếp tệp robots.txt và thực hiện như sau:

  1. Nhấp vào ‘Rank Math’
  2. Nhấp vào ‘Cài đặt chung’
  3. Nhấp vào ‘Chỉnh sửa robots.txt’
FTP hoặc Hosting

Nếu bạn có quyền truy cập vào FTP của trang web, bạn có thể chỉnh sửa tệp robots.txt một cách trực tiếp để xóa tuyên bố không cho phép xảy ra sự cố. Nhà cung cấp dịch vụ lưu trữ của bạn có thể cấp cho bạn quyền truy cập vào Trình quản lý tệp, cho phép bạn truy cập trực tiếp vào tệp robots.txt.

Kiểm tra các khối ngắt quãng

Các sự cố về gián đoạn có thể sẽ khó khắc phục hơn, nguyên do các điều kiện gây ra khối ngắt quãng có thể không phải lúc nào cũng xuất hiện.

Điều mà tôi có thể khuyên bạn là nên kiểm tra lịch sử robots.txt của mình.

Ví dụ: trong Trình kiểm tra robots.txt của GSC, khi bạn nhấp vào menu thả xuống, bạn sẽ thấy được các phiên bản trước đây của tệp và có thể nhấp vào xem chúng đang chứa những gì.

Kiểm tra khối ngắt quãng

Công cụ Wayback Machine trên archive.org cũng có lịch sử của các tệp robots.txt dành cho những trang web mà chúng thu thập thông tin. Bạn có thể chọn vào bất kỳ ngày nào mà họ có dữ liệu và xem trong tệp đó bao gồm những gì vào một ngày cụ thể đó.

Wayback Machine

Hoặc bạn có thể sử dụng phiên bản beta của ‘the Changes report’, nơi cho phép bạn dễ dàng xem các thay đổi về mặt nội dung giữa hai phiên bản khác nhau.

sử dụng wayback machine

Làm thế nào để khắc phục được chúng

Quá trình khắc phục các khối giai đoạn sẽ phụ thuộc vào nguyên nhân gây ra sự cố đó.

Ví dụ: Một nguyên nhân có thể xảy ra là do bộ đệm được chia sẻ giữa môi trường thử nghiệm và môi trường thực tế. Khi bộ đệm ẩn đi môi trường thử nghiệm trong trạng thái đang hoạt động, rất có thể tệp robots.txt đã bao gồm cả lệnh chặn.

Và khi bộ nhớ cache từ môi trường thực tế đi vào hoạt động, trang web đó có thể thu thập dữ liệu được. Ở trong trường hợp này, có thể bạn muốn tách bộ nhớ cache hoặc loại trừ các tệp .txt khỏi bộ nhớ cache trong môi trường thử nghiệm.

Kiểm tra các khối tác nhân từ phía người dùng

Chặn các tác nhân từ phía người dùng là khi một website chủ động chặn một tác nhân người dùng cụ thể như Googlebot hoặc AhrefsBot. Nói theo cách khác, trang web đang phát hiện một bot cụ thể và thực hiện việc chặn các tác nhân tương ứng.

Nếu bạn có thể xem một trang tốt ở ngay trong trình duyệt thông thường của mình nhưng lại bị chặn sau khi thay đổi tác nhân người dùng của mình, thì điều đó có nghĩa là tác nhân người dùng cụ thể mà bạn nhập vào đã bị chặn.

Bạn có thể chỉ định một tác nhân người dùng cụ thể thông qua cách sử dụng Chrome devtools. Một tùy chọn khác mà bạn có thể chọn là sử dụng tiện ích mở rộng của trình duyệt để thay đổi tác nhân người dùng giống như tùy chọn này.

Ngoài ra, bạn có thể kiểm tra các khối tác nhân người dùng bằng lệnh cURL dưới đây và đây là cách thực hiện (trên Windows):

  1. Nhấn Windows + R để mở “Run”.
  2. Nhập “cmd” và sau đó nhấn “OK”.
  3. Bạn nhập một lệnh cURL như sau:

curl -A “user-agent-name-here” -Lv [URL]
curl -A “Mozilla/5.0 (compatible; AhrefsBot/7.0; +http://ahrefs.com/robot/)” -Lv https://ahrefs.com

Làm thế nào để khắc phục được chúng

Thật không may, đây là một lỗi mà việc biết được cách khắc phục sẽ phụ thuộc vào nơi mà bạn tìm thấy khối tác nhân đó. Trên nhiều hệ thống khác nhau có thể chặn bot, bao gồm .htaccess, cấu hình máy chủ, tường lửa, CDN hoặc thậm chí một số thứ mà bạn có thể không tìm thấy được, thứ mà nhà cung cấp dịch vụ lưu trữ của bạn đang kiểm soát.

Cách tốt nhất mà bạn có thể làm là liên hệ với nhà cung cấp dịch vụ lưu trữ hoặc CDN của bạn và hỏi họ xem khối tác nhân này đến từ đâu và cách mà bạn có thể giải quyết nó.

Ví dụ: đây là hai cách khác nhau để chặn tác nhân người dùng trong .htaccess mà bạn có thể cần tìm.

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} Googlebot [NC]
RewriteRule .* – [F,L]

Hoặc…

BrowserMatchNoCase “Googlebot” bots
Order Allow,Deny
Allow from ALL
Deny from env=bots

Kiểm tra các khối IP

Nếu bạn đã xác nhận được rằng mình không bị robots.txt chặn và loại trừ các khối tác nhân người dùng, thì rất có thể đó là một khối IP.

Làm thế nào để khắc phục được nó

Các khối IP là vấn đề khó có thể theo dõi. Đối với các khối tác nhân người dùng, cách tốt nhất là bạn có thể liên hệ với nhà cung cấp dịch vụ lưu trữ hoặc CDN và hỏi họ xem khối này đến từ đâu và bạn có thể giải quyết chúng như thế nào.

Dưới đây là một ví dụ mà bạn có thể đang tìm kiếm trong .htaccess:

deny from 123.123.123.123

Tóm lại

Hầu hết, cảnh báo “indexed, though blocked by robots.txt” đều là kết quả từ một khối robots.txt. Hy vọng rằng, qua bài viết này đã giúp bạn biết được cách tìm và khắc phục sự cố về lỗi “Mặc dù đã chặn robots.txt nhưng vẫn bị lập chỉ mục”.

Nếu như có bất kỳ câu hỏi thắc mắc nào, hãy để lại bình luận ở phía bên dưới cho VietMoz Academy nhé!

Lê Nam
Lê Nam
227 bài đăng
Nam Lê là CEO & Founder của VietMoz, thành lập VietMoz năm 2012. Với hơn 13 năm làm trong lĩnh vực quảng cáo trực tuyến, Nam Lê từng là huấn luyện viên SEM/SEO/Facebook của rất nhiều trang web nổi tiếng như báo Vietnamnet, báo Sức khỏe đời sống, Autodaily, CellphoneS, Kidsplaza...

Để lại một bình luận Hủy

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

Lê Nam
Lê Nam
227 bài đăng
Nam Lê là CEO & Founder của VietMoz, thành lập VietMoz năm 2012. Với hơn 13 năm làm trong lĩnh vực quảng cáo trực tuyến, Nam Lê từng là huấn luyện viên SEM/SEO/Facebook của rất nhiều trang web nổi tiếng như báo Vietnamnet, báo Sức khỏe đời sống, Autodaily, CellphoneS, Kidsplaza...
  • VietMoz xin chào!

TRUNG TÂM ĐÀO TẠO VIETMOZ ACADEMY

Địa chỉ: Số 18 ngõ 11 Thái Hà, Đống Đa, Hà Nội
Điện thoại: (0246) 292 3344 – (0246) 291 2244
Hotline: 098 380 3333
Email: info@vietmoz.com

Google Partners Chung nhan Tin Nhiem Mang
DMCA.com Protection Status

Truy cập nhanh

  • Hướng dẫn thanh toán
  • Cơ sở vật chất
  • Chính sách bảo mật thông tin
  • Tổng quan về Digital Marketing
  • Tìm hiểu Marketing là gì
Bản quyền © bởi Trung tâm đào tạo VietMoz Academy. Tối ưu bởi Code Tốt.
  • Trang chủ
  • Giới thiệu
    • Giới thiệu VietMoz Academy
    • Cơ sở vật chất
    • Hoạt động cộng đồng
  • Chương trình đào tạo
    • Khóa học SEO tiêu chuẩn
    • Google Marketing
      • Khóa học Adwords Pro Sales
      • Khoá học Google Map Premium
      • Khóa học SEO HCM Special
      • Khóa học GA4 from Zero to Hero
    • Thực hành quảng cáo Facebook
      • Khóa học Winning Facebook Ads
      • Khóa học Facebook Marketing
    • Khoá học kinh doanh thương mại điện tử trên sàn Shopee
    • Marketing tinh gọn
      • Marketing Fundamentals
      • Khoá học MSP – Thực hành xây dựng chiến lược marketing
      • Khoá học Digital Masterclass
      • Khóa học Sale Promotion
  • Blog
    • Tin tức
    • Lịch tuyển sinh
    • Cách làm SEO
      • Wiki SEO – Thư viện thuật ngữ quan trọng
    • Blog Marketing
    • Kiến thức Google Adwords
    • Blog Facebook Marketing
    • Blog Content
  • Liên hệ
    • Đăng ký học
    • Hướng dẫn thanh toán
    • Bản đồ đường đi
Gõ để tìm