Có rất nhiều cách để xóa URL ra khỏi Google, tuy nhiên lại không có bất kỳ một quy chuẩn nào phù hợp trong tất cả các cách tiếp cận. Tất cả đều phụ thuộc vào ‘hoàn cảnh’ khi ấy của bạn.
Đây là một điểm quan trọng mà bạn cần hiểu. Đôi khi việc sử dụng sai phương pháp không chỉ dẫn tới việc các trang không bị xóa khỏi chỉ mục như ý muốn mà còn có thể gây ra ảnh hưởng xấu tới SEO.
Để có thể giúp bạn nhanh chóng đưa ra quyết định xem phương pháp xóa này sẽ phù hợp nhất với mình, tại đây chúng tôi đã lập một sơ đồ để bạn có thể dễ dàng chuyển sang phần mà bạn đang cần tìm kiếm ngay trong bài viết này.
Cách kiểm tra xem một URL có được lập chỉ mục hay không?
Những gì mà tôi thường thấy những người làm SEO thường làm để kiểm tra xem nội dung có được lập chỉ mục hay không là sử dụng site: tìm kiếm trên Google (Ví dụ: site: https: // vietmoz.edu.vn).
Mặc dù site: search có thể hữu ích để xác định các trang hoặc phần của trang web có thể có vấn đề nếu chúng hiển thị trong kết quả tìm kiếm, bạn cần phải cẩn thận vì chúng không phải là truy vấn bình thường và sẽ không thực sự cho bạn biết liệu một trang có được lập chỉ mục hay không.
Chúng có thể hiển thị các trang được Google biết đến, nhưng điều đó không đồng nghĩa là chúng đủ điều kiện để hiển thị ở trong kết quả tìm kiếm thông thường mà không có toán tử site:.
Ví dụ, site: search vẫn có thể hiển thị các trang chuyển hướng hoặc được chuẩn hóa tới một trang khác. Khi bạn yêu cầu một trang web cụ thể, Google có thể hiển thị một trang từ tên miền đó với nội dung, tiêu đề và mô tả từ một miền khác.
Ở đây chúng ta có thể lấy ví dụ moz.com trước đây từng là seomoz.org. Mọi truy vấn của người dùng thông thường dẫn đến các trang trên moz.com sẽ hiển thị moz.com trong SERPs, trong khi site: seomoz.org sẽ hiển thị seomoz.org ở trong kết quả tìm kiếm (như hình dưới đây).
Lý do đây là sự khác biệt quan trọng vì nó có thể khiến người làm SEO mắc sai lầm như chủ động chặn hay xóa URL khỏi chỉ mục cho tên miền cũ, điều này ngăn cản việc hợp nhất các tín hiệu như PageRank.
Tôi đã gặp nhiều trường hợp di chuyển tên miền, trong đó mọi người nghĩ rằng họ đã mắc sai lầm trong quá trình di chuyển vì các trang này vẫn hiển thị cho các tìm kiếm site: old-domain.com và cuối cùng lại ‘chủ động’ gây hại cho trang web của họ trong khi cố gắng “khắc phục” sự cố.
Phương pháp tốt hơn để kiểm tra lập chỉ mục là sử dụng Index Coverage report trong Google Search Console hay URL Inspection Tool cho một URL riêng lẻ.
Các công cụ này cho bạn biết liệu một trang có được lập chỉ mục hay không và cung cấp thêm thông tin về cách Google xử lý trang đó. Nếu bạn không có quyền truy cập vào để xem, chỉ cần tìm kiếm trên Google để tìm URL đầy đủ trang của bạn.
Trong Ahrefs, nếu bạn tìm thấy trang trong báo cáo “Top Pages” hay xếp hạng cho các từ khóa không phải trả tiền (Organic Keyword), điều đó thường có nghĩa là Ahrefs đã thấy nó xếp hạng cho các truy vấn tìm kiếm thông thường và đây là một dấu hiệu tốt cho thấy trang đã được lập chỉ mục.
Lưu ý rằng các trang này đã được lập chỉ mục khi Ahrefs thấy chúng, tuy nhiên điều đó có thể đã thay đổi. Hãy check xem ‘ngày cuối cùng’ mà họ nhìn thấy trang đó để tìm truy vấn.
Nếu có sự cố với một URL cụ thể và URL đó cần xóa khỏi chỉ mục, hãy làm theo sơ đồ ở ngay đầu bài viết để tìm tùy chọn xóa chính xác, sau đó chuyển tới phần phía bên dưới.
Phương pháp 1: Xóa nội dung
Nếu bạn xóa trang và cung cấp mã trạng thái 404 (không tìm thấy) hoặc 410 (đã biến mất), thì trang sẽ bị xóa khỏi chỉ mục ngay sau khi trang đó được thu thập lại thông tin. Cho đến khi nó bị xóa, trang vẫn có thể hiển thị ở trong kết quả tìm kiếm.
Và ngay cả khi bản thân trang đó không còn nữa, phiên bản được lưu trong bộ nhớ cache của trang có thể tạm thời khả dụng.
Khi đó, bạn có thể cần một tùy chọn khác:
- I need more immediate removal. Xem phần URL removal tool.
- I need to consolidate signals like links. Xem phần the canonicalization.
- I need the page available for users. Xem các phần ngăn lập chỉ mục hay hạn chế quyền truy cập có phù hợp với trường hợp của bạn không?
Phương pháp 2: Noindex
Robots Meta Tag ngăn lập chỉ mục hoặc phản hồi x‑robots header sẽ yêu cầu các công cụ tìm kiếm xóa một trang ra khỏi chỉ mục.
Robots Meta Tag hoạt động cho các trang mà phản hồi X-robots hoạt động cho các trang và các loại tệp bổ sung như PDF. Để các thẻ này được nhìn thấy, công cụ tìm kiếm cần có khả năng thu thập thông tin các trang – vì vậy hãy đảm bảo rằng chúng không bị chặn trong robots.txt.
Ngoài ra, hãy lưu ý rằng việc xóa các trang khỏi chỉ mục có thể ngăn cản sự hợp nhất của liên kết với các tín hiệu khác.
Ví dụ về Noindex Robots Tag:
<meta name = “robots” content = “noindex”>
Ví dụ về Noindex X-Robots Tag trong phản hồi tiêu đề:
HTTP / 1.1 200 OK
X-Robots-Tag: noindex
Nếu bạn cần một tùy chọn khác:
- I don’t want users to access these pages. Xem phần restricting access.
- I need to consolidate signals like links. Xem phần canonicalization.
Phương pháp 3: Hạn chế quyền truy cập
Nếu bạn muốn một số người dùng có thể truy cập trang chứ không phải công cụ tìm kiếm, thì những gì bạn sẽ muốn là một trong ba tùy chọn sau:
- Một số loại hệ thống đăng nhập;
- HTTP Authentication (Yêu cầu mật khẩu để truy cập);
- IP Whitelisting (Chỉ cho phép các địa chỉ IP cụ thể truy cập các trang).
Kiểu thiết lập này phù hợp nhất cho những thứ như mạng nội bộ, nội dung chỉ dành cho thành viên hoặc cho các trang web ‘dàn dựng’, thử nghiệm hay cần phát triển. Nó sẽ chỉ cho phép một nhóm người có quyền được truy cập trang, nhưng các công cụ tìm kiếm sẽ không thể truy cập được vào và sẽ không lập chỉ mục các trang.
Nếu bạn đang cần một tùy chọn khác:
I need more immediate removal. Xem phần công cụ xóa URL. Trong trường hợp cụ thể này, bạn có thể muốn xóa ngay lập tức nếu nội dung bạn đang cố gắng ẩn được lưu vào bộ nhớ đệm và bạn cần ngăn người dùng nhìn thấy được nội dung đó.
Phương pháp 4: URL Removal Tool (Công cụ xóa URL ra khỏi Google)
Tên công cụ này của Google sẽ hơi gây hiểu nhầm chút và cách hoạt động của nó là nó sẽ tạm thời ẩn đi nội dung. Tức là, Google vẫn xem và thu thập thông tin nội dung này, nhưng các trang sẽ không xuất hiện cho người dùng.
Hiệu ứng tạm thời này kéo dài trong sáu tháng đối với Google, trong khi Bing có một công cụ tương tự kéo dài trong ba tháng. Những công cụ này nên được sử dụng trong những trường hợp ‘khắc nghiệt’ nhất đối với những thứ như vấn đề bảo mật, rò rỉ dữ liệu, personally identifiable information (PII), .v.v.
Với Google, sử dụng Removals Tool và còn với Bing, sử dụng How to block URLs.
Bạn vẫn cần áp dụng một phương pháp khác cùng với việc sử dụng công cụ Removal để thực sự xóa các trang trong một thời gian dài hơn (noindex hoặc xóa) hay ngăn người dùng truy cập nội dung nếu họ vẫn có liên kết (xóa hoặc hạn chế quyền truy cập).
Điều này chỉ cung cấp cho bạn một cách nhanh hơn để ẩn các trang trong khi quá trình xóa có thời gian để xử lý. Có thể sẽ mất đến một ngày để xử lý được yêu cầu.
Phương pháp 5: Canonicalization
Khi bạn có nhiều phiên bản của một trang và muốn hợp nhất các tín hiệu như liên kết đến một phiên bản duy nhất, điều bạn muốn làm là một số hình thức canonical (chuẩn hóa). Điều này chủ yếu để ngăn duplicate content (nội dung trùng lặp) trong khi hợp nhất nhiều phiên bản của một trang thành một URL được lập chỉ mục.
Bạn có một số tùy chọn chuẩn hóa:
- Canonical Tag: Điều này chỉ định một URL khác làm phiên bản chuẩn hoặc phiên bản mà bạn muốn được hiển thị. Nếu các trang trùng lặp hoặc rất giống nhau, thì điều này sẽ là tốt. Khi các trang quá khác nhau, trang chuẩn có thể bị bỏ qua vì nó chỉ là trang gợi ý chứ không phải là trang được ‘chỉ thị’.
- Redirects. Chuyển hướng sẽ đưa người dùng và bot tìm kiếm từ trang này sang trang khác. Redirect 301 là chuyển hướng được sử dụng phổ biến nhất bởi những người là SEO và nó cho các công cụ tìm kiếm biết rằng bạn muốn URL cuối cùng là URL được hiển thị trong kết quả tìm kiếm và nơi các tín hiệu được tổng hợp.
Chuyển hướng 302 hoặc tạm thời cho các công cụ tìm kiếm biết rằng bạn muốn URL ban đầu là URL duy trì trong chỉ mục và hợp nhất các tín hiệu ở đó. - URL parameter handling. Một tham số được thêm vào cuối URL và thường bao gồm một dấu chấm hỏi, chẳng hạn như vietmoz.edu.vn?this=parameter.
Công cụ này của Google cho phép bạn cho họ biết được cách xử lý URL với các thông số cụ thể. Ví dụ: Bạn có thể chỉ định xem tham số có thay đổi nội dung trang này hay chỉ để theo dõi việc sử dụng.
Các ưu tiên xóa
Nếu bạn có nhiều trang cần xóa khỏi chỉ mục của Google, thì chúng nên được ưu tiên tương ứng.
- Ưu tiên cao nhất: Các trang này thường liên quan đến bảo mật hoặc liên quan đến dữ liệu bí mật. Điều này bao gồm personally identifiable information (PII), dữ liệu khách hàng hoặc thông tin độc quyền.
- Ưu tiên trung bình: Điều này thường liên quan đến nội dung dành cho một nhóm người dùng cụ thể. Mạng nội bộ của công ty hoặc cổng thông tin của nhân viên, nội dung chỉ dành cho thành viên và trang web dàn dựng, thử nghiệm hay đang cần phát triển.
- Ưu tiên thấp: Những trang này thường liên quan đến Duplicate Content của một số loại. Một số ví dụ về những trang này gồm các trang được phát từ nhiều URL, URL có tham số và có thể bao gồm trang dàn dựng, thử nghiệm hay đang cần phát triển.
Những lỗi loại bỏ (Removal) phổ biến cần tránh
Tôi muốn trình bày một số cách tôi thường thấy việc xóa được thực hiện không chính xác và điều gì sẽ xảy ra trong mỗi tình huống để giúp mọi người hiểu được tại sao chúng không hoạt động.
Noindex trong Robots.txt
Mặc dù Google đã ngừng hỗ trợ noindex một cách không chính thức trong robots.txt, nhưng nó chưa bao giờ là một tiêu chuẩn chính thức và hiện họ đã chính thức removed support. Nhiều trang web đang làm như vậy, nó không chính xác và đang gây hại cho chính họ.
Chặn thu thập thông tin trong Robots.txt
Thu thập thông tin không giống như lập chỉ mục. Ngay cả khi Google chặn thu thập dữ liệu các trang, nếu có bất kỳ liên kết nội bộ hoặc liên kết bên ngoài nào đến một trang, họ vẫn có thể lập chỉ mục trang đó.
Google không biết những gì trên trang vì họ sẽ không thu thập dữ liệu trang đó, nhưng họ biết một trang tồn tại và thậm chí sẽ viết tiêu đề để hiển thị trong kết quả tìm kiếm dựa trên các tín hiệu như các anchor text liên kết đến trang.
Nofollow
Điều này thường bị nhầm lẫn với noindex và một số người sẽ sử dụng nó ở cấp độ trang với mong đợi trang không được lập chỉ mục. Nofollow là một gợi ý và mặc dù ban đầu nó đã ngăn các liên kết trên trang và các liên kết riêng lẻ có thuộc tính nofollow được thu thập thông tin, nhưng điều đó không còn đúng nữa.
Google hiện có thể thu thập thông tin các liên kết này nếu họ muốn. Nofollow cũng được sử dụng trên các liên kết riêng lẻ để cố gắng ngăn Google thu thập thông tin qua các trang cụ thể và để tạo PageRank.
Một lần nữa, điều này không còn hoạt động vì nofollow là một gợi ý. Trước đây, nếu trang có một liên kết khác đến nó, thì Google vẫn có thể phát hiện ra từ đường dẫn thu thập thông tin thay thế này.
Lưu ý rằng bạn có thể tìm thấy hàng loạt các trang nofollow bằng cách sử dụng bộ lọc này trong Page Explorer trong Site Audit của Ahrefs.
Vì hiếm khi nofollow tất cả các liên kết trên một trang, nên số lượng kết quả phải bằng 0 hoặc gần bằng 0. Nếu có kết quả phù hợp, tôi khuyên bạn nên kiểm tra theo lệnh nofollow có vô tình được thêm vào thay cho noindex hay không và chọn phương pháp xóa phù hợp hơn nếu cần.
Bạn cũng có thể tìm thấy các liên kết riêng lẻ được đánh dấu nofollow bằng bộ lọc này trong Link Explorer.
Noindex và Canonical đến một URL khác
Những tín hiệu này đang mâu thuẫn với nhau. Noindex cho biết xóa trang khỏi chỉ mục và Canonical thì nói rằng một trang khác là phiên bản nên được lập chỉ mục. Điều này thực sự có thể hoạt động để hợp nhất vì Google thường sẽ chọn bỏ qua noindex và thay vào đó sử dụng Canonical làm tín hiệu chính.
Tuy nhiên, đây không phải là một hành vi tuyệt đối. Có một thuật toán liên quan và có nguy cơ thẻ noindex có thể là tín hiệu được tính. Nếu đúng là như vậy thì các trang sẽ không được ‘hợp nhất’ đúng cách.
Lưu ý: Bạn có thể tìm thấy các trang không được lập chỉ mục có chuẩn không, tự tham chiếu bằng cách sử dụng bộ lọc này trong Page Explorer của Site Audit:
Noindex, đợi Google thu thập thông tin, sau đó là chặn thu thập thông tin
Có một số trường hợp mà điều này thường xảy ra:
- Các trang bị chặn nhưng được lập chỉ mục, mọi người thêm noindex và bỏ chặn để Google có thể thu thập dữ liệu và xem noindex, sau đó chặn các trang thu thập dữ liệu lại.
- Mọi người thêm thẻ Noindex cho các trang họ muốn xóa và sau khi Google thu thập thông tin và xử lý thẻ Noindex, họ chặn thu thập thông tin các trang.
Dù bằng cách nào, trạng thái cuối cùng cũng bị chặn thu thập thông tin. Nếu bạn còn nhớ, trước đó, chúng ta đã nói về cách thu thập thông tin không giống như lập chỉ mục. Ngay cả khi các trang này bị chặn, chúng vẫn có thể xuất hiện trong chỉ mục.
Điều gì sẽ xảy ra nếu đó là nội dung của bạn nhưng không phải xuất hiện trên trang web mà bạn sở hữu?
Nếu bạn sở hữu nội dung đang được sử dụng trên một trang web khác, bạn có thể gửi khiếu nại dựa trên Digital Millennium Copyright Act (DMCA). Bạn có thể sử dụng Google’s Copyright Removal tool để thực hiện việc gỡ xuống theo DMCA, công cụ này yêu cầu xóa mọi tài liệu có bản quyền.
Điều gì sẽ xảy ra nếu đó là nội dung về bạn nhưng không phải trên một trang web mà bạn sở hữu?
Nếu bạn ở Liên minh Châu Âu, bạn có thể xóa nội dung chứa thông tin về bạn nhờ lệnh tòa về quyền. Bạn có thể yêu cầu xóa thông tin cá nhân bằng cách sử dụng EU Privacy Removal form.
Xóa hình ảnh
Để xóa hình ảnh ra khỏi Google, cách dễ nhất là sử dụng tệp robots.txt. Mặc dù hỗ trợ không chính thức cho việc xóa trang đã bị xóa khỏi robots.txt như tôi đã đề cập trước đó, nhưng chỉ cần không cho phép thu thập thông tin hình ảnh là cách phù hợp nhất để xóa hình ảnh.
Đối với một hình ảnh duy nhất:
User-agent: Googlebot-Image
Disallow: /images/dogs.jpg
Đối với tất cả các hình ảnh:
User-agent: Googlebot-Image
Disallow: /
Tóm lại
Cách mà bạn loại bỏ URL là dựa theo tình huống. Tôi đã chia sẻ về một số tùy chọn, nhưng nếu bạn vẫn đang phân vân xem lựa chọn nào phù hợp với mình, hãy tham khảo lại sơ đồ ở phần đầu.
Ngoài ra, bạn cũng có thể sử dụng legal troubleshooter (gỡ rối pháp lý) do Google cung cấp để có thể xóa nội dung.
Nguồn: vietmoz.edu.vn, Ahrefs
Bản quyền thuộc về Đào tạo SEO VietMoz
Vui lòng không copy khi chưa được sự đồng ý của tác giả