Google’s Gary Illyes và Martin Splitt đã dành một tập của podcast Search Off the Record để giải thích cách trình thu thập dữ liệu của Google xử lý HTML. Cuộc trao đổi làm rõ sự khác biệt giữa cách trình duyệt và Googlebot diễn giải cùng một trang web.
Nội dung thảo luận xoay quanh resource hints, vị trí metadata và tính hợp lệ của HTML. Một số chia sẻ của Illyes đã thách thức những giả định phổ biến về việc đâu mới là các thay đổi kỹ thuật thực sự giúp ích cho SEO.
Vì Sao Resource Hints Không Giúp Googlebot?
Các tính năng tối ưu hiệu suất trình duyệt như dns-prefetch, preload, prefetch hay preconnect được thiết kế để giảm độ trễ mạng giữa người dùng và máy chủ. Tuy nhiên, theo Illyes, hạ tầng của Google không gặp những vấn đề độ trễ này.
Ông giải thích rằng DNS Prefetch rất hữu ích với người dùng có kết nối internet kém, nhưng Google có thể giao tiếp cực nhanh với hệ thống DNS phân tầng của mình. Vì vậy, Googlebot không cần những “gợi ý” đó để tăng tốc độ truy xuất tài nguyên.
Ngoài ra, Google không tải tài nguyên theo thời gian thực như trình duyệt. Thay vào đó, hệ thống của họ lưu trữ và xử lý tài nguyên riêng biệt nhằm giảm băng thông và tải máy chủ cho website được thu thập dữ liệu. Điều này khiến các chỉ thị như preload trở nên không cần thiết với Googlebot.
Illyes cũng nhấn mạnh rằng Google sử dụng Speculation Rules API để tăng tốc khi người dùng Chrome nhấp vào kết quả tìm kiếm. Tuy nhiên, cơ chế này hoạt động ở cấp độ trình duyệt — nơi độ trễ thực sự ảnh hưởng đến trải nghiệm người dùng — chứ không phải ở cấp độ crawler.
- Resource hints giúp trải nghiệm người dùng trên trình duyệt.
- Resource hints không ảnh hưởng đến quá trình crawl hoặc index của Googlebot.
- Tốc độ tải trang vẫn quan trọng cho chuyển đổi và giữ chân người dùng.
Metadata Phải Nằm Trong Thẻ Head
Splitt chia sẻ một trường hợp trong đó một thẻ script hợp lệ trong phần head đã chèn iframe, khiến trình duyệt tự động đóng head sớm. Hệ quả là các thẻ hreflang bị đẩy xuống phần body — và hệ thống của Google đã bỏ qua chúng.
Illyes giải thích rằng theo tiêu chuẩn HTML hiện hành, thẻ meta name=”robots” chỉ được phép xuất hiện trong head. Tương tự, thẻ rel=canonical cũng phải nằm trong head để được coi là hợp lệ.
Ông cảnh báo rằng việc chấp nhận canonical trong body có thể gây rủi ro bảo mật. Nếu Google xử lý canonical ở body, kẻ xấu có thể chèn mã để thay đổi canonical và loại bỏ trang khỏi kết quả tìm kiếm.
| Yếu tố | Đặt trong Head | Đặt trong Body |
|---|---|---|
| meta robots | Được Google xử lý | Bị bỏ qua |
| rel=canonical | Được chấp nhận | Có thể bị bỏ qua |
| hreflang | Hoạt động đúng | Có nguy cơ không được ghi nhận |
Illyes trước đây cũng khuyến nghị sử dụng URL đầy đủ trong canonical để tránh mơ hồ khi parser xử lý. Nguyên tắc cốt lõi vẫn là: đặt metadata đúng vị trí để loại bỏ sự phỏng đoán từ hệ thống.
HTML Hợp Lệ Không Đồng Nghĩa Lợi Thế Xếp Hạng
Illyes khẳng định rằng tính hợp lệ của HTML không thể trở thành tín hiệu xếp hạng vì nó là một tiêu chí nhị phân: hoặc hợp lệ, hoặc không. Không có khái niệm “gần hợp lệ” để có thể định lượng thành điểm số.
Ông đưa ví dụ rằng thiếu thẻ đóng span có thể khiến HTML không hợp lệ về mặt kỹ thuật, nhưng gần như không ảnh hưởng đến trải nghiệm người dùng. Vì vậy, rất khó để coi đây là yếu tố xếp hạng có ý nghĩa.
Splitt cũng đồng tình rằng các yếu tố như cấu trúc heading chuẩn hay semantic HTML5 không mang trọng số đáng kể cho tìm kiếm, dù chúng rất quan trọng cho khả năng truy cập và trải nghiệm người dùng.
- HTML hợp lệ ≠ lợi thế SEO trực tiếp.
- Semantic markup giúp accessibility và UX.
- Google không thể sử dụng tiêu chí “pass/fail” làm tín hiệu xếp hạng hiệu quả.
Vì Sao Điều Này Quan Trọng?
Các báo cáo audit kỹ thuật thường liệt kê hàng loạt cảnh báo về resource hints và lỗi HTML. Tuy nhiên, hiểu rõ yếu tố nào ảnh hưởng đến crawler và yếu tố nào chỉ tác động đến trình duyệt sẽ giúp bạn ưu tiên xử lý chính xác hơn.
Khi hreflang, canonical hoặc meta robots không hoạt động như mong đợi, điều đầu tiên cần kiểm tra là chúng có bị đẩy xuống body sau khi trình duyệt parse trang hay không. Một đoạn script hoặc iframe có thể vô tình đóng head sớm và làm sai lệch cấu trúc.
Chuyên gia Roger Montti từng phân tích hướng dẫn cập nhật về caching crawler của Google, trong đó khuyến nghị sử dụng ETag để giảm crawl không cần thiết. Điều này nhất quán với những gì Illyes mô tả về cách Google quản lý tài nguyên.
Hướng Đi Tiếp Theo
Splitt cho biết chủ đề ban đầu ông muốn đề cập là client hints, và phần thảo luận về HTML parsing chỉ là nền tảng cho một tập tiếp theo. Nếu tập đó được thực hiện, có thể nó sẽ phân tích cách Googlebot xử lý các header mới như Accept-CH và Sec-CH-UA — vốn đang thay thế user-agent truyền thống.
Điều này cho thấy SEO kỹ thuật không chỉ là tối ưu HTML, mà còn liên quan đến cách crawler hiểu và giao tiếp với máy chủ. Việc cập nhật kiến thức theo các chia sẻ trực tiếp từ Google sẽ giúp bạn tránh tập trung sai chỗ và đầu tư nguồn lực vào những yếu tố thực sự tạo ra tác động.
Tài liệu tham khảo
https://www.searchenginejournal.com/google-explains-why-its-crawler-ignores-your-resource-hints/568321/