Trong bài này, chúng ta sẽ được học về dò quét website một trong 3 công việc hàng ngày của máy tìm kiếm. |
1. Cách bọ tìm kiếm dò quét website
Máy tìm kiếm thực hiện dò quét website nhằm mục đích tìm ra nội dung mới.
Máy tìm kiếm làm được việc này nhờ sử dụng những phần mềm hiện đại có thể thu thập thông tin trên Internet. Những chương trình này thường được gọi là bọ tìm kiếm ( Spider) . Với quy mô ngày càng mở rộng của mạng Internet, công việc này ngày càng tiêu tốn nhiều tài nguyên. Do đó, máy tìm kiếm sử dụng các thuật toán để quyết định xem trang web nào sẽ được dò quét, bao lâu sẽ dò quét, và độ sâu dò quét. Điều này cho phép họ tận dụng tài nguyên của mình một cách hiệu quả nhất có thể. Bài học quan trọng mà các SEOer cần phải nhớ là các máy tìm kiếm se không tự động dò quét trang web của bạn trừ phi chúng có lý do để làm điều đó.
Một khi bọ tìm kiếm ghé thăm trang web của bạn, đầu tiên chúng sẽ tìm đến file robots.txt, đây cũng chính là bảng nội quy của trang web và sẽ chỉ ra những trang nào (nếu có) mà chúng không được dò quét. Bạn có thể tìm hiểu nhiều hơn về bảng nội quy đặc biệt này ở những bài học sau.
Giả sử rằng con bọ không bị chặn theo cách này, nó sẽ bắt đầu dò quét tất cả các trang web trên website của bạn. Dọc đường đi, nó sẽ lưu lại tất cả các địa chỉ tên miền vào trong một danh sách để sử dụng cho những lần dò quét sau.
Giữa dò quét và index (lưu dữ liệu) có sự khác biệt lớn. Dò quét là tìm ra các địa chỉ trang web, trong khi index là thu thập thông tin hay nội dung trong các trang web đó.
2. Những vấn đề mà bọ tìm kiếm thường gặp phải
Bọ tìm kiếm là các chương trình máy tính thông minh, tuy nhiên, chúng vẫn chỉ là máy móc và do đó có những hạn chế nhất định
Những công nghệ Web có thể gây khó khăn cho bọ tìm kiếm:
Website ngày nay sử dụng nhiều công nghệ khác nhau để nâng cao chất lượng đồng thời mang lại trải nghiệm tốt hơn cho người dùng. Tuy nhiên một số công nghệ lại gây khó khăn cho bọ tìm kiếm. Cụ thể là:
-
-
- Javascript
- AJAX
- Flash
-
Nhưng là một người làm SEO, bạn cần biết rằng sử dụng các công nghệ này trong trang web có thể làm khó cho bọ tìm kiếm khi chúng dò quét nội dung của bạn.
Những loại nội dung có thể gây khó cho hoạt động của bọ tìm kiếm:
Có những loại nội dung mà bọ tìm kiếm không thích, vì chúng không thể đọc được dễ dàng như con người, cụ thể là video và hình ảnh. Trong khi chúng có thể phát hiện và nhận ra sự tồn tại của video hoặc hình ảnh trên một trang web, chúng vẫn chưa đủ khả năng để hiểu đầy đủ nội dung này. Một lần nữa, bọ tìm kiếm đang ngày càng trở nên thông minh hơn nhưng còn xa chúng mới đạt tới trình độ có thể hiểu đầy đủ các loại nội dung như con người.
Ví dụ: Máy tìm kiếm sẽ không thể đọc được chữ trên một bức ảnh. Điều tương tự cũng xảy ra với video.
Vì vậy cần đảm bảo trang web của bạn không chỉ chứa hình ảnh hoặc video. Bên cạnh hình ảnh, video cần có những đoạn nội dung mô tả. Và những nội dung quan trọng nhất định phải được để trong những định dạng mà máy tìm kiếm có thể dễ dàng hiểu được. Cụ thể là văn bản
3. Các loại bọ tìm kiếm
Mỗi máy tìm kiếm có con bọ riêng với cái tên riêng. Ví dụ của Google là googlebot. Của Bing là bingbot. Baidu là Baiduspider.
4. Tài liệu tham khảo thêm
Tìm hiểu cơ chế tìm kiếm của Google Spider
Tìm hiểu thêm các cách làm khác hoặc tham khảo khóa học seo chuyên nghiệp của VietMoz để được hệ thống hóa các kiến thức một cách bài bản.
Nguồn: www.vietmoz.edu.vn
Bản quyền thuộc về Đào tạo SEO VietMoz
Vui lòng không copy khi chưa được sự đồng ý của tác giả