Dò quét và lưu dữ liệu, Các thức hoạt động của bọ tìm kiếm Spider

Trong bài này chúng ta sẽ học về:

Dò quét
Sơ đồ website XML
Lưu dữ liệu
Những rào cản đối với việc dò quét và lưu dữ liệu
JavaScript
Flash
Frames
Cookies
Emulating Googlebot ( Google xem website của mình như thế nào ?)
Những loại nội dung khác
Hình ảnh
File PDF
File Microsoft Office
Kiểm tra việc lưu dữ liệu
Điều khiển hoạt động của bọ tìm kiếm
Lựa chọn loại thư mục
Sử dụng file Robots.txt
Sử dụng Meta Robots

1. Dò quét

Các máy tìm kiếm tìm thấy nội dung nhờ những chú robots (còn được gọi là con bọ tìm kiếm, tên tiếng anh là “bots,” “spiders,” hoặc “crawlers”) liên tục ghé thăm các website. Chúng đồng thời lần theo đường link trên các website đó để tìm ra các website mới. Những đường link này có thể là link nội bộ, hoặc link trỏ ra ngoài. Nhờ đó bọ tìm kiếm có thể khám phá tất cả các nội dung trên trang web đó, cũng như nội dung của các website khác.

Vì vậy, hệ thống link nội bộ của bạn cần phải được thiết kế tối ưu sao cho máy tìm kiếm có thể tìm ra mọi nội dung quan trọng trên website của bạn. Hành động đi theo những đường link để khám phá ra nội dung mới được gọi là “Dò quét”.

2. Sơ đồ website XML

Một cách khác giúp máy tìm kiếm khám phá nội dung mới là thông qua sơ đồ website XML, là danh sách các địa chỉ URL của các trang web. Mỗi website có một hoặc nhiều sitemap XML. Các máy tìm kiếm sẽ lấy ra sitemap này và sử dụng nó để khám phá ra nội dung mới.

Trong khi, sơ đồ website XML giúp máy tìm kiếm dễ dàng khám phá website của bạn, nó không giúp tăng thứ hạng cho website của bạn. Nó đơn giản chỉ giúp bọ tìm kiếm tìm ra nội dung của bạn dễ dàng hơn mà thôi.

3. Lưu dữ liệu

Khi bọ tìm kiếm tìm ra một trang web, nó đọc đồng thời lưu các nội dung đó cùng với địa chỉ URL của trang web vào hệ thống máy chủ của mình. Quá trình lưu trữ dữ liệu này còn được gọi là indexing.

Việc Google index một trang, cũng giống như việc chúng ta mở một quyển sách hay một tạp chí, photocopy một bài báo nào đó, rồi đặt bản sao đó vào một file có cùng chủ đề với bài báo, nơi bạn có thể tìm lại nó bất cứ khi nào cần đến.

4. Các công nghệ gây khó khăn cho máy tìm kiếm

Như các bạn đã biết, công nghệ mới giúp tăng chất lượng website, giúp website thân thiện hơn, hấp dẫn hơn với người dùng. Tuy nhiên, chúng cũng gây ra những khó khăn nhất định với máy tìm kiếm. cụ thể là các công nghệ dưới đây:

a) JavaScript

JavaScript là ngôn ngữ kịch bản của Web. Tất cả các trang web hiện đại đều sử dụng JavaScript nhằm tăng thêm chức năng cho trang Web, ví dụ: kiểm tra dữ liệu đầu vào, giao tiếp với máy chủ web…

Máy tìm kiếm không thể đọc được file JavaScript. Điều này có nghĩa nếu nội dung nằm trong JavaScript, nó sẽ vô hình trước máy tìm kiếm. Tương tự như vậy, Google cũng không thể đọc được các liên kết nằm nếu chúng nằm trong JavaScript. Điều này có nghĩa nếu bạn sử dụng JavaScript cho thanh điều hướng chính, toàn bộ cấu trúc site sẽ trở nên vô hình trước máy tìm kiếm.

Khả năng của Google đã được cải thiện nhiều trong việc dò quét file JavaScript, nhưng vẫn chưa đạt đến mức hoàn hảo. Trong khi Google đang cố gắng ngày đêm hoàn thiện mình để tăng khả năng đọc hiểu JavaScript, bạn không nên phụ thuộc vào điều này. Bạn cần đảm bảo những nội dung quan trọng nhất của mình đều nằm trong code HTML.

b) Flash

Google đã thông báo rằng: Nó đã có thể hiểu file Flash định dạng .swf tốt hơn trước đây, trong khi vẫn chưa đủ khả năng để đọc hiểu file Flash Video. Tuy Google có thể đọc được nội dung Flash, nó vẫn gặp khó khăn trong việc rút ra ý chính của một file Flash từ những hình ảnh riêng lẻ. Đó là do: Flash là phim.

Vì những lý do này, bạn nên tránh sử dụng Flash bất cứ khi nào có thể. Flash có thể làm cho website của bạn hấp dẫn hơn, sinh động hơn nhưng bạn chỉ nên sử dụng hạn chế. Thêm Flash vào website cũng giống như cho thêm hạt tiêu vào bát cháo. Nó có thể làm bát cháo của bạn ngon hơn, và thơm hơn nếu bạn sử dụng vừa phải. Nhưng chắc chắn bạn không muốn ăn một bát cháo quá cay, quá nồng. Tương tự vậy, Flash khiến cho website của bạn thú vị hơn, nhưng bạn chắc chắn không nên làm một website hoàn toàn bằng Flash, hoặc có quá nhiều nội dung Flash.

Với sự ra đời và phát triển mạnh mẽ của HTML5, bạn càng có ít lý do để sử dụng Flash, vì HTML5 có đầy đủ chức năng của Flash.

c) Frames

Nếu trang web của bạn có chứa thẻ <frame> hoặc <iframe>, các máy tìm kiếm cũng sẽ không thể đọc được nội dung trong các thẻ này.

Ví dụ nếu trang web: webcuaban.com/du-lich.html sử dụng một iframe để hiển thị nội dung lấy từ trang web: webkhac.com/du-lich.html, tất cả những nội dung trong frame này sẽ không được sử dụng trong công thức tính toán thứ hạng của Google. Do đó, những nội dung này chỉ có giá trị với người dùng, không có giá trị gì với máy tìm kiếm.

d) Cookies.

Cookies là một file để lưu dữ liệu về lịch sử sử dụng Internet của người dùng. Ví dụ, một cookie có thể được một website sử dụng để ghi nhớ thông tin về bạn, do vậy website đó có thể biết bạn là một người truy cập hoàn toàn mới hay là một người đã từng truy cập trước kia.

Nhờ có cookies, giao diện website có thể thay đổi tự động theo người truy cập. Ví dụ, nếu bạn đã từng mua hàng trên một trang thương mại điện tử, và bạn đã lựa chọn thay thế đồng tiền thanh toán mặc định từ USD sang VNĐ, thông tin này sẽ được lưu trữ trong file cookies. Lần sau khi bạn lại ghé thăm website đó, nó sẽ tự động lựa chọn đồng tiền mặc định là VNĐ thay vì USD như những người khác. Việc này sẽ tránh cho bạn mất công phải lựa chọn lại.

Thực tế là cookie có thể ảnh hưởng đến công việc dò quét website của bọ tìm kiếm. Website không thể tạo cookies cho bọ tìm kiếm giống như đã làm cho người dùng. Ví dụ với trường hợp trên, bọ tìm kiếm sẽ chỉ thấy duy nhất đồng tiền mặc định trong khi không thấy tất cả những đồng tiền còn lại.

Vì lý do này, bạn không nên phụ thuộc vào cookies. Website của bạn nên được thiết kế để đảm bảo tất cả các nội dung đều sẵn sàng mà không cần đến cookies. Điều này sẽ cho phép máy tìm kiếm có thể dò quét và lưu trữ tất cả dữ liệu của bạn.

5. Xem website dưới con mắt bọ tìm kiếm

Nếu bạn muốn biết trang web của mình trông như thế nào dưới mắt máy tìm kiếm, bạn có thể thực hiện bằng 1 trong 2 cách dưới đây

I. Sử dụng Google Webmaster Tools

Trước khi sử dụng công cụ này, bạn cần khai báo và chứng minh mình là chủ của website này với Google Webmaster Tools.

- 1. Trên trang chủ Webmaster Tools, đăng nhập vào tài khoản Google của bạn, click vào website bạn muốn kiểm tra
  2. Trên Dashboard (là thanh menu nằm bên trái màn hình), Click vào Crawl (Dò quét), chọn Fetch as Google trong menu sổ xuống
  3. Trong hộp thoại ở phía trên cùng, gõ vào đường dẫn đến trang web mà bạn muốn kiểm tra
  4. Trong danh sách sổ xuống, lựa chọn loại fetch mà bạn muốn. Để xem website trông thế nào dưới mắt của Googlebot, chọn Web.
  5. Click Fetch.

Một khi googlebot đã hoàn thành việc fetch trang web của bạn, bạn sẽ nhận được một đường link “success” mà bạn có thể truy cập để xem website dưới con mắt của Google.

Bên cạnh đó, Google còn cung cấp cho bạn mã trạng thái cũng như code HTML mà Googlebot nhận được

II. Truy cập vào trang web: https://www.xml-sitemaps.com/se-bot-simulator.html

6. Những loại nội dung khác

Ngoài file HTML, trên website bạn còn tìm thấy nhiều định dạng file khác. Dưới đây là những định dạng phổ biến nhất và cách tối ưu chúng:

Hình ảnh:

Các máy tìm kiếm có thể nhận ra hình ảnh nhưng không thể hiểu hay xem hình ảnh đó như con người. Để hiểu hình ảnh, nó sẽ dựa vào:

1. Thẻ mô tả ảnh và tên ảnh

2. Chú thích ảnh và nội dung xung quanh ảnh

3. Các liên kết trỏ đến ảnh

Do đó, bạn cần đảm bảo tất cả những thông tin này chuẩn và chứa từ khóa chính cùng các từ khóa liên quan.

File PDF

Máy tìm kiếm có thể dò quét và lưu trữ file PDF. Tuy nhiên, vì file PDF có chức năng khá nghèo nàn và không đẹp như một trang web nên có thể bạn không muốn người dùng tìm đến các file này. Bạn muốn sử dụng các phiên bản HTML thay thế cho các phiên bản PDF.

Bạn có 2 giải pháp. Bạn có thể ngăn chặn máy tìm kiếm, không cho nó truy nhập, và từ đó ngăn chặn file pdf này xuất hiện trên bảng kết quả tìm kiếm. Việc này có thể thực hiện bằng cách đặt các file PDF vào trong một thư mục (như: /assets/) và không cho bọ tìm kiếm truy cập vào thư mục này thông qua file robots.txt (bạn sẽ tìm hiểu kỹ hơn trong bài tiếp theo).

Nhược điểm của cách làm này là: Bạn không thể tận dụng được giá trị các link trỏ đến các file pdf này.

Giải pháp thứ 2 cũng là giải pháp tốt hơn là chèn tag canonical trỏ tới phiên bản HTML của file PDF này. Việc này đảm bảo file pdf này cũng không xuất hiện trong bảng kết quả tìm kiếm trong khi giá trị của các link trỏ đến file PDF này sẽ không bị mất đi mà sẽ được chuyển sang phiên bản HTML.

Chú ý: Cách này chỉ áp dụng với Google.

Tài liệu Microsoft Office

Máy tìm kiếm có thể đọc và lưu trữ những file dạng này. Như bạn đã biết, những file này không cung cấp đầy đủ chức năng cho một trang web nên chắc chắn người dùng không thích chúng. Bạn có thể khắc phục bằng cách chặn nội dung dùng file robots.txt hoặc chèn thẻ canonical trỏ đến phiên bản HTTP.

7. Điều kiện hoạt động của bọ tìm kiếm

Khi bọ tìm kiếm tìm đến website của bạn, bạn có quyền điều khiển hoạt động của chúng. Trên website của bạn có những nội dung chưa đầy đủ hoặc nội dung riêng tư mà bạn không muốn người khác biết đến. Bạn có thể chặn không cho bọ tìm kiếm tìm đến những nội dung này.

Có 2 công cụ có thể giúp bạn làm điều này:

1. File Robots.txt: Cần được đặt trong thư mục gốc để phát huy tác dụng, dung để chặn bọ tìm kiếm không cho chúng truy cập vào một hoặc nhiều trang web nào đó.

2. Thẻ Meta Robots: Đặt trong phần head của 1 trang web và điều khiển cách bọ tìm kiếm tương tác với nội dung cũng như cách hiển thị trang web trên kết quả tìm kiếm

Dưới đây là những ưu, nhược điểm của 2 phương pháp kể trên.

	Robots.txt	Meta Robots
Ngăn chặn dò quét	Có	Không
Ngăn chặn lưu dữ liệu	Có	Có
Ngăn hiển thị URL lên kết quả tìm kiếm	Không	Có
Gỡ bỏ nội dụng khỏi cơ sở dữ liệu của Google	Không	Có
Ưu điểm	Áp dụng với cả thư mục	Không cần quyền truy cập vào thư mục gốc

Các loại lệnh

Robots.txt:

Sử dụng file robots.txt để điều khiển truy cập vào các files và các thư mục trong website của bạn. File này hoạt động giống như một biển báo giao thông. Nó báo với Googlebot và các con bọ tìm kiếm khác những file và thư mục trên website của bạn mà không được dò quét.

Để sử dụng file robots.txt, bạn phải có quyền truy cập vào thư mục gốc của website. Nếu bạn không thể truy cập vào thư mục gốc, bạn cũng có thể điều khiển truy cập của bọ tìm kiếm bằng cách sử dụng thẻ meta robots trên từng trang riêng lẻ.

Tuy nhiên, hãy nhớ rằng, kể cả khi bạn sử dụng file robots.txt để chặn bọ tìm kiếm truy cập vào nội dung của bạn, Google vẫn có thể khám phá ra nội dung của bạn và đưa nó vào bảng kết quả tìm kiếm nhờ những cách khác. Ví dụ, thông qua đường link mà các trang web khác trỏ đến trang web đó. Kết quả là, địa chỉ URL của các trang web cũng như văn bản neo của các lien kết trỏ đến các trang web này có thể xuất hiện trong bảng kết quả tìm kiếm. Thêm vào đó, trong khi bọ tìm kiếm của các công cụ tìm kiếm lớn đều tôn trọng chỉ dẫn trong file robots.txt, một vài bọ tìm kiếm khác thì không. Vì file robots.txt chỉ là bảng chỉ dẫn, nên những người có mục đích xấu hoàn toàn có thể bỏ qua chúng và vẫn dò quét nội dung website như thường. Vì lý do này, theo chúng tôi cách an toàn nhất là đặt password bảo vệ cho các file hoặc thư mục này

Bạn nên sử dụng file này khi muốn ngăn bọ tìm kiếm dò quét một trang web hoặc toàn bộ website. Và do đó, trang web cũng không bị lưu vào cơ sở dữ liệu của máy tìm kiếm. Nhưng bạn không thể sử dụng phương pháp này để gỡ bỏ trang web khỏi CSDL của máy tìm kiếm khi nó đã được lưu vào từ trước. File Robots.txt có thể ngăn chặn truy cập đến cả một thư mục hoặc đến một trang web cụ thể.

Cách này cũng hay được sử dụng để ngăn chặn bọ tìm kiếm truy cập vào các file không thuộc định dạng HTML như hình ảnh, file PDFs, file Microsoft Office…

Meta robots –

Chèn thuộc tính “noindex” vào thẻ meta robots để ngăn chặn nội dung xuất hiện trên bảng kết quả tìm kiếm.

Khi bọ tìm kiếm nhìn thấy thuộc tính “noindex” trên một trang web, Google bỏ qua trang web đó không đưa nó lên bảng kết quả tìm kiếm, kể cả khi có các trang web khác trỏ link tới nó. Còn nếu nội dung đã tồn tại trong CSDL của Google, họ sẽ gỡ bỏ hoàn toàn những nội dung này. Chú ý, với các máy tìm kiếm khác không phải là Google, tác dụng của thẻ meta này sẽ có khác biệt

Lưu ý, vì Google phải dò quét trang web của bạn thì mới biết được trong đó có thẻ meta robots không và nội dung của nó cụ thể như thế nào, có thể xảy ra trường hợp là bạn đã cài đặt thuộc tính noindex trong thẻ meta robots nhưng trang web vẫn xuất hiện trong bảng kết quả tìm kiếm. Điều này là do bọ tìm kiếm chưa quay lại dò quét trang web của bạn kể từ khi bạn cập nhật nội dung thẻ meta robots.

Cách tạo file Robots.txt

File robots.txt nằm trong thư mục gốc ở website hoặc trong subdomain.

Khi viết file robots.txt, việc đầu tiên là xác định rõ nó sẽ nhắm tới loại bọ tìm kiếm nào? Hay loại bọ tìm kiếm nào sẽ phải tuân theo chỉ dẫn trong file này. Đó có thể là Googlebot (của Google), hoặc bọ của những công cụ tìm kiếm khác.

Sau khi biết rõ mục tiêu, việc tiếp theo là xác định những nơi nào trên website mà bọ tìm kiếm không được chào đón. Việc này thực hiện bằng cách liệt kê tất cả những thư mục, những trang web mà con bọ không được truy cập vào.

Bên cạnh đó, trong file này bạn cũng nên chỉ rõ vị trí của sơ đồ website XML, để máy tìm kiếm có thể dễ dàng tìm tới nó, từ đó nó dễ dàng dò quét toàn bộ website của bạn.

Dưới đây là ví dụ của 1 file robots.txt:

user-agent: * (Có thể là googlebot, Bingbot, Baiduspider…)

Disallow: /register.html

Disallow: /assets/

Disallow: /category/

Sitemap: https://vietmoz.net/Sitemap.xml

Cách sử dụng thẻ Meta Robots

Bạn chèn thẻ meta robots vào trong phần <head> (là phần mở đầu của mỗi trang web). Dưới đây là ví dụ về một thẻ meta robots

Dưới đây là danh sách các câu lệnh thường được sử dụng trong thẻ meta robots

- 1. index – Trang này cần được index. Mặc định mọi trang web đều được index, nên câu lệnh này là không cần thiết.
  2. noindex – Không index trang này, hoặc gỡ bỏ nó khỏi CSDL nếu nó đã được index
  3. follow – Khuyến khích máy tìm kiếm đi theo tất cả links trên trang này, Mặc định máy tìm kiếm đã làm việc này, nên câu lệnh này không cần thiết
  4. nofollow – Không khuyến khích máy tìm kiếm đi theo bất kỳ links nào trên trang này
  5. noarchive – Yêu cầu máy tìm kiếm không được show bản cache của trang web trên bảng kết quả. Câu lệnh này rất ít khi được sử dụng
  6. nosnippet – Yêu cầu máy tìm kiếm không được hiển thị thông tin miêu tả về trang trên bảng kết quả

Dưới đây là ví dụ về một thẻ meta robots

Tìm hiểu thêm các cách làm khác hoặc tham khảo khóa học seo của VietMoz để được hệ thống hóa các kiến thức một cách bài bản.