Chương 5: Interactive robots.txt

5

Trải qua 4 chương trước các bạn đã biết được việc tối ưu Onpage website là như thế nào rồi. Và tầm quan trọng của việc tối ưu Onpage ra sao. Qua chương 5 này các bạn sẽ được biết thêm cách điều khiển con bọ tìm kiếm trong website của mình như thế nào. Các xử lý một số lỗi khi website không được index.

Chương 5 bao gồm các phần như sau:

Kiến thức cơ bản

Bạn có nhiều cách để điều khiển hoạt động của bọ tìm kiếm như những gì bạn đã học được trong chương trước. Robots.txt là một file văn bản nằm ở thư mục gốc của domain (ví dụ www.example.com/robots.txt). File này được sử dụng rộng rãi, cho phép người quản trị web điều khiển truy cập của mọi loại bọ tìm kiếm.
Kết thúc bài học này, bạn sẽ biết cách:

  • Cách chặn mọi loại robots, không cho chúng truy cập vào một vùng nào đó trên website
  • Cách chặn một loại robot cụ thể
  • Sử dụng wildcards để áp dụng luật của bạn đến toàn bộ website
  • Các cú pháp khác như là sitemap file directives

Robots.txt được sử dụng chủ yếu để chặn robots, không cho nó truy cập vào một hoặc một vài trang cụ thể. Để chặn tất cả mọi loại robot, sử dụng cú pháp: User-agent: *.
Dòng dưới đây sẽ chặn tất cả các loại robots không cho nó truy cập vào file secret.html
User-agent: *
Disallow: /secret.html
Bài tập: Thêm một dòng khác nhằm chặn truy cập đến trang /secret2.html
Đáp án:
Disallow: /secret2.html

Chặn cả thư mục

Nếu sau tên thư mục, bạn chèn thêm dấu xược trước (trailing slash), ví dụ: Disallow: /private/, toàn bộ thư mục này sẽ bị chặn, mọi thứ trong thư mục sẽ bị chặn.
Bài tập: Chỉnh sửa luật dưới đây để nó chặn truy cập toàn bộ thư mục tên secret thay vì trang secret.html
User-agent: *
Disallow: /secret.html
Trả lời:
User-agent: *
Disallow: /secret/

Cho phép một đường dẫn cụ thể nào đó

Bên cạnh việc chặn một trang web cụ thể, với robots.txt bạn có thể cho phép bọ tìm kiếm truy cập một hoặc một vài trang web cụ thể. Lưu ý rằng việc cho phép bọ truy cập là mặc định (nếu khi lập web bạn không viết thêm luật vào file robots.txt, mặc định bọ tìm kiếm có thể truy nhập tất cả các trang web trên website của bạn)
Lệnh Allow được sử dụng để làm mất hiệu lực của lệnh Disallow. Về quyền ưu tiên, bạn có thể tham khảo tại precedence rule. Trong đó: Luật cụ thể hơn (áp dụng cho địa chỉ URL dài hơn) sẽ quan trọng hơn, có hiệu lực hơn so với các luật khác.
Bài tập: Chặn thư mục /secret/, nhưng cho phép truy cập 1 file trong thư mục này /secret/not-secret.html/
User-agent: *
Disallow: /secret/
Trả lời:
User-agent: *
Disallow: /secret/
Allow: /secret/not-secret.html/

Chặn một loại bọ cụ thể

Những câu lệnh mà chúng ta vừa học sẽ chặn mọi loại robots. Việc này thực hiện bởi câu lệnh đầu tiên User-agent: *. Muốn chặn riêng một con robot cụ thể, chúng ta chỉ việc thay dấu * bằng tên con robot đó.
Bài tập: Thay thế dấu * bằng googlebot để tạo ra một luật mà chỉ áp dụng với robot của Google
User-agent: *
Disallow: /secret/
Trả lời:
User-agent: googlebot
Disallow: /secret/

Add multiple block

Trong file robots.txt, bạn cũng có thể chèn nhiều cụm lệnh khác nhau, nhắm đến các loại robots khác nhau. Ví dụ dưới đây cho phép googlebot truy cập tất cả các file ngoại trừ thư mục /secret/ và cho phép tất cả các robots khác truy cập toàn bộ site. Lưu ý rằng vì đã có những câu lệnh dành riêng cho googlebot, Google sẽ chỉ chú ý đến những câu lệnh này mà lờ đi hoàn toàn các câu lệnh khác.
Trả lời:
User-agent: googlebot
Disallow: /secret/
Thêm lệnh để chặn toàn bộ các loại bọ tìm kiếm, không cho chúng truy cập bất kỳ trang web nào trên website. Việc này sẽ chặn tất cả các robot truy cập vào website, trong khi vẫn cho phép googlebot truy cập tất cả các trang ngoại trừ /secret/
User-agent: *
Disallow: /
User-agent: googlebot
Disallow: /secret/

Khai báo User-agent cụ thể

Nhiều khi bạn muốn một loại bọ nào đó hoạt động cụ thể theo cách bạn muốn. Ví dụ bạn muốn bọ tìm kiếm hình ảnh của Google hoạt động khác với bọ tìm kiếm chính của Google. Bạn có thể làm điều này trong robots.txt, các con bọ tìm kiếm sẽ tìm xem có câu lệnh cụ thể nào dành cho chúng không. Ví dụ, nếu có 2 nhóm câu lệnh, một dành cho googlebot nói chung và một chỉ dành riêng cho google-bot hình ảnh, khi đó con bọ tìm kiếm hình ảnh của google sẽ tuân theo nhóm câu lệnh thứ 2. Nếu không có nhóm câu lệnh nào dành riêng cho bọ tìm kiếm hình ảnh, chúng sẽ tuân theo những lệnh của googlebot nói chung, tức là nhóm câu lệnh thứ nhất. Để biết thêm về các loại bọ tìm kiếm của Google, hãy tham khảo tại other specialist googlebots
Chú ý rằng, một con bọ tìm kiếm sẽ chỉ tuần theo một nhóm câu lênh. Như ví dụ trên, bọ tìm kiếm hình ảnh khi tuân theo nhóm câu lệnh thứ 2, thì sẽ bỏ qua nhóm thứ nhất.
Bài tập: Viết câu lệnh ngăn chặn googlebot-images truy cập vào thư mục /secret/
User-agent: googlebot
Disallow: /secret/
Chỉnh sửa câu lệnh trên để chặn googlebot-images truy cập vào cả 2 thư mục /secret/ hoặc /copyright/
Trả lời:
User-agent: googlebot
Disallow: /secret/
User-agent: googlebot-images
Disalow: /copyright/
Disallow: /secret/

Cơ bản về ký tự đại diện

Ký tự đại diện bị lờ đi, do vậy Disallow: /private* sẽ hoàn toàn giống với Disallow: /private. Tuy nhiên, ký tự đại diện sẽ hữu ích khi bạn muốn theo tác cùng lúc với nhiều file có tên tương tự nhau. Dấu (*) sẽ thay thế cho việc không có ký tự nào, hoặc bất kỳ ký tự nào được phép (bao gồm /, ?…)
Ví dụ, với lệnh Disallow: news*.html, tất cả những file sau sẽ bị chặn
• news.html
• news1.html
• news1234.html
• newsy.html
• news1234.html?id=1
Nhưng những file sau sẽ không bị chặn:
• newshtml (vì thiếu một dấu chấm)
• News.html (Chữ N viết hoa)
• /directory/news.html(có thêm /directory/)
Bài tập: Chỉnh sửa mẫu sau đây để chỉ chặn những trang có đuôi .html trong thư mục blog thay vì chặn toàn bộ thư mục blog.
User-agent: *
Disallow: /blog/
Trả lời:
User-agent: *
Disallow: /blog/*.html

Chặn tham số

Ký tự đại diện cũng thường được sử dụng để chặn một tham số nào đó. Một cách để làm điều này là cấu hình cho hệ thống của bạn tự động thêm vào địa chỉ URL có nhiều hơn 4 thành phần đoạn mã sau đây: ?crawl=no. Nếu địa chỉ URL có 3 thành phần, nó sẽ là /facet1/facet2/facet3/, khi thành phần thứ 4 được thêm vào, nó sẽ trở thành /facet1/facet2/facet3/facet4/?crawl=no.
Nếu bọ tìm kiếm tìm thấy địa chỉ URL có chứa *crawl=no, nó sẽ không truy cập vào trang web đó nữa.
Bài tập:
Thêm luật Disallow vào file robots.txt để chặn truy cập vào bất kỳ trang nào chứa crawl=no
User-agent: *
Disallow: /secret/
Trả lời:
User-agent: *
Disallow: *crawl=no

Chặn định dạng của file

Như chúng ta đã học về chặn thư mục trong bài trước (Disallow: /private/ sẽ chặn toàn bộ thư mục private, bao gồm tất cả các file nằm trong thư mục này). Tương tự vậy, nếu chúng ta dùng lệnh Disallow: /private/file.htm, thì trang web file.html cũng bị chặn, bất kể chúng ta có sử dụng ký tự đại diện hay không.
Nhưng nếu chúng ta chỉ muốn chặn file.htm mà không muốn làm ảnh hưởng tới file.html thì phải làm sao. Ví dụ với nhóm lệnh dưới đây:
User-agent: googlebot
Disallow: .jpg
Thoạt tiên, bạn có thể tưởng rằng chỉ có những file .jpg mới bị chặn. Nhưng trên thực tế nó sẽ chặn cả những file kiểu như explanation-of-.jpg.html
Nếu bạn chỉ muốn chặn những file jpg, thì phải làm sao? Hãy sử dụng ký tự $, đây là ký tự có ý nghĩa “hết dòng”. Ví dụ, chỉnh sửa
Bài tập: Chỉnh sửa nhóm lệnh dưới đây để chỉ chặn các file .jpg
User-agent: *
Disallow: .jpg
Trả lời:
User-agent: *
Diallow: .jpg$

Chỉ ra vị trí sitemap XML

Ở dòng cuối cùng của bất kỳ file robots.txt nào, bạn nên thêm vào vị trí của bản đồ site (sitemap XML). Việc này mang lại rất nhiều cái lợi. Bạn có thể tìm hiểu thêm về sitemap XML tại đây (http://vietmoz.net/kien-thuc-co-ban/So-do-trang-web-124/)
Để chỉ ra đây là vị trí của sitemap, sử dụng câu lệnh sau: Sitemap: <đường dẫn URL>.
Bài tập: Thêm câu lệnh về vị trí của sitemap vào file robots.txt, vị trí cụ thể là http://vietmoz.net/Sitemap.xml
User-agent: googlebot
Disallow: /secret/
Trả lời:
User-agent: googlebot
Disallow: /secret/
Sitemap: http://vietmoz.net/Sitemap.xml

Kết thúc chương 5 này chúng ta đã biết được cách xử lý sự cố trong file robot.txt như thế nào. Ngoài ra chúng ta còn biết cách điều hướng các con spider trong website giúp cho việc điều hướng mọi loại bọ tìm kiếm một cách tốt nhất.

Xem tiếp ⇒ Chương 6: Nghiên cứu từ khóa

Nguồn: www.vietmoz.edu.vn
Bản quyền thuộc về Đào tạo SEO VietMoz
Vui lòng không copy khi chưa được sự đồng ý của tác giả

Chương 5: Interactive robots.txt
5 (100%) 3 bình chọn

Bình luận (0)

0988.3030.68