Trong bài này chúng ta sẽ học về:
- Web index là gì?
- Thu thập thông tin
- Caching là gì và làm thế nào để kiểm tra bản cache của một trang web?
Một khi máy tìm kiếm đã dò quét trang web, chúng cần lưu tất cả những nội dung này vào cơ sở dữ liệu của mình. Tất cả những thông tin này được tổ chức lại và đặt trong tình trạng sẵn sàng cung cấp cho người dùng khi họ tìm kiếm.
1. Cơ sở dữ liệu web (Web index) là gì?
Về cơ bản, web index là cơ sở dữ liệu lưu trữ các trang web. Các máy tìm kiếm sử dụng hàng nghìn máy chủ đặt khắp nơi trên thế giới để lưu trữ nhiều tỉ trang web trong CSDL của mình. Việc này đảm bảo người tìm kiếm nhận được kết quả gần như ngay lập tức sau khi họ nhấn nút Enter.
2. Lấy thông tin
Khi một người dùng tìm kiếm với một từ khóa, thực tế họ không tìm kiếm trên thế giới web. Họ đang tìm kiếm trên cơ sở dữ liệu của các máy tìm kiếm. Các máy tìm kiếm sẽ vào cơ sở dữ liệu của mình và lấy ra các trang web cùng chủ đề. Cụ thể đó là những trang web có chứa từ tìm kiếm hoặc chứa những từ liên quan. Từ đây rút ra được, để tăng độ liên quan của trang web đến từ khóa bạn muốn hướng tới, bạn cần biết chèn từ khóa một cách hợp lý ở những vị trí quan trọng. Bên cạnh đó, cũng không được quên những từ liên quan.
Làm thế nào máy tìm kiếm biết được nội dung trang web có liên quan đến từ khóa đang được tìm kiếm
a. Sử dụng từ khóa:
Máy tìm kiếm tìm xem trong nội dung của trang web có chứa từ khóa đang được tìm kiếm hay không?
Nếu người lên Google tìm kiếm với từ bóng đá:
Nội dung A: Bóng đá là môn thể thao tập thể, gồm 2 đội thi đấu đối kháng với nhau. Mỗi đội có 11 vận động viên. Trong đó có 1 thủ môn, có quyền chơi bóng bằng tay và được bảo vệ trong vòng cấm địa. Trận đấu được điều khiển bởi 3 trọng tài trong đó có 1 trọng tài chính, 2 trợ lý trọng tài…
Nội dung B: Với kỹ thuật điêu luyện và khả năng đọc trận đấu cực tốt, Messi đã góp công lớn trong kỳ tích 3 chức vô địch La Liga liên tiếp của Barca. Cũng nhờ điều này mà anh đã 4 năm liền được bầu chọn là cầu thủ hay nhất thế giới.
Tóm lại: vì nội dung A chứa từ bóng đá trong khi nội dung B không có mặc dù cũng nói về chủ đề bóng đá, máy tìm kiếm dễ dàng xác định nội dung A liên quan hơn, và từ đó trả về cho người tìm kiếm
Rõ ràng là sẽ không còn dễ dàng nếu cả 2 nội dung này cùng chứa từ “bóng đá”.
b. Tần suất xuất hiện * tần số nghịch của từ trong văn bản
(Term Frequency*Inverse Document Frequency)
Tần số xuất hiện là số lần xuất hiện của từ khóa trong văn bản.
Tần số nghịch là tỷ lệ giữa mức độ phổ biến của một từ trên trang web đó với mức độ phổ trung bình trên mọi trang web. Về căn bản, những từ được sử dụng phổ biến hơn sẽ có trọng số thấp hơn.
Ví dụ khi bạn tìm kiếm với cụm từ “bóng đá Messi”
Nội dung A: Bóng đá là môn thể thao vua, với hàng tỉ người hâm mộ trên toàn thế giới. Các giải bóng đá hàng đầu thế giới có thể kể đến như Ngoại Hạng Anh, Bundesliga Đức hay La Liga Tây Ban Nha.
Nội dung B: Trên thị trường chuyển nhượng, hiện Messi là cầu thủ được định giá cao nhất và được rất nhiều câu lạc bộ lớn săn đón. Dù vậy, đội bóng chủ quản của Messi, CLB Barca chưa bao giờ và khả năng sẽ không bao giờ bán ngôi sao lớn này của họ.
Với phương pháp TF-IDF: vì từ “Messi” ít phổ biến hơn “bóng đá” nên IDF của “Messi” cao hơn. Với cùng một tỷ lệ TF, thì rõ ràng nội dung B liên quan đến cụm từ truy vấn hơn nội dung A. Và do đó, máy tìm kiếm sẽ trả về nội dung B cho người dùng.
Máy tìm kiếm sử dụng IDF. Ví dụ, khi người dùng gửi một truy vấn đến máy tìm kiếm, hệ thống cần biết từ nào là từ người dùng quan tâm nhất. Chẳng hạn: truy vấn của người dùng là “làm thế nào để sửa máy ủi”. Sau khi tách từ, chúng ta sẽ có 5 từ đơn như sau: làm, thế nào, để, sửa, máy ủi. Trong các từ này, “máy ủi” sẽ có IDF cao nhất. Hệ thống sẽ lấy ra tất cả các nội dung có chứa từ máy ủi và sau đó sẽ thực hiện việc đánh giá và so sánh dựa trên các từ còn lại trong câu truy vấn.
Kết quả sẽ xác định tỷ lệ giữa mức độ phổ biến của một từ trên trang web đó với mức độ phổ trung bình trên mọi trang web. Về căn bản, những từ được sử dụng phổ biến hơn sẽ có trọng số thấp hơn.
Những từ có giá trị TF-IDF cao là những từ xuất hiện nhiều trong văn bản này, và xuất hiện ít trong các văn bản khác. Với máy tìm kiếm đây là những từ có giá trị cao hơn. Việc này giúp lọc ra những từ phổ biến và giữ lại những từ có giá trị cao (từ khoá của văn bản đó).
c. Những từ liên quan (Co-occurrence)
Ví dụ, cụm từ tìm kiếm: “tôn ngộ không”
Nội dung A: Tôn Ngộ Không còn gọi là Tề Thiên Đại Thánh hay Tề Thiên, là nhân vật chính trong tiểu thuyết Tây du ký, nhân vật giả tưởng có thể được xem là nổi tiếng nhất trong văn học Trung Hoa.
Nội dung B: Theo truyền thuyết, Tôn Ngộ Không sinh ra từ một hòn đá và đã học được 72 phép biến hóa (gấp hai lần số phép của Trư Bát Giới).
Vì cụm từ “tôn ngộ không” thường được sử dụng với “tây du ký” nên nội dung A liên quan đến cụm từ cần tìm kiếm hơn nội dung B. Do vậy, nó có thứ hạng cao hơn.
3. Caching
Để sử dụng hiệu quả nguồn tài nguyên của mình, các máy tìm kiếm sẽ tiến hàng copy nội dung trang web của bạn về máy chủ của họ để dùng cho việc đánh giá thứ hạng. Những bản copy nội dung trang web này được gọi là bản cache. Vì nội dung trang web thường được cập nhật nên máy tìm kiếm thường phải quay trở lại để copy nội dung. Tần suất có thể là từ vài tiếng/1 lần đến vài ngày/1 lần hoặc thậm chí lâu hơn. Điều này có nghĩa nội dung của bản cache có thể khác biệt với nội dung hiện tại của trang web.
Điều này sẽ lý giải thực tế vì sao: thứ hạng của website không thay đổi mặc dù bạn đã tiến hành tối ưu nó. Thực tế, máy tìm kiếm vẫn đánh giá website dựa trên bản cache cũ, chỉ đến khi nó download nội dung mới – hay tạo bản cache mới thì thứ hạng website của bạn mới thay đổi. Ví dụ, khi bạn bổ sung thêm nội dung để nhắm đến những từ khóa khác, bạn không thể ngay lập tức thấy sự cải thiện về thứ hạng cho đến khi máy tìm kiếm ghé thăm website của bạn lần tới, thấy được nội dung mới và lưu những nội dung này vào bản cache mới của trang web.
4. Cách kiểm tra bản cache của trang web
Nếu bạn dùng Google Chrome, bạn có thể dùng lệnh sau:
cache:vietmoz.edu.vn
Khi tìm kiếm, bạn sẽ thấy bản cache đã được Google lưu của trang web này.
Bạn cũng có thể kiểm tra phiên bản chỉ chứa text hay chữ, phiên bản Google nhìn thấy. Việc này sẽ giúp bạn biết thực tế Google có thể thấy những gì trên trang web của bạn.
Tìm hiểu thêm các cách làm khác hoặc tham khảo khóa học seo chuyên nghiệp của VietMoz để được hệ thống hóa các kiến thức một cách bài bản.
Nguồn: www.vietmoz.edu.vn
Bản quyền thuộc về Đào tạo SEO VietMoz
Vui lòng không copy khi chưa được sự đồng ý của tác giả