Duplicate Content là một trong những vấn đề hàng đầu mà người làm SEO luôn phải tìm cách phát hiện cũng như khắc phục. Nếu không, nó sẽ ảnh hưởng đến quá trình tối ưu công cụ tìm kiếm cũng như tác động xấu tới thứ hạng của website. Tuy nhiên, vẫn có rất nhiều người chưa nắm rõ được khái niệm của nó cũng cách thức phát hiện và giải quyết. Cùng VietMoz tìm hiểu ngay bài viết dưới đây:
Duplicate Content là gì?
Duplicate Content là nội dung trùng lặp bao gồm những nội dung cùng xuất hiện trên một hoặc nhiều địa chỉ website khác nhau. Chúng đều có những nội dung tượng tự, gần giống nhau, việc sở hữu một lượng lớn nội dung trùng lặp trên một trang web sẽ tác động tiêu cực tới thứ hạng của nó trên kết quả tìm kiếm.
Bạn cũng có thể hiểu đơn giản Duplicate Content là nội dung từng chữ giống nhau trên nhiều trang cùng một tên miền, hoặc nhiều tên miền khác. Nhưng nó cũng được áp dụng trên những nội dung tương tự, được cải biên không khác nhau là mấy.
Google cũng có đề cập việc web bạn chứa nhiều trang có nội dung gần giống nhau, bạn có thể cho Google biết URL nào mà bạn ưu tiên xuất hiện trên kết quả tìm kiếm. Tuy nhiên, trong một số trường hợp không thể tránh khỏi việc nhiều quản trị website cố tình tạo nội dung trùng lặp để thao túng thứ hạng tìm kiếm nhằm gia tăng lưu lượng truy cập.
Duplicate Content có tác hại gì cho SEO website?
Đối với bộ máy tìm kiếm
Duplicate Content có thể gây ra 3 vấn đề sau đây đối với các công tìm kiếm, cụ thể:
- Công cụ tìm kiếm không biết nên bao gồm hay loại trừ những trang nào khỏi dữ liệu kết quả cho người dùng.
- Không định hướng được các chỉ số liên kết (mức độ tin cậy, quyền hạn, anchor text, …) trong một trang hoặc với nhiều trang cùng nội dung trùng lặp.
- Không biết ưu tiên phiên bản nào là tốt nhất để xếp hạng cho kết quả tìm kiếm. Điều này làm chậm việc lập chỉ mục cho các trang mới.
Đối với người quản trị web
- Người quản trị trang web có thể mất thứ hạng và lưu lượng truy cập tự nhiên khi chứa Duplicate Content. Lý do chính là:
- Các công cụ tìm kiếm sẽ chọn phiên bản có nhiều khả năng mang lại kết quả tốt nhất nhằm cung cấp trải nghiệm tuyệt vời cho người dùng.
- Giảm hiệu quả của backlink, cụ thể khi một nội dung cùng được xuất bản ở nhiều nơi và có thể thu về những backlink cho riêng mình. Điều này tạo sự phân chia giá trị liên kết giữa các URL với nhau.
Google có phạt lỗi Duplicate Content hay không?
Câu trả lời là Không. Tuy nhiên bạn phải đảm bảo rằng, bạn không sao chép nội dung từ những website khác và không thao túng kết quả của công cụ tìm kiếm.
Ngoài ra, bạn nên nhớ rằng Duplicate Content sẽ ảnh hưởng xấu đến hiệu suất SEO, cũng như mọi nỗ lực của bạn bỏ ra trước đây sẽ trở nên vô nghĩa. Vì vậy, hãy cố gắng thiết lập chiến lược Content SEO ngay từ ban đầu nếu không muốn nội dung của mình có sự trùng lặp không như ý.
Lý do gây ra lỗi Duplicate Content và cách khắc phục
Mặc dù nhiều quản trị website vẫn luôn cố gắng, cẩn thận nhằm tránh tình trạng Duplicate Content. Tuy nhiên vì một số lý do, nguyên nhân khác nhau mà nó vẫn xảy ra. Cùng VietMoz điểm ra những nguyên nhân chính sau đây:
URL
Tính năng này cho phép người dùng lọc và sắp xếp các trục trên trang. Bạn sẽ thường xuyên gặp nó trên các trang thương mại điện tử với nhiều chế độ lọc khác nhau từ giá, loại sản phẩm, thương hiệu, địa chỉ bán…
Mỗi bộ lọc được phân biệt bởi một tham số cuối khác nhau cho URL, điều này dẫn đến tình trạng nội dung gần như là trùng lặp hoàn toàn.
Giải pháp:
Bạn cần cân nhắc trong việc muốn trang nào được index, tức là các trang quan trọng cần thiết có tỷ lệ chuyển đổi tốt. Ngược lại các trang không cần thiết bạn có thể bỏ đi.
URL có gạch chéo và không gạch chéo
Việc URL có hay không có gạch chéo thì Google cũng xem chúng là 2 URL hoàn toàn độc lập nhau. Bạn cũng có thể hình dung bằng 2 trang web như sau:
- vietmoz.edu.vn/page/ và vietmoz.edu.vn/page đều được xem là 2 URL khác nhau.
Để kiểm tra, bạn cũng có thể load cả 2 URL có dấu và không có dấu gạch chéo trên thanh công cụ tìm kiếm.
- Trường hợp URL không có dấu gạch chéo chuyển hướng thành URL chứa dấu gạch chéo thì nó không được tính là Duplicate content.
- Trường hợp cả 2 URL đều có thể truy cập được thì là có vấn đề về trùng lặp nội dung.
Giải pháp:
Chuyển hướng phiên bản không mong muốn, đồng thời đảm bảo các liên kết nội bộ được phân bổ nhất quán. Cụ thể, bạn nên chọn một phiên bản duy nhất và sử dụng nó cho tất cả các URL của mình.
Trùng lặp ở trang chủ
Đây là loại trùng lặp nội dung điển hình mà rất nhiều website mắc phải. Cụ thể là khi trang chủ của bạn có thể truy cập từ nhiều hơn một địa chỉ URL.
- domain.com
- www.domain.com
- domain.com/index.html
- www.domain.com/index.html
Với máy tìm kiếm, mỗi địa chỉ URL là một trang web riêng biệt. Nếu website bạn xảy ra tình trạng này, và bạn chưa nhận ra nó hoặc chưa biết cách xử lý nó (ví dụ redirect 3 trang về 1 trang chính duy nhất) máy tìm kiếm sẽ không biết nên show địa chỉ nào trong bảng kết quả tìm kiếm. Từ đó, sức mạnh trang chủ của bạn sẽ bị giảm đi.
Giải pháp
Có vài cách giúp bạn xử lý tình huống này.
- Cách 1 là thiết lập redirect ở server hosting để đảm bảo sẽ chỉ có một trang chủ duy nhất được trả về. Các cấu hình cụ thể còn phụ thuộc vào loại server bạn sử dụng vì vậy bạn nếu cần thiết bạn nên chủ động liên hệ nhà cung cấp dịch vụ hosting của mình để có câu trả lời thỏa đáng.
- Cách 2 là thiết lập địa chỉ ưu tiên trong Google Webmaster Tools.
Subdomains, HTTPS và Relative Linking
Việc sử dụng subdomains nói chung không được khuyến khích vì không thân thiện trong SEO. Tuy nhiên, đôi khi bắt buộc phải có vì yêu cầu hoạt động của doanh nghiệp. Một trong những vấn đề mà subdomain có thể gây ra là việc trùng lặp nội dung.
Các trường hợp gây ra trùng lặp nội dung:
- Sử dụng liên kết tương đối cùng với subdomain. => Hậu quả: Trùng lặp giữa subdomain và domain chính.
- Sử dụng liên kết tương đối cùng với https. => Hậu quả : Trùng lặp giữa phiên bản http và https.
Khi xây dựng các liên kết nội bộ, chỉ sử dụng đường dẫn tương đối thay vì đường dẫn tuyệt đối.
Ngoài ra, bạn có thể sử dụng canonical để tự trỏ về mình. Cách làm này ít nhất là hiệu quả với Google. Nó không chỉ có tác dụng ngăn chặn việc trùng lặp nội dung mà còn có tác dụng ngăn chặn trường hợp toàn bộ website bị copy mang đi nơi khác mà không được đặt link trỏ về bản gốc.
Trùng lặp trang tag hoặc category
Với các blog, việc sử dụng tag và category có thể gây ra trùng lặp nội dung khi một trang tag/category có nội dung giống với một/ nhiều trang tag/ category khác.
Ví du, bạn viết blog, và có 3 bài về chủ đề làm nội dung như dưới đây:
- Tên bài: Làm thế nào để ngăn chặn trùng lặp nội dung
- Tags: trùng lặp nội dung, seo, cách làm, bí kip
- Category: SEO, Cách làm, Nội dung
- Tên bài: Bạn không bị phạt nếu nội dung của bạn bị trùng lặp
- Tags: nội dung trùng lặp, hình phạt, seo
- Category: SEO, Nội dung
- Tên bài: Làm thế nào để viết được một nội dung tốt
- Tags: nội dung, cách làm, bí kíp, sáng tạo
- Category: SEO, Nội dung, Cách làm
Bạn có thể thấy sự trùng lặp nội dung của các trang tag và category qua bảng dưới đây:
Làm thế nào để ngăn chặn trùng lặp nội dung | Bạn không bị phạt nếu nội dung của bạn bị trùng lặp | Làm thế nào để viết được một nội dung tốt | |
Tag: trùng lặp nội dung | X | X | |
Tag: seo | X | X | X |
Tag: cách làm | X | X | |
Tag: bí kíp | X | X | |
Tag: hình phạt | X | ||
Tag: nội dung | X | ||
Tag: sáng tạo | X | ||
Category: SEO | X | X | X |
Category: Cách làm | X | X | |
Category: Nội dung | X | X | X |
Giải pháp:
Giải pháp phụ thuộc vào cách bạn sử dụng tags và categories cũng như số lượng tags và categories bạn sử dụng cho mỗi bài viết. Nếu bạn sử dụng ít categories và nhiều tags (giống như phần lớn mọi người), sử dụng noindex, nofollow cho tất cả các trang tag. Trang categories có thể giúp nội dung của bạn được index đầy đủ. Ngược lại, nếu bạn sử dụng nhiều categories và ít tags, sử dụng noindex và nofollow cho tất cả các trang categories.
Tóm lại, bạn muốn bọ tìm kiếm có thể tìm thấy, đọc hiểu nội dung của bạn và muốn người dùng có thể dễ dàng tìm ra nội dung theo từng chủ đề mà họ tìm kiếm. Và đảm bảo không trùng lặp nội dung. Nếu bạn không áp dụng những hướng dẫn ở trên, điều này sẽ xảy ra với 2 trang web như sau:
- https://www.domain.com/blog/tag/seo và https://www.domain.com/blog/seo.
Trùng lặp với phiên bản in
Đây là tình huống trùng lặp nội dung khá phổ biến nhưng ít người để ý. Chức năng in sẽ tạo ra một địa chỉ URL mới có nội dung gần giống với trang web chính.
Ví dụ:
- www.domain.com/trang-1
- www.domain.com/trang-1/print
Giải pháp:
Giải pháp đơn giản nhất là đặt thẻ rel=canonical vào trang dành cho việc in và trỏ nó về trang chính. Nếu bạn sử dụng tham số để phân biệt trang in với trang thường, bạn có thể đặt thẻ rel=canonical trên trang chính và trỏ về chính nó. Giờ đây, tất cả những phiên bản khác của trang chính sẽ tự động trỏ về trang chính, trong đó bao gồm cả các phiên bản in ấn. Kết quả là www.domain.com/trang-1/id=print sẽ có một thẻ rel=canonical trỏ về trang chính www.domain.com/trang-1.
Thẻ rel=canonical là một phần của header của mỗi trang web, nơi bạn tìm thấy thẻ tiêu đề và thẻ mô tả.
Ví dụ:
- <link rel=”canonical” href=”https://www.seomoz.org/blog” />
Các trang web có thẻ này sẽ được bọ tìm kiếm đối xử như là bản sao của trang web www.seomoz.org/blog. Từ đây, bọ tìm kiếm có thể biết đâu là phiên bản chính và phiên bản copy.
Trùng lặp với phiên bản di động
Điều tương tự cũng có thể xảy ra với phiên bản mobile của trang web (phiên bản dành cho các thiết bị di động như smartphone, máy tính bảng). Nếu nội dung giống nhau trong khi địa chỉ URL khác nhau, máy tìm kiếm sẽ bối rối không biết đâu là địa chỉ tốt nhất để cung cấp cho người dùng.
- www.domain.com/page.html
- m.domain.com/page.html
- www.domain.com/m/page.html
2 trang web cuối có nội dung giống nhau, cùng phục vụ cho các thiết bị di động nhưng lại tồn tại trên 2 địa chỉ URL khác nhau.
Giải pháp:
Giải pháp tối ưu là sử dụng duy nhất một địa chỉ URL, và tận dụng tính năng tự động phát hiện trình duyệt (browser identifiers) để trả về những phiên bản web khác nhau với các phong cách CSS khác nhau, tùy thuộc vào thiết bị của người dùng.
Theo Wiki, CSS là một loại code, quy định cách trình bày các tài liệu viết bằng ngôn ngữ HTML và XHTML.
Nếu không thể làm được theo hướng này, bạn chắc chắn nên sử dụng thẻ rel=canonical trỏ từ trang dành cho mobile về trang chính. Đảm bảo phát hiện trình duyệt chuẩn xác để nếu người dùng sử dụng laptop hoặc máy để bàn truy cập vào địa chỉ URL cho thiết bị di động, họ sẽ được chuyển hướng sang địa chỉ URL chính.
Cách để tránh tình trạng Duplicate Content
Ngoài việc phát hiện và khắc phục vấn đề lỗi trùng lặp nội dung, bạn cũng có thể chủ động đưa ra các phương pháp tối ưu nhằm đảm bảo khách truy cập tìm thấy nội dung bạn muốn.
Sử dụng Redirect 301
Bạn có thể sử dụng chuyển hướng Redirect 301 trong tệp “.htaccess” của mình để chủ động trong việc khắc phục Duplicate Content. Điều này giúp bạn chuyển hướng người dùng theo ý muốn một cách tốt hơn. Giả sử bạn có một nội dung cũ nay được cập nhật mới lại thì bạn nhất định phải sử dụng Redirect 301 để người dùng khi nhấp chuột vào URL cũ thì được chuyển hướng sang nội dung bài viết mới.
Xây dựng liên kết nhất quán
Bạn cần giữ liên kết nội bộ sao cho nhất quán, tránh các vấn đề liên quan đến URL có dấu gạch chéo ngay cuối link, hoặc trùng với các biến thể URL khác như www, http và https…
Sử dụng Top-Level Domain
Nhằm hướng đến đối tượng người dùng trong một khu vực quốc gia cụ thể bạn hãy sử dụng các Top-Level Domain. Đây là phần mở rộng nằm sau cuối của tên miền ví dụ như: https://domain.vn/ tức là nội dung của tên miền này sẽ tập trung chủ yếu đến đối tượng là người dùng tại Việt Nam.
Tránh Index những nội dung chưa hoàn thiện
Với các trang chưa hoàn thiện bạn nên lưu bản nháp trước, tránh việc xuất bản khi nội dung vẫn chưa làm xong. Còn với các trang bạn đang tạo khung để giữ chỗ thì hãy chủ động sử dụng thẻ Meta Noindex để chặn lập chỉ mục.
Giảm thiểu các nội dung tương tự nhau
Bạn nên xem xét việc mở rộng hay hợp nhất các trang nếu nhận thấy nội dung của chúng tương tự nhau. Ví dụ nếu bạn có một website có các trang viết về cách nhuộm tóc từng màu riêng biệt, nhưng cách nhuộm thì giống nhau, bạn có thể viết thành một trang chỉ cách nhuộm tóc cho tất cả các màu tóc.
Sử dụng các công cụ kiểm tra nội dung trùng lặp
Nhằm hạn chế tình trạng lỗi Duplicate Content bạn cũng có thể kiểm tra nội dung bài viết của mình trước khi xuất bản bằng các công cụ hỗ trợ như Plagiarism checker:
Với công cụ này nó sẽ giúp bạn phát hiện các câu nào bị trùng lặp và sửa chúng lại để tránh việc lặp nội dung.
Bài viết tham khảo thêm
Nội dung trùng lặp – Duplicate Content
Tìm hiểu thêm các cách làm khác hoặc tham khảo khóa học seo của VietMoz để được hệ thống hóa các kiến thức một cách bài bản.
Nguồn: www.vietmoz.edu.vn
Bản quyền thuộc về Đào tạo SEO VietMoz
Vui lòng không copy khi chưa được sự đồng ý của tác giả