44% trích dẫn của ChatGPT đến từ 1/3 đầu nội dung: Nghiên cứu mới

ChatGPT trích xuất nội dung chủ yếu từ các phần đầu bài viết, ưu tiên định nghĩa trực tiếp, giọng điệu cân bằng và mật độ thực thể cao, theo một nghiên cứu mới.

ChatGPT đặc biệt ưu ái phần đầu nội dung khi chọn trích dẫn, dựa trên phân tích 1,2 triệu câu trả lời AI và 18.012 trích dẫn đã được xác minh do Kevin Indig, Growth Advisor, thực hiện.

Vì sao điều này quan trọng?

Tìm kiếm truyền thống từng “thưởng” cho chiều sâu và giá trị xuất hiện muộn. AI lại ưu tiên phân loại tức thì — thực thể rõ ràng và câu trả lời trực tiếp ngay từ đầu. Nếu nội dung cốt lõi của bạn không xuất hiện sớm, khả năng nó xuất hiện trong câu trả lời AI sẽ thấp hơn.

Các con số đáng chú ý

Nhóm của Indig phát hiện một mô hình trích dẫn nhất quán mang tên “ski ramp” (đường trượt tuyết), lặp lại qua nhiều đợt kiểm chứng ngẫu nhiên. Ông cho rằng kết quả này có ý nghĩa thống kê không thể phủ nhận:

44,2% trích dẫn đến từ 30% đầu nội dung.
31,1% đến từ phần giữa (30–70%).
24,7% đến từ 1/3 cuối, với mức giảm mạnh gần phần footer.

Ở cấp độ đoạn văn, AI đọc sâu hơn:

53% trích dẫn đến từ giữa đoạn.
24,5% đến từ câu đầu tiên.
22,5% đến từ câu cuối cùng.

Kết luận quan trọng

Ở cấp độ bài viết, hãy đưa các insight quan trọng lên phía trước. Trong từng đoạn văn, ưu tiên sự rõ ràng và mật độ thông tin thay vì cố gắng ép câu đầu thật nổi bật.

Vì sao điều này xảy ra?

Các mô hình ngôn ngữ lớn được huấn luyện trên báo chí và học thuật — những phong cách viết tuân theo cấu trúc “bottom line up front” (đưa kết luận chính lên trước). Mô hình dường như đặt trọng số cao hơn cho phần định khung ban đầu, sau đó diễn giải phần còn lại dựa trên khung đó.

Dù các mô hình hiện đại có thể xử lý lượng token rất lớn, chúng vẫn ưu tiên hiệu quả và thiết lập bối cảnh nhanh chóng.

Nội dung nào được trích dẫn?

Indig xác định năm đặc điểm của nội dung được trích dẫn nhiều:

Ngôn ngữ mang tính khẳng định:
Các đoạn được trích dẫn có khả năng sử dụng định nghĩa rõ ràng (“X là”, “X đề cập đến”) cao gần gấp đôi. Cấu trúc chủ ngữ – động từ – tân ngữ trực tiếp hiệu quả hơn lối diễn đạt mơ hồ.

Cấu trúc hỏi – đáp tự nhiên:
Nội dung được trích dẫn có khả năng chứa dấu hỏi cao gấp 2 lần. 78,4% trích dẫn liên quan đến câu hỏi đến từ tiêu đề. AI thường xem H2 như một prompt và đoạn văn phía dưới là câu trả lời.

Mật độ thực thể cao:
Văn bản tiếng Anh thông thường chứa 5–8% danh từ riêng. Nội dung được trích dẫn nhiều có trung bình 20,6%. Các thương hiệu, công cụ và tên người cụ thể giúp “neo” câu trả lời và giảm mơ hồ.

Sắc thái cân bằng:
Nội dung được trích dẫn tập trung quanh điểm chủ quan 0,47 — không quá khô khan, cũng không quá cảm tính. Giọng điệu được ưa chuộng giống phong cách phân tích: kết hợp dữ kiện và diễn giải.

Độ rõ ràng đạt chuẩn kinh doanh:
Nội dung hiệu quả có chỉ số Flesch-Kincaid trung bình ở mức 16, so với 19,1 của nội dung kém hiệu quả. Câu ngắn và cấu trúc đơn giản vượt trội hơn văn phong học thuật dày đặc.

Về dữ liệu

Indig phân tích 3 triệu phản hồi từ ChatGPT và 30 triệu trích dẫn, tách riêng 18.012 trích dẫn đã được xác minh để xem xét AI lấy nội dung từ đâu và vì sao. Nhóm của ông sử dụng sentence-transformer embeddings để khớp câu trả lời với các câu nguồn cụ thể, sau đó đo lường vị trí trên trang và các đặc điểm ngôn ngữ như định nghĩa, mật độ thực thể và sắc thái cảm xúc.

Kết luận cuối cùng

Phong cách viết “ultimate guide” thiên về kể chuyện có thể hoạt động kém trong môi trường AI retrieval. Nội dung có cấu trúc dạng briefing, rõ ràng và trực diện, hoạt động hiệu quả hơn.

Indig cho rằng điều này tạo ra một “clarity tax” (thuế rõ ràng). Người viết buộc phải đưa định nghĩa, thực thể và kết luận lên sớm — thay vì để dành cho phần cuối bài.