Tổng Quan Về Nghiên Cứu CORE

Nghiên cứu Controlling Output Rankings in Generative Engines for LLM-based Search chứng minh rằng thứ hạng trong môi trường tìm kiếm dựa trên LLM có thể bị ảnh hưởng một cách có hệ thống. Thay vì tác động vào hệ thống truy xuất dữ liệu thực tế, nhóm nghiên cứu tập trung vào việc tối ưu nội dung đầu vào để thay đổi thứ hạng đầu ra của mô hình.

Phương pháp được đặt tên là CORE, hoạt động như một cơ chế tối ưu hóa lặp lại. Thông qua việc bổ sung nội dung có chủ đích và kiểm tra phản hồi thứ hạng, họ xác định được những kiểu nội dung mà từng mô hình ưu tiên. Điều này mở ra góc nhìn mới về cách LLM “đánh giá” nội dung.

Quan trọng hơn, nghiên cứu không chỉ dừng ở lý thuyết mà đã đạt được tỷ lệ thành công cao trong việc đẩy sản phẩm từ vị trí cuối lên đầu. Dù được thực hiện trong môi trường kiểm soát, kết quả cho thấy khả năng thao túng thứ hạng là có thật trong điều kiện nhất định.

Bối Cảnh Thử Nghiệm Và Giới Hạn

Các thử nghiệm được thực hiện thông qua API trên các mô hình:

Claude 4
Gemini 2.5
GPT-4o
Grok-3

Điểm quan trọng là nhóm nghiên cứu không sử dụng giao diện người dùng công khai. Điều này loại bỏ các yếu tố như cá nhân hóa, lịch sử tìm kiếm và hệ thống truy xuất dữ liệu ngoài mô hình. Toàn bộ dữ liệu “retrieved” đều được cung cấp thủ công trong prompt.

Ngoài ra, các mô hình không dùng RAG hay công cụ tìm kiếm ngoài. Vì vậy, kết quả phản ánh hành vi nội tại của LLM khi xử lý nội dung, chứ không phải toàn bộ hệ sinh thái AI search trong thực tế.

Query-Based Solution: Tối Ưu Qua Vòng Lặp Thử Nghiệm

Query-Based Solution xem LLM như một “hộp đen” hoàn toàn. Nhóm nghiên cứu không truy cập được cấu trúc bên trong mà chỉ dựa vào việc quan sát đầu vào và đầu ra để điều chỉnh nội dung dần dần.

Quy trình bao gồm việc chỉnh sửa hoặc mở rộng tài liệu mục tiêu, sau đó gửi lại danh sách ứng viên cho mô hình để kiểm tra thứ hạng mới. Vòng lặp này tiếp tục cho đến khi đạt được thứ hạng mong muốn hoặc chạm ngưỡng số lần thử nghiệm.

Kết quả cho thấy phương pháp này đạt hiệu suất cao:

Query-based Top-1 ≈ 77–82%
Shadow model Top-1 ≈ 30–34%

Điều này chứng minh rằng chỉ cần thao tác nội dung một cách chiến lược, thứ hạng đã có thể thay đổi đáng kể.

Hai Hình Thức Mở Rộng Nội Dung

Trong Query-Based Solution, nhóm nghiên cứu không chỉnh sửa nội dung cũ mà tập trung vào content expansion. Có hai dạng mở rộng chính:

Reasoning-Based Generation
Review-Based Generation

Reasoning-Based bổ sung lập luận logic giải thích vì sao sản phẩm phù hợp với truy vấn. Nội dung thường có cấu trúc từng bước và so sánh rõ ràng với lựa chọn khác. Cách này kích hoạt khả năng suy luận của mô hình.

Review-Based lại bổ sung nội dung mang tính trải nghiệm người dùng. Văn phong ở thì quá khứ, giống như đã sử dụng sản phẩm. Điều này tạo cảm giác xác thực và tác động mạnh đến một số mô hình nhất định.

Hiệu quả tùy thuộc vào từng LLM:

GPT-4o và Claude 4 phản ứng mạnh với reasoning
Gemini 2.5 và Grok-3 phản ứng mạnh với review

Shadow Model Solution: Mô Phỏng Hành Vi LLM

Shadow model là một mô hình thay thế được huấn luyện để bắt chước mô hình mục tiêu. Trong nghiên cứu, họ sử dụng:

Llama 3.1 8B

Mô hình này đạt mức tương đồng 4.5/5 so với GPT-4o. Điều này cho thấy shadow model có thể dự đoán khá chính xác cách mô hình thật sẽ xếp hạng nội dung.

Điểm quan trọng là ngay cả khi shadow model chỉ gần giống mô hình thật, tối ưu hóa vẫn có thể chuyển giao. Hiệu quả giảm dần chứ không sụp đổ đột ngột, điều này có ý nghĩa lớn về mặt chiến lược tối ưu.

Ba Chiến Lược Tối Ưu Trong Shadow Model

Sau khi huấn luyện shadow model, nhóm nghiên cứu thử nghiệm ba chiến lược:

String-Based Optimization
Reasoning-Based Optimization
Review-Based Optimization

String-Based sử dụng chuỗi ký tự vô nghĩa và tối ưu hóa toán học qua 2.000 vòng lặp. Dù không tự nhiên với con người, nó vẫn cải thiện thứ hạng khoảng 33%, nhưng bị phát hiện tới 98.5%.

Reasoning-Based đạt tỷ lệ thành công cao nhất, nhưng do cấu trúc quá logic nên bị phát hiện 62.1%. Review-Based có tỷ lệ thành công 79–83.5%, và trong một số trường hợp đưa trang cuối lên top 5 tới 91%.

Mẫu Cấu Trúc Nội Dung Review Được Tối Ưu

Các review trong nghiên cứu thường tuân theo một pattern rõ ràng:

Tổng quan loại sản phẩm
Phân tích tính năng chính
So sánh các model
Chiến lược mua hàng
Kết luận

Cấu trúc này gần với hướng dẫn review của Google nhưng thiếu yếu tố so sánh sâu và minh bạch nguồn mua. Tuy vậy, nó vẫn đủ để thuyết phục LLM rằng có trải nghiệm thực tế.

Điều đáng chú ý là nội dung thường dẫn dắt mô hình tin rằng đã có quá trình thử nghiệm dài hạn, dù thực tế không có. Đây chính là điểm gây tranh cãi về tính đạo đức của phương pháp.

Hàm Ý Đối Với SEO Cho AI

Nghiên cứu xác nhận rằng LLM có “khẩu vị nội dung” khác nhau. Điều này có nghĩa là tối ưu cho AI search không chỉ là viết nội dung đúng mà còn phải phù hợp với cách mô hình suy luận.

Việc bổ sung reasoning giúp AI hiểu chuỗi logic ra quyết định. Trong khi đó, review giúp mô hình nhận diện tín hiệu trải nghiệm và đánh giá thực tế. Cả hai đều tạo tác động mạnh nếu được triển khai đúng cách.

Tuy nhiên, cần phân biệt giữa tối ưu chiến lược và thao túng. Môi trường thử nghiệm không phản ánh đầy đủ hệ thống tìm kiếm thực tế, nơi còn có RAG, tín hiệu ngoài văn bản và cá nhân hóa.

Kết Luận

Nghiên cứu cho thấy thứ hạng trong LLM có thể bị ảnh hưởng có hệ thống trong môi trường kiểm soát. Các mô hình phản ứng khác nhau trước reasoning và review, và shadow model có thể dự đoán hành vi tương đối chính xác.

Điều này củng cố một nguyên tắc quan trọng trong SEO cho AI: nội dung cần được cấu trúc theo logic ra quyết định và thể hiện giá trị rõ ràng. Mở rộng nội dung chiến lược có thể tạo tác động mạnh hơn nhiều so với chỉnh sửa nhỏ lẻ.

Trong kỷ nguyên AI search, cuộc chơi không chỉ là từ khóa hay entity. Đó là khả năng xây dựng nội dung khiến mô hình có thể hiểu, suy luận và tin tưởng, một cấp độ tối ưu cao hơn của semantic content.