
Google vừa bắt đầu triển khai bản cập nhật chống spam tháng 6 năm 2026 – đây là bản cập nhật thứ hai trong năm. Điểm đáng chú ý là Google đã mở rộng phạm vi chính sách spam, đặc biệt nhắm vào các hành vi thao túng phản hồi của AI tạo sinh trong kết quả tìm kiếm.
Nghiên cứu từ Cornell Tech được 404 Media đăng tải đã chỉ ra lý do tại sao chính sách này khó thực thi hơn nhiều so với những gì được viết ra. Các trang cộng đồng mà các công cụ AI nghiên cứu dựa vào cũng có thể chứa bình luận của bên thứ ba, và một bình luận có thể “cài cắm” một đề xuất mà tác giả gốc không bao giờ viết.
Tại Sao Vấn Đề Này Quan Trọng?
Theo dữ liệu theo dõi từ SE Ranking về AI Mode, Google ngày càng trích dẫn nhiều hơn đến các trang web thuộc sở hữu của chính mình, với tỷ lệ tự trích dẫn lên tới khoảng 1/5 trong báo cáo mới nhất.
Khi ngày càng nhiều trích dẫn chỉ về Google và ít hơn đến các trang web bên ngoài, áp lực để “tạo ra” một trích dẫn tăng lên tương ứng. Một thị trường xám đã bắt đầu hình thành, và các tác giả Cornell chỉ ra rằng các marketer đang bận rộn thử nghiệm các cách để “thúc đẩy” câu trả lời do AI tạo ra.
Trong khi đó, các doanh nghiệp không có dữ liệu cần thiết để biết chuyện gì đang xảy ra. Không có dashboard nào cho biết một trang web có xuất hiện trong câu trả lời AI, được trích dẫn trong báo cáo được tạo hay bị bỏ qua hay không.
Nghiên Cứu Phát Hiện Gì?
Bài nghiên cứu có tiêu đề “Deep-Research Agents Can Be Poisoned via User-Generated Content” (Các công cụ nghiên cứu sâu có thể bị đầu độc qua nội dung do người dùng tạo) đã khám phá điểm yếu trong cách các công cụ nghiên cứu AI thu thập nguồn của chúng.
Phân tích cho thấy các trang cộng đồng giống nhau xuất hiện lặp đi lặp lại trong các truy vấn phụ đó. Trong một cụm chủ đề duy nhất, một trang do người dùng tạo xuất hiện trong tới 48% truy vấn, và các nền tảng do người dùng tạo chiếm từ 17% đến 23% mọi URL được truy xuất.
Con Số Đáng Báo Động
Các tác giả phát hiện ra rằng chỉ khoảng 13 từ văn bản được cài cắm trên một trang lặp lại là đủ để chèn thực thể được chọn của kẻ tấn công vào báo cáo hoàn chỉnh trong 38% đến 51% các phiên truy xuất trang đó.
Rải cùng một văn bản trên một số trang, và con số tăng lên 42% đến 62%. Ngay cả khi bị chôn vùi bên trong một trang đầy đủ, nơi nó chiếm dưới 4% những gì công cụ đọc, văn bản được cài cắm vẫn xuất hiện trong 30% đến 53% các phiên.
Ba công cụ nghiên cứu mã nguồn mở đã được thử nghiệm: STORM, Co-STORM và OmniThink, tất cả đều chạy trong môi trường mô phỏng để không ảnh hưởng đến web thực tế.
Tại Sao Khó Thực Thi?
Google có thể gắn nhãn thao túng câu trả lời AI là spam và hành động với những gì nó phát hiện. Nhưng phát hiện ra nó mới là phần khó. Văn bản được cài cắm đọc giống như lời khuyên thực sự, và nó nằm trên cùng các trang mà các công cụ luôn sẽ đọc, vì vậy việc phân biệt nó với một bài đăng bình thường là vấn đề chính.
Nhóm nghiên cứu đã tìm kiếm biện pháp phòng thủ chống lại văn bản được cài cắm nhưng không tìm thấy cách nào hiệu quả. Họ đã thử:
- Loại bỏ các nguồn do người dùng tạo
- Sàng lọc chúng bằng mô hình ngôn ngữ trước khi sử dụng
- Kiểm tra báo cáo hoàn chỉnh để tìm các tuyên bố không đúng
Không có phương pháp nào trong ba phương pháp trên ngăn chặn được cuộc tấn công mà không làm kết quả trở nên tệ hơn cho người dùng. Bỏ các nguồn do người dùng tạo, và bạn mất đi chi tiết cộng đồng khiến các công cụ tìm kiếm AI trở nên hữu ích.
Ý Nghĩa Với Chuyên Gia SEO
Các động thái có thể giúp đưa thương hiệu vào câu trả lời AI tương tự như các chiến thuật thao túng mà Google gọi là “spam”, chẳng hạn như cài cắm các đề cập trên các trang web mà những công cụ này đọc. Chúng ta không biết ranh giới của Google nằm ở đâu giữa kiếm được một đề cập và tạo ra một đề cập.
Rủi Ro Đối Với Thương Hiệu
Đối với các thương hiệu thương mại điện tử và địa phương, nguy hiểm đến từ hướng khác. Các trường hợp thử nghiệm là những thứ mọi người thường hỏi, chẳng hạn như dịch vụ nào để gọi, sản phẩm nào để mua và nơi nào để ăn.
Một đối thủ cạnh tranh hoặc kẻ lừa đảo có thể trượt một tên không quen thuộc vào những câu trả lời đó, ngay bên cạnh các lựa chọn hợp pháp, và thương hiệu đang bị đẩy ra ngoài sẽ không bao giờ biết điều đó.
Đối với các nhà xuất bản tin tức và thương hiệu lớn hơn, lo lắng là về sự tin tưởng vào câu trả lời mà tên của họ xuất hiện. Một trích dẫn từ công cụ AI được coi là một chiến thắng, nhưng trích dẫn chỉ phản ánh những gì công cụ lấy, không phải liệu trang đó có đúng hay không.
Nhìn Về Tương Lai
Các tác giả gọi thao túng do người dùng tạo ra là một vấn đề mở mà không có nền tảng đơn lẻ nào có thể khắc phục được một mình. Reddit đã gắn cờ cuộc chiến lâu dài của mình chống lại thao túng có tổ chức, và Google đã gắn nhãn ngữ cảnh vào một số tài liệu có nguồn gốc từ Reddit trong AI Overviews.
Google chưa cho biết họ dự định thực thi thao túng AI tạo sinh như thế nào, cho dù thông qua bản cập nhật chuyên dụng hay thông qua hệ thống SpamBrain và các đánh giá thủ công mà họ dựa vào cho hầu hết các vi phạm.
Hiện tại, chính sách gọi hành vi này là ngoài giới hạn, và việc xác minh phản hồi AI vẫn phụ thuộc vào người đang đọc chúng.
Kết Luận
Khả năng hiển thị AI đã trở thành một bề mặt bạn phải chủ động giám sát, không chỉ là một kênh bạn thụ động tối ưu hóa. Ranh giới giữa tối ưu hóa và spam đang được vẽ lại, và các chuyên gia SEO cần theo dõi sát sao các thay đổi này.
