Một nghiên cứu quy mô lớn vừa được công bố bởi các nhà khoa học từ Microsoft Research và Salesforce Research đã xác nhận điều mà nhiều người dùng AI từng nghi ngờ nhưng chưa có bằng chứng rõ ràng: tất cả các mô hình ngôn ngữ lớn hiện nay đều hoạt động kém hơn đáng kể khi cuộc trò chuyện kéo dài qua nhiều lượt.

Nhóm nghiên cứu đã phân tích hơn 200.000 đoạn hội thoại mô phỏng trên 15 mô hình AI hàng đầu, bao gồm GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet và Deepseek-R1, và không tìm thấy bất kỳ ngoại lệ nào.

Kết quả đo được rất cụ thể: hiệu suất trung bình của các mô hình sụt giảm 39% khi chuyển từ hội thoại một lượt sang hội thoại nhiều lượt trên cùng một tập tác vụ. Những cái tên vốn được xem là đỉnh cao của trí tuệ nhân tạo cũng không thoát khỏi quy luật này.

GPT-4.1 giảm từ 96,6% xuống còn 72,6%, trong khi Gemini 2.5 Pro giảm từ 97,4% xuống 68,1%. Các con số này được tính trung bình trên 6 loại tác vụ khác nhau, từ lập trình, truy vấn cơ sở dữ liệu, toán học cho đến tóm tắt văn bản.

Điều đáng chú ý hơn là cách nhóm nghiên cứu phân tích nguyên nhân của sự sụt giảm này. Họ chia hiện tượng thành hai thành phần riêng biệt: năng lực thực sự của mô hình chỉ giảm 16%, nhưng độ bất ổn định - tức là khoảng cách giữa kết quả tốt nhất và tệ nhất trong cùng một tình huống - tăng vọt đến 112%.

Nói cách khác, các mô hình AI về lý thuyết vẫn có khả năng giải quyết vấn đề, nhưng chúng trở nên cực kỳ thất thường. Người dùng không thể biết lần này mô hình sẽ trả lời đúng hay sai, dù câu hỏi hoàn toàn giống nhau.

Cơ chế gây ra hiện tượng này được các nhà nghiên cứu đặt tên là "lost in conversation" — tạm dịch là "lạc lối trong hội thoại". Vấn đề không phải là mô hình quên thông tin, mà là chúng đưa ra giả định quá sớm.

Ngay từ lượt thứ hai hoặc thứ ba của cuộc trò chuyện, khi người dùng chưa cung cấp đủ thông tin, mô hình đã vội vàng tạo ra một câu trả lời hoàn chỉnh dựa trên những suy đoán của chính mình. Một khi đã làm vậy, chúng xem đầu ra trước đó như một nền tảng đúng và tiếp tục xây dựng lên đó.

Khi người dùng bổ sung thêm thông tin ở các lượt sau, thay vì cập nhật lại từ đầu, mô hình cố gắng điều chỉnh câu trả lời cũ, dẫn đến những phản hồi ngày càng phình to, rối rắm và sai lệch hơn. Nghiên cứu gọi đây là hiệu ứng "answer bloat": câu trả lời trong hội thoại nhiều lượt có thể dài hơn 20% đến 300% so với câu trả lời trong hội thoại một lượt, nhưng chất lượng lại thấp hơn.

Nguyên nhân gốc rễ của vấn đề nằm ở cách các mô hình này được xây dựng. Gần như toàn bộ dữ liệu huấn luyện của chúng dựa trên hội thoại một lượt: câu hỏi rõ ràng, câu trả lời hoàn chỉnh. Trong thực tế, người dùng thường bắt đầu với yêu cầu mơ hồ, bổ sung dần thông tin qua nhiều lượt, đôi khi quay lại sửa yêu cầu ban đầu.

Sự chênh lệch giữa môi trường huấn luyện và môi trường sử dụng thực tế chính là lỗ hổng mà chưa có mô hình nào vá được. Đáng chú ý, ngay cả hai mô hình suy luận trong thử nghiệm là o3 và Deepseek-R1, vốn được thiết kế để "suy nghĩ" nhiều hơn trước khi trả lời, cũng suy giảm theo cách tương tự. Việc tăng thêm tính toán ở bước suy luận không giúp mô hình xử lý tốt hơn với hội thoại nhiều lượt thiếu thông tin.

Nhóm nghiên cứu cũng thử nghiệm một số giải pháp. Các phương pháp phổ biến như mở rộng cửa sổ ngữ cảnh, chain-of-thought prompting hay tóm tắt cuộc trò chuyện đều không giải quyết được vấn đề cốt lõi.

Phương pháp duy nhất cho kết quả khả quan là "concat-and-retry": thu thập toàn bộ thông tin qua các lượt hội thoại, sau đó gộp tất cả lại thành một yêu cầu duy nhất và bắt đầu một cuộc trò chuyện mới hoàn toàn. Cách làm này đưa độ chính xác trở lại trên 90%, gần bằng mức hiệu suất ban đầu.

Phát hiện này có ý nghĩa trực tiếp với người dùng hàng ngày. Nếu cuộc trò chuyện với AI đang đi theo hướng không như mong muốn, việc cố gắng giải thích thêm trong cùng một cửa sổ chat thường kém hiệu quả hơn so với việc bắt đầu một cuộc hội thoại mới với toàn bộ thông tin được trình bày ngay từ đầu.

Đây không phải là mẹo vặt hay lỗi giao diện, mà là giới hạn kiến trúc hiện tại của các hệ thống AI. Các nhà nghiên cứu kêu gọi các tổ chức phát triển AI cần ưu tiên cải thiện độ tin cậy trong hội thoại nhiều lượt, không chỉ tập trung vào việc nâng cao năng lực xử lý tác vụ đơn lẻ như hiện nay.