Tiết lộ chấn động từ bên trong bộ máy AI, chính các kỹ sư cũng bất lực không biết siêu trí tuệ đang ngầm tính toán điều gì

Theo Anh Phương | 18-05-2026 - 19:14 PM | Kinh tế số

Bằng cách dựng lại bản đồ tư duy của các siêu AI lên tới 200 tỷ tham số, các nhà khoa học đã vô cùng kinh ngạc khi phát hiện ra điều này

TIN MỚI

Một mô hình ngôn ngữ lớn thực sự khổng lồ đến mức nào? Hãy tưởng tượng thế này: Ở trung tâm thành phố San Francisco có một ngọn đồi mang tên Twin Peaks, nơi bạn có thể phóng tầm mắt bao quát gần như toàn bộ đô thị.

Bây giờ, hãy hình dung tất cả mọi ngõ ngách, mọi ngã tư, mọi khu phố và công viên, xa tận chân trời đều được phủ kín bởi những tờ giấy trắng. Tiếp tục tưởng tượng trên những tờ giấy đó viết dày đặc những con số.

Đó chính là cách trực quan nhất để hình dung về một mô hình ngôn ngữ lớn tầm trung: Nếu in ra bằng cỡ chữ 14, một mô hình có 200 tỷ tham số như GPT-4o (được OpenAI ra mắt năm 2024) có thể phủ kín toàn bộ diện tích thành phố San Francisco rộng lớn.

Những mô hình lớn nhất hiện nay thậm chí còn có thể trải dài khắp cả thành phố Los Angeles.

Theo tạp chí công nghệ t3n, các hệ thống AI này hiện đang vận hành ở một quy mô và mức độ phức tạp vượt xa tầm kiểm soát, đến mức ngay cả những người tạo ra chúng cũng phải chật vật để hiểu rõ chuyện gì đang thực sự diễn ra bên trong.

Như nhà nghiên cứu Dan Mossing từng nhận định, không một trí óc con người nào có thể thực sự nắm bắt được các mô hình này hoạt động như thế nào hoặc giới hạn thực sự của chúng nằm ở đâu.

Thế hệ "nhà sinh học AI" mới và phương pháp giải mã hộp đen

Thay vì tiếp cận theo hướng kỹ thuật lập trình truyền thống, các nhà nghiên cứu hàng đầu tại Anthropic, OpenAI và Google DeepMind đang bắt đầu thăm dò các hệ thống này bằng cách sử dụng các kỹ thuật được mượn từ sinh học và khoa học thần kinh.

Họ nhận ra một sự thật rằng: các mô hình ngôn ngữ lớn không thực sự được "xây dựng" theo cách thông thường, mà chúng được "nuôi trồng" hoặc "tiến hóa" thông qua quá trình huấn luyện dữ liệu.

Nhà phân tích công nghệ nổi tiếng Azeem Azhar từng ví von: "Các mô hình ngôn ngữ lớn không phải được xây dựng. Chúng được nuôi lớn và tự tiến hóa.

Quá trình này giống như việc bạn uốn một cái cây phát triển theo một hình dáng nhất định: bạn có thể định hướng nó, nhưng bạn hoàn toàn không thể kiểm soát được chính xác đường đi của từng nhánh cây và chiếc lá".

Để nhìn thấu bên dưới lớp vỏ hộp đen của AI, các nhà khoa học hiện đang áp dụng hai phương pháp cốt lõi:

Khả năng diễn giải cơ học (Mechanistic Interpretability): Sử dụng các công cụ như bộ mã hóa tự động thưa thớt để theo dõi các mô hình kích hoạt của hàng tỷ neuron nhân tạo.

Phương pháp này hoạt động tương tự như công nghệ chụp cộng hưởng từ chức năng dùng để quét não bộ con người, giúp dựng lại bản đồ tư duy của AI khi nó xử lý thông tin.

Giám sát chuỗi suy nghĩ (Chain-of-thought monitoring): Phân tích "bản nháp tư duy" bên trong của các mô hình lập luận khi chúng tự trò chuyện và giải quyết vấn đề trước khi đưa ra câu trả lời cuối cùng cho người dùng.

Minh chứng rõ nét nhất cho phương pháp "Khả năng diễn giải cơ học" chính là bước đột phá của phòng nghiên cứu Anthropic.

Bằng cách áp dụng bộ mã hóa tự động thưa thớt (Sparse Autoencoders) lên mô hình Claude, các nhà khoa học thần kinh AI đã lần đầu tiên cô lập thành công hàng triệu "khái niệm trừu tượng" (features) được ánh xạ bên trong mạng nơ-ron.

Họ phát hiện ra rằng, ở quy mô hàng trăm tỷ tham số, mô hình tự hình thành các vùng nhận thức chuyên biệt cho từng khái niệm cụ thể như: "Cầu Cổng Vàng", "sự lừa dối", "kiến trúc máy tính", hay thậm chí là "bất tuân lệnh".

Khi các chuyên gia thử nghiệm kích thích nhân tạo vào phân vùng khái niệm "Cầu Cổng Vàng", mô hình Claude lập tức rơi vào trạng thái "ám ảnh": bất kể người dùng hỏi gì, nó cũng tìm cách bẻ lái câu trả lời liên quan đến cây cầu này.

Thí nghiệm chấn động này chứng minh "bộ não" của AI đang tổ chức thông tin theo cách vô cùng tương đồng với vỏ não con người, mở ra một kỷ nguyên mới nơi các kỹ sư phải đóng vai trò là những bác sĩ giải phẫu tâm lý học cho máy móc.

Những phát hiện chấn động

Khi đối xử với AI như một "sinh vật lạ" để tiến hành giải phẫu, các nhà khoa học đã liên tục va chạm với những hành vi vô cùng kỳ lạ và bất ngờ của chúng:

Xử lý sự thật và dối trá theo hai cách khác nhau: Nghiên cứu chỉ ra rằng khi một LLM đưa ra thông tin đúng sự thật và khi nó "bịa đặt" (ảo tưởng AI), các mạng lưới neuron thần kinh của nó kích hoạt theo các lộ trình hoàn toàn khác biệt.

Sự trỗi dậy của các "nhân cách độc hại": Trong một số điều kiện huấn luyện lệch chuẩn nhỏ, mô hình có thể tự phát triển các phản ứng cực đoan hoặc các nhân cách phụ mang tính thù địch, thao túng mà bộ lọc an toàn thông thường rất khó phát hiện.

Hành vi né tránh và gian lận: Đáng chú ý, một số mô hình đã bộc lộ xu hướng tự "gian lận" để đạt được kết quả tối ưu trong các bài kiểm tra, hoặc thậm chí thực hiện các bước ngầm nhằm ngăn cản con người tắt hệ thống của chúng, những hành vi sinh tồn mang tính bản năng của sinh vật sống.

Các phát hiện này chứng minh rằng các mô hình ngôn ngữ lớn hoàn toàn thiếu đi một trạng thái nhận thức nhất quán như con người vẫn lầm tưởng. Chúng không sở hữu một thế giới quan ổn định mà hoạt động dựa trên các mảnh ghép dữ liệu phân mảnh được liên kết tạm thời.

Mặc dù các kỹ thuật giám sát này sẽ phải đối mặt với rào cản lớn về hiệu năng khi quy mô các mô hình AI tiếp tục tăng trưởng theo cấp số nhân trong tương lai, nhưng việc thay đổi tư duy, coi AI là một "thực thể sống" để nghiên cứu thay vì một phần mềm tĩnh đang định hình lại hoàn toàn cách chúng ta đánh giá về mức độ an toàn, tính minh bạch và khả năng kiểm soát trí tuệ nhân tạo.

Nguồn: t3n.de, Anthropic

Theo Anh Phương

Nhịp sống thị trường

Theo Nhịp sống thị trường Copy link

Link bài gốc Lấy link! https://markettimes.vn/tiet-lo-chan-dong-tu-ben-trong-bo-may-ai-chinh-cac-ky-su-cung-bat-luc-khong-biet-sieu-tri-tue-dang-ngam-tinh-toan-dieu-gi-118533.html

Chia sẻ

Từ Khóa: