Meta đang phát triển một mô hình AI mới tập trung vào hình ảnh và video có tên là Mango, song song với mô hình xử lý ngôn ngữ quy mô lớn dựa trên văn bản tiếp theo của mình.

Theo những người tham dự buổi hỏi đáp nội bộ của công ty mới đây, giám đốc AI Alexandr Wang đã thảo luận về các mô hình trí tuệ nhân tạo với Chris Cox, giám đốc sản phẩm của Meta. Các mô hình này dự kiến sẽ được phát hành vào nửa đầu năm 2026.

Nguồn tin của Reuters cho biết Mango không đơn thuần là một mô hình tạo ảnh hay video, mà hướng tới kết nối ngữ cảnh giữa hình ảnh, chuyển động, âm thanh và văn bản, cho phép AI “hiểu” video theo cách gần với con người hơn. Điều này đặc biệt quan trọng với Meta, khi phần lớn thời gian người dùng trên Facebook và Instagram hiện nay đến từ video ngắn, Reels và các định dạng thị giác. Việc kiểm soát một mô hình AI chuyên sâu về video giúp Meta tối ưu hóa thuật toán đề xuất, sáng tạo nội dung và quảng cáo – ba trụ cột doanh thu sống còn của tập đoàn.

Wang cũng cho biết một trong những trọng tâm của mô hình văn bản mới, có tên mã là Avocado, là cải thiện khả năng lập trình, và công ty đang trong giai đoạn đầu nghiên cứu phát triển “mô hình thế giới” - trí tuệ nhân tạo học hỏi môi trường xung quanh bằng cách tiếp nhận thông tin hình ảnh.

Meta đã tái cấu trúc đội ngũ AI của mình trong mùa hè, tuyển dụng Wang để lãnh đạo một bộ phận mới được thành lập có tên là Meta Superintelligence Labs. CEO của Meta, Mark Zuckerberg, đã đích thân thực hiện một chiến dịch tuyển dụng rầm rộ, thu hút hơn 20 nhà nghiên cứu từ OpenAI và tập hợp một đội ngũ hơn 50 nhà nghiên cứu, kỹ sư và các nhân viên khác có chuyên môn về AI.

Việc tạo ra hình ảnh đã chứng minh là một mặt trận quan trọng trong cuộc chiến giữa các công ty mô hình AI lớn.

Vào tháng 9, Meta đã ra mắt một công cụ tạo video bằng AI có tên Vibes, được phát triển với sự hợp tác cùng công ty khởi nghiệp Midjourney. Chưa đầy một tuần sau khi Meta phát hành Vibes, OpenAI đã tung ra ứng dụng tạo video bằng AI của riêng mình, có tên là Sora. Việc Google giới thiệu công cụ tạo ảnh Nano Banana hồi đầu năm nay đã thúc đẩy mạnh mẽ việc sử dụng Gemini, qua đó càng làm tăng tính cạnh tranh trong một thị trường đông đúc.

Không chỉ phục vụ sản phẩm nội bộ, Mango phản ánh chiến lược cạnh tranh trực diện của Meta với OpenAI, Google và các startup AI đang nổi lên. Reuters dẫn nhận định của các nhà phân tích cho rằng AI video có thể trở thành mặt trận cạnh tranh tiếp theo, nơi các hãng công nghệ lớn tìm cách kiểm soát công cụ sáng tạo nội dung, quảng cáo và giải trí trong tương lai. Với lợi thế sở hữu kho dữ liệu hình ảnh–video khổng lồ từ mạng xã hội, Meta có vị trí đặc biệt thuận lợi để huấn luyện các mô hình như Mango.

Tuy nhiên, con đường phía trước không thiếu rủi ro. Meta vẫn phải đối mặt với áp lực chi phí khổng lồ, cũng như các câu hỏi pháp lý xoay quanh bản quyền dữ liệu hình ảnh và video dùng để huấn luyện AI. Ngoài ra, việc triển khai AI mạnh hơn vào các nền tảng xã hội cũng làm dấy lên lo ngại về deepfake, thao túng thông tin và an toàn nội dung – những vấn đề mà Meta vốn đã chịu nhiều chỉ trích.

Theo: WSJ﻿