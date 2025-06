Theo báo cáo từ Grand View Research, quy mô thị trường mô hình ngôn ngữ lớn toàn cầu đã ước tính đạt 5.617 triệu USD năm 2024 và dự kiến ​​sẽ tăng trưởng với tốc độ tăng trưởng kép hằng năm (CAGR) là 36,9% từ năm 2025 tới 2030. Trong lúc đó, thế giới cũng ngày càng quan tâm tới AI với sự chú ý tập trung nhiều vào các quốc gia có nhiều nhà phát triển mô hình AI hàng đầu như Mỹ và Trung Quốc.

Khu vực Đông Nam Á ít được quan tâm hơn nhưng cũng đang cho thấy những bước tiến mạnh mẽ. Mặc dù hạn chế về nguồn dữ liệu so với các ngôn ngữ phổ biến toàn cầu như tiếng Anh, tiếng Trung nhưng các doanh nghiệp trong khu vực đã bắt đầu nắm bắt cơ hội xây dựng các LLM của riêng mình. Cụ thể, Singapore đã cho ra mắt mô hình đầu tiên của quốc gia này mang tên SEA-LION LLM với 13% tập dữ liệu được đào tạo bằng các ngôn ngữ Đông Nam Á.

Tại Việt Nam, Zalo đã xây dựng mô hình AI nội địa và cho ra mắt lần đầu tiên vào năm 2023. Với mục tiêu tự chủ công nghệ AI, đồng thời giảm phụ thuộc vào công nghệ của nước ngoài, mô hình với 13 tỷ tham số đã được Zalo phát triển bằng kỹ thuật huấn luyện từ đầu - triển khai tất cả quy trình từ khởi tạo tham số, quyết định kiến trúc mô hình tới thuật toán huấn luyện trên tập dữ liệu nhất định. Kỹ thuật huấn luyện này giúp người Việt làm chủ và kiểm soát toàn bộ quá trình huấn luyện cũng như mô hình. Tới nay, sự ra đời của mô hình này đã đưa Việt Nam trở thành một trong số ít các quốc gia ở khu vực Đông Nam Á sở hữu LLM nội địa.

Mô hình LLM Việt không kém cạnh các mô hình nước ngoài

Không sở hữu tiềm lực như các công ty công nghệ lớn trên thế giới, giai đoạn đầu phát triển mô hình ngôn ngữ lớn của Việt Nam gặp khá nhiều khó khăn. Bên cạnh vấn đề thiếu hụt dữ liệu do tiếng Việt cũng được xếp vào nhóm có tài nguyên dữ liệu nghèo nàn hơn hàng chục lần so với tiếng Anh hay tiếng Trung, các kỹ sư Việt cũng chưa được trang bị đầy đủ hạ tầng máy chủ cần thiết. Trong khi đó, các công ty lớn trên thế giới đã sở hữu hàng nghìn GPU mới nhất từ Nvidia. Đặc biệt, Việt Nam cũng có những hạn chế về nguồn lực con người và kinh nghiệm huấn luyện mô hình LLM khi so sánh với các quốc gia phát triển trên thế giới.

Dù vậy, Zalo vẫn có chiến lược phát triển phù hợp giúp từng bước tháo gỡ khó khăn. Nhờ trang bị hạ tầng tính toán với 8 máy chủ DGX H100, mô hình LLM của Zalo đã được phát triển trực tiếp bằng dòng GPU mới và khan hiếm nhất của Nvidia lúc đó với hiệu suất lên đến 256 petaFLOPS (FLoating-point Operations Per Second - một petaFLOP tương đương với 10 triệu tỷ phép tính/giây). Zalo cũng tăng cường phát triển dữ liệu tiếng Việt để bù đắp sự thiếu hụt của thị trường, đồng thời trang bị kiến thức và năng lực huấn luyện LLM cho các kỹ sư Việt thông qua hàng loạt nghiên cứu thực hiện trên các GPU dân dụng nhỏ. Từ đó tạo nền tảng sẵn sàng ngay khi sở hữu hạ tầng tính toán lớn hơn sau này.

Máy chủ DGX H100 Zalo đặt mua của Nvidia.

Định hướng phát triển đúng đắn đã giúp Zalo phát triển thành công mô hình ngôn ngữ lớn với 7 tỷ tham số tập trung vào tiếng Việt chỉ sau 6 tháng huấn luyện vào năm 2023, đạt 150% năng lực so với GPT3.5 của OpenAI theo đánh giá của VMLU - Nền tảng đánh giá và xếp hạng năng lực tiếng Việt của các LLM (Vietnamese Multitask Language Understanding Benchmark Suite for Large Language Models).

Mô hình LLM của Zalo đứng thứ 3 trong thử thách Kahoot, xếp sau 01 người chơi thật và GPT 4 trong lần đầu ra mắt năm 2023.

Tới hết năm 2024, mô hình ngôn ngữ lớn của Zalo đã vươn lên vị trí số 2 trên bảng xếp hạng các mô hình được huấn luyện từ đầu của VMLU. Cụ thể, mô hình chỉ xếp sau Llama-3-70B của Meta, chính thức vượt qua các tên tuổi lớn như GPT-4 (OpenAI), gemma-2-9b-it (Google), microsoft/Phi-3-small-128k-instruct (Microsoft).

Bảng xếp hạng Top 10 các mô hình xây dựng từ đầu của VMLU năm 2024.

"Mặc dù xuất phát điểm gặp nhiều khó khăn so với các công ty lớn trên thế giới nhưng Zalo vẫn quyết định nhập cuộc chơi từ sớm với mục tiêu phát triển thành công mô hình AI của riêng Việt Nam. Chúng tôi đã tham vấn kinh nghiệm từ các nhà nghiên cứu, kỹ sư tại nhiều viện nghiên cứu hàng đầu trên thế giới để có chiến lược phát triển phù hợp. Những dấu mốc thành công tới hiện tại là động lực để các kỹ sư Zalo tiếp tục tối ưu mô hình lớn hơn về lượng và tốt hơn về chất." - TS. Nguyễn Trường Sơn, Giám đốc Khoa học tại Zalo AI.

Tự chủ công nghệ phát triển ứng dụng thực tế cho người Việt

Những dấu mốc thành công trong việc nghiên cứu và huấn luyện mô hình đã tạo động lực cho các kỹ sư của Zalo đưa mô hình LLM vào phát triển các ứng dụng hữu ích cho người dùng Việt. Tiêu biểu phải kể đến Trợ lý hỏi đáp tổng hợp Kiki Info đang được vận hành dưới dạng một OA - Official Account (Tài khoản chính thức) trên Zalo. Trợ lý cung cấp 3 tính năng gồm Hỏi đáp các chủ đề khác nhau như khoa học, lịch sử, luật giao thông…; Sáng tạo nội dung như viết văn, soạn email, tin đăng mạng xã hội…; và Giải trí bằng cách đưa ra các gợi ý về địa điểm du lịch, âm nhạc, sách…

Theo thống kê của Zalo, trợ lý Kiki Info đã có tới 1 triệu lượt người dùng truy cập vào tài khoản OA trên Zalo chỉ trong chưa đầy 2 tháng.

Mô hình LLM của Zalo được ứng dụng để phát triển Trợ lý Kiki Info.

Một ứng dụng khác của mô hình ngôn ngữ lớn này là thiệp AI, được người dùng sử dụng phổ biến để gửi những lời chúc tới người thân, bạn bè trong những dịp lễ quan trọng hiện cũng chạm mốc 15 triệu thiệp được khởi tạo và gửi đi chỉ trong 2 tháng.

Các ứng dụng đều được người dùng đánh giá cao với những trải nghiệm thông minh và tiện lợi, giúp rút ngắn thời gian tìm kiếm và đưa ra quyết định, cũng như tăng cường chất lượng kết nối với các mối quan hệ trong cuộc sống.

Zalo hướng tới kỷ nguyên phát triển mới của đất nước

Hướng tới kỷ nguyên mới - kỷ nguyên vươn mình của Dân tộc, Đảng và Chính phủ đang quyết tâm định hình cũng như thúc đẩy kỷ nguyên phát triển công nghệ của đất nước, thể hiện thông qua Nghị quyết 57-NQ/TW về Đột phá phát triển Khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số quốc gia.

Trong nỗ lực góp sức phát triển nền công nghệ của đất nước, Zalo không chỉ định hướng làm chủ công nghệ tiên tiến nói chung và AI nói riêng mà còn đồng hành cùng cộng đồng công nghệ Việt thúc đẩy kiến tạo sản phẩm công nghệ AI của người Việt phục vụ cho người Việt.

Cụ thể với chiến lược "AI-First", Zalo hiện là tổ chức tiên phong làm chủ công nghệ Trí tuệ nhân tạo tại Việt Nam. Từ năm 2022 đến nay, Zalo đã phát triển hàng loạt ứng dụng thực tế từ AI giúp nâng cấp trải nghiệm người dùng như Soạn tin nhắn văn bản bằng giọng nói, Chuyển văn bản thành giọng nói, Chuyển tin nhắn thoại thành văn bản, Zalo AI Avatar, zSticker AI…

Nhà sáng lập Zalo - Ông Vương Quang Khải.

Chia sẻ niềm tin về tương lai của công nghệ Việt Nam, Nhà sáng lập Zalo - Vương Quang Khải khẳng định: "Vẻ đẹp của Trí tuệ nhân tạo cũng đến từ những tác động tích cực lên cuộc sống hàng ngày của con người. Chúng ta ở đây để chia sẻ thành công, khát vọng và truyền cảm hứng mới trong việc phát triển công nghệ giúp thay đổi cuộc sống".

Người sáng lập Zalo cũng khẳng định: "Về mặt phát triển ứng dụng AI, tôi khá lạc quan và có niềm tin rằng người Việt Nam mình không thua kém ai, không chỉ làm ứng dụng nội địa mà còn xuất khẩu ra thế giới".