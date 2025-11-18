Shenava, tốt nghiệp ngành khoa học máy tính tại Đại học Bang Kent ở Ohio, trước đó đã ra mắt một ứng dụng dịch thuật và một ứng dụng học ngôn ngữ cho Tulu. Để xây dựng bộ dữ liệu cho chương trình Thạc sĩ Luật (LLM), anh phải thu thập dữ liệu giọng nói và văn bản từ người bản xứ, bao gồm giáo viên, chuyên gia, người nội trợ và cộng đồng người Tulu di cư.

Shenava, nhà sáng lập 27 tuổi của TuluAI, chia sẻ với Rest of World : “Hầu hết các hệ thống AI đều được xây dựng tại Mỹ. Chúng không hiểu ngôn ngữ hoặc ngữ cảnh của Ấn Độ. Chúng tôi cần những mô hình riêng đại diện cho chính mình”.

TuluAI tổ chức các buổi kể chuyện và hội thảo ở các vùng nông thôn, nơi người dân địa phương - đặc biệt là phụ nữ và người cao tuổi - kể chuyện hoặc được yêu cầu đọc văn bản và mô phỏng các cuộc trò chuyện hàng ngày. Người tham gia được hướng dẫn cách ghi lại và dán nhãn dữ liệu. Mỗi hội thảo kéo dài từ một đến hai ngày tạo ra hơn 150 giờ dữ liệu giọng nói và văn bản được dán nhãn, Shenava cho biết.﻿

Công ty khởi nghiệp này cũng thu thập ghi chú thoại WhatsApp từ bất kỳ ai muốn gửi ghi chú. Bản ghi và nhãn sẽ được kiểm tra để đảm bảo tính chính xác.

“Các công cụ dịch thuật chính thường bỏ qua ngữ cảnh vốn mang lại ý nghĩa cho từ ngữ. Cách duy nhất để khắc phục điều đó là sử dụng dữ liệu xác thực, do con người ghi lại, phản ánh cách sử dụng ngôn ngữ trong đời thực”, Shenava nói. “Mục tiêu là để mô hình nói chuyện như người bản xứ. Chúng tôi muốn nó hiểu được sự hài hước, thành ngữ và bối cảnh văn hóa. Vì vậy, chúng tôi đang xây dựng dần dần, xác minh từng mẫu”.

Trên khắp đất nước, tại bang Assam, đông bắc Ấn Độ, Kabyanil Talukdar, nhà đồng sáng lập 25 tuổi của Aakhor AI, cũng áp dụng quy trình tương tự để xây dựng bộ dữ liệu bằng tiếng Bodo và tiếng Assam. Nhóm của Talukdar tổ chức các hội thảo và lớp học cộng đồng, đồng thời tổ chức các buổi hướng dẫn bằng giọng nói qua các nhóm WhatsApp, với những lời nhắc nhở đơn giản hàng ngày.

"Khi mọi người thấy giọng nói của mình góp phần bảo tồn ngôn ngữ, họ cảm thấy mình có quyền sở hữu", ông nói. "Họ được thúc đẩy bởi mục tiêu chung là tạo ra AI có thể hiểu và nói được tiếng mẹ đẻ của họ."

Ấn Độ có hơn 1.600 ngôn ngữ và phương ngữ, nhưng hầu hết các hệ thống trí tuệ nhân tạo đều tập trung vào những ngôn ngữ được sử dụng rộng rãi. ChatGPT của OpenAI hỗ trợ hơn một chục ngôn ngữ Ấn Độ, bao gồm tiếng Hindi, tiếng Tamil và tiếng Kannada, ngôn ngữ chính ở Karnataka. Gemini của Google có thể trò chuyện với người dùng bằng 9 ngôn ngữ Ấn Độ. ﻿

Tuy nhiên, sự bùng nổ đang mở ra một khoảng trống mà các “ông lớn” công nghệ không thể lấp đầy ngay lập tức: nhu cầu về mô hình ngôn ngữ thực sự hiểu tiếng địa phương, hiểu văn hóa, và có thể hoạt động trong điều kiện thiết bị, kết nối hạn chế. Đó cũng là lý do khiến nhiều startup Ấn Độ chọn hướng xây dựng dữ liệu và năng lực AI “bản địa hoá” - một cách tiếp cận đang được các báo quốc tế đánh giá là có khả năng cạnh tranh trực tiếp với Big Tech.

Bài phân tích của Rest of World nhận định rằng trong khi ChatGPT và các mô hình của phương Tây thể hiện sức mạnh vượt trội, chúng vẫn gặp hạn chế khi xử lý những ngôn ngữ “ít tài nguyên”. Những startup Ấn Độ vì thế đã dấn thân vào một chiến lược đầy gian nan: xây dựng bộ dữ liệu ngôn ngữ từ con số 0, huy động cộng đồng đóng góp câu chuyện, giọng nói, từ vựng; và phát triển các mô hình riêng vốn sinh ra để phục vụ đúng nhu cầu người Ấn, thay vì điều chỉnh từ bản gốc tiếng Anh.

Tờ Financial Times cũng ghi nhận cuộc đua này khi cho biết các công ty công nghệ, từ startup đến các tập đoàn lớn, đang chạy đua để phát triển chatbot đáp ứng hàng loạt ngôn ngữ India. Trong khi đó, Nature cảnh báo rằng phần lớn mô hình ngôn ngữ hiện nay “vẫn gặp khó khăn đáng kể khi xử lý các ngôn ngữ ngoài tiếng Anh”, một thực tế càng làm rõ khoảng trống mà startup Ấn Độ có thể tận dụng.

Chiến lược của họ rất rõ ràng: thay vì cố tạo ra phiên bản “mini ChatGPT”, họ xây dựng mô hình nhỏ hơn nhưng thích nghi tốt hơn, hiểu văn hóa địa phương, hiểu cách người Ấn “trộn” ngôn ngữ (code-mixing) khi giao tiếp, và hoạt động ổn định trong điều kiện kết nối yếu. Một số nhóm còn hướng đến khả năng chạy offline hoặc trên thiết bị giá rẻ – điều mà ChatGPT hay các mô hình toàn cầu chưa ưu tiên. Song song với đó, các nền tảng quốc gia như Bhashini, do chính phủ Ấn Độ phát triển, tạo hệ sinh thái mở để startup đóng góp dữ liệu và triển khai dịch vụ đa ngôn ngữ, từ dịch thuật đến trợ lý giọng nói.

Tuy nhiên, con đường này không hề dễ dàng. Việc xây dựng bộ dữ liệu ngôn ngữ bản địa đòi hỏi thời gian, chi phí và sự tham gia của cộng đồng, bởi nhiều ngôn ngữ thậm chí chưa từng có dữ liệu số hóa. Startup phải đối mặt với hạn chế về hạ tầng tính toán, nguồn lực nghiên cứu, và đặc biệt là áp lực cạnh tranh từ những “gã khổng lồ” sẵn sàng mở rộng sang nhiều ngôn ngữ hơn khi thị trường đủ lớn. Nhưng lợi thế của họ là sự gần gũi: họ hiểu rõ người dùng, văn hóa, nhu cầu thực tế và những ngữ cảnh chỉ người bản địa mới nhận ra.

Câu chuyện Ấn Độ vì thế trở thành minh chứng rằng thị trường AI không chỉ là cuộc chơi về quy mô hay tốc độ tăng trưởng. Khi công nghệ toàn cầu lan rộng, cơ hội của startup địa phương nằm ở khả năng giải những bài toán mà Big Tech khó giải: ngôn ngữ ít tài nguyên, văn hóa đa dạng, điều kiện hạ tầng không đồng đều.

Theo: Rest of World, The Economic Times