Giải quyết vấn đề dữ liệu AI với công nghệ và nền tảng crowdsourcing
Dữ liệu gán nhãn là một trong những vấn đề nan giải nhất của phát triển AI. Để giải quyết, ứng dụng công nghệ và nền tảng crowdsourcing về nhân sự cho thấy tiềm năng vượt trội so với những cách tiếp cận hiện nay.
Câu chuyện gán nhãn dữ liệu trí tuệ nhân tạo và các công cụ hiện nay
Để giải quyết vấn đề chất lượng các mô hình trí tuệ nhân tạo rất nhiều các công ty, start-up trên thế giới đã phát triển các sản phẩm, công cụ gán nhãn dữ liệu phục vụ cho các bài toán AI. CVAT là một công cụ mã nguồn mở được phát triển bởi Intel nhằm gán nhãn dữ liệu hình ảnh và video cho các thuật toán thị giác máy tính. Tương tự như CVAT, Label Studio là một công cụ gán nhãn dữ liệu có bổ sung thêm các công cụ gán nhãn dữ liệu âm thanh, dữ liệu văn bản. Một loạt các start-up về lĩnh vực gán nhãn và thu thập dữ liệu cũng ra đời như Scale, V7Lab,…
Theo ông Phạm Nguyên Bình, CEO TagOn - một start-up Việt Nam trong lĩnh vực gán nhãn và thu thập dữ liệu AI - "Chúng tôi nhận thấy nhu cầu gán nhãn và thu thập dữ liệu là rất lớn, không chỉ trên thế giới mà còn ở Việt Nam. Với mức độ phát triển rất mạnh mẽ và nhanh chóng của các ứng dụng AI, định hướng phát triển đẩy mạnh ứng dụng công nghệ của CMCN 4.0 trong mọi lĩnh vực của chính phủ, nhu cầu cần có dữ liệu được gán nhãn với chất lượng cao để phát triển các bài toán AI ngày càng tăng. Tuy nhiên các công cụ gán nhãn dữ liệu trên thế giới đang phân tán và có những điểm chưa thực sự phù hợp với nhu cầu của các doanh nghiệp vừa và nhỏ đặc biệt là với các doanh nghiệp Việt Nam. Nền tảng gán nhãn và thu thập dữ liệu AI TagOn được chúng tôi phát triển dựa trên sự kết hợp của công nghệ và mô hình crowdsourcing để giải câu chuyện về tốc độ và chi phí trong gán nhãn, thu thập dữ liệu cho các doanh nghiệp phát triển AI".
Công cụ gán nhãn trên thị trường hiện nay. Nguồn: TagOn
Khác với một số công cụ gán nhãn chỉ phục vụ một số bài toán AI cụ thể, TagOn đã phát triển hơn 18 loại công cụ gán nhãn dữ liệu khác nhau, bao phủ đủ nhu cầu gán nhãn dữ liệu của bất cứ loại bài toán AI nào. Từ các bài toán AI về ảnh, video, text, audio đến các bài toán AI về LiDAR, TagOn đều có các công cụ gán nhãn phù hợp. TagOn cũng tích hợp các công nghệ vào các công cụ để tự động gán nhãn (auto labeling), tự động đánh giá chất lượng dữ liệu gán nhãn (auto scoring) rút ngắn 30% thời gian gán nhãn dữ liệu.
Giải quyết bài toán nhân sự gán nhãn dữ liệu với mô hình crowdsourcing
Giải bài toán về chi phí và tốc độ không chỉ có nền tảng công nghệ mà còn về lực lượng lao động, theo Wolfgang Kitza, CEO của Clickworker - nền tảng crowdsourcing lớn trên thế giới "Crowdsourcing đang nhanh chóng trở thành một bước không thể thay thế trong việc tối ưu hóa quy trình và quy trình công việc cho các công ty trên toàn cầu". Việc tận dụng các lợi thế của crowdsourcing như khả năng mở rộng lực lượng lao động, khả năng tận dụng lao động nhàn rỗi, khả năng làm việc từ xa, thời gian làm việc linh hoạt,... sẽ giúp các doanh nghiệp nhanh chóng giải quyết được bài toán lớn của mình trong khoảng thời gian rất ngắn.
Crowdsourcing là cách tiếp cận tối ưu việc mở rộng lực lượng lao động cho gán nhãn dữ liệu. Nguồn: Tasq
"Chúng tôi kết hợp lợi thế của công nghệ và mô hình crowdsourcing để giải bài toán gán nhãn dữ liệu AI chất lượng cao cho các doanh nghiệp phát triển AI. Mặc dù là start-up trẻ mới phát triển được hơn 1 năm nhưng TagOn đã có hơn 20 nghìn nhân sự gán nhãn (Annotator), trải dài hơn 50 tỉnh thành Việt Nam, hơn 500 dự án gán nhãn dữ liệu đang hoạt động trên nền tảng. Không chỉ có các doanh nghiệp vừa và nhỏ, các Tập đoàn lớn ở Việt Nam như Viettel, Vingroup cũng đang có các dự án gán nhãn dữ liệu AI trên nền tảng của chúng tôi. Với những hiệu quả bước đầu, tôi tin là mô hình kết hợp công nghệ và crowdsourcing của chúng tôi sẽ phát triển và giải được bài toán về chi phí cũng như thời gian cho các doanh nghiệp phát triển AI", ông Phạm Nguyên Bình, CEO TagOn, chia sẻ
Như vậy để có được nguồn dữ liệu chất lượng cao trong một khoảng thời gian ngắn để phát triển các mô hình AI các doanh nghiệp phát triển các ứng dụng AI không chỉ cần một bộ công cụ gán nhãn tốt mà còn cần một lực lượng nhân sự gán nhãn có khả năng co giãn linh hoạt, đồng thời ở một mức chi phí phù hợp. Những nền tảng gán nhãn, thu thập dữ liệu AI kết hợp công nghệ và crowdsourcing như TagOn có thể là một trong các lời giải cho bài toán dữ liệu cho công nghệ AI tại các doanh nghiệp Việt.
TagOn và những tiềm năng phát triển ngành nghề gán nhãn
Về định hướng, TagOn sẽ mở rộng thị trường ra khu vực APAC với mục tiêu hơn 150 triệu đô đến năm 2025. TagOn cũng hướng đến tạo ngành nghề mới tại Việt Nam cho hàng trăm nghìn lao động, đặc biệt là vùng nông thôn, miền núi, lao động khó khăn.
TagOn đã đạt được nhiều giải thưởng trong nước và quốc tế sau 1 năm phát triển.
Với những giải pháp đột phá, quy mô quốc tế TagOn đã vinh dự nhận huy chương đồng Startup của năm, giải thưởng Business Globee 2022. Tại Việt Nam, TagOn đạt giải thưởng Sao Khuê 2022 cho "Giải pháp ứng dụng công nghệ 4.0", Top 10 giải thưởng Make in Vietnam. Nhìn thấy tiềm năng, các quỹ đầu tư mạo hiểm trong và ngoài nước đã và đang rất quan tâm đến TagOn ở vọng Seed Fund (Vòng hạt giống).
Tagon mong muốn mở rộng đội ngũ với hơn 200 nhân sự chủ chốt và thiết lập nhiều chi nhánh khác ở Nhật Bản và Hàn Quốc.