Chân dung các nhà vô địch Zalo AI Challenge 2023
Không chỉ "săn" giải thưởng, Zalo AI Challenge còn là cơ hội để các đội thi cọ sát, học hỏi kinh nghiệm và tiếp nhận xu hướng, góc nhìn mới về trí tuệ nhân tạo.
Khởi động từ tháng 11, Zalo AI Challenge 2023 thu hút hơn 1.000 đội thi. Sau hơn một tháng tranh tài, các giải pháp tối ưu đã được vinh danh tại Zalo AI Summit 2023. Bên cạnh phần thưởng xứng đáng, giá trị cuộc thi còn đến từ cơ hội cạnh tranh, nghiên cứu và học hỏi kinh nghiệm.
Nhờ kinh nghiệm trong học tập, làm việc và niềm đam mê nghiên cứu, Nguyễn Hữu Thắng, Trần Hậu Tuấn (đội T-Sharp) và Hoàng Hào Quang (đội Berlin) đã có những trải nghiệm đáng nhớ, và làm giàu "bộ sưu tập" thành tích của bản thân với ngôi vị Quán quân.
Lần đầu đi thi đã "ẵm" top 1
"Đây là cơ hội để chúng mình học hỏi và phát triển thêm kinh nghiệm. Khi nâng chiếc cúp danh giá, cả nhóm rất vui và tự hào vì không nghĩ có thể giành top 1 chung cuộc", đại diện nhóm T-Sharp, quán quân bộ đề thi Advertising Banner Generation (Tạo banner quảng cáo) chia sẻ.
T-Sharp gồm 2 thành viên: Nguyễn Hữu Thắng và Trần Hậu Tuấn. Cả 2 là bạn cùng lớp, cựu sinh viên khoa Khoa học và Kỹ thuật Máy tính, Trường Đại học Bách khoa TP.HCM. Trong khi Hữu Thắng đang là Kỹ sư AI tại Viettel AI, Hậu Tuấn từng có thời gian công tác tại Next Robotics với vị trí Kỹ sư AI, mảng thị giác máy tính.
Hai thành viên của đội T-Sharp.
"Trong quá trình học đại học, mình được tham gia rất nhiều hội thảo về mảng AI do các thầy trong khoa tổ chức. Cảm thấy hứng thú với khả năng và tương lai phát triển của AI, mình quyết định theo đuổi lĩnh vực này", Hữu Thắng chia sẻ.
Nhờ gợi ý từ một số người bạn, Thắng và Tuấn rủ nhau tham gia Zalo AI Challenge. Đây cũng là lần đầu cả 2 "chinh chiến" trong một cuộc thi thực tế về AI. Với kinh nghiệm làm việc, Thắng và Tuấn chọn đề thi Advertising Banner Generation.
"Chúng mình đều đã và đang làm việc trong lĩnh vực liên quan nhiều đến hình ảnh, do đó quyết định tập trung vào bảng tạo sinh hình ảnh để phát huy thế mạnh", đại diện nhóm cho biết.
Giải pháp dự thi của đội T-Sharp.
Với bộ đề này, các đội thi được yêu cầu xây dựng mô hình AI để thiết kế ấn phẩm quảng cáo dạng banner dựa trên mô tả bằng tiếng Việt. Không chỉ tạo ra banner, mô hình cần đủ thông minh để ấn phẩm đạt yêu cầu về sáng tạo, thu hút người xem.
Giải pháp của T-Sharp tập trung vào 2 hướng chính. Đầu tiên, nhóm kết hợp các mô hình tiền huấn luyện (pre-trained) gồm Qwen-7B để xây dựng câu lệnh (prompt builder), và Kandinsky 2.0 để tạo ảnh từ câu lệnh đã xây dựng (image generator). Tiếp theo, nhóm tìm cách tối ưu thuật toán xử lý ảnh để tăng chất lượng cho ấn phẩm và điểm đánh giá.
"Do phải đi làm tại công ty, nhóm dành chủ yếu thời gian vào cuối tuần và buổi tối để xây dựng giải pháp. Chúng mình liên tục thử nghiệm và chạy báo cáo 2-3 ngày/lần. Mỗi thành viên đều có đóng góp gần như bằng nhau trong từng hướng tiếp cận", đại diện nhóm chia sẻ.
Đánh giá về giải pháp của T-Sharp, thành viên ban cố vấn cho biết các mô hình đều được tinh chỉnh (fine-tuning) cho tiếng Việt. Hướng tiếp cận này có tính ứng dụng thiết thực và khả năng mở rộng quy mô.
Chia sẻ về cuộc thi, T-Sharp cho biết: "Đây là dịp hiếm hoi để chúng mình có cơ hội thi đấu cùng những đội khác. 3 chủ đề của cuộc thi năm nay rất thú vị, phù hợp với xu hướng phát triển của AI hiện nay".
Đại diện quán quân các bảng tại Zalo AI Challenge 2023. Ảnh: Zalo.
Giữa một rừng tài năng, Hữu Thắng và Hậu Tuấn đã vượt qua nhiều đối thủ, giành chiến thắng bảng thi Advertising Banner Generation.
Nói về định hướng trong tương lai, các thành viên của T-Sharp cho biết sẽ sử dụng phần thưởng là card đồ họa từ nhà tài trợ Intel và LeadTek để phát triển giải pháp theo hướng mã nguồn mở, giúp các nhà bán hàng tự tạo banner quảng cáo theo nhu cầu. Mã nguồn của mô hình sẽ sớm được công bố trên GitHub.
"Hy vọng cuộc thi sẽ là bước đệm cho nhóm để có những đóng góp giá trị trong lĩnh vực AI tại Việt Nam", đại diện nhóm chia sẻ.
"Zalo AI Challenge là cuộc thi rất thực tế. Khi tham gia, các bạn sẽ có thêm nhiều kinh nghiệm quý giá" là lời nhắn của nhóm T-Sharp cho các đội dự định tham gia mùa tiếp theo.
Chiến lược bứt phá ngoạn mục
Tham gia với tên đội Berlin, Hoàng Hào Quang (24 tuổi) là quán quân bảng thi Background Music Generation (Tạo nhạc nền). Các đội được yêu cầu xây dựng mô hình AI để nhận mô tả bằng tiếng Anh, sau đó tạo nhạc nền dài 10 giây.
Là kỹ sư phần mềm tại một công ty thương mại điện tử, công việc của Hào Quang hầu như không áp dụng AI nhiều. Tuy nhiên, anh vẫn có sở thích nghiên cứu các lĩnh vực mới, bao gồm AI để có thêm kiến thức và bắt kịp xu hướng.
Hào Quang cho biết lý do dự thi bảng Background Music Generation một phần do bản thân có sẵn kiến thức nền về âm thanh, xử lý giọng nói khi còn học đại học, một phần bởi đây là lĩnh vực chưa thực sự phổ biến.
"So với đề bài tạo sinh hình ảnh hay xử lý ngôn ngữ tự nhiên, tạo sinh âm nhạc không phổ biến bằng. Đó là cơ hội để mình tìm ra giải pháp cải tiến, nhằm đạt kết quả tốt", Hào Quang nói thêm.
Các điểm mạnh trong mô hình của nhóm Berlin (phải) do ban cố vấn đánh giá. Ảnh: Zalo.
Giải pháp của nhóm được xây dựng chủ yếu dựa trên các mô hình đã công bố, gồm mô hình nén file âm thanh EnCodec, mô hình xử lý ngôn ngữ tự nhiên tiền huấn luyện T5, sau đó triển khai và tìm cách cải tiến để đạt kết quả tốt nhất.
Trong quá trình xây dựng, nhóm gặp một số thách thức về tài nguyên tính toán. Theo Hào Quang, các mô hình tạo sinh tốn rất nhiều tài nguyên như RAM hay GPU.
"Để tăng tốc quá trình huấn luyện, mình phải tối ưu kích thước mô hình về nhỏ nhất, đồng thời sử dụng cloud computing để giảm thiểu chi phí huấn luyện", đại diện nhóm Berlin chia sẻ.
Thành viên ban cố vấn phụ trách bộ đề cho biết điểm đặc biệt trong giải pháp của nhóm Berlin là lọc triệt để các từ không quan trọng, đồng thời tinh chỉnh mô hình EnCodec để tăng hiệu quả.
Với kinh nghiệm "lận lưng" khi lọt top 3 trong 2 lần tham gia trước, Hào Quang đã thủ sẵn chiến thuật để cạnh tranh trước đối thủ.
"Việc từng tham gia cuộc thi giúp mình nắm bắt format, chủ động hơn trong quá trình chuẩn bị giải pháp, đặc biệt tránh những sai sót đã mắc phải như overfitting (mô hình quá khớp dữ liệu) hay performance", Hào Quang nói thêm.
Điều thú vị của Zalo AI Challenge là bảng xếp hạng công khai, được cập nhật thời gian thực theo thể thức Kaggle. Tại đây, các đội có thể liên tục cập nhật điểm số, thứ hạng bản thân và đối thủ để điều chỉnh chiến thuật.
Chỉ xếp thứ 38 trên bảng xếp hạng vòng công khai (public test), nhưng Hào Quang đã có chiến lược để "bứt phá" lên top 1 trong bảng xếp hạng chung cuộc.
"Trong quá trình đánh giá giải pháp và lựa chọn mô hình, mình tự xây dựng các thang đo riêng để đánh giá hiệu quả giải pháp.
Mình chỉ xem bảng xếp hạng công khai là tiêu chí phụ để lựa chọn giải pháp, tránh xảy ra tình trạng overfitting, khi thứ hạng trên bảng công khai rất cao nhưng kết quả vòng private lại không tốt", Hào Quang chia sẻ.
Hào Quang là một trong những thí sinh tham gia theo nhóm đơn. Anh đã có những chia sẻ cho thí sinh muốn "solo" tại cuộc thi.
"Lợi thế lớn nhất khi tham gia một mình là bạn được thoải mái đưa ra quyết định, nhưng đó cũng là bất lợi khi quyết định của bạn thiếu sự đánh giá của các thành viên khác. Do đó khi tham gia solo, phân tích kỹ lưỡng trước mọi quyết định là rất cần thiết", Hào Quang nhấn mạnh.
Kết quả chung cuộc bảng thi Background Music Generation (điểm cao hơn là tốt hơn).
Qua nhiều mùa tổ chức, Zalo AI Challenge đã trở thành sân chơi thường niên uy tín, chuyên nghiệp cho cộng đồng nghiên cứu, phát triển AI tại Việt Nam.
"Đây là lần thứ 3 mình tham gia tranh tài. Vẫn như mọi năm, cuộc thi luôn được đầu tư rất tốt, về mặt chuyên môn lẫn cách tổ chức.
Xuyên suốt các năm, chủ đề cuộc thi luôn đổi mới tuy nhiên vẫn được định hướng rõ ràng thành 3 topic chính: xử lý ngôn ngữ tự nhiên (NLP), thị giác máy tính (computer vision) và âm thanh (audio). Đề bài các năm luôn mới mẻ, thú vị mà lại quen thuộc", Hào Quang nói thêm.
Sau thành công tại cuộc thi, Hào Quang cho biết sẽ tiếp tục nghiên cứu, tìm hiểu nhiều hơn để có thể tìm kiếm một số cơ hội trong lĩnh vực đầy hứa hẹn như AI.
Tổ Quốc