Huấn luyện các mô hình ngôn ngữ lớn đang trở thành một trong những hoạt động tốn kém nhất trong lĩnh vực AI hiện nay. Chi phí không chỉ nằm ở số lượng GPU được triển khai, mà còn ở cách khai thác hiệu suất của chúng. Khi quy mô mô hình ngày càng mở rộng, những điểm nghẽn nhỏ trong vận hành cũng có thể biến thành tổn thất lớn về thời gian và năng lượng.

Một nhóm nghiên cứu từ MIT, phối hợp cùng các cộng sự bao gồm NVidia, cho biết đã tìm ra một phương pháp thực tế nhằm thu hồi phần năng lực tính toán đang bị lãng phí trong quá trình huấn luyện. Theo kết quả công bố, giải pháp này có thể rút ngắn gần một nửa tổng thời gian đào tạo trong nhiều trường hợp.

Vấn đề mà nhóm nhắm tới xuất hiện trong giai đoạn reinforcement learning, cụ thể là bước "rollout". Đây là quá trình mô hình tạo ra nhiều phản hồi ứng viên để đánh giá và học cách tối ưu hành vi. Với các mô hình ngôn ngữ lớn tập trung vào khả năng suy luận, rollout là thành phần không thể thiếu, nhưng cũng là khâu tiêu tốn nhiều tài nguyên nhất.

Trên thực tế, giai đoạn này có thể chiếm tới 85% tổng thời gian thực thi. Nguyên nhân đến từ hiện tượng "phân phối đuôi dài" về độ dài phản hồi. Phần lớn câu trả lời được tạo ra khá nhanh, nhưng một số ít lại kéo dài vượt trội. Do GPU phải đồng bộ hóa, các GPU hoàn tất sớm buộc phải chờ những tác vụ chậm hơn, tạo ra khoảng thời gian nhàn rỗi không được tận dụng.

Giải pháp mà nhóm MIT đề xuất mang tên Taming the Long Tail, viết tắt là TLT, được thiết kế để xử lý trực diện sự lãng phí này. Thay vì để GPU nhàn rỗi trong lúc chờ các tác vụ kéo dài, hệ thống tận dụng chính khoảng thời gian đó để huấn luyện một mô hình "nháp" nhẹ hơn theo thời gian thực. Mô hình phụ này liên tục học từ mô hình chính trong suốt quá trình đào tạo.

Cách tiếp cận này dựa trên kỹ thuật speculative decoding, nơi một mô hình nhỏ dự đoán trước các token để mô hình chính có thể xác thực song song nhiều token cùng lúc. Tuy nhiên, trong các phương pháp truyền thống, mô hình nháp thường cố định và nhanh chóng lỗi thời khi mô hình chính tiếp tục thay đổi trong quá trình reinforcement learning.

TLT thay đổi điều đó bằng cách tái huấn luyện mô hình nháp một cách cơ hội, sử dụng đúng phần tài nguyên vốn đang bị bỏ trống. Nhờ vậy, mô hình phụ luôn duy trì sự đồng bộ với mô hình chính mà không cần bổ sung thêm hạ tầng tính toán riêng biệt.

Thử nghiệm trên nhiều mô hình ngôn ngữ tập trung vào suy luận và các bộ dữ liệu thực tế cho thấy kết quả đáng chú ý. Nhóm nghiên cứu ghi nhận mức tăng tốc huấn luyện toàn trình từ 70% đến 210% so với các phương pháp nền tảng mạnh, đồng nghĩa trong nhiều tình huống, tốc độ đào tạo gần như được nhân đôi. Quan trọng hơn, độ chính xác của mô hình không bị ảnh hưởng.

Một lợi ích phụ cũng được ghi nhận là chính mô hình nháp được huấn luyện liên tục này có thể trở thành một sản phẩm hữu ích. Do được đào tạo song song với mô hình chính, nó có thể đóng vai trò như một mô hình suy luận hiệu quả trong một số bối cảnh nhất định.

Nghiên cứu này phản ánh xu hướng đáng chú ý trong ngành AI hiện nay: tối ưu hóa thay vì chỉ mở rộng quy mô phần cứng. Thay vì liên tục bổ sung thêm cụm máy chủ, các nhà nghiên cứu đang tìm cách khai thác tối đa hiệu suất từ hạ tầng sẵn có.

Nếu những phương pháp như TLT chứng minh được độ ổn định ở quy mô công nghiệp lớn, tác động có thể không chỉ dừng ở hiệu năng mà còn giúp giảm đáng kể chi phí tài chính và tác động môi trường khi huấn luyện các mô hình suy luận thế hệ mới.