Công ty Figure của Mỹ vừa công bố một bước tiến quan trọng trong lĩnh vực robot hình người, với việc giới thiệu mô hình Helix - hệ thống trí tuệ nhân tạo dạng Vision - Language - Action (VLA) có khả năng kết hợp nhận thức thị giác, hiểu ngôn ngữ và điều khiển hành động. Trong một video trình diễn mới, robot được Helix điều khiển đã thực hiện nhiệm vụ gấp khăn tắm một cách cẩn thận, xếp gọn từng chiếc vào giỏ, cho thấy khả năng thích ứng và độ khéo léo gần giống con người.

Helix được thiết kế để khắc phục những hạn chế lâu nay của robot, vốn thường gặp khó khăn khi chuyển sang công việc mới và cần lập trình phức tạp hoặc huấn luyện lặp lại nhiều lần. Mô hình này cho phép robot nhận lệnh bằng ngôn ngữ tự nhiên và tự điều chỉnh hành động khi gặp tình huống hoặc vật thể chưa từng xử lý trước đó.

Trong video, robot Figure 02 tiếp cận đống khăn với sự thận trọng, nhặt từng chiếc một, vuốt phẳng tương đối và gấp lại thành hình gọn gàng. Dù động tác chưa hoàn toàn hoàn hảo và đôi khi cần chỉnh lại nếp gấp, robot vẫn thể hiện được khả năng duy trì sự chính xác và tập trung vào hoàn thành nhiệm vụ. Các chuyển động của cổ tay, thân trên, đầu và từng ngón tay diễn ra liên tục và linh hoạt, tạo cảm giác tự nhiên hơn so với kiểu vận động cứng nhắc thường thấy ở robot.

Một điểm nổi bật khác của Helix là khả năng phối hợp nhiều robot cùng lúc. Hệ thống có thể vận hành đồng thời trên hai robot để thực hiện các nhiệm vụ chung dài hạn, ngay cả khi đối mặt với các vật thể lạ. Helix dùng chung một bộ trọng số mạng nơ-ron cho nhiều hành vi khác nhau như gắp và đặt đồ, mở ngăn kéo, đóng mở tủ lạnh hay tương tác giữa các robot, giúp loại bỏ nhu cầu tinh chỉnh riêng cho từng tác vụ. Cách tiếp cận học thống nhất này vừa rút ngắn thời gian phát triển vừa mở rộng tính đa năng.

Helix hoạt động hoàn toàn trên các GPU nhúng tiêu thụ điện năng thấp, được tối ưu để triển khai trong môi trường thực tế, đảm bảo hiệu quả và tính ứng dụng thương mại. Sự kết hợp giữa khả năng điều khiển tinh tế, tính thích ứng cao và hiệu suất năng lượng tốt đã giúp Helix đặt ra tiêu chuẩn mới cho năng lực của robot hình người trong những môi trường phức tạp hàng ngày.

Ngoài gấp quần áo, robot này còn có thể làm được 1 số việc nhà khác.

Về cấu trúc, Helix được xây dựng dựa trên hai thành phần chính. Hệ thống 1 (S1) là chính sách thị giác - vận động tốc độ cao, đảm nhiệm việc chuyển đổi kết quả phân tích của Hệ thống 2 thành hành động thực tế trong thời gian thực. Hệ thống 2 (S2) là mô hình VLM được huấn luyện trước trên dữ liệu internet, có tốc độ xử lý chậm hơn nhưng đảm nhận vai trò hiểu ngôn ngữ và nhận diện bối cảnh. S2 chịu trách nhiệm cho các suy luận phức tạp, trong khi S1 đảm bảo hành động chính xác và kịp thời.

Theo Figure, sự phân tách này giúp Helix giải quyết được những thách thức lớn của ngành robot, bao gồm cân bằng giữa tốc độ và khả năng tổng quát hóa, xử lý các hành động đa chiều phức tạp và duy trì cấu trúc hệ thống đơn giản với các mô hình chuẩn. Helix được kỳ vọng sẽ mở ra kỷ nguyên mới cho robot hình người, có thể đảm nhận nhiều công việc gia dụng và công nghiệp đòi hỏi sự linh hoạt mà trước đây vốn chỉ con người mới làm được.