OpenAI ra mắt API giọng nói mới
GPT-Realtime-2, model mới nhất trong bộ ba, được tích hợp khả năng suy luận tương đương GPT-5 và tính phí theo token thay vì theo phút.
- 09-05-2026Giới khoa học liệu có sắp bị "khai tử" bởi startup AI 4 tháng tuổi định giá 4 tỷ USD?
- 09-05-2026Lương 250 triệu/tháng vẫn chưa là gì: Những ngành này đang khiến các ông lớn công nghệ phát cuồng, 7 công ty giành giật 1 nhân sự
- 09-05-2026Thuyết âm mưu đang dần thành sự thật, có đến 35% website mới là do AI tạo ra
OpenAI vừa công bố ba tính năng giọng nói mới trong bộ API của mình, hướng tới lập trình viên muốn xây dựng ứng dụng có khả năng trò chuyện, dịch thuật và phiên âm theo thời gian thực.
GPT-Realtime-2: Giọng nói với khả năng suy luận mạnh hơn
Model mới nhất mang tên GPT-Realtime-2 được thiết kế để tạo ra giọng nói tự nhiên có thể trò chuyện trực tiếp với người dùng. Điểm khác biệt so với phiên bản trước là GPT-Realtime-1.5, model này được tích hợp khả năng suy luận tương đương GPT-5, tức là xử lý được những yêu cầu phức tạp hơn, không chỉ trả lời đơn giản theo kịch bản có sẵn.
Dịch đồng thời hơn 70 ngôn ngữ
GPT-Realtime-Translate là tính năng dịch thuật theo thời gian thực, được thiết kế để bắt kịp tốc độ hội thoại tự nhiên của người dùng. Tính năng này hỗ trợ hơn 70 ngôn ngữ đầu vào, tức là các ngôn ngữ mà hệ thống có thể nghe và hiểu, và 13 ngôn ngữ đầu ra, tức là các ngôn ngữ được dịch lại cho người nghe.
Phiên âm trực tiếp trong lúc nói chuyện
GPT-Realtime-Whisper mang đến khả năng chuyển giọng nói thành văn bản ngay trong lúc cuộc trò chuyện diễn ra, không cần chờ đến khi kết thúc. Tính năng này phù hợp cho các trường hợp cần ghi lại nội dung hội thoại theo thời gian thực.
"Những model chúng tôi ra mắt lần này đưa âm thanh thời gian thực vượt qua mô hình hỏi-đáp đơn thuần, hướng tới giao diện giọng nói thực sự có thể làm việc: lắng nghe, suy luận, dịch thuật, phiên âm và thực hiện hành động trong suốt cuộc trò chuyện", OpenAI cho biết.
Đối tượng sử dụng và vấn đề bảo mật
Doanh nghiệp muốn mở rộng khả năng hỗ trợ dịch vụ khách hàng là nhóm đối tượng rõ ràng nhất. OpenAI cũng chỉ ra rằng các tính năng mới còn phù hợp với nhiều lĩnh vực khác như giáo dục, truyền thông, sự kiện trực tiếp và các nền tảng sáng tạo nội dung.
Về nguy cơ lạm dụng, OpenAI cho biết đã tích hợp các cơ chế bảo vệ để ngăn tính năng bị sử dụng vào mục đích gửi tin rác, lừa đảo hay các hình thức lạm dụng trực tuyến khác. Hệ thống có thể tự động ngắt cuộc trò chuyện khi phát hiện nội dung vi phạm chính sách.
Cả ba model đều nằm trong bộ Realtime API của OpenAI. GPT-Realtime-Translate và GPT-Realtime-Whisper tính phí theo số phút sử dụng, trong khi GPT-Realtime-2 tính phí theo lượng token tiêu thụ.
Thanh niên Việt