Mô hình ngôn ngữ mới của OpenAI dựa trên nền tảng GPT-4 trước đó nhưng được mở rộng và cải tiến trong quá trình đào tạo. Mặc dù không phải là tiên tiến nhất, nhưng GPT-4.5 tự hào sở hữu nhiều kiến thức hơn, kỹ năng viết được cải thiện và tính cách tinh tế hơn so với phiên bản trước.

Theo dữ liệu chuẩn, GPT-4.5 là một bản nâng cấp khiêm tốn so với GPT-4. Trên chuẩn SWE-bench Verified, mô hình này đạt 38%, tăng từ 2-7% so với GPT-4, nhưng vẫn thấp hơn 30% so với nghiên cứu sâu dựa trên o3 của OpenAI. Để so sánh, mô hình Claude 3.7 Sonnet của Anthropic đạt hiệu suất 62,3% trên cùng chuẩn này. Trên điểm chuẩn về Độ chính xác của SimpleQA, GPT-4.5 đạt 62,5%, so với 38,2% của GPT-4. Tuy nhiên, trên điểm chuẩn Tỷ lệ ảo giác của SimpleQA, GPT-4.5 lại có điểm thấp nhất trong số các mô hình ngôn ngữ lớn của OpenAI.

Đáp ứng các chuẩn mực mới của OpenAI

Mới đây, nhóm Preparedness của OpenAI đã phát triển một chuẩn mực mới mang tên SWE-Lancer nhằm đánh giá hiệu suất của các mô hình ngôn ngữ lớn trong các tác vụ kỹ thuật phần mềm thực tế như phát triển tính năng và sửa lỗi. Trong chuẩn mực này, GPT-4.5 có thể giải quyết 20% tác vụ IC SWE và 44% tác vụ SWE Manager, cải thiện một chút so với mô hình trước đó.

Về mặt an toàn, nhóm tư vấn an toàn của OpenAI đã phân loại GPT-4.5 là có rủi ro trung bình, với điểm số thấp trong các lĩnh vực an ninh mạng và tính tự chủ của mô hình.

Người dùng ChatGPT Pro hiện đã có thể trải nghiệm bản xem trước của mô hình GPT-4.5 thông qua trình chọn mô hình trên web, thiết bị di động và máy tính để bàn. Mô hình này hỗ trợ tìm kiếm, tải tệp, hình ảnh và các tính năng canvas trên ChatGPT. Các tính năng đa phương thức như Voice Mode, video và chia sẻ màn hình sẽ được bổ sung trong tương lai.

GPT-4.5 sẽ chính thức có mặt vào tuần tới cho người dùng ChatGPT Plus và Teams, cũng như cho tất cả các nhà phát triển trả phí thông qua API Chat Completions, API Assistants và API Batch, với các tính năng nổi bật như gọi hàm, Structured Outputs, Streaming và tin nhắn hệ thống.