Công nghệ

OpenAI ra mắt các tính năng trí tuệ giọng nói mới

Vũ Ánh

OpenAI giới thiệu loạt công cụ âm thanh AI, cho phép dịch thuật và chuyển giọng nói thành văn bản theo thời gian thực.

Mô hình mới mang tên GPT‑Realtime‑2 là một mô hình giọng nói được thiết kế để tạo ra khả năng mô phỏng giọng nói chân thực, có thể trò chuyện trực tiếp với người dùng. Tuy nhiên, khác với phiên bản tiền nhiệm GPT-Realtime-1.5, mô hình mới được tích hợp năng lực suy luận thuộc lớp GPT-5. Theo OpenAI, điều này giúp hệ thống xử lý tốt hơn các yêu cầu phức tạp từ người dùng.

OpenAI ra mắt các tính năng trí tuệ giọng nói mới. Ảnh: TechCrunch
OpenAI ra mắt các tính năng trí tuệ giọng nói mới. Ảnh: TechCrunch

Công ty cũng ra mắt GPT‑Realtime‑Translate, được thiết kế để cung cấp dịch vụ dịch thuật theo thời gian thực, có khả năng “theo kịp” người dùng trong hội thoại. Tính năng này hỗ trợ hơn 70 ngôn ngữ đầu vào (các ngôn ngữ hệ thống có thể hiểu) và 13 ngôn ngữ đầu ra (các ngôn ngữ được chuyển tải lại cho người nghe).

Cuối cùng, OpenAI cũng giới thiệu khả năng phiên âm mới mang tên GPT‑Realtime‑Whisper, cho phép chuyển lời nói thành văn bản trực tiếp theo thời gian thực khi cuộc trò chuyện diễn ra.

“Những mô hình mà chúng tôi ra mắt đang đưa âm thanh thời gian thực vượt khỏi hình thức hỏi - đáp đơn giản để tiến tới các giao diện giọng nói thực sự có thể làm việc: lắng nghe, suy luận, dịch thuật, phiên âm và thực hiện hành động khi cuộc trò chuyện diễn ra”, công ty cho biết.

Những cập nhật mới được kỳ vọng đặc biệt hữu ích với các doanh nghiệp muốn nâng cao năng lực chăm sóc khách hàng. Tuy nhiên, OpenAI cũng cho biết các tính năng mới sẽ hỗ trợ nhiều lĩnh vực khác như giáo dục, truyền thông, sự kiện và các nền tảng dành cho nhà sáng tạo nội dung.

Dù các công cụ này được đánh giá hữu ích với doanh nghiệp, vẫn có khả năng chúng bị lạm dụng. OpenAI cho biết hãng đã xây dựng các lớp bảo vệ nhằm ngăn tính năng mới bị sử dụng để tạo thư rác, lừa đảo hoặc các hình thức lạm dụng trực tuyến khác. Một số cơ chế kích hoạt cũng được tích hợp để dừng các cuộc hội thoại nếu bị phát hiện vi phạm nguyên tắc nội dung gây hại.

Toàn bộ các mô hình giọng nói mới đều được tích hợp trong Realtime API của OpenAI. Trong đó, Translate và Whisper được tính phí theo phút sử dụng, còn GPT-Realtime-2 được tính phí dựa trên lượng token tiêu thụ.

Chia sẻ FacebookChia sẻ

Bài viết

Vũ Ánh

ĐƯỢC QUAN TÂM

TIN MỚI