Công nghệ

OpenAI ra mắt mô hình tạo ảnh ChatGPT Images 2

Vũ Ánh

OpenAI vừa chính thức giới thiệu mô hình tạo ảnh mới mang tên ChatGPT Images 2.0, đánh dấu bước tiến lớn trong khả năng tạo hình ảnh bằng trí tuệ nhân tạo.

Cách đây khoảng hai năm, việc phân biệt hình ảnh do con người tạo ra và do AI tạo ra khá dễ dàng vì các mô hình vẫn thường xuyên “lỗi” khi tạo nội dung, điển hình như thực đơn nhà hàng Mexico với những món bị biến tấu sai chính tả như “enchuita”, “churiros”, “burrto” hay “margartas”.

Tuy nhiên, hiện nay, với mô hình ChatGPT Images 2.0 mới, trải nghiệm đã thay đổi rõ rệt. Khi được yêu cầu tạo một thực đơn món Mexico, hệ thống có thể tạo ra một sản phẩm đủ hoàn chỉnh để dùng ngay trong nhà hàng mà khách hàng khó nhận ra điều gì bất thường.

OpenAI ra mắt mô hình tạo ảnh ChatGPT Images 2. Ảnh: Tech Crunch
OpenAI ra mắt mô hình tạo ảnh ChatGPT Images 2. Ảnh: Tech Crunch

Các công cụ tạo ảnh AI trước đây thường gặp khó khăn trong việc hiển thị chữ đúng chính tả, vì chúng chủ yếu sử dụng mô hình khuếch tán (diffusion models), hoạt động bằng cách tái tạo hình ảnh từ nhiễu.

“Các mô hình diffusion thực chất là tái tạo lại một đầu vào nhất định. Có thể hiểu rằng phần chữ trong ảnh chỉ là một phần rất nhỏ, nên mô hình sẽ học các mẫu chiếm nhiều pixel hơn”, ông Asmelash Teka Hadgu, nhà sáng lập kiêm CEO của Lesan AI, chia sẻ với TechCrunch năm 2024. 

Từ đó đến nay, các nhà nghiên cứu đã thử nghiệm những cơ chế tạo ảnh khác như mô hình autoregressive, vốn dự đoán hình ảnh sẽ trông như thế nào và hoạt động gần giống các mô hình ngôn ngữ lớn (LLM).

Ảnh được tạo ra từ ChatGPT Images 2.0. Ảnh: ChatGPT Images 2.0
Ảnh được tạo ra từ ChatGPT Images 2.0. Ảnh: ChatGPT Images 2.0

Tuy nhiên, OpenAI vẫn chưa tiết lộ cụ thể kiến trúc mô hình đứng sau Images 2.0 trong buổi họp báo gần đây. Dù vậy, công ty cho biết mô hình mới có khả năng suy luận, cho phép nó tìm kiếm trên web, tạo nhiều ảnh từ một prompt và tự kiểm tra lại kết quả. Nhờ đó, Images 2.0 có thể tạo ra các ấn phẩm marketing với nhiều kích thước khác nhau, cũng như truyện tranh nhiều khung.

OpenAI cũng cho biết Images có khả năng hiểu tốt hơn cách hiển thị chữ không phải Latin trong các ngôn ngữ như tiếng Nhật, Hàn, Hindi và Bengali. Kiến thức của mô hình được cập nhật đến tháng 12/2025, điều này có thể ảnh hưởng đến độ chính xác khi tạo nội dung liên quan đến tin tức gần đây.

Ảnh được tạo ra từ DALL-E 3 cách đây hai năm. Ảnh: Microsoft Designer (DALL-E 3)
Ảnh được tạo ra từ DALL-E 3 cách đây hai năm. Ảnh: Microsoft Designer (DALL-E 3)

“Images 2.0 mang lại mức độ chính xác và chi tiết chưa từng có trong việc tạo hình ảnh. Nó không chỉ có thể hình dung ra những hình ảnh phức tạp hơn, mà còn hiện thực hóa chúng hiệu quả, tuân thủ hướng dẫn, giữ nguyên chi tiết yêu cầu và thể hiện tốt các yếu tố tinh vi vốn thường khiến mô hình gặp khó khăn: chữ nhỏ, biểu tượng, giao diện người dùng, bố cục dày đặc và các ràng buộc phong cách tinh tế, tất cả ở độ phân giải lên đến 2K”, OpenAI cho biết trong thông cáo báo chí.

Những khả năng này khiến việc tạo ảnh không còn nhanh như gõ một câu hỏi vào ChatGPT, nhưng việc tạo nội dung phức tạp như truyện tranh nhiều khung vẫn chỉ mất vài phút.

Tất cả người dùng ChatGPT và Codex sẽ được truy cập Images 2.0 từ 21/04; người dùng trả phí sẽ có khả năng tạo đầu ra nâng cao hơn. Công ty cũng sẽ cung cấp API gpt-image-2 với mức giá phụ thuộc vào chất lượng và độ phân giải đầu ra.

Chia sẻ FacebookChia sẻ

Bài viết

Vũ Ánh

ĐƯỢC QUAN TÂM

TIN MỚI