Mô hình Images 2.0 mới của ChatGPT có khả năng tạo văn bản tốt đến kinh ngạc

Trước đây, việc phân biệt giữa hình ảnh do con người tạo ra và hình ảnh do AI tạo ra khá dễ dàng — chỉ mới hai năm trước, bạn không thể dùng các mô hình hình ảnh để tạo thực đơn cho một nhà hàng Mexico mà không làm xuất hiện những "món ăn mới lạ" như “enchuita,” “churiros,” “burrto,” và “margartas.”

Giờ đây, khi tôi yêu cầu mô hình ChatGPT Images 2.0 hoàn toàn mới thiết kế một thực đơn món ăn Mexico, nó tạo ra một sản phẩm có thể sử dụng ngay lập tức trong nhà hàng mà khách hàng không hề nhận ra có điều gì bất thường. (Tuy nhiên, món gỏi cá ceviche có giá 13,50 USD có thể khiến tôi hơi nghi ngờ về chất lượng cá.)

Để so sánh, đây là kết quả tôi nhận được từ DALL-E 3 vào hai năm trước (vào thời điểm đó, ChatGPT chưa trực tiếp tạo ra hình ảnh):

(Nguồn ảnh: Microsoft Designer - DALL-E 3)

Các trình tạo ảnh AI trong lịch sử thường gặp khó khăn với việc viết đúng chính tả vì chúng thường sử dụng mô hình khuếch tán (diffusion models), vốn hoạt động bằng cách tái tạo hình ảnh từ nhiễu kỹ thuật số.

"Các mô hình khuếch tán [...] đang tái tạo lại một đầu vào nhất định," Asmelash Teka Hadgu, người sáng lập và CEO của Lesan AI, chia sẻ với TechCrunch vào năm 2024. "Chúng ta có thể hiểu rằng các chữ viết trên một bức ảnh chiếm một phần cực kỳ nhỏ, vì vậy trình tạo ảnh sẽ học các hoa văn bao phủ nhiều điểm ảnh (pixel) hơn."

Kể từ đó, các nhà nghiên cứu đã khám phá những cơ chế khác để tạo ảnh, chẳng hạn như mô hình tự hồi quy (autoregressive models) — vốn đưa ra dự đoán về hình dáng của một bức ảnh và hoạt động giống với các mô hình ngôn ngữ lớn (LLM) hơn. Đáng tiếc là OpenAI đã từ chối trả lời câu hỏi trong buổi họp báo tuần này về việc loại mô hình nào đang vận hành ChatGPT Images 2.0.

Tuy nhiên, công ty giải thích rằng mô hình mới có "khả năng suy luận" (thinking capabilities), giúp nó có thể tìm kiếm thông tin trên web, tạo nhiều hình ảnh từ một câu lệnh duy nhất và tự kiểm tra lại các sản phẩm của mình. Điều này cho phép Images 2.0 tạo ra các tài liệu marketing với nhiều kích thước khác nhau, cũng như các dải truyện tranh nhiều khung hình.

OpenAI cũng cho biết Images có khả năng hiểu rõ hơn việc hiển thị văn bản không thuộc hệ chữ Latinh như tiếng Nhật, tiếng Hàn, tiếng Hindi và tiếng Bengali. Dữ liệu tri thức của mô hình này bị giới hạn đến tháng 12 năm 2025, điều này có thể ảnh hưởng đến độ chính xác khi tạo các hình ảnh liên quan đến các tin tức sự kiện mới xảy ra gần đây.

"Images 2.0 mang lại mức độ chi tiết và độ trung thực chưa từng có cho việc tạo ảnh. Nó không chỉ có thể hình tượng hóa các hình ảnh phức tạp hơn mà còn thực sự hiện thực hóa tầm nhìn đó một cách hiệu quả, có khả năng tuân thủ các hướng dẫn, bảo toàn các chi tiết được yêu cầu và hiển thị các yếu tố nhỏ nhặt thường làm khó các mô hình hình ảnh: văn bản nhỏ, hệ thống biểu tượng, các yếu tố giao diện người dùng (UI), bố cục dày đặc và các ràng buộc phong cách tinh tế, tất cả đều ở độ phân giải lên đến 2K," OpenAI tuyên bố trong một thông cáo báo chí.

Những khả năng này đồng nghĩa với việc quá trình tạo ảnh sẽ không diễn ra nhanh chóng như khi bạn đặt câu hỏi cho ChatGPT, nhưng việc tạo ra một thứ phức tạp như truyện tranh nhiều khung hình cũng chỉ mất vài phút.

Tất cả người dùng ChatGPT và Codex sẽ có thể truy cập Images 2.0 bắt đầu từ thứ Ba tới; người dùng trả phí sẽ có thể tạo ra các kết quả đầu ra nâng cao hơn. Công ty cũng sẽ cung cấp API gpt-image-2, với mức giá phụ thuộc vào chất lượng và độ phân giải của sản phẩm.

Source : https://techcrunch.com/2026/04/21/chatgpts-new-images-2-0-model-is-surprisingly-good-at-generating-text/