Tui Mua Bán Trang Chủ Market

Mô hình Images 2.0 mới của ChatGPT có khả năng tạo văn bản tốt đến kinh ngạc

Trước đây, việc phân biệt giữa hình ảnh do con người tạo ra và hình ảnh do AI tạo ra khá dễ dàng — chỉ mới hai năm trước, bạn không thể dùng các mô hình hình ảnh để tạo thực đơn cho một nhà hàng Mexico mà không làm xuất hiện những "món ăn mới lạ" như “enchuita,” “churiros,” “burrto,” và “margartas.”
Mô hình Images 2.0 mới của ChatGPT có khả năng tạo văn bản tốt đến kinh ngạc
Giờ đây, khi tôi yêu cầu mô hình ChatGPT Images 2.0 hoàn toàn mới thiết kế một thực đơn món ăn Mexico, nó tạo ra một sản phẩm có thể sử dụng ngay lập tức trong nhà hàng mà khách hàng không hề nhận ra có điều gì bất thường. (Tuy nhiên, món gỏi cá ceviche có giá 13,50 USD có thể khiến tôi hơi nghi ngờ về chất lượng cá.)
Mô hình Images 2.0 mới của ChatGPT có khả năng tạo văn bản tốt đến kinh ngạc
Để so sánh, đây là kết quả tôi nhận được từ DALL-E 3 vào hai năm trước (vào thời điểm đó, ChatGPT chưa trực tiếp tạo ra hình ảnh):
Mô hình Images 2.0 mới của ChatGPT có khả năng tạo văn bản tốt đến kinh ngạc
(Nguồn ảnh: Microsoft Designer - DALL-E 3)
Các trình tạo ảnh AI trong lịch sử thường gặp khó khăn với việc viết đúng chính tả vì chúng thường sử dụng mô hình khuếch tán (diffusion models), vốn hoạt động bằng cách tái tạo hình ảnh từ nhiễu kỹ thuật số.
"Các mô hình khuếch tán [...] đang tái tạo lại một đầu vào nhất định," Asmelash Teka Hadgu, người sáng lập và CEO của Lesan AI, chia sẻ với TechCrunch vào năm 2024. "Chúng ta có thể hiểu rằng các chữ viết trên một bức ảnh chiếm một phần cực kỳ nhỏ, vì vậy trình tạo ảnh sẽ học các hoa văn bao phủ nhiều điểm ảnh (pixel) hơn."
Kể từ đó, các nhà nghiên cứu đã khám phá những cơ chế khác để tạo ảnh, chẳng hạn như mô hình tự hồi quy (autoregressive models) — vốn đưa ra dự đoán về hình dáng của một bức ảnh và hoạt động giống với các mô hình ngôn ngữ lớn (LLM) hơn. Đáng tiếc là OpenAI đã từ chối trả lời câu hỏi trong buổi họp báo tuần này về việc loại mô hình nào đang vận hành ChatGPT Images 2.0.
Tuy nhiên, công ty giải thích rằng mô hình mới có "khả năng suy luận" (thinking capabilities), giúp nó có thể tìm kiếm thông tin trên web, tạo nhiều hình ảnh từ một câu lệnh duy nhất và tự kiểm tra lại các sản phẩm của mình. Điều này cho phép Images 2.0 tạo ra các tài liệu marketing với nhiều kích thước khác nhau, cũng như các dải truyện tranh nhiều khung hình.
OpenAI cũng cho biết Images có khả năng hiểu rõ hơn việc hiển thị văn bản không thuộc hệ chữ Latinh như tiếng Nhật, tiếng Hàn, tiếng Hindi và tiếng Bengali. Dữ liệu tri thức của mô hình này bị giới hạn đến tháng 12 năm 2025, điều này có thể ảnh hưởng đến độ chính xác khi tạo các hình ảnh liên quan đến các tin tức sự kiện mới xảy ra gần đây.
"Images 2.0 mang lại mức độ chi tiết và độ trung thực chưa từng có cho việc tạo ảnh. Nó không chỉ có thể hình tượng hóa các hình ảnh phức tạp hơn mà còn thực sự hiện thực hóa tầm nhìn đó một cách hiệu quả, có khả năng tuân thủ các hướng dẫn, bảo toàn các chi tiết được yêu cầu và hiển thị các yếu tố nhỏ nhặt thường làm khó các mô hình hình ảnh: văn bản nhỏ, hệ thống biểu tượng, các yếu tố giao diện người dùng (UI), bố cục dày đặc và các ràng buộc phong cách tinh tế, tất cả đều ở độ phân giải lên đến 2K," OpenAI tuyên bố trong một thông cáo báo chí.
Những khả năng này đồng nghĩa với việc quá trình tạo ảnh sẽ không diễn ra nhanh chóng như khi bạn đặt câu hỏi cho ChatGPT, nhưng việc tạo ra một thứ phức tạp như truyện tranh nhiều khung hình cũng chỉ mất vài phút.
Tất cả người dùng ChatGPT và Codex sẽ có thể truy cập Images 2.0 bắt đầu từ thứ Ba tới; người dùng trả phí sẽ có thể tạo ra các kết quả đầu ra nâng cao hơn. Công ty cũng sẽ cung cấp API gpt-image-2, với mức giá phụ thuộc vào chất lượng và độ phân giải của sản phẩm.
Source : https://techcrunch.com/2026/04/21/chatgpts-new-images-2-0-model-is-surprisingly-good-at-generating-text/

Bài viết liên quan

  • OpenAI ra mắt GPT-5.5, đưa công ty tiến gần hơn một bước tới OpenAI ra mắt GPT-5.5, đưa công ty tiến gần hơn một bước tới "siêu ứng dụng" AI

    OpenAI đã chính thức phát hành GPT-5.5, mô hình AI mới nhất mà công ty gọi là mô hình "thông minh và trực quan nhất" từ trước đến nay. Thuật toán này đi kèm với khả năng được nâng cấp trong nhiều lĩnh…

  • Apple ra mắt MacBook Pro với chip M5 Pro và M5 Max hoàn toàn mới cùng với hiệu năng AI đột phá Apple ra mắt MacBook Pro với chip M5 Pro và M5 Max hoàn toàn mới cùng với hiệu năng AI đột phá

    Chiếc laptop chuyên nghiệp tốt nhất thế giới tiếp tục nâng tầm với hiệu năng CPU và GPU siêu nhanh, tốc độ SSD nhanh gấp đôi và dung lượng lưu trữ khởi điểm lên đến 1TB.

  • Đề xuất nâng ngưỡng miễn thuế lên 2 tỷ đồng: Cú hích lớn cho hàng triệu hộ kinh doanh Đề xuất nâng ngưỡng miễn thuế lên 2 tỷ đồng: Cú hích lớn cho hàng triệu hộ kinh doanh

    Sáng ngày 20/4/2026, trong phiên họp của Ủy ban Thường vụ Quốc hội về dự thảo Luật sửa đổi, bổ sung một số điều của các Luật Thuế, Ủy ban Kinh tế Tài chính đã đưa ra đề xuất quan trọng liên quan đến n…