DANH MỤC SẢN PHẨM

OpenAI không chỉ có ChatGPT: Còn có DALL-E vẽ tranh, Whisper nghe dịch, Codex viết code

Lê Hoàng Lam
Thứ Hai, 06/01/2025

ChatGPT nhanh chóng trở thành hiện tượng sau khi ra mắt vào tháng 11 năm 2022, tạo nên làn sóng tranh luận và thậm chí khởi động một cuộc đua công nghệ giữa các "ông lớn" như Google và Meta trong việc phát triển các công cụ AI tiên tiến hơn. Hiện tại, OpenAI đã thiết lập mối quan hệ hợp tác trị giá 13 tỷ USD với Microsoft, giúp tích hợp GPT-4 vào Copilot và bộ ứng dụng đám mây Azure AI.

Tuy nhiên, OpenAI không chỉ nổi tiếng với ChatGPT. Công ty này còn sở hữu nhiều sản phẩm AI độc đáo khác, trong đó có trình tạo video AI Sora vừa được ra mắt gần đây. Hãy cùng khám phá thêm về các sản phẩm ấn tượng khác từ OpenAI.

DALL-E: Nghệ thuật AI từ văn bản

Chỉ vài tháng trước khi ChatGPT ra mắt, OpenAI đã xóa danh sách chờ cho trình tạo nghệ thuật AI DALL-E. Công ty đã viết trong một bài đăng trên blog rằng nó nhanh chóng tăng lên hơn 1,5 triệu người dùng hàng ngày vào tháng 9 năm 2022. Công cụ này – nhanh chóng tạo ra các tác phẩm nghệ thuật giàu trí tưởng tượng và chi tiết thông qua lời nhắc văn bản – đã gây ra tranh cãi giữa các nghệ sĩ khi nó xuất hiện. Họ đã tranh luận về ý nghĩa của DALL-E và các trình tạo nghệ thuật AI khác đối với những người làm công việc sáng tạo.

 

OpenAI không chỉ có ChatGPT: Còn có DALL-E vẽ tranh, Whisper nghe dịch, Codex viết code- Ảnh 1.

Kể từ khi DALL-E ra mắt, OpenAI đã phát hành DALL-E 2 và DALL-E 3. Công ty cho biết bản nâng cấp mới nhất, DALL-E 3, hiểu được nhiều sắc thái và chi tiết hơn các phiên bản trước.

Trình tạo nghệ thuật AI tạo ra các hình ảnh gốc được gọi là "generations" từ lời nhắc văn bản chi tiết do một người nhập vào. Bạn có thể viết lời nhắc chi tiết như ở trên – "cá phi hành gia bơi trong đại dương ngoài không gian, nghệ thuật kỹ thuật số" – và chỉ định phong cách nghệ thuật hoặc thậm chí tham khảo một nghệ sĩ cụ thể như Vincent Van Gogh. Bạn cũng có thể chỉnh sửa "generations" bằng công cụ này bằng một trong các tín dụng mà chương trình cung cấp cho bạn mỗi tháng và tải lên ảnh của riêng bạn để tạo hình ảnh.

Whisper: Phiên âm và dịch đa ngôn ngữ

Whisper là một mô hình nhận dạng giọng nói tự động, phiên âm giọng nói thành văn bản và có thể xác định cũng như dịch nhiều ngôn ngữ sang tiếng Anh. Mô hình này cũng có thể phiên âm bằng nhiều ngôn ngữ.

Theo OpenAI, hệ thống này đã được đào tạo trên 680.000 giờ dữ liệu được giám sát đa ngôn ngữ và đa nhiệm vụ được thu thập từ internet.

 

OpenAI không chỉ có ChatGPT: Còn có DALL-E vẽ tranh, Whisper nghe dịch, Codex viết code- Ảnh 2.

Trong các ví dụ trên trang sản phẩm của mình, Whisper phiên âm một đoạn âm thanh dài gần 30 giây gồm văn bản được nói nhanh, một đoạn bài hát K-pop, một đoạn âm thanh tiếng Pháp nói và một đoạn âm thanh của người nói giọng địa phương.

Whisper hiện được sử dụng trong một số ngành, bao gồm cả chăm sóc sức khỏe. Gần đây, một báo cáo của Associated Press tiết lộ rằng công nghệ này dễ bị ảo giác, bao gồm cả những bình luận về chủng tộc và lời lẽ bạo lực, điều này có thể gây ra vấn đề nếu nó được sử dụng trong môi trường y tế.

Codex: Biến ngôn ngữ tự nhiên thành mã lập trình

Codex là một hệ thống AI dịch ngôn ngữ tự nhiên thành mã. OpenAI cho biết Codex "có khả năng nhất" trong Python, nhưng cũng thành thạo hơn một chục ngôn ngữ lập trình khác như JavaScript và Swift.

OpenAI không chỉ có ChatGPT: Còn có DALL-E vẽ tranh, Whisper nghe dịch, Codex viết code- Ảnh 3.

Mô hình này có thể diễn giải các lệnh đơn giản do người dùng nhập vào. OpenAI cho biết Codex là một "mô hình lập trình đa năng", nghĩa là nó có thể được sử dụng cho "về cơ bản bất kỳ tác vụ lập trình nào", mặc dù kết quả của nó có thể khác nhau. OpenAI cho biết họ đã sử dụng Codex thành công "để chuyển đổi mã, giải thích mã và tái cấu trúc mã".

OpenAI có một số ví dụ về cách Codex hoạt động, bao gồm sử dụng mô hình để lập trình một trò chơi theo chủ đề không gian và đưa ra các lệnh thoại cho máy tính để chỉnh sửa tài liệu Word.

Viết bình luận của bạn