DALL·E 2 là gì?

DALL·E 2 là một chương trình trí tuệ nhân tạo tạo ra hình ảnh từ các mô tả văn bản, được OpenAI, một công ty nghiên cứu, tiết lộ vào thứ Năm.

Nó sử dụng phiên bản đào tạo 12 tỷ tham số của mô hình máy biến áp GPT-3 để diễn giải các đầu vào ngôn ngữ tự nhiên và tạo ra các hình ảnh tương ứng. Ví dụ: khi được cung cấp câu 'a black and white photo of a small dog', nó sẽ tạo ra hình ảnh đen trắng của Chihuahua được hiển thị chính xác.

Hệ thống này không hoàn hảo — đôi khi nó tạo ra những hình ảnh khó diễn giải hoặc hoàn toàn sai lệch. Ví dụ: khi được yêu cầu tạo hình ảnh 'một người đi xe đạp một bánh trên một ngọn núi lửa', nó tạo ra một hình ảnh (theo ý kiến của tôi là đẹp) nhưng hoàn toàn không liên quan về cảnh hoàng hôn trên mặt nước với một hình người nhỏ ở phía trước .

Tuy nhiên, kết quả rất ấn tượng và OpenAI nói rằng DALL·E 2 'là mô hình AI đầu tiên tạo ra hình ảnh từ các mô tả văn bản có thể sánh ngang với chất lượng của các nghệ sĩ chuyên nghiệp'.

Hệ thống này được đào tạo dựa trên tập dữ liệu gồm các cặp văn bản-hình ảnh, bao gồm khoảng 1,3 triệu hình ảnh và chú thích từ Internet đã được OpenAI thu thập và quản lý. Sau đó, dữ liệu đào tạo được sử dụng để tinh chỉnh mô hình GPT-3 sao cho mô hình này có thể tạo hình ảnh từ các mô tả văn bản.

OpenAI nói rằng hệ thống này có thể tạo ra các hình ảnh 'chất lượng cao' từ một loạt các mô tả văn bản, bao gồm cả những mô tả trừu tượng, cụ thể hoặc thậm chí thơ mộng.

Ngoài ví dụ về Chihuahua, các ví dụ khác về hình ảnh do DALL·E 2 tạo ra bao gồm một bức chân dung được kết xuất chính xác của Adolf Hitler, hình ảnh con rồng làm từ rau củ và hình ảnh Mona Lisa làm từ bánh mì nướng.

Hệ thống cũng có thể tạo ra hình ảnh của những thứ không tồn tại, chẳng hạn như 'floof' (một con vật được tạo ra) hoặc 'tulpa' (một dạng tư tưởng).

Nhìn chung, kết quả rất ấn tượng và OpenAI nói rằng hệ thống 'mở ra những khả năng mới để tạo hình ảnh từ các mô tả văn bản.'

TỪ E 2 Cái này hệ thống CLIP chuyển đổi thông tin văn bản thành thông tin trực quan. Đây là mô hình bộ mã hóa-bộ giải mã, có nghĩa là khi văn bản đầu vào được cung cấp, trước tiên nó được chuyển đổi thành đầu vào của máy, sau đó được hệ thống xử lý và cuối cùng được chuyển đến bộ giải mã để chuyển đổi dữ liệu được mã hóa thành hình ảnh.

DALL E 2 là gì

DALL·E 2 là gì?

Đây là thế hệ mới nhất của DALL·E, một mô hình ngôn ngữ tổng quát sử dụng các cụm từ để tạo hiệu ứng hình ảnh hoàn toàn mới. DALL E 2 là một mẫu 3,5V khổng lồ, mặc dù không lớn bằng GPT-3. Thật thú vị, nó cũng nhẹ hơn so với người tiền nhiệm của nó (12B). Xét về căn chỉnh mô tả và tính chân thực, DALL·E 2 tốt hơn 70% so với DALL·E 2 mặc dù kích thước lớn hơn.

DALL.E 2- giải thích cho người mới bắt đầu với các ví dụ

Cụ thể, DALL·E 2 là mô hình tổng hợp hình ảnh văn bản có điều kiện phân cấp, kết hợp học sâu để xử lý ngôn ngữ tự nhiên với thị giác máy tính để tạo hình ảnh. Mục tiêu của nó là đào tạo hai mô hình và tập huấn luyện bao gồm các hình ảnh và mô tả được ghép nối. Đầu tiên là một tiên nghiệm, được đặt một tiêu đề bằng văn bản, có thể được đào tạo để tạo ra một hình ảnh CLIP nhúng. Sau đó, chúng tôi có một bộ giải mã, khi nhúng một hình ảnh CLIP (và chú thích, nếu có), có thể tạo ra một hình ảnh được đào tạo.

DALLE 2 được đào tạo bằng cách sử dụng hàng trăm triệu bức ảnh có chú thích từ internet và một số hình ảnh đó sẽ bị xóa và xáo trộn lại để thay đổi những gì mô hình học được. Nó lấy nhiều tùy chọn hình ảnh CLIP đính kèm và sau đó sử dụng nó bộ giải mã đi qua từng người trong số họ. Sau đó, nó tạo ra một sự kết hợp thú vị của tất cả thông tin được cung cấp bởi người dùng.

Ví dụ DALL LÀ 2

Hãy chơi một trò chơi nhỏ để hiểu về DALL·E. Hãy chia nó thành ba bước tiếp theo.

Hãy tưởng tượng cầu vồng, đám mây và kỳ lân bay trên bầu trời xanh. Hãy tưởng tượng một bức tranh có thể trông như thế nào trong trí tưởng tượng của bạn. Con người là thứ gần gũi nhất mà chúng ta có với sự tương tự hoàn hảo của một hình ảnh được nhúng và bức ảnh vừa hiện ra trong đầu bạn là một ví dụ hoàn hảo về điều đó. Bạn chỉ có thể đoán về sản phẩm cuối cùng, nhưng bạn có ý tưởng tốt về những gì nên được đưa vào. Mô hình tiên nghiệm đưa người đọc từ các từ trong cụm từ đến một cảnh trong trí tưởng tượng của họ.
Bây giờ bạn có thể bắt đầu vẽ. Những gì unCLIP làm là biến hình ảnh tinh thần của bạn thành một bản phác thảo thực sự. Giờ đây, bạn có thể tạo lại chính xác một nhân vật khác từ cùng một mô tả, với cùng các chỉ số cơ bản, nhưng với một phong cách hình ảnh hoàn toàn mới. DALL·E 2 cũng có thể tạo các hình ảnh độc đáo từ một hình ảnh hiện có được nhúng theo cách này.
Hãy chú ý đến bản phác thảo bạn đã thực hiện. Đây là điều xảy ra khi bạn phác thảo mô tả về 'một con kỳ lân ở giữa những đám mây và cầu vồng mọc trên bầu trời.' Bây giờ hãy kiểm tra hình ảnh và văn bản để xác định điều gì minh họa rõ nhất cho nhau (mặt trời, ngôi nhà, cái cây, v.v.) và điều gì minh họa tốt nhất cho chủ đề, phong cách, màu sắc, v.v. Những gì CLIP làm là mã hóa các đặc điểm. văn bản và hình ảnh.

Bây giờ chúng ta đã biết DALL-E là gì, hãy chuyển sang phần tiếp theo và hiểu các tính năng của nó.

Mẹo: Cách tạo ảnh chân thực với dịch vụ AI của DALL-E-2

Tính năng DALL E 2

Dưới đây là thông số kỹ thuật của DALL·E 2.

biến thể
tô màu
Sự khác biệt về văn bản

Hãy nói về chúng một cách chi tiết.

cách làm danh thiếp trong word 2010

1] Biến thể

DALL·E 2 không chỉ đơn giản là dịch một câu thành hình ảnh. OpenAI có thể thử nghiệm quy trình tổng quát, tạo ra các kết quả khác nhau cho một chữ ký nhất định nhờ các nhúng CLIP mạnh mẽ. Những gì CLIP 'thấy' trong 'tâm trí' của nó là những gì nó cho là quan trọng từ đầu vào (không thay đổi đối với tất cả các hình ảnh) và những gì có thể thay thế (thay đổi đối với các hình ảnh khác nhau). Bất cứ khi nào có thể, DALL·E 2 sẽ giữ lại cả 'thông tin có ý nghĩa...và khía cạnh thẩm mỹ'.

2] Tô màu

DALL·E 2 có thể sửa đổi ảnh hiện có bằng tính năng điền tự động. Trong ví dụ sau, ảnh bên trái là ảnh gốc, ảnh ở giữa và ảnh bên phải có phần tử được vẽ ở các vị trí khác nhau. DALL·E 2 khớp với một thành phần bổ sung cho Picture Style. Nó cũng cập nhật kết cấu và phản chiếu để phản ánh phần tử mới.

Đọc : Bạn có thể làm gì với ChatGPT

3] Sự khác biệt về văn bản

DALL·E 2 chuyển đổi hình ảnh bằng sự khác biệt về văn bản. DALL·E 2 cũng có các khả năng nội suy nâng cao cho phép bạn sửa đổi các đối tượng. Một người dùng Twitter đã có thể 'unmordenize' iPhone của mình. twitter.com kiểm tra no.

Nếu bạn thích những tính năng này, tất cả những gì bạn phải làm là vào openai.com và sau đó đăng ký. Bạn có thể tạo tài khoản mới hoặc sử dụng tài khoản Microsoft hoặc Google hiện có của mình để đăng ký. Khi bạn làm điều đó, bạn sẽ nhận được một số tín dụng miễn phí, nếu bạn muốn nhiều hơn, bạn phải trả tiền cho nó.

Đây là một số tính năng của DALL·E 2, nó có nhiều trường hợp sử dụng tuyệt vời, tuy nhiên, bạn không nên phụ thuộc quá nhiều vào các công cụ AI. Rốt cuộc, chúng chẳng là gì ngoài những công cụ được sử dụng để hoàn thành công việc, chúng không bao giờ có thể thay thế trí tuệ cảm xúc của một người.

Cũng đọc: Các ứng dụng, phần mềm và trang web Deepfake tốt nhất.