DALL-E 2、あなたが望むすべてを作成するAI：あなたが尋ねる、それは描く

4月7 2022

技術

あなたが尋ねると、彼女は描きます：DALL-EのXNUMX番目のバージョンは、言語を解釈してそれを画像に変換する能力に驚いています。

私は知っています、私たちは皆、何か他のものに気を取られていました：2021年XNUMX月に OpenAI、Elon Muskによって設立され、Microsoftの支援を受けた会社は、これまでで最も野心的なプロジェクトを開始しました。 DALL-E.

この人工知能は何をしますか？ 簡単に言うと、簡単なテキストの説明から始まる画像を生成します。例？「本を帽子にしたラクダ」や「フォークで作ったネクタイ」と書くと、彼は絵を描いたり、作成したりします。つまり、彼はイメージを引き出します。

現在、Open AIはDALL-EのXNUMX番目のバージョンを発表し、事態はかなり深刻になっています。解像度が大幅に向上し、制作時間が大幅に短縮されました。人工知能が私たちに慣れ親しんできた典型的な指数関数的ダイナミクス、そして何よりも私たちに慣れ親しんでいるでしょう。また、覚えていれば、Open AIの責任者は、これらのマシンはおそらく（多分）彼らは感性になりつつあります。

少しウォーリー、少しダリ

DALL-EバージョンXNUMX（アーティストとしての「Dali」とディズニーのアニメキャラクターとしての「WALL-E」のかばん語）は、画像を生成し、さまざまな写真をコラージュにつなぎ合わせて、視点を提供することができました。編集可能、シャドウ効果など、画像の要素を単独で差し引きます。

世界中のすべての画像を自由に使える非常に優れたデザイナーであり、リクエストを解釈して即座に描画します。

「正確な入力を必要とする3Dレンダリングエンジンとは異なり、DALL-Eは、画像に特定の要素を含める必要があることをキャプションが明示的に示していない場合、「空白を埋める」ことができます」とチームは昨年書いています。 OpenAIブログで。

e3からあなたが望むものを描く — 暖炉のそばで帽子をかぶっているマウスの大家族の35mmマクロフィルム写真-OpenAI

オンデマンドを利用するAIはどのように機能しますか？

DALL-Eは商用製品を意図したものではなく、OpenAIチームはそれが最善であると判断しました。研究者たちは、たとえば、彼が性的または政治的背景を持つ画像を作成することを「防止」し、システムが偽情報を生成するために使用されるのを防ぎました。特定の名前についても同じことが言えます。「ホッキョクグマとテニスをしているフランク・シナトラを描く」と彼に尋ねることは不可能です。

DALL-E 1は、本質的に、信じられないほどのGPT-3言語通訳者を利用しています（ここで私はそれについてもっと深く話します、興味がある場合）そしてそれが「感知する」ものよりも理解するものを描きます。