Mikä on DALL·E 2?

DALL·E 2 on tekoälyohjelma, joka luo kuvia tekstin kuvauksista, paljastaa torstaina tutkimusyhtiö OpenAI.

Se käyttää 12 miljardin parametrin opetusversiota GPT-3-muuntajamallista luonnollisen kielen tulojen tulkitsemiseen ja vastaavien kuvien luomiseen. Esimerkiksi kun siihen lisättiin lause 'mustavalkoinen valokuva pienestä koirasta', se tuotti oikein mustavalkoisen kuvan Chihuahuasta.

Järjestelmä ei ole täydellinen - se tuottaa joskus kuvia, joita on vaikea tulkita tai jotka ovat täysin vääriä. Kun esimerkiksi pyydettiin luomaan kuva 'henkilöstä, joka ajaa yksipyöräisellä köydellä tulivuoren päällä', se tuotti (mielestäni kaunis), mutta täysin asiaankuulumaton kuva auringonlaskusta veden yllä pienellä hahmolla etualalla. .

Silti tulokset ovat vaikuttavia, ja OpenAI sanoo, että DALL·E 2 'on ensimmäinen tekoälymalli, joka luo kuvia tekstillisistä kuvauksista, jotka voivat kilpailla ammattitaiteilijoiden laadulla.'

Järjestelmä koulutettiin teksti-kuva-parien tietojoukolle, joka koostui noin 1,3 miljoonasta Internetistä peräisin olevasta kuvasta ja kuvatekstistä, jotka OpenAI kaavi ja kuratoi. Harjoitusdataa käytettiin sitten GPT-3-mallin hienosäätämiseen, jotta se pystyi luomaan kuvia tekstikuvauksista.

OpenAI sanoo, että järjestelmä voi luoda 'korkealaatuisia' kuvia monenlaisista tekstikuvauksista, mukaan lukien abstraktit, konkreettiset tai jopa runolliset.

Chihuahua-esimerkin lisäksi muita esimerkkejä DALL·E 2:n tuottamista kuvista ovat oikein renderöity muotokuva Adolf Hitleristä, kuva vihanneksista tehdystä lohikäärmeestä ja kuva Mona Lisasta, joka on tehty paahtoleivästä.

Järjestelmä pystyy myös luomaan kuvia asioista, joita ei ole olemassa, kuten 'floof' (tehty eläin) tai 'tulpa' (ajatuksen muoto).

Kaiken kaikkiaan tulokset ovat vaikuttavia, ja OpenAI sanoo, että järjestelmä 'avaa uusia mahdollisuuksia kuvien luomiseen tekstikuvauksista'.

E 2 Tämä CLIP-järjestelmä muuntaa tekstitiedon visuaaliseksi informaatioksi. Tämä on enkooderi-dekooderi-paradigma, mikä tarkoittaa, että kun syöttöteksti annetaan, se muunnetaan ensin konesyötteeksi, sitten järjestelmä käsittelee sen ja lopulta siirretään dekooderille, joka muuntaa koodatun tiedon kuvaksi.

Mikä on DALL E 2

Mikä on DALL·E 2?

Tämä on uusimman sukupolven DALL·E, generatiivinen kielimalli, joka käyttää lauseita täysin uusien visuaalisten tehosteiden luomiseen. DALL E 2 on valtava 3,5 V malli, joskaan ei niin massiivinen kuin GPT-3. Mielenkiintoista on, että se on myös kevyempi kuin edeltäjänsä (12B). Kuvauksen kohdistuksen ja fotorealismin suhteen DALL·E 2 on 70 % parempi kuin DALL·E 2 suuremmasta koostaan huolimatta.

DALL.E 2- selitys aloittelijoille esimerkein

Tarkemmin sanottuna DALL·E 2 on hierarkkinen ehdollinen tekstikuvan synteesimalli, joka yhdistää syvän oppimisen luonnollisen kielen käsittelyä varten tietokonenäköön kuvan luomista varten. Sen tavoitteena on kouluttaa kaksi mallia, ja harjoitussetti koostuu parillisista kuvista ja kuvauksista. Ensimmäinen on a priori, joka kirjoitetun otsikon perusteella voidaan kouluttaa luomaan CLIP-kuvan upotus. Meillä on sitten dekooderi, joka voi luoda koulutetun kuvan upottamalla CLIP-kuvan (ja kuvatekstin, jos sellainen on).

DALLE 2 on koulutettu käyttämällä satoja miljoonia valokuvia, joissa on tekstitys Internetistä, ja osa kuvista poistetaan ja sekoitetaan uudelleen mallin oppimien tietojen muuttamiseksi. Se hakee useita kuvavaihtoehtoja CLIP liitteet ja käytä sitä sitten dekooderi käydä läpi jokainen niistä. Sitten se luo mielenkiintoisen yhdistelmän kaikista näistä tiedoista käyttäjän syötteen perusteella.

Esimerkki DALL ON 2

Pelataan vähän peliä DALL·E:n ymmärtämiseksi. Jaetaan se kolmeen seuraavaan vaiheeseen.

Kuvittele sateenkaaret, pilvet ja yksisarviset lentävän sinisellä taivaalla. Kuvittele, millainen kuva voisi olla mielikuvituksessasi. Ihmiset ovat lähimpänä täydellistä kuvan upotuksen analogia, ja juuri päähäsi ponnahtanut kuva on täydellinen esimerkki siitä. Voit vain arvailla lopputuotteesta, mutta sinulla on hyvä käsitys siitä, mitä pitäisi sisältää. A priori -malli vie lukijan lauseen sanoista mielikuvituksensa kohtaukseen.
Nyt voit aloittaa piirtämisen. Mitä unCLIP tekee, on muuntaa mielikuvasi todelliseksi luonnokseksi. Nyt voit luoda tarkasti toisen hahmon samasta kuvauksesta samoilla perustilastoilla, mutta täysin uudella visuaalisella tyylillä. DALL·E 2 voi myös luoda ainutlaatuisia kuvia olemassa olevasta tällä tavalla upotetusta kuvasta.
Kiinnitä huomiota tekemääsi luonnokseen. Näin tapahtuu, kun hahmotat kuvauksen 'yksisarvisesta pilvien keskellä ja sateenkaari kohoaa taivasta vasten'. Tutki nyt kuvaa ja tekstiä selvittääksesi, mikä kuvaa parhaiten toista (aurinko, talo, puu jne.) ja mikä kuvaa parhaiten aihetta, tyyliä, värejä jne. CLIP koodaa ominaisuuksia. tekstiä ja kuvia.

Nyt kun tiedämme, mikä DALL-E on, siirrytään seuraavaan osaan ja ymmärrämme sen ominaisuudet.

Kärki: Kuinka luoda realistisia kuvia DALL-E-2 AI -palvelun avulla

Ominaisuudet DALL E 2

Alla on DALL·E 2:n tekniset tiedot.

Muunnelmat
Väritys
Tekstin erot

Puhutaanpa niistä yksityiskohtaisesti.

miten tehdä käyntikortteja Word 2010: ssä

1] Muunnelmia

DALL·E 2 menee pidemmälle kuin pelkkä lauseen kääntäminen kuvaksi. OpenAI voi kokeilla generatiivista prosessia ja tuottaa erilaisia tuloksia annetulle allekirjoitukselle vankkojen CLIP-upotusten ansiosta. Se, mitä CLIP 'näkee' 'mieleessään', on sitä, mitä se pitää tärkeänä syötteestä (pysyy samana kaikissa kuvissa) ja mitä voidaan korvata (mikä muuttuu eri kuvien kohdalla). Aina kun mahdollista, DALL·E 2 säilyttää sekä 'merkittävän tiedon... että esteettiset näkökohdat'.

2] Väritys

DALL·E 2 voi muokata olemassa olevia valokuvia automaattisella täytöllä. Seuraavassa esimerkissä vasen kuva on alkuperäinen kuva, ja keskellä ja oikealla olevassa valokuvassa elementti on piirretty eri paikkoihin. DALL·E 2 yhdistää Picture Style -tyyliin lisäelementin. Se päivittää myös tekstuurit ja heijastukset uuden elementin mukaan.

Lukea : Mitä voit tehdä ChatGPT:llä

3] Tekstierot

DALL·E 2 muuntaa kuvat käyttämällä tekstin eroja. DALL·E 2:ssa on myös edistyneet interpolointiominaisuudet, joiden avulla voit muokata objekteja. Eräs Twitter-käyttäjä pystyi 'muokkaamaan' iPhonensa. twitter.com tarkistaaksesi sen.

Jos pidät näistä ominaisuuksista, sinun tarvitsee vain mennä openai.com ja sitten rekisteröidy. Voit luoda uuden tilin tai käyttää olemassa olevia Microsoft- tai Google-tilejäsi rekisteröitymiseen. Kun teet sen, saat ilmaisia krediittejä, jos haluat lisää, sinun on maksettava siitä.

Nämä ovat joitain DALL·E 2:n ominaisuuksia, sillä on monia loistavia käyttötapauksia, mutta on aina suositeltavaa olla luottamatta liikaa tekoälytyökaluihin. Loppujen lopuksi ne ovat vain työkaluja, joita käytetään työn suorittamiseen, ne eivät voi koskaan korvata ihmisen tunneälyä.

Lue myös: Parhaat Deepfake-sovellukset, -ohjelmistot ja -sivustot.