Az Neumann Társaság blogja a legfejlettebb infokom technológiákról

Jelenből a Jövőbe

Jelenből a Jövőbe

Kevesebb adaton tanulva alkot leírásból fotorealisztikus képeket egy MI

2022. március 10. - ferenck

Az elmúlt évek látványos mesterségesintelligencia-eredményei a gépi tanuláson (machine learning) alapultak. A fejlődés azonban nem problémamentes, mert minél jobb eredményt ért el egy program, annál több adaton tanítják. Minél nagyobb az adatsor, annál komplexebb és drágább a rendszer, de ami talán még fontosabb, hogy annál több energiát is használ a számításokhoz.

Egyre gyakrabban merül fel, hogy jóval kevesebb adatból, kisebb adatsorokból – és természetesen alacsonyabb energiafelhasználással – kellene kiválóan működő MI-t létrehozni. Ez a jövő egyik záloga, nélküle megrekedhet a szakterület fejlődése.

Pont ezért érdekes egy új MI.

openai_3.jpg

 A kaliforniai OpenAI kutatói által fejlesztett mesterségesintelligencia-modell pontos képeket generál szöveges leírásokból. Ez még nem meglepő, mert mások is képesek ugyanerre. Az új MI viszont „kisebb”, és jóval kevesebb paraméterrel dolgozik, ráadásul jobb eredményeket ér el, mint a hasonlók, mint például a vállalat tavaly debütált képalkotó szoftvere.

A GLIDE nevű új modell, a tavalyi DALL-E programmal összehasonlítva, jóval kevesebb, „csak” 3,5 milliárd paraméterrel dolgozik, ellentétben az előd által használt 12 milliárddal.

Míg DALL-E-t kapcsolódó feliratokkal ellátott hatalmas képsoron – adatsoron – gyakoroltatták, tanították, addig az úgynevezett diffúziós modellel működő GLIDE ideghálóját szintén méretes képsoron trenírozták, viszont a modellt a képeket megsemmisítő „zajjal” is kiegészítették.

A folyamat eredményeként az új mesterséges intelligencia megtanulta, hogyan hozzon létre a szöveges leírásnak megfelelő fotorealisztikus képeket csak zajból álló inputból.

A humán bírák által vizsgált és értékelt képek jobbak, mint DALL-E képei, amelyeket tavaly 87 százalékban tartottak fotorealisztikusnak, míg a szöveges inputnak 69 százalékban feleltek meg.

DALL-E képességeit egyedülállónak minősítették, mert még az olyan nehezen értelmezhető szöveges adatból is elfogadható képet hozott létre, mint az „avokádó-formájú karosszék.” Ehhez képest GLIDE ennél is obskúrusabb leírásokból kiindulva, még ennél is jobb eredményt ér el.

A bejegyzés trackback címe:

https://jelenbolajovobe.blog.hu/api/trackback/id/tr1516824150
süti beállítások módosítása