Az Neumann Társaság blogja a legfejlettebb infokom technológiákról

Jelenből a Jövőbe

Jelenből a Jövőbe

Megmondja a komputer, hogy mitől emlékezetes egy kép

2019. november 21. - ferenck

Egyes képekre sokkal tovább emlékszünk, mint másokra. De vajon miért? Ha megkérdezünk egy művészt, általánosan elfogadott elvekkel fogja megmagyarázni. Manapság azonban nemcsak húsvér művészektől, hanem mesterséges intelligenciáktól is érdeklődhetünk a miértek után.

Az MIT (Massachusetts Institute of Technology) kutatói MI-modellt dolgoztak ki a képeket emlékezetessé tevő elemek vizualizálásához.

„Módszerünk képileg jeleníti meg az emlékezetességet. Vizuálisan definiál valamit, amit nehéz szavakkal megragadni” – magyarázza Philip Isola, az egyik kutató.

emlekezetes_kepek.jpg

Munkájuk a képek emlékezetességét osztályozó, a döntést befolyásoló vizuális jegyeket kiemelő MemNet modellre épül, amelynek előrejelzései 60 ezer képen végzett online tanulmány eredményeire támaszkodnak.

Az MIT tanulmányhoz kapcsolódik még a generatív ellenséges hálózati technikával működő, három modulból álló GANalyze modell. Az egyik modul alapja a MemNet, kiszámolja, milyen effektusokkal tehető emlékezetessé egy kép. Utasításait átalakító modul valósítja meg, a végső változatot pedig a generátor modul kivitelezi.

A fejlődés olyan, mint egy time-lapse kép. Például egy sajtburger fotója az emlékezetességi skála hátsó részéből egyre előkelőbb helyre került, és egyre ínycsiklandozóbb látvánnyá vált, miközben egy katicabogár fényesebb lett, míg egy másik ételen látható bors színe kaméleonként változott a zöld és a vörös között.

emlekezetes_kepek0.jpg

A kutatók az emlékezetességet leginkább befolyásoló tényezőket vizsgálták. Online felmérésből kiderült, hogy a világos színek, az egyszerű háttér, a négyszög- és a körformák, valamint a személyek/tárgyak központi elhelyezése a legfontosabb szempontok.

„Az emberi agy úgy fejlődött, hogy ezekre fókuszáljon, és a GAN is ezeket emeli ki” – nyilatkozta Lore Goetschalckx, a Leuveni Katolikus Egyetem kutatója.

Az MIT-s csoport újrakonfigurálta a GANalyze-t, és a rendszer változatos esztétikai minőségű, eltérő érzelmi hatást kiváltó képeket generált. Kiderült, hogy az esztétikai és emocionális szempontból többre értékelt képek világosabbak, színesebbek, mélységekkel az elmosódó háttérben. A legesztétikusabb képek viszont nem mindig bizonyultak emlékezetesnek.

A GANalyze különféle alkalmazásokban hasznosítható: kiterjesztett valóság (AR) rendszerben tárgyakat felnagyítva/feljavítva hozzájárulhat a memóriavesztés kezeléséhez, felejthetetlen grafikákat generálva segítheti az olvasót az információ megjegyzésében, amellyel forradalmasíthatja az oktatást. Szintetikus, de realisztikus képek létrehozásával automatizált rendszerek tárgyfelismeréséhez adhat fogódzókat.

Összességében jelentős mértékben javíthat az ember-gép interakció minőségén.

A bejegyzés trackback címe:

https://jelenbolajovobe.blog.hu/api/trackback/id/tr1115301824

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.
süti beállítások módosítása