Minden kép történetet mesél el

2021. február 02. - ferenck

Az Egészségügyi Világszervezet, a WHO becslése alapján a Földön kb. 285 millió látáskárosult, és mintegy 39 millió teljesen vak személy él. Az információkra ugyanúgy szükségük van, mint bárki másnak, viszont nem mindig, vagy nem megfelelő minőségben jutnak hozzájuk.

Az Egyesült Államokban évi többszáz jogorvoslati keresetet nyújtanak be internetes cégek ellen, mert nem férnek hozzá a szolgáltatásaikhoz. Az online hozzáférést ma már ugyanis jogként és nem kedvezményként tartja nyilván a törvény.

Több más népszerű webes szolgáltatóhoz hasonlóan, a Facebooknak komoly problémákat okozott a látáskárosult felhasználók kiszolgálása. Sokan panaszkodtak, hogy a közösségi média nem működik jól a hozzáférést segítő eszközökkel, például a szövegeket hangosan felmondó képernyő-olvasókkal. Az automatizált alternatív szöveg korábbi változatai pedig azt nem jelezték, ha a leírt kép nem volt a szöveg része, hanem hirdetésként funkcionált.

Több felhasználónak viszont kifejezetten tetszik, ahogy a Facebook használja az arcfelismeréssel egybekötött automatikus alternatív szöveget, mert megtudják, hogy barát vagy más szeretett személy szerepel a fényképen.

A Facebook bővítette a 2016-ban látáskárosultaknak kitalált, kép-, nyelv- és beszédmodellből álló, a közösségi hálózat használatára alkalmas rendszert. A képeket szintetizált hangon „leíró” szolgáltatás jelenleg 1200 vizuális fogalmat ismer fel, tízszer annyit, mint az előző változat. Látja és 45 nyelven elmagyarázza, hogy, a személyek és a tárgyak elhelyezkedésével együtt, mi van a képen.

A rendszer eredetileg kézzel felcímkézett adatokból tanult meg száz ismert fogalmat, például a fát vagy a hegyet. 2017-ben arcfelismeréssel bővítette, tette személyesebbé a felhasználói élményt. Az új frissítéssel többféleképpen részletezhető az automatikus alternatív szöveg.

Hetente felülvizsgált módszerrel tanuló képfelismerő modell 3,5 milliárd Instagram-képen és a hozzájuk kapcsolódó 17 ezer hashtag-en gyakorolt. Egy másik eljárással az algoritmus kategóriákat tanul meg: például szelfiket, nemzeti emlékműveket, ételeket, mint a rizst vagy a sült krumplit.

Tárgydetektáló könyvtáron alapuló ideghálójuk változatos objektumok számát, méretét és elhelyezkedését ismeri fel, illetve meg tudja határozni a kép tárgyát.

A rendszer mindegyik leírást a „Lehetséges…” szöveggel kezdi, és a pontosan nem azonosítható tárgyakat nem írja le. A felhasználó kérhet tőle pluszrészleteket, mire a modell a képet elhelyezkedés, méret és kategória alapján részletező oldalt jelenít meg, és onnan olvas fel.