Egy új algoritmussal leegyszerűsíthető a big data

2021. március 25. - ferenck

Legalább egy évtizede a big data korszakában élünk, és a digitálisan előállított adat mennyisége exponenciálisan nő. Például a tudományos kísérletek eredményeit is számokba öntik, gyakran keletkeznek emberi ésszel már-már felfoghatatlan nagyságú, gigantikus adatsorok.

Méretüket elvileg a statisztikailag legrelevánsabb, az igazán lényeges jegyeket megtaláló és kivonatoló algoritmusokkal csökkenthetik. Sok adatsor viszont akkora már, hogy az algoritmusok többsége nem alkalmazható rájuk.

Amerikai kutatók pontosan az óriási adatsorokra fejlesztettek egy, a lényeget közvetlenül kiemelő algoritmust. A kivonatolás sok ad hoc gépitanulás-módszerrel megoldható, de az új modell a többinél megalapozottabb elméleti alapokon áll.

A gépi tanulás egyik ága komponenselemzéssel, nyers adatok jegyeinek azonosításával és kivonatolásával foglalkozik. Az adatsorok dimenzióinak csökkentése a célja. Az azonosítást követően a jegyeket az adatok annotált mintáinak elkészítéséhez, vagy más gépitanulás-feladatokhoz, például osztályozáshoz, klaszterezéshez, vizualizációhoz vagy modellezéshez használják fel.

Ilyen típusú algoritmusokat már a múlt század végén is próbáltak fejleszteni, a mostani kor viszont a big data, a több tízezer tulajdonságjeggyel rendelkező sokmillió adatpont miatt teljesen más. Ezeknek a masszív soroknak az elemzése humán programozók számára bonyolult és időigényes, az emberi agy információfeldolgozását bizonyos szintig szimuláló mesterséges ideghálókkal (ANN, Artificial Neural Network) viszont megoldható. Tucattól többmillió neuronból állhatnak, egységeik réteg-sorozatokba rendezik, a háló próbál értelmet adni az adott információnak.

Sokféleképpen használhatók, de főként az adatra leginkább jellemző tulajdonságok azonosítására, és az információ alapján, különböző kategóriákba rendezésére, osztályozására alkalmazzák.

Az Alexa, a Siri vagy a Google Fordító is mesterséges ideghálókkal működik: beszédminták, kiejtések és hangok felismerésére gyakoroltatták be őket.

De nem minden jegy egyformán szignifikáns, ezért sorrendbe állíthatók. Eddig speciális ANN-eket használtak hozzájuk, de még ők sem tudták pontosan lokalizálni a jegyeket, illetve kideríteni, hogy melyik fontosabb a másiknál. Elvileg lehetséges volt, gyakorlatilag nem.

Intelligensebb algoritmusoknak ezeket kell közvetlenül észlelniük, és a mostani fejlesztés pontosan ezt célozza. Hatékonyabb lesz vele az adatfeldolgozás, és óriási adatsorokkal is elboldogul, tényleg leegyszerűsíti a big datát. Egyelőre viszont csak egydimenziós mintákra alkalmazható, a kutatók azonban fejlesztik tovább, hogy sokkal komplexebb adatstruktúrákat is tudjon kezelni.