Jobb lesz a mesterséges intelligencia, ha bizarr tweeteken gyakorol

2020. június 11. - ferenck

Az írott és a beszélt nyelvben az elnyújtott, eltorzított szavak megváltoztatják az eredeti jelentést. Az angolban a „suuuuure” szarkazmust, a „yeeeeeees” pedig izgalmi állapotot ad hozzá. Ezek a szavak formális szövegekben ritkák, a közösségi média térhódításával viszont új lehetőségek nyíltak a tanulmányozásukra.

Az amerikai Vermont Egyetem matematikusai az eddigi legátfogóbb tanulmányt írták róluk. Tanulmányozásukra részletekbe menő stratégiát dolgoztak ki, amellyel tweetekben azonosították őket, majd véletlenszerűen kiválasztott adatsort vizsgáltak. Az adatsor a 2008 szeptembere és 2016 decembere között generált összes, mintegy 100 milliárd tweet kb. 10 százalékát tartalmazza.

Többezer nyújtható, módosítható szót találtak, például: ha (haha, haaaahaha), awesome (awesssssommmmmeeeee), goal (gggggoooooooaaaaaallllll) stb.

Elemzésükhöz két fő módszert alkalmaztak: az egyik az egyensúly, a másik a nyújtás volt. Az előbbi a különböző betűk ismétlődési mértékére vonatkozik – a „ha” magasszintű egyensúlyt mutat, mert ha elnyújtjuk, mind a h, mind az a nagyjából egyenlő mértékben ismétlődik. A „goal” már kevésbé, mert az o-t sűrűbben használjuk, mint a szó többi betűjét.

A nyújtás egyszerűen azt fejezi ki, hogy mennyi ideig nyújtunk el egy szót. Rövidebb szavak vagy hangok, például a „ha” esetében magas az érték, mert gyakran ismételjük őket. Szabályosabb szavaknál (például infinity) már kisebb az érték, mert általában csak az egyik betűjükről van szó: infinityyyy.

Az elemzéshez jövőbeli kutatásokhoz használható többféle eszközt fejlesztettek, módszert dolgoztak ki. Az elütési és kiejtési hibákat vizsgáló program természetesnyelv-feldolgozásban, keresőmotoroknál és levélszemét-szűrőknél egyaránt alkalmazható. A nyelvfeldolgozó mesterséges intelligenciák egyik legnehezebb feladata, hogy kitalálják például a szleng, a nyelvi fordulatok és a szándékos elírások/elütések rejtett jelentését. A vermonti kutatók munkája nekik is sok segítséget nyújthat.