Jobbak a gépitanulás-modellek, ha fényen alapulnak?

2023. augusztus 31. - ferenck

Egy, a számításokat elektronok helyett a fény mozgása alapján végző, sokszáz mikronléptékű lézert használó rendszer több mint százszor energiatakarékosabb, huszonötször sűrűbb számításokra képes, mint a gépi tanuláshoz használt mai csúcs- és szuperszámítógépek – derül ki egy, főként MIT-sekből (Massachusetts Institute of Technology) álló amerikai kutatócsoport munkájából.

És ez csak a kezdet, mert a rendszer teljesítményparaméterei a jövőben több nagyságrenddel növelhetők. Megnyithatja az utat nagyléptékű optoelektronikai processzorok előtt, és felgyorsítaná azt a folyamatot, amelynek eredményeként a gépitanulás-feladatok végrehajtása adatközpontokból decentralizált élszámítás (edge computing) eszközökre helyeződik át. Okostelefonok és más kisebb készülékek is képesek lesznek ma csak nagy adatközpontokban működő programok futtatására.

A rendszer komponensei már működő gyártási folyamatokkal állíthatók elő, pár év múlva pedig méretezhető is lesz a gyártás.

A mai szuperszámítógépes kapacitás korlátozza például a ChatGPT méretét, nagyobb modellek gyakoroltatása pedig gazdasági szempontból nem életképes. Az új technológiával viszont lehetővé válik olyan modellek használata, amelyek egyébként elérhetetlenek lennének a közeljövőben. De mire lesz majd képes a kutatók rendszerén gyakoroltatott következőgenerációs ChatGPT?

Nem tudják még, nagy változásokat viszont az ilyen újítások tesznek lehetővé – hangzik a válasz.

Abból a tényből indultak ki, hogy a nagy nyelvmodellek mögötti mély neurális hálók (deep neural networks, DNN) elérik technológiai korlátaikat: még több energiára, még nagyobb adatközpontokra van szükség hozzájuk. Ez a tény új számítási paradigmák kigondolására ösztönöz szakembereket.

Ha a DNN-számításokhoz elektronok helyett fényt használunk, megoldódhatnak a problémák, és még a sávszélesség is jelentősen növelhető, a fény sokkal több információt továbbít sokkal kisebb területre – magyarázza Zaijun Chen (MIT), a kutatás egyik vezetője.

A mostani optikai neurális hálók (ONN) azonban nem elég hatékonyak még. Az elektromos energián alapuló bejövő adatokat nehezen alakítják át fénnyé, az alkatrészek nagyok, túl sok helyet foglalnak el, és míg lineáris számításokban, például összeadásban jók, addig a nemlineárisokban, mint az osztás, vagy a „ha” jellegű műveletekben kevésbé teljesítenek jól.

A kutatók által javasolt kompakt architektúra kezeli ezeket a kihívásokat.