Válságba sodorja a tudományt a gépi tanulás?

2019. február 22. - ferenck

A sokezer tudós által adatelemzésre használt gépi tanulás gyakran félrevezető vagy teljesen rossz eredményeket generál – állítja Genevera Allen, a houstoni Rice Egyetem statisztikusa, és egyben figyelmeztet: ha nem javítanak a technikán, tudományos válság következhet.

A biomedikális kutatásoktól a csillagászatig, számos tudományterületen alkalmazzák a gépi tanulást. A felhasznált adatsorok nagyon nagyok és drágák, ráadásul a szoftver sokszor csak az adatsorban megbúvó, de a valóságban nem létező mintázatokat azonosít.

Ezekről a kutatási eredményekről gyakran csak akkor derülnek ki, hogy pontatlanok, amikor valaki más egy szintén óriási adatsorral keresi ugyanarra a problémára a választ, aztán kiderül: nincs átfedés az eredmények között.

Allen a tudomány reprodukálhatósági válságát említi. A két évtizede érzékelhető, az utóbbi években egyre markánsabb jelenség lényege, hogy nyugtalanító mennyiségű kutatási eredményt nem lehet megismételni. Más tudósoknak más eredmény jön ki ugyanazzal a technikával, tehát hibás lehetett az eredeti. Egy elemzés alapján a biomedikális kutatások akár 85 százalékát is érintheti a probléma.

Az egyik ok: a kísérleteket nem tervezik meg elég jól, és a résztvevők azt látják az eredményekben, amit eleve látni akartak. A másik ok, legalábbis Allen szerint, a válságot fokozó gépi tanulás.

Gépi tanulás algoritmusokat speciálisan azért fejlesztenek, hogy irdatlan mennyiségű adatot böngésszenek át, és egyértelmű, hogy előbb-utóbb akkor is találnak valamilyen mintázatot, ha nincs.

A tudományt népszerűsítő nagy felfedezések esetében szintén elképzelhető, hogy ha a kísérleteket megismételnék egy másik adatsorral, gyakran születnének más eredmények.

Allen a houstoni egyetem Baylor Orvosi Iskolájának biomedikális kutatóival dolgozik együtt. Céljuk, hogy eredményeiket megbízhatóbbá tegyék. Következőgenerációs gépi tanulás és statisztikai technikákat fejlesztenek, amelyek nemcsak a felfedezés miatt néznek át hatalmas adatsorokat, hanem be is számolnak az eredmények bizonytalanságának és megismételhetőségének a mértékéről.

A kutatási eredmények így később jelennek meg, viszont kiállják az idő próbáját, és az adott terület nem megy el rossz irányba – összegez Allen.