Jobb ajánlóalgoritmus

2017. december 14. - ferenck

Honlapok, például az Amazon és a Netflix ajánlórendszerei az úgynevezett együttműködő szűrést (collaborative filtering) használják. Ha meg akarják határozni, hogy az adott fogyasztó milyen termékeket szerethet, hasonló termékeket hasonlóan pontozó más fogyasztók után néznek, és az ő pontjaikból következtetnek.

A módszer sikere a hasonlóságon alapul. A legtöbb ajánlórendszer a gyakorlatban jól működő koszinusz hasonlóság nevű mérést alkalmazza. Az MIT (Massachusetts Institute of Technology) kutatói már tavaly dolgoztak a mérés eredményességének okait szemléltető elméleti kereten, november végén pedig arról számoltak be, hogy a kerettel a mai ajánlóalgoritmusoknál jobbat fejlesztettek. Az algoritmus különösen akkor hatékony, ha az adatok nagyon szétszórtak, kevés az átfedés az értékelt termékek és más fogyasztók pontozása között.

Az alapstratégia igen egyszerű: ha az algoritmus megpróbálja előrejelezni a fogyasztó osztályozását, nemcsak hasonló ízlésűek véleményét veszi figyelembe, hanem az azokhoz, és az azokhoz stb. hasonló ízlésűekét is. Tágabb kontextusban, sokkal több felhasználó adatain vizsgálódik.

Az ötlet intuitív, a gyakorlatban viszont minden megint a hasonlóság speciális mérésétől függ.

„Ha nagyvonalúan kezeljük, mindenki hasonlítani fog egymásra. Másrészt, ha precízek vagyunk, megnézzük a legközelebbi szomszédot. Milyen zaj szűrődik a folyamatba, ha egy barát preferenciáitól a barát barátjának a preferenciáiig megyünk, lehet-e annyira pontosan számszerűsíteni a zajt, hogy előnyünk származzon belőle?” – magyarázza a kutatást vezető Devavrat Shah.

Az algoritmus eleve feltételezi, hogy a felhasználó által adott pontszám ugyanaz marad, és az összes felhasználóhoz társítható függvény is hasonló elvek alapján működik. Ha tényleg így van, az algoritmus elég konzisztens marad ahhoz, hogy statisztikai következtetéseket vetítsen előre. A következtetés tárgya: mennyire valószínű, hogy egy felhasználó pontozásából előrejelezhető egy másiké?

A kutatók keretükkel megfelelő választ („igen, jól előrejelezhető”) adtak a kérdésre, szétszórt adatoknál pedig kiderült, hogy a „szomszéd szomszédja” megoldással pontosabb prognózisok készíthetők, mint bármelyik ismert algoritmussal.