A kínai DeepSeek R1 mesterségesintelligencia-chatbotja alaposan felforgatja a területet. Teljesítménye eléri az OpenAI o1-ét, a modell nyílt forrású, szabadon hozzáférhető. Az amerikai tech nagyágyúk a tőzsdén rosszul reagálták le a kelet-ázsiai riválist.
Egyrészt, Kína generatív MI-ben utolérte az USA-t, ami nyilván hatással lesz az MI ellátási láncra. Másrészt, a nyílt súlyú modellek árucikké teszik az alapmodell-réteget, komoly lehetőségeket teremtve alkalmazásfejlesztőknek. Harmadrészt, nem a méretnövelés az MI fejlődésének egyetlen útja. Annak ellenére, hogy a feldolgozó kapacitásra irányul a hype, az algoritmikus innovációk gyorsan csökkentik a gyakoroltatás költségeit.
A ChatGPT 2022. novemberi indulásakor az USA jelentős mértékben Kína előtt járt a generatív mesterségesintelligencia-fejlesztésekben. A különbség viszont jócskán és folyamatosan csökkent az utóbbi két évben. A kínai modellek megközelítik, egyes területeken, például videógenerálásban pedig meg is előzik már az amerikaiakat.
Andrew Ng gépitanulás-szakértő kiemeli az R-1-hez adott részletes technikai ismertetést, miközben több amerikai vállalat a nyílt forrást – az emberiségre leselkedő potenciális veszély miatt – elfojtó javaslatokkal bombázta a szabályozókat. Most egyértelművé vált, hogy a nyílt súlyok/nyílt forrás az MI ellátási lánc szerves része, és egy csomó cég használni is fogja. Ha az USA továbbra is stigmatizálja az open source törekvéseket, Kína leuralja a láncnak ezt a részét.
A nyílt súlyok már eddig jelentősen hozzájárultak az LLM tokenek áreséséhez, a DeepSeek modellje tovább erősíti a tendenciát. Az alapmodellek és az API-hozzáférés (alkalmazásprogramozói felület) nehéz vállalkozás, sokan máig nem tudják, hogyan tegyék rentábilissá modelljeik irdatlanul költséges gyakoroltatását, csökkentsék a fejlesztési kiadásokat. Az R-1 ösztönzőleg hathat, hogy nemcsak az amerikai MI-vállalatok útja járható, hanem olcsóbban is létrehozhatók csúcsmodellek, alkalmazások serege építhető rájuk.
Az R-1 azt is szépen szemlélteti, hogy az MI-fejlődésnek nem a méretnövelés az egyetlen útja. Hiába ölnek bele dollármilliárdokat, hiába igyekeznek egyesek elhitetni, hogy előrelépés csak így várható, a valóság sokkal árnyaltabb, a cél többféle megközelítéssel elérhető. Az amerikai embargó miatt a DeepSeeknek optimalizálási módszereket kellett megújítania, hogy gyengébb GPU-kat futtatva érjen el a modell ugyanolyan teljesítményt, mint az o1.
A közeljövő kérdése, hogy ezzel tendenciózusan csökken-e gyakoroltatáshoz a számítási igény. Az intelligencia és a számítások iránti kereslet mindenesetre folyamatosan nő, plafon a csillagos ég, és annál jobb, annál többet használunk mindkettőből, ha minél olcsóbb.
A DeepSeek fejlődését sokan sokféleképpen magyarázzák. Geopolitikai hatásai még elemzés tárgya, a ráépülő alkalmazási lehetőségek is. A nyílt hozzáféréssel viszont olyanok előtt is adott a lehetőség, akik eddig csak álmodozhattak a drága modellek miatt.