Remekel egy nyílt forrású kínai nagy nyelvmodell

2024. november 28. - ferenck

A kínai ICT egyik nagyágyúja, a Tencent közzé tette nyílt forráskódú és nyílt súlyokkal rendelkező „szakértők keveréke” (mixture of experts, MoE) nyelvmodelljét. Alap és utasításokkal finomhangolt változatai egyaránt nagymennyiségű inputot, 256 ezer tokent dolgoznak fel. A Hunyuan Large nevű modell százmillió felhasználó alatti nem EU-s fejlesztők számára ingyenes.

Az MoE architektúrák paraméterek különböző alkészleteivel dolgoznak fel különböző inputokat. Mindegyik szinten van egy neurálisháló-csoport (szakértői csoport); munkájukat kapumodul előzi meg, ő tanulja meg kiválasztani, hogy melyik vagy melyikek dolgozzák fel az adott bemenetet.

Így a különböző szakértők megtanulnak különböző példatípusokra specializálódni. Mivel nem minden paramétert használnak fel egy adott output előállítására, a hálózat kevesebb energiát fogyaszt, gyorsabban fut, mint az inputok összes paraméterével dolgozó hasonló méretű többi modell.

A Hunyuan Large ugyan 389 milliárd paraméteres, de „csak” ötvenkét milliárdot használ egy-egy input feldolgozásához. Fejlesztői hétbillió tokenes, főként angol és kínai szövegen előzetesen gyakoroltatták. 5,5 milliárd token forrását nem pontosították, 1,5 milliárd szintén nem pontosított nagy nyelvmodellek (LLM-ek) által generált szintetikus token volt.

A fejlesztők szerint a gyakorlóadatokat szolgáltató modellek változatos területeken adnak szakértő-szintű válaszokat.

A Hunyuan-Large-t nem specializált utasítás-adatkészleteken és emberi visszajelzésekkel finomhangolták. A modellek tevékenységét négy nyíltforrású másikkal (Llama 3.1 70B, Llama 3.1 405B, a Mixtral-8x22B és a DeepSeeki-V2 MoE modelljeivel) hasonlították össze.

Tizenkilenc benchmark közül tizenötben a legjobban teljesített. A teszteken a résztvevők angol, kínai, matek és kódoló képességeit vizsgálták. Az utasításokkal finomhangolt változat tizenháromból tízszer végzett az élen. De még ennél is fontosabb, hogy általában legyőzte a Llama 3.1 405B-t. Gondoljunk bele: mindössze 52 milliárd paraméterrel a 405 milliárdosat. A jövőre nézve ez azért bíztató, mert szignifikánsan kisebb a feldolgozás (kevesebb a fogyasztás), másrészt a modell több-rendeltetésű.