Nyílt forrású nyelvmodelleket tett közzé az Alibaba

2024. október 09. - ferenck

Az Alibaba több méretben tette közzé Qwen 2.5 nagy nyelvmodelljét (LLM), az API (alkalmazásprogramozói felület) változat Qwen Plust és Qwen Turbot, valamint a specializált Qwen 2.5-Codert, a Qwen 2.5-Coder-Instructot, a Qwen 2.5-Math-ot és a Qwen 2.5-Math-Instructot.

Az Apache 2.0 licenc alatt többük szabadon/ingyen hozzáférhető kereskedelmi célra is. A 3B (hárommilliárd paraméteres) és a 72B modellek szintén ingyenesek, kereskedelmi célú használatuk viszont a licenc értelmében speciális megbeszélések tárgya.

A Qwen 2.5-tel tovább bővült az egyre jobb minőségű LLM-ek köre: a Claude 3.5 Sonnet (Anthropic), a GPT-4o (OpenAI), a Llama 3.1 (Meta) és a Qwen 2 család tartoznak közéjük.

A Qwen 2.5 modellek mérete az ötszázmillió és a hetvenkét milliárd paraméter között variálódik.

Ezeket a modelleket előzetesen tizennyolc trillió tokennel gyakoroltatták. A hárommilliárd paraméteresekig harminckétezer input tokent, a nagyobbak 128 ezret képesek feldolgozni. Az összes változat outputjainak hosszúsága nyolcezer token.

A Qwen 2.5-Codert (kódolót) további 5,5 trillió kód-tokenen gyakoroltatták. Maximum 128 ezer input tokent dolgoz fel, a generált outputok felső határa kétezer token. Két változatban, 1,5B-ben és 7B-ben érhető el.

A matekra specializált Qwen 2.5-Math további egytrillió matematikai jellegű tokenen trenírozták. Egyeseket a korábbi Qwen 2-Math-72B-Instruct generált. Négyezer input tokent tud feldolgozni, kétezer output tokent generál. 1,5B, 7B és 72B változatban érhető el. Matematikai problémák megoldása mellett az adott probléma megoldásában segítő kódot is tud generálni.

Más nyílt forrású modellekkel összehasonlítva, a Qwen 2.5 modellcsalád összes változata nagyon jól teljesített a teszteken.