Gemini, a Google mindentudó mesterséges intelligenciája

2024. január 15. - ferenck

A Google decemberben mutatta be az úttörő Gemini mesterségesintelligencia-modellcsaládot. Az MI multimodális, tehát nemcsak szövegből szöveget, szövegből képet hoz létre, hanem bármely szöveg (kód is), kép, videó és hanganyag input alapján szöveg- és kép-outputot képes generálni.

A Gemini négy változatban létezik.

A Gemini Ultra idén lesz szélesebb körben elérhető; a fejlesztők szerint a főbb számokban meghaladja a GPT-4-et. A december tizenharmadikán debütált, és a Google Cloud Vertex AI szolgáltatását, majd a Generative AI Studio-t használó vállalati ügyfeleknek készült Gemini Pro teljesítménye a GPT-3.5-éhez hasonló. A modell az Európán kívüli angol nyelvű felhasználók számára a Bardon alapul. A cég nem közölte részletesen a két változat paramétereit.

Az androidos eszközökre (Google Pixel 8 Pro stb.) fejlesztett másik kettő kisebb, lebutítottabb modell. Úgy gyakoroltatták őket, hogy a nagyobb teljesítményét próbálják utánozni. A Nano-1 1,8 milliárd, a Nano-2 3,25 milliárd paraméteres. A Nano olyan feladatokat végez el, mint a beszédfelismerés, az összefoglalás, automatikus válaszadás, képszerkesztés, videók feljavítása.

A transzformer architektúrán alapuló Gemini modellek maximum 32 ezer token inputot képesek feldolgozni. Ezzel a teljesítménnyel utolérték a GPT-4-et, a GPT-4 Turbo változatát viszont nem. A Turbo 128 ezerrel, míg az Anthropic Claude 2-je 200 ezerrel boldogul el. A szöveg-, kép-, videó- és audiófeldolgozás natív funkció, de például hangot nem fordít szövegre, képgeneráláshoz pedig külön modellel dolgozik.

A Google nem számolt be a gyakorlóadatok (webdokumentumok, könyvek, kódok, képek, videók, audióanyagok) eredetéről.

A Gemini, ellentétben a GPT-kkel a szöveges, képi, videó és hanganyagokat ugyanabban a modellben dolgozza fel. A Nano változatok már kezdeti változatukban is fontos szereplők abban az egyre jobban érzékelhető versenyben, hogy minél erősebb modellek kerüljenek a hálózat szélén (edge) lévő kis eszközökbe.

A Gemini komoly előrelépés, és már most borítékolható, hogy idén több multimodális MI majd tűnik fel.