2024 a multimodális mesterséges intelligenciák éve

2024. június 03. - ferenck

A nagy mesterségesintelligencia fejlesztők közötti verseny egyre elképesztőbb tempóban eredményez egyre jobb modelleket. Az OpenAI GPT-4o-ja multimodális (teljeskörű) inputtal és outputtal mutatja meg a végpontok közötti modellezés értékét.

Jelentős teljesítmény- és gyorsaságnövekedés, költségcsökkenés az eredmény. Tokenek gyorsabb és olcsóbb feldolgozásával az MI érzékenyebbé válik, gyengülnek a hatékony ágensfolyamatok használatának akadályai, míg kép-, hang- és szövegfeldolgozás nagyobb integrációjával praktikusabbak a multimodális alkalmazások.

A GPT-4o mellett megjelent a Google Gemini 1.5-e, és a Meta is bejelentette a Chameleon modellt. A „média-mindenevők” rivalizálásával fejlesztők és felhasználók egyaránt jól járnak, biztosak lehetünk abban, hogy 2024-ben további izgalmas appokkal szaporodnak a lehetőségeink.

A GPT-4o – az „o” az „omni”, azaz a minden (előtag) rövidítése – gyorsabban, olcsóbban és sok esetben pontosabban fogad el és generál szöveges, képes, mozgóképes és hanganyagokat.

Szöveg és kép input, és csak szöveg output a ChatGPT-n keresztül most is elérhető, és hamarosan jönnek a képek is. Beszéd input és output fizető felhasználók számára lesz hozzáférhető a következő hetekben. Az audiót és a videót első körben a partnerek használhatják, és csak utánuk a szélesebb nyilvánosság.

A GPT-4o-t többfajta médiatípuson gyakoroltatták, hogy szintén többfajta médiatípust és a köztük lévő kapcsolatokat gyorsabban és pontosabban dolgozza fel, mint a GPT-4 különféle médiatípusokat külön-külön kezelő korábbi változatai. A kontextus hossza a GPT-4 Turbo verziójával azonos, viszont jóval a Gemini 1,5 Pro modell által újonnan beállított kétmilliós limit alatti 128 ezer token.

Teljesítményét illetően, az összehasonlító teszteken több területen felülmúlta a Gemini Pro 1.5-öt: szöveg, kód és kép megértésében. Szövegfelismerésben jobban vizsgázott, mint a saját Whisper-larger-v.3, szövegek beszéddé alakításában (speech-to-text) pedig a CoVoST 2 fordítót „verte meg.”

Csak júniusban járunk, de már borítékolható, hogy 2024 a multimodális generatív MI-modellek éve lesz!