A ChatGPT most már lát, hall és beszél is

2023. október 10. - ferenck

Az OpenAI, egy weboldal szalvétára felskiccelt koncepcióját kóddá fordító anyaggal szemléltetve, márciusban vezette be a GPT-4-t, nagy nyelvmodellhez (large language model, LLM) viszont a Google használt először vizuális inputot úgy, hogy az output is kép legyen (image-to-image). Egy májusi konferencián beszéltek róla.

A „mindent csináló” generatív modellek ötlete tömegek fantáziáját ragadta meg. A szöveg, a hang és a kép összekombinálása nagyon fontos lépés ebbe az irányba.

A ChatGPT minden szinten, a nyilvánosságban, az üzleti világban és a technológiai közösségekben is újradefiniálta a mesterséges intelligenciát. Most tovább bővültek a lehetőségei: hang inputtal, a nyelv és a kép összetársításával a művészetekben, tudományokban, az iparban és más területeken egyaránt új távlatok nyílnak meg.

A multimodalitásban a DALL-E 3 támogatja, a képgenerátor új változatát a chatbotba integrálták, és így vizuális promptokra vizuális outputokkal reagál. A frissítéssel jelentősen feljavult, hangvezérelt interaktív rendszerré vált. A művészek és közszereplők jogainak betartásához pedig új biztonsági megoldásokkal egészítették ki.

A hang inputtal/outputtal a ChatGPT funkcionalitása az Apple Siri és az Amazon Alexa hangasszisztensekhez vált hasonlóvá.

Az OpenAI Whisper beszédfelismerő rendszere szöveges promptokká írja át a hang inputot, majd egy szöveget beszéddé alakító (text-to-speech) új modell öt különböző hangprofilban jeleníti meg a beszédet. A hang-interakciók pár héten belül elérhetők lesznek a ChatGPT Plus és Enterprise változatok előfizetői számára.

A GPT-4 with Vision (GPT-4V) nevű új modell kezeli a ChatGPT képi inputjait, outputjait. A felhasználók képpel gazdagíthatják a beszélgetést, például matematikai függvényekkel vagy – ebédre készülve – a jégszekrény belsejét ábrázoló fotóval illusztrálhatják, támaszthatják alá mondandójukat. A hanghoz hasonlóan, a képopció is heteken belül az előfizetők rendelkezésére fog állni.

A promptok csiszolásához a DALL-E 3 a ChatGPT-t használja, a korábbi változatoknál sokkal hosszabb szöveges utasításokat téve lehetővé. Képeken belül, kitalált karakterek és/vagy szavak helyett, olvasható szöveget hoz létre. Egyéb biztonsági funkciók mellett, visszadobja a közszereplők nevét tartalmazó vagy élő művész stílusában műalkotást kérő promptokat. Előfizetőknek napokon belül elérhető lesz a frissítés, és a Microsoft Bing Image Creatora is a DALL-E 3-ra vált (a DALL-E 2-ről).

Idővel az összes funkció a nem fizető és az API-felhasználók számára szintén elérhető lesz.