Az Neumann Társaság blogja a legfejlettebb infokom technológiákról

Jelenből a Jövőbe

Jelenből a Jövőbe


2024 a multimodális mesterséges intelligenciák éve

2024. június 03. - ferenck

A nagy mesterségesintelligencia fejlesztők közötti verseny egyre elképesztőbb tempóban eredményez egyre jobb modelleket. Az OpenAI GPT-4o-ja multimodális (teljeskörű) inputtal és outputtal mutatja meg a végpontok közötti modellezés értékét.  Jelentős teljesítmény- és gyorsaságnövekedés,…

Tovább

Gemini, a Google mindentudó mesterséges intelligenciája

A Google decemberben mutatta be az úttörő Gemini mesterségesintelligencia-modellcsaládot. Az MI multimodális, tehát nemcsak szövegből szöveget, szövegből képet hoz létre, hanem bármely szöveg (kód is), kép, videó és hanganyag input alapján szöveg- és kép-outputot képes generálni. A Gemini négy…

Tovább

Hogyan javítsunk a promptokon?

A nagy nyelvmodellek (LLM) legújabb generációja túlmutat a nyelven. Ezekkel a mesterséges intelligenciákkal már multimodálisan, szöveg mellett vizuálisan, a kép-szöveg valamilyen kombinációjával, hang és más módszerekkel is kommunikálunk, változatos utasításokat, promptokat adhatunk nekik, amelyekre…

Tovább

A GPT-4 kinyitotta a szemét

Amikor hozzáférhetővé vált a GPT-4 csak szöveges változata, az OpenAI hetekig nem tette közzé a kvantitatív eredményeket, és az architektúráról és a gyakorlásról máig nincs részletes anyag. Lényegében csak sejtjük, mire lehet képes a nagy nyelvmodell (large language model, LLM). A GPT-4 legújabb…

Tovább

A ChatGPT most már lát, hall és beszél is

Az OpenAI, egy weboldal szalvétára felskiccelt koncepcióját kóddá fordító anyaggal szemléltetve, márciusban vezette be a GPT-4-t, nagy nyelvmodellhez (large language model, LLM) viszont a Google használt először vizuális inputot úgy, hogy az output is kép legyen (image-to-image). Egy májusi…

Tovább
süti beállítások módosítása