Gemini, a Google mindentudó mesterséges intelligenciája

0

2024. január 15. - ferenck

A Google decemberben mutatta be az úttörő Gemini mesterségesintelligencia-modellcsaládot. Az MI multimodális, tehát nemcsak szövegből szöveget, szövegből képet hoz létre, hanem bármely szöveg (kód is), kép, videó és hanganyag input alapján szöveg- és kép-outputot képes generálni. A Gemini négy…

Tovább

komment

mesterséges intelligencia Google multimodalitás

Hogyan javítsunk a promptokon?

Facebook Tumblr Tweet Pinterest Tetszik

0

2023. november 03. - ferenck

A nagy nyelvmodellek (LLM) legújabb generációja túlmutat a nyelven. Ezekkel a mesterséges intelligenciákkal már multimodálisan, szöveg mellett vizuálisan, a kép-szöveg valamilyen kombinációjával, hang és más módszerekkel is kommunikálunk, változatos utasításokat, promptokat adhatunk nekik, amelyekre…

Tovább

komment

mesterséges intelligencia Microsoft OpenAI képtechnológiák nyelvtechnológiák multimodalitás

A GPT-4 kinyitotta a szemét

Facebook Tumblr Tweet Pinterest Tetszik

0

2023. október 31. - ferenck

Amikor hozzáférhetővé vált a GPT-4 csak szöveges változata, az OpenAI hetekig nem tette közzé a kvantitatív eredményeket, és az architektúráról és a gyakorlásról máig nincs részletes anyag. Lényegében csak sejtjük, mire lehet képes a nagy nyelvmodell (large language model, LLM). A GPT-4 legújabb…

Tovább

komment

mesterséges intelligencia multimodalitás

A ChatGPT most már lát, hall és beszél is

Facebook Tumblr Tweet Pinterest Tetszik

0

2023. október 10. - ferenck

Az OpenAI, egy weboldal szalvétára felskiccelt koncepcióját kóddá fordító anyaggal szemléltetve, márciusban vezette be a GPT-4-t, nagy nyelvmodellhez (large language model, LLM) viszont a Google használt először vizuális inputot úgy, hogy az output is kép legyen (image-to-image). Egy májusi…

Tovább

komment

hangfelismerés mesterséges intelligencia Microsoft chatbot OpenAI képtechnológiák nyelvtechnológiák multimodalitás

Az Neumann Társaság blogja a legfejlettebb infokom technológiákról

Jelenből a Jövőbe

Jelenből a Jövőbe

Gemini, a Google mindentudó mesterséges intelligenciája

Hogyan javítsunk a promptokon?

A GPT-4 kinyitotta a szemét

A ChatGPT most már lát, hall és beszél is

Az Neumann Társaság blogja a legfejlettebb infokom technológiákról

Jelenből a Jövőbe

Címkék » multimodalitás

Gemini, a Google mindentudó mesterséges intelligenciája

Hogyan javítsunk a promptokon?

A GPT-4 kinyitotta a szemét

A ChatGPT most már lát, hall és beszél is