Az Neumann Társaság blogja a legfejlettebb infokom technológiákról

Jelenből a Jövőbe

Jelenből a Jövőbe


A nagy látásmodellek hatása a képfeldolgozásra

2024. január 03. - ferenck

A nagy nyelvmodellek (large language models, LLM) megváltoztatták a szövegfeldolgozást. A nagy látásmodellekkel (large vision models, LVM) hasonló figyelhető meg: elkezdték megváltoztatni a képfeldolgozást. A kettő között azonban van egy fontos különbség. Internetes szövegek eléggé hasonlítanak…

Tovább

Új mesterségesen intelligens animációs eszköz varázsolja el a felhasználókat

Újabb és újabb mesterségesintelligencia-eszközök jelennek meg a már elérhető és méltán népszerű, szöveget, képet és mást generáló technológiák funkcióinak bővítésére. A legfrissebb, a Runway MI kutatócég terméke, a Motion Brush (Mozgásecset) második generációja MI, például a Midjourney által…

Tovább

Hogyan javítsunk a promptokon?

A nagy nyelvmodellek (LLM) legújabb generációja túlmutat a nyelven. Ezekkel a mesterséges intelligenciákkal már multimodálisan, szöveg mellett vizuálisan, a kép-szöveg valamilyen kombinációjával, hang és más módszerekkel is kommunikálunk, változatos utasításokat, promptokat adhatunk nekik, amelyekre…

Tovább

A ChatGPT most már lát, hall és beszél is

Az OpenAI, egy weboldal szalvétára felskiccelt koncepcióját kóddá fordító anyaggal szemléltetve, márciusban vezette be a GPT-4-t, nagy nyelvmodellhez (large language model, LLM) viszont a Google használt először vizuális inputot úgy, hogy az output is kép legyen (image-to-image). Egy májusi…

Tovább

Mozgásrögzítéssel követett madár- és rovarrajok

A negyed kosárlabda-pályányi „okos pajta” (Smart Barn) a német Max Planck Állatviselkedés Intézet projektje, laboratóriummá átalakított istálló, ahol mozgásrögzítő kamerák teljes madár- és rovarrajok tevékenységét követik nyomon. Inkább emlékeztet egy hollywoodi stúdióra, mint egy pajtára,…

Tovább

Elfogult a Stable Diffusion

Néhány éve inkább csak elméleti kérdés volt, hogy a képgeneráló technikák gyakorlóadatai tükröznek, sőt felerősítenek sztereotípiákat elfogultságokat. A DALL-E-2, a Midjourney, a Stable Diffusion és más mesterségesintelligencia-alkalmazások térhódításával, széleskörű használatukkal a film-, a…

Tovább

3D számítógépes grafikával elkészítették Tutanhamon fáraó arcát

Új 3D modellező technikákkal nemzetközi kutatócsoport elkészítette a Krisztus előtt kb. 1342 és 1324 között élt Tutanhamon egyiptomi fáraó koponyájának és lágyszöveteinek a rekonstrukcióját. A rekonstrukció nyilvánosságra hozott adatok és az egyiptológiai irodalom miatt valósulhatott meg.  Az egyik…

Tovább

Gyorsan fejlődik a szövegből generált képek szerkesztése

Sokat fejlődnek a szöveges utasítás alapján szöveget létrehozó modellek, látványosan egyre jobbak az outputok. Vajon a képgenerátorok hatékonyabb gyakoroltatásától – hogy tényleg a promptokat kövessék – is hasonló eredmény várható? A Berkeley-i Kaliforniai Egyetem (UC Berkeley) kutatói által…

Tovább

Jön a promptmérnökök kora?

A mesterséges intelligenciával kapcsolatos félelmek egyike, hogy emberi munkaköröket szüntet meg. Ugyanakkor, az összes diszruptív technológiához hasonlóan, az MI-re is érvényes: nemcsak megszüntet, hanem teremt is állásokat. Ezek egyike szöveges utasítások (prompts) írása – professzionális szinten,…

Tovább

Messze még az általános mesterséges intelligencia, de már közelebb vagyunk hozzá, mint egy éve ilyenkor

Az IBM Watson nevű mesterséges intelligenciája – a névválasztás a nagyvállalat első elnöke Thomas J. Watson előtti tisztelgés volt – 2011-ben a Jeopardy! televíziós vetélkedőn legyőzött két húsvér bajnokot. 2015-ben a ma már a Google-hoz tartozó DeepMind bemutatta a go világranglista negyedik…

Tovább
süti beállítások módosítása