Az Neumann Társaság blogja a legfejlettebb infokom technológiákról

Jelenből a Jövőbe

Jelenből a Jövőbe


Egyre több a nyílt és félig nyílt generatív modell

2024. július 03. - ferenck

Az Nvidia és az Alibaba új nagyteljesítményű nagy nyelvmodellt (LLM) tett közzé, míg a Stability AI bemutatta a zászlóshajónak számító, szövegből képet generáló Stable Diffusion friss, karcsúsított változatát. Az Nvidia és az Alibaba modellek súlyai/értékei teljesen nyíltak, a Stable Diffusion 3…

Tovább

Megjelent az első kínai szöveget videóvá alakító modell

Mérföldkőhöz érkezett a kínai Kuaishou vállalat: június hatodikán elindította az első nyilvánosan tesztelhető, szövegből videót ingyen generáló, jelenleg már hatszázmillió felhasználós mesterségesintelligencia-modellt. Neve Kling, és az OpenAI Sora MI-jéhez hasonlóan (elvileg) akár kétperces,…

Tovább

Mik a legjobb generatív MI-modellek a képzőművészetben és a designban?

A generatív mesterségesintelligencia-eszközök közül a képalkotó modellek az elsők között mozgatták meg a nagyközönség fantáziáját. A technológia és a piac fejlődésével kuriózumból hasznos és hatékony alkalmazásokká váltak. Ma már bejáratott művészeti és designplatformok integrálták a generatív MI-t.…

Tovább

Valódi videókat generál a mesterséges intelligencia?

Sora, az OpenAI új szövegalapú videógenerátora magasra emelte a lécet részletességben és realizmusban. Korábban egyetlen MI sem érte el ezt a szintet, nem alkottak ennyire meggyőző, csúcsminőségű mozgókép-világot. Magáról a rendszerről, a rendszer felépítéséről viszont keveset tudunk. Sora…

Tovább

A nagy látásmodellek hatása a képfeldolgozásra

A nagy nyelvmodellek (large language models, LLM) megváltoztatták a szövegfeldolgozást. A nagy látásmodellekkel (large vision models, LVM) hasonló figyelhető meg: elkezdték megváltoztatni a képfeldolgozást. A kettő között azonban van egy fontos különbség. Internetes szövegek eléggé hasonlítanak…

Tovább

Új mesterségesen intelligens animációs eszköz varázsolja el a felhasználókat

Újabb és újabb mesterségesintelligencia-eszközök jelennek meg a már elérhető és méltán népszerű, szöveget, képet és mást generáló technológiák funkcióinak bővítésére. A legfrissebb, a Runway MI kutatócég terméke, a Motion Brush (Mozgásecset) második generációja MI, például a Midjourney által…

Tovább

Hogyan javítsunk a promptokon?

A nagy nyelvmodellek (LLM) legújabb generációja túlmutat a nyelven. Ezekkel a mesterséges intelligenciákkal már multimodálisan, szöveg mellett vizuálisan, a kép-szöveg valamilyen kombinációjával, hang és más módszerekkel is kommunikálunk, változatos utasításokat, promptokat adhatunk nekik, amelyekre…

Tovább

A ChatGPT most már lát, hall és beszél is

Az OpenAI, egy weboldal szalvétára felskiccelt koncepcióját kóddá fordító anyaggal szemléltetve, márciusban vezette be a GPT-4-t, nagy nyelvmodellhez (large language model, LLM) viszont a Google használt először vizuális inputot úgy, hogy az output is kép legyen (image-to-image). Egy májusi…

Tovább

Mozgásrögzítéssel követett madár- és rovarrajok

A negyed kosárlabda-pályányi „okos pajta” (Smart Barn) a német Max Planck Állatviselkedés Intézet projektje, laboratóriummá átalakított istálló, ahol mozgásrögzítő kamerák teljes madár- és rovarrajok tevékenységét követik nyomon. Inkább emlékeztet egy hollywoodi stúdióra, mint egy pajtára,…

Tovább

Elfogult a Stable Diffusion

Néhány éve inkább csak elméleti kérdés volt, hogy a képgeneráló technikák gyakorlóadatai tükröznek, sőt felerősítenek sztereotípiákat elfogultságokat. A DALL-E-2, a Midjourney, a Stable Diffusion és más mesterségesintelligencia-alkalmazások térhódításával, széleskörű használatukkal a film-, a…

Tovább
süti beállítások módosítása