Az Neumann Társaság blogja a legfejlettebb infokom technológiákról

Jelenből a Jövőbe

Jelenből a Jövőbe


Videógeneráló mesterséges intelligencia az Adobe szerkesztőcsomagjában

2024. október 16. - ferenck

Az Adobe bejelentette a webszolgáltatásként elérhető Firefly Video Modellt, amelyet év végéig a vállalat Premiere Pro szoftvercsomagjába integrálnak. A modellel kb. két perc alatt maximum ót másodperces videók generálhatók szöveges és vizuális promptok alapján. Kész videók módosíthatók, bővíthetők…

Tovább

Hat másodperces videókat készít mesterséges intelligenciával a YouTube

Hamarosan egy csomó mesterséges intelligenciával támogatott új eszköz áll a YouTube tartalomkészítői rendelkezésére – jelentette be a cég szeptember tizennyolcadikai Made on YouTube rendezvényén, New York Cityben. MI-vel, szöveges utasításokra (promptokra) készülhetnek a mindössze hat másodperces…

Tovább

Huszonöt képig ingyenes a Midjourney

David Holz, a Midjourney vezérigazgatója augusztus 21-én bejelentette, hogy a szövegből képet generáló alkalmazás a honlapjukon huszonöt képig ingyen használható. Korábban a Discordról lehetett elérni a felületet, hogy MI-vel képet készítsünk. A folyamat sok babrálást igényelt, ami gyakran…

Tovább

Magasra tette a lécet a Google legújabb képgenerátora, az Imagen 3

A képgenerátorok minden egyes új hullámával javul, szélesebb alkalmazói réteg számára lesz hasznosabb a technológia. A Google nemrég mutatta be a korábbi változatokhoz képest előrelépést hozó Imagen 3, szöveges utasításokból vizuális outputot generáló modelljét. A képek minősége jobb, jobban…

Tovább

Képgenerátor modellek versenye

A mesterségesintelligencia-modelleket tesztelő Artificial Analysis szolgáltatás, az LMSys nagy nyelvmodelleket versenyeztető Chatbot Arénájához hasonlóan, „szövegből kép” ranglistát vezetett be. Az imgsys és a Gen-AI Arena szintén képgenerálással foglalkozik, de ott csak nyílt forrású modellek…

Tovább

Egyre több a nyílt és félig nyílt generatív modell

Az Nvidia és az Alibaba új nagyteljesítményű nagy nyelvmodellt (LLM) tett közzé, míg a Stability AI bemutatta a zászlóshajónak számító, szövegből képet generáló Stable Diffusion friss, karcsúsított változatát. Az Nvidia és az Alibaba modellek súlyai/értékei teljesen nyíltak, a Stable Diffusion 3…

Tovább

Megjelent az első kínai szöveget videóvá alakító modell

Mérföldkőhöz érkezett a kínai Kuaishou vállalat: június hatodikán elindította az első nyilvánosan tesztelhető, szövegből videót ingyen generáló, jelenleg már hatszázmillió felhasználós mesterségesintelligencia-modellt. Neve Kling, és az OpenAI Sora MI-jéhez hasonlóan (elvileg) akár kétperces,…

Tovább

Mik a legjobb generatív MI-modellek a képzőművészetben és a designban?

A generatív mesterségesintelligencia-eszközök közül a képalkotó modellek az elsők között mozgatták meg a nagyközönség fantáziáját. A technológia és a piac fejlődésével kuriózumból hasznos és hatékony alkalmazásokká váltak. Ma már bejáratott művészeti és designplatformok integrálták a generatív MI-t.…

Tovább

Valódi videókat generál a mesterséges intelligencia?

Sora, az OpenAI új szövegalapú videógenerátora magasra emelte a lécet részletességben és realizmusban. Korábban egyetlen MI sem érte el ezt a szintet, nem alkottak ennyire meggyőző, csúcsminőségű mozgókép-világot. Magáról a rendszerről, a rendszer felépítéséről viszont keveset tudunk. Sora…

Tovább

A nagy látásmodellek hatása a képfeldolgozásra

A nagy nyelvmodellek (large language models, LLM) megváltoztatták a szövegfeldolgozást. A nagy látásmodellekkel (large vision models, LVM) hasonló figyelhető meg: elkezdték megváltoztatni a képfeldolgozást. A kettő között azonban van egy fontos különbség. Internetes szövegek eléggé hasonlítanak…

Tovább
süti beállítások módosítása