Az utóbbi hónapok, néhány év legfontosabb mélytanulás-eredményeit a szöveggel és képekkel foglalkozó modellek, köztük a legendává vált GPT-3 és az EfficientNet érték el. Eközben beindultak a szövegek és képek közötti kapcsolatokkal foglalkozó projektek, és míg a legtöbb multimodális (több módban is…
A tárgyakat detektáló, felismerő rendszerek általában csak azokkal az objektumokkal boldogulnak, amelyeket a korábbi gyakorlásaikhoz használt adatokban már felcímkéztek. Úgy tűnik, hogy egy új módszerrel könnyebb lesz a munkájuk, és így több tárgyat tudnak a képen belül lokalizálni és felismerni.
A…