A Google Lumiere segítségével a mesterséges intelligencia videója közelebb kerül a valósághoz, mint a valósághoz

A Google új AI-modellje videógeneráláshoz Lumiere A használatos Egy új diffúziós modellt ún Space-Time-U-Net, vagy STUNet, amely meghatározza, hogy a videóban lévő objektumok hol vannak (tér), és hogyan mozognak és változnak egyszerre (idő). Ars Technica Ez a módszer lehetővé teszi a Lumiere számára, hogy a videót egyetlen folyamatban hozza létre, ahelyett, hogy kisebb állóképeket fűzne össze.

A Lumiere azzal kezdi, hogy létrehoz egy alapkockát a vektorból. Ezután a STUNet keretrendszer segítségével elkezdi közelíteni, hogy az objektumok hol fognak mozogni a kereten belül, hogy több képkockát hozzon létre, amelyek egymásba áramlanak, így sima mozgás látszatát keltve. A Lumiere 80 képkockát is készít, szemben a Stable Video Diffusion 25 képkockájával.

Igaz, én inkább szöveges riporter vagyok, mintsem videós, de a Google sajtóközleménye, valamint egy előzetesen nyomtatott tudományos cikk azt mutatja, hogy az AI videókészítő és -szerkesztő eszközök néhány év alatt a rejtélyes völgyből szinte valóságossá váltak. . A Google technológiáját egy olyan területen is meghonosítja, amelyet már olyan versenytársak is elfoglaltak, mint a Runway, a Stable Video Diffusion vagy a Meta's Emu. A Runway, az egyik első tömegesen gyártott szöveg-videó platform, tavaly márciusban elindította a Runway Gen-2-t, és valósághűbb videókat kínált. A futópálya-videóknak is nehézségei vannak az akciók rögzítésében.

A Google volt olyan kedves, hogy elhelyezte a klipeket és promptokat a Lumiere webhelyen, lehetővé téve, hogy összehasonlítás céljából ugyanazokat az utasításokat tegyem fel a Runway-re. Íme az eredmények:

Igen, a bemutatott klipek egy része indusztriális hatású, különösen, ha alaposan megnézzük a bőr textúráját, vagy ha a jelenet hangulatosabb. de Nézd azt a teknőst! Úgy mozog, mint egy teknős a vízben! Úgy néz ki, mint egy igazi teknős! A Lumiere bemutatkozó videóját elküldtem egy professzionális videószerkesztő barátomnak. Miközben megjegyezte, hogy „egyértelműen megállapítható, hogy ez nem egészen valóságos”, lenyűgözőnek tartotta, hogy ha nem mondanám meg neki, hogy mesterséges intelligencia, akkor CGI-nek gondolná. (Azt is mondta: „Ez elvenné a munkámat, nem?”)

READ A Samsung így hívja a Snapdragon 8 Gen 2 chipet a Galaxy S23-hoz

Más modellek olyan kulcskockákból fűzik össze a videoklipeket, amelyek a cselekvés tényleges megtörténtének helyén keletkeztek (gondoljunk csak egy papírkönyvben szereplő rajzokra), míg a STUNet lehetővé teszi a Lumiere számára, hogy magára a műveletre összpontosítson az alapján, hogy a generált tartalomnak hol kell lennie a videóból meghatározott időpontban.

A Google nem volt nagy szereplő a szöveg-videó kategóriában, de lassan fejlettebb AI-modelleket adott ki, és a multimédiás fókusz felé mozdult el. A Gemini Grand Language Modelje végül imázsgenerálást hoz a bárd számára. A Lumiere még nem tesztelhető, de azt mutatja, hogy a Google képes egy olyan mesterséges intelligencia-videóplatformot kifejleszteni, amely összehasonlítható – és vitathatatlanul valamivel jobb – az általánosan elérhető AI-videógenerátoroknál, mint például a Runway és a Pika. És csak a rekord kedvéért: néhány évvel ezelőtt itt járt a Google az AI-videóval.

Google Imagen klip 2022-ből

Kép: Google

A szövegből videóvá konvertálás létrehozása mellett a Lumiere lehetővé teszi a képből videóvá konvertálást, a stilizált alkotást, lehetővé teszi a felhasználók számára, hogy meghatározott stílusú videókat készítsenek, olyan filmes grafikákat, amelyek a videónak csak egy részét animálják, és a képre való rajzolást is. maszkolja a videó egy részét a szín vagy a minta megváltoztatásához.

A Google Lumiere tanulmánya azonban megjegyezte, hogy „fennáll a visszaélés veszélye a hamis vagy rosszindulatú tartalom létrehozása technológiánk használatával, és úgy gondoljuk, hogy elengedhetetlen olyan eszközök kifejlesztése és bevezetése, amelyek kimutatják az elfogultságokat és a rosszindulatú felhasználás eseteit a biztonságos és tisztességes élmény biztosítása érdekében. .” használják.” A cikk szerzői nem magyarázták el, hogyan lehet ezt elérni.

Jozsef Voros

„Odaadó úttörő az utazásokban. Szabadúszó sörtudós. Szenvedélyes elemző. Kemény twitter-fanatikus.”

Nincs megoldás a 13. és 14. generációs Intel processzorok összeomlásának problémájára – vagyis maradandó károsodásra

Eladók a Galaxy Z Flip 6, Z Fold 6 és az új Samsung hordható termékek

Az iPhone 16 modellek belső változása várhatóan csökkenti a hőmérséklet-emelkedést

A Steward Health Care bezárja a Carney és a Nashoba Valley kórházakat

A csillagászok felfedezik a valaha volt legfényesebb gamma-kitörés első emissziós spektrumát

Coco Gauff és LeBron James műanyag köpenyt viselnek az olimpia megnyitóján

Nincs megoldás a 13. és 14. generációs Intel processzorok összeomlásának problémájára – vagyis maradandó károsodásra

Vélemény, hozzászólás? Válasz megszakítása

More Stories

Nincs megoldás a 13. és 14. generációs Intel processzorok összeomlásának problémájára – vagyis maradandó károsodásra

Eladók a Galaxy Z Flip 6, Z Fold 6 és az új Samsung hordható termékek

Az iPhone 16 modellek belső változása várhatóan csökkenti a hőmérséklet-emelkedést

You may have missed

A Steward Health Care bezárja a Carney és a Nashoba Valley kórházakat

A csillagászok felfedezik a valaha volt legfényesebb gamma-kitörés első emissziós spektrumát

Coco Gauff és LeBron James műanyag köpenyt viselnek az olimpia megnyitóján

Nincs megoldás a 13. és 14. generációs Intel processzorok összeomlásának problémájára – vagyis maradandó károsodásra