A Google Lumiere segítségével a mesterséges intelligencia videója közelebb kerül a valósághoz, mint a valósághoz

A Google új AI-modellje videógeneráláshoz Lumiere A használatos Egy új diffúziós modellt ún Space-Time-U-Net, vagy STUNet, amely meghatározza, hogy a videóban lévő objektumok hol vannak (tér), és hogyan mozognak és változnak egyszerre (idő). Ars Technica Ez a módszer lehetővé teszi a Lumiere számára, hogy a videót egyetlen folyamatban hozza létre, ahelyett, hogy kisebb állóképeket fűzne össze.

A Lumiere azzal kezdi, hogy létrehoz egy alapkockát a vektorból. Ezután a STUNet keretrendszer segítségével elkezdi közelíteni, hogy az objektumok hol fognak mozogni a kereten belül, hogy több képkockát hozzon létre, amelyek egymásba áramlanak, így sima mozgás látszatát keltve. A Lumiere 80 képkockát is készít, szemben a Stable Video Diffusion 25 képkockájával.

Igaz, én inkább szöveges riporter vagyok, mintsem videós, de a Google sajtóközleménye, valamint egy előzetesen nyomtatott tudományos cikk azt mutatja, hogy az AI videókészítő és -szerkesztő eszközök néhány év alatt a rejtélyes völgyből szinte valóságossá váltak. . A Google technológiáját egy olyan területen is meghonosítja, amelyet már olyan versenytársak is elfoglaltak, mint a Runway, a Stable Video Diffusion vagy a Meta's Emu. A Runway, az egyik első tömegesen gyártott szöveg-videó platform, tavaly márciusban elindította a Runway Gen-2-t, és valósághűbb videókat kínált. A futópálya-videóknak is nehézségei vannak az akciók rögzítésében.

A Google volt olyan kedves, hogy elhelyezte a klipeket és promptokat a Lumiere webhelyen, lehetővé téve, hogy összehasonlítás céljából ugyanazokat az utasításokat tegyem fel a Runway-re. Íme az eredmények:

Igen, a bemutatott klipek egy része indusztriális hatású, különösen, ha alaposan megnézzük a bőr textúráját, vagy ha a jelenet hangulatosabb. de Nézd azt a teknőst! Úgy mozog, mint egy teknős a vízben! Úgy néz ki, mint egy igazi teknős! A Lumiere bemutatkozó videóját elküldtem egy professzionális videószerkesztő barátomnak. Miközben megjegyezte, hogy „egyértelműen megállapítható, hogy ez nem egészen valóságos”, lenyűgözőnek tartotta, hogy ha nem mondanám meg neki, hogy mesterséges intelligencia, akkor CGI-nek gondolná. (Azt is mondta: „Ez elvenné a munkámat, nem?”)

READ A Nintendo a hét végén bővíti Game Boy Advance könyvtárát a Switch Online számára

Más modellek olyan kulcskockákból fűzik össze a videoklipeket, amelyek a cselekvés tényleges megtörténtének helyén keletkeztek (gondoljunk csak egy papírkönyvben szereplő rajzokra), míg a STUNet lehetővé teszi a Lumiere számára, hogy magára a műveletre összpontosítson az alapján, hogy a generált tartalomnak hol kell lennie a videóból meghatározott időpontban.

A Google nem volt nagy szereplő a szöveg-videó kategóriában, de lassan fejlettebb AI-modelleket adott ki, és a multimédiás fókusz felé mozdult el. A Gemini Grand Language Modelje végül imázsgenerálást hoz a bárd számára. A Lumiere még nem tesztelhető, de azt mutatja, hogy a Google képes egy olyan mesterséges intelligencia-videóplatformot kifejleszteni, amely összehasonlítható – és vitathatatlanul valamivel jobb – az általánosan elérhető AI-videógenerátoroknál, mint például a Runway és a Pika. És csak a rekord kedvéért: néhány évvel ezelőtt itt járt a Google az AI-videóval.

Google Imagen klip 2022-ből

Kép: Google

A szövegből videóvá konvertálás létrehozása mellett a Lumiere lehetővé teszi a képből videóvá konvertálást, a stilizált alkotást, lehetővé teszi a felhasználók számára, hogy meghatározott stílusú videókat készítsenek, olyan filmes grafikákat, amelyek a videónak csak egy részét animálják, és a képre való rajzolást is. maszkolja a videó egy részét a szín vagy a minta megváltoztatásához.

A Google Lumiere tanulmánya azonban megjegyezte, hogy „fennáll a visszaélés veszélye a hamis vagy rosszindulatú tartalom létrehozása technológiánk használatával, és úgy gondoljuk, hogy elengedhetetlen olyan eszközök kifejlesztése és bevezetése, amelyek kimutatják az elfogultságokat és a rosszindulatú felhasználás eseteit a biztonságos és tisztességes élmény biztosítása érdekében. .” használják.” A cikk szerzői nem magyarázták el, hogyan lehet ezt elérni.

Imre Kertész

„Odaadó úttörő az utazásokban. Szabadúszó sörtudós. Szenvedélyes elemző. Kemény twitter-fanatikus.”

A Lenovo kedvezőbb árú, 16 hüvelykes ThinkPadet mutatott be Panther Lake processzorral és akár 32 GB RAM-mal

Az Android Auto új korszakba lép: látványos megújulás és mesterséges intelligencia érkezik

Google Pixel 11: erősebb mesterséges intelligencia, visszafogott hardveres újítások

A Lenovo kedvezőbb árú, 16 hüvelykes ThinkPadet mutatott be Panther Lake processzorral és akár 32 GB RAM-mal

Rejtélyes marsi jelenséget azonosítottak egy elveszett NASA-űrszonda korábbi adatai alapján

Az EKB figyelmeztetése: a bankoknak sürgősen erősíteniük kell kiberbiztonsági rendszereiket az AI térnyerése miatt

Az Android Auto új korszakba lép: látványos megújulás és mesterséges intelligencia érkezik

Vélemény, hozzászólás? Válasz megszakítása

More Stories

A Lenovo kedvezőbb árú, 16 hüvelykes ThinkPadet mutatott be Panther Lake processzorral és akár 32 GB RAM-mal

Az Android Auto új korszakba lép: látványos megújulás és mesterséges intelligencia érkezik

Google Pixel 11: erősebb mesterséges intelligencia, visszafogott hardveres újítások

You may have missed

A Lenovo kedvezőbb árú, 16 hüvelykes ThinkPadet mutatott be Panther Lake processzorral és akár 32 GB RAM-mal

Rejtélyes marsi jelenséget azonosítottak egy elveszett NASA-űrszonda korábbi adatai alapján

Az EKB figyelmeztetése: a bankoknak sürgősen erősíteniük kell kiberbiztonsági rendszereiket az AI térnyerése miatt

Az Android Auto új korszakba lép: látványos megújulás és mesterséges intelligencia érkezik