A Google új AI-modellje videógeneráláshoz Lumiere A használatos Egy új diffúziós modellt ún Space-Time-U-Net, vagy STUNet, amely meghatározza, hogy a videóban lévő objektumok hol vannak (tér), és hogyan mozognak és változnak egyszerre (idő). Ars Technica Ez a módszer lehetővé teszi a Lumiere számára, hogy a videót egyetlen folyamatban hozza létre, ahelyett, hogy kisebb állóképeket fűzne össze.
A Lumiere azzal kezdi, hogy létrehoz egy alapkockát a vektorból. Ezután a STUNet keretrendszer segítségével elkezdi közelíteni, hogy az objektumok hol fognak mozogni a kereten belül, hogy több képkockát hozzon létre, amelyek egymásba áramlanak, így sima mozgás látszatát keltve. A Lumiere 80 képkockát is készít, szemben a Stable Video Diffusion 25 képkockájával.
Igaz, én inkább szöveges riporter vagyok, mintsem videós, de a Google sajtóközleménye, valamint egy előzetesen nyomtatott tudományos cikk azt mutatja, hogy az AI videókészítő és -szerkesztő eszközök néhány év alatt a rejtélyes völgyből szinte valóságossá váltak. . A Google technológiáját egy olyan területen is meghonosítja, amelyet már olyan versenytársak is elfoglaltak, mint a Runway, a Stable Video Diffusion vagy a Meta's Emu. A Runway, az egyik első tömegesen gyártott szöveg-videó platform, tavaly márciusban elindította a Runway Gen-2-t, és valósághűbb videókat kínált. A futópálya-videóknak is nehézségei vannak az akciók rögzítésében.
A Google volt olyan kedves, hogy elhelyezte a klipeket és promptokat a Lumiere webhelyen, lehetővé téve, hogy összehasonlítás céljából ugyanazokat az utasításokat tegyem fel a Runway-re. Íme az eredmények:
Igen, a bemutatott klipek egy része indusztriális hatású, különösen, ha alaposan megnézzük a bőr textúráját, vagy ha a jelenet hangulatosabb. de Nézd azt a teknőst! Úgy mozog, mint egy teknős a vízben! Úgy néz ki, mint egy igazi teknős! A Lumiere bemutatkozó videóját elküldtem egy professzionális videószerkesztő barátomnak. Miközben megjegyezte, hogy „egyértelműen megállapítható, hogy ez nem egészen valóságos”, lenyűgözőnek tartotta, hogy ha nem mondanám meg neki, hogy mesterséges intelligencia, akkor CGI-nek gondolná. (Azt is mondta: „Ez elvenné a munkámat, nem?”)
Más modellek olyan kulcskockákból fűzik össze a videoklipeket, amelyek a cselekvés tényleges megtörténtének helyén keletkeztek (gondoljunk csak egy papírkönyvben szereplő rajzokra), míg a STUNet lehetővé teszi a Lumiere számára, hogy magára a műveletre összpontosítson az alapján, hogy a generált tartalomnak hol kell lennie a videóból meghatározott időpontban.
A Google nem volt nagy szereplő a szöveg-videó kategóriában, de lassan fejlettebb AI-modelleket adott ki, és a multimédiás fókusz felé mozdult el. A Gemini Grand Language Modelje végül imázsgenerálást hoz a bárd számára. A Lumiere még nem tesztelhető, de azt mutatja, hogy a Google képes egy olyan mesterséges intelligencia-videóplatformot kifejleszteni, amely összehasonlítható – és vitathatatlanul valamivel jobb – az általánosan elérhető AI-videógenerátoroknál, mint például a Runway és a Pika. És csak a rekord kedvéért: néhány évvel ezelőtt itt járt a Google az AI-videóval.
A szövegből videóvá konvertálás létrehozása mellett a Lumiere lehetővé teszi a képből videóvá konvertálást, a stilizált alkotást, lehetővé teszi a felhasználók számára, hogy meghatározott stílusú videókat készítsenek, olyan filmes grafikákat, amelyek a videónak csak egy részét animálják, és a képre való rajzolást is. maszkolja a videó egy részét a szín vagy a minta megváltoztatásához.
A Google Lumiere tanulmánya azonban megjegyezte, hogy „fennáll a visszaélés veszélye a hamis vagy rosszindulatú tartalom létrehozása technológiánk használatával, és úgy gondoljuk, hogy elengedhetetlen olyan eszközök kifejlesztése és bevezetése, amelyek kimutatják az elfogultságokat és a rosszindulatú felhasználás eseteit a biztonságos és tisztességes élmény biztosítása érdekében. .” használják.” A cikk szerzői nem magyarázták el, hogyan lehet ezt elérni.
More Stories
Fekete mítosz: A Wukong 1.0.8.14860 frissítés néhány fontos javítást tartalmaz, és különösen egy főnököt gyengít
A Castlevania Dominus Collection fizikai megjelenése megerősítve, az előrendelések a következő hónapban indulnak
Az iPhone 16 még nem jelent meg, és valójában van miért várni az iPhone 17 megjelenéséig