„Meta's Movie Gen“ modelis sukuria tikrovišką vaizdo įrašą su garsu, todėl pagaliau galime turėti begalinį „Moo Deng“
Kol kas niekas iš tikrųjų nežino, kam generatyvūs vaizdo įrašų modeliai yra naudingi, tačiau tai nesutrukdė tokioms įmonėms kaip „Runway“, „OpenAI“ ir „Meta“ išleisti milijonus jų kūrimui. Naujausias „Meta“ yra pavadintas „Movie Gen“ ir pagal pavadinimą tekstinius raginimus paverčia gana tikrovišku vaizdo įrašu su garsu… bet, laimei, dar nėra balso. Ir išmintingai jie to neviešina.
„Movie Gen“ iš tikrųjų yra pagrindinių modelių rinkinys (arba, kaip jie sako, „atliejimas“, iš kurių didžiausias yra teksto į vaizdo įrašą bitas). Meta teigia, kad jis lenkia tokius, kaip Runway's Gen3, naujausias LumaLabs ir Kling1.5, nors kaip visada tokio tipo daiktai labiau parodo, kad jie žaidžia tą patį žaidimą, o ne tai, kad Movie Gen laimi. Techninę informaciją galima rasti Meta išleistame dokumente, kuriame aprašomos visos sudedamosios dalys.
Garsas generuojamas taip, kad atitiktų vaizdo įrašo turinį, pridedant, pavyzdžiui, variklio triukšmą, atitinkantį automobilio judesius, krioklio šniokštimą fone arba griaustinį įpusėjus vaizdo įrašui, kai to reikia. Jis netgi pridės muzikos, jei tai atrodys aktualu.
Jis buvo apmokytas apie „licencijuotų ir viešai prieinamų duomenų rinkinių derinį“, kurį jie vadino „patentuotais / komerciškai jautriais“ ir nepateikė daugiau informacijos. Galime tik spėlioti, kad tai yra daug „Instagram“ ir „Facebook“ vaizdo įrašų, taip pat kai kurie partnerių dalykai ir daugybė kitų, kurie yra nepakankamai apsaugoti nuo grandiklių – dar žinomas kaip „viešai prieinamas“.
Tačiau „Meta“ čia aiškiai siekia ne tik „meno lygio“ karūnos užfiksuoti mėnesiui ar dviems, bet ir praktiško, „sriubos iki riešutų“ metodo, kai iš labai paprasto gali būti pagamintas tvirtas galutinis produktas. , natūralios kalbos raginimas. Tokie dalykai kaip „įsivaizduokite mane kaip kepėją, gaminančią blizgantį begemoto pyragą per perkūniją“.
Pavyzdžiui, vienas šių vaizdo įrašų generatorių kliūtis buvo tai, kaip sunku juos redaguoti. Jei paprašysite vaizdo įrašo, kuriame kažkas eina per gatvę, tada suprasite, kad norite, kad jis eitų iš dešinės į kairę, o ne iš kairės į dešinę, yra didelė tikimybė, kad visas kadras atrodys kitaip, kai pakartosite raginimą su ta papildoma instrukcija. Meta prideda paprastą, tekstu pagrįstą redagavimo metodą, kai galite tiesiog pasakyti „pakeisti foną į judrią sankryžą“ arba „pakeisti jos drabužius į raudoną suknelę“, ir ji bandys tai pakeisti, bet tik kad pasikeitimas.
Fotoaparato judesiai taip pat paprastai suprantami, o kuriant vaizdo įrašą atsižvelgiama į tokius dalykus kaip „stebėjimo kadras“ ir „slinkimas į kairę“. Tai vis dar gana gremėzdiška, palyginti su tikru fotoaparato valdymu, tačiau tai daug geriau nei nieko.
Modelio apribojimai yra šiek tiek keisti. Jis generuoja 768 pikselių pločio vaizdo įrašą – matmenį, kuris daugeliui pažįstamas iš garsiojo, bet pasenusio 1024 × 768, tačiau jis taip pat yra tris kartus 256, todėl puikiai atkuria kitus HD formatus. „Movie Gen“ sistema padidina šią raišką iki 1080p, o tai yra teiginio, kad ji sukuria tokią skiriamąją gebą, šaltinis. Netiesa, bet mes jiems leisime, nes padidinimas yra stebėtinai efektyvus.
Keista, bet jis sukuria iki 16 sekundžių vaizdo įrašo… 16 kadrų per sekundę greičiu – tokiu kadrų dažniu istorijoje, kurio niekas niekada nenorėjo ir neprašė. Tačiau taip pat galite filmuoti 10 sekundžių 24 FPS greičiu. Vadovaukitės tuo!
Kalbant apie tai, kodėl jis neveikia balso… na, tikriausiai yra dvi priežastys. Pirma, tai labai sunku. Sukurti kalbą dabar lengva, tačiau suderinti ją su lūpų judesiais, o tas lūpas – su veido judesiais – daug sudėtingesnis pasiūlymas. Nekaltinu jų, kad paliko tai vėliau, nes tai būtų vienos minutės nesėkmės atvejis. Kas nors galėtų pasakyti: „Sukurkite klouną, pranešantį Getisburgo adresą, važiuodami mažu dviračiu ratu“ – košmariškas kuras, pradėtas plisti.
Antroji priežastis greičiausiai yra politinė: likus mėnesiui iki pagrindinių rinkimų išleisti tai, kas prilygsta padirbtam generatoriui, nėra geriausia optikai. Praktinis prevencinis žingsnis yra šiek tiek apkarpyti jo galimybes, kad piktybiški veikėjai pabandytų ja pasinaudoti. Žinoma, šį generacinį modelį būtų galima derinti su kalbos generatoriumi ir sinchronizavimo su atviromis lūpomis modeliu, bet jūs negalite leisti, kad jis tiesiog generuotų kandidatą, pareiškiantį nepaprastus teiginius.
„Šiuo metu „Movie Gen“ yra grynai dirbtinio intelekto tyrimų koncepcija, ir net šiame ankstyvame etape sauga yra svarbiausias prioritetas, kaip ir visoms mūsų generuojamoms AI technologijoms“, – atsakė „Meta“ atstovas į „TechCrunch“ klausimus.
Kitaip nei, tarkime, Llama didelių kalbų modeliai, Movie Gen nebus viešai prieinama. Galite šiek tiek atkartoti jo metodus vadovaudamiesi tyrimo straipsniu, tačiau kodas nebus paskelbtas, išskyrus „pagrindinį vertinimo raginimo duomenų rinkinį“, ty įrašą, kokie raginimai buvo naudojami kuriant bandomuosius vaizdo įrašus.