10 AI-videoer du skal se i denne måned
Overgangen fra statiske billeder til flydende video markerer et skifte i, hvordan vi opfatter digitale beviser. Vi bevæger os forbi den æra, hvor en prompt kun skaber et enkelt billede. Nu fokuserer branchen på temporal konsistens og bevægelsesfysik. Disse ti klip repræsenterer mere end blot tekniske milepæle. De fungerer som et vindue til en fremtid, hvor barrieren mellem et optaget øjeblik og et syntetisk øjeblik forsvinder helt. Mange seere betragter stadig disse videoer som rene nyheder. De ser på de forvrængede lemmer eller de flimrende baggrunde og afviser teknologien som et legetøj. Det er en fejl. Signalet i disse videoer er ikke billedets perfektion, men hastigheden af dets forbedring. Vi ser det rå output fra modeller, der lærer vores verdens regler ved at observere den. I denne måned er de vigtigste klip ikke dem, der ser bedst ud. Det er dem, der beviser, at softwaren forstår, hvordan tyngdekraft, lys og menneskelig anatomi interagerer over tid. Dette er fundamentet for et nyt visuelt sprog.
Den nuværende tilstand af videogenerering hviler på diffusion models, der er udvidet til tidens tredje dimension. I stedet for blot at forudsige, hvor en pixel skal placeres på en flad flade, forudsiger disse systemer, hvordan pixlen skal ændre sig over tres frames. Dette kræver en enorm mængde compute og en dyb forståelse for kontinuitet. Når du ser et klip af en person, der går, skal modellen huske, hvordan personen så ud for tre sekunder siden for at sikre, at deres skjortefarve ikke ændrer sig. Dette kaldes temporal coherence. Det er det sværeste problem inden for syntetiske medier. De fleste videoer, vi ser i dag, er korte, fordi det er beregningsmæssigt dyrt at opretholde denne kohærens over længere tid. Modellerne tager ofte genveje. De kan sløre en baggrund eller forenkle en kompleks bevægelse for at spare på processorkraften. Den seneste bølge af udgivelser viser dog et markant spring i at bevare detaljer gennem hele klippets varighed. Dette tyder på, at de underliggende arkitekturer bliver mere effektive til at håndtere højdimensionelle data.
Den forvirring, de fleste bringer til dette emne, er idéen om, at AI’en