10 video AI da guardare questo mese [2024]
Il passaggio dalle immagini statiche ai video fluidi segna un cambiamento radicale nel modo in cui percepiamo le prove digitali. Siamo oltre l’era in cui un prompt produceva un singolo fotogramma. Ora, l’industria si concentra sulla coerenza temporale e sulla fisica del movimento. Questi dieci clip rappresentano molto più che semplici traguardi tecnici. Sono una finestra su un futuro in cui il confine tra un momento catturato e uno sintetizzato scompare del tutto. Molti spettatori trattano ancora questi video come semplici curiosità. Osservano gli arti distorti o gli sfondi tremolanti e liquidano la tecnologia come un giocattolo. È un errore. Il segnale in questi video non è la perfezione dell’immagine, ma la velocità del suo miglioramento. Stiamo vedendo l’output grezzo di modelli che imparano le regole del nostro mondo osservandolo. Questo mese, i clip più importanti non sono quelli che appaiono migliori, ma quelli che dimostrano come il software comprenda l’interazione tra gravità, luce e anatomia umana nel tempo. Questa è la base di un nuovo linguaggio visivo.
Lo stato attuale della generazione video si basa su modelli di diffusione estesi alla terza dimensione del tempo. Invece di limitarsi a prevedere dove dovrebbe andare un pixel su un piano piatto, questi sistemi prevedono come quel pixel dovrebbe cambiare nell’arco di sessanta fotogrammi. Ciò richiede una quantità massiccia di calcolo e una profonda comprensione della continuità. Quando guardi un clip di una persona che cammina, il modello deve ricordare com’era quella persona tre secondi fa per garantire che il colore della camicia non cambi. Si chiama coerenza temporale. È il problema più difficile nei media sintetici. La maggior parte dei video che vediamo oggi è breve perché mantenere questa coerenza su lunghe durate è computazionalmente costoso. I modelli spesso prendono scorciatoie, magari sfocando uno sfondo o semplificando un movimento complesso per risparmiare potenza di elaborazione. Tuttavia, l’ultima serie di rilasci mostra un salto significativo nel mantenere i dettagli per l’intera durata del clip. Ciò suggerisce che le architetture sottostanti stiano diventando più efficienti nel gestire dati ad alta dimensionalità.
La confusione che la maggior parte delle persone porta in questo argomento è l’idea che l’AI stia