10 AI Video na Dapat Mong Panoorin Ngayong Buwan
Ang paglipat mula sa mga static na larawan patungo sa fluid video ay nagmamarka ng pagbabago sa kung paano natin tinitingnan ang digital evidence. Lampas na tayo sa panahon kung saan ang isang prompt ay nakakagawa lang ng isang frame. Ngayon, nakatuon ang industriya sa temporal consistency at physics ng paggalaw. Ang sampung clip na ito ay higit pa sa mga technical milestone. Nagsisilbi silang bintana sa hinaharap kung saan ang harang sa pagitan ng nakuhang sandali at ng binuo ng AI ay tuluyang naglalaho. Maraming manonood ang itinuturing pa rin ang mga video na ito bilang mga novelty lamang. Tinitingnan nila ang mga warped na limbs o ang kumukutitap na background at binabalewala ang tech bilang isang laruan. Mali ito. Ang signal sa mga video na ito ay hindi ang pagiging perpekto ng imahe kundi ang bilis ng pag-unlad nito. Nakikita natin ang raw output ng mga model na natututo sa mga batas ng ating mundo sa pamamagitan ng panonood dito. Ngayong buwan, ang pinakamahalagang clips ay hindi ang mga pinakamaganda ang hitsura. Ang mga ito ay ang mga nagpapatunay na naiintindihan ng software kung paano nag-a-interact ang gravity, liwanag, at human anatomy sa paglipas ng panahon. Ito ang pundasyon ng isang bagong visual language.
Ang kasalukuyang estado ng video generation ay nakadepende sa diffusion models na pinalawak sa ikatlong dimensyon ng oras. Sa halip na hulaan lang kung saan dapat pumunta ang isang pixel sa isang flat plane, hinuhulaan ng mga system na ito kung paano dapat magbago ang pixel na iyon sa loob ng animnapung frames. Nangangailangan ito ng napakalaking compute at malalim na pag-unawa sa continuity. Kapag nanonood ka ng clip ng isang taong naglalakad, dapat tandaan ng model kung ano ang hitsura ng tao tatlong segundo ang nakalipas para masiguradong hindi magbabago ang kulay ng kanilang shirt. Tinatawag itong temporal coherence. Ito ang pinakamahirap na problema sa synthetic media. Karamihan sa mga video na nakikita natin ngayon ay maikli dahil ang pagpapanatili ng coherence na ito sa mahabang panahon ay computationally expensive. Madalas gumagawa ng shortcuts ang mga model. Maaari nilang i-blur ang background o gawing simple ang isang kumplikadong galaw para makatipid sa processing power. Gayunpaman, ang pinakabagong batch ng releases ay nagpapakita ng malaking pagtalon sa pagpapanatili ng detalye sa buong tagal ng clip. Ipinapahiwatig nito na ang mga underlying architecture ay nagiging mas efficient na sa paghawak ng high-dimensional data.
Ang kalituhan ng karamihan sa paksang ito ay ang ideya na ang AI ay