10 AI видеа, които си заслужава да видите този месец
Преходът от статични изображения към плавно видео бележи повратна точка в начина, по който възприемаме дигиталните доказателства. Вече сме далеч от ерата, в която един prompt създава само един кадър. Сега индустрията се фокусира върху времевата последователност и физиката на движението. Тези десет клипа са повече от технически постижения. Те са прозорец към бъдещето, в което границата между уловения момент и синтезирания изчезва напълно. Много зрители все още приемат тези видеа просто като любопитни новости. Гледат изкривените крайници или трептящите фонове и отписват технологията като играчка. Това е грешка. Важното в тези видеа не е съвършенството на изображението, а скоростта на неговото подобрение. Виждаме суровия резултат от модели, които се учат на правилата на нашия свят, наблюдавайки го. Този месец най-важните клипове не са тези, които изглеждат най-добре. Те са тези, които доказват, че софтуерът разбира как гравитацията, светлината и човешката анатомия взаимодействат във времето. Това е основата на нов визуален език.
Текущото състояние на генерирането на видео разчита на diffusion models, които са разширени в третото измерение – времето. Вместо просто да предсказват къде трябва да отиде един pixel върху плоска равнина, тези системи предсказват как този pixel трябва да се промени в рамките на шейсет кадъра. Това изисква огромно количество compute и дълбоко разбиране на приемствеността. Когато гледате клип на човек, който върви, моделът трябва да помни как е изглеждал човекът преди три секунди, за да гарантира, че цветът на ризата му няма да се промени. Това се нарича temporal coherence. Това е най-трудният проблем в synthetic media. Повечето видеа, които виждаме днес, са кратки, защото поддържането на тази кохерентност за дълги периоди е изчислително скъпо. Моделите често използват преки пътища. Може да размият фона или да опростят сложно движение, за да спестят процесорна мощ. Въпреки това, най-новата партида издания показва значителен скок в поддържането на детайлите през цялата продължителност на клипа. Това предполага, че основните архитектури стават по-ефективни при работа с високоизмерни данни.
Объркването, което повечето хора внасят по тази тема, е идеята, че AI „редактира“ видео. Не е така. Той „сънува“ видеото в съществуване от вакуум от шум. Няма изходен материал, който да се манипулира. Има само математическа вероятност, че определена последователност от пиксели представлява котка, която скача, или кола, която се движи. Това разграничение е важно, защото променя начина, по който мислим за авторското право и креативността. Ако няма изходен материал, концепцията за „ремикс“ става остаряла. Имаме работа с генеративен процес, който синтезира информация, видяна по време на обучението, за да създаде нещо изцяло ново. Този процес става толкова бърз, че се приближаваме към генериране в реално време. Скоро забавянето между мисълта и движещото се изображение ще се измерва в милисекунди. Това ще промени начина, по който се разказват истории и как се консумира информация по целия свят.
Глобалните последици от тази технология достигат далеч отвъд Холивуд или рекламните агенции. Навлизаме в ера, в която цената за създаване на висококачествена визуална пропаганда пада до нула. В региони с ниска медийна грамотност един убедителен видеоклип може да предизвика граждански вълнения или да повлияе на избори. Това не е теоретична заплаха. Вече видяхме синтетични клипове, използвани за имитиране на политически лидери и разпространение на дезинформация за глобални конфликти. Скоростта, с която могат да бъдат произведени тези видеа, означава, че проверяващите факти постоянно догонват. Докато едно видео бъде разобличено, то вече е гледано милиони пъти. Това създава постоянно състояние на скептицизъм, при което хората спират да вярват дори на реални кадри. Този „дивидент на лъжеца“ позволява на лошите актьори да отхвърлят истински доказателства за злоупотреби като поредната AI измислица. Ерозията на споделената реалност е може би най-значимата последица от прогреса, който виждаме този месец.
В икономически план въздействието е също толкова дълбоко. Държави, които разчитат на евтини услуги за видеопродукция и анимация, са изправени пред внезапна промяна в търсенето. Ако компания в Ню Йорк може да генерира висококачествено продуктово демо за минути, тя вече не се нуждае от аутсорсинг на тази работа към студио в друга часова зона. Това може да доведе до централизация на творческата власт в ръцете на тези, които притежават най-мощните модели. В същото време това демократизира способността за създаване. Един филмов творец в развиваща се страна вече има достъп до същите визуални инструменти като голямо студио. Това може да доведе до вълна от разнообразно разказване на истории, което преди беше блокирано от високите разходи за навлизане. Глобалният баланс на творческото влияние се променя. Виждаме преход от физическа инфраструктура като снимачни площадки към дигитална инфраструктура като GPU клъстери. Този преход ще предефинира какво означава да бъдеш „творчески“ център през 21-ви век.
Отвъд статичния кадър
За да разберете реалното въздействие, помислете за един ден от живота на творчески директор в средно голяма агенция. В миналото искането на клиент за нова кампания означаваше седмици сториборд, кастинг и търсене на локации. Днес директорът започва сутринта си, като пише описания в генеративен двигател. До обяд той има десет различни версии на тридесетсекунден спот. Нито една от тези версии не изисква камера или екип. Те могат да тестват тези клипове с фокус групи веднага. Ако обратната връзка е отрицателна, те могат да направят итерации и да имат нови версии до следобеда. Този сгъстен график е новата реалност в индустрията. Той позволява ниво на експериментиране, което преди беше невъзможно. Това обаче оказва огромен натиск върху персонала. Очакването вече не е само качество, а екстремен обем и скорост. Ролята на човека се променя от създател на изображения към куратор на възможности. Те трябва да решат коя от хилядите генерирани опции действително пасва на гласа на марката.
Последиците за пазара на труда са сериозни. Началните позиции във видео индустрията, като младши редактори или артисти по motion graphics, се автоматизират първи. Тези роли често включват вида повтарящи се задачи, с които AI се справя най-добре. Например, премахването на фон или съгласуването на осветлението между два кадъра вече може да се направи за секунди. Въпреки че това освобождава старшите творци да се фокусират върху голямата картина, то премахва „тренировъчната площадка“ за следващото поколение таланти. Без тези начални роли не е ясно как младите професионалисти ще развият уменията, необходими, за да станат режисьори или продуценти. Виждаме изпразване на средната класа в творческите изкуства. Пропастта между независимия творец, използващ AI, и режисьора от висок клас, използващ микс от инструменти, се разширява. Това създава нов набор от предизвикателства за компаниите, които се опитват да изградят устойчиви творчески екипи.
Имате история, инструмент, тенденция или въпрос, свързани с ИИ, които смятате, че трябва да обхванем? Изпратете ни вашата идея за статия — ще се радваме да я чуем.Практическите залози са видими в начина, по който компаниите преструктурират бюджетите си. Парите, които преди отиваха за пътувания и оборудване, сега се насочват към cloud compute кредити и обучение по prompt engineering. Малък екип вече може да произведе работа, която изглежда така, сякаш е имала бюджет от милион долара. Това е огромно предимство за стартъпи и независими творци. Те могат да се конкурират с утвърдени марки на визуално ниво за първи път. Това обаче води и до пренаселен пазар. Когато всеки може да произвежда висококачествено видео, стойността на самото видео намалява. Премията се измества от изображението към идеята. Способността да разкажеш завладяваща история става единственият начин да се откроиш в море от перфектно, генерирано от AI съдържание.
BotNews.today използва инструменти за изкуствен интелект за проучване, писане, редактиране и превод на съдържание. Нашият екип преглежда и наблюдава процеса, за да запази информацията полезна, ясна и надеждна.
- Очаква се производствените разходи за кратко маркетингово съдържание да спаднат с над 70 процента.
- Времето, необходимо за постпродукция на визуални ефекти, се съкращава от месеци на дни.
Трябва да приложим Сократов скептицизъм към този бърз напредък. Какви са скритите разходи на тази „безплатна“ креативност? Първият разход е екологичен. Обучението и работата на тези модели изискват зашеметяващо количество електричество и вода за охлаждане на центрове за данни. Докато генерираме повече видео, нашият въглероден отпечатък расте. Струва ли си способността да създадем клип на котка в космически костюм екологичния отпечатък? Вторият разход е загубата на „човешкото докосване“. Има нематериално качество във видео, заснето на филм от човек, който е направил специфични, несъвършени избори. AI видеото често е твърде перфектно, което води до ефект на „uncanny valley“, който може да се почувства бездушен. Ако преминем изцяло към synthetic media, губим ли способността да се свързваме един с друг на висцерално ниво? Трябва също да попитаме кой притежава „стила“ на тези видеа. Ако един модел е обучен върху работата на хиляди некомпенсирани артисти, дали резултатът е наистина нов, или е форма на високотехнологичен плагиат?
Поверителността е друга основна грижа. Ако тези модели могат да генерират реалистично видео на всеки, който прави каквото и да е, концепцията за „съгласие“ изчезва. Вече виждаме възхода на deepfake порнографията и изображения без съгласие. Това е системен провал на платформите, които хостват това съдържание. Те не могат или не искат да контролират потока от synthetic media. Трябва да се запитаме дали ползите от генеративното видео надвишават потенциала за променяща живота вреда за индивидите. Освен това, какво се случва с нашата правна система? Ако на видео доказателствата вече не може да се вярва, как да докажем, че е извършено престъпление? Основите на нашите системи за правосъдие и информация са изградени върху идеята, че да видиш означава да повярваш. Ако прекъснем тази връзка, може да се окажем в свят, в който истината е това, което казва най-мощният алгоритъм. Това са трудните въпроси, пред които трябва да се изправим, докато технологията продължава да зрее.
За напредналите потребители техническите детайли са мястото, където е скрит истинският прогрес. Виждаме преход към локално съхранение и изпълнение на тези модели. Въпреки че cloud-based API като тези от OpenAI или Runway са популярни, много творци търсят начини да стартират тези системи на собствен хардуер. Това осигурява повече контрол върху изхода и избягва строгите филтри, наложени от големите корпорации. Хардуерните изисквания обаче са високи. За да генерирате видео с висока разделителна способност при разумна честота на кадрите, ви е необходим GPU с поне 24GB VRAM. Това ограничава „локалната“ революция до тези, които могат да си позволят работни станции от висок клас. Виждаме и появата на workflow integrations, при които AI видео инструменти се включват директно в софтуер като Adobe Premiere или DaVinci Resolve. Това позволява хибриден подход, при който AI генерира специфични елементи, които след това се прецизират от човешки редактор.
API лимитите остават значително тясно място за разработчиците. Повечето доставчици таксуват на секунда генерирано видео, което бързо може да стане скъпо за мащабни проекти. Има и ограничения за броя на едновременните заявки, което затруднява изграждането на приложения в реално време. Следващата година вероятно ще види натиск за по-ефективни модели, които могат да работят на потребителски хардуер. Вече виждаме първите стъпки в тази посока с „дестилирани“ версии на популярни модели. Тези по-малки версии жертват част от детайлите за масивно увеличение на скоростта. За geek общността фокусът е върху fine-tuning. Чрез обучение на малък слой върху базов модел, творецът може да научи AI да разпознава специфичен герой или арт стил. Това ниво на персонализация е това, което ще премести AI видеото от гимик към професионален инструмент. То позволява вида последователност, необходима за дълго разказване на истории.
- Текущите API латентности за генериране на висококачествено видео варират от 30 до 60 секунди на клип.
- Локалното съхранение за теглата на модела може да надвиши 100GB за най-модерните версии с отворен код.
Бележка на редактора: Създадохме този сайт като многоезичен център за новини и ръководства за изкуствен интелект за хора, които не са компютърни маниаци, но все пак искат да разберат изкуствения интелект, да го използват с повече увереност и да следят бъдещето, което вече настъпва.
Изводът е, че видеата, които виждаме този месец, са доказателство за фундаментална промяна в природата на медиите. Отдалечаваме се от свят на заснемане към свят на синтез. Това не е просто промяна в инструментите, а промяна в начина, по който се отнасяме към реалността. Сигналът, който трябва да следим, е интеграцията на тези инструменти в ежедневието. Когато вече не можете да кажете дали едно видео е заснето на iPhone или генерирано в cloud, технологията е победила. Значимият прогрес няма да бъде по-реалистичен клип на дракон. Това ще бъде разработването на инструменти, които позволяват прецизен контрол кадър по кадър. Това ще бъде създаването на стабилни системи за воден знак, които могат да оцелеят при компресия и редактиране. Най-важното е, че това ще бъде установяването на нови социални норми и закони, които защитават индивидите от злоупотреба с тази сила. Видеата са само началото на историята за .
Открихте грешка или нещо, което трябва да бъде коригирано? Уведомете ни.