इस महीने देखने लायक 10 AI वीडियो
स्थिर छवियों से तरल वीडियो की ओर संक्रमण उस तरीके में एक बड़ा बदलाव है जिससे हम डिजिटल साक्ष्य को देखते हैं। हम उस युग से आगे बढ़ रहे हैं जहाँ एक प्रॉम्प्ट से केवल एक फ्रेम मिलता था। अब, इंडस्ट्री का ध्यान टेम्पोरल कंसिस्टेंसी (temporal consistency) और गति के भौतिकी (physics of motion) पर है। ये दस क्लिप केवल तकनीकी मील के पत्थर से कहीं अधिक हैं। वे एक ऐसे भविष्य की खिड़की हैं जहाँ एक कैप्चर किए गए पल और एक सिंथेसाइज्ड पल के बीच की बाधा पूरी तरह से गायब हो जाती है। कई दर्शक अभी भी इन वीडियो को केवल एक नवीनता मानते हैं। वे मुड़े हुए अंगों या झिलमिलाती पृष्ठभूमि को देखते हैं और इस तकनीक को खिलौना समझकर खारिज कर देते हैं। यह एक गलती है। इन वीडियो में असली संकेत छवि की पूर्णता नहीं, बल्कि इसके सुधार की गति है। हम उन मॉडल्स का कच्चा आउटपुट देख रहे हैं जो हमारी दुनिया को देखकर उसके नियमों को सीख रहे हैं। इस महीने, सबसे महत्वपूर्ण क्लिप वे नहीं हैं जो सबसे अच्छी दिखती हैं। वे वे हैं जो साबित करती हैं कि सॉफ्टवेयर समझता है कि गुरुत्वाकर्षण, प्रकाश और मानव शरीर रचना समय के साथ कैसे इंटरैक्ट करते हैं। यह एक नई दृश्य भाषा की नींव है।
वीडियो जनरेशन की वर्तमान स्थिति डिफ्यूजन मॉडल्स पर निर्भर करती है जिन्हें समय के तीसरे आयाम तक विस्तारित किया गया है। केवल यह अनुमान लगाने के बजाय कि एक पिक्सेल को एक सपाट सतह पर कहाँ जाना चाहिए, ये सिस्टम अनुमान लगाते हैं कि उस पिक्सेल को साठ फ्रेम में कैसे बदलना चाहिए। इसके लिए भारी मात्रा में कंप्यूट और निरंतरता की गहरी समझ की आवश्यकता होती है। जब आप किसी व्यक्ति के चलने की क्लिप देखते हैं, तो मॉडल को यह याद रखना चाहिए कि तीन सेकंड पहले वह व्यक्ति कैसा दिखता था ताकि यह सुनिश्चित हो सके कि उनकी शर्ट का रंग न बदले। इसे टेम्पोरल कोहेरेंस (temporal coherence) कहा जाता है। यह सिंथेटिक मीडिया में सबसे कठिन समस्या है। आज हम जो अधिकांश वीडियो देखते हैं, वे छोटे होते हैं क्योंकि लंबी अवधि तक इस कोहेरेंस को बनाए रखना कंप्यूटेशनल रूप से महंगा है। मॉडल अक्सर शॉर्टकट लेते हैं। वे प्रोसेसिंग पावर बचाने के लिए पृष्ठभूमि को धुंधला कर सकते हैं या जटिल गति को सरल बना सकते हैं। हालाँकि, रिलीज़ का नवीनतम बैच क्लिप की पूरी अवधि में विवरण बनाए रखने में एक महत्वपूर्ण छलांग दिखाता है। यह बताता है कि अंतर्निहित आर्किटेक्चर हाई-डायमेंशनल डेटा को संभालने में अधिक कुशल हो रहे हैं।
इस विषय पर अधिकांश लोगों में जो भ्रम है, वह यह विचार है कि AI वीडियो को