Video AI-ன் அடுத்த அதிரடிப் பாய்ச்சல்: தத்ரூபமா, வேகமா அல்லது எடிட்டிங்கா?
ஆட்டம் காணும் பிக்சல்களுக்கு விடை கொடுப்போம்!
மங்கலான மற்றும் கோணலான செயற்கை நுண்ணறிவு (AI) வீடியோக்களின் காலம் நாம் எதிர்பார்த்ததை விட வேகமாக முடிவுக்கு வருகிறது. சில மாதங்களுக்கு முன்பு வரை, உருகும் கைகால்கள் மற்றும் இயற்பியல் விதிகளுக்கு அப்பாற்பட்ட அசைவுகளை வைத்தே இவை போலி வீடியோக்கள் என்று எளிதாகக் கண்டுபிடித்துவிடலாம். ஆனால் இன்று, வெறும் வேடிக்கைக்காக மட்டுமில்லாமல், தொழில்முறை பயன்பாட்டிற்காக இவை மாறத் தொடங்கிவிட்டன. ஒளியானது ஒரு மேற்பரப்பில் எப்படி விழ வேண்டுமோ, அப்படியே துல்லியமாக விழும் உயர் ரக தத்ரூபத்தை (high-fidelity realism) நாம் இப்போது பார்க்கிறோம். இது வெறும் ரெசல்யூஷன் உயர்வு மட்டுமல்ல; மென்பொருட்கள் இந்த முப்பரிமாண உலகைப் புரிந்துகொள்ளும் விதத்தில் ஏற்பட்டுள்ள ஒரு அடிப்படை மாற்றம். உலகெங்கிலும் உள்ள மக்களுக்கு, இது ஒரு நிஜமான வீடியோவிற்கும், உருவாக்கப்பட்ட வீடியோவிற்கும் இடையிலான கோட்டை மெல்லியதாக்கி மறைத்து வருகிறது. சுருக்கமாகச் சொன்னால், வீடியோ உருவாக்கம் என்பது இனி சமூக ஊடக மீம்ஸ்களுக்கான விளையாட்டுப் பொருள் அல்ல. இது நவீன தயாரிப்பு முறையின் (production stack) ஒரு முக்கிய அங்கமாக மாறி வருகிறது. இந்த மாற்றம், கேமரா மற்றும் செட் (set) என்பதற்கான வரையறையை மறுபரிசீலனை செய்ய ஒவ்வொரு படைப்புத் துறையையும் கட்டாயப்படுத்துகிறது. இந்த மாற்றத்தை வெறும் வித்தை என்று நினைப்பவர்களுக்கும், இது ஊடக உருவாக்கத்தில் ஒரு கட்டமைப்பு மாற்றம் என்று புரிந்துகொள்பவர்களுக்கும் இடையே ஒரு பெரிய இடைவெளி உருவாகி வருகிறது.
டிஃப்யூஷன் மாடல்கள் காலத்தை வெல்வது எப்படி?
வீடியோக்கள் இப்போது ஏன் இவ்வளவு சிறப்பாக இருக்கின்றன என்பதைப் புரிந்துகொள்ள, நாம் கால நிலைத்தன்மையை (temporal consistency) கவனிக்க வேண்டும். ஆரம்பகால மாடல்கள் வீடியோவை தனித்தனி படங்களின் தொகுப்பாகவே பார்த்தன. இதனால் AI முந்தைய பிரேம் (frame) எப்படி இருந்தது என்பதை மறந்துவிட்டதால், வீடியோக்கள் விட்டு விட்டுத் தெரியும் (flickering) விளைவை ஏற்படுத்தின. புதிய மாடல்கள் முழு வீடியோவையும் ஒரே தரவுத் தொகுப்பாக (block of data) கையாளுகின்றன. இவை latent diffusion மற்றும் transformer கட்டமைப்புகளைப் பயன்படுத்தி, திரையில் நகரும் ஒரு பொருள் முதல் வினாடி முதல் கடைசி வினாடி வரை அதன் வடிவம் மற்றும் நிறத்தை மாறாமல் வைத்திருப்பதை உறுதி செய்கின்றன. இந்த புதிய மாற்றத்தால், ஒளி மூலம் மாறும்போது நிழல்கள் எப்படி நகர வேண்டும் என்பதை மென்பொருளால் கணிக்க முடிகிறது. இது கடந்த கால நிலையான இமேஜ் ஜெனரேட்டர்களில் இருந்து ஒரு மிகப்பெரிய பாய்ச்சல். இந்த முன்னேற்றங்கள் குறித்த கூடுதல் விவரங்களை சமீபத்திய AI வீடியோ டிரெண்ட்கள் மூலம் தெரிந்துகொள்ளலாம். பழைய பில்டர்கள் போலல்லாமல், இந்த அமைப்புகள் ஒளியின் வேகம் மற்றும் இயக்கத்தின் கணித ரீதியான சாத்தியக்கூறுகளைக் கொண்டு காட்சிகளை அடிமட்டத்திலிருந்து உருவாக்குகின்றன. இது ஈர்ப்பு விசை மற்றும் உந்த விசைக்குக் கட்டுப்படும் முற்றிலும் செயற்கையான சூழல்களை உருவாக்க அனுமதிக்கிறது. இதன் விளைவாக, ஒரு வீடியோ ஆவி போல இல்லாமல், நிஜமான பொருளைப் போலத் தோன்றுகிறது. இந்த நிலைத்தன்மைதான் நாம் கவனிக்க வேண்டிய முக்கிய விஷயம்; தற்காலிகக் குறைபாடுகள் வெறும் சத்தமே, அவை கம்ப்யூட்டிங் பவர் அதிகரிக்கும்போது மறைந்துவிடும்.
தயாரிப்பு எல்லைகளின் வீழ்ச்சி
இந்தக் கருவிகளின் உலகளாவிய தாக்கம் உயர்தர visual effects-ன் பரவலாக்கத்தில் தெளிவாகத் தெரிகிறது. பாரம்பரியமாக, ஒரு தத்ரூபமான காட்சியை உருவாக்க ஒரு பெரிய ஸ்டுடியோ, விலையுயர்ந்த கேமராக்கள் மற்றும் லைட்டிங் நிபுணர்கள் தேவைப்பட்டனர். இப்போது, ஒரு வளரும் நாட்டில் உள்ள சிறிய ஏஜென்சி கூட மில்லியன் டாலர் பட்ஜெட்டில் உருவானது போன்ற ஒரு விளம்பரத்தைத் தயாரிப்பு செய்ய முடியும். இது ஹாலிவுட் அல்லது லண்டன் போன்ற பெரிய தயாரிப்பு மையங்களை ஒரு காலத்தில் பாதுகாத்த புவியியல் தடைகளைத் தகர்த்து வருகிறது. விளம்பர நிறுவனங்கள் ஏற்கனவே படப்பிடிப்பு குழுவினரை வெவ்வேறு நாடுகளுக்கு அனுப்பாமல், உள்ளூர்மயமாக்கப்பட்ட விளம்பரங்களை உருவாக்க இந்தக் கருவிகளைப் பயன்படுத்துகின்றன. Reuters செய்திகளின்படி, செலவுகளைக் குறைக்க நிறுவனங்கள் விரும்புவதால், மார்க்கெட்டிங்கில் செயற்கை ஊடகங்களுக்கான தேவை அதிகரித்து வருகிறது. இருப்பினும், இது ஒரு புதிய உரிமச் சிக்கலையும் (licensing risk) கொண்டு வருகிறது. ஒரு AI ஒரு பிரபலமான நடிகரைப் போலவே ஒருவரை உருவாக்கினால், அந்த உரிமைகள் யாருக்குச் சொந்தம்? பெரும்பாலான நாடுகளின் சட்ட அமைப்புகள் இதற்குத் தயாராக இல்லை. ஒரு நபரின் உடல் ரீதியான இருப்பு இல்லாமலேயே அவரது உருவத்தைப் பயன்படுத்தக்கூடிய உலகத்தை நாம் பார்க்கிறோம். இது வெறும் பணத்தைச் சேமிப்பது மட்டுமல்ல, மாற்றங்களைச் செய்யும் வேகத்தைப் (speed of iteration) பற்றியது. ஒரு இயக்குநர் இப்போது பத்து விதமான லைட்டிங் அமைப்புகளை சில நிமிடங்களில் சோதித்துப் பார்க்க முடியும். இந்தத் திறன் எடிட்டர்கள் மற்றும் ஒளிப்பதிவாளர்களுக்கான உலகளாவிய வேலைச் சந்தையை மாற்றி வருகிறது.
செயற்கை எடிட்டிங் அறையில் ஒரு செவ்வாய்க்கிழமை
ஒரு நடுத்தர அளவிலான மார்க்கெட்டிங் நிறுவனத்தில் பணிபுரியும் வீடியோ எடிட்டரின் ஒரு நாளைக் கற்பனை செய்து பாருங்கள். காலை பொழுது படப்பிடிப்பிலிருந்து வந்த வீடியோக்களைப் பார்ப்பதற்குப் பதிலாக, ஸ்கிரிப்ட் அடிப்படையில் உருவாக்கப்பட்ட வீடியோக்களைப் பார்ப்பதில் தொடங்குகிறது. எடிட்டருக்கு டோக்கியோவின் மழை பெய்யும் தெருவில் ஒரு பெண் நடப்பது போன்ற ஒரு காட்சி தேவைப்படுகிறது. இதற்காக மணிக்கணக்கில் stock footage தளங்களில் தேடுவதற்குப் பதிலாக, அவர் ஒரு கருவியில் அதன் விவரத்தைத் தட்டச்சு செய்கிறார். முதல் முடிவு நன்றாக இருக்கிறது, ஆனால் வெளிச்சம் அதிகமாக உள்ளது. அவர் நியான் விளக்குகள் மின்னும் மாலை நேரமாக மாற்றித் தருமாறு கேட்கிறார். இரண்டு நிமிடங்களில், அவரிடம் ஒரு கச்சிதமான 4K வீடியோ உள்ளது. இதுதான் புதிய எடிட்டிங் வேலைமுறை. இது வெட்டுவதைப் பற்றியது அல்ல, மாறாகச் சீரமைப்பதைப் பற்றியது. அன்று மதியம், வாடிக்கையாளர் ஒரு மாற்றத்தைக் கேட்கிறார். நடிகை நீல நிற ஜாக்கெட்டிற்குப் பதிலாக சிவப்பு நிற ஜாக்கெட் அணிந்திருக்க வேண்டும் என்கிறார். முன்பு என்றால், இதற்கு மீண்டும் படப்பிடிப்பு நடத்த வேண்டும் அல்லது விலையுயர்ந்த கலர் கிரேடிங் செய்ய வேண்டும். இப்போது, எடிட்டர் ஒரு image-to-video கருவியைப் பயன்படுத்தி, அசைவுகளை மாற்றாமல் ஜாக்கெட் நிறத்தை மட்டும் மாற்றுகிறார். இந்த அளவிலான கட்டுப்பாடு ஒரு வருடத்திற்கு முன்பு சாத்தியமற்றது. பின்னர் எடிட்டர் ஒரு குறிப்பிட்ட வசனத்தைப் பேச ஒரு செயற்கை நடிகரை (synthetic actor) இணைக்கிறார். அந்த நடிகர் மனிதரைப் போலவே இருக்கிறார், இயற்கையாக நகர்கிறார். எடிட்டர் மாலை 4 மணிக்கே இறுதி ஒப்புதலைப் பெற்றுவிடுகிறார், இதற்கு முன்பு ஒரு வாரம் ஆகும். இதுதான் நவீன தயாரிப்பின் யதார்த்தம்.
BotNews.today ஆனது உள்ளடக்கத்தை ஆராய்ச்சி செய்யவும், எழுதவும், திருத்தவும் மற்றும் மொழிபெயர்க்கவும் AI கருவிகளைப் பயன்படுத்துகிறது. தகவலை பயனுள்ளதாகவும், தெளிவானதாகவும், நம்பகமானதாகவும் வைத்திருக்க எங்கள் குழு செயல்முறையை மதிப்பாய்வு செய்து மேற்பார்வையிடுகிறது.
உண்மைக்குப் பிந்தைய திரையில் எழும் கடினமான கேள்விகள்
நாம் முழுமையான தத்ரூபத்தை நோக்கி நகரும்போது, இந்தத் தொழில்நுட்பத்தின் மறைமுகச் செலவுகள் குறித்து நாம் சில கேள்விகளை எழுப்ப வேண்டும். எவராலும் எதையும் வீடியோவாக உருவாக்க முடியும் என்றால், காட்சி ஆதாரங்கள் மீதான நமது கூட்டு நம்பிக்கை என்னவாகும்? பார்ப்பது எதுவும் நம்பகமானது அல்ல என்ற காலகட்டத்திற்குள் நாம் நுழைகிறோம். இது தனிநபர் ரகசியம் மற்றும் அரசியல் ஸ்திரத்தன்மைக்கு மிகப்பெரிய தாக்கங்களை ஏற்படுத்தும். ஒருவரைச் சிக்க வைக்க ஒரு செயற்கை வீடியோ பயன்படுத்தப்பட்டால், அவர் தனது நிரபராதித் தன்மையை எப்படி நிரூபிப்பார்? சுற்றுச்சூழல் பாதிப்பு குறித்த கேள்வியும் உள்ளது. இந்த மாடல்களைப் பயிற்றுவிக்க அதிகப்படியான மின்சாரம் மற்றும் டேட்டா சென்டர்களைக் குளிர்விக்கத் தண்ணீர் தேவைப்படுகிறது. வேகமான வேலைமுறைக்காக நாம் கொடுக்கும் விலை இதுதானா? இந்த மாடல்களைப் பயிற்றுவிக்கப் பயன்படுத்தப்பட்ட படைப்பாளிகளின் உரிமைகள் குறித்தும் நாம் கேட்க வேண்டும். பெரும்பாலான AI நிறுவனங்கள் அனுமதியின்றி லட்சக்கணக்கான கலைஞர்களின் வீடியோக்களைப் பயன்படுத்தியுள்ளன. படைப்பின் அறத்தை விட கருவியின் திறனுக்கு நாம் அதிக முக்கியத்துவம் கொடுக்கிறோமா என்பதை நாம் முடிவு செய்ய வேண்டும். இந்த கேள்விகளைத் தொடர்ந்து புறக்கணித்தால், அது கடுமையான கட்டுப்பாடுகளுக்கு வழிவகுக்கும். இந்த மாடல்கள் எப்படி உருவாக்கப்படுகின்றன என்பதில் வெளிப்படைத்தன்மை இல்லாதது ஒரு பெரிய சிக்கல்.
நாங்கள் கவர் செய்ய வேண்டும் என்று நீங்கள் நினைக்கும் AI கதை, கருவி, போக்கு அல்லது கேள்வி உங்களிடம் உள்ளதா? உங்கள் கட்டுரை யோசனையை எங்களுக்கு அனுப்பவும் — அதைக் கேட்க நாங்கள் விரும்புகிறோம்.
உள்ளூர் ஹார்டுவேர் மற்றும் API யதார்த்தம்
பவர் யூசர்கள் மற்றும் தொழில்நுட்ப இயக்குநர்களுக்கு, AI வீடியோ என்பது சிக்கலான வேலைமுறை ஒருங்கிணைப்புகளை உள்ளடக்கியது. தற்போது பெரும்பாலான உயர்தர வீடியோ உருவாக்கம் OpenAI அல்லது Runway போன்ற நிறுவனங்களின் API மூலம் கிளவுடில் (cloud) நடக்கிறது. இருப்பினும், அதிக சந்தா கட்டணம் மற்றும் தனியுரிமை கவலைகளைத் தவிர்க்க உள்ளூர் கணினிகளிலேயே (local execution) இவற்றை இயக்கும் போக்கு அதிகரித்து வருகிறது. Stable Video Diffusion போன்ற ஒரு மாடலை உள்ளூரில் இயக்கத் தரமான ஹார்டுவேர் தேவை. உயர் ரக பிரேம்களை உருவாக்க குறைந்தது 24GB VRAM கொண்ட ஒரு GPU தேவைப்படுகிறது. இந்தத் துறையில் உள்ள டெக் ஆர்வலர்கள் தற்போது ComfyUI-ல் அதிக ஆர்வம் காட்டுகின்றனர். இது பயனர்கள் வெவ்வேறு மாடல்களை ஒன்றாக இணைக்க அனுமதிக்கிறது. தொழில்நுட்பக் கட்டுப்பாடுகள் இன்னும் இருக்கவே செய்கின்றன. பெரும்பாலான API-களில் பயன்பாட்டு வரம்புகள் உள்ளன மற்றும் நீண்ட வீடியோக்களுக்கு அதிகச் செலவாகும். சேமிப்பகமும் (Storage) ஒரு சிக்கல்தான். உயர்தர செயற்கை வீடியோக்கள் அதிக அளவிலான தரவை உருவாக்குகின்றன. வல்லுநர்கள் இந்தக் கருவிகளை நேரடியாக Adobe Premiere அல்லது DaVinci Resolve போன்ற மென்பொருட்களுடன் இணைக்க வழிகளைத் தேடுகின்றனர். தற்போதைய முக்கியத் தொழில்நுட்பங்கள்:
- வெவ்வேறு ஷாட்களில் கதாபாத்திரத்தின் தோற்றம் மாறாமல் இருக்க Custom LoRA பயிற்சி.
- இயக்கத்தைக் கட்டுப்படுத்த ControlNet ஒருங்கிணைப்பு.
- குறைபாடுகளைச் சரிசெய்ய In-painting நுட்பங்கள்.
- பின்னணியிலிருந்து உருவங்களைப் பிரிக்க தானியங்கி rotoscoping கருவிகள்.
பவர் யூசர்களின் குறிக்கோள், ஏதோ ஒன்றை டைப் செய்துவிட்டு முடிவிற்காகக் காத்திருக்கும் முறையிலிருந்து மாறி, ஒரு நிலையான தயாரிப்பு முறையை உருவாக்குவதே ஆகும்.
அர்த்தமுள்ள இயக்கத்தை நோக்கி
அடுத்த ஒரு வருடத்தில் ஏற்படும் முன்னேற்றம் வெறும் உயர் ரெசல்யூஷன் பற்றியதாக மட்டும் இருக்காது. அது கட்டுப்பாட்டைப் பற்றியதாக இருக்கும். ஒரு இயக்குநர் ஒரு மெய்நிகர் இடத்தில் கேமராவைத் துல்லியமாக நகர்த்த அனுமதிக்கும் கருவிகள் நமக்குத் தேவை. AI வீடியோ என்பது வெறும் மேம்பட்ட Snapchat பில்டர் என்று பலர் தவறாக நினைக்கிறார்கள். அது அப்படி அல்ல. இது உலகைக் காட்சிப்படுத்தும் ஒரு புதிய வழி. சமீபத்தில் மாறியது என்னவென்றால், 2D பிக்சல் மாற்றங்களிலிருந்து 3D இடஞ்சார்ந்த விழிப்புணர்விற்கு (spatial awareness) மாடல்கள் மாறியிருப்பதுதான். வரும் காலங்களில், பாதிக்கும் மேற்பட்ட காட்சிகளுக்குச் செயற்கை காட்சிகளைப் பயன்படுத்தும் முழு நீளத் திரைப்படங்களை நாம் காண்போம். ஆனால், ரசிகர்கள் இந்தத் திரைப்படங்களை ஏற்றுக்கொள்வார்களா அல்லது ஒருவித அசௌகரியத்தை உணர்வார்களா என்பதுதான் இப்போதைய கேள்வி. படைப்புச் செயல்பாட்டில் ஒரு மனிதனின் பார்வை இல்லாததை நம்மால் எப்போதும் கண்டுபிடிக்க முடியுமா? அந்தப் பதில்தான் இந்த ஊடகத்தின் எதிர்காலத்தைத் தீர்மானிக்கும்.
ஆசிரியரின் குறிப்பு: கணினித் துறையில் நிபுணர்கள் அல்லாதவர்கள், ஆனால் செயற்கை நுண்ணறிவைப் புரிந்துகொள்ளவும், அதை அதிக நம்பிக்கையுடன் பயன்படுத்தவும், ஏற்கனவே வந்துகொண்டிருக்கும் எதிர்காலத்தைப் பின்தொடரவும் விரும்பும் மக்களுக்காக, பலமொழி AI செய்திகள் மற்றும் வழிகாட்டல் மையமாக இந்த தளத்தை நாங்கள் உருவாக்கினோம்.
ஒரு பிழையைக் கண்டறிந்தீர்களா அல்லது திருத்தப்பட வேண்டிய ஒன்று இருக்கிறதா? எங்களுக்குத் தெரியப்படுத்துங்கள்.