AI மாயம் நிஜமா? அவசரப்பட்டு முடிவெடுக்கும் முன் இதைப் படிங்க!
தற்போது இணையத்தில் குவியும் இந்த செயற்கை வீடியோக்கள் (synthetic video) ஒரு முழுமையான தொழில்நுட்பத்தின் அடையாளம் கிடையாது. இது மெஷின்கள் நிஜ உலகத்தை எப்படிப் புரிந்துகொள்கின்றன என்பதற்கான ஒரு அதிவேக சோதனை. பெரும்பாலான பார்வையாளர்கள் ஒரு வீடியோவைப் பார்த்துவிட்டு, அது உண்மையாகத் தெரிகிறதா என்றுதான் கேட்கிறார்கள். ஆனால், இது தவறான கேள்வி. இந்தக் காட்சிகள் ‘காரண காரியங்களை’ (cause and effect) சரியாகப் புரிந்துகொண்டுள்ளனவா என்பதுதான் சரியான கேள்வி. ஒரு உயர்தர மாடலில் டிஜிட்டல் கண்ணாடி உடையும்போது, அதிலுள்ள திரவம் புவிஈர்ப்பு விசைக்கு ஏற்ப சிந்துகிறதா அல்லது தரையோடு மறைந்து போகிறதா? இந்த வித்தியாசம்தான், ஒரு முக்கியமான தொழில்நுட்ப முன்னேற்றத்திற்கும், வெறும் புதியது என்பதால் முக்கியமாகத் தெரியும் சத்தத்திற்கும் இடையிலான வேறுபாடு. நாம் வெறும் படங்களை உருவாக்கும் காலத்திலிருந்து மாறி, வீடியோக்கள் ஒரு மாடலின் உள் தர்க்கத்திற்கான (internal logic) **காட்சி ஆதாரமாக** விளங்கும் காலத்திற்கு நகர்ந்து கொண்டிருக்கிறோம். தர்க்கம் சரியாக இருந்தால், அந்தக் கருவி பயனுள்ளது. தர்க்கம் தவறினால், அந்த வீடியோ ஒரு நுணுக்கமான பிரமை (hallucination) மட்டுமே. இந்த மாற்றத்தைப் புரிந்துகொள்வதுதான், தற்போதைய மார்க்கெட்டிங் மாயைகளில் சிக்காமல் இந்தத் துறையின் நிலையைச் சரியாக மதிப்பிடுவதற்கான ஒரே வழி.
இயக்கத்தின் மறைந்திருக்கும் வடிவவியலை வரைபடமாக்குதல்
சமீபத்தில் என்ன மாறியது என்பதைப் புரிந்துகொள்ள, இந்த மாடல்கள் எப்படி உருவாக்கப்படுகின்றன என்பதை நீங்கள் பார்க்க வேண்டும். பழைய சிஸ்டம்கள் ஒரு பிளிப்புக் (flipbook) போல படங்களை ஒன்றாக இணைக்க முயன்றன. ஆனால், சமீபத்திய OpenAI Sora research-இல் விவாதிக்கப்பட்ட நவீன சிஸ்டம்கள், டிஃப்யூஷன் மாடல்கள் (diffusion models) மற்றும் டிரான்ஸ்பார்மர்களின் (transformers) கலவையைப் பயன்படுத்துகின்றன. அவை வெறும் பிரேம்களை வரைவதில்லை. ஒவ்வொரு புள்ளியும் ஒரு சாத்தியமான காட்சி நிலையைக் குறிக்கும் ஒரு மறைந்திருக்கும் இடத்தை (latent space) அவை வரைபடமாக்குகின்றன. பின்னர் அந்தப் புள்ளிகளுக்கு இடையே மிகவும் சாத்தியமான பாதையை மெஷின் கணக்கிடுகிறது. இதனால்தான் நவீன AI வீடியோக்கள் பழைய வீடியோக்களை விட மிகவும் சரளமாகத் தெரிகின்றன. இந்த மாடல் ஒரு நபர் எப்படி இருப்பார் என்று ஊகிப்பதில்லை. அந்த நபர் ஒரு முப்பரிமாண இடத்தில் நகரும்போது, ஒரு மேற்பரப்பில் ஒளி எப்படிப் பிரதிபலிக்க வேண்டும் என்பதை அது கணிக்கிறது. இது கடந்த கால நிலையான இமேஜ் ஜெனரேட்டர்களிடமிருந்து ஒரு அடிப்படை மாற்றமாகும்.
பல வாசகர்களுக்கு இருக்கும் குழப்பம் என்னவென்றால், AI வீடியோ என்பது ஒரு வீடியோ எடிட்டர் போன்றது என்பதுதான். அது தவறு. இது ஒரு உலக சிமுலேட்டர் (world simulator). நீங்கள் ஒரு பிராம்ப்ட் (prompt) கொடுக்கும்போது, அது ஒரு டேட்டாபேஸில் தேடி வீடியோவைக் கண்டுபிடிப்பதில்லை. அதற்குப் பதிலாக, பயிற்சியின் போது கற்றுக்கொண்ட கணித எடைகளைப் (mathematical weights) பயன்படுத்தி ஒரு காட்சியை புதிதாக உருவாக்குகிறது. ஹாலிவுட் படங்கள் முதல் சாதாரண போன் வீடியோக்கள் வரை பில்லியன் கணக்கான மணிநேரக் காட்சிகளைப் பார்த்து இந்த மாடல் கற்றுக்கொள்கிறது. ஒரு பந்து சுவரில் மோதினால், அது மீண்டும் துள்ள வேண்டும் என்பதை மாடல் கற்றுக்கொள்கிறது. சூரியன் மறையும் போது நிழல்கள் நீளமாக வேண்டும் என்பதை அது அறிகிறது. இருப்பினும், இவை இன்னும் புள்ளிவிவரத் தோராயங்களே (statistical approximations). ஒரு பந்து என்றால் என்ன என்று மெஷினுக்குத் தெரியாது. அதன் பயிற்சித் தரவுகளில், சில பிக்சல் பேட்டர்ன்கள் (pixel patterns) வழக்கமாக மற்ற பிக்சல் பேட்டர்ன்களைத் தொடர்ந்து வரும் என்பது மட்டுமே அதற்குத் தெரியும். இதனால்தான் இந்தத் தொழில்நுட்பம் வியக்கத்தக்கதாக இருந்தாலும், ஒரு சிறு குழந்தை கூட செய்யாத விசித்திரமான தவறுகளைச் செய்கிறது.
செயற்கை காட்சிகளின் புவிசார் அரசியல் முக்கியத்துவம்
இந்தத் தொழில்நுட்பத்தின் தாக்கம் பொழுதுபோக்குத் துறையைத் தாண்டியது. உலக அளவில், மிகக் குறைந்த செலவில் தத்ரூபமான வீடியோக்களை உருவாக்கும் திறன், தகவல்களின் உண்மைத்தன்மையைச் சரிபார்க்கும் முறையையே மாற்றுகிறது. வளரும் ஜனநாயக நாடுகளில், பொதுமக்களின் கருத்தை மாற்ற ஏற்கனவே செயற்கை வீடியோக்கள் பயன்படுத்தப்படுகின்றன. இது எதிர்காலத்திற்கான ஒரு தத்துவார்த்தப் பிரச்சனை அல்ல. இது தற்போதைய யதார்த்தம், இதற்கு ஒரு புதிய வகை டிஜிட்டல் அறிவு (digital literacy) தேவைப்படுகிறது. ஒரு பதிவின் உண்மையைச் சரிபார்க்க இனி நாம் நம் கண்களை மட்டும் நம்ப முடியாது. அதற்குப் பதிலாக, அந்த வீடியோ உண்மையானதுதானா என்பதை உறுதிப்படுத்த தொழில்நுட்பக் குறிகள் மற்றும் மெட்டாடேட்டாவை (provenance metadata) நாம் பார்க்க வேண்டும். அடுத்த பெரிய தேர்தல் சுழற்சிக்கு முன்னதாக வலுவான சரிபார்ப்பு முறைகளைச் செயல்படுத்த வேண்டிய பெரும் பொறுப்பு சமூக ஊடக தளங்கள் மற்றும் செய்தி நிறுவனங்களுக்கு உள்ளது.
இந்தத் தொழில்நுட்பம் உருவாக்கப்படும் மற்றும் பயன்படுத்தப்படும் விதத்தில் ஒரு குறிப்பிடத்தக்க பொருளாதார இடைவெளியும் உள்ளது. இந்த மாடல்களைப் பயிற்றுவிக்கத் தேவையான கம்ப்யூட்டிங் பவர் (compute power) அமெரிக்கா மற்றும் சீனாவின் ஒரு சில நிறுவனங்களிடம் மட்டுமே குவிந்துள்ளது. இது உலகின் காட்சி மொழி ஒரு சில பொறியியல் குழுக்களின் கலாச்சார சார்புகளால் (cultural biases) வடிகட்டப்படும் சூழ்நிலையை உருவாக்குகிறது. ஒரு மாடல் முதன்மையாக மேற்கத்திய ஊடகங்களில் பயிற்றுவிக்கப்பட்டால், அது மற்ற பிராந்தியங்களின் கட்டிடக்கலை, உடைகள் அல்லது சமூக நெறிமுறைகளைச் சரியாகப் பிரதிபலிக்கத் திணறலாம். இதனால்தான் இந்தக் கருவிகளின் வளர்ச்சியில் உலகளாவிய பங்களிப்பு அவசியம். அது இல்லையென்றால், மனித அனுபவத்தின் பன்முகத்தன்மையைப் புறக்கணிக்கும் ஒரு ஒற்றை கலாச்சார செயற்கை உள்ளடக்கத்தை உருவாக்கும் அபாயம் நமக்கு ஏற்படும். இது போன்ற முன்னேற்றங்கள் குறித்த கூடுதல் தகவல்களை எங்களது குழுவின் சமீபத்திய AI தொழில் பகுப்பாய்வில் காணலாம்.
உடனடி மாற்றங்களின் காலத்தில் தயாரிப்பு முறைகள்
ஒரு புரொபஷனல் சூழலில், ஒரு கிரியேட்டிவ் டைரக்டரின் வாழ்க்கை முறை பெருமளவு மாறியிருக்கிறது. ஒரு நடுத்தர விளம்பர நிறுவனத்தில் தலைவராக இருக்கும் சாரா (Sarah) என்பவரை எடுத்துக்கொள்வோம். இரண்டு ஆண்டுகளுக்கு முன்பு, அவர் ஒரு கார் விளம்பரத்திற்கான கருத்தை முன்வைக்க விரும்பினால், ஸ்டாக் வீடியோக்களைத் தேட அல்லது ஸ்டோரிபோர்டுகளை வரைய ஒரு இல்லஸ்ட்ரேட்டரை வேலைக்கு அமர்த்த பல நாட்கள் செலவிடுவார். இன்று, அவர் Runway அல்லது Luma போன்ற கருவிகளைப் பயன்படுத்தி சில நிமிடங்களில் உயர்தர “மூட் ஃபிலிம்களை” (mood films) உருவாக்குகிறார். ஒரு குறிப்பிட்ட நகரத்தில் அந்தி வேளையில் கார் மீது ஒளி எப்படி விழும் என்பதை அவர் வாடிக்கையாளருக்குத் துல்லியமாகக் காட்ட முடியும். இது இறுதிப் படப்பிடிப்பிற்கு மாற்றாக அமையாது, ஆனால் விலையுயர்ந்த தவறுகளுக்கு வழிவகுக்கும் ஊகங்களை இது தவிர்க்கிறது. சாரா இப்போது வெறும் மனிதர்களை நிர்வகிப்பவர் மட்டுமல்ல. அவர் மெஷின் உருவாக்கிய விருப்பங்களைச் சீரமைப்பவர் (curator).
BotNews.today ஆனது உள்ளடக்கத்தை ஆராய்ச்சி செய்யவும், எழுதவும், திருத்தவும் மற்றும் மொழிபெயர்க்கவும் AI கருவிகளைப் பயன்படுத்துகிறது. தகவலை பயனுள்ளதாகவும், தெளிவானதாகவும், நம்பகமானதாகவும் வைத்திருக்க எங்கள் குழு செயல்முறையை மதிப்பாய்வு செய்து மேற்பார்வையிடுகிறது.
இந்த வேலைமுறை வழக்கமாக ஒரு குறிப்பிட்ட சுத்திகரிப்பு முறையைப் பின்பற்றுகிறது. சாரா முதலில் ஒரு டெக்ஸ்ட் பிராம்ப்ட் (text prompt) மூலம் பொதுவான அமைப்பைப் பெறுகிறார். பின்னர் காட்சிகளில் நிலைத்தன்மையைப் பராமரிக்க இமேஜ்-டு-வீடியோ (image-to-video) கருவிகளைப் பயன்படுத்துகிறார். இறுதியாக, ஒளிரும் லோகோ அல்லது சிதைந்த கை போன்ற குறிப்பிட்ட பிழைகளைச் சரிசெய்ய ரீஜினல் பிராம்ப்டிங் (regional prompting) முறையைப் பயன்படுத்துகிறார். இந்தச் செயல்முறை ஒரு பட்டனை அழுத்துவது போல எளிதானது அல்ல. மாடலை எப்படி வழிநடத்துவது என்பது குறித்த ஆழமான புரிதல் இதற்குத் தேவை. இப்போது திறமை என்பது வரைவதில் இல்லை, மாறாகத் துல்லியமான அறிவுறுத்தல்களை (instructions) வழங்குவதில்தான் உள்ளது. இதையே வல்லுநர்கள் பின்பற்றுகிறார்கள். AI தங்கள் வேலையைச் செய்யும் என்று அவர்கள் எதிர்பார்ப்பதில்லை. அவர்கள் கடினமான மற்றும் திரும்பத் திரும்பச் செய்யும் வேலைகளை AI கவனித்துக்கொள்ள வேண்டும் என்று விரும்புகிறார்கள், அப்போதுதான் அவர்கள் உயர்மட்ட படைப்பாற்றல் முடிவுகளில் கவனம் செலுத்த முடியும்.
- டாலி (dolly) மற்றும் பேன் (pan) போன்ற குறிப்பிட்ட கேமரா இயக்கங்களுக்கான பிராம்ப்ட் இன்ஜினியரிங்.
- வெவ்வேறு காட்சிகளில் கேரக்டர் நிலைத்தன்மையை உறுதிப்படுத்த சீட் எண்களை (seed numbers) பயன்படுத்துதல்.
- Premiere அல்லது Resolve போன்ற பாரம்பரிய எடிட்டிங் மென்பொருட்களில் செயற்கை வீடியோக்களை ஒருங்கிணைத்தல்.
- சிறப்பு AI மேம்படுத்தும் கருவிகளைப் பயன்படுத்தி குறைந்த தெளிவுத்திறன் கொண்ட வீடியோக்களை உயர்த்துதல் (upscaling).
- ஒரு குறிப்பிட்ட பிராண்டின் அழகியலுக்கு ஏற்ப ஸ்டைல் டிரான்ஸ்பர் (style transfer) செய்தல்.
முடிவில்லா படங்களின் தார்மீகக் கடன்
இந்தக் கருவிகளை நாம் ஏற்றுக்கொள்ளும்போது, மறைந்திருக்கும் செலவுகள் குறித்து சில கடினமான கேள்விகளைக் கேட்க வேண்டும். முதலாவது, சுற்றுச்சூழலில் ஏற்படும் பாதிப்பு. ஒரு பெரிய அளவிலான வீடியோ மாடலைப் பயிற்றுவிக்க ஆயிரக்கணக்கான உயர்தர GPU-க்கள் பல மாதங்கள் இயங்க வேண்டும். இது பெருமளவு மின்சாரத்தைப் பயன்படுத்துவதோடு, டேட்டா சென்டர்களைக் குளிர்விக்க மில்லியன் கணக்கான கேலன் தண்ணீரும் தேவைப்படுகிறது. இந்தச் சுற்றுச்சூழல் கடனை யார் அடைப்பார்கள்? நிறுவனங்கள் பெரும்பாலும் தாங்கள் கார்பன் நியூட்ரல் என்று கூறினாலும், ஆற்றல் தேவையின் அளவு உள்ளூர் மின்சாரக் கட்டமைப்புக்கு ஒரு சவாலாகவே உள்ளது. பயிற்சியின் தரவுகளாகப் பயன்படுத்தப்பட்ட நபர்களின் தனியுரிமையையும் நாம் கருத்தில் கொள்ள வேண்டும்.
நாங்கள் கவர் செய்ய வேண்டும் என்று நீங்கள் நினைக்கும் AI கதை, கருவி, போக்கு அல்லது கேள்வி உங்களிடம் உள்ளதா? உங்கள் கட்டுரை யோசனையை எங்களுக்கு அனுப்பவும் — அதைக் கேட்க நாங்கள் விரும்புகிறோம்.
‘மாடல் கொலாப்ஸ்’ (model collapse) ஏற்படும் அபாயமும் உள்ளது. இணையம் முழுவதும் AI உருவாக்கிய வீடியோக்களே நிறைந்தால், எதிர்கால மாடல்கள் தற்போதைய மாடல்களின் வெளியீட்டையே பாடமாகப் படிக்கும். இது பிழைகள் பெருக்கப்படும் மற்றும் மனித படைப்பாற்றல் நீர்த்துப்போகும் ஒரு பின்னூட்டச் சுழற்சியை (feedback loop) உருவாக்குகிறது. மெஷின்கள் நிஜ உலகத்திலிருந்து எந்தப் புதிய உள்ளீடும் இல்லாமல், அதே பழைய விஷயங்களையே மீண்டும் மீண்டும் மாற்றியமைக்கும் நிலையை நாம் அடையலாம். இதுதான் நடைமுறையில் உள்ள “டெட் இன்டர்நெட்” (dead internet) கோட்பாடு. மனித சிக்னலுக்கும் மெஷின் எதிரொலிக்கும் இடையில் நம்மால் வித்தியாசம் காண முடியாவிட்டால், காட்சித் தகவலின் மதிப்பு பூஜ்ஜியமாகிவிடும். சத்தம் காதுகளைச் செவிடாக்குவதற்கு முன்பே, நாம் எந்த வகையான டிஜிட்டல் சூழலில் வாழ விரும்புகிறோம் என்பதை இப்போதே தீர்மானிக்க வேண்டும்.
கட்டமைப்புகள் மற்றும் லோக்கல் கம்ப்யூட்டிங் வரம்புகள்
பவர் யூசர்களைப் பொறுத்தவரை, கவனம் இப்போது கிளவுட் கருவிகளிலிருந்து லோக்கல் வொர்க்ஃப்ளோ (local workflow) ஒருங்கிணைப்புகளுக்கு மாறியுள்ளது. பெரும்பாலான உயர்தர வீடியோ மாடல்கள் தற்போது அதிக VRAM தேவைப்படுவதால் பெரிய சர்வர் கிளஸ்டர்களில் இயங்குகின்றன. ஒரு சாதாரண டிஃப்யூஷன் டிரான்ஸ்பார்மர் (DiT) கட்டமைப்புக்கு ஒரு 1080p வீடியோவை உருவாக்க 80GB-க்கும் அதிகமான மெமரி தேவைப்படுகிறது. இருப்பினும், குவாண்டைசேஷன் (quantization) மற்றும் மாடல் டிஸ்டிலேஷன் (model distillation) ஆகியவற்றில் சமூகம் முன்னேற்றம் கண்டு வருகிறது. இது பயனர்கள் NVIDIA 4090 போன்ற சாதாரண ஹார்டுவேர்களில் இந்த மாடல்களின் சிறிய பதிப்புகளை இயக்க அனுமதிக்கிறது. தரம் குறைவாக இருந்தாலும், நிமிடத்திற்கு API கட்டணம் செலுத்தாமல் மாற்றங்களைச் செய்யும் திறன் சுயாதீன படைப்பாளர்களுக்கு ஒரு பெரிய நன்மையாகும். இந்த மேம்படுத்தல்களுக்குப் பின்னால் உள்ள ஆராய்ச்சியை NVIDIA Research மற்றும் அது போன்ற நிறுவனங்களில் காணலாம்.
வேலைமுறை ஒருங்கிணைப்புதான் (Workflow integration) தற்போதைய தடையாக உள்ளது. பெரும்பாலான வல்லுநர்கள் ஒரு வெப் இன்டர்ஃபேஸைப் பயன்படுத்த விரும்புவதில்லை. அவர்கள் ஏற்கனவே பயன்படுத்தும் கருவிகளுக்கான பிளகின்களை (plugins) விரும்புகிறார்கள். சிக்கலான, மீண்டும் மீண்டும் செய்யக்கூடிய வேலைகளுக்கு உதவும் ComfyUI மற்றும் பிற நோட்-பேஸ்டு (node-based) இன்டர்ஃபேஸ்கள் அதிகரித்து வருவதை நாம் காண்கிறோம். இந்த அமைப்புகள் பயனர்களைப் பல மாடல்களை ஒன்றாக இணைக்க அனுமதிக்கின்றன. உதாரணமாக, ஒரு மாடல் இயக்கத்தைக் கவனிக்கும், இன்னொன்று டெக்ஸ்சர்களைக் (textures) கவனிக்கும், மூன்றாவது லைட்டிங்கைக் கவனிக்கும். இந்த மாடுலர் அணுகுமுறை ஒரு ஒற்றை “பிளாக் பாக்ஸ்” பிராம்ப்ட்டை விட மிகவும் சக்தி வாய்ந்தது.
- வீடியோ மாடல்களின் லோக்கல் 8-பிட் குவாண்டைசேஷனுக்கான VRAM தேவைகள்.
- கிளவுட் API-களிலிருந்து வீடியோவை ஸ்ட்ரீம் செய்யும்போது ஏற்படும் லேட்டன்சி (latency) சிக்கல்கள்.
- உயர்தர லேட்டன்ட் டேட்டாசெட்கள் மற்றும் செக்பாயிண்ட்களுக்கான சேமிப்பகத் தேவைகள்.
- இயக்க பாணிகளை (motion styles) நுணுக்கமாக மாற்ற LoRA-வின் பங்கு.
- 3D சூழல் ஒருங்கிணைப்பிற்கான OpenUSD உடன் இணக்கத்தன்மை.
அர்த்தமுள்ள முன்னேற்றத்திற்கான அளவுகோல்
அடுத்த ஒரு வருடத்தில், முன்னேற்றத்திற்கான அளவுகோல் வீடியோக்கள் எவ்வளவு அழகாக இருக்கின்றன என்பது அல்ல. அது காலத் தொடர்ச்சிதான் (temporal consistency). ஒரு கேரக்டர் ஒரு மரத்திற்குப் பின்னால் சென்று, அதே உடைகள் மற்றும் அதே முகத் தோற்றத்துடன் மறுபுறம் வர முடிந்தால், தொழில்நுட்பம் முதிர்ச்சியின் புதிய நிலையை எட்டியுள்ளது என்று அர்த்தம். காரணமே இல்லாமல் பொருட்கள் ஒன்றாக உருமாறும் “கனவு தர்க்கம்” (dream logic) முடிவுக்கு வருவதை நாம் எதிர்பார்க்கிறோம். அர்த்தமுள்ள முன்னேற்றம் என்பது, ஒரு மனித கேமரா குழுவைப் போலவே ஒரு ஸ்கிரிப்டைத் துல்லியமாக மெஷினால் பின்பற்ற முடியும் என்பதாகும். ஒரு மெஷினால் ஒரு கணத்தின் கனத்தை உண்மையிலேயே புரிந்து கொள்ள முடியுமா, அல்லது அது எப்போதும் வெறும் பிக்சல்களின் முன்னேற்றத்தில் மட்டுமே மாஸ்டராக இருக்குமா? படைப்பாளிகளுக்கான கருவியை உருவாக்குகிறோமா அல்லது அவர்களுக்கான மாற்றை உருவாக்குகிறோமா என்பதை காலம்தான் சொல்லும்.
ஆசிரியரின் குறிப்பு: கணினித் துறையில் நிபுணர்கள் அல்லாதவர்கள், ஆனால் செயற்கை நுண்ணறிவைப் புரிந்துகொள்ளவும், அதை அதிக நம்பிக்கையுடன் பயன்படுத்தவும், ஏற்கனவே வந்துகொண்டிருக்கும் எதிர்காலத்தைப் பின்தொடரவும் விரும்பும் மக்களுக்காக, பலமொழி AI செய்திகள் மற்றும் வழிகாட்டல் மையமாக இந்த தளத்தை நாங்கள் உருவாக்கினோம்.
ஒரு பிழையைக் கண்டறிந்தீர்களா அல்லது திருத்தப்பட வேண்டிய ஒன்று இருக்கிறதா? எங்களுக்குத் தெரியப்படுத்துங்கள்.