AI-യെ 100 ഹോട്ട് ടേക്കുകളേക്കാൾ നന്നായി വിശദീകരിക്കുന്ന ക്ലിപ്പുകൾ
ടെക്സ്റ്റ് യുഗത്തിന്റെ അന്ത്യം
വർഷങ്ങളായി, ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസിനെക്കുറിച്ചുള്ള ചർച്ചകൾ ടെക്സ്റ്റിൽ കേന്ദ്രീകരിച്ചായിരുന്നു. ചാറ്റ്ബോർട്ടുകൾ, ഉപന്യാസ ജനറേറ്ററുകൾ, ഓട്ടോമേറ്റഡ് പ്രോസിന്റെ ധാർമ്മികത എന്നിവയെക്കുറിച്ച് നമ്മൾ തർക്കിച്ചു. ആ കാലഘട്ടം കഴിഞ്ഞു. ഹൈ-ഫിഡിലിറ്റി വീഡിയോ ജനറേഷൻ വന്നതോടെ, ഒരു അൽഗോരിതം എന്ത് പറയാൻ കഴിയും എന്നതിൽ നിന്ന് അത് എന്ത് കാണിക്കാൻ കഴിയും എന്നതിലേക്ക് ലക്ഷ്യം മാറി. പത്ത് സെക്കൻഡ് ദൈർഘ്യമുള്ള ഒരു ക്ലിപ്പിന് ഇപ്പോൾ ആയിരം വാക്കുകളുള്ള പ്രോംപ്റ്റിനേക്കാൾ ഭാരമുണ്ട്. ഈ വിഷ്വൽ ആർട്ടിഫാക്റ്റുകൾ സോഷ്യൽ മീഡിയയിൽ പങ്കിടാനുള്ള വെറും കൂൾ ഡെമോകൾ മാത്രമല്ല. മനുഷ്യർ യാഥാർത്ഥ്യത്തെ നിർമ്മിക്കുന്ന രീതിയിലുള്ള മാറ്റത്തിന്റെ പ്രധാന തെളിവുകളാണിവ. നിയോൺ ലൈറ്റുകളുള്ള ഒരു നഗരത്തിന്റെയോ ഫോട്ടോറിയലിസ്റ്റിക് ജീവിയുടെയോ ക്ലിപ്പ് നമ്മൾ കാണുമ്പോൾ, നമ്മൾ വെറും പിക്സലുകൾ മാത്രമല്ല കാണുന്നത്. നമ്മുടെ ലോകത്തിന്റെ ഭൗതിക നിയമങ്ങളെ ഒരു ലേറ്റന്റ് സ്പേസിലേക്ക് മാപ്പ് ചെയ്യാൻ നടത്തിയ വലിയ കമ്പ്യൂട്ടേഷണൽ പരിശ്രമത്തിന്റെ ഫലമാണിത്. ഈ മാറ്റം വിനോദത്തെക്കുറിച്ചല്ല. ആഗോള സമൂഹത്തിൽ നമ്മൾ വിവരങ്ങൾ പരിശോധിക്കുന്ന അടിസ്ഥാന രീതിയെക്കുറിച്ചാണിത്. തിരമാലകളുടെ ചലനമോ മനുഷ്യമുഖത്തിന്റെ സങ്കീർണ്ണമായ പേശീ ചലനങ്ങളോ അനുകരിക്കാൻ ഒരു മെഷീന് കഴിയുമെങ്കിൽ, തെളിവുകളുടെ പഴയ നിയമങ്ങൾ അപ്രത്യക്ഷമാകുന്നു. ഈ ക്ലിപ്പുകളെ വെറും ഉള്ളടക്കമായി കാണുന്നതിന് പകരം ഡാറ്റാ പോയിന്റുകളായി വായിക്കാൻ നമ്മൾ ഇപ്പോൾ പഠിക്കണം.
പിക്സലുകൾ എങ്ങനെ ചലിക്കാൻ പഠിക്കുന്നു
ഈ ക്ലിപ്പുകൾക്ക് പിന്നിലെ സാങ്കേതികവിദ്യ ഡിഫ്യൂഷൻ മോഡലുകളുടെയും ട്രാൻസ്ഫോർമർ ആർക്കിടെക്ചറുകളുടെയും സംയോജനത്തെ ആശ്രയിച്ചിരിക്കുന്നു. ചിത്രങ്ങളെ ലളിതമായി കൂട്ടിച്ചേർത്ത പഴയ വീഡിയോ ടൂളുകളിൽ നിന്ന് വ്യത്യസ്തമായി, Sora അല്ലെങ്കിൽ Runway Gen-3 പോലുള്ള ആധുനിക സംവിധാനങ്ങൾ വീഡിയോയെ സ്പേസിലെയും സമയത്തിലെയും പാച്ചുകളുടെ ഒരു ശ്രേണിയായി കണക്കാക്കുന്നു. അവ അടുത്ത ഫ്രെയിം പ്രവചിക്കുക മാത്രമല്ല ചെയ്യുന്നത്. ക്ലിപ്പിന്റെ മുഴുവൻ സമയത്തും വസ്തുക്കൾ തമ്മിലുള്ള ബന്ധം അവ മനസ്സിലാക്കുന്നു. ഇത് ടെമ്പറൽ കൺസിസ്റ്റൻസി (temporal consistency) അനുവദിക്കുന്നു, അതായത് ഒരു മരത്തിന് പിന്നിലേക്ക് പോകുന്ന ഒരു വസ്തു മറുവശത്ത് വരുമ്പോൾ അതേപോലെ തന്നെ കാണപ്പെടുന്നു. ഒരു വർഷം മുമ്പ് നമ്മൾ കണ്ട വിറയ്ക്കുന്ന, ഭ്രമാത്മകമായ വീഡിയോകളിൽ നിന്നുള്ള വലിയ കുതിച്ചുചാട്ടമാണിത്. ഈ മോഡലുകൾ വീഡിയോകളുടെയും ചിത്രങ്ങളുടെയും വലിയ ഡാറ്റാസെറ്റുകളിൽ പരിശീലിപ്പിക്കപ്പെട്ടവയാണ്, നനഞ്ഞ റോഡിൽ പ്രകാശം പ്രതിഫലിക്കുന്നത് മുതൽ ഗുരുത്വാകർഷണം ഒരു വസ്തുവിനെ എങ്ങനെ ബാധിക്കുന്നു എന്നത് വരെ എല്ലാം അവ പഠിക്കുന്നു. ഈ വിവരങ്ങളെ ഒരു ഗണിതശാസ്ത്ര മോഡലിലേക്ക് കംപ്രസ് ചെയ്യുന്നതിലൂടെ, ലളിതമായ ഒരു ടെക്സ്റ്റ് വിവരണത്തിന്റെ അടിസ്ഥാനത്തിൽ AI-ക്ക് പുതിയ രംഗങ്ങൾ നിർമ്മിക്കാൻ കഴിയും. ഫലം നമ്മുടെ ലോകത്തെപ്പോലെ കാണപ്പെടുകയും പെരുമാറുകയും ചെയ്യുന്ന, എന്നാൽ ഒരു ന്യൂറൽ നെറ്റ്വർക്കിന്റെ വെയിറ്റ്സിൽ മാത്രം നിലനിൽക്കുന്ന ഒരു സിന്തറ്റിക് വിൻഡോയാണ്. വിഷ്വൽ കമ്മ്യൂണിക്കേഷന്റെ പുതിയ അടിസ്ഥാനമാണിത്. ഭാവനയും ഉയർന്ന നിലവാരമുള്ള ഫൂട്ടേജും തമ്മിലുള്ള അതിർവരമ്പ് ഏതാനും സെക്കൻഡുകൾക്കുള്ളിൽ ഇല്ലാതാകുന്ന ലോകമാണിത്. മാറ്റത്തിന്റെ നിലവിലെ വേഗതയ്ക്കൊപ്പം നിൽക്കാൻ ശ്രമിക്കുന്ന ആർക്കും ഈ പ്രക്രിയ മനസ്സിലാക്കുന്നത് അത്യന്താപേക്ഷിതമാണ്.
ആഗോള സത്യത്തിന്റെ പ്രതിസന്ധി
ഈ മാറ്റത്തിന്റെ ആഗോള പ്രഭാവം പെട്ടെന്നുള്ളതും അഗാധവുമാണ്.