AI എല്ലായിടത്തുമുള്ള ഈ കാലത്ത് സ്മാർട്ട് ടീമുകൾ ശ്രദ്ധിക്കുന്ന കാര്യങ്ങൾ
AI-യുടെ സാന്നിധ്യം അളക്കുന്ന കാലം കഴിഞ്ഞു. സ്മാർട്ട് ടീമുകൾ ഇപ്പോൾ generative tools-ന്റെ കൗതുകം വിട്ട് കൂടുതൽ സങ്കീർണ്ണമായ ഒരു കാര്യത്തിലാണ് ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നത്. ഒരു മോഡൽ തനിക്കറിയാമെന്ന് അവകാശപ്പെടുന്ന കാര്യങ്ങളും അത് കൃത്യമായി നൽകുന്ന വിവരങ്ങളും തമ്മിലുള്ള അന്തരം അവർ പരിശോധിക്കുന്നു. ഇത് വെറും ഉപയോഗത്തിൽ നിന്ന് പരിശോധനയിലേക്കുള്ള (verification) മാറ്റമാണ്. ഒരു ഡിപ്പാർട്ട്മെന്റ് large language models ഉപയോഗിക്കുന്നു എന്ന് പറയുന്നത് കൊണ്ട് മാത്രം കാര്യമില്ല. ആ മോഡലുകൾ എത്രത്തോളം അദൃശ്യമായ പിശകുകൾ വരുത്തുന്നു എന്നതാണ് പ്രധാനം. മികച്ച പ്രകടനം കാഴ്ചവെക്കുന്ന സ്ഥാപനങ്ങൾ ഇപ്പോൾ measurement uncertainty-യിലാണ് ശ്രദ്ധിക്കുന്നത്. അവർ ഓരോ ഔട്ട്പുട്ടിനെയും ഒരു വസ്തുതാപരമായ പ്രസ്താവനയായോ അല്ലാതെ, ഒരു സാധ്യതയായി (probabilistic guess) മാത്രമാണ് കാണുന്നത്. ഈ കാഴ്ചപ്പാട് കോർപ്പറേറ്റ് രീതികളെ തന്നെ മാറ്റിമറിക്കുന്നു. ഈ മാറ്റത്തെ അവഗണിക്കുന്ന ടീമുകൾ സാങ്കേതികമായ കടക്കെണിയിലും, ഉപരിതലത്തിൽ മികച്ചതെന്ന് തോന്നുമെങ്കിലും പ്രായോഗികമായി പരാജയപ്പെടുന്ന hallucinated ഡാറ്റയിലും കുടുങ്ങുന്നു. ഇപ്പോൾ ശ്രദ്ധ വേഗതയിൽ നിന്ന് ഫലത്തിന്റെ വിശ്വാസ്യതയിലേക്കാണ് മാറിയിരിക്കുന്നത്.
മെഷീനിലെ പ്രേതത്തെ അളക്കുന്നു
ഒരു ഔട്ട്പുട്ടിന്റെ യഥാർത്ഥ മൂല്യം ഏത് പരിധിക്കുള്ളിലാണെന്ന് സൂചിപ്പിക്കുന്നതാണ് measurement uncertainty. പരമ്പരാഗത സോഫ്റ്റ്വെയറുകളിൽ രണ്ട് പ്ലസ് രണ്ട് എപ്പോഴും നാലാണ്. എന്നാൽ ആധുനിക AI-യിൽ, ഫലം നാലാകാം, അല്ലെങ്കിൽ നാല് എന്ന സംഖ്യയുടെ ചരിത്രത്തെക്കുറിച്ച് നീണ്ടൊരു ലേഖനമാകാം, അതിൽ ചിലപ്പോൾ അത് അഞ്ചാണെന്നും പറഞ്ഞേക്കാം. സ്മാർട്ട് ടീമുകൾ ഇപ്പോൾ ഓരോ ഉത്തരത്തിനും ഒരു confidence score നൽകാൻ പ്രത്യേക സോഫ്റ്റ്വെയറുകൾ ഉപയോഗിക്കുന്നു. ഒരു ലീഗൽ സമ്മറിക്ക് കുറഞ്ഞ confidence score ആണെങ്കിൽ, സിസ്റ്റം അത് മനുഷ്യരുടെ പരിശോധനയ്ക്കായി മാറ്റിവെക്കുന്നു. ഇത് പിശകുകൾ കണ്ടെത്താൻ മാത്രമല്ല, മോഡലിന്റെ പരിധികൾ മനസ്സിലാക്കാൻ കൂടിയാണ്. ഒരു ടൂൾ എവിടെയാണ് പരാജയപ്പെടാൻ സാധ്യതയുള്ളതെന്ന് അറിഞ്ഞാൽ, ആ പോയിന്റുകളിൽ നിങ്ങൾക്ക് സുരക്ഷാ സംവിധാനങ്ങൾ ഒരുക്കാം. മിക്ക തുടക്കക്കാരും AI ഒന്നുകിൽ ശരി അല്ലെങ്കിൽ തെറ്റ് എന്ന് കരുതുന്നു. എന്നാൽ വിദഗ്ധർക്കറിയാം AI എപ്പോഴും ഒരു സാധ്യതയുടെ (probability) അവസ്ഥയിലാണെന്ന്. അവർ uptime അല്ലെങ്കിൽ token counts കാണിക്കുന്ന ലളിതമായ റിപ്പോർട്ടുകൾക്ക് അപ്പുറത്തേക്ക് പോകുന്നു. പകരം, വ്യത്യസ്തമായ ചോദ്യങ്ങളിൽ പിശകുകൾ എങ്ങനെ വിതരണം ചെയ്യപ്പെടുന്നു എന്ന് അവർ പരിശോധിക്കുന്നു. ക്രിയേറ്റീവ് റൈറ്റിംഗിൽ മെച്ചപ്പെടുമ്പോൾ തന്നെ ഗണിതത്തിൽ മോഡൽ മോശമാകുന്നുണ്ടോ എന്ന് അവർ അറിയാൻ ആഗ്രഹിക്കുന്നു.
വലിയ മോഡലുകൾക്ക് അനിശ്ചിതത്വം കുറവായിരിക്കുമെന്ന് പലരും തെറ്റിദ്ധരിക്കുന്നു. ഇത് പലപ്പോഴും തെറ്റാണ്. വലിയ മോഡലുകൾക്ക് തങ്ങളുടെ തെറ്റായ വിവരങ്ങളിൽ (hallucinations) കൂടുതൽ ആത്മവിശ്വാസം തോന്നാം, ഇത് അവ കണ്ടെത്തുന്നത് കൂടുതൽ പ്രയാസകരമാക്കുന്നു. ടീമുകൾ ഇപ്പോൾ calibration എന്ന് വിളിക്കുന്ന ഒരു കാര്യമാണ് ട്രാക്ക് ചെയ്യുന്നത്. കൃത്യമായി കാലിബ്രേറ്റ് ചെയ്ത ഒരു മോഡലിന് തനിക്കൊരു ഉത്തരം അറിയില്ലെങ്കിൽ അത് സമ്മതിക്കാൻ സാധിക്കും. ഒരു കാര്യത്തിൽ 90 ശതമാനം ഉറപ്പാണെന്ന് ഒരു മോഡൽ പറഞ്ഞാൽ, അത് 90 ശതമാനം സമയവും ശരിയായിരിക്കണം. അത് 60 ശതമാനം മാത്രം ശരിയാകുന്നുണ്ടെങ്കിൽ, അത് അമിത ആത്മവിശ്വാസമുള്ളതും അപകടകരവുമാണ്. അടിസ്ഥാനപരമായ AI ഉപയോഗത്തിന് താഴെയുള്ള രസകരമായ തലമാണിത്. വെറുതെ ടെക്സ്റ്റ് വായിക്കുന്നതിന് പകരം ഔട്ട്പുട്ടുകളുടെ ഗണിതത്തിലേക്ക് ആഴത്തിൽ ഇറങ്ങേണ്ടതുണ്ട്. കമ്പനികൾ ഇപ്പോൾ ഈ drift അളക്കാൻ ഡാറ്റാ സയന്റിസ്റ്റുകളെ നിയമിക്കുന്നു. അവ്യക്തമായ പ്രോംപ്റ്റുകളെ മോഡൽ എങ്ങനെ വ്യാഖ്യാനിക്കുന്നു എന്നതിലെ പാറ്റേണുകൾ അവർ തിരയുന്നു. അനിശ്ചിതത്വത്തിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നതിലൂടെ, ഒരു സിസ്റ്റം തകരാറിലാകുന്നതിന് മുൻപ് തന്നെ അത് പ്രവചിക്കാൻ അവർക്ക് സാധിക്കുന്നു. കമ്പനിയുടെ സൽപ്പേരിന് കോട്ടം തട്ടാതെ പ്രൊഫഷണൽ അന്തരീക്ഷത്തിൽ ഈ ടൂളുകൾ സ്കെയിൽ ചെയ്യാനുള്ള ഒരേയൊരു മാർഗ്ഗമാണിത്.
വിശ്വാസത്തിന്റെ ആഗോള പ്രതിസന്ധി
ഈ കർശനമായ അളവെടുപ്പ് വെറുതെയല്ല നടക്കുന്നത്. ഡാറ്റാ ഇന്റഗ്രിറ്റി നിയമപരമായ ആവശ്യകതയായി മാറുന്ന ഒരു ആഗോള സാഹചര്യത്തോടുള്ള പ്രതികരണമാണിത്. യൂറോപ്യൻ യൂണിയനിൽ, 2026-ലെ AI Act ഉയർന്ന അപകടസാധ്യതയുള്ള സിസ്റ്റങ്ങൾ എങ്ങനെ നിരീക്ഷിക്കണമെന്ന് മുൻകൂട്ടി നിശ്ചയിച്ചിട്ടുണ്ട്. ടോക്കിയോ, ലണ്ടൻ, സാൻ ഫ്രാൻസിസ്കോ എന്നിവിടങ്ങളിലെ കമ്പനികൾക്ക് ഒരു ബ്ലാക്ക് ബോക്സ് എന്ന ഒഴികഴിവ് പറഞ്ഞ് രക്ഷപ്പെടാൻ കഴിയില്ലെന്ന് മനസ്സിലാകുന്നു. ഒരു ഓട്ടോമേറ്റഡ് സിസ്റ്റം ലോൺ നിഷേധിക്കുകയോ ജോലി അപേക്ഷ തള്ളുകയോ ചെയ്താൽ, കമ്പനിക്ക് അതിന്റെ പിശക് പരിധി (margin of error) വിശദീകരിക്കാൻ കഴിയണം. ഇത് സുതാര്യതയ്ക്കായി ഒരു പുതിയ ആഗോള നിലവാരം സൃഷ്ടിച്ചിട്ടുണ്ട്. ഓട്ടോമേറ്റഡ് ലോജിസ്റ്റിക്സിനെ ആശ്രയിക്കുന്ന സപ്ലൈ ചെയിനുകൾക്ക് ഈ മെട്രിക്സുകൾ വളരെ പ്രധാനമാണ്. പ്രെഡിക്റ്റീവ് മോഡലിലെ ചെറിയൊരു പിശക് പോലും ലക്ഷക്കണക്കിന് ഡോളറിന്റെ ഇന്ധനനഷ്ടമോ സാധനങ്ങൾ നഷ്ടപ്പെടലോ ഉണ്ടാക്കാം. ഇതിന്റെ പ്രത്യാഘാതങ്ങൾ ഇപ്പോൾ ഒരു ചാറ്റ് വിൻഡോയിൽ മാത്രം ഒതുങ്ങുന്നില്ല. അവ ഭൗതികവും സാമ്പത്തികവുമാണ്. ഈ ആഗോള സമ്മർദ്ദം സോഫ്റ്റ്വെയർ ദാതാക്കളെ തങ്ങളുടെ സിസ്റ്റങ്ങൾ തുറന്നുകൊടുക്കാനും എന്റർപ്രൈസ് ക്ലയന്റുകൾക്ക് കൂടുതൽ കൃത്യമായ ഡാറ്റ നൽകാനും നിർബന്ധിതരാക്കുന്നു. അവർക്ക് വെറുമൊരു ഇന്റർഫേസ് നൽകിയാൽ മാത്രം പോരാ. ടീമുകൾക്ക് അറിവോടെ തീരുമാനങ്ങൾ എടുക്കാൻ സഹായിക്കുന്ന raw confidence ഡാറ്റ അവർ നൽകണം.
ഉയർന്ന കൃത്യത ആവശ്യമുള്ള മേഖലകളിലാണ് ഈ മാറ്റത്തിന്റെ പ്രഭാവം ഏറ്റവും കൂടുതൽ അനുഭവപ്പെടുന്നത്. ആരോഗ്യരംഗവും ധനകാര്യരംഗവും ഈ പുതിയ റിപ്പോർട്ടിംഗ് മാനദണ്ഡങ്ങൾ വികസിപ്പിക്കുന്നതിൽ മുന്നിലാണ്. അവർ ഒരു ജനറൽ പർപ്പസ് അസിസ്റ്റന്റ് എന്ന ആശയത്തിൽ നിന്ന് മാറി, കൃത്യമായ ലക്ഷ്യങ്ങളുള്ള സ്പെഷ്യലൈസ്ഡ് ഏജന്റുകളിലേക്ക് നീങ്ങുന്നു. ഇത് അനിശ്ചിതത്വത്തിനുള്ള സാധ്യത കുറയ്ക്കുകയും കാലക്രമേണ പ്രകടനം ട്രാക്ക് ചെയ്യുന്നത് എളുപ്പമാക്കുകയും ചെയ്യുന്നു. ഒരു AI സിസ്റ്റത്തിലെ ഏറ്റവും വിലപ്പെട്ട ഭാഗം മോഡൽ തന്നെയല്ല, മറിച്ച് അത് പരിശോധിക്കാൻ ഉപയോഗിക്കുന്ന ഡാറ്റയാണെന്ന തിരിച്ചറിവ് വർദ്ധിച്ചുവരികയാണ്. കമ്പനികൾ തങ്ങളുടെ ആന്തരിക പരിശോധനയ്ക്കായി ground truth ആയി വർത്തിക്കുന്ന