जब AI हर जगह है, तो स्मार्ट टीमें क्या ट्रैक कर रही हैं?
आर्टिफिशियल इंटेलिजेंस को केवल उसके अस्तित्व से मापने का दौर अब खत्म हो चुका है। स्मार्ट टीमें अब जेनरेटिव टूल्स के आकर्षण से आगे निकल चुकी हैं और एक कहीं अधिक कठिन मीट्रिक पर ध्यान केंद्रित कर रही हैं। वे इस बात पर नज़र रख रही हैं कि एक मॉडल क्या जानने का दावा करता है और वह वास्तव में कितनी सटीकता के साथ परिणाम देता है। यह एडॉप्शन (adoption) से वेरिफिकेशन (verification) की ओर एक बड़ा बदलाव है। अब यह कहना काफी नहीं है कि कोई विभाग लार्ज लैंग्वेज मॉडल्स का उपयोग करता है। असली सवाल यह है कि वे मॉडल कितनी बार उन तरीकों से फेल होते हैं जो आम लोगों को दिखाई नहीं देते। हाई-परफॉर्मिंग संस्थाएं अब अपनी पूरी रणनीति ‘मेजरमेंट अनसर्टेनिटी’ (measurement uncertainty) पर केंद्रित कर रही हैं। वे हर आउटपुट को तथ्यात्मक बयान के बजाय एक संभावित अनुमान मानती हैं। दृष्टिकोण में यह बदलाव कॉर्पोरेट प्लेबुक को पूरी तरह से बदलने पर मजबूर कर रहा है। जो टीमें इस बदलाव को नजरअंदाज कर रही हैं, वे टेक्निकल डेट और ऐसे ‘हैलुसिनेटेड’ डेटा में फंस रही हैं जो ऊपर से तो सही दिखता है, लेकिन दबाव पड़ने पर फेल हो जाता है। अब फोकस जनरेशन की गति से हटकर परिणाम की विश्वसनीयता पर आ गया है।
मशीन के अंदर के भूत को मापना
मेजरमेंट अनसर्टेनिटी वह सांख्यिकीय दायरा है जिसके भीतर किसी आउटपुट का वास्तविक मूल्य होता है। पारंपरिक सॉफ्टवेयर की दुनिया में, दो और दो हमेशा चार होते हैं। लेकिन आधुनिक AI की दुनिया में, परिणाम चार हो सकता है, या फिर संख्या चार के इतिहास पर एक लंबा निबंध हो सकता है, जिसमें यह भी लिखा हो कि कभी-कभी यह पांच भी होता है। स्मार्ट टीमें अब हर प्रतिक्रिया को एक कॉन्फिडेंस स्कोर देने के लिए विशेष सॉफ्टवेयर का उपयोग कर रही हैं। यदि कोई मॉडल कम कॉन्फिडेंस स्कोर के साथ कानूनी सारांश प्रदान करता है, तो सिस्टम उसे तुरंत मानवीय समीक्षा के लिए फ्लैग कर देता है। यह केवल गलतियों को पकड़ने के बारे में नहीं है, बल्कि मॉडल की सीमाओं को समझने के बारे में है। जब आप जानते हैं कि कोई टूल कहां फेल हो सकता है, तो आप उन बिंदुओं के चारों ओर सुरक्षा घेरा बना सकते हैं। ज्यादातर शुरुआती लोग सोचते हैं कि AI या तो सही है या गलत। विशेषज्ञ जानते हैं कि AI निरंतर संभावनाओं की स्थिति में रहता है। वे साधारण प्लेटफॉर्म रिपोर्टिंग से आगे बढ़ रहे हैं जो केवल अपटाइम या टोकन काउंट दिखाते हैं। इसके बजाय, वे अलग-अलग तरह की क्वेरीज़ में त्रुटियों के वितरण को देख रहे हैं। वे जानना चाहते हैं कि क्या मॉडल क्रिएटिव राइटिंग में बेहतर होते हुए गणित में खराब हो रहा है।
आम धारणा यह है कि बड़ा मॉडल हमेशा कम अनिश्चितता पैदा करता है। यह अक्सर गलत होता है। बड़े मॉडल कभी-कभी अपने हैलुसिनेशन (hallucinations) में अधिक आश्वस्त हो सकते हैं, जिससे उन्हें पहचानना कठिन हो जाता है। टीमें अब ‘कैलिब्रेशन’ (calibration) नामक चीज को ट्रैक कर रही हैं। एक अच्छी तरह से कैलिब्रेटेड मॉडल जानता है कि उसे उत्तर कब नहीं पता है। यदि कोई मॉडल किसी तथ्य के बारे में 90 प्रतिशत आश्वस्त होने का दावा करता है, तो उसे 90 प्रतिशत समय सही होना चाहिए। यदि वह केवल 60 प्रतिशत समय सही है, तो वह अति-आत्मविश्वासी और खतरनाक है। यह बुनियादी AI उपयोग के नीचे की दिलचस्प परत है। इसके लिए केवल टेक्स्ट पढ़ने के बजाय आउटपुट के गणित में गहराई से जाने की आवश्यकता है। कंपनियां अब विशेष रूप से इस ड्रिफ्ट को मापने के लिए डेटा साइंटिस्ट्स को हायर कर रही हैं। वे देख रहे हैं कि मॉडल अस्पष्ट प्रॉम्प्ट्स की व्याख्या कैसे करता है। अनिश्चितता पर ध्यान केंद्रित करके, वे यह अनुमान लगा सकते हैं कि सिस्टम कब टूटने वाला है, इससे पहले कि वह किसी ग्राहक के लिए समस्या पैदा करे। यह प्रोएक्टिव दृष्टिकोण ही एकमात्र तरीका है जिससे इन टूल्स को कंपनी की प्रतिष्ठा को जोखिम में डाले बिना प्रोफेशनल वातावरण में स्केल किया जा सकता है।
आत्मविश्वास का वैश्विक संकट
सख्त मापन की ओर यह कदम किसी शून्य में नहीं हो रहा है। यह एक ऐसे वैश्विक वातावरण की प्रतिक्रिया है जहां डेटा की अखंडता एक कानूनी आवश्यकता बनती जा रही है। यूरोपीय संघ में, 2026 के AI एक्ट ने एक मिसाल कायम की है कि हाई-रिस्क सिस्टम्स की निगरानी कैसे की जानी चाहिए। टोक्यो, लंदन और सैन फ्रांसिस्को की कंपनियां यह महसूस कर रही हैं कि वे ‘ब्लैक बॉक्स’ के बहाने पीछे नहीं छिप सकतीं। यदि कोई ऑटोमेटेड सिस्टम लोन देने से मना करता है या जॉब एप्लीकेशन को फिल्टर करता है, तो कंपनी को त्रुटि की गुंजाइश (margin of error) समझाने में सक्षम होना चाहिए। इसने पारदर्शिता के लिए एक नया वैश्विक मानक बनाया है। ऑटोमेटेड लॉजिस्टिक्स पर निर्भर सप्लाई चेन इन मेट्रिक्स के प्रति विशेष रूप से संवेदनशील हैं। प्रेडिक्टिव मॉडल में एक छोटी सी गलती लाखों डॉलर के ईंधन की बर्बादी या इन्वेंट्री के नुकसान का कारण बन सकती है। दांव अब केवल एक चैट विंडो तक सीमित नहीं हैं। वे भौतिक और वित्तीय हैं। यह वैश्विक दबाव सॉफ्टवेयर प्रदाताओं को अपने सिस्टम खोलने और अपने एंटरप्राइज क्लाइंट्स को अधिक विस्तृत डेटा प्रदान करने के लिए मजबूर कर रहा है। वे अब केवल एक साधारण इंटरफेस प्रदान नहीं कर सकते। उन्हें कच्चा कॉन्फिडेंस डेटा प्रदान करना होगा जो टीमों को सूचित निर्णय लेने की अनुमति देता है।
इस बदलाव का प्रभाव उन क्षेत्रों में सबसे अधिक महसूस किया जा रहा है जिन्हें उच्च सटीकता की आवश्यकता है। हेल्थकेयर और फाइनेंस इन नई रिपोर्टिंग मानकों को विकसित करने में सबसे आगे हैं। वे जनरल-पर्पस असिस्टेंट के विचार से दूर होकर संकीर्ण, मापने योग्य लक्ष्यों वाले अत्यधिक विशिष्ट एजेंट्स की ओर बढ़ रहे हैं। यह अनिश्चितता के दायरे को कम करता है और समय के साथ प्रदर्शन को ट्रैक करना आसान बनाता है। यह अहसास बढ़ रहा है कि AI सिस्टम का सबसे मूल्यवान हिस्सा मॉडल खुद नहीं, बल्कि उसे सत्यापित करने के लिए उपयोग किया जाने वाला डेटा है। कंपनियां