जनरेटिव AI तेज़ी से आगे बढ़ रहा है लेकिन अब भी हमें नहीं पता कि वह अंदर से कैसे काम करता है. OpenAI का वेट-स्पार्स ट्रांसफॉर्मर इस “ब्लैक बॉक्स” को खोलने की दिशा में एक अहम और उम्मीद जगाने वाला कदम है.
Image Source: Getty Images
जनरेटिव आर्टिफिशियल इंटेलिजेंस (AI) और लार्ज लैंग्वेज मॉडल (LLM) के असाधारण विकास से कई क्षेत्रों में कई नए प्रयोग हो रहे हैं, फिर भी हमें काफ़ी हद तक यह नहीं पता कि ये मॉडल आंतरिक रूप से किस तरह काम करते हैं, जिस कारण इनको लेकर कई तरह के पूर्वाग्रह और भ्रम जैसी चुनौतियां बनी हुई हैं. इस लिहाज़ से, OpenAI का वेट-स्पार्स ट्रांसफॉर्मर पर किया गया नया काम काफ़ी उत्साह जगाता है और ‘AI ब्लैक बॉक्स’ जैसी समस्या का व्यावहारिक समाधान दे सकता है. हालांकि, इसकी क्षमता GPT-5 जैसे उन्नत LLM के बराबर नहीं है फिर भी वेट-स्पार्स ट्रांसफॉर्मर से मौजूदा AI मॉडलों के अंदरूनी रहस्यों को सामने लाने में मदद मिल सकती है जिससे AI को अपनाने को लेकर लोगों का भरोसा बढ़ सकता है.
न्यूरल नेटवर्क में कई परतों में नोड्स या न्यूरॉन्स होते हैं जो पैटर्न को पहचानकर पूर्वानुमान लगाते हैं. इनमें से ज्यादातर नोड्स आपस में सटी हुई परतों के अन्य नोड्स से भी जुड़े होते हैं जिससे एक ‘सघन नेटवर्क’ बनता है. इन नोड्स के बीच संबंध कितना मज़बूत है यह ‘वेट’ (भार) और ‘बायस’ (पूर्वाग्रह, जिसे इसलिए डाला जाता है ताकि गलतियां कम से कम हों) से तय होता है. प्रत्येक नोड अपने अगले कनेक्शन को एक वेट देता है जिसे डेटा से तब गुणा किया जाता है, जब वह एक ख़ास मूल्य से ज्यादा नहीं होता; नहीं तो, उसे ज़ीरो सेट कर दिया जाता है. इसके बाद, वेटेड इनपुट में बायस डाला जाता है और अंतिम पूर्वानुमान पाने के लिए एक प्रक्रिया से गुजारा जाता है.
ट्रांसफॉर्मर मॉडल सघन नेटवर्क से बने होते हैं, जिनमें काफ़ी ज्यादा नोड्स होते हैं और इसे ‘सुपरपोजिशन’ कहा जाता है।
चित्र 1- न्यूरल नेटवर्क की मूल संरचना

Source: Medium
जनरेटिव AI काफ़ी हद तक इसी तरह के ख़ास न्यूरल नेटवर्क पर काम करता है, जिसे ‘ट्रांसफॉर्मर’ कहते हैं. इसे 2017 में विकसित किया गया था, और तभी ChatGPT जैसे LLM भी बन सके.
मैकेनिस्टिक इंटरप्रेटेबिलिटी का उद्देश्य न्यूरल नेटवर्क की रिवर्स इंजीनियरिंग करना और उनके एल्गोरिदम को इंसानों के समझने योग्य बनाना है।
जनरेटिव AI और LLM के साथ एक बड़ी दिक्क़त यह है कि वे मूल रूप से ‘ब्लैक बॉक्स’ की तरह काम करते हैं. ऐसा इसलिए क्योंकि ट्रांसफॉर्मर मॉडल सघन नेटवर्क से बने होते हैं जिनमें काफ़ी ज्यादा नोड्स होते हैं और सभी नोड्स की अपनी-अपनी ख़ासियत होती है. इसे ‘सुपरपोजिशन’ कहा जाता है. इसी कारण, यह समझना बेहद कठिन हो जाता है कि ट्रांसफॉर्मर मॉडल आखिर काम कैसे करते हैं और पूर्वाग्रह व भ्रम जैसी गलतियों क्यों होती हैं जो कई मामलों में AI के लिए नुक़सानदेह साबित हुई हैं. इसका सबसे चर्चित उदाहरण 2003 में दिखा था, जब Google के बार्ड चैटबॉट ने जेम्स वेब स्पेस के बारे में गलत जानकारी दी जिससे इसकी मूल कंपनी अल्फाबेट को 100 अरब डॉलर से अधिक का नुक़सान हुआ.
वेट-स्पार्स ट्रांसफॉर्मर अधिकांश वेट को शून्य कर देता है, जिससे सरल और विरल परिपथ बनते हैं।
AI मॉडल को बेहतर ढंग से समझने के प्रयास ने ‘मैकेनिस्टिक इंटरप्रेटेबिलिटी’ नामक क्षेत्र को जन्म दिया जिसका उद्देश्य न्यूरल नेटवर्क की रिवर्स इंजीनियरिंग करना और उनके एल्गोरिदम को इंसानों के समझने योग्य बनाना है. हालांकि, मैकेनिस्टिक इंटरप्रेटेबिलिटी (यांत्रिक व्याख्यात्मकता) को पाने के कई प्रयास किए गए हैं, लेकिन अभी तक कोई बड़ी सफलता हाथ नहीं लग सकी है.
हाल ही में प्रकाशित एक शोध पत्र में, OpenAI ने ‘वेट-स्पार्स ट्रांसफॉर्मर’ की अवधारणा पेश की है, जिससे ट्रांसफॉर्मर मॉडल के कामकाज को समझना बेहद आसान हो जाता है. यह ट्रांसफॉर्मर को इस तरह प्रशिक्षित करता है कि अधिकांश वेट शून्य हो जाते हैं. इससे सरल, सूक्ष्म या ‘विरल’ (स्पार्स) परिपथ बनते हैं, जिनमें नोड्स के बीच सीधे और समझने लायक कनेक्शन की संख्या काफ़ी कम हो जाती है, जिस कारण जटिलताएं भी कम हो जाती हैं.
चित्र 2- सघन बनाम विरल परिपथ

Source: OpenAI
हालांकि, वेट-स्पार्स ट्रांसफॉर्मर की भी अपनी कमियां हैं. वे क्षमता से अधिक व्याख्या पर ज़ोर देते हैं, जिस कारण वे समान क्षमता वाले सघन मॉडल की तुलना में 100 से 1000 गुना कम कुशल होते हैं.
OpenAI की रिसर्च टीम ने ब्रिज का उपयोग करके वेट-स्पार्स ट्रांसफार्मर को सघन मॉडलों से जोड़ने में सफलता पाई है. इसका अर्थ है कि उनकी मदद से उन्नत मॉडलों की अंदरूनी कार्यप्रणाली को समझा जा सकता है. इसके अलावा, स्पार्स ब्रिजेड मॉडल को ऐसे-ऐसे कामों पर प्रशिक्षित किया जाता है कि AI से जुड़े सुरक्षा ख़तरों से निपटने में वे उपयोगी साबित हो सकते हैं.
इसीलिए, मौजूदा LLM के लिए ये भले ही विकल्प न माने जाएं, पर अभी के AI मॉडलों को समझने में ये ज़रूर मददगार हो सकते हैं. इसके अलावा, व्यावसायिक नज़रिये से कम प्रासंगिक होने के बावजूद, वेट-स्पार्स ट्रांसफॉर्मर जैसे मॉडल AI के ब्लैक बॉक्स को खोलने यानी उसके रहस्य को सामने लाने और उनके काम करने के तरीके को समझने के लिए ज़रूरी हैं. यह पूर्वाग्रह और भ्रम जैसी समस्याओं को दूर करने में भी महत्वपूर्ण है, जो जनरेटिव एआई की प्रभावशीलता को बुरी तरह प्रभावित कर रही हैं और जिनसे भविष्य में इसके उपयोग पर नकारात्मक असर पड़ सकता है.
अभी AI को अपनाने में एक बड़ी दिक्कत यह है कि इसके मॉडल सुरक्षा संबंधी ख़तरों, जैसे कि भ्रम से जूझ रहे हैं. इस कारण कई ऐसे मामले सामने आए हैं, जहां AI चैटबॉट ने दुर्भावना के साथ काम किया, जिनमें उपयोग करने वाले को अपराध के लिए उकसाना भी शामिल है. टेक्सास के 17 वर्षीय किशोर का मामला ऐसा ही है, जिसे Character.ai चैटबॉट से अपने माता-पिता को मारने का संकेत मिला, क्योंकि उन्होंने उसका स्क्रीन टाइम घटा दिया था. इस तरह के सामाजिक ख़तरों के पैदा होने के अलावा, यह तकनीक उद्योग जगत का भी भरोसा नहीं पा सकी है.
व्यावसायिक रूप से कम प्रासंगिक होने के बावजूद, ये मॉडल AI के ब्लैक बॉक्स को खोलने के लिए ज़रूरी हैं।
इस लिहाज़ से देखें, तो मैकेनिस्टिक इंटरप्रेटेबिलिटी और ग्लास-बॉक्स जैसे मॉडल भले ही अत्याधुनिक मॉडलों की तुलना में व्यावसायिक रूप से कम फ़ायदेमंद हों, लेकिन इंसानों का भरोसा पाने और एआई को बढ़ावा देने में महत्वपूर्ण भूमिका निभा सकते हैं. यह निवेशकों के भरोसे को बनाए रखने और AI के सुरक्षित भविष्य को तय करने में भी सहायक हो सकते हैं. इससे भी अहम बात यह है कि ये मॉडल AI के मौजूदा ख़तरों से निपटने में मददगार हो सकते हैं, क्योंकि इन मॉडलों के इस्तेमाल से उन दुर्भावनापूर्ण और गलत जवाबों को प्रभावी ढंग से ख़त्म किया जा सकता है, जो AI से हमें मिल जाते हैं.
आज बेशक ज़्यादातर देश एक-दूसरे से आगे निकलने के लिए AI मॉडल को तेज़ी से अपना रहे हैं लेकिन कोई भी प्रौद्योगिकी तब तक तरक्क़ी नहीं कर सकती, जब तक इंसानों का उस पर भरोसा न हो इसीलिए, कम व्यावसायिक लाभ के बावजूद वेट-स्पार्स ट्रांसफॉर्मर जैसे मॉडलों में निवेश करना, AI में दबदबा बनाने और राष्ट्रीय लक्ष्यों को पाने का बुनियादी सिद्धांत होना चाहिए. तब तक AI की उपयोगिता और उसके भविष्य को लेकर ठीक-ठीक कुछ नहीं कहा जा सकता.
(प्रतीक त्रिपाठी ऑब्जर्वर रिसर्च फाउंडेशन के सेंटर फॉर सिक्योरिटी, स्ट्रैटेजी ऐंड टेक्नोलॉजी (CSST) में एसोसिएट फेलो हैं)
The views expressed above belong to the author(s). ORF research and analyses now available on Telegram! Click here to access our curated content — blogs, longforms and interviews.
Prateek Tripathi is an Associate Fellow at the Centre for Security, Strategy and Technology. His work focuses on an emerging technologies and deep tech including quantum ...
Read More +