Vulnerabilities in Large Language Models

चूंकि एलएलएम में मूल्य निर्माण की अत्यधिक क्षमता होती है, इस क्षमता का पूरा इस्तेमाल करने के लिए नवाचार के साथ-साथ सुरक्षा को भी प्राथमिकता देना आवश्यक है.

एआई एफ़4: तथ्य, कल्पना, भय और कल्पनाएं: श्रृंखला का हिस्सा है यह निबंध

हालांकि, इन्हें पहली बार 2018 में पेश किया गया था, बड़े भाषा मॉडल (एलएलएम) - एक गहन शिक्षण एल्गोरिदम जो विभिन्न प्रकार के प्राकृतिक भाषा प्रसंस्करण (एनएलपी) कार्यों को कर सकता है - ने हाल के वर्षों में ओपनएआई द्वारा चैटजीपीटी की रिलीज़ के साथ काफ़ी लोकप्रियता हासिल कर ली है. फ़ेसबुक और गूगल जैसी कई टेक कंपनियां अपने स्वयं के एलएलएम (क्रमशः एललामा-LLama और पाम-PaLM) जारी कर रही हैं, जिन्हें विभिन्न अनुप्रयोगों में एकीकृत किया जा रहा है. इस नवनिर्मित सर्वव्यापकता के साथ, इन मॉडलों के काल्पनिकीकरण में वृद्धि हुई है. उन्हें अक्सर सर्वज्ञानी इकाइयों के रूप में चित्रित किया जाता है, बहुत ज़्यादा बुद्धिमत्ता के साथ जिनकी योजना, दुनिया भर को अपने अधिकार में लेने की है. हालांकि यह सच है कि एलएलएम में अपनी तरह के ख़तरे हैं, जिनकी ओर ध्यान दिए जाने की आवश्यकता है, लेकिन ये उनके अतिरंजित चित्रण से कहीं दूर हैं. निम्नलिखित अंश एलएलएम को प्रभावित करने वाली ख़ामियों को दिखाना चाहता है. यद्यपि यह एक विस्तृत सूची नहीं है, लेकिन यहां लक्ष्य उनको कवर करना है जो सीधे उपयोगकर्ताओं को प्रभावित करने की संभावना रखते हैं और उन वर्तमान तरीकों पर चर्चा करना हैं जिनके साथ इन कमज़ोरियों से निपटा जा रहा है.

फ़ेसबुक और गूगल जैसी कई टेक कंपनियां अपने स्वयं के एलएलएम (क्रमशः एललामा-LLama और पाम-PaLM) जारी कर रही हैं, जिन्हें विभिन्न अनुप्रयोगों में एकीकृत किया जा रहा है.

लार्ज लैंग्वेज मॉडल

प्रॉम्प्ट इंजेक्शन: सभी एलएलएम में एक अंतर्निहित प्रॉम्प्ट होता है जो उन्हें कार्य करने और आउटपुट (उत्पाद) के उत्पादन के लिए निर्देश देता है. प्रॉम्प्ट इंजेक्शन हमलों में एक हमलावर शामिल होता है जो एलएलएम के प्रारंभिक प्रॉम्प्ट को बदल देता है ताकि वह दुर्भावनापूर्ण व्यवहार करने लगे. प्रॉम्प्ट इंजेक्शन सीधे किए जा सकते हैं यानी: उपयोगकर्ता स्वयं प्रॉम्प्ट को संशोधित करता है, या अप्रत्यक्ष रूप से जहां हमलावर किसी वेबपेज या फ़ाइल में टेक्सट को संशोधित कर देता है जिसे एलएलएम अपने इनपुट के रूप में लेता है. इसके परिणाम पूरी तरह से हानिरहित, उदाहरण के लिए, एलएलएम समुद्री डाकू होने का नाटक करने लगे, या अत्यंत हानिकारक हो सकते हैं जैसे कि फ़र्ज़ी समाचार फैलाना, व्यक्तिगत या वित्तीय जानकारी एकत्र करना और भरोसा जगाने वाले जालसाज़ी वाले संदेश बनाना. शोधकर्ता कई समाधानों पर काम कर रहे हैं, जिसमें एक निरीक्षक/संचालक मॉडल को शामिल करना है जो केवल हानिकारक आउटपुट को फ़िल्टर करने से आगे जाकर हमलों का पता लगाएगा. हालांकि, इनमें से कई तकनीकें अभी भी जांच और विकास के दौर में ही हैं और इसकी वजह से यह महत्वपूर्ण हो जाता है कि उपयोगकर्ता ऐसे किसी भी एलएलएम आउटपुट की रिपोर्ट करें जो अपेक्षाओं से अलग महसूस होता है.

सूचना रिसाव: इन मॉडलों को अत्यंत बड़े डाटासेट पर प्रशिक्षित किया जाता है जैसे कि कॉमन क्रॉल, जो सैकड़ों टेराबाइट तक होते हैं और अनिवार्य रूप से इंटरनेट पर सभी वेबपृष्ठों का एक टेक्स्ट डंप होते हैं. कई वेबपृष्ठों में संवेदनशील जानकारी शामिल हो सकती है जैसे कि सामाजिक सुरक्षा नंबर, बैंक खाते, फ़ोन नंबर आदि. एलएलएम की उत्पादक प्रकृति के कारण, वे स्वामित्व वाली, कॉपीराइट वाली, या व्यक्तिगत रूप से पहचान योग्य जानकारी (पीआईआई) लीक कर सकते हैं. यह समस्या इस तथ्य से और बढ़ जाती है कि एलएलएम को उन वार्तालापों पर प्रशिक्षित किया जाता है जहां उपयोगकर्ता ने विभिन्न प्रकार के संवेदनशील डाटा साझा किए होंगे. इसका हालिया उदाहरण तब सामने आया जब सैमसंग के कर्मचारियों ने चैटजीपीटी के साथ सेमीकंडक्टर उपकरण मापने के लिए ज़िम्मेदार सॉफ़्टवेयर का स्रोत कोड साझा किया. इस मुद्दे को हल करने के लिए कंपनियां अपने द्वारा उपयोग किए जाने वाले डाटा को छानने और उसे ठीक से साफ़ करने और बाहरी असत्यापित डाटा के उपयोग को सीमित करने के लिए कदम उठा रही हैं.

दुर्भावनापूर्ण प्रॉम्प्ट चैटजीपीटी को उपयोगकर्ता का ईमेल पुनर्प्राप्त करने, उसका सारांश करने और यूआरएल कोड करने और ब्राउज़िंग प्लग-इन के माध्यम से डाटा को हमलावर-नियंत्रित यूआरएल पर भेजने का निर्देश देता है.

एजेंसी और अत्यधिक निर्भरता: एलएलएम को शायद ही कभी स्वतंत्र तरीके से उपयोग किया जाता है, यह बहुत संभव है कि उन्हें एक बड़ी पाइपलाइन के हिस्से के रूप में इस्तेमाल किया जा रहा हो. उत्पन्न आउटपुट को या तो सीधे किसी व्यक्ति द्वारा ग्रहण किया जा सकता है, उदाहरण के लिए: एक लंबे दस्तावेज़ का सारांश करवाकर या फिर किसी अन्य एप्लिकेशन द्वारा, उदाहरण के लिए: एक एलएलएम कोड जनरेट करना जिसे बाद में अन्य मशीनों पर लागू किया जाता है. हालाँकि, एलएलएम को अधिक क्षमताएं प्रदान करना और उनके द्वारा बनाए किए गए आउटपुट पर बहुत अधिक निर्भर रहने से सबसे सौम्य और ख़राब ढंग से लिखे गए प्रॉम्प्ट भी गंभीर नुकसान पहुंचा सकते हैं. यह दर्शाया गया था कि एक प्लगइन बनाना संभव है, जिसका उपयोग उपयोगकर्ता के पीआईई को हमलावर को भेजने के लिए किया जा सकता है. इस कारनामे में एक हमलावर वेबसाइट पर दुर्भावनापूर्ण निर्देश भेजता है. जब पीड़ित चैटजीपीटी के माध्यम से ब्राउज़िंग प्लगइन (वेबपायलट) का उपयोग करके वेबसाइट तक पहुंचता है, तो यह हमलावर को नियंत्रण लेने की अनुमति दे देता है. दुर्भावनापूर्ण प्रॉम्प्ट चैटजीपीटी को उपयोगकर्ता का ईमेल पुनर्प्राप्त करने, उसका सारांश करने और यूआरएल कोड करने और ब्राउज़िंग प्लग-इन के माध्यम से डाटा को हमलावर-नियंत्रित यूआरएल पर भेजने का निर्देश देता है. इस संवेदनशीलता का मुकाबला करने के लिए, डेवलपर्स को उन प्लगइन्स/टूल को सीमित करना चाहिए जिन्हें एलएलएम एजेंट उपयोग करने की अनुमति है और ऐसे टूल से बचना चाहिए जो पूरी तरह स्वतंत्र काम करने की सुविधा प्रदान करते हैं जैसे कि ईमेल भेजना. इसके अतिरिक्त, एलएलएम द्वारा उन्हें निष्पादित करने से पहले सभी कार्यों को स्वीकृत करने के लिए यूज़र-इन-द-लूप (उपयोगकर्ता को संपर्क में रखना) प्रक्रिया का उपयोग किया जा सकता है.

मतिभ्रम: एलएलएम मतिभ्रम से ग्रस्त होने के लिए जाने जाते हैं जिसमें अनुचित, गलत या यहां तक कि असुरक्षित जानकारी भी शामिल हो सकती है. इन मॉडलों द्वारा उत्पन्न किसी भी पाठ पर आंख बंद करके भरोसा नहीं किया जाना चाहिए, अन्यथा, ये असंख्य समस्याओं को जन्म दे सकते हैं जिनमें कानूनी पचड़े भी शामिल हो सकते हैं. ऐसा लेविडो, लेविडो और ओबरमैन के वकीलों के साथ हो चुका है, जिन्होंने अपने ग्राहक के हवाई जहाज़ में चोट के दावे का समर्थन करने वाले मामलों को खोजने के लिए चैटजीपीटी का उपयोग किया था. उत्पन्न मामले वास्तविक नहीं थे, न्यायाधीशों की पहचान ग़़लत की गई थी, या ऐसी एयरलाइनों को शामिल किया गया था जो मौजूद ही नहीं थीं और इसके परिणामस्वरूप, फर्म पर एक संघीय न्यायाधीश ने 5,000 अमेरिकी डॉलर का जुर्माना लगाया था. शोधकर्ता अधिक मज़बूत वॉटरमार्किंग विधियां बना रहे हैं ताकि एलएलएम द्वारा उत्पन्न पाठ का पता लगाना आसान हो, फिर भी यह उपयोगकर्ता पर निर्भर करता है कि वह उत्पन्न आउटपुट पर बहुत अधिक निर्भर न रहे और उन्हें आगे किसी एप्लिकेशन पर भेजते समय, सावधानी के साथ उनका इस्तेमाल किया जाए .

कुछ दिलचस्प लेकिन महत्वपूर्ण कमज़ोरियां जिन पर चर्चा नहीं की गई है, उनमें मॉडल चोरी शामिल है, जहां एक हमलावर मॉडल वेट्स "चुरा" सकता है, या मॉडल सेवा से इनकार कर सकता है, जहां एक हमलावर वास्तविक उपयोगकर्ताओं की इस तक पहुंच बनाने से रोकने के लिए मॉडल को फ़र्ज़ी इनपुट से वश में कर सकता है. वास्तव में, मॉडल वेट्स के लीक होने का एक उदाहरण मेटा के एललामा के साथ हुआ क्योंकि डेवलपर टोरेंट लिंक को हटाना भूल गया था, हालांकि, वेट्स का दुरुपयोग नहीं किया गया था और इसके बजाय एक छोटा ओपन-सोर्स मॉडल, जिसे अल्पाका कहा जाता है, बनाने के लिए इस्तेमाल किया गया था.

एलएलएम का वर्तमान परिदृश्य इंटरनेट के शुरुआती दिनों को दर्शाता है, जहां सुरक्षा उपायों को स्थापित करने से अधिक तेज़ी से प्रगति को प्राथमिकता दी गई थी. सुरक्षा प्रोटोकॉल के बिना नवाचार को प्राथमिकता देने ने स्थायी मुद्दों जैसे मैलवेयर और ट्रोजन को जन्म दिया जो आज भी बने हुए हैं.

एलएलएम का वर्तमान परिदृश्य इंटरनेट के शुरुआती दिनों को दर्शाता है, जहां सुरक्षा उपायों को स्थापित करने से अधिक तेज़ी से प्रगति को प्राथमिकता दी गई थी. सुरक्षा प्रोटोकॉल के बिना नवाचार को प्राथमिकता देने ने स्थायी मुद्दों जैसे मैलवेयर और ट्रोजन को जन्म दिया जो आज भी बने हुए हैं. चूंकि एलएलएम में मूल्य निर्माण की अत्यधिक क्षमता होती है, इस क्षमता का पूरा इस्तेमाल करने के लिए नवाचार के साथ-साथ सुरक्षा को भी प्राथमिकता देना आवश्यक है. जैसा कि पिछले पैराग्राफ में विशिष्ट रूप से बताया गया है, यह स्पष्ट है कि शोधकर्ता और डेवलपर इन मॉडलों में कमज़ोरियों को कम करने के लिए विभिन्न उपायों को तैयार करने में सक्रिय रूप से लगे हुए हैं. हालांकि, एलएलएम के लिए वास्तविक सुरक्षा प्राप्त करने के लिए न केवल शोधकर्ताओं और डेवलपर्स बल्कि सरकारों, निगमों और उपयोगकर्ताओं के लगातार, ठोस प्रयास की आवश्यकता है. कई हितधारकों को शामिल करते हुए यह सहयोगात्मक प्रयास एलएलएम के आसपास सुरक्षा ढांचे को मज़बूत करने और उनके ज़िम्मेदार और लाभकारी परिनियोजन को सुनिश्चित करने के लिए अनिवार्य है.

(आर्किन धरावत टिकटॉक में एमएल इंजीनियर हैं)

The views expressed above belong to the author(s). ORF research and analyses now available on Telegram! Click here to access our curated content — blogs, longforms and interviews.

Vulnerabilities In Large Language Models

PREV NEXT

Author

Arkin Dharawat

Arkin Dharawat is an ML Engineer at Tiktok. ...

Expert Speak Digital Frontiers

Published on Feb 07, 2024 Updated 0 Hours ago

लार्ज लैंग्वेज मॉडल

Author

Arkin Dharawat

Related Search Terms

Publications

इस्पात उद्योग कैसे बन सकता है हिंद-प्रशांत क्षेत्र में एशियाई साझेदारियां बनाने का माध्यम?

Development | Development Partnerships

May 06, 2025

2024 में भारत की उत्तर कोरिया में वापसी: शांत लेकिन रणनीतिक रूप से अहम कदम

International Affairs | Indian Foreign Policy

May 06, 2025

Essay Series

Long-form

Progammes & Centres

Location

About ORF

Engage

People

AI: बड़े भाषा मॉडल की कमियाँ!

Expert Speak Digital Frontiers

Published on Feb 07, 2024 Updated 0 Hours ago

लार्ज लैंग्वेज मॉडल

Author

Arkin Dharawat

Related Search Terms

Publications

Development | Development Partnerships

May 06, 2025

International Affairs | Indian Foreign Policy

May 06, 2025