एआय (AI) : मोठ्या भाषेच्या मॉडेलचे तोटे!

एलएलएम मध्ये प्रचंड मूल्य निर्मिती क्षमता असल्याने, या संभाव्यतेचा पूर्णपणे वापर करण्यासाठी नावीन्यपूर्णतेसह सुरक्षिततेला प्राधान्य देणे महत्त्वाचे आहे.

हा लेख AI F4: Facts, Fiction, Fears and Fantasies या मालिकेचा भाग आहे.

लार्ज लँग्वेज मॉडेल म्हणजेच LLMs 2018 मध्ये पहिल्यांदा सादर करण्यात आले असले तरी अलीकडच्या काही वर्षांत ओपनएआय असलेल्या ChatGPT मुळे याला मोठ्या प्रमाणात लोकप्रियता मिळाली आहे. फेसबुक आणि गुगल सारख्या अनेक टेक कंपन्या त्यांचे स्वतःचे लार्ज लँग्वेज मॉडेल ( अनुक्रमे LLama आणि PaLM ) बाजारात आणले आहेत. यात विविध अनुप्रयोग एकत्रित करून या मॉडेल्सचे काल्पनिकीकरण वाढले आहे. त्यांना बऱ्याचदा अफाट बुद्धिमत्तेसह सर्वज्ञ घटक म्हणून चित्रित केले जाते, ज्यामुळे त्यांचा जगावर कसा ताबा आहे हे दिसून येतं. पण या लार्ज लँग्वेज मॉडेल तितकेच धोके देखील आहेत आणि याकडे लक्ष देण्याची गरज आहे. पण या धोक्यांची अतिशयोक्ती करून चालणार नाही. या लेखात एलएलएमवर परिणाम करणाऱ्या उणिवा दाखवण्याचा प्रयत्न केला आहे. ही भले ही संपूर्ण यादी नसेल मात्र वापरकर्त्यांवर थेट परिणाम होण्याची शक्यता असलेल्या गोष्टी यात कव्हर करण्यात आल्या आहेत. शिवाय असुरक्षितपणे हाताळल्या जात असलेल्या सध्याच्या पद्धतींवर चर्चा केली आहे.

संशोधक यावर उपाय शोधण्यासाठी काम करत आहेत. यात सुपरवायझर/मॉडरेटर मॉडेल सादर करणे समाविष्ट आहे जे केवळ हानिकारक आउटपुट फिल्टर करण्यापलीकडे हल्ले झाल्याची माहिती शोधतात.

प्रॉम्प्ट इंजेक्शन: सर्व एलएलएम मध्ये अंतर्निहित प्रॉम्प्ट असते जे त्यांना कार्य आणि उत्पादनासाठी सूचना देते. जसं की एखाद्या हल्लेखोराने प्रॉम्प्ट इंजेक्शन मध्ये दुर्भावनापूर्ण बदल केल्यास एलएलएम याचा सुरुवातीचा प्रॉम्प्ट बदलते. प्रॉम्प्ट इंजेक्शन थेट केले जाऊ शकतात म्हणजे वापरकर्ता स्वतः प्रॉम्प्ट सुधारतो किंवा जिथे अप्रत्यक्षपणे काही मजकूर बदलला आहे त्यात एलएलएम इनपुट म्हणून घेते. उदाहरण म्हणून बघायचं झालंच तर काही जण एलएलएमला पायरेट असल्याचं भासवतात किंवा अत्यंत हानिकारक जसं की बनावट बातम्या पसरवणे , वैयक्तिक किंवा आर्थिक माहिती गोळा करणे. संशोधक यावर उपाय शोधण्यासाठी काम करत आहेत. यात सुपरवायझर/मॉडरेटर मॉडेल सादर करणे समाविष्ट आहे जे केवळ हानिकारक आउटपुट फिल्टर करण्यापलीकडे हल्ले झाल्याची माहिती शोधतात. मात्र, यापैकी अनेक तंत्र अद्याप तपासली जात आहेत आणि विकसित केली जात आहेत, ज्यामुळे वापरकर्त्यांना अपेक्षेबाहेरील कोणत्याही एलएलएम आउटपुटची तक्रार करता येऊ शकते.

माहितीची गळती: या मॉडेल्सना कॉमन क्रॉल सारख्या अत्यंत मोठ्या डेटासेटवर प्रशिक्षित केले जाते, जे शेकडो टेराबाइट्सचे असते आणि मूलत: इंटरनेटवरील सर्व वेब पृष्ठांचा मजकूर इथे टाकलेला असतो. अनेक वेब पेजेसमध्ये सामाजिक सुरक्षा क्रमांक, बँक खाती, फोन नंबर इत्यादीसारख्या संवेदनशील माहितीचा समावेश असू शकतो. एलएलएमच्या जनरेटिव्ह स्वरूपामुळे, ते मालकीची, कॉपीराइट केलेली किंवा वैयक्तिकरित्या ओळखण्यायोग्य माहिती (PII) लीक करू शकतात. एलएलएमला अशा संभाषणांवर प्रशिक्षण दिले जाते ज्यामध्ये वापरकर्त्याने विविध संवेदनशील डेटा सामायिक केला असेल या वस्तुस्थितीमुळे ही समस्या आणखी वाढली आहे. याचे अलीकडील उदाहरण म्हणजे सॅमसंग कर्मचाऱ्यांनी सेमीकंडक्टर उपकरणे मोजण्यासाठी जबाबदार असलेल्या सॉफ्टवेअरचा सोर्स कोड ChatGPT सोबत शेअर केला. या समस्येचे निराकरण करण्यासाठी कंपन्या ते वापरत असलेला डेटा फिल्टर करण्यासाठी पावले उचलत आहेत आणि खोट्या डेटाचा वापर मर्यादित करत आहेत.

ब्राउझिंग प्लगइन (वेबपायलट) द्वारे ChatGPT वापरून पीडित व्यक्तीच्या खात्यावर आक्रमणकर्त्याला नियंत्रण मिळवता येते.

एजन्सी आणि अत्यावश्यकता: एलएलएम क्वचितच एकट्याने वापरले जातात. हे एखाद्या मोठ्या गटाचा एक भाग म्हणून वापरले जात आहेत. व्युत्पन्न केलेले आउटपुट एकतर थेट मानवाकडून वापरले जाऊ शकते. उदाहरणार्थ दीर्घ दस्तऐवजाचा सारांश किंवा दुसऱ्या अनुप्रयोगाद्वारे एलएलएम जनरेटिंग कोड नंतर इतर मशीनवर कार्यान्वित केला जातो. मात्र एलएलएमला अधिक क्षमता देणे आणि त्यांच्या व्युत्पन्न केलेल्या आउटपुटवर जास्त अवलंबून राहणे यामुळे अगदी सौम्य आणि वाईट रीतीने लिहिलेल्या प्रॉम्प्ट्समुळे गंभीर नुकसान होऊ शकते. यातून एक प्लगइन तयार करणे शक्य आहे ज्याचा वापर आक्रमणकर्त्याला वापरकर्त्याचा पीआयआय पाठविण्यासाठी केला जाऊ शकतो. ब्राउझिंग प्लगइन (वेबपायलट) द्वारे ChatGPT वापरून पीडित व्यक्तीच्या खात्यावर आक्रमणकर्त्याला नियंत्रण मिळवता येते. दुर्भावनापूर्ण प्रॉम्प्ट ChatGPT ला वापरकर्त्याचे ईमेल पुनर्प्राप्त करण्यासाठी, सारांशित करण्यासाठी आणि यूआरएल एन्कोड करण्यासाठी आणि ब्राउझिंग प्लगइनद्वारे आक्रमणकर्त्या-नियंत्रित करण्यासाठी यूआरएलवर डेटा पाठवण्याची सूचना दिली जाते. या असुरक्षिततेचा सामना करण्यासाठी डेव्हलपरने एलएलएम वापरण्याची परवानगी असलेल्या एंजंट प्लगइन्स/टूल्सवर मर्यादा घातल्या पाहिजेत आणि ईमेल पाठवण्यासारखी ओपन-एंडेड फंक्शन्स प्रदान करणारी साधने टाळावीत. याव्यतिरिक्त, एलएलएम अंमलात आणण्यापूर्वी सर्व क्रिया मंजूर करण्यासाठी वापरकर्ता-इन-द-लूप प्रक्रिया वापरली जाऊ शकते.

भ्रम: एलएलएम मध्ये अयोग्य, चुकीच्या किंवा अगदी असुरक्षित माहितीचा समावेश असू शकतो. अशा भ्रमाचा सामना करण्यासाठी याचा वापर केला जातो. या मॉडेल्सद्वारे व्युत्पन्न केलेल्या कोणत्याही मजकुरावर आंधळेपणाने विश्वास ठेवला जाऊ नये अन्यथा, यामुळे कायदेशीर समस्यांसह असंख्य समस्या उद्भवू शकतात. लेविडो आणि ओबरमन यांच्या वकिलांची अशीच परिस्थिती आहे ज्यांनी त्यांच्या क्लायंटच्या विमान अपघाताच्या दाव्याला समर्थन देणारी प्रकरणे शोधण्यासाठी ChatGPT चा वापर केला. त्यांनी शोधून काढलेली प्रकरणं खरी असली तरी त्यात बाकीची माहिती खोटी होती. याचा परिणाम म्हणून फेडरल न्यायाधीशाने या वकिलांना 5,000 डॉलरचा दंड ठोठावला. एलएलएमद्वारे व्युत्पन्न केलेला मजकूर शोधणे सोपे व्हावे यासाठी संशोधक अधिक मजबूत वॉटरमार्किंग पद्धती तयार करत आहेत. पण व्युत्पन्न केलेल्या आउटपुटवर जास्त अवलंबून न राहता दुसऱ्या डाउनस्ट्रीम ऍप्लिकेशनवर पाठवताना माहितीची काळजीपूर्वक तपासणी करणे हे वापरकर्त्यावर अवलंबून असते.

त्यांनी शोधून काढलेली प्रकरणं खरी असली तरी त्यात बाकीची माहिती खोटी होती. याचा परिणाम म्हणून फेडरल न्यायाधीशाने या वकिलांना 5,000 डॉलरचा दंड ठोठावला.

चर्चा न केलेल्या काही मनोरंजक परंतु महत्त्वाच्या असुरक्षांमध्ये मॉडेल चोरीचा समावेश होतो, जेथे आक्रमणकर्ता मॉडेलची "चोरी" करू शकतो किंवा मॉडेल सेवेला नकार देऊ शकतो. कधी कधी आक्रमणकर्ता वास्तविक वापरकर्त्यांना त्यात प्रवेश करण्यापासून रोखण्यासाठी बोगस इनपुटसह मॉडेलला वेठीस धरू शकतो. खरं तर, मॉडेल लीक होण्याचं उदाहरण मेटाच्या एलएलएम सोबत घडलं होतं कारण डेव्हलपर टॉरेंट लिंक काढून टाकण्यास विसरला. यात मॉडेलचा गैरवापर केला गेला नाही आणि त्याऐवजी त्याने अल्पाका नावाचे एक लहान ओपन-सोर्स मॉडेल तयार केले होते.

एलएलएमचे सध्याचे लँडस्केप इंटरनेटच्या सुरुवातीच्या दिवसांचे प्रतिबिंब आहे, जिथे सुरक्षितता उपाय स्थापित करण्यापेक्षा वेगवान प्रगतीला प्राधान्य दिले जाते. पुरेशा सुरक्षा प्रोटोकॉलशिवाय नावीन्यपूर्णतेच्या या प्राधान्याने मालवेअर आणि ट्रोजन सारख्या चिरस्थायी समस्यांना जन्म दिला जातोय आणि ते आजही कायम आहे. एलएलएम मध्ये अफाट मूल्य निर्मितीची क्षमता असली तरी, या संभाव्यतेची जाणीव सुरक्षेला नावीन्यतेइतकीच प्राधान्य देण्यावर अवलंबून आहे. मागील परिच्छेदात ठळक केल्याप्रमाणे, हे स्पष्ट आहे की संशोधक आणि विकासक या मॉडेलमधील भेद्यता कमी करण्यासाठी विविध उपाय योजण्यात सक्रियपणे गुंतलेले आहेत. मात्र एलएलएमसाठी खरी सुरक्षितता साध्य करण्यासाठी केवळ संशोधक आणि विकासकच नव्हे तर सरकार, कॉर्पोरेशन आणि वापरकर्ते यांचा समावेश असलेल्या सतत, एकत्रित प्रयत्नांची आवश्यकता असते. एलएलएमच्या सभोवतालची सुरक्षा फ्रेमवर्क मजबूत करण्यासाठी आणि त्यांची जबाबदार आणि फायदेशीर तैनाती सुनिश्चित करण्यासाठी अनेक भागधारकांचा समावेश असलेला हा सहयोगी प्रयत्न अत्यावश्यक आहे.

अर्किन धारवत हे टिकटॉक येथे एमएल (ML) अभियंता आहेत.

The views expressed above belong to the author(s). ORF research and analyses now available on Telegram! Click here to access our curated content — blogs, longforms and interviews.

Vulnerabilities In Large Language Models0

PREV NEXT

Author

Arkin Dharawat

Arkin Dharawat is an ML Engineer at Tiktok. ...

Expert Speak Digital Frontiers

Published on Mar 05, 2024 Updated 0 Hours ago

ब्राउझिंग प्लगइन (वेबपायलट) द्वारे ChatGPT वापरून पीडित व्यक्तीच्या खात्यावर आक्रमणकर्त्याला नियंत्रण मिळवता येते.

Author

Arkin Dharawat

Publications

अफ्रिकेच्या हॉर्न प्रदेशात अस्थिरतेचे संकट : इरिट्रिया-इथिओपिया संघर्ष

International Affairs

May 06, 2025

अमेरिकन AI डिफ्यूजन फ्रेमवर्क: जागतिक आणि भारतीय परिणाम

International Affairs

May 06, 2025

Essay Series

Long-form

Progammes & Centres

Location

About ORF

Engage

People

एआय (AI) : मोठ्या भाषेच्या मॉडेलचे तोटे!

Expert Speak Digital Frontiers

Published on Mar 05, 2024 Updated 0 Hours ago

ब्राउझिंग प्लगइन (वेबपायलट) द्वारे ChatGPT वापरून पीडित व्यक्तीच्या खात्यावर आक्रमणकर्त्याला नियंत्रण मिळवता येते.

Author

Arkin Dharawat

Publications

May 06, 2025

May 06, 2025