Expert Speak Digital Frontiers
Published on Apr 21, 2026 Updated 0 Hours ago

भारत में एआई अब कई भारतीय भाषाओं को सीख रहा है लेकिन चिंता यह है कि कहीं ये भाषाएँ सिर्फ डेटा बनकर न रह जाएँ. इसलिए ज़रूरी है कि भाषा का उपयोग तो हो लेकिन उसका अधिकार और सुरक्षा भी उसी समुदाय के पास रहे. जानें कैसे एआई में भाषा का यह नया “संरक्षक मॉडल” काम कर सकता है.

एआई के युग में भारतीय भाषाएँ: संभावनाएँ बनाम खतरे

यह लेख वर्ल्ड क्रिएटिविटी एंड इनोवेशन डे 2026: अब कल्पना भी ऑटोमेटेड? नामक श्रृंखला का हिस्सा है. 


वैश्विक स्तर पर एआई सिस्टम मुख्यतः अंग्रेज़ी-केंद्रित हैं. दुनिया में बोली जाने वाली लगभग 7,000 भाषाओं में से 100 से भी कम भाषाएं प्रमुख एआई प्रशिक्षण डेटा में पर्याप्त रूप से शामिल हैं. यह स्थिति इंटरनेट की भाषाई असंतुलन जैसी ही है, जहाँ अंग्रेज़ी कुल ऑनलाइन सामग्री का लगभग 49 प्रतिशत हिस्सा रखती है, जबकि अंग्रेज़ी बोलने वाले लोग विश्व की आबादी का 20 प्रतिशत से भी कम है. संयुक्त राष्ट्र विकास कार्यक्रम (UNDP) की फरवरी 2026 की रिपोर्ट के अनुसार, कम संसाधन वाली भाषाओं के लिए एआई सिस्टम तैयार करना और उन्हें संसाधित करना अंग्रेज़ी की तुलना में पांच गुना तक महंगा पड़ता है. यह केवल तकनीकी समस्या नहीं है, बल्कि यह शासन (गवर्नेंस) की भी विफलता है. दुनिया की लगभग 7,000 भाषाओं में से 100 से भी कम भाषाएं प्रमुख एआई प्रशिक्षण डेटा में पर्याप्त रूप से प्रतिनिधित्व रखती हैं.

भारत दुनिया के सबसे महत्वाकांक्षी बहुभाषी एआई कार्यक्रमों में से एक चला रहा है, जिसका उद्देश्य 22 अनुसूचित भाषाओं, सैकड़ों जनजातीय बोलियों और एक अरब से अधिक ऐसे नागरिकों को शामिल करना है जिनकी पहली भाषा अंग्रेज़ी नहीं है. इंडियाAI मिशन, भारतजेन (BharatGen), भाषिणी (Bhashini) और आदि-वाणी (Adi-Vaani) मिलकर यह सुनिश्चित करने का प्रयास कर रहे हैं कि एआई का प्रशिक्षण डेटा और उसके परिणाम भारत की भाषाई वास्तविकता को दर्शाएँ. जैसे-जैसे ये प्रणालियाँ विस्तार कर रही हैं, एक महत्वपूर्ण शासन संबंधी मुद्दा सामने आता है-यह सुनिश्चित करना कि जब एआई भारतीय समुदायों की स्थानीय भाषाओं पर प्रशिक्षित हो, तो उन समुदायों के पास केवल स्रोत बनने के बजाय इस प्रक्रिया के संरक्षक (stewards) बनने की व्यवस्था हो.

भारत की बहुभाषी एआई महत्वाकांक्षा

मार्च 2024 में स्वीकृत इंडियाAI मिशन के तहत, अन्य गतिविधियों के साथ, भारतजेन नामक एक बड़े भाषा मॉडल (LLM) को वित्तपोषित किया गया है, जिसे IIT बॉम्बे और कई राष्ट्रीय शोध संस्थानों के समूह ने विकसित किया है. इस मॉडल में Param-1 (पाठ प्रसंस्करण), श्रुतम (वाणी पहचान) और सूक्तम (टेक्स्ट-टू-स्पीच) जैसे मॉडल शामिल हैं, जो भारत की सभी अनुसूचित भाषाओं को कवर करते हैं. भारत दुनिया के सबसे महत्वाकांक्षी बहुभाषी एआई कार्यक्रमों में से एक चला रहा है, जिसका लक्ष्य 22 अनुसूचित भाषाओं, सैकड़ों जनजातीय बोलियों और एक अरब से अधिक गैर-अंग्रेज़ी भाषी नागरिकों को शामिल करना है.

साथ ही, प्रधान वैज्ञानिक सलाहकार के कार्यालय ने फाउंडेशन मॉडल्स पर एक श्वेत पत्र जारी किया है, जिसमें छोटे भाषा मॉडल (SLM) को भाषाई समावेशन के लिए एक रणनीतिक साधन बताया गया है. 2025 में शुरू किया गया एआई अनुवाद उपकरण आदि-वाणी इस लक्ष्य को जनजातीय भाषाओं तक बढ़ाता है. यह संताली, भीली, मुंडारी और गोंडी जैसी भाषाओं का समर्थन करता है, जो मुख्यतः मौखिक परंपरा पर आधारित हैं और जिनकी डिजिटल उपस्थिति सीमित है. हालांकि, इन भाषाओं के डेटा के प्रबंधन (गवर्नेंस) को लेकर चिंताएँ सामने आई हैं.

डेटा संरक्षकता का प्रश्न

भारत सरकार ने पुष्टि की है कि संकटग्रस्त भाषाओं के संरक्षण योजना (SPPEL) और संचिका के सरकारी अभिलेखागार से प्राप्त डिजिटाइज्ड भाषा डेटा का उपयोग भारतजेन और भाषिणी जैसे एआई मॉडलों के प्रशिक्षण में किया जा रहा है. SPPEL के अंतर्गत रिकॉर्डिंग संरक्षण के उद्देश्य से की गई थीं. गोंडी, मुंडारी और संताली भाषाओं के वक्ताओं ने भाषा संग्रहण में भाग लिया, बिना यह जाने कि यह सामग्री भविष्य में एआई प्रशिक्षण डेटा के रूप में उपयोग हो सकती है और इसके परिणामों का व्यावसायिक उपयोग भी हो सकता है.

हालांकि भारतजेन अपने डेटा उपयोग को कानूनी रूप से सही बताता है, लेकिन यह स्पष्ट नहीं करता कि संबंधित समुदायों की सहमति ली गई है या उन्हें इस बात में कोई भूमिका दी गई है कि उनकी भाषा को एआई मॉडल में कैसे प्रस्तुत किया जाएगा. इसके अलावा, यदि संताली भाषा के केवल एक ही बोली (dialect) का डेटा लिया जाता है, तो यह चिंता उत्पन्न होती है कि वही भविष्य के सभी एआई सिस्टम्स के लिए मानक बन सकता है. भारतजेन अपने डेटा उपयोग को कानूनी रूप से सही बताता है, लेकिन यह यह नहीं बताता कि क्या समुदायों की सहमति ली गई है या उन्हें प्रतिनिधित्व का अधिकार दिया गया है.

भारत के वर्तमान ढांचे में संरक्षकता की कमी

डिजिटल पर्सनल डेटा प्रोटेक्शन एक्ट, 2023 व्यक्तिगत डेटा-यानी पहचान योग्य व्यक्तियों से जुड़े डेटा-की सुरक्षा करता है. नवंबर 2025 में जारी भारत के एआई गवर्नेंस दिशानिर्देश एआई के पूरे जीवनचक्र में पारदर्शिता और जवाबदेही सुनिश्चित करते हैं.

लेकिन ये दोनों ही ढांचे सामूहिक भाषाई डेटा के मुद्दे को संबोधित नहीं करते. वर्तमान गोपनीयता कानून व्यक्ति को संरक्षण की इकाई मानते हैं. उदाहरण के लिए, संताली लोकगीतों का संग्रह किसी एक व्यक्ति से जुड़ा नहीं होता, और गोंडी कृषि शब्दावली का डेटा भी किसी एक व्यक्ति की पहचान नहीं बताता. फिर भी, इनके दुरुपयोग से होने वाला नुकसान सामूहिक और दीर्घकालिक होता है, जिसे वर्तमान कानून संबोधित नहीं कर पाता. इसके अलावा, अभी ऐसी कोई व्यवस्था नहीं है जिसके तहत समुदाय अपने भाषाई डेटा के उपयोग या शोषण के खिलाफ कानूनी रूप से चुनौती दे सकें या उसकी सुरक्षा सुनिश्चित कर सकें.

उदाहरण और मॉडल  

भारत भाषा संसाधनों को सामूहिक संपत्ति के रूप में देखने पर विचार कर सकता है, जिनके उपयोग के लिए संरचित सहमति आवश्यक हो. इसका संस्थागत उदाहरण पहले से मौजूद है. पारंपरिक ज्ञान डिजिटल लाइब्रेरी (TKDL) को 2001 में भारत सरकार ने विकसित किया था, ताकि पारंपरिक औषधीय ज्ञान को अनधिकृत व्यावसायिक उपयोग से बचाया जा सके. यह पहुँच को पूरी तरह रोकने के बजाय उस ज्ञान को इस तरह दस्तावेज़ करता है कि दुरुपयोग होने पर समुदायों को कानूनी अधिकार मिल सके. यही सिद्धांत भाषाई डेटा पर भी लागू किया जा सकता है, जैसे-किसी संताली भाषण कॉर्पस को व्यावसायिक उपयोग में लाने से पहले.

इसी तरह, कनाडा का FirstVoices प्लेटफ़ॉर्म (2003) एक समुदाय-आधारित डिजिटल भाषा भंडार है, जहाँ 65 से अधिक स्वदेशी भाषाओं से जुड़े शब्द, वाक्यांश, ऑडियो, गीत और कहानियाँ संग्रहीत हैं. इसकी खासियत यह है कि समुदाय अपने डेटा पर पूर्ण स्वामित्व और नियंत्रण बनाए रखते हैं. हर भाषा साइट का प्रबंधन समुदाय द्वारा चुने गए प्रशासक करते हैं, और वही तय करते हैं कि कौन-सा डेटा सार्वजनिक होगा और कौन-सा सीमित. यह प्लेटफ़ॉर्म OCAP® सिद्धांतों (Ownership, Control, Access, Possession) पर आधारित है, जो भाषा, संस्कृति और ज्ञान पर समुदाय के अधिकार को सुनिश्चित करते हैं. बिना समुदाय की अनुमति के एआई डेवलपर्स इस डेटा तक पहुँच नहीं सकते.

भारत के संदर्भ में ऐसे मॉडल को अपनाने के लिए कम्युनिटी-इन-द-लूप (CITL) एआई गवर्नेंस फ्रेमवर्क उपयोगी हो सकता है. इसका ‘समुदाय-आधारित डेटा प्रबंधन’ स्तंभ तीन प्रमुख तरीके बताता है- डेटा ट्रस्ट- समुदाय और डेटा उपयोगकर्ता के बीच एक संरक्षक संस्था, जो अधिकारों की रक्षा और लाभ के उचित वितरण को सुनिश्चित करती है. डेटा सहकारी समितियां- समुदाय के सदस्यों को लोकतांत्रिक नियंत्रण देता है, जिससे वे अपने डेटा से उत्पन्न मूल्य में भागीदारी कर सकें. सिविक डेटा कॉमन्स- एक साझा खुला ढांचा, जो नवाचार को बढ़ावा देता है, लेकिन समुदाय की निगरानी भी बनाए रखता है. इसका मूल सिद्धांत यह है कि एआई में भाषा की संरक्षकता तकनीकी नहीं, बल्कि सामुदायिक जिम्मेदारी है.

न्यूज़ीलैंड का ‘Kaitiakitanga’ दृष्टिकोण भी एक महत्वपूर्ण उदाहरण है. 2022 में ते हिकू मीडिया ने अपने भाषण पहचान मॉडल को ओपन-सोर्स करने से इनकार कर दिया और इसके बजाय ‘Kaitiakitanga लाइसेंस’ बनाया, जिसमें उपयोगकर्ताओं को पहले माओरी समुदाय के प्रति अपनी जिम्मेदारी साबित करनी होती है. भारत में भी पंचम और षष्ठ अनुसूचियाँ तथा PESA अधिनियम समुदायों के सामूहिक संसाधनों पर अधिकार को मान्यता देते हैं, जिनके आधार पर भाषा डेटा संरक्षकता का ढांचा तैयार किया जा सकता है.

डेटा संरक्षकता का ढांचा  

भाषा को एआई प्रशिक्षण डेटा के रूप में उपयोग करने के लिए निम्नलिखित सुझाव दिए जा सकते हैं- इलेक्ट्रॉनिक्स और आईटी मंत्रालय (MeitY) को यह अनिवार्य करना चाहिए कि इंडियाएआई मिशन के तहत विकसित हर मॉडल ओपन-सोर्स या सरकारी उपयोग से पहले ‘डेटा घोषणा रिकॉर्ड’ प्रकाशित करे. इसमें यह जानकारी होनी चाहिए कि कौन-सी भाषाएँ शामिल हैं, डेटा का स्रोत क्या है, कौन-सी बोलियाँ छूटी हैं, और समुदाय से क्या परामर्श हुआ है. एमईआईटीवाई, संस्कृति मंत्रालय और जनजातीय कार्य मंत्रालय मिलकर संताली, गोंडी, बोडो, मैथिली और मिज़ो जैसी भाषाओं के लिए डेटा ट्रस्ट स्थापित कर सकते हैं. इनमें समुदाय के प्रतिनिधियों की प्रमुख भूमिका हो, साथ ही विशेषज्ञ और सरकारी प्रतिनिधि भी शामिल हों. इनका काम डेटा चयन, बोली सत्यापन और एआई आउटपुट की समीक्षा करना होगा.

यह मॉडल पहले से सफल उदाहरणों पर आधारित है. 2025 में महाराष्ट्र के ग्रामीण क्षेत्रों में सीआईटीएल पायलट में किसानों को बाढ़ पूर्वानुमान मॉडल बनाने में शामिल किया गया. इससे मॉडल की सटीकता 15 प्रतिशत बढ़ी और लोगों का भरोसा भी काफी बढ़ा. टीकेडीएल और फर्स्टवॉयस जैसे मॉडलों से प्रेरणा लेकर, सरकार को ऐसे डिजिटल प्लेटफ़ॉर्म बनाने चाहिए जहाँ समुदाय द्वारा सत्यापित भाषाई डेटा सुरक्षित रूप से संग्रहीत हो. यह डेटा एआई डेवलपर्स को केवल लाइसेंस शर्तों के तहत उपलब्ध कराया जाए, जिसमें लाभ-साझेदारी और प्रतिनिधित्व की शर्तें शामिल हों.

एआई के लिए मजबूत नीतियां

भारत की बहुभाषी एआई की सफलता सिर्फ इस पर नहीं है कि वह कितनी भाषाएँ जोड़ता है, बल्कि इस पर भी है कि उन भाषाओं के लोगों को कितना हक और भागीदारी मिलती है. अगर सही व्यवस्था नहीं होगी, तो समावेशन भी गलत तरीके से इस्तेमाल हो सकता है. ये तरीके तकनीक और लोगों के बीच संतुलन बनाते हैं. इसलिए शुरू से ही सही नियम बनाना जरूरी है, ताकि भारत का एआई सिस्टम सच में सबके लिए और जिम्मेदार बन सके.


पुरुषराज पटनायक ऑब्जर्वर रिसर्च फाउंडेशन के सेंटर फॉर डिजिटल सोसाइटीज में रिसर्च असिस्टेंट हैं.


[1]The concept of Community-in-the-Loop governance embeds structured community participation into AI design, training, and audit, treating communities as data stewards with the locus standi to refuse or impose conditions for access, not as end-users to be consulted after decisions are made. Its three pillars cover community co-design, participatory data validation, and public algorithmic auditing.

The views expressed above belong to the author(s). ORF research and analyses now available on Telegram! Click here to access our curated content — blogs, longforms and interviews.