भारत में एआई अब कई भारतीय भाषाओं को सीख रहा है लेकिन चिंता यह है कि कहीं ये भाषाएँ सिर्फ डेटा बनकर न रह जाएँ. इसलिए ज़रूरी है कि भाषा का उपयोग तो हो लेकिन उसका अधिकार और सुरक्षा भी उसी समुदाय के पास रहे. जानें कैसे एआई में भाषा का यह नया “संरक्षक मॉडल” काम कर सकता है.
यह लेख वर्ल्ड क्रिएटिविटी एंड इनोवेशन डे 2026: अब कल्पना भी ऑटोमेटेड? नामक श्रृंखला का हिस्सा है.
वैश्विक स्तर पर एआई सिस्टम मुख्यतः अंग्रेज़ी-केंद्रित हैं. दुनिया में बोली जाने वाली लगभग 7,000 भाषाओं में से 100 से भी कम भाषाएं प्रमुख एआई प्रशिक्षण डेटा में पर्याप्त रूप से शामिल हैं. यह स्थिति इंटरनेट की भाषाई असंतुलन जैसी ही है, जहाँ अंग्रेज़ी कुल ऑनलाइन सामग्री का लगभग 49 प्रतिशत हिस्सा रखती है, जबकि अंग्रेज़ी बोलने वाले लोग विश्व की आबादी का 20 प्रतिशत से भी कम है. संयुक्त राष्ट्र विकास कार्यक्रम (UNDP) की फरवरी 2026 की रिपोर्ट के अनुसार, कम संसाधन वाली भाषाओं के लिए एआई सिस्टम तैयार करना और उन्हें संसाधित करना अंग्रेज़ी की तुलना में पांच गुना तक महंगा पड़ता है. यह केवल तकनीकी समस्या नहीं है, बल्कि यह शासन (गवर्नेंस) की भी विफलता है. दुनिया की लगभग 7,000 भाषाओं में से 100 से भी कम भाषाएं प्रमुख एआई प्रशिक्षण डेटा में पर्याप्त रूप से प्रतिनिधित्व रखती हैं.
भारत दुनिया के सबसे महत्वाकांक्षी बहुभाषी एआई कार्यक्रमों में से एक चला रहा है, जिसका उद्देश्य 22 अनुसूचित भाषाओं, सैकड़ों जनजातीय बोलियों और एक अरब से अधिक ऐसे नागरिकों को शामिल करना है जिनकी पहली भाषा अंग्रेज़ी नहीं है. इंडियाAI मिशन, भारतजेन (BharatGen), भाषिणी (Bhashini) और आदि-वाणी (Adi-Vaani) मिलकर यह सुनिश्चित करने का प्रयास कर रहे हैं कि एआई का प्रशिक्षण डेटा और उसके परिणाम भारत की भाषाई वास्तविकता को दर्शाएँ. जैसे-जैसे ये प्रणालियाँ विस्तार कर रही हैं, एक महत्वपूर्ण शासन संबंधी मुद्दा सामने आता है-यह सुनिश्चित करना कि जब एआई भारतीय समुदायों की स्थानीय भाषाओं पर प्रशिक्षित हो, तो उन समुदायों के पास केवल स्रोत बनने के बजाय इस प्रक्रिया के संरक्षक (stewards) बनने की व्यवस्था हो.
मार्च 2024 में स्वीकृत इंडियाAI मिशन के तहत, अन्य गतिविधियों के साथ, भारतजेन नामक एक बड़े भाषा मॉडल (LLM) को वित्तपोषित किया गया है, जिसे IIT बॉम्बे और कई राष्ट्रीय शोध संस्थानों के समूह ने विकसित किया है. इस मॉडल में Param-1 (पाठ प्रसंस्करण), श्रुतम (वाणी पहचान) और सूक्तम (टेक्स्ट-टू-स्पीच) जैसे मॉडल शामिल हैं, जो भारत की सभी अनुसूचित भाषाओं को कवर करते हैं. भारत दुनिया के सबसे महत्वाकांक्षी बहुभाषी एआई कार्यक्रमों में से एक चला रहा है, जिसका लक्ष्य 22 अनुसूचित भाषाओं, सैकड़ों जनजातीय बोलियों और एक अरब से अधिक गैर-अंग्रेज़ी भाषी नागरिकों को शामिल करना है.
साथ ही, प्रधान वैज्ञानिक सलाहकार के कार्यालय ने फाउंडेशन मॉडल्स पर एक श्वेत पत्र जारी किया है, जिसमें छोटे भाषा मॉडल (SLM) को भाषाई समावेशन के लिए एक रणनीतिक साधन बताया गया है. 2025 में शुरू किया गया एआई अनुवाद उपकरण आदि-वाणी इस लक्ष्य को जनजातीय भाषाओं तक बढ़ाता है. यह संताली, भीली, मुंडारी और गोंडी जैसी भाषाओं का समर्थन करता है, जो मुख्यतः मौखिक परंपरा पर आधारित हैं और जिनकी डिजिटल उपस्थिति सीमित है. हालांकि, इन भाषाओं के डेटा के प्रबंधन (गवर्नेंस) को लेकर चिंताएँ सामने आई हैं.
भारत सरकार ने पुष्टि की है कि संकटग्रस्त भाषाओं के संरक्षण योजना (SPPEL) और संचिका के सरकारी अभिलेखागार से प्राप्त डिजिटाइज्ड भाषा डेटा का उपयोग भारतजेन और भाषिणी जैसे एआई मॉडलों के प्रशिक्षण में किया जा रहा है. SPPEL के अंतर्गत रिकॉर्डिंग संरक्षण के उद्देश्य से की गई थीं. गोंडी, मुंडारी और संताली भाषाओं के वक्ताओं ने भाषा संग्रहण में भाग लिया, बिना यह जाने कि यह सामग्री भविष्य में एआई प्रशिक्षण डेटा के रूप में उपयोग हो सकती है और इसके परिणामों का व्यावसायिक उपयोग भी हो सकता है.
हालांकि भारतजेन अपने डेटा उपयोग को कानूनी रूप से सही बताता है, लेकिन यह स्पष्ट नहीं करता कि संबंधित समुदायों की सहमति ली गई है या उन्हें इस बात में कोई भूमिका दी गई है कि उनकी भाषा को एआई मॉडल में कैसे प्रस्तुत किया जाएगा. इसके अलावा, यदि संताली भाषा के केवल एक ही बोली (dialect) का डेटा लिया जाता है, तो यह चिंता उत्पन्न होती है कि वही भविष्य के सभी एआई सिस्टम्स के लिए मानक बन सकता है. भारतजेन अपने डेटा उपयोग को कानूनी रूप से सही बताता है, लेकिन यह यह नहीं बताता कि क्या समुदायों की सहमति ली गई है या उन्हें प्रतिनिधित्व का अधिकार दिया गया है.
डिजिटल पर्सनल डेटा प्रोटेक्शन एक्ट, 2023 व्यक्तिगत डेटा-यानी पहचान योग्य व्यक्तियों से जुड़े डेटा-की सुरक्षा करता है. नवंबर 2025 में जारी भारत के एआई गवर्नेंस दिशानिर्देश एआई के पूरे जीवनचक्र में पारदर्शिता और जवाबदेही सुनिश्चित करते हैं.
लेकिन ये दोनों ही ढांचे सामूहिक भाषाई डेटा के मुद्दे को संबोधित नहीं करते. वर्तमान गोपनीयता कानून व्यक्ति को संरक्षण की इकाई मानते हैं. उदाहरण के लिए, संताली लोकगीतों का संग्रह किसी एक व्यक्ति से जुड़ा नहीं होता, और गोंडी कृषि शब्दावली का डेटा भी किसी एक व्यक्ति की पहचान नहीं बताता. फिर भी, इनके दुरुपयोग से होने वाला नुकसान सामूहिक और दीर्घकालिक होता है, जिसे वर्तमान कानून संबोधित नहीं कर पाता. इसके अलावा, अभी ऐसी कोई व्यवस्था नहीं है जिसके तहत समुदाय अपने भाषाई डेटा के उपयोग या शोषण के खिलाफ कानूनी रूप से चुनौती दे सकें या उसकी सुरक्षा सुनिश्चित कर सकें.
भारत भाषा संसाधनों को सामूहिक संपत्ति के रूप में देखने पर विचार कर सकता है, जिनके उपयोग के लिए संरचित सहमति आवश्यक हो. इसका संस्थागत उदाहरण पहले से मौजूद है. पारंपरिक ज्ञान डिजिटल लाइब्रेरी (TKDL) को 2001 में भारत सरकार ने विकसित किया था, ताकि पारंपरिक औषधीय ज्ञान को अनधिकृत व्यावसायिक उपयोग से बचाया जा सके. यह पहुँच को पूरी तरह रोकने के बजाय उस ज्ञान को इस तरह दस्तावेज़ करता है कि दुरुपयोग होने पर समुदायों को कानूनी अधिकार मिल सके. यही सिद्धांत भाषाई डेटा पर भी लागू किया जा सकता है, जैसे-किसी संताली भाषण कॉर्पस को व्यावसायिक उपयोग में लाने से पहले.
इसी तरह, कनाडा का FirstVoices प्लेटफ़ॉर्म (2003) एक समुदाय-आधारित डिजिटल भाषा भंडार है, जहाँ 65 से अधिक स्वदेशी भाषाओं से जुड़े शब्द, वाक्यांश, ऑडियो, गीत और कहानियाँ संग्रहीत हैं. इसकी खासियत यह है कि समुदाय अपने डेटा पर पूर्ण स्वामित्व और नियंत्रण बनाए रखते हैं. हर भाषा साइट का प्रबंधन समुदाय द्वारा चुने गए प्रशासक करते हैं, और वही तय करते हैं कि कौन-सा डेटा सार्वजनिक होगा और कौन-सा सीमित. यह प्लेटफ़ॉर्म OCAP® सिद्धांतों (Ownership, Control, Access, Possession) पर आधारित है, जो भाषा, संस्कृति और ज्ञान पर समुदाय के अधिकार को सुनिश्चित करते हैं. बिना समुदाय की अनुमति के एआई डेवलपर्स इस डेटा तक पहुँच नहीं सकते.
भारत के संदर्भ में ऐसे मॉडल को अपनाने के लिए कम्युनिटी-इन-द-लूप (CITL) एआई गवर्नेंस फ्रेमवर्क उपयोगी हो सकता है. इसका ‘समुदाय-आधारित डेटा प्रबंधन’ स्तंभ तीन प्रमुख तरीके बताता है- डेटा ट्रस्ट- समुदाय और डेटा उपयोगकर्ता के बीच एक संरक्षक संस्था, जो अधिकारों की रक्षा और लाभ के उचित वितरण को सुनिश्चित करती है. डेटा सहकारी समितियां- समुदाय के सदस्यों को लोकतांत्रिक नियंत्रण देता है, जिससे वे अपने डेटा से उत्पन्न मूल्य में भागीदारी कर सकें. सिविक डेटा कॉमन्स- एक साझा खुला ढांचा, जो नवाचार को बढ़ावा देता है, लेकिन समुदाय की निगरानी भी बनाए रखता है. इसका मूल सिद्धांत यह है कि एआई में भाषा की संरक्षकता तकनीकी नहीं, बल्कि सामुदायिक जिम्मेदारी है.
न्यूज़ीलैंड का ‘Kaitiakitanga’ दृष्टिकोण भी एक महत्वपूर्ण उदाहरण है. 2022 में ते हिकू मीडिया ने अपने भाषण पहचान मॉडल को ओपन-सोर्स करने से इनकार कर दिया और इसके बजाय ‘Kaitiakitanga लाइसेंस’ बनाया, जिसमें उपयोगकर्ताओं को पहले माओरी समुदाय के प्रति अपनी जिम्मेदारी साबित करनी होती है. भारत में भी पंचम और षष्ठ अनुसूचियाँ तथा PESA अधिनियम समुदायों के सामूहिक संसाधनों पर अधिकार को मान्यता देते हैं, जिनके आधार पर भाषा डेटा संरक्षकता का ढांचा तैयार किया जा सकता है.
भाषा को एआई प्रशिक्षण डेटा के रूप में उपयोग करने के लिए निम्नलिखित सुझाव दिए जा सकते हैं- इलेक्ट्रॉनिक्स और आईटी मंत्रालय (MeitY) को यह अनिवार्य करना चाहिए कि इंडियाएआई मिशन के तहत विकसित हर मॉडल ओपन-सोर्स या सरकारी उपयोग से पहले ‘डेटा घोषणा रिकॉर्ड’ प्रकाशित करे. इसमें यह जानकारी होनी चाहिए कि कौन-सी भाषाएँ शामिल हैं, डेटा का स्रोत क्या है, कौन-सी बोलियाँ छूटी हैं, और समुदाय से क्या परामर्श हुआ है. एमईआईटीवाई, संस्कृति मंत्रालय और जनजातीय कार्य मंत्रालय मिलकर संताली, गोंडी, बोडो, मैथिली और मिज़ो जैसी भाषाओं के लिए डेटा ट्रस्ट स्थापित कर सकते हैं. इनमें समुदाय के प्रतिनिधियों की प्रमुख भूमिका हो, साथ ही विशेषज्ञ और सरकारी प्रतिनिधि भी शामिल हों. इनका काम डेटा चयन, बोली सत्यापन और एआई आउटपुट की समीक्षा करना होगा.
यह मॉडल पहले से सफल उदाहरणों पर आधारित है. 2025 में महाराष्ट्र के ग्रामीण क्षेत्रों में सीआईटीएल पायलट में किसानों को बाढ़ पूर्वानुमान मॉडल बनाने में शामिल किया गया. इससे मॉडल की सटीकता 15 प्रतिशत बढ़ी और लोगों का भरोसा भी काफी बढ़ा. टीकेडीएल और फर्स्टवॉयस जैसे मॉडलों से प्रेरणा लेकर, सरकार को ऐसे डिजिटल प्लेटफ़ॉर्म बनाने चाहिए जहाँ समुदाय द्वारा सत्यापित भाषाई डेटा सुरक्षित रूप से संग्रहीत हो. यह डेटा एआई डेवलपर्स को केवल लाइसेंस शर्तों के तहत उपलब्ध कराया जाए, जिसमें लाभ-साझेदारी और प्रतिनिधित्व की शर्तें शामिल हों.
भारत की बहुभाषी एआई की सफलता सिर्फ इस पर नहीं है कि वह कितनी भाषाएँ जोड़ता है, बल्कि इस पर भी है कि उन भाषाओं के लोगों को कितना हक और भागीदारी मिलती है. अगर सही व्यवस्था नहीं होगी, तो समावेशन भी गलत तरीके से इस्तेमाल हो सकता है. ये तरीके तकनीक और लोगों के बीच संतुलन बनाते हैं. इसलिए शुरू से ही सही नियम बनाना जरूरी है, ताकि भारत का एआई सिस्टम सच में सबके लिए और जिम्मेदार बन सके.
पुरुषराज पटनायक ऑब्जर्वर रिसर्च फाउंडेशन के सेंटर फॉर डिजिटल सोसाइटीज में रिसर्च असिस्टेंट हैं.
[1]The concept of Community-in-the-Loop governance embeds structured community participation into AI design, training, and audit, treating communities as data stewards with the locus standi to refuse or impose conditions for access, not as end-users to be consulted after decisions are made. Its three pillars cover community co-design, participatory data validation, and public algorithmic auditing.
The views expressed above belong to the author(s). ORF research and analyses now available on Telegram! Click here to access our curated content — blogs, longforms and interviews.
Purushraj Patnaik is a Research Assistant with the Centre for Digital Societies at Observer Research Foundation (ORF). His research focuses on the governance of emerging ...
Read More +