Published on Sep 26, 2023 Updated 0 Hours ago
‘जैव प्रौद्योगिकी रिसर्च में सिंथेटिक डेटा का इस्तेमाल’

अगस्त 2023 में भारत सरकार ने डिजिटल पर्सनल डेटा प्रोटेक्शन बिल 2023 को पारित कर दिया. जब ये क़ानून विधेयक था, तो इसकी बहुत सी कमियों की आलोचना की गई थी. इनमें से एक बड़ी चिंता स्वास्थ्य सेवा और जैविक और बायोमेट्रिक डेटा के संरक्षण का अभाव जारी रहने को लेकर जताई गई थी.

किसी मरीज़ की संवेदनशील और निजी जानकारी और उनके प्रायोगिक नतीजों को देखते हुए, जैव प्रौद्योगिकी में सिंथेटिक डेटा का विकास करने में काफ़ी संभावनाएं दिखती हैं.

बायोटेक्नोलॉजी के क्षेत्र में हाल के वर्षों में ज़बरदस्त प्रगति हुई है. इसके पीछे बड़ा योगदान डेटा साइंस, आर्टिफिशियल इंटेलिजेंस (AI) और मशीन लर्निंग (ML) में तरक़्क़ी का रहा है. इन क्षेत्रों में निजताऔर डेटा के संरक्षण की कमी और छोटे या अधूरे आंकड़ों पर असर डालने वाले पूर्वाग्रहों को दूर करने के लिए, जैविक प्रौद्योगिकी क्षेत्र में दो अहम पहलू उभरकर सामने आए हैं. ये सिंथेटिक डेटा और कम्पूटर से मॉडल तैयार करना हैं.

जैव प्रौद्योगिकी के क्षेत्र में सिंथेटिक डेटा की भूमिका

बायोटेक्नोलॉजी के रिसर्च में असली मरीज़ के आंकड़े का इस्तेमाल किए जाने से अक्सर निजता और सुरक्षा की चिंताएं पैदा होती हैं. सिंथेटिक डेटा वो आंकड़े होते हैं, जिनको कृत्रिम तरीक़े से तैयार किया जाता है. ये आंकड़े असली दुनिया के डेटा से संख्या के आधार पर तो मिलते हैं. लेकिन, इनमें किसी इंसान से जुड़ी संवेदनशील या उनकी पहचान उजागर करने वाली जानकारी नहीं होती है. किसी मरीज़ की संवेदनशील और निजी जानकारी और उनके प्रायोगिक नतीजों को देखते हुए, जैव प्रौद्योगिकी में सिंथेटिक डेटा का विकास करने में काफ़ी संभावनाएं दिखती हैं. केंद्र सरकार के इलेक्ट्रॉनिक्स और सूचना प्रौद्योगिकी मंत्रालय (MeITY) अपने इंडिया AI इनिशिएटिव के तहत सिंथेटिक डेटा की अहमियत को रेखांकित किया है. सरकार ने ये भी बताया है कि इस तकनीक का इस्तेमाल कहां-कहां हो सकता है, जिससे फ़ायदा होगा. इनमें जैविक आंकड़े भी शामिल हैं. 

सिंथेटिक डेटा, मरीज़ की निजता की रक्षा और किसी इंसान की पहचान से जुड़े जोखिमों से बचते हुए, अपनी संरचना और वितरण के मामले में हू-ब-हू असली आंकड़ों की नकल कर सकते हैं. सिंथेटिक डेटा जुटाने के लिए असली आंकड़ों के आधार पर जेनरेटिव मॉडल तैयार करने जैसी तकनीकों का प्रयोग किया जाता है. एक्सपर्ट कोडिंग या असली आंकड़ों को बेयेसियन नेटवर्क [1]  या बिलीफ नेटवर्क (BNs) के ज़रिए, ये मॉडल सही संबंध और वितरण को जुटा लेते हैं.

प्रीक्लिनिक रिसर्च और परीक्षण से जानवरों पर परीक्षण और इंसानों के बीच दवा के ट्रायल की ज़रूरत कम हो सकती है. जिससे रिसर्च के तौर तरीक़े अधिक नैतिक हो सकते हैं और फिर उन पर नियम क़ायदों के पालन का दबाव भी कम हो सकता है.

इस तरह सिंथेटिक डेटा, रिसर्च करने वालों को किसी विश्लेषण के लिए ज़रूरी संख्या के ज़रूरी पहलू मुहैया कराते हैं और साथ ही किसी व्यक्ति की निजता से भी समझौता नहीं करते. इनसे, आंकड़ों की उपलब्धता बढ़ जाती है. क्योंकि, सिंथेटिक डेटा निजता को प्राथमिकता देते हुए रिसर्चरों को एक बड़े, विविधतापूर्ण और सही तरीक़े से काट-छांटकर तैयार किए गए अधिक आंकड़े उपलब्ध कराते हैं. बायोटेक्नोलॉजी के रिसर्च और डेटाबेस में मशीन लर्निंग के अच्छे मॉडल तैयार करने के लिए ये चीज़ें ज़रूरी हैं. सिंथेटिक डेटा, मौजूदा आंकड़ों को विस्तार दे सकते हैं. ख़ास तौर से उन मामलों में जहां सीमित नमूने होने या डेटा को लेकर प्रतिबंधों के कारण, असली आंकड़े जुटा पाना मुश्किल होता है. जैसे कि, मेडिकल डेटा या फिर ऐसा कोई भी आंकड़ा जो संवेदनशील जानकारियों वाला होता है, जिसे इस्तेमाल करना या जुटाना अनैतिक हो सकता है. इसके अलावा, सिंथेटिक डेटा से मॉडल के विकास और परीक्षण का काम तेज़ किया जा सकता है. क्योंकि रिसर्च करने वाले, असली हालात के आंकड़ों पर लागू करने से पहले, इस आंकड़े का इस्तेमाल करके, तमाम मंज़रों को सिमुलेट कर सकते हैं और AI से संचालित मॉडल के काम को परख सकते हैं.

यूनिवर्सिटी ऑफ सदर्न कैलिफोर्निया के रिसर्चरों द्वारा किया गया अध्ययन सिंथेटिक और आर्टिफिशियल इंटेलिजेंस से तैयार आंकड़ों की मिसाल है, जिसमें उन ऐप के ज़रिए बहुत कामयाबी से ब्रेन वेव तैयार की गई थीं, जो शारीरिक कमज़ोरियों वाले इंसानों की पहुंच में सुधार लाते हैं. 

जैव प्रौद्योगिकी के रिसर्च में मॉडल के आधार पर निष्कर्ष निकालना

मॉडल पर आधारित रिसर्च में कंप्यूटर के मॉडल और आंकड़ों का इस्तेमाल करके जैविक प्रक्रिया की नक़ल करके, आपसी संवाद और नतीजों की भविष्यवाणी की जाती है. ये मॉडल गणितीय समीकरणों, भौतिकी पर आधारित सिम्यूलेशन या फिर न्यूरल नेटवर्क पर भी आधारित हो सकते हैं. ऐसे मॉडल पर आधारित रीज़निंग से इस बात का पता लगाया जा सकता है कि किसी दवा के कंपाउंड बीमारी के तत्वों पर कैसा असर करेंगे. इससे उनके प्रभावी होने का अनुमान लगाया जा सकता है और ये भी पता लगाया जा सकता कि किसी दवा में ख़ास ख़ूबी के लिए उसकी बनावट कैसी होनी चाहिए. इन बातों की मदद से किसी दवा की तलाश तेज़ की जा सकती है. इसी तरह मॉडल आधारित रीज़निंग के सिस्टम व्यक्तिगत दवा के क्षेत्र में भी मददगार साबित हो सकते हैं, जिनके ज़रिए किसी इंसान की जेनेटिक बनावट के मुताबिक़ ख़ास उसी के लिए दवा तैयार की जा सकती है. जैविक रूप से जटिल सिस्टम बनाने से ऐसे क्षेत्रों में काफ़ी मदद मिल सकती है, जिसके ज़रिए रिसर्चर जीव विज्ञान को एक नए और विस्तारित तरीक़े से पढ़ सकते हैं जिसे सिस्टम बायोलॉजी कहा जाता है

सिंथेटिक डेटा और मॉडल आधारित रीज़निंग के बीच तालमेल और इसका प्रभाव

जैसा कि पहले कहा गया है कि सिंथेटिक डेटा को असली आंकड़ों के साथ मिलाकर नतीजे निकालने के कई फ़ायदे हो सकते हैं. इनसे प्रशिक्षण के अधिक व्यापक और विविधतापूर्ण नमूने तैयार किए जा सकते हैं और मशीन लर्निंग के मॉडल को मज़बूत और आम लोगों के समूह के लिए निष्कर्ष निकालने लायक़ बनाया जा सकता है. इनमें दवा की तलाश तेज़ करना, व्यक्तिगत इस्तेमाल की दवाएं विकसित करना और डेटा और एल्गोरिदम के पूर्वाग्रहों को कम करना शामिल है.

इसके अतिरिक्त कुछ दुर्लभ बीमारियां या ख़ास मरीज़ों के डेटा बहुत सीमित हो सकते हैं. ऐसे में सिंथेटिक डेटा तैयार करने से आंकड़ों की कमी की समस्या से निपटा जा सकता है, और अधिक समावेशी रिसर्च और विश्लेषण का लक्ष्य भी हासिल कर सकते हैं.

मिसाल के तौर पर फिनलैंड में सिंथेटिक डेटा की मदद से कोविड-19 से प्रभावित मरीज़ों की निजता का बचाव करने के साथ साथ डेटा साझा करने की भी इजाज़त दी गई, जिससे मेडिकल रिसर्च को काफ़ी मदद मिली.

सिंथेटिक डेटा इस्तेमाल करने से निजता के अलावा भी दूसरे नैतिक फ़ायदे हो सकते हैं. प्रीक्लिनिक रिसर्च और परीक्षण से जानवरों पर परीक्षण और इंसानों के बीच दवा के ट्रायल की ज़रूरत कम हो सकती है. जिससे रिसर्च के तौर तरीक़े अधिक नैतिक हो सकते हैं और फिर उन पर नियम क़ायदों के पालन का दबाव भी कम हो सकता है.

पूर्वाग्रह के जोख़िम

हालांकि, सिंथेटिक डेटा जैसी बख़ूबी प्रस्थापित तकनीक और मरीज़ों के उच्च स्तर के सिंथेटिक डेटा तैयार करने के लिए बेयेसियन नेटवर्क की उपलब्धता के बावजूद, पूर्वाग्रह बने रह सकते हैं और इनका असर डेटा तैयार करने वाली तकनीकों पर भी हो सकता है. आर्टिफिशियल इंटेलिजेंस की तकनीक लाग करने में अक्सर आंकड़ों में पूर्वाग्रह के रोड़े आते हैं. इससे दोहराव और इंसानी पूर्वाग्रहों को बढ़ावा देने का डर बढ़ जाता है, ख़ास तौर से जो पूर्वाग्रह संरक्षि समूहों पर असर डालते हैं.

पूर्वाग्रह पर आधारित आंकड़ों पर सिंथेटिक डेटा लागू करने से ऐसे सिंथेटिक डेटा तैयार होंगे, जिन पर रिसर्च के लिए मरीज़ों के बारे में और ख़ास तरह की जानकारी की ज़रूरत होगी. क्योंकि, कुछ ख़ास समुदायों से डेटा जुटाने के दौरान सांस्कृतिक संवेदनाओं या फिर मानक प्रक्रियाओं का पालन किया जाता है. इन कारणों से ग़लत तरह के सिंथेटिक डेटा तैयार हो सकते हैं, या फिर असली आंकड़ों से ग़लत नतीजे निकाले जा सकते हैं. ऐसे पूर्वाग्रही सिंथेटिक डेटा सच्चे आंकड़ों को भी ग़लत ठहरा सकते हैं. मेडिकल क्षेत्र के आंकड़ों को अक्सर अधिक संतुलित बनाने की ज़रूरत होती है, क्योंकि कई बार मरीज़ों के एक ख़ास समूह की उचित नुमाइंदगी नहीं हो पाती है.

भारत तो अभी भी डेटा की निजता और ख़ास तौर से जैविक डेटा के मसलों से जूझ रहा है. लेकिन, सिंथेटिक डेटा निजता संबंधी चिंताएं दूर करने के साथ साथ आंकड़ों की उपलब्धता बढ़ाता है और मॉडल के विकास की गति तेज़ करता है.

इस समय सिंथेटिक डेटा के पूर्वाग्रह दूर करने के लिए तीन प्रमुख तरीक़े अपनाए जा रहे हैं. रिवेइंग [2], एडवर्सरियल डी-बायसिंग[3], और रिजेक्ट ऑप्शन क्लासिफिकेशन[4].

वैसे तो अभी भी सिंथेटिक डेटा और म़ॉडल आधारित रीज़निंग इस्तेमाल करने में जोखिम बने हुए हैं. लेकिन ऊपर जिन तकनीकों का ज़िक्र किया गया है, उनकी मदद से ये भेदभाव कम किया जा सकता है. इसीलिए, सिंथेटिक डेटा और मॉडल आधारित रीज़निंग, जैव प्रौद्योगिकी के क्षेत्र में ताक़तवर औज़ार बनकर उभरे हैं.

भारत तो अभी भी डेटा की निजता और ख़ास तौर से जैविक डेटा के मसलों से जूझ रहा है. लेकिन, सिंथेटिक डेटा निजता संबंधी चिंताएं दूर करने के साथ साथ आंकड़ों की उपलब्धता बढ़ाता है और मॉडल के विकास की गति तेज़ करता है. मॉडल आधारित रीज़निंग से सिम्युलेशन करने और जैविक प्रक्रियाओं का अनुमान लगाने में मदद मिलती है, जिससे दवा की तलाश तेज़ करने, व्यक्तिगत दवाएं विकसित करने और सिस्टम बायोलॉजी के क्षेत्र में सहयोग मिलता है. इन आविष्कारों के असर का प्रचार किया जा रहा है, जिससे अधिक कुशल जैविक तकनीक के समाधान, दवा के विकास में तेज़ी और बायोमेडिकल रिसर्च में नैतिक तरक़्क़ी को बढ़ावा मिल रहा है. जैसे जैसे जैव प्रौद्योगिकी उद्योग विकसित हो रही है. वैसे वैसे सिंथेटिक डेटा और मॉडल आधारित रीज़निंग , जटिल जैविक चुनौतियों से निपटने और इंसानों की सेहत सुधारने के लिए अहम होगी. ये आविष्कार जैविक रिसर्च में क्रांति ला सकते हैं. इससे दवा के विकास में तेज़ी, ख़ास मरीज़ों के लिए पर्सनलाइज़्ड दवाएं और जटिल बायोमेडिकल चुनौतियों के अधिक कुशल समाधान तलाशने में मदद मिलेगी.


[1] A Bayesian network structures synthetic data or replaces missing data. This is done using its two components; a graphical model of the joint probability distribution and a set of conditions that describe the probability distributions.

[2] Make modifications on the training data by computing and weighted values to the data collected or generated.

[3] Intentionally adding non-matching data to “confuse” the model.

[4] Adding classification manually in automated classification of data results in biases.

The views expressed above belong to the author(s). ORF research and analyses now available on Telegram! Click here to access our curated content — blogs, longforms and interviews.