एक त्वरित पुनर्कथन

Jun 17 2022
पदों की एक श्रृंखला में, मैंने बड़े जैविक अनुक्रमों को पूर्व-संसाधित करने के लिए कुछ नमूनाकरण योजनाओं का उपयोग किया। विशेष रूप से SARS Cov2 अनुक्रम, मुख्य रूप से NCBI SARS Cov2 संसाधन साइट से उनकी उपलब्धता के कारण।
जोनाथन बोरबा और अनस्प्लैश में फ़ोटो डी

पदों की एक श्रृंखला में, मैंने बड़े जैविक अनुक्रमों को पूर्व-संसाधित करने के लिए कुछ नमूनाकरण योजनाओं का उपयोग किया। विशेष रूप से SARS Cov2 अनुक्रम, मुख्य रूप से NCBI SARS Cov2 संसाधन साइट से उनकी उपलब्धता के कारण।

मैंने दो प्रतिनिधित्व योजनाओं का उपयोग किया, एक आवृत्ति-आधारित और एक ग्राफ-आधारित योजना। आवृत्ति-आधारित में, अनुक्रमों को अतिव्यापी टुकड़ों में विभाजित किया गया था। और उन अंशों की आवृत्ति का उपयोग अनुक्रमों के निम्न-आयामी प्रतिनिधित्व को खोजने के लिए किया गया था। चूंकि अतिव्यापी टुकड़े एक डी ब्रुइजन ग्राफ के निर्माण के समान थे, इसलिए मैंने विभिन्न ग्राफ निर्माण योजनाओं का उपयोग करके विचार को बढ़ाया।

दोनों योजनाएं अनुक्रम का एक छोटा सा प्रतिनिधित्व बनाती हैं, लेकिन वर्तमान चरण में मूल अनुक्रम को फिर से बनाना संभव नहीं है। हालांकि, दुर्लभ कम्प्यूटेशनल संसाधनों के साथ अनुक्रम का सामान्य अवलोकन प्राप्त करना संभव है।

उन प्रतिनिधित्व योजनाओं के लिए एक पीसीए या एक परिवर्तनशील ऑटोएन्कोडर वीएई को लागू करने के परिणामस्वरूप एक मजबूत अस्थायी घटक के साथ समूहों की एक श्रृंखला होती है।
(और इस बिंदु से और निम्नलिखित पोस्ट में मैं अनुक्रम एन्कोडिंग को आवृत्ति-आधारित या ग्राफ-आधारित अनुक्रम प्रतिनिधित्व के रूप में संदर्भित करूंगा। सीखा प्रतिनिधित्व वीएई या अन्य नेटवर्क में बाधा को संदर्भित करेगा। और संरचना का उल्लेख होगा अनुक्रम का आवृत्ति-आधारित प्रतिनिधित्व। यह अंतर बनाया जाता है क्योंकि एकल तत्व आवृत्ति अनुक्रम में विभिन्न न्यूक्लियोटाइड की सामग्री से मेल खाती है। उस स्थिति में, मूल्य का एक अच्छी तरह से परिभाषित भौतिक अर्थ है। जबकि शेष मान स्पष्ट नहीं हैं ।)

पीसीए प्रक्षेपण आवृत्ति-आधारित

इस प्रकार SARS Cov2 अनुक्रमों में अनुक्रम के अंदर किसी प्रकार की मौसमी घड़ी होती है। हालांकि यह मौसमी घड़ी नमूनाकरण पूर्वाग्रह का एक साइड इफेक्ट हो सकता है, महामारी के दूसरे वर्ष में अनुक्रमण के लिए आइसोलेट्स की संख्या लगभग 10 से 20 गुना अधिक है। अनुक्रमों को कम करके इस तरह के नमूनाकरण पूर्वाग्रह को हटाकर सिमर परिणाम, एक मजबूत अस्थायी घटक के साथ प्रतिनिधित्व दिखाया।

संवादात्मक वीएई ने प्रतिनिधित्व ग्राफ-आधारित सीखा

एक वीएई एक एन्कोडर और डिकोडर नेटवर्क द्वारा बनाया गया है, एन्कोडर सीखा प्रतिनिधित्व उत्पन्न करता है। जबकि डिकोडर मूल डेटा बिंदु का अनुमान देता है। डिकोडर नेटवर्क एक जनरेटिव मॉडल के रूप में भी काम करता है और इनपुट के अंदर परिवर्तनों को अनुमानित करने का एक तरीका प्रदान करता है। इस प्रकार परिवर्तन या गुण जो अस्थायी घटक उत्पन्न करते हैं, उन्हें संपूर्ण डेटासेट के बजाय सीखे गए प्रतिनिधित्व के अंदर चयनित बिंदुओं का विश्लेषण करके वापस खोजा जा सकता है। वीएई गुप्त चलने की विशेषताओं का विश्लेषण करके विशिष्ट पैटर्न प्राप्त किए जा सकते हैं।

फ़्रीक्वेंसी-आधारित अव्यक्त स्पेस वॉक अलग-अलग समय अंतराल पर आवृत्ति में परिवर्तन करता है।

अनुक्रमों के अंदर की घड़ी SARS Cov 2 जीनोम के अंदर 4 आधारों के विभिन्न टुकड़ों की आवृत्ति में परिवर्तन द्वारा एन्कोडेड है। साथ ही, अस्थायी जानकारी को मुख्य रूप से SARS Cov 2 जीनोम के संरचनात्मक घटकों में एन्कोड किया गया है। फिर भी इसका मतलब यह नहीं है कि वायरल जीनोम के अन्य भाग नहीं बदल सकते हैं। बल्कि वे "निरंतर" क्षेत्र दूसरे प्रकार के पैटर्न का अनुसरण कर सकते हैं। या अनुक्रम एन्कोडिंग ऐसे क्षेत्रों को चिह्नित करने के लिए पर्याप्त जानकारी प्रदान करने में असमर्थ है।

अलग-अलग समय अंतराल और जीनोम स्थान पर ग्राफ़-आधारित गुप्त स्पेस वॉक परिवर्तन

समय के माध्यम से उन 4-आधार संयोजनों की आवृत्ति को प्लॉट करने से भूखंडों के अंदर एक तरंग जैसा पैटर्न प्राप्त होता है।

4-मेर रचना समय के साथ बदलती है, वर्ष के अनुसार समूहीकृत होती है

हालाँकि जब समय की माप के रूप में अलगाव की तारीख के बजाय मैं दिन की अवधि या दिन की लंबाई का उपयोग करता हूं तो यह लहर जैसा व्यवहार गायब हो जाता है।

4-मेर रचना समय के साथ बदलती है, दिन की अवधि के अनुसार समूहीकृत होती है

समय की माप के रूप में दिन की अवधि का उपयोग पर्यावरणीय जानकारी और सीखे गए अभ्यावेदन को मिलाने के कई प्रयासों का परिणाम था। पिछले प्रयासों ने पर्यावरण चर के बीच एक लहर जैसे पैटर्न के साथ एक समझौता दिखाया।

जूलियन डे कैलेंडर के बजाय दिन की अवधि को अस्थायी पैमाने के रूप में उपयोग करना कुछ विशेष उपयोगी विशेषताओं को दिखाना शुरू कर दिया। अधिकांश मामले किसी विशेष स्थान पर न्यूनतम और अधिकतम दिन की अवधि में चरम सीमा तक ही सीमित थे।

इसने यह भी दिखाया कि लगातार दिनों के बीच दिन की अवधि में परिवर्तन की दर ने एक विशेष स्थान पर एक COVID-19 लहर की शुरुआत और अंत का अनुमान लगाने का एक तरीका पेश किया। इसका उपयोग COVID-19 के सापेक्ष संचरण जोखिम को स्थापित करने के लिए किया जा सकता है। तापमान और फ्लू और कुछ अन्य सर्दियों की बीमारी में अचानक परिवर्तन के समान, वायरल ट्रांसमिशन के लिए एक पर्यावरणीय परिवर्तन में शामिल होना।

SARS Cov2 वायरस इतने बड़े पैमाने पर क्यों चलता है? एक ऐसा प्रश्न है जिसका मेरे पास कोई ठोस उत्तर नहीं है। फिर भी, SARS Cov2 जीनोम VDR या विटामिन D रिसेप्टर की कार्रवाई के कारण व्यक्त जीन की एक श्रृंखला के समान है। सौर विकिरण के संपर्क में आने से विटामिन डी का उत्पादन होता है। फिर भी, यह सौर विकिरण के साथ स्पष्ट रूप से कम भागीदारी वाले अन्य जीनों की एक श्रृंखला के समान है। फिर भी, तापमान सीखा प्रतिनिधित्व से सहसंबद्ध है और सौर विकिरण से भी सहसंबद्ध है। ऐसा प्रतीत होता है कि दिन की अवधि अनुक्रम संरचना को स्थिर बनाए रखते हुए एक नियंत्रण चर के रूप में काम करती है, और दिन की अवधि सौर विकिरण से सहसंबद्ध होती है। और SARS Cov2 के समान कुछ जीन सौर विकिरण द्वारा नियंत्रित होते हैं। इस प्रकार मुझे लगता है कि यह मान लेना सुरक्षित है कि COVID-19 अस्थायी अनुकूलन में सौर विकिरण की भूमिका है।

विभिन्न अनुक्रम विश्लेषण और कोड के साथ एक पूर्ण सूचकांक यहां पाया जा सकता है । जबकि महामारी वक्र विश्लेषण यहां पाया जा सकता है और प्रीप्रिंट यहां पाया जा सकता है । यदि आप इस बिंदु पर पहुंच गए हैं और इन ओपन-सोर्स मॉडल को विकसित करना जारी रखने में मेरी मदद करना चाहते हैं, तो कृपया निम्नलिखित लिंक में सूचीबद्ध विभिन्न समर्थन प्लेटफार्मों में से एक में शामिल होने पर विचार करें । सौर विकिरण में अचानक परिवर्तन से बचें और अगले एक में मिलते हैं।