एक त्वरित पुनर्कथन
पदों की एक श्रृंखला में, मैंने बड़े जैविक अनुक्रमों को पूर्व-संसाधित करने के लिए कुछ नमूनाकरण योजनाओं का उपयोग किया। विशेष रूप से SARS Cov2 अनुक्रम, मुख्य रूप से NCBI SARS Cov2 संसाधन साइट से उनकी उपलब्धता के कारण।
मैंने दो प्रतिनिधित्व योजनाओं का उपयोग किया, एक आवृत्ति-आधारित और एक ग्राफ-आधारित योजना। आवृत्ति-आधारित में, अनुक्रमों को अतिव्यापी टुकड़ों में विभाजित किया गया था। और उन अंशों की आवृत्ति का उपयोग अनुक्रमों के निम्न-आयामी प्रतिनिधित्व को खोजने के लिए किया गया था। चूंकि अतिव्यापी टुकड़े एक डी ब्रुइजन ग्राफ के निर्माण के समान थे, इसलिए मैंने विभिन्न ग्राफ निर्माण योजनाओं का उपयोग करके विचार को बढ़ाया।
दोनों योजनाएं अनुक्रम का एक छोटा सा प्रतिनिधित्व बनाती हैं, लेकिन वर्तमान चरण में मूल अनुक्रम को फिर से बनाना संभव नहीं है। हालांकि, दुर्लभ कम्प्यूटेशनल संसाधनों के साथ अनुक्रम का सामान्य अवलोकन प्राप्त करना संभव है।
उन प्रतिनिधित्व योजनाओं के लिए एक पीसीए या एक परिवर्तनशील ऑटोएन्कोडर वीएई को लागू करने के परिणामस्वरूप एक मजबूत अस्थायी घटक के साथ समूहों की एक श्रृंखला होती है।
(और इस बिंदु से और निम्नलिखित पोस्ट में मैं अनुक्रम एन्कोडिंग को आवृत्ति-आधारित या ग्राफ-आधारित अनुक्रम प्रतिनिधित्व के रूप में संदर्भित करूंगा। सीखा प्रतिनिधित्व वीएई या अन्य नेटवर्क में बाधा को संदर्भित करेगा। और संरचना का उल्लेख होगा अनुक्रम का आवृत्ति-आधारित प्रतिनिधित्व। यह अंतर बनाया जाता है क्योंकि एकल तत्व आवृत्ति अनुक्रम में विभिन्न न्यूक्लियोटाइड की सामग्री से मेल खाती है। उस स्थिति में, मूल्य का एक अच्छी तरह से परिभाषित भौतिक अर्थ है। जबकि शेष मान स्पष्ट नहीं हैं ।)
इस प्रकार SARS Cov2 अनुक्रमों में अनुक्रम के अंदर किसी प्रकार की मौसमी घड़ी होती है। हालांकि यह मौसमी घड़ी नमूनाकरण पूर्वाग्रह का एक साइड इफेक्ट हो सकता है, महामारी के दूसरे वर्ष में अनुक्रमण के लिए आइसोलेट्स की संख्या लगभग 10 से 20 गुना अधिक है। अनुक्रमों को कम करके इस तरह के नमूनाकरण पूर्वाग्रह को हटाकर सिमर परिणाम, एक मजबूत अस्थायी घटक के साथ प्रतिनिधित्व दिखाया।
एक वीएई एक एन्कोडर और डिकोडर नेटवर्क द्वारा बनाया गया है, एन्कोडर सीखा प्रतिनिधित्व उत्पन्न करता है। जबकि डिकोडर मूल डेटा बिंदु का अनुमान देता है। डिकोडर नेटवर्क एक जनरेटिव मॉडल के रूप में भी काम करता है और इनपुट के अंदर परिवर्तनों को अनुमानित करने का एक तरीका प्रदान करता है। इस प्रकार परिवर्तन या गुण जो अस्थायी घटक उत्पन्न करते हैं, उन्हें संपूर्ण डेटासेट के बजाय सीखे गए प्रतिनिधित्व के अंदर चयनित बिंदुओं का विश्लेषण करके वापस खोजा जा सकता है। वीएई गुप्त चलने की विशेषताओं का विश्लेषण करके विशिष्ट पैटर्न प्राप्त किए जा सकते हैं।
अनुक्रमों के अंदर की घड़ी SARS Cov 2 जीनोम के अंदर 4 आधारों के विभिन्न टुकड़ों की आवृत्ति में परिवर्तन द्वारा एन्कोडेड है। साथ ही, अस्थायी जानकारी को मुख्य रूप से SARS Cov 2 जीनोम के संरचनात्मक घटकों में एन्कोड किया गया है। फिर भी इसका मतलब यह नहीं है कि वायरल जीनोम के अन्य भाग नहीं बदल सकते हैं। बल्कि वे "निरंतर" क्षेत्र दूसरे प्रकार के पैटर्न का अनुसरण कर सकते हैं। या अनुक्रम एन्कोडिंग ऐसे क्षेत्रों को चिह्नित करने के लिए पर्याप्त जानकारी प्रदान करने में असमर्थ है।
समय के माध्यम से उन 4-आधार संयोजनों की आवृत्ति को प्लॉट करने से भूखंडों के अंदर एक तरंग जैसा पैटर्न प्राप्त होता है।
हालाँकि जब समय की माप के रूप में अलगाव की तारीख के बजाय मैं दिन की अवधि या दिन की लंबाई का उपयोग करता हूं तो यह लहर जैसा व्यवहार गायब हो जाता है।
समय की माप के रूप में दिन की अवधि का उपयोग पर्यावरणीय जानकारी और सीखे गए अभ्यावेदन को मिलाने के कई प्रयासों का परिणाम था। पिछले प्रयासों ने पर्यावरण चर के बीच एक लहर जैसे पैटर्न के साथ एक समझौता दिखाया।
जूलियन डे कैलेंडर के बजाय दिन की अवधि को अस्थायी पैमाने के रूप में उपयोग करना कुछ विशेष उपयोगी विशेषताओं को दिखाना शुरू कर दिया। अधिकांश मामले किसी विशेष स्थान पर न्यूनतम और अधिकतम दिन की अवधि में चरम सीमा तक ही सीमित थे।
इसने यह भी दिखाया कि लगातार दिनों के बीच दिन की अवधि में परिवर्तन की दर ने एक विशेष स्थान पर एक COVID-19 लहर की शुरुआत और अंत का अनुमान लगाने का एक तरीका पेश किया। इसका उपयोग COVID-19 के सापेक्ष संचरण जोखिम को स्थापित करने के लिए किया जा सकता है। तापमान और फ्लू और कुछ अन्य सर्दियों की बीमारी में अचानक परिवर्तन के समान, वायरल ट्रांसमिशन के लिए एक पर्यावरणीय परिवर्तन में शामिल होना।
SARS Cov2 वायरस इतने बड़े पैमाने पर क्यों चलता है? एक ऐसा प्रश्न है जिसका मेरे पास कोई ठोस उत्तर नहीं है। फिर भी, SARS Cov2 जीनोम VDR या विटामिन D रिसेप्टर की कार्रवाई के कारण व्यक्त जीन की एक श्रृंखला के समान है। सौर विकिरण के संपर्क में आने से विटामिन डी का उत्पादन होता है। फिर भी, यह सौर विकिरण के साथ स्पष्ट रूप से कम भागीदारी वाले अन्य जीनों की एक श्रृंखला के समान है। फिर भी, तापमान सीखा प्रतिनिधित्व से सहसंबद्ध है और सौर विकिरण से भी सहसंबद्ध है। ऐसा प्रतीत होता है कि दिन की अवधि अनुक्रम संरचना को स्थिर बनाए रखते हुए एक नियंत्रण चर के रूप में काम करती है, और दिन की अवधि सौर विकिरण से सहसंबद्ध होती है। और SARS Cov2 के समान कुछ जीन सौर विकिरण द्वारा नियंत्रित होते हैं। इस प्रकार मुझे लगता है कि यह मान लेना सुरक्षित है कि COVID-19 अस्थायी अनुकूलन में सौर विकिरण की भूमिका है।
विभिन्न अनुक्रम विश्लेषण और कोड के साथ एक पूर्ण सूचकांक यहां पाया जा सकता है । जबकि महामारी वक्र विश्लेषण यहां पाया जा सकता है और प्रीप्रिंट यहां पाया जा सकता है । यदि आप इस बिंदु पर पहुंच गए हैं और इन ओपन-सोर्स मॉडल को विकसित करना जारी रखने में मेरी मदद करना चाहते हैं, तो कृपया निम्नलिखित लिंक में सूचीबद्ध विभिन्न समर्थन प्लेटफार्मों में से एक में शामिल होने पर विचार करें । सौर विकिरण में अचानक परिवर्तन से बचें और अगले एक में मिलते हैं।