बायोपथॉन - त्वरित गाइड

बायोप्थॉन पायथन के लिए सबसे बड़ा और सबसे लोकप्रिय जैव सूचना विज्ञान पैकेज है। इसमें आम जैव सूचना विज्ञान कार्यों के लिए विभिन्न उप-मॉड्यूल शामिल हैं। यह चैपमैन और चांग द्वारा विकसित किया गया है, जो मुख्य रूप से पायथन में लिखा गया है। इसमें सॉफ्टवेयर के जटिल संगणना भाग को अनुकूलित करने के लिए C कोड भी है। यह विंडोज, लिनक्स, मैक ओएस एक्स, आदि पर चलता है।

मूल रूप से, बायोपीथॉन अजगर मॉड्यूल का एक संग्रह है जो डीएनए, आरएनए और प्रोटीन अनुक्रम संचालन से निपटने के लिए कार्य प्रदान करता है जैसे कि डीएनए स्ट्रिंग के रिवर्स पूरक, प्रोटीन अनुक्रमों में रूपांकनों का पता लगाना, आदि। यह सभी प्रमुख आनुवंशिक डेटाबेसों को पढ़ने के लिए बहुत सारे पार्सर प्रदान करता है। जैसे GenBank, SwissPort, FASTA, आदि, साथ ही रैपर / इंटरफेस अन्य लोकप्रिय जैव सूचना विज्ञान सॉफ्टवेयर / उपकरण जैसे NCBI BLASTN, Entrez, आदि को पायथन पर्यावरण के अंदर चलाने के लिए। इसमें BioPerl, BioJava और BioRuby जैसे सिबलिंग प्रोजेक्ट हैं।

विशेषताएं

बायोपथॉन पोर्टेबल है, स्पष्ट है और सिंटैक्स सीखना आसान है। कुछ मुख्य विशेषताएं नीचे सूचीबद्ध हैं -

  • व्याख्या, संवादात्मक और वस्तु उन्मुख।

  • FASTA, PDB, GenBank, Blast, SCOP, PubMed / Medline, ExPASy- संबंधित स्वरूपों का समर्थन करता है।

  • अनुक्रम प्रारूपों से निपटने का विकल्प।

  • प्रोटीन संरचनाओं का प्रबंधन करने के लिए उपकरण।

  • BioSQL - सीक्वेंस प्लस फीचर्स और एनोटेशन के लिए एसक्यूएल टेबल का मानक सेट।

  • एनसीबीआई सेवाओं (ब्लास्ट, एंट्रेस, पबमेड) और एक्सपेसी सेवाओं (स्विसप्रोट, प्रोसाइट) सहित ऑनलाइन सेवाओं और डेटाबेस तक पहुंच।

  • ब्लास्ट, क्लस्टलव, ईएमबीओएस सहित स्थानीय सेवाओं तक पहुंच।

लक्ष्य

बायोपथॉन का लक्ष्य पायथन भाषा के माध्यम से जैव सूचना विज्ञान की सरल, मानक और व्यापक पहुंच प्रदान करना है। बायोपथॉन के विशिष्ट लक्ष्य नीचे सूचीबद्ध हैं -

  • जैव सूचना विज्ञान संसाधनों के लिए मानकीकृत पहुंच प्रदान करना।

  • उच्च गुणवत्ता, पुन: प्रयोज्य मॉड्यूल और स्क्रिप्ट।

  • फास्ट सरणी हेरफेर, जिसका उपयोग क्लस्टर कोड, पीडीबी, नैवेबेस और मार्कोव मॉडल में किया जा सकता है।

  • जीनोमिक डेटा विश्लेषण।

लाभ

बायोपथॉन को बहुत कम कोड की आवश्यकता होती है और निम्नलिखित लाभ के साथ आता है -

  • क्लस्टरिंग में प्रयुक्त माइक्रोएरे डेटा प्रकार प्रदान करता है।

  • ट्री-व्यू टाइप फाइलें पढ़ता है और लिखता है।

  • पीडीबी पार्सिंग, प्रतिनिधित्व और विश्लेषण के लिए उपयोग किए जाने वाले संरचना डेटा का समर्थन करता है।

  • मेडलाइन अनुप्रयोगों में उपयोग किए जाने वाले जर्नल डेटा का समर्थन करता है।

  • BioSQL डेटाबेस का समर्थन करता है, जो सभी जैव सूचना विज्ञान परियोजनाओं के बीच व्यापक रूप से मानक डेटाबेस का उपयोग किया जाता है।

  • पार्सर के विकास का समर्थन करता है एक प्रारूप विशिष्ट रिकॉर्ड ऑब्जेक्ट या अनुक्रम प्लस सुविधाओं के एक सामान्य वर्ग में एक जैव सूचना विज्ञान फ़ाइल पार्स करने के लिए मॉड्यूल प्रदान करके

  • कुकबुक-शैली पर आधारित स्पष्ट प्रलेखन।

सैंपल केस स्टडी

आइए हम कुछ उपयोग मामलों (जनसंख्या आनुवंशिकी, आरएनए संरचना, आदि) की जांच करें और समझने की कोशिश करें कि इस क्षेत्र में बायोपथॉन कैसे महत्वपूर्ण भूमिका निभाता है -

जनसंख्या आनुवंशिकी

जनसंख्या आनुवंशिकी एक आबादी के भीतर आनुवंशिक भिन्नता का अध्ययन है, और अंतरिक्ष और समय के साथ आबादी में जीन और एलील की आवृत्तियों में परिवर्तन की परीक्षा और मॉडलिंग शामिल है।

Biopython जनसंख्या आनुवंशिकी के लिए Bio.PopGen मॉड्यूल प्रदान करता है। इस मॉड्यूल में क्लासिक जनसंख्या आनुवंशिकी के बारे में जानकारी इकट्ठा करने के लिए सभी आवश्यक कार्य शामिल हैं।

आरएनए संरचना

तीन प्रमुख जैविक macromolecules जो हमारे जीवन के लिए आवश्यक हैं, वे हैं DNA, RNA और प्रोटीन। प्रोटीन कोशिका के कार्यक्षेत्र होते हैं और एंजाइम के रूप में महत्वपूर्ण भूमिका निभाते हैं। डीएनए (डीऑक्सीराइबोन्यूक्लिक एसिड) को सेल का "ब्लूप्रिंट" माना जाता है। यह कोशिका को विकसित करने, पोषक तत्वों में लेने, और प्रचार करने के लिए आवश्यक सभी आनुवंशिक जानकारी को वहन करता है। आरएनए (राइबोन्यूक्लिक एसिड) कोशिका में "डीएनए फोटोकॉपी" के रूप में कार्य करता है।

बायोपथॉन बायो सेंसेंस ऑब्जेक्ट प्रदान करता है जो न्यूक्लियोटाइड का प्रतिनिधित्व करता है, डीएनए और आरएनए के निर्माण ब्लॉक।

यह खंड बताता है कि आपकी मशीन पर बायोपथॉन कैसे स्थापित किया जाए। इसे स्थापित करना बहुत आसान है और इसमें पांच मिनट से अधिक नहीं लगेगा।

Step 1 - पायथन इंस्टॉलेशन को सत्यापित करना

Biopython को Python 2.5 या उच्चतर संस्करणों के साथ काम करने के लिए डिज़ाइन किया गया है। इसलिए, यह अनिवार्य है कि पहले अजगर को स्थापित किया जाए। अपने कमांड प्रॉम्प्ट में नीचे कमांड चलाएँ -

> python --version

यह नीचे परिभाषित किया गया है -

यह ठीक से स्थापित होने पर, अजगर का संस्करण दिखाता है। अन्यथा, अजगर का नवीनतम संस्करण डाउनलोड करें, इसे स्थापित करें और फिर कमांड को फिर से चलाएं।

Step 2 - पाइप का उपयोग करके बायोपथॉन स्थापित करना

सभी प्लेटफार्मों पर कमांड लाइन से पाइप का उपयोग करके बायोपथॉन को स्थापित करना आसान है। नीचे कमांड टाइप करें -

> pip install biopython

आपकी स्क्रीन पर निम्नलिखित प्रतिक्रिया दिखाई देगी -

Biopython के पुराने संस्करण को अपडेट करने के लिए -

> pip install biopython –-upgrade

आपकी स्क्रीन पर निम्नलिखित प्रतिक्रिया दिखाई देगी -

इस कमांड को निष्पादित करने के बाद, हाल के संस्करणों को स्थापित करने से पहले Biopython और NumPy (Biopython निर्भर करता है) के पुराने संस्करणों को हटा दिया जाएगा।

Step 3 - बायोपिथॉन इंस्टॉलेशन को सत्यापित करना

अब, आपने अपनी मशीन पर सफलतापूर्वक Biopython स्थापित कर लिया है। यह सत्यापित करने के लिए कि बायोपथॉन ठीक से स्थापित है, अपने अजगर कंसोल पर नीचे कमांड टाइप करें -

यह Biopython के संस्करण को दर्शाता है।

Alternate Way − Installing Biopython using Source

स्रोत कोड का उपयोग करके बायोपिथॉन को स्थापित करने के लिए, नीचे दिए गए निर्देशों का पालन करें -

निम्न लिंक से बायोपथॉन की हालिया रिलीज़ डाउनलोड करें - https://biopython.org/wiki/Download

अब तक, नवीनतम संस्करण है biopython-1.72

फ़ाइल डाउनलोड करें और संपीड़ित संग्रह फ़ाइल को अनपैक करें, स्रोत कोड फ़ोल्डर में जाएं और नीचे कमांड टाइप करें -

> python setup.py build

यह नीचे दिए गए स्रोत कोड से Biopython का निर्माण करेगा -

अब, नीचे दिए गए कमांड का उपयोग करके कोड का परीक्षण करें -

> python setup.py test

अंत में, नीचे दिए गए कमांड का उपयोग करके इंस्टॉल करें -

> python setup.py install

आइए हम बायोइनफॉरमैटिक्स फ़ाइल को पार्स करने और सामग्री को प्रिंट करने के लिए एक सरल बायोपथॉन एप्लिकेशन बनाएं। इससे हमें बायोपथॉन की सामान्य अवधारणा को समझने में मदद मिलेगी और यह जैव सूचना विज्ञान के क्षेत्र में कैसे मदद करता है।

Step 1 - सबसे पहले, एक नमूना अनुक्रम फ़ाइल बनाएँ, "example.fasta" और उसमें नीचे की सामग्री डालें।

>sp|P25730|FMS1_ECOLI CS1 fimbrial subunit A precursor (CS1 pilin) 
MKLKKTIGAMALATLFATMGASAVEKTISVTASVDPTVDLLQSDGSALPNSVALTYSPAV
NNFEAHTINTVVHTNDSDKGVVVKLSADPVLSNVLNPTLQIPVSVNFAGKPLSTTGITID 
SNDLNFASSGVNKVSSTQKLSIHADATRVTGGALTAGQYQGLVSIILTKSTTTTTTTKGT 

>sp|P15488|FMS3_ECOLI CS3 fimbrial subunit A precursor (CS3 pilin) 
MLKIKYLLIGLSLSAMSSYSLAAAGPTLTKELALNVLSPAALDATWAPQDNLTLSNTGVS 
NTLVGVLTLSNTSIDTVSIASTNVSDTSKNGTVTFAHETNNSASFATTISTDNANITLDK 
NAGNTIVKTTNGSQLPTNLPLKFITTEGNEHLVSGNYRANITITSTIKGGGTKKGTTDKK

एक्सटेंशन, फास्टा अनुक्रम फ़ाइल के फ़ाइल प्रारूप को संदर्भित करता है। एफएएसटीए जैव सूचना विज्ञान सॉफ्टवेयर, एफएएसटीए से उत्पन्न होता है और इसलिए इसे इसका नाम मिलता है। FASTA प्रारूप में एक-एक करके कई अनुक्रम व्यवस्थित किए गए हैं और प्रत्येक अनुक्रम का अपना आईडी, नाम, विवरण और वास्तविक अनुक्रम डेटा होगा।

Step 2 - एक नया पायथन स्क्रिप्ट बनाएं, * simple_example.py "और नीचे दिए गए कोड को दर्ज करें और इसे सहेजें।

from Bio.SeqIO import parse 
from Bio.SeqRecord import SeqRecord 
from Bio.Seq import Seq 

file = open("example.fasta") 

records = parse(file, "fasta") for record in records:    
   print("Id: %s" % record.id) 
   print("Name: %s" % record.name) 
   print("Description: %s" % record.description) 
   print("Annotations: %s" % record.annotations) 
   print("Sequence Data: %s" % record.seq) 
   print("Sequence Alphabet: %s" % record.seq.alphabet)

आइए कोड में थोड़ा गहराई से देखें -

Line 1Bio.SeqIO मॉड्यूल में उपलब्ध पार्स क्लास का आयात करता है। Bio.SeqIO मॉड्यूल को विभिन्न प्रारूप में अनुक्रम फ़ाइल को पढ़ने और लिखने के लिए उपयोग किया जाता है और अनुक्रम फ़ाइल की सामग्री को पार्स करने के लिए `पार्स 'वर्ग का उपयोग किया जाता है।

Line 2Bio.SeqRecord मॉड्यूल में उपलब्ध SeqRecord वर्ग का आयात करता है। इस मॉड्यूल का उपयोग अनुक्रम रिकॉर्ड में हेरफेर करने के लिए किया जाता है और SeqRecord वर्ग का उपयोग अनुक्रम फ़ाइल में उपलब्ध किसी विशेष अनुक्रम का प्रतिनिधित्व करने के लिए किया जाता है।

*Line 3"आयात Seq वर्ग Bio.Seq मॉड्यूल में उपलब्ध है। इस मॉड्यूल का उपयोग अनुक्रम डेटा में हेरफेर करने के लिए किया जाता है और Seq वर्ग का उपयोग अनुक्रम फ़ाइल में उपलब्ध किसी विशेष अनुक्रम रिकॉर्ड के अनुक्रम डेटा का प्रतिनिधित्व करने के लिए किया जाता है।

Line 5 नियमित रूप से अजगर समारोह का उपयोग करके "example.fasta" फ़ाइल खोलता है, खोलें।

Line 7 अनुक्रम फ़ाइल की सामग्री को पार्स करें और SeqRecord ऑब्जेक्ट की सूची के रूप में सामग्री लौटाता है।

Line 9-15 लूप के लिए पायथन का उपयोग करते हुए रिकॉर्ड्स पर लूप और अनुक्रम रिकॉर्ड (SqlRecord) की विशेषताओं जैसे आईडी, नाम, विवरण, अनुक्रम डेटा, आदि को प्रिंट करता है।

Line 15 वर्णमाला वर्ग का उपयोग करके अनुक्रम का प्रकार प्रिंट करता है।

Step 3 - एक कमांड प्रॉम्प्ट खोलें और फ़ोल्डर में जाएं जिसमें अनुक्रम फ़ाइल है, "example.fasta" और नीचे कमांड चलाएं -

> python simple_example.py

Step 4- पायथन स्क्रिप्ट चलाता है और नमूना फ़ाइल में उपलब्ध सभी अनुक्रम डेटा को प्रिंट करता है, "example.fasta"। आउटपुट निम्न सामग्री के समान होगा।

Id: sp|P25730|FMS1_ECOLI 
Name: sp|P25730|FMS1_ECOLI 
Decription: sp|P25730|FMS1_ECOLI CS1 fimbrial subunit A precursor (CS1 pilin) 
Annotations: {} 
Sequence Data: MKLKKTIGAMALATLFATMGASAVEKTISVTASVDPTVDLLQSDGSALPNSVALTYSPAVNNFEAHTINTVVHTNDSD
KGVVVKLSADPVLSNVLNPTLQIPVSVNFAGKPLSTTGITIDSNDLNFASSGVNKVSSTQKLSIHADATRVTGGALTA
GQYQGLVSIILTKSTTTTTTTKGT 
Sequence Alphabet: SingleLetterAlphabet() 
Id: sp|P15488|FMS3_ECOLI 
Name: sp|P15488|FMS3_ECOLI 
Decription: sp|P15488|FMS3_ECOLI CS3 fimbrial subunit A precursor (CS3 pilin) 
Annotations: {} 
Sequence Data: MLKIKYLLIGLSLSAMSSYSLAAAGPTLTKELALNVLSPAALDATWAPQDNLTLSNTGVSNTLVGVLTLSNTSIDTVS
IASTNVSDTSKNGTVTFAHETNNSASFATTISTDNANITLDKNAGNTIVKTTNGSQLPTNLPLKFITTEGNEHLVSGN
YRANITITSTIKGGGTKKGTTDKK 
Sequence Alphabet: SingleLetterAlphabet()

हमने इस उदाहरण में तीन वर्ग, पार्स, सेक्कार्ड और सेक को देखा है। ये तीन कक्षाएं अधिकांश कार्यक्षमता प्रदान करती हैं और हम आने वाले अनुभाग में उन कक्षाओं को सीखेंगे।

एक अनुक्रम एक जीव के प्रोटीन, डीएनए या आरएनए का प्रतिनिधित्व करने के लिए उपयोग किए जाने वाले पत्रों की श्रृंखला है। यह Seq वर्ग द्वारा दर्शाया गया है। Seq वर्ग Bio.Seq मॉड्यूल में परिभाषित किया गया है।

चलो नीचे दिखाए गए अनुसार बायोपथॉन में एक सरल अनुक्रम बनाते हैं -

>>> from Bio.Seq import Seq 
>>> seq = Seq("AGCT") 
>>> seq 
Seq('AGCT') 
>>> print(seq) 
AGCT

यहां, हमने एक सरल प्रोटीन अनुक्रम बनाया है AGCT और प्रत्येक अक्षर का प्रतिनिधित्व करता है Alanine, Glycine, Cयस्टीन और Threonine।

प्रत्येक Seq ऑब्जेक्ट की दो महत्वपूर्ण विशेषताएं हैं -

  • डेटा - वास्तविक अनुक्रम स्ट्रिंग (AGCT)

  • वर्णमाला - अनुक्रम के प्रकार का प्रतिनिधित्व करने के लिए उपयोग किया जाता है। जैसे डीएनए अनुक्रम, आरएनए अनुक्रम, आदि। डिफ़ॉल्ट रूप से, यह किसी भी अनुक्रम का प्रतिनिधित्व नहीं करता है और प्रकृति में सामान्य है।

वर्णमाला का मॉड्यूल

अनुक्रम वस्तुओं में अनुक्रम प्रकार, पत्र और संभव संचालन को निर्दिष्ट करने के लिए वर्णमाला विशेषता शामिल है। इसे Bio.Alphabet मॉड्यूल में परिभाषित किया गया है। वर्णमाला को नीचे के रूप में परिभाषित किया जा सकता है -

>>> from Bio.Seq import Seq 
>>> myseq = Seq("AGCT") 
>>> myseq 
Seq('AGCT') 
>>> myseq.alphabet 
Alphabet()

वर्णमाला मॉड्यूल विभिन्न प्रकार के दृश्यों का प्रतिनिधित्व करने के लिए नीचे की कक्षाएं प्रदान करता है। वर्णमाला - सभी प्रकार के वर्णमालाओं के लिए आधार वर्ग।

SingleLetterAlphabet - आकार के अक्षरों के साथ सामान्य वर्णमाला। यह वर्णमाला से प्राप्त होता है और अन्य सभी अक्षर इसके प्रकार से प्राप्त होते हैं।

>>> from Bio.Seq import Seq 
>>> from Bio.Alphabet import single_letter_alphabet 
>>> test_seq = Seq('AGTACACTGGT', single_letter_alphabet) 
>>> test_seq 
Seq('AGTACACTGGT', SingleLetterAlphabet())

प्रोटीनएल्फाबेट - जेनेरिक एकल अक्षर प्रोटीन वर्णमाला।

>>> from Bio.Seq import Seq 
>>> from Bio.Alphabet import generic_protein 
>>> test_seq = Seq('AGTACACTGGT', generic_protein) 
>>> test_seq 
Seq('AGTACACTGGT', ProteinAlphabet())

न्यूक्लिओटाइडएल्फाबेट - जेनेरिक एकल अक्षर न्यूक्लियोटाइड वर्णमाला।

>>> from Bio.Seq import Seq 
>>> from Bio.Alphabet import generic_nucleotide 
>>> test_seq = Seq('AGTACACTGGT', generic_nucleotide) >>> test_seq 
Seq('AGTACACTGGT', NucleotideAlphabet())

DNAAlphabet - जेनेरिक एकल अक्षर डीएनए वर्णमाला।

>>> from Bio.Seq import Seq 
>>> from Bio.Alphabet import generic_dna 
>>> test_seq = Seq('AGTACACTGGT', generic_dna) 
>>> test_seq 
Seq('AGTACACTGGT', DNAAlphabet())

RNAAlphabet - सामान्य एकल अक्षर RNA वर्णमाला।

>>> from Bio.Seq import Seq 
>>> from Bio.Alphabet import generic_rna 
>>> test_seq = Seq('AGTACACTGGT', generic_rna) 
>>> test_seq 
Seq('AGTACACTGGT', RNAAlphabet())

बायोपथॉन मॉड्यूल, Bio.Alphabet.IUPAC IUPAC समुदाय द्वारा परिभाषित मूल अनुक्रम प्रकार प्रदान करता है। इसमें निम्न वर्ग शामिल हैं -

  • IUPACProtein (protein) - आईयूपीएसी प्रोटीन 20 मानक अमीनो एसिड की वर्णमाला।

  • ExtendedIUPACProtein (extended_protein) - एक्स सहित विस्तारित अपरकेस IUPAC प्रोटीन एकल अक्षर वर्णमाला।

  • IUPACAmbiguousDNA (ambiguous_dna) - अपरकेस IUPAC अस्पष्ट डीएनए।

  • IUPACUnambiguousDNA (unambiguous_dna) - अपरकेस IUPAC असंदिग्ध डीएनए (GATC)।

  • ExtendedIUPACDNA (extended_dna) - विस्तारित IUPAC डीएनए वर्णमाला।

  • IUPACAmbiguousRNA (ambiguous_rna) - अपरकेस IUPAC अस्पष्ट RNA।

  • IUPACUnambiguousRNA (unambiguous_rna) - अपरकेस IUPAC अस्पष्ट आरएनए (GAUC)।

नीचे दिखाए गए अनुसार IUPACProtein वर्ग के लिए एक सरल उदाहरण पर विचार करें -

>>> from Bio.Alphabet import IUPAC 
>>> protein_seq = Seq("AGCT", IUPAC.protein) 
>>> protein_seq 
Seq('AGCT', IUPACProtein()) 
>>> protein_seq.alphabet

इसके अलावा, Biopython Bio.Data मॉड्यूल के माध्यम से सभी जैव सूचना विज्ञान संबंधित कॉन्फ़िगरेशन डेटा को उजागर करता है। उदाहरण के लिए, IUPACData.protein_letters में IUPACProtein वर्णमाला के संभावित अक्षर हैं।

>>> from Bio.Data import IUPACData 
>>> IUPACData.protein_letters 
'ACDEFGHIKLMNPQRSTVWY'

मूलभूत क्रियाएं

यह खंड Seq वर्ग में उपलब्ध सभी बुनियादी कार्यों के बारे में संक्षेप में बताता है। अनुक्रम अजगर के तार के समान हैं। हम अजगर स्ट्रिंग ऑपरेशन जैसे कि स्लाइसिंग, काउंटिंग, कंसेंटेशन, फाइंड, स्प्लिट और स्ट्रिप को सीक्वेंस में कर सकते हैं।

विभिन्न आउटपुट प्राप्त करने के लिए नीचे दिए गए कोड का उपयोग करें।

To get the first value in sequence.

>>> seq_string = Seq("AGCTAGCT") 
>>> seq_string[0] 
'A'

To print the first two values.

>>> seq_string[0:2] 
Seq('AG')

To print all the values.

>>> seq_string[ : ] 
Seq('AGCTAGCT')

To perform length and count operations.

>>> len(seq_string) 
8 
>>> seq_string.count('A') 
2

To add two sequences.

>>> from Bio.Alphabet import generic_dna, generic_protein 
>>> seq1 = Seq("AGCT", generic_dna) 
>>> seq2 = Seq("TCGA", generic_dna)
>>> seq1+seq2 
Seq('AGCTTCGA', DNAAlphabet())

यहां, उपरोक्त दो अनुक्रम ऑब्जेक्ट, seq1, seq2 जेनेरिक डीएनए अनुक्रम हैं और इसलिए आप उन्हें जोड़ सकते हैं और नए अनुक्रम का उत्पादन कर सकते हैं। आप असंगत अक्षरों के साथ अनुक्रम नहीं जोड़ सकते हैं, जैसे कि प्रोटीन अनुक्रम और नीचे दिए गए अनुसार एक डीएनए अनुक्रम -

>>> dna_seq = Seq('AGTACACTGGT', generic_dna) 
>>> protein_seq = Seq('AGUACACUGGU', generic_protein) 
>>> dna_seq + protein_seq 
..... 
..... 
TypeError: Incompatible alphabets DNAAlphabet() and ProteinAlphabet() 
>>>

दो या दो से अधिक दृश्यों को जोड़ने के लिए, पहले इसे अजगर सूची में संग्रहीत करें, फिर 'लूप के लिए' का उपयोग करके इसे पुनः प्राप्त करें और अंत में इसे नीचे दिखाए अनुसार जोड़ दें -

>>> from Bio.Alphabet import generic_dna 
>>> list = [Seq("AGCT",generic_dna),Seq("TCGA",generic_dna),Seq("AAA",generic_dna)] 
>>> for s in list: 
... print(s) 
... 
AGCT 
TCGA 
AAA 
>>> final_seq = Seq(" ",generic_dna) 
>>> for s in list: 
... final_seq = final_seq + s 
... 
>>> final_seq 
Seq('AGCTTCGAAAA', DNAAlphabet())

नीचे दिए गए अनुभाग में, आवश्यकता के आधार पर आउटपुट प्राप्त करने के लिए विभिन्न कोड दिए गए हैं।

To change the case of sequence.

>>> from Bio.Alphabet import generic_rna 
>>> rna = Seq("agct", generic_rna) 
>>> rna.upper() 
Seq('AGCT', RNAAlphabet())

To check python membership and identity operator.

>>> rna = Seq("agct", generic_rna) 
>>> 'a' in rna 
True 
>>> 'A' in rna 
False 
>>> rna1 = Seq("AGCT", generic_dna) 
>>> rna is rna1 
False

To find single letter or sequence of letter inside the given sequence.

>>> protein_seq = Seq('AGUACACUGGU', generic_protein) 
>>> protein_seq.find('G') 
1 
>>> protein_seq.find('GG') 
8

To perform splitting operation.

>>> protein_seq = Seq('AGUACACUGGU', generic_protein) 
>>> protein_seq.split('A') 
[Seq('', ProteinAlphabet()), Seq('GU', ProteinAlphabet()), 
   Seq('C', ProteinAlphabet()), Seq('CUGGU', ProteinAlphabet())]

To perform strip operations in the sequence.

>>> strip_seq = Seq(" AGCT ") 
>>> strip_seq 
Seq(' AGCT ') 
>>> strip_seq.strip() 
Seq('AGCT')

इस अध्याय में, हम Biopython द्वारा उपलब्ध कराए गए कुछ उन्नत अनुक्रम विशेषताओं पर चर्चा करेंगे।

पूरक और रिवर्स पूरक

न्यूक्लियोटाइड अनुक्रम को नया अनुक्रम प्राप्त करने के लिए उल्टा पूरक किया जा सकता है। इसके अलावा, मूल अनुक्रम को प्राप्त करने के लिए पूरक अनुक्रम को रिवर्स पूरक किया जा सकता है। Biopython इस कार्यक्षमता को करने के लिए दो तरीके प्रदान करता है -complement तथा reverse_complement। इसके लिए कोड नीचे दिया गया है -

>>> from Bio.Alphabet import IUPAC 
>>> nucleotide = Seq('TCGAAGTCAGTC', IUPAC.ambiguous_dna) 
>>> nucleotide.complement() 
Seq('AGCTTCAGTCAG', IUPACAmbiguousDNA()) 
>>>

यहां, पूरक () विधि डीएनए या आरएनए अनुक्रम को पूरक करने की अनुमति देती है। रिवर्स_कंप्लीट () विधि कंप्लीट होती है और परिणामी अनुक्रम को बाएं से दाएं उलट देती है। यह नीचे दिखाया गया है -

>>> nucleotide.reverse_complement() 
Seq('GACTGACTTCGA', IUPACAmbiguousDNA())

बायोपथॉन पूरक संचालन करने के लिए Bio.Data.IUPACData द्वारा प्रदान किए गए अस्पष्ट_dna_complement चर का उपयोग करता है।

>>> from Bio.Data import IUPACData 
>>> import pprint 
>>> pprint.pprint(IUPACData.ambiguous_dna_complement) {
   'A': 'T',
   'B': 'V',
   'C': 'G',
   'D': 'H',
   'G': 'C',
   'H': 'D',
   'K': 'M',
   'M': 'K',
   'N': 'N',
   'R': 'Y',
   'S': 'S',
   'T': 'A',
   'V': 'B',
   'W': 'W',
   'X': 'X',
   'Y': 'R'} 
>>>

जीसी सामग्री

जीनोमिक डीएनए बेस कंपोजिशन (जीसी कंटेंट) की भविष्यवाणी जीनोम कार्यप्रणाली और प्रजाति पारिस्थितिकी को काफी प्रभावित करने के लिए की जाती है। जीसी सामग्री कुल न्यूक्लियोटाइड्स द्वारा विभाजित जीसी न्यूक्लियोटाइड की संख्या है।

जीसी न्यूक्लियोटाइड सामग्री प्राप्त करने के लिए, निम्न मॉड्यूल को आयात करें और निम्न चरणों का पालन करें -

>>> from Bio.SeqUtils import GC 
>>> nucleotide = Seq("GACTGACTTCGA",IUPAC.unambiguous_dna) 
>>> GC(nucleotide) 
50.0

प्रतिलिपि

ट्रांसक्रिप्शन डीएनए अनुक्रम को आरएनए अनुक्रम में बदलने की प्रक्रिया है। वास्तविक जैविक प्रतिलेखन प्रक्रिया डीएनए को टेम्प्लेट स्ट्रैंड मानते हुए mRNA प्राप्त करने के लिए एक रिवर्स सप्लीमेंट (TCAG → CUGA) का प्रदर्शन कर रही है। हालाँकि, बायोइन्फ़ॉर्मेटिक्स में और इसलिए बायोपथॉन में, हम आम तौर पर कोडिंग स्ट्रैंड के साथ सीधे काम करते हैं और हम टी से यू अक्षर को बदलकर एमआरएनए अनुक्रम प्राप्त कर सकते हैं।

उपरोक्त के लिए सरल उदाहरण इस प्रकार है -

>>> from Bio.Seq import Seq 
>>> from Bio.Seq import transcribe 
>>> from Bio.Alphabet import IUPAC 
>>> dna_seq = Seq("ATGCCGATCGTAT",IUPAC.unambiguous_dna) >>> transcribe(dna_seq) 
Seq('AUGCCGAUCGUAU', IUPACUnambiguousRNA()) 
>>>

प्रतिलेखन को उलटने के लिए, T को U में बदल दिया जाता है जैसा कि नीचे दिए गए कोड में दिखाया गया है -

>>> rna_seq = transcribe(dna_seq) 
>>> rna_seq.back_transcribe() 
Seq('ATGCCGATCGTAT', IUPACUnambiguousDNA())

DNA टेम्प्लेट स्ट्रैंड प्राप्त करने के लिए, पीछे दिए गए RNA को उल्टा रखें।

>>> rna_seq.back_transcribe().reverse_complement() 
Seq('ATACGATCGGCAT', IUPACUnambiguousDNA())

अनुवाद

अनुवाद आरएनए अनुक्रम को प्रोटीन अनुक्रम में अनुवाद करने की एक प्रक्रिया है। नीचे दिखाए गए अनुसार एक आरएनए अनुक्रम पर विचार करें -

>>> rna_seq = Seq("AUGGCCAUUGUAAU",IUPAC.unambiguous_rna) 
>>> rna_seq 
Seq('AUGGCCAUUGUAAUGGGCCGCUGAAAGGGUGCCCGAUAG', IUPACUnambiguousRNA())

अब, ऊपर दिए गए कोड पर अनुवाद () फ़ंक्शन लागू करें -

>>> rna_seq.translate() 
Seq('MAIV', IUPACProtein())

उपरोक्त आरएनए अनुक्रम सरल है। आरएनए अनुक्रम, AUGGCCAUUGUAAUGGGCCGCUGAAAGGGUGCCCGA पर विचार करें और अनुवाद लागू करें () -

>>> rna = Seq('AUGGCCAUUGUAAUGGGCCGCUGAAAGGGUGCCCGA', IUPAC.unambiguous_rna) 
>>> rna.translate() 
Seq('MAIVMGR*KGAR', HasStopCodon(IUPACProtein(), '*'))

यहां, स्टॉप कोडन को तारांकन चिह्न '*' के साथ दर्शाया गया है।

पहले स्टॉप कोडन पर रोकना अनुवाद () विधि में संभव है। इसे करने के लिए, आप to_stop = ट्रू इन ट्रांसलेशन () निम्नानुसार असाइन कर सकते हैं -

>>> rna.translate(to_stop = True) 
Seq('MAIVMGR', IUPACProtein())

यहां, स्टॉप कोडन को परिणामी अनुक्रम में शामिल नहीं किया गया है क्योंकि इसमें एक शामिल नहीं है।

अनुवाद तालिका

NCBI का जेनेटिक कोड पृष्ठ, अनुवाद तालिका की पूरी सूची प्रदान करता है जिसका उपयोग Biopython द्वारा किया जाता है। आइए कोड को देखने के लिए मानक तालिका के लिए एक उदाहरण देखें -

>>> from Bio.Data import CodonTable 
>>> table = CodonTable.unambiguous_dna_by_name["Standard"] 
>>> print(table) 
Table 1 Standard, SGC0
   | T       | C       | A       | G       | 
 --+---------+---------+---------+---------+-- 
 T | TTT F   | TCT S   | TAT Y   | TGT C   | T
 T | TTC F   | TCC S   | TAC Y   | TGC C   | C
 T | TTA L   | TCA S   | TAA Stop| TGA Stop| A
 T | TTG L(s)| TCG S   | TAG Stop| TGG W   | G 
 --+---------+---------+---------+---------+--
 C | CTT L   | CCT P   | CAT H   | CGT R   | T
 C | CTC L   | CCC P   | CAC H   | CGC R   | C
 C | CTA L   | CCA P   | CAA Q   | CGA R   | A
 C | CTG L(s)| CCG P   | CAG Q   | CGG R   | G 
 --+---------+---------+---------+---------+--
 A | ATT I   | ACT T   | AAT N   | AGT S   | T
 A | ATC I   | ACC T   | AAC N   | AGC S   | C
 A | ATA I   | ACA T   | AAA K   | AGA R   | A
 A | ATG M(s)| ACG T   | AAG K   | AGG R   | G 
 --+---------+---------+---------+---------+--
 G | GTT V   | GCT A   | GAT D   | GGT G   | T
 G | GTC V   | GCC A   | GAC D   | GGC G   | C
 G | GTA V   | GCA A   | GAA E   | GGA G   | A
 G | GTG V   | GCG A   | GAG E   | GGG G   | G 
 --+---------+---------+---------+---------+-- 
>>>

बायोपथॉन इस तालिका का उपयोग डीएनए को प्रोटीन में अनुवाद करने के साथ-साथ स्टॉप कोडन को खोजने के लिए करता है।

बायोपथॉन क्रमशः और एक फ़ाइल (किसी भी स्ट्रीम) से दृश्यों को पढ़ने और लिखने के लिए एक मॉड्यूल, Bio.SeqIO प्रदान करता है। यह जैव सूचना विज्ञान में उपलब्ध लगभग सभी फ़ाइल स्वरूपों का समर्थन करता है। अधिकांश सॉफ्टवेयर विभिन्न फ़ाइल स्वरूपों के लिए अलग-अलग दृष्टिकोण प्रदान करते हैं। लेकिन, Biopython जानबूझकर अपने SeqRecord ऑब्जेक्ट के माध्यम से उपयोगकर्ता को पार्स अनुक्रम अनुक्रम प्रस्तुत करने के लिए एकल दृष्टिकोण का अनुसरण करता है।

आइए हम निम्नलिखित अनुभाग में SeqRecord के बारे में अधिक जानें।

SeqRecord

Bio.SeqRecord मॉड्यूल SeqRecord को अनुक्रम की मेटा जानकारी और साथ ही नीचे दिए गए अनुक्रम डेटा को रखने के लिए प्रदान करता है -

  • seq - यह एक वास्तविक अनुक्रम है।

  • आईडी - यह दिए गए अनुक्रम का प्राथमिक पहचानकर्ता है। डिफ़ॉल्ट प्रकार स्ट्रिंग है।

  • name - यह अनुक्रम का नाम है। डिफ़ॉल्ट प्रकार स्ट्रिंग है।

  • विवरण - यह अनुक्रम के बारे में मानव पठनीय जानकारी प्रदर्शित करता है।

  • एनोटेशन - यह अनुक्रम के बारे में अतिरिक्त जानकारी का एक शब्दकोश है।

SeqRecord नीचे निर्दिष्ट के रूप में आयात किया जा सकता है

from Bio.SeqRecord import SeqRecord

आइए हम आने वाले वर्गों में वास्तविक अनुक्रम फ़ाइल का उपयोग करके अनुक्रम फ़ाइल को पार्स करने की बारीकियों को समझते हैं।

पार्सिंग अनुक्रम फ़ाइल प्रारूप

यह अनुभाग सबसे लोकप्रिय अनुक्रम फ़ाइल स्वरूपों में से दो को पार्स करने के तरीके के बारे में बताता है, FASTA तथा GenBank

FASTA

FASTAअनुक्रम डेटा संग्रहीत करने के लिए सबसे बुनियादी फ़ाइल प्रारूप है। मूल रूप से, FASTA डीएनए और प्रोटीन के अनुक्रम संरेखण के लिए एक सॉफ्टवेयर पैकेज है जो जैव सूचना विज्ञान के प्रारंभिक विकास के दौरान विकसित किया गया था और इसका उपयोग ज्यादातर अनुक्रम समानता को खोजने के लिए किया गया था।

Biopython एक उदाहरण FASTA फ़ाइल प्रदान करता है और इसे एक्सेस किया जा सकता है https://github.com/biopython/biopython/blob/master/Doc/examples/ls_orchid.fasta.

इस फ़ाइल को अपनी बायोपथॉन नमूना निर्देशिका में डाउनलोड करें और सहेजें ‘orchid.fasta’

Bio.SeqIO मॉड्यूल अनुक्रम फ़ाइलों को संसाधित करने के लिए पार्स () विधि प्रदान करता है और निम्नानुसार आयात किया जा सकता है -

from Bio.SeqIO import parse

पार्स () विधि में दो तर्क हैं, पहला फ़ाइल हैंडल है और दूसरा फ़ाइल स्वरूप है।

>>> file = open('path/to/biopython/sample/orchid.fasta') 
>>> for record in parse(file, "fasta"): 
...    print(record.id) 
... 
gi|2765658|emb|Z78533.1|CIZ78533 
gi|2765657|emb|Z78532.1|CCZ78532 
.......... 
.......... 
gi|2765565|emb|Z78440.1|PPZ78440 
gi|2765564|emb|Z78439.1|PBZ78439 
>>>

यहां, पार्स () विधि एक पुनरावृत्त वस्तु देता है जो हर पुनरावृत्ति पर SeqRecord लौटाता है। चलने योग्य होने के नाते, यह बहुत सारे परिष्कृत और आसान तरीके प्रदान करता है और हमें कुछ विशेषताओं को देखने देता है।

आगे()

अगला () विधि पुनरावृत्त वस्तु में उपलब्ध अगले आइटम को लौटाता है, जिसका उपयोग हम नीचे दिए गए अनुसार पहले अनुक्रम को प्राप्त करने के लिए कर सकते हैं -

>>> first_seq_record = next(SeqIO.parse(open('path/to/biopython/sample/orchid.fasta'),'fasta')) 
>>> first_seq_record.id 'gi|2765658|emb|Z78533.1|CIZ78533' 
>>> first_seq_record.name 'gi|2765658|emb|Z78533.1|CIZ78533' 
>>> first_seq_record.seq Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGATGAGACCGTGG...CGC', SingleLetterAlphabet()) 
>>> first_seq_record.description 'gi|2765658|emb|Z78533.1|CIZ78533 C.irapeanum 5.8S rRNA gene and ITS1 and ITS2 DNA' 
>>> first_seq_record.annotations 
{} 
>>>

यहाँ, seq_record.annotations खाली है क्योंकि FASTA प्रारूप अनुक्रम एनोटेशन का समर्थन नहीं करता है।

सूची की समझ

हम नीचे दिए गए अनुसार सूची की समझ का उपयोग करके पुनरावृत्त वस्तु को सूची में बदल सकते हैं

>>> seq_iter = SeqIO.parse(open('path/to/biopython/sample/orchid.fasta'),'fasta') 
>>> all_seq = [seq_record for seq_record in seq_iter] >>> len(all_seq) 
94 
>>>

यहां, हमने कुल गणना प्राप्त करने के लिए लेन विधि का उपयोग किया है। हम अधिकतम लंबाई के साथ अनुक्रम प्राप्त कर सकते हैं -

>>> seq_iter = SeqIO.parse(open('path/to/biopython/sample/orchid.fasta'),'fasta') 
>>> max_seq = max(len(seq_record.seq) for seq_record in seq_iter) 
>>> max_seq 
789 
>>>

हम नीचे दिए गए कोड का उपयोग करके अनुक्रम को फ़िल्टर कर सकते हैं -

>>> seq_iter = SeqIO.parse(open('path/to/biopython/sample/orchid.fasta'),'fasta') 
>>> seq_under_600 = [seq_record for seq_record in seq_iter if len(seq_record.seq) < 600] 
>>> for seq in seq_under_600: 
...    print(seq.id) 
... 
gi|2765606|emb|Z78481.1|PIZ78481 
gi|2765605|emb|Z78480.1|PGZ78480 
gi|2765601|emb|Z78476.1|PGZ78476 
gi|2765595|emb|Z78470.1|PPZ78470 
gi|2765594|emb|Z78469.1|PHZ78469 
gi|2765564|emb|Z78439.1|PBZ78439 
>>>

फ़ाइल में SqlRecord ऑब्जेक्ट्स (पार्स किया गया डेटा) का संग्रह लिखना उतना ही सरल है जितना नीचे SeqIO.write विधि को कॉल करना -

file = open("converted.fasta", "w) 
SeqIO.write(seq_record, file, "fasta")

इस विधि को प्रभावी रूप से नीचे दिए गए प्रारूप में बदलने के लिए उपयोग किया जा सकता है -

file = open("converted.gbk", "w) 
SeqIO.write(seq_record, file, "genbank")

GenBank

यह जीन के लिए एक समृद्ध अनुक्रम प्रारूप है और इसमें विभिन्न प्रकार के एनोटेशन के लिए फ़ील्ड शामिल हैं। बायोपथॉन जेनबैंक फ़ाइल एक उदाहरण प्रदान करता है और इसे एक्सेस किया जा सकता हैhttps://github.com/biopython/biopython/blob/master/Doc/examples/ls_orchid.fasta.

डाउनलोड करें और फ़ाइल को अपनी बायोपथॉन नमूना निर्देशिका में सहेजें ‘orchid.gbk’

चूंकि, बायोपथॉन सभी जैव सूचना विज्ञान प्रारूप को पार्स करने के लिए एक एकल फ़ंक्शन, पार्स प्रदान करता है। पार्स विधि में प्रारूप विकल्प को बदलने के लिए जेनबैंक प्रारूप को पार्स करना उतना ही सरल है।

उसी के लिए कोड नीचे दिया गया है -

>>> from Bio import SeqIO 
>>> from Bio.SeqIO import parse 
>>> seq_record = next(parse(open('path/to/biopython/sample/orchid.gbk'),'genbank')) 
>>> seq_record.id 
'Z78533.1' 
>>> seq_record.name 
'Z78533' 
>>> seq_record.seq Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGATGAGACCGTGG...CGC', IUPACAmbiguousDNA()) 
>>> seq_record.description 
'C.irapeanum 5.8S rRNA gene and ITS1 and ITS2 DNA' 
>>> seq_record.annotations {
   'molecule_type': 'DNA', 
   'topology': 'linear', 
   'data_file_division': 'PLN', 
   'date': '30-NOV-2006', 
   'accessions': ['Z78533'], 
   'sequence_version': 1, 
   'gi': '2765658', 
   'keywords': ['5.8S ribosomal RNA', '5.8S rRNA gene', 'internal transcribed spacer', 'ITS1', 'ITS2'], 
   'source': 'Cypripedium irapeanum', 
   'organism': 'Cypripedium irapeanum', 
   'taxonomy': [
      'Eukaryota', 
      'Viridiplantae', 
      'Streptophyta', 
      'Embryophyta', 
      'Tracheophyta', 
      'Spermatophyta', 
      'Magnoliophyta', 
      'Liliopsida', 
      'Asparagales', 
      'Orchidaceae', 
      'Cypripedioideae', 
      'Cypripedium'], 
   'references': [
      Reference(title = 'Phylogenetics of the slipper orchids (Cypripedioideae:
      Orchidaceae): nuclear rDNA ITS sequences', ...), 
      Reference(title = 'Direct Submission', ...)
   ]
}

Sequence alignment उनके बीच समानता के क्षेत्र की पहचान करने के लिए एक विशिष्ट क्रम में दो या अधिक अनुक्रमों (डीएनए, आरएनए या प्रोटीन अनुक्रमों) की व्यवस्था करने की प्रक्रिया है।

समान क्षेत्र की पहचान करने से हमें बहुत सी जानकारी का पता लगाने में मदद मिलती है जैसे कि प्रजातियों के बीच क्या लक्षण संरक्षित हैं, आनुवंशिक रूप से कितनी अलग प्रजातियां हैं, कैसे प्रजातियां विकसित होती हैं, आदि। बायोपथॉन अनुक्रम संरेखण के लिए व्यापक समर्थन प्रदान करता है।

आइए इस अध्याय में बायोपथॉन द्वारा प्रदान की गई कुछ महत्वपूर्ण विशेषताओं को जानें -

पार्सिंग अनुक्रम संरेखण

बायोपथॉन अनुक्रम संरेखण को पढ़ने और लिखने के लिए एक मॉड्यूल, Bio.AlignIO प्रदान करता है। जैव सूचना विज्ञान में, पहले सीखे गए अनुक्रम डेटा के समान अनुक्रम संरेखण डेटा निर्दिष्ट करने के लिए बहुत सारे प्रारूप उपलब्ध हैं। Bio.AlignIO Bio.SeqIO के समान API प्रदान करता है सिवाय इसके कि Bio.SeqIO अनुक्रम डेटा पर काम करता है और Bio.AlignIO अनुक्रम संरेखण डेटा पर काम करता है।

सीखना शुरू करने से पहले, आइए हम इंटरनेट से एक नमूना अनुक्रम संरेखण फ़ाइल डाउनलोड करें।

नमूना फ़ाइल डाउनलोड करने के लिए, निम्न चरणों का पालन करें -

Step 1 - अपना पसंदीदा ब्राउज़र खोलें और पर जाएं http://pfam.xfam.org/family/browseवेबसाइट। यह सभी Pfam परिवारों को वर्णमाला क्रम में दिखाएगा।

Step 2- बीज मूल्य के कम संख्या वाले किसी एक परिवार को चुनें। इसमें न्यूनतम डेटा होता है और यह हमें संरेखण के साथ आसानी से काम करने में सक्षम बनाता है। यहां, हमने PF18225 का चयन / क्लिक किया है और यह खुल जाता हैhttp://pfam.xfam.org/family/PF18225 और अनुक्रम संरेखण सहित इसके बारे में पूरा विवरण दिखाता है।

Step 3 - संरेखण अनुभाग पर जाएं और स्टॉकहोम प्रारूप (PF18225_seed.txt) में अनुक्रम संरेखण फ़ाइल डाउनलोड करें।

आइए नीचे दिए गए Bio.AlignIO का उपयोग करके डाउनलोड किए गए अनुक्रम संरेखण फ़ाइल को पढ़ने का प्रयास करें -

आयात Bio.AlignIO मॉड्यूल

>>> from Bio import AlignIO

रीड मेथड का उपयोग कर अलाइनमेंट पढ़ें। रीड मेथड का उपयोग किसी दिए गए फाइल में उपलब्ध एकल संरेखण डेटा को पढ़ने के लिए किया जाता है। यदि दी गई फ़ाइल में कई संरेखण हैं, तो हम पार्स विधि का उपयोग कर सकते हैं। पार्स विधि Bio.SeqIO मॉड्यूल में पार्स विधि के समान चलने योग्य संरेखण वस्तु देता है।

>>> alignment = AlignIO.read(open("PF18225_seed.txt"), "stockholm")

संरेखण वस्तु प्रिंट करें।

>>> print(alignment)
SingleLetterAlphabet() alignment with 6 rows and 65 columns
MQNTPAERLPAIIEKAKSKHDINVWLLDRQGRDLLEQRVPAKVA...EGP B7RZ31_9GAMM/59-123 
AKQRGIAGLEEWLHRLDHSEAIPIFLIDEAGKDLLEREVPADIT...KKP A0A0C3NPG9_9PROT/58-119 
ARRHGQEYFQQWLERQPKKVKEQVFAVDQFGRELLGRPLPEDMA...KKP A0A143HL37_9GAMM/57-121 
TRRHGPESFRFWLERQPVEARDRIYAIDRSGAEILDRPIPRGMA...NKP A0A0X3UC67_9GAMM/57-121 
AINRNTQQLTQDLRAMPNWSLRFVYIVDRNNQDLLKRPLPPGIM...NRK B3PFT7_CELJU/62-126 
AVNATEREFTERIRTLPHWARRNVFVLDSQGFEIFDRELPSPVA...NRT K4KEM7_SIMAS/61-125
>>>

हम संरेखण (SeqRecord) को संरेखण में और साथ ही नीचे भी देख सकते हैं -

>>> for align in alignment: 
... print(align.seq) 
... 
MQNTPAERLPAIIEKAKSKHDINVWLLDRQGRDLLEQRVPAKVATVANQLRGRKRRAFARHREGP 
AKQRGIAGLEEWLHRLDHSEAIPIFLIDEAGKDLLEREVPADITA---RLDRRREHGEHGVRKKP 
ARRHGQEYFQQWLERQPKKVKEQVFAVDQFGRELLGRPLPEDMAPMLIALNYRNRESHAQVDKKP 
TRRHGPESFRFWLERQPVEARDRIYAIDRSGAEILDRPIPRGMAPLFKVLSFRNREDQGLVNNKP 
AINRNTQQLTQDLRAMPNWSLRFVYIVDRNNQDLLKRPLPPGIMVLAPRLTAKHPYDKVQDRNRK 
AVNATEREFTERIRTLPHWARRNVFVLDSQGFEIFDRELPSPVADLMRKLDLDRPFKKLERKNRT 
>>>

एकाधिक संरेखण

सामान्य तौर पर, अधिकांश अनुक्रम संरेखण फ़ाइलों में एकल संरेखण डेटा होता है और यह उपयोग करने के लिए पर्याप्त है readइसे पार्स करने की विधि। कई अनुक्रम संरेखण अवधारणा में, दो या दो से अधिक अनुक्रमों की तुलना उनके बीच के सर्वश्रेष्ठ परिणाम मिलानों के लिए की जाती है और एक ही फ़ाइल में कई अनुक्रम संरेखण में परिणाम होते हैं।

यदि इनपुट अनुक्रम संरेखण प्रारूप में एक से अधिक अनुक्रम संरेखण शामिल हैं, तो हमें उपयोग करने की आवश्यकता है parse के बजाय विधि read नीचे बताए अनुसार विधि -

>>> from Bio import AlignIO 
>>> alignments = AlignIO.parse(open("PF18225_seed.txt"), "stockholm") 
>>> print(alignments) 
<generator object parse at 0x000001CD1C7E0360> 
>>> for alignment in alignments: 
... print(alignment) 
... 
SingleLetterAlphabet() alignment with 6 rows and 65 columns 
MQNTPAERLPAIIEKAKSKHDINVWLLDRQGRDLLEQRVPAKVA...EGP B7RZ31_9GAMM/59-123 
AKQRGIAGLEEWLHRLDHSEAIPIFLIDEAGKDLLEREVPADIT...KKP A0A0C3NPG9_9PROT/58-119 
ARRHGQEYFQQWLERQPKKVKEQVFAVDQFGRELLGRPLPEDMA...KKP A0A143HL37_9GAMM/57-121 
TRRHGPESFRFWLERQPVEARDRIYAIDRSGAEILDRPIPRGMA...NKP A0A0X3UC67_9GAMM/57-121 
AINRNTQQLTQDLRAMPNWSLRFVYIVDRNNQDLLKRPLPPGIM...NRK B3PFT7_CELJU/62-126 
AVNATEREFTERIRTLPHWARRNVFVLDSQGFEIFDRELPSPVA...NRT K4KEM7_SIMAS/61-125
>>>

यहाँ, पार्स विधि पुनरावृत्ति संरेखण वस्तु देता है और इसे वास्तविक संरेखण प्राप्त करने के लिए पुनरावृत्त किया जा सकता है।

पेयरवाइज सीक्वेंस एलाइनमेंट

Pairwise sequence alignment एक समय में केवल दो अनुक्रमों की तुलना करता है और सर्वोत्तम संभव अनुक्रम संरेखण प्रदान करता है। Pairwise परिणामी अनुक्रम संरेखण से अनुमान लगाना और समझना आसान है।

बायोपथॉन एक विशेष मॉड्यूल प्रदान करता है, Bio.pairwise2युग्मक विधि का उपयोग करके संरेखण अनुक्रम की पहचान करना। बायोपथॉन संरेखण अनुक्रम को खोजने के लिए सबसे अच्छा एल्गोरिथ्म लागू करता है और यह अन्य सॉफ़्टवेयर के बराबर है।

आइए हम युग्म के मॉड्यूल का उपयोग करके दो सरल और काल्पनिक अनुक्रमों के अनुक्रम संरेखण को खोजने के लिए एक उदाहरण लिखते हैं। इससे हमें अनुक्रम संरेखण की अवधारणा को समझने में मदद मिलेगी और बायोप्थॉन का उपयोग करके इसे कैसे प्रोग्राम किया जा सकता है।

चरण 1

मॉड्यूल आयात करें pairwise2 नीचे दिए गए आदेश के साथ -

>>> from Bio import pairwise2

चरण 2

दो क्रम बनाएँ, seq1 और seq2 -

>>> from Bio.Seq import Seq 
>>> seq1 = Seq("ACCGGT") 
>>> seq2 = Seq("ACGT")

चरण 3

नीचे दिए गए कोड का उपयोग करके संरेखण को खोजने के लिए seq1 और seq2 के साथ युग्म पद्धति call.gign.globalxx को कॉल करें -

>>> alignments = pairwise2.align.globalxx(seq1, seq2)

यहाँ, globalxxविधि वास्तविक कार्य करती है और दिए गए अनुक्रमों में सभी सर्वोत्तम संभव संरेखण पाती है। वास्तव में, Bio.pairwise2 विभिन्न तरीकों का एक सेट प्रदान करता है जो विभिन्न परिदृश्यों में संरेखण खोजने के लिए नीचे के सम्मेलन का अनुसरण करता है।

<sequence alignment type>XY

यहां, अनुक्रम संरेखण प्रकार संरेखण प्रकार को संदर्भित करता है जो वैश्विक या स्थानीय हो सकता है वैश्विक प्रकार पूरे अनुक्रम को ध्यान में रखकर अनुक्रम संरेखण का पता लगा रहा है। स्थानीय प्रकार दिए गए क्रमों के सबसेट को देख कर अनुक्रम संरेखण का पता लगा रहा है। यह थकाऊ होगा लेकिन दिए गए अनुक्रमों के बीच समानता के बारे में बेहतर विचार प्रदान करता है।

  • X का अर्थ मैचिंग स्कोर से है। संभावित मान x (सटीक मिलान), m (समान वर्णों पर आधारित स्कोर), d (उपयोगकर्ता वर्ण और मिलान स्कोर के साथ शब्दकोश प्रदान किया गया है) और अंत में c (कस्टम स्कोरिंग एल्गोरिदम प्रदान करने के लिए उपयोगकर्ता परिभाषित फ़ंक्शन)।

  • Y का अर्थ गैप पेनल्टी है। संभावित मान x (नो गैप पेनल्टी) हैं, एस (दोनों अनुक्रमों के लिए समान दंड), डी (प्रत्येक अनुक्रम के लिए अलग-अलग दंड) और अंत में सी (कस्टम अंतर दंड प्रदान करने के लिए उपयोगकर्ता परिभाषित फ़ंक्शन)

तो, लोकल भी एक मान्य विधि है, जो स्थानीय संरेखण तकनीक का उपयोग करके अनुक्रम संरेखण का पता लगाता है, उपयोगकर्ता मैचों के लिए शब्दकोश प्रदान करता है और उपयोगकर्ता दोनों अनुक्रमों के लिए अंतर दंड प्रदान करता है।

>>> test_alignments = pairwise2.align.localds(seq1, seq2, blosum62, -10, -1)

यहाँ, blosum62 एक डिक्शनरी को उपलब्ध कराने के लिएक्शन वाइज 2 मॉड्यूल में उपलब्ध है। -10 अंतर दंड को संदर्भित करता है और -1 अंतर अंतराल दंड को संदर्भित करता है।

चरण 4

चलने योग्य संरेखण ऑब्जेक्ट पर लूप करें और प्रत्येक व्यक्तिगत संरेखण ऑब्जेक्ट प्राप्त करें और इसे प्रिंट करें।

>>> for alignment in alignments: 
... print(alignment) 
... 
('ACCGGT', 'A-C-GT', 4.0, 0, 6) 
('ACCGGT', 'AC--GT', 4.0, 0, 6) 
('ACCGGT', 'A-CG-T', 4.0, 0, 6) 
('ACCGGT', 'AC-G-T', 4.0, 0, 6)

चरण 5

Bio.pairwise2 मॉड्यूल बेहतर परिणाम देने के लिए एक स्वरूपण विधि, format_alignment प्रदान करता है -

>>> from Bio.pairwise2 import format_alignment 
>>> alignments = pairwise2.align.globalxx(seq1, seq2) 
>>> for alignment in alignments: 
... print(format_alignment(*alignment)) 
...

ACCGGT 
| | || 
A-C-GT 
   Score=4 
   
ACCGGT 
|| || 
AC--GT 
   Score=4 

ACCGGT 
| || | 
A-CG-T 
   Score=4 

ACCGGT 
|| | | 
AC-G-T 
   Score=4

>>>

बायोपथॉन अनुक्रम संरेखण, संरेखित करने के लिए एक और मॉड्यूल भी प्रदान करता है। यह मॉड्यूल बस एल्गोरिदम, पैरामीटर, मैच स्कोर, गैप पेनल्टी आदि जैसे पैरामीटर की सेटिंग के लिए एपीआई का एक अलग सेट प्रदान करता है, संरेखित वस्तु में एक साधारण रूप निम्नानुसार है -

>>> from Bio import Align
>>> aligner = Align.PairwiseAligner()
>>> print(aligner)
Pairwise sequence aligner with parameters
   match score: 1.000000
   mismatch score: 0.000000
   target open gap score: 0.000000
   target extend gap score: 0.000000
   target left open gap score: 0.000000
   target left extend gap score: 0.000000
   target right open gap score: 0.000000
   target right extend gap score: 0.000000
   query open gap score: 0.000000
   query extend gap score: 0.000000
   query left open gap score: 0.000000
   query left extend gap score: 0.000000
   query right open gap score: 0.000000
   query right extend gap score: 0.000000
   mode: global
>>>

अनुक्रम संरेखण उपकरण के लिए समर्थन

Biopython Bio.Align.Applications मॉड्यूल के माध्यम से बहुत सारे अनुक्रम संरेखण उपकरण को इंटरफ़ेस प्रदान करता है। कुछ उपकरण नीचे सूचीबद्ध हैं -

  • ClustalW
  • MUSCLE
  • EMBOSS सुई और पानी

आइए सबसे लोकप्रिय संरेखण उपकरण, ClustalW के माध्यम से अनुक्रम संरेखण बनाने के लिए Biopython में एक सरल उदाहरण लिखते हैं।

Step 1 - से Clustalw प्रोग्राम डाउनलोड करें http://www.clustal.org/download/current/और इसे स्थापित करें। इसके अलावा, सिस्टम पथ को "क्लस्टर" इंस्टॉलेशन पथ के साथ अपडेट करें।

Step 2 - मॉड्यूल Bio.Align.Applications से ClustalwCommanLine आयात करें।

>>> from Bio.Align.Applications import ClustalwCommandline

Step 3 - इनपुट फाइल के साथ ClustalwCommanLine पर कॉल करके cmd सेट करें, Biopython पैकेज में उपलब्ध opuntia.fasta। https://raw.githubusercontent.com/biopython/biopython/master/Doc/examples/opuntia.fasta

>>> cmd = ClustalwCommandline("clustalw2",
infile="/path/to/biopython/sample/opuntia.fasta")
>>> print(cmd)
clustalw2 -infile=fasta/opuntia.fasta

Step 4 - कॉलिंग सीएमडी () क्लॉस्टल कमांड को चलाएगा और परिणामी संरेखण फ़ाइल, ओपंटिया .aln का आउटपुट देगा।

>>> stdout, stderr = cmd()

Step 5 - नीचे संरेखण फ़ाइल को पढ़ें और प्रिंट करें -

>>> from Bio import AlignIO
>>> align = AlignIO.read("/path/to/biopython/sample/opuntia.aln", "clustal")
>>> print(align)
SingleLetterAlphabet() alignment with 7 rows and 906 columns
TATACATTAAAGAAGGGGGATGCGGATAAATGGAAAGGCGAAAG...AGA
gi|6273285|gb|AF191659.1|AF191
TATACATTAAAGAAGGGGGATGCGGATAAATGGAAAGGCGAAAG...AGA
gi|6273284|gb|AF191658.1|AF191
TATACATTAAAGAAGGGGGATGCGGATAAATGGAAAGGCGAAAG...AGA
gi|6273287|gb|AF191661.1|AF191
TATACATAAAAGAAGGGGGATGCGGATAAATGGAAAGGCGAAAG...AGA
gi|6273286|gb|AF191660.1|AF191
TATACATTAAAGGAGGGGGATGCGGATAAATGGAAAGGCGAAAG...AGA
gi|6273290|gb|AF191664.1|AF191
TATACATTAAAGGAGGGGGATGCGGATAAATGGAAAGGCGAAAG...AGA
gi|6273289|gb|AF191663.1|AF191
TATACATTAAAGGAGGGGGATGCGGATAAATGGAAAGGCGAAAG...AGA
gi|6273291|gb|AF191665.1|AF191
>>>

BLAST खड़ा है Basic Local Alignment Search Tool। यह जैविक अनुक्रमों के बीच समानता के क्षेत्र पाता है। बायोपथॉन NCBI ऑपरेशन से निपटने के लिए बायो.ब्लास्ट मॉड्यूल प्रदान करता है। आप BLAST को स्थानीय कनेक्शन या इंटरनेट कनेक्शन पर चला सकते हैं।

आइए इन दो कनेक्शनों को संक्षेप में निम्न अनुभाग में समझते हैं -

इंटरनेट पर चल रहा है

Biopython BLAST के ऑनलाइन संस्करण को कॉल करने के लिए Bio.Blast.NCBIWWW मॉड्यूल प्रदान करता है। ऐसा करने के लिए, हमें निम्नलिखित मॉड्यूल को आयात करना होगा -

>>> from Bio.Blast import NCBIWWW

NCBIWW मॉड्यूल BLAST ऑनलाइन संस्करण को क्वेरी करने के लिए qblast फ़ंक्शन प्रदान करता है, https://blast.ncbi.nlm.nih.gov/Blast.cgi। qblast ऑनलाइन संस्करण द्वारा समर्थित सभी मापदंडों का समर्थन करता है।

इस मॉड्यूल के बारे में कोई सहायता प्राप्त करने के लिए, नीचे दिए गए कमांड का उपयोग करें और सुविधाओं को समझें -

>>> help(NCBIWWW.qblast) 
Help on function qblast in module Bio.Blast.NCBIWWW: 
qblast(
   program, database, sequence, 
   url_base = 'https://blast.ncbi.nlm.nih.gov/Blast.cgi', 
   auto_format = None, 
   composition_based_statistics = None, 
   db_genetic_code =  None, 
   endpoints = None, 
   entrez_query = '(none)', 
   expect = 10.0, 
   filter = None, 
   gapcosts = None, 
   genetic_code = None, 
   hitlist_size = 50, 
   i_thresh = None, 
   layout = None, 
   lcase_mask = None, 
   matrix_name = None, 
   nucl_penalty = None, 
   nucl_reward = None, 
   other_advanced = None, 
   perc_ident = None, 
   phi_pattern = None, 
   query_file = None, 
   query_believe_defline = None, 
   query_from = None, 
   query_to = None, 
   searchsp_eff = None, 
   service = None, 
   threshold = None, 
   ungapped_alignment = None, 
   word_size = None, 
   alignments = 500, 
   alignment_view = None, 
   descriptions = 500, 
   entrez_links_new_window = None, 
   expect_low = None, 
   expect_high = None, 
   format_entrez_query = None, 
   format_object = None, 
   format_type = 'XML', 
   ncbi_gi = None, 
   results_file = None, 
   show_overview = None, 
   megablast = None, 
   template_type = None, 
   template_length = None
) 
   
   BLAST search using NCBI's QBLAST server or a cloud service provider. 
   
   Supports all parameters of the qblast API for Put and Get. 
   
   Please note that BLAST on the cloud supports the NCBI-BLAST Common 
   URL API (http://ncbi.github.io/blast-cloud/dev/api.html). 
   To use this feature, please set url_base to 'http://host.my.cloud.service.provider.com/cgi-bin/blast.cgi' and 
   format_object = 'Alignment'. For more details, please see 8. Biopython – Overview of BLAST
   
https://blast.ncbi.nlm.nih.gov/Blast.cgi?PAGE_TYPE = BlastDocs&DOC_TYPE = CloudBlast 
   
   Some useful parameters: 
   
   - program blastn, blastp, blastx, tblastn, or tblastx (lower case) 
   - database Which database to search against (e.g. "nr"). 
   - sequence The sequence to search. 
   - ncbi_gi TRUE/FALSE whether to give 'gi' identifier. 
   - descriptions Number of descriptions to show. Def 500. 
   - alignments Number of alignments to show. Def 500. 
   - expect An expect value cutoff. Def 10.0. 
   - matrix_name Specify an alt. matrix (PAM30, PAM70, BLOSUM80, BLOSUM45). 
   - filter "none" turns off filtering. Default no filtering 
   - format_type "HTML", "Text", "ASN.1", or "XML". Def. "XML". 
   - entrez_query Entrez query to limit Blast search 
   - hitlist_size Number of hits to return. Default 50 
   - megablast TRUE/FALSE whether to use MEga BLAST algorithm (blastn only) 
   - service plain, psi, phi, rpsblast, megablast (lower case) 
   
   This function does no checking of the validity of the parameters 
   and passes the values to the server as is. More help is available at: 
   https://ncbi.github.io/blast-cloud/dev/api.html

आमतौर पर, qblast फ़ंक्शन के तर्क मूल रूप से विभिन्न मापदंडों के अनुरूप होते हैं जिन्हें आप BLAST वेब पेज पर सेट कर सकते हैं। यह qblast फ़ंक्शन को समझने में आसान बनाता है और साथ ही इसका उपयोग करने के लिए सीखने की अवस्था को कम करता है।

कनेक्ट करना और खोजना

BLAST ऑनलाइन संस्करण को जोड़ने और खोजने की प्रक्रिया को समझने के लिए, आइए हम Biopython के माध्यम से ऑनलाइन BLAST सर्वर के खिलाफ एक सरल अनुक्रम खोज (हमारे स्थानीय अनुक्रम फ़ाइल में उपलब्ध) करते हैं।

Step 1 - नाम की एक फाइल बनाएं blast_example.fasta Biopython निर्देशिका में और इनपुट के रूप में नीचे अनुक्रम जानकारी दे

Example of a single sequence in FASTA/Pearson format: 
>sequence A ggtaagtcctctagtacaaacacccccaatattgtgatataattaaaattatattcatat
tctgttgccagaaaaaacacttttaggctatattagagccatcttctttgaagcgttgtc 

>sequence B ggtaagtcctctagtacaaacacccccaatattgtgatataattaaaattatattca
tattctgttgccagaaaaaacacttttaggctatattagagccatcttctttgaagcgttgtc

Step 2 - NCBIWWW मॉड्यूल आयात करें।

>>> from Bio.Blast import NCBIWWW

Step 3 - अनुक्रम फ़ाइल खोलें, blast_example.fasta अजगर IO मॉड्यूल का उपयोग करना।

>>> sequence_data = open("blast_example.fasta").read() 
>>> sequence_data 
'Example of a single sequence in FASTA/Pearson format:\n\n\n> sequence 
A\nggtaagtcctctagtacaaacacccccaatattgtgatataattaaaatt 
atattcatat\ntctgttgccagaaaaaacacttttaggctatattagagccatcttctttg aagcgttgtc\n\n'

Step 4- अब, qblast फ़ंक्शन पासिंग अनुक्रम डेटा को मुख्य पैरामीटर के रूप में कॉल करें। अन्य पैरामीटर डेटाबेस (एनटी) और आंतरिक कार्यक्रम (ब्लास्ट) का प्रतिनिधित्व करता है।

>>> result_handle = NCBIWWW.qblast("blastn", "nt", sequence_data) 
>>> result_handle 
<_io.StringIO object at 0x000001EC9FAA4558>

blast_resultsहमारी खोज का परिणाम है। यह बाद में उपयोग के लिए एक फ़ाइल में सहेजा जा सकता है और विवरण प्राप्त करने के लिए पार्स किया गया है। हम आने वाले सेक्शन में इसे करना सीखेंगे।

Step 5 - समान फंक्शन का उपयोग सीक ऑब्जेक्ट के साथ-साथ नीचे दिखाए गए अनुसार पूरी फास्टा फ़ाइल का उपयोग करके किया जा सकता है -

>>> from Bio import SeqIO 
>>> seq_record = next(SeqIO.parse(open('blast_example.fasta'),'fasta')) 
>>> seq_record.id 
'sequence' 
>>> seq_record.seq 
Seq('ggtaagtcctctagtacaaacacccccaatattgtgatataattaaaattatat...gtc', 
SingleLetterAlphabet())

अब, Qqast फंक्शन पासिंग Seq ऑब्जेक्ट को कॉल करें, मुख्य पैरामीटर के रूप में record.seq।

>>> result_handle = NCBIWWW.qblast("blastn", "nt", seq_record.seq) 
>>> print(result_handle) 
<_io.StringIO object at 0x000001EC9FAA4558>

BLAST आपके अनुक्रम के लिए एक पहचानकर्ता को स्वचालित रूप से असाइन करेगा।

Step 6 - result_handle ऑब्जेक्ट में संपूर्ण परिणाम होगा और बाद में उपयोग के लिए फ़ाइल में सहेजा जा सकता है।

>>> with open('results.xml', 'w') as save_file: 
>>>   blast_results = result_handle.read() 
>>>   save_file.write(blast_results)

हम देखेंगे कि परिणाम फ़ाइल को बाद के अनुभाग में पार्स कैसे करें।

रनिंग स्टैंडअलोन ब्लास्ट

यह खंड स्थानीय प्रणाली में BLAST चलाने के तरीके के बारे में बताता है। यदि आप स्थानीय प्रणाली में BLAST चलाते हैं, तो यह तेज़ हो सकता है और आपको अनुक्रमों के विरुद्ध खोज करने के लिए अपना डेटाबेस बनाने की अनुमति भी देता है।

ब्लास्ट कनेक्ट कर रहा है

सामान्य तौर पर, स्थानीय रूप से BLAST चलाने की अनुशंसा इसके बड़े आकार, सॉफ़्टवेयर को चलाने के लिए आवश्यक अतिरिक्त प्रयास और शामिल लागत के कारण नहीं की जाती है। बुनियादी और उन्नत उद्देश्यों के लिए ऑनलाइन ब्लास्ट पर्याप्त है। बेशक, कभी-कभी आपको इसे स्थानीय रूप से स्थापित करने की आवश्यकता हो सकती है।

विचार करें कि आप लगातार ऑनलाइन खोज कर रहे हैं जिसके लिए बहुत समय और उच्च नेटवर्क मात्रा की आवश्यकता हो सकती है और यदि आपके पास मालिकाना अनुक्रम डेटा या आईपी से संबंधित समस्याएं हैं, तो इसे स्थानीय स्तर पर स्थापित करने की सिफारिश की जाती है।

ऐसा करने के लिए, हमें निम्न चरणों का पालन करने की आवश्यकता है -

Step 1- दिए गए लिंक का उपयोग करके नवीनतम ब्लास्ट बाइनरी डाउनलोड और इंस्टॉल करें - ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/

Step 2- नीचे दिए गए लिंक का उपयोग करके नवीनतम और आवश्यक डेटाबेस को डाउनलोड और अनपैक करें - ftp://ftp.ncbi.nlm.nih.gov/blast/db/

BLAST सॉफ्टवेयर अपनी साइट में बहुत सारे डेटाबेस प्रदान करता है। आइए हम ब्लास्ट डेटाबेस साइट से alu.n.gz फ़ाइल डाउनलोड करें और इसे alu फ़ोल्डर में अनपैक करें। यह फ़ाइल FASTA प्रारूप में है। हमारे ब्लास्ट एप्लिकेशन में इस फ़ाइल का उपयोग करने के लिए, हमें पहले फ़ाइल को FASTA प्रारूप से ब्लास्ट डेटाबेस प्रारूप में बदलना होगा। इस रूपांतरण को करने के लिए BLAST मेकब्लस्टडीबी एप्लिकेशन प्रदान करता है।

नीचे दिए गए कोड स्निपेट का उपयोग करें -

cd /path/to/alu 
makeblastdb -in alu.n -parse_seqids -dbtype nucl -out alun

ऊपर दिए गए कोड को चलाने से इनपुट फ़ाइल, alu.n हो जाएगी और कई फ़ाइलों के रूप में BLAST डेटाबेस बन जाएगा। alun.nsq, alun.nsi, आदि। अब, हम अनुक्रम खोजने के लिए इस डेटाबेस को क्वेरी कर सकते हैं।

हमने अपने स्थानीय सर्वर में BLAST स्थापित किया है और नमूना BLAST डेटाबेस भी है, alun इसके खिलाफ सवाल करना।

Step 3- डेटाबेस को क्वेरी करने के लिए एक नमूना अनुक्रम फ़ाइल बनाते हैं। एक फ़ाइल search.fsa बनाएँ और उसमें नीचे डेटा डालें।

>gnl|alu|Z15030_HSAL001056 (Alu-J) 
AGGCTGGCACTGTGGCTCATGCTGAAATCCCAGCACGGCGGAGGACGGCGGAAGATTGCT 
TGAGCCTAGGAGTTTGCGACCAGCCTGGGTGACATAGGGAGATGCCTGTCTCTACGCAAA 
AGAAAAAAAAAATAGCTCTGCTGGTGGTGCATGCCTATAGTCTCAGCTATCAGGAGGCTG 
GGACAGGAGGATCACTTGGGCCCGGGAGTTGAGGCTGTGGTGAGCCACGATCACACCACT 
GCACTCCAGCCTGGGTGACAGAGCAAGACCCTGTCTCAAAACAAACAAATAA 
>gnl|alu|D00596_HSAL003180 (Alu-Sx) 
AGCCAGGTGTGGTGGCTCACGCCTGTAATCCCACCGCTTTGGGAGGCTGAGTCAGATCAC 
CTGAGGTTAGGAATTTGGGACCAGCCTGGCCAACATGGCGACACCCCAGTCTCTACTAAT 
AACACAAAAAATTAGCCAGGTGTGCTGGTGCATGTCTGTAATCCCAGCTACTCAGGAGGC 
TGAGGCATGAGAATTGCTCACGAGGCGGAGGTTGTAGTGAGCTGAGATCGTGGCACTGTA
CTCCAGCCTGGCGACAGAGGGAGAACCCATGTCAAAAACAAAAAAAGACACCACCAAAGG 
TCAAAGCATA 
>gnl|alu|X55502_HSAL000745 (Alu-J) 
TGCCTTCCCCATCTGTAATTCTGGCACTTGGGGAGTCCAAGGCAGGATGATCACTTATGC 
CCAAGGAATTTGAGTACCAAGCCTGGGCAATATAACAAGGCCCTGTTTCTACAAAAACTT 
TAAACAATTAGCCAGGTGTGGTGGTGCGTGCCTGTGTCCAGCTACTCAGGAAGCTGAGGC 
AAGAGCTTGAGGCTACAGTGAGCTGTGTTCCACCATGGTGCTCCAGCCTGGGTGACAGGG 
CAAGACCCTGTCAAAAGAAAGGAAGAAAGAACGGAAGGAAAGAAGGAAAGAAACAAGGAG 
AG

अनुक्रम डेटा को alu.n फ़ाइल से इकट्ठा किया जाता है; इसलिए, यह हमारे डेटाबेस से मेल खाता है।

Step 4 - BLAST सॉफ्टवेयर डेटाबेस को खोजने के लिए कई एप्लिकेशन प्रदान करता है और हम ब्लास्ट का उपयोग करते हैं। blastn application requires minimum of three arguments, db, query and out. db खोज के खिलाफ डेटाबेस को संदर्भित करता है; query मैच के लिए अनुक्रम है और outपरिणामों को संग्रहीत करने के लिए फ़ाइल है। अब, इस सरल क्वेरी को करने के लिए नीचे कमांड चलाएँ -

blastn -db alun -query search.fsa -out results.xml -outfmt 5

ऊपर दिए गए कमांड को चलाने से सर्च और आउटपुट मिलेगा results.xml फ़ाइल नीचे दी गई है (आंशिक रूप से डेटा) -

<?xml version = "1.0"?> 
<!DOCTYPE BlastOutput PUBLIC "-//NCBI//NCBI BlastOutput/EN" 
   "http://www.ncbi.nlm.nih.gov/dtd/NCBI_BlastOutput.dtd">
<BlastOutput> 
   <BlastOutput_program>blastn</BlastOutput_program> 
   <BlastOutput_version>BLASTN 2.7.1+</BlastOutput_version> 
   <BlastOutput_reference>Zheng Zhang, Scott Schwartz, Lukas Wagner, and Webb 
      Miller (2000), "A greedy algorithm for aligning DNA sequences", J 
      Comput Biol 2000; 7(1-2):203-14.
   </BlastOutput_reference> 
   
   <BlastOutput_db>alun</BlastOutput_db> 
   <BlastOutput_query-ID>Query_1</BlastOutput_query-ID> 
   <BlastOutput_query-def>gnl|alu|Z15030_HSAL001056 (Alu-J)</BlastOutput_query-def>
   <BlastOutput_query-len>292</BlastOutput_query-len> 
   <BlastOutput_param> 
      <Parameters> 
         <Parameters_expect>10</Parameters_expect> 
         <Parameters_sc-match>1</Parameters_sc-match> 
         <Parameters_sc-mismatch>-2</Parameters_sc-mismatch> 
         <Parameters_gap-open>0</Parameters_gap-open> 
         <Parameters_gap-extend>0</Parameters_gap-extend> 
         <Parameters_filter>L;m;</Parameters_filter> 
      </Parameters> 
   </BlastOutput_param> 
   <BlastOutput_iterations> 
      <Iteration> 
         <Iteration_iter-num>1</Iteration_iter-num><Iteration_query-ID>Query_1</Iteration_query-ID> 
         <Iteration_query-def>gnl|alu|Z15030_HSAL001056 (Alu-J)</Iteration_query-def> 
         <Iteration_query-len>292</Iteration_query-len> 
         <Iteration_hits> 
         <Hit>
            <Hit_num>1</Hit_num> 
            <Hit_id>gnl|alu|Z15030_HSAL001056</Hit_id> 
            <Hit_def>(Alu-J)</Hit_def> 
            <Hit_accession>Z15030_HSAL001056</Hit_accession> 
            <Hit_len>292</Hit_len>
            <Hit_hsps> 
               <Hsp>
                 <Hsp_num>1</Hsp_num> 
                  <Hsp_bit-score>540.342</Hsp_bit-score> 
                  <Hsp_score>292</Hsp_score>
                  <Hsp_evalue>4.55414e-156</Hsp_evalue> 
                  <Hsp_query-from>1</Hsp_query-from>
                  <Hsp_query-to>292</Hsp_query-to> 
                  <Hsp_hit-from>1</Hsp_hit-from> 
                  <Hsp_hit-to>292</Hsp_hit-to> 
                  <Hsp_query-frame>1</Hsp_query-frame>
                  <Hsp_hit-frame>1</Hsp_hit-frame>
                  <Hsp_identity>292</Hsp_identity>
                  <Hsp_positive>292</Hsp_positive> 
                  <Hsp_gaps>0</Hsp_gaps> 
                  <Hsp_align-len>292</Hsp_align-len>
                  
                  <Hsp_qseq>
                     AGGCTGGCACTGTGGCTCATGCTGAAATCCCAGCACGGCGGAGGACGGCGGAAGATTGCTTGAGCCTAGGAGTTTG
                     CGACCAGCCTGGGTGACATAGGGAGATGCCTGTCTCTACGCAAAAGAAAAAAAAAATAGCTCTGCTGGTGGTGCATG
                     CCTATAGTCTCAGCTATCAGGAGGCTGGGACAGGAGGATCACTTGGGCCCGGGAGTTGAGGCTGTGGTGAGCC
                     ACGATCACACCACTGCACTCCAGCCTGGGTGACAGAGCAAGACCCTGTCTCAAAACAAACAAATAA
                  </Hsp_qseq> 

                  <Hsp_hseq>
                     AGGCTGGCACTGTGGCTCATGCTGAAATCCCAGCACGGCGGAGGACGGCGGAAGATTGCTTGAGCCTAGGA
                     GTTTGCGACCAGCCTGGGTGACATAGGGAGATGCCTGTCTCTACGCAAAAGAAAAAAAAAATAGCTCTGCT
                     GGTGGTGCATGCCTATAGTCTCAGCTATCAGGAGGCTGGGACAGGAGGATCACTTGGGCCCGGGAGTTGAGG
                     CTGTGGTGAGCCACGATCACACCACTGCACTCCAGCCTGGGTGACAGAGCAAGACCCTGTCTCAAAACAAAC
                     AAATAA
                  </Hsp_hseq>

                  <Hsp_midline>
                     |||||||||||||||||||||||||||||||||||||||||||||||||||||
                     |||||||||||||||||||||||||||||||||||||||||||||||||||||
                     |||||||||||||||||||||||||||||||||||||||||||||||||||||
                     |||||||||||||||||||||||||||||||||||||||||||||||||||||
                     |||||||||||||||||||||||||||||||||||||||||||||||||||||
                     |||||||||||||||||||||||||||
                  </Hsp_midline>
               </Hsp> 
            </Hit_hsps>
         </Hit>
         ......................... 
         ......................... 
         ......................... 
         </Iteration_hits> 
         <Iteration_stat> 
            <Statistics> 
               <Statistics_db-num>327</Statistics_db-num> 
               <Statistics_db-len>80506</Statistics_db-len> 
               <Statistics_hsp-lenv16</Statistics_hsp-len> 
               <Statistics_eff-space>21528364</Statistics_eff-space> 
               <Statistics_kappa>0.46</Statistics_kappa> 
               <Statistics_lambda>1.28</Statistics_lambda> 
               <Statistics_entropy>0.85</Statistics_entropy>
            </Statistics>
         </Iteration_stat>
      </Iteration> 
   </BlastOutput_iterations>
</BlastOutput>

उपरोक्त कमांड को नीचे दिए गए कोड का उपयोग करके अजगर के अंदर चलाया जा सकता है -

>>> from Bio.Blast.Applications import NcbiblastnCommandline 
>>> blastn_cline = NcbiblastnCommandline(query = "search.fasta", db = "alun", 
outfmt = 5, out = "results.xml") 
>>> stdout, stderr = blastn_cline()

यहां, पहला एक ब्लास्ट आउटपुट के लिए एक हैंडल है और दूसरा ब्लास्ट कमांड द्वारा उत्पन्न संभावित त्रुटि आउटपुट है।

चूंकि हमने आउटपुट फ़ाइल को कमांड लाइन तर्क (आउट = "results.xml") के रूप में प्रदान किया है और आउटपुट फॉर्मेट को एक्सएमएल (आउटकम = 5) के रूप में सेट करता है, आउटपुट फ़ाइल वर्तमान कार्यशील निर्देशिका में सहेजी जाएगी।

पार्सिंग ब्लास्ट परिणाम

आमतौर पर, BLAST आउटपुट NCBIXML मॉड्यूल का उपयोग करके XML प्रारूप के रूप में पार्स किया जाता है। ऐसा करने के लिए, हमें निम्नलिखित मॉड्यूल को आयात करना होगा -

>>> from Bio.Blast import NCBIXML

अभी, open the file directly using python open method तथा use NCBIXML parse method जैसा कि नीचे दिया गया है -

>>> E_VALUE_THRESH = 1e-20 
>>> for record in NCBIXML.parse(open("results.xml")): 
>>>     if record.alignments: 
>>>        print("\n") 
>>>        print("query: %s" % record.query[:100]) 
>>>        for align in record.alignments: 
>>>           for hsp in align.hsps: 
>>>              if hsp.expect < E_VALUE_THRESH: 
>>>                 print("match: %s " % align.title[:100])

यह निम्नानुसार एक उत्पादन का उत्पादन करेगा -

query: gnl|alu|Z15030_HSAL001056 (Alu-J) 
match: gnl|alu|Z15030_HSAL001056 (Alu-J) 
match: gnl|alu|L12964_HSAL003860 (Alu-J) 
match: gnl|alu|L13042_HSAL003863 (Alu-FLA?) 
match: gnl|alu|M86249_HSAL001462 (Alu-FLA?) 
match: gnl|alu|M29484_HSAL002265 (Alu-J) 

query: gnl|alu|D00596_HSAL003180 (Alu-Sx) 
match: gnl|alu|D00596_HSAL003180 (Alu-Sx) 
match: gnl|alu|J03071_HSAL001860 (Alu-J) 
match: gnl|alu|X72409_HSAL005025 (Alu-Sx) 

query: gnl|alu|X55502_HSAL000745 (Alu-J) 
match: gnl|alu|X55502_HSAL000745 (Alu-J)

Entrezएनसीबीआई द्वारा प्रदान की गई एक ऑनलाइन खोज प्रणाली है। यह बूलियन ऑपरेटरों और क्षेत्र खोज का समर्थन करने वाली एक एकीकृत वैश्विक क्वेरी के साथ लगभग सभी ज्ञात आणविक जीव विज्ञान डेटाबेस तक पहुंच प्रदान करता है। यह सभी डेटाबेस से जानकारी प्राप्त करता है जैसे प्रत्येक डेटाबेस से हिट की संख्या, मूल डेटाबेस से लिंक के साथ रिकॉर्ड आदि।

कुछ लोकप्रिय डेटाबेस जिन्हें एन्ट्रीज़ के माध्यम से एक्सेस किया जा सकता है, वे नीचे सूचीबद्ध हैं -

  • Pubmed
  • पबड सेंट्रल
  • न्यूक्लियोटाइड (जेनबैंक अनुक्रम डेटाबेस)
  • प्रोटीन (अनुक्रम डेटाबेस)
  • जीनोम (संपूर्ण जीनोम डेटाबेस)
  • संरचना (तीन आयामी macromolecular संरचना)
  • टैक्सोनॉमी (जेनबैंक में जीव)
  • एसएनपी (एकल न्यूक्लियोटाइड बहुरूपता)
  • यूनीजेन (जीनियन ओरिएंटेड क्लस्टर्स ऑफ ट्रांसस्क्रिप्ट अनुक्रम)
  • सीडीडी (संरक्षित प्रोटीन डोमेन डेटाबेस)
  • 3D डोमेन (एंट्रेज़ संरचना से डोमेन)

उपरोक्त डेटाबेस के अलावा, Entrez क्षेत्र खोज करने के लिए कई और डेटाबेस प्रदान करता है।

Biopython Entrez डेटाबेस तक पहुँचने के लिए एक Entrez विशिष्ट मॉड्यूल, Bio.Entrez प्रदान करता है। आइए इस अध्याय में बायोपीथॉन का उपयोग करके एंट्रेज़ तक पहुँचने का तरीका जानें -

डेटाबेस कनेक्शन चरण

Entrez की सुविधाओं को जोड़ने के लिए, निम्न मॉड्यूल को आयात करें -

>>> from Bio import Entrez

अगला आपके ईमेल को निर्धारित करने के लिए निर्धारित किया गया है कि नीचे दिए गए कोड के साथ कौन जुड़ा हुआ है -

>>> Entrez.email = '<youremail>'

फिर, Entrez टूल पैरामीटर सेट करें और डिफ़ॉल्ट रूप से, यह Biopython है।

>>> Entrez.tool = 'Demoscript'

अभी, call einfo function to find index term counts, last update, and available links for each database जैसा कि नीचे परिभाषित किया गया है -

>>> info = Entrez.einfo()

Einfo पद्धति एक वस्तु लौटाती है, जो नीचे दी गई जानकारी को पढ़ने की विधि के माध्यम से जानकारी प्रदान करती है -

>>> data = info.read() 
>>> print(data) 
<?xml version = "1.0" encoding = "UTF-8" ?>
<!DOCTYPE eInfoResult PUBLIC "-//NLM//DTD einfo 20130322//EN" 
   "https://eutils.ncbi.nlm.nih.gov/eutils/dtd/20130322/einfo.dtd"> 
<eInfoResult>
   <DbList>
      <DbName>pubmed</DbName> 
      <DbName>protein</DbName>
      <DbName>nuccore</DbName> 
      <DbName>ipg</DbName> 
      <DbName>nucleotide</DbName>
      <DbName>nucgss</DbName> 
      <DbName>nucest</DbName>
      <DbName>structure</DbName>
      <DbName>sparcle</DbName>
      <DbName>genome</DbName>
      <DbName>annotinfo</DbName>
      <DbName>assembly</DbName> 
      <DbName>bioproject</DbName>
      <DbName>biosample</DbName>
      <DbName>blastdbinfo</DbName>
      <DbName>books</DbName> 
      <DbName>cdd</DbName>
      <DbName>clinvar</DbName> 
      <DbName>clone</DbName> 
      <DbName>gap</DbName> 
      <DbName>gapplus</DbName> 
      <DbName>grasp</DbName> 
      <DbName>dbvar</DbName>
      <DbName>gene</DbName> 
      <DbName>gds</DbName> 
      <DbName>geoprofiles</DbName>
      <DbName>homologene</DbName> 
      <DbName>medgen</DbName> 
      <DbName>mesh</DbName>
      <DbName>ncbisearch</DbName> 
      <DbName>nlmcatalog</DbName>
      <DbName>omim</DbName>
      <DbName>orgtrack</DbName>
      <DbName>pmc</DbName>
      <DbName>popset</DbName>
      <DbName>probe</DbName>
      <DbName>proteinclusters</DbName>
      <DbName>pcassay</DbName>
      <DbName>biosystems</DbName> 
      <DbName>pccompound</DbName> 
      <DbName>pcsubstance</DbName> 
      <DbName>pubmedhealth</DbName> 
      <DbName>seqannot</DbName> 
      <DbName>snp</DbName> 
      <DbName>sra</DbName> 
      <DbName>taxonomy</DbName> 
      <DbName>biocollections</DbName> 
      <DbName>unigene</DbName>
      <DbName>gencoll</DbName> 
      <DbName>gtr</DbName>
   </DbList> 
</eInfoResult>

डेटा XML प्रारूप में है, और डेटा को अजगर ऑब्जेक्ट के रूप में प्राप्त करने के लिए उपयोग करें Entrez.read जैसे ही विधि Entrez.einfo() विधि लागू है -

>>> info = Entrez.einfo() 
>>> record = Entrez.read(info)

यहाँ, रिकॉर्ड एक शब्दकोश है जिसमें एक कुंजी है, डीबीएलस्ट नीचे दिखाया गया है -

>>> record.keys() 
[u'DbList']

DbList कुंजी को एक्सेस करने से नीचे दिखाए गए डेटाबेस नामों की सूची मिलती है -

>>> record[u'DbList'] 
['pubmed', 'protein', 'nuccore', 'ipg', 'nucleotide', 'nucgss', 
   'nucest', 'structure', 'sparcle', 'genome', 'annotinfo', 'assembly', 
   'bioproject', 'biosample', 'blastdbinfo', 'books', 'cdd', 'clinvar', 
   'clone', 'gap', 'gapplus', 'grasp', 'dbvar', 'gene', 'gds', 'geoprofiles', 
   'homologene', 'medgen', 'mesh', 'ncbisearch', 'nlmcatalog', 'omim', 
   'orgtrack', 'pmc', 'popset', 'probe', 'proteinclusters', 'pcassay', 
   'biosystems', 'pccompound', 'pcsubstance', 'pubmedhealth', 'seqannot', 
   'snp', 'sra', 'taxonomy', 'biocollections', 'unigene', 'gencoll', 'gtr'] 
>>>

मूल रूप से, एंट्रेज़ मॉड्यूल एक्सएमएल को एंट्रेज़ खोज प्रणाली द्वारा लौटाता है और इसे अजगर शब्दकोश और सूचियों के रूप में प्रदान करता है।

डेटाबेस खोजें

Entrez डेटाबेस में से किसी एक को खोजने के लिए हम Bio.Entrez.esearch () मॉड्यूल का उपयोग कर सकते हैं। यह नीचे परिभाषित किया गया है -

>>> info = Entrez.einfo() 
>>> info = Entrez.esearch(db = "pubmed",term = "genome") 
>>> record = Entrez.read(info) 
>>>print(record) 
DictElement({u'Count': '1146113', u'RetMax': '20', u'IdList':
['30347444', '30347404', '30347317', '30347292', 
'30347286', '30347249', '30347194', '30347187', 
'30347172', '30347088', '30347075', '30346992', 
'30346990', '30346982', '30346980', '30346969', 
'30346962', '30346954', '30346941', '30346939'], 
u'TranslationStack': [DictElement({u'Count': 
'927819', u'Field': 'MeSH Terms', u'Term': '"genome"[MeSH Terms]', 
u'Explode': 'Y'}, attributes = {})
, DictElement({u'Count': '422712', u'Field': 
'All Fields', u'Term': '"genome"[All Fields]', u'Explode': 'N'}, attributes = {}), 
'OR', 'GROUP'], u'TranslationSet': [DictElement({u'To': '"genome"[MeSH Terms] 
OR "genome"[All Fields]', u'From': 'genome'}, attributes = {})], u'RetStart': '0', 
u'QueryTranslation': '"genome"[MeSH Terms] OR "genome"[All Fields]'}, 
attributes = {})
>>>

यदि आप गलत db असाइन करते हैं तो यह वापस आ जाता है

>>> info = Entrez.esearch(db = "blastdbinfo",term = "books")
>>> record = Entrez.read(info) 
>>> print(record) 
DictElement({u'Count': '0', u'RetMax': '0', u'IdList': [], 
u'WarningList': DictElement({u'OutputMessage': ['No items found.'], 
   u'PhraseIgnored': [], u'QuotedPhraseNotFound': []}, attributes = {}), 
   u'ErrorList': DictElement({u'FieldNotFound': [], u'PhraseNotFound': 
      ['books']}, attributes = {}), u'TranslationSet': [], u'RetStart': '0', 
      u'QueryTranslation': '(books[All Fields])'}, attributes = {})

यदि आप डेटाबेस में खोज करना चाहते हैं, तो आप उपयोग कर सकते हैं Entrez.egquery। इस के समान हैEntrez.esearch सिवाय इसके कि यह कीवर्ड निर्दिष्ट करने और डेटाबेस पैरामीटर को छोड़ने के लिए पर्याप्त है।

>>>info = Entrez.egquery(term = "entrez") 
>>> record = Entrez.read(info) 
>>> for row in record["eGQueryResult"]: 
... print(row["DbName"], row["Count"]) 
... 
pubmed 458 
pmc 12779 mesh 1 
... 
... 
... 
biosample 7 
biocollections 0

रिकॉर्ड प्राप्त करें

Enterz एक विशेष विधि प्रदान करता है, Entrez से रिकॉर्ड का पूरा विवरण खोजने और डाउनलोड करने के लिए efetch। निम्नलिखित सरल उदाहरण पर विचार करें -

>>> handle = Entrez.efetch(
   db = "nucleotide", id = "EU490707", rettype = "fasta")

अब, हम बस Seqio ऑब्जेक्ट का उपयोग करके रिकॉर्ड पढ़ सकते हैं

>>> record = SeqIO.read( handle, "fasta" ) 
>>> record 
SeqRecord(seq = Seq('ATTTTTTACGAACCTGTGGAAATTTTTGGTTATGACAATAAATCTAGTTTAGTA...GAA', 
SingleLetterAlphabet()), id = 'EU490707.1', name = 'EU490707.1', 
description = 'EU490707.1 
Selenipedium aequinoctiale maturase K (matK) gene, partial cds; chloroplast', 
dbxrefs = [])

पॉलीपेप्टाइड संरचनाओं में हेरफेर करने के लिए बायोपथॉन बायोप्सी मॉड्यूल प्रदान करता है। पीडीबी (प्रोटीन डेटा बैंक) ऑनलाइन उपलब्ध सबसे बड़ा प्रोटीन संरचना संसाधन है। यह प्रोटीन, प्रोटीन, प्रोटीन-डीएनए, प्रोटीन-आरएनए परिसरों सहित कई विशिष्ट प्रोटीन संरचनाओं को होस्ट करता है।

PDB लोड करने के लिए, नीचे दी गई कमांड टाइप करें -

from Bio.PDB import *

प्रोटीन संरचना फ़ाइल प्रारूप

पीडीबी तीन अलग-अलग स्वरूपों में प्रोटीन संरचनाओं को वितरित करता है -

  • XML- आधारित फ़ाइल स्वरूप जो Biopython द्वारा समर्थित नहीं है
  • Pdb फ़ाइल स्वरूप, जो एक विशेष रूप से स्वरूपित पाठ फ़ाइल है
  • PDBx / mmCIF फ़ाइल स्वरूप

प्रोटीन डाटा बैंक द्वारा वितरित पीडीबी फाइलों में प्रारूपण संबंधी त्रुटियां हो सकती हैं जो उन्हें अस्पष्ट या पार्स करने में कठिन बनाती हैं। Bio.PDB मॉड्यूल स्वचालित रूप से इन त्रुटियों से निपटने का प्रयास करता है।

Bio.PDB मॉड्यूल दो अलग-अलग पार्सर्स को लागू करता है, एक है mmCIF प्रारूप और दूसरा है pdb प्रारूप।

आइए जानें कि प्रारूप के प्रत्येक भाग को विस्तार से कैसे लिखा जाए -

mmCIF पार्सर

नीचे कमांड का उपयोग करके pdb सर्वर से mmCIF प्रारूप में एक उदाहरण डेटाबेस डाउनलोड करें -

>>> pdbl = PDBList() 
>>> pdbl.retrieve_pdb_file('2FAT', pdir = '.', file_format = 'mmCif')

यह सर्वर से निर्दिष्ट फ़ाइल (2fat.cif) डाउनलोड करेगा और इसे वर्तमान कार्य निर्देशिका में संग्रहीत करेगा।

यहां, PDBList ऑनलाइन पीडीबी एफ़टीपी सर्वर से फ़ाइलों को सूचीबद्ध करने और डाउनलोड करने के लिए विकल्प प्रदान करता है। पुनर्प्राप्ति_pdb_file विधि को एक्सटेंशन के बिना डाउनलोड की जाने वाली फ़ाइल का नाम चाहिए। पुनर्प्राप्त_पद_फाइल में फ़ाइल की निर्देशिका, पीडीएआर और प्रारूप को डाउनलोड करने का विकल्प भी है, file_format। फ़ाइल प्रारूप के संभावित मूल्य इस प्रकार हैं -

  • "MmCif" (डिफ़ॉल्ट, PDBx / mmCif फ़ाइल)
  • "पीडीबी" (प्रारूप पीडीबी)
  • "Xml" (PMDML / XML प्रारूप)
  • "एमएमटीएफ" (अत्यधिक संकुचित)
  • "बंडल" (बड़ी संरचना के लिए पीडीबी स्वरूपित संग्रह)

सीआईएफ फ़ाइल लोड करने के लिए, नीचे दिए गए अनुसार Bio.MMCIF.MMCIFParser का उपयोग करें -

>>> parser = MMCIFParser(QUIET = True) 
>>> data = parser.get_structure("2FAT", "2FAT.cif")

यहाँ, QUIET फ़ाइल को पार्स करने के दौरान चेतावनी को दबा देता है। get_structure will parse the file and return the structure with id as 2FAT (पहला तर्क)।

उपरोक्त कमांड चलाने के बाद, यह फ़ाइल को पार्स करता है और यदि संभव हो तो चेतावनी को प्रिंट करता है।

अब, नीचे दिए गए कमांड का उपयोग करके संरचना की जांच करें -

>>> data 
<Structure id = 2FAT>

To get the type, use type method as specified below,

>>> print(type(data)) 
<class 'Bio.PDB.Structure.Structure'>

हमने फ़ाइल को सफलतापूर्वक पार्स किया है और प्रोटीन की संरचना प्राप्त की है। हम प्रोटीन संरचना के विवरण और बाद के अध्याय में इसे प्राप्त करने का तरीका जानेंगे।

पीडीबी पार्सर

नीचे दिए गए कमांड का उपयोग करके पीडीबी सर्वर से पीडीबी प्रारूप में एक उदाहरण डेटाबेस डाउनलोड करें -

>>> pdbl = PDBList() 
>>> pdbl.retrieve_pdb_file('2FAT', pdir = '.', file_format = 'pdb')

यह सर्वर से निर्दिष्ट फ़ाइल (pdb2fat.ent) डाउनलोड करेगा और इसे वर्तमान कार्यशील निर्देशिका में संग्रहीत करेगा।

Pdb फ़ाइल लोड करने के लिए, नीचे दिए गए अनुसार Bio.PDB.PDBParser का उपयोग करें -

>>> parser = PDBParser(PERMISSIVE = True, QUIET = True) 
>>> data = parser.get_structure("2fat","pdb2fat.ent")

यहाँ, get_structure MMCIFParser के समान है। PERMISSIVE विकल्प प्रोटीन डेटा को यथासंभव लचीला बनाने की कोशिश करता है।

अब, नीचे दिए गए कोड स्निपेट के साथ संरचना और उसके प्रकार की जांच करें -

>>> data 
<Structure id = 2fat> 
>>> print(type(data)) 
<class 'Bio.PDB.Structure.Structure'>

खैर, हेडर संरचना शब्दकोश जानकारी संग्रहीत करता है। इसे करने के लिए, नीचे दिया गया कमांड टाइप करें -

>>> print(data.header.keys()) dict_keys([
   'name', 'head', 'deposition_date', 'release_date', 'structure_method', 'resolution', 
   'structure_reference', 'journal_reference', 'author', 'compound', 'source', 
   'keywords', 'journal']) 
>>>

नाम पाने के लिए, निम्नलिखित कोड का उपयोग करें -

>>> print(data.header["name"]) 
an anti-urokinase plasminogen activator receptor (upar) antibody: crystal 
structure and binding epitope
>>>

आप नीचे दिए गए कोड के साथ दिनांक और रिज़ॉल्यूशन भी देख सकते हैं -

>>> print(data.header["release_date"]) 2006-11-14 
>>> print(data.header["resolution"]) 1.77

PDB संरचना

पीडीबी संरचना एक एकल मॉडल से बना है, जिसमें दो श्रृंखलाएं हैं।

  • श्रृंखला एल, जिसमें अवशेषों की संख्या है
  • श्रृंखला एच, जिसमें अवशेषों की संख्या है

प्रत्येक अवशेष कई परमाणुओं से बना होता है, प्रत्येक का 3 डी स्थिति द्वारा प्रतिनिधित्व किया जाता है (x, y, z) निर्देशांक।

आइए जानें नीचे दिए गए भाग में परमाणु की संरचना को विस्तार से कैसे जाना जाए -

नमूना

संरचना.गेट_मॉडल () विधि मॉडल पर एक पुनरावृत्ति देता है। यह नीचे परिभाषित किया गया है -

>>> model = data.get_models() 
>>> model 
<generator object get_models at 0x103fa1c80> 
>>> models = list(model) 
>>> models [<Model id = 0>] 
>>> type(models[0]) 
<class 'Bio.PDB.Model.Model'>

यहां, एक मॉडल ठीक एक 3 डी का वर्णन करता है। इसमें एक या एक से अधिक जंजीरें होती हैं।

जंजीर

Model.get_chain () विधि जंजीरों पर एक पुनरावृत्ति देता है। यह नीचे परिभाषित किया गया है -

>>> chains = list(models[0].get_chains()) 
>>> chains 
[<Chain id = L>, <Chain id = H>] 
>>> type(chains[0]) 
<class 'Bio.PDB.Chain.Chain'>

यहां, चेन एक उचित पॉलीपेप्टाइड संरचना का वर्णन करता है, अर्थात, बाउंड अवशेषों का एक निरंतर अनुक्रम।

अवशेष

Chain.get_residues () विधि अवशेषों पर एक पुनरावृत्ति देता है। यह नीचे परिभाषित किया गया है -

>>> residue = list(chains[0].get_residues())
>>> len(residue) 
293 
>>> residue1 = list(chains[1].get_residues()) 
>>> len(residue1) 
311

खैर, अवशेषों में उन परमाणुओं को रखा गया है जो अमीनो एसिड के हैं।

परमाणुओं

रेसिड्यू.गेट_टॉम () नीचे दिए गए अनुसार परमाणुओं पर एक पुनरावृत्ति देता है -

>>> atoms = list(residue[0].get_atoms()) 
>>> atoms 
[<Atom N>, <Atom CA>, <Atom C>, <Atom Ov, <Atom CB>, <Atom CG>, <Atom OD1>, <Atom OD2>]

एक परमाणु एक परमाणु का 3 डी समन्वय रखता है और इसे एक वेक्टर कहा जाता है। इसे नीचे परिभाषित किया गया है

>>> atoms[0].get_vector() 
<Vector 18.49, 73.26, 44.16>

यह x, y और z सह-समन्वय मूल्यों का प्रतिनिधित्व करता है।

एक अनुक्रम आकृति एक न्यूक्लियोटाइड या अमीनो-एसिड अनुक्रम पैटर्न है। अनुक्रम रूपांकनों का निर्माण अमीनो एसिड की त्रि-आयामी व्यवस्था द्वारा किया जाता है जो आसन्न नहीं हो सकता है। Biopython एक अलग मॉड्यूल प्रदान करता है, Bio.motifs जैसा कि नीचे दिए गए अनुक्रम रूपांकनों की कार्यक्षमता तक पहुंचने के लिए -

from Bio import motifs

सरल डीएनए आकृति बनाना

आइए हम नीचे दिए गए कमांड का उपयोग करते हुए एक सरल डीएनए आकृति अनुक्रम बनाते हैं -

>>> from Bio import motifs 
>>> from Bio.Seq import Seq 
>>> DNA_motif = [ Seq("AGCT"), 
...               Seq("TCGA"), 
...               Seq("AACT"), 
...             ] 
>>> seq = motifs.create(DNA_motif) 
>>> print(seq) AGCT TCGA AACT

अनुक्रम मानों की गणना करने के लिए, नीचे दिए गए कमांड का उपयोग करें -

>>> print(seq.counts) 
         0       1      2       3 
A:    2.00    1.00   0.00    1.00 
C:    0.00    1.00   2.00    0.00 
G:    0.00    1.00   1.00    0.00 
T:    1.00    0.00   0.00    2.00

अनुक्रम में 'ए' की गणना करने के लिए निम्नलिखित कोड का उपयोग करें -

>>> seq.counts["A", :] 
(2, 1, 0, 1)

यदि आप कोट्स के कॉलम को एक्सेस करना चाहते हैं, तो नीचे दिए गए कमांड का उपयोग करें -

>>> seq.counts[:, 3] 
{'A': 1, 'C': 0, 'T': 2, 'G': 0}

अनुक्रम लोगो बनाना

अब हम चर्चा करेंगे कि एक अनुक्रम लोगो कैसे बनाया जाए।

नीचे दिए गए अनुक्रम पर विचार करें -

AGCTTACG 
ATCGTACC 
TTCCGAAT 
GGTACGTA 
AAGCTTGG

आप निम्न लिंक का उपयोग करके अपना खुद का लोगो बना सकते हैं - http://weblogo.berkeley.edu/

उपरोक्त अनुक्रम जोड़ें और एक नया लोगो बनाएं और अपने बायोपथॉन फ़ोल्डर में seq.png नाम की छवि को सहेजें।

seq.png

छवि बनाने के बाद, अब निम्नलिखित कमांड चलाएँ -

>>> seq.weblogo("seq.png")

इस डीएनए अनुक्रम आकृति को लेक्सा-बाइंडिंग आकृति के लिए अनुक्रम लोगो के रूप में दर्शाया गया है।

JASPAR डेटाबेस

JASPAR सबसे लोकप्रिय डेटाबेस में से एक है। यह दृश्यों को पढ़ने, लिखने और स्कैनिंग के लिए किसी भी आकृति प्रारूप की सुविधाएं प्रदान करता है। यह प्रत्येक आकृति के लिए मेटा-जानकारी संग्रहीत करता है।The module Bio.motifs contains a specialized class jaspar.Motif to represent meta-information attributes

इसके निम्नलिखित उल्लेखनीय गुण हैं -

  • मैट्रिक्स_आईडी - यूनिक जस्पार मोटिफ आईडी
  • नाम - आकृति का नाम
  • tf_family - मोटिफ का परिवार, उदाहरण के लिए 'हेलिक्स-लूप-हेलिक्स'
  • data_type - रूपांकनों में प्रयुक्त डेटा का प्रकार।

आइए हम एक JASPAR साइटों का प्रारूप बनाते हैं जिसका नाम biopython फ़ोल्डर में sample.sites में दिया गया है। यह नीचे परिभाषित किया गया है -

sample.sites
>MA0001 ARNT 1 
AACGTGatgtccta 
>MA0001 ARNT 2 
CAGGTGggatgtac 
>MA0001 ARNT 3 
TACGTAgctcatgc 
>MA0001 ARNT 4 
AACGTGacagcgct 
>MA0001 ARNT 5 
CACGTGcacgtcgt 
>MA0001 ARNT 6 
cggcctCGCGTGc

उपरोक्त फ़ाइल में, हमने मोटिफ इंस्टेंसेस बनाए हैं। अब, हम उपरोक्त उदाहरणों से एक आकृति वस्तु बनाते हैं -

>>> from Bio import motifs 
>>> with open("sample.sites") as handle: 
... data = motifs.read(handle,"sites") 
... 
>>> print(data) 
TF name None 
Matrix ID None 
Matrix:
            0       1       2       3       4       5 
A:       2.00    5.00    0.00    0.00    0.00    1.00 
C:       3.00    0.00    5.00    0.00    0.00    0.00 
G:       0.00    1.00    1.00    6.00    0.00    5.00 
T:       1.00    0.00    0.00    0.00    6.00    0.00

यहां, डेटा sample.sites फ़ाइल से सभी आकृति उदाहरणों को पढ़ता है।

डेटा से सभी उदाहरणों को प्रिंट करने के लिए, नीचे दिए गए कमांड का उपयोग करें -

>>> for instance in data.instances: 
...    print(instance) 
... 
AACGTG 
CAGGTG 
TACGTA 
AACGTG 
CACGTG 
CGCGTG

सभी मानों को गिनने के लिए नीचे दिए गए कमांड का उपयोग करें -

>>> print(data.counts)
            0       1       2       3       4       5 
A:       2.00    5.00    0.00    0.00    0.00    1.00 
C:       3.00    0.00    5.00    0.00    0.00    0.00 
G:       0.00    1.00    1.00    6.00    0.00    5.00 
T:       1.00    0.00    0.00    0.00    6.00    0.00
>>>

BioSQLमुख्य रूप से सभी RDBMS इंजन के लिए अनुक्रम और उसके संबंधित डेटा को संग्रहीत करने के लिए डिज़ाइन किया गया एक सामान्य डेटाबेस स्कीमा है। इसे इस तरह से डिज़ाइन किया गया है कि यह जेनबैंक, स्विसपोर्ट आदि जैसे सभी लोकप्रिय जैव सूचना विज्ञान डेटाबेस से डेटा रखता है, इसका उपयोग इन-हाउस डेटा को स्टोर करने के लिए भी किया जा सकता है।

BioSQL वर्तमान में नीचे दिए गए डेटाबेस के लिए विशिष्ट स्कीमा प्रदान करता है -

  • MySQL (biosqldb-mysql.sql)
  • PostgreSQL (biosqldb-pg.sql)
  • ओरेकल (बायोसक्लब-ओरा / *। Sql)
  • SQLite (biosqldb-sqlite.sql)

यह जावा आधारित HSQLDB और डर्बी डेटाबेस के लिए न्यूनतम समर्थन भी प्रदान करता है।

BioPython BioSQL आधारित डेटाबेस के साथ काम करने के लिए बहुत ही सरल, आसान और उन्नत ORM क्षमताएं प्रदान करता है। BioPython provides a module, BioSQL निम्नलिखित कार्यक्षमता करने के लिए -

  • BioSQL डेटाबेस बनाएँ / निकालें
  • BioSQL डेटाबेस से कनेक्ट करें
  • GenBank, Swisport, BLAST परिणाम, Entrez परिणाम इत्यादि जैसे अनुक्रम डेटाबेस को पार्स करें, और इसे सीधे BioSQL डेटाबेस में लोड करें
  • BioSQL डेटाबेस से अनुक्रम डेटा प्राप्त करें
  • NCBI BLAST से टैक्सोनॉमी डेटा प्राप्त करें और इसे BioSQL डेटाबेस में स्टोर करें
  • BioSQL डेटाबेस के खिलाफ किसी भी SQL क्वेरी को चलाएँ

BioSQL डाटाबेस स्कीमा का अवलोकन

BioSQL में गहराई से जाने से पहले, हमें BioSQL स्कीमा की मूल बातें समझ लें। BioSQL स्कीमा अनुक्रम डेटा, अनुक्रम सुविधा, अनुक्रम श्रेणी / ऑन्कोलॉजी और टैक्सोनॉमी जानकारी रखने के लिए 25+ टेबल प्रदान करता है। कुछ महत्वपूर्ण सारणी इस प्रकार हैं -

  • biodatabase
  • bioentry
  • biosequence
  • seqfeature
  • taxon
  • taxon_name
  • antology
  • term
  • dxref

BioSQL डाटाबेस बनाना

इस खंड में, हम एक नमूना BioSQL डेटाबेस बनाते हैं, BioSQL टीम द्वारा प्रदान किए गए स्कीमा का उपयोग करके बायोसक्ल। हम SQLite डेटाबेस के साथ काम करेंगे क्योंकि इसे शुरू करना आसान है और इसमें जटिल सेटअप नहीं है।

यहां, हम नीचे दिए गए चरणों का उपयोग करके एक SQLite आधारित BioSQL डेटाबेस बनाएंगे।

Step 1 - SQLite डेटाबेस इंजन डाउनलोड करें और इसे इंस्टॉल करें।

Step 2 - GitHub URL से BioSQL प्रोजेक्ट डाउनलोड करें। https://github.com/biosql/biosql

Step 3 - एक कंसोल खोलें और mkdir का उपयोग करके एक निर्देशिका बनाएं और इसमें प्रवेश करें।

cd /path/to/your/biopython/sample 
mkdir sqlite-biosql 
cd sqlite-biosql

Step 4 - नया SQLite डेटाबेस बनाने के लिए नीचे दिया गया कमांड चलाएँ।

> sqlite3.exe mybiosql.db 
SQLite version 3.25.2 2018-09-25 19:08:10 
Enter ".help" for usage hints. 
sqlite>

Step 5 - बायोसक्यूएल प्रोजेक्ट (/ sql / biosqldb-sqlite.sql`) से biosqldb-sqlite.sql फ़ाइल की प्रतिलिपि बनाएँ और इसे वर्तमान निर्देशिका में संग्रहीत करें।

Step 6 - सभी टेबल बनाने के लिए नीचे दिया गया कमांड चलाएँ।

sqlite> .read biosqldb-sqlite.sql

अब, हमारे नए डेटाबेस में सभी टेबल बनाए गए हैं।

Step 7 - हमारे डेटाबेस में सभी नए तालिकाओं को देखने के लिए नीचे दिए गए आदेश को चलाएं।

sqlite> .headers on 
sqlite> .mode column 
sqlite> .separator ROW "\n" 
sqlite> SELECT name FROM sqlite_master WHERE type = 'table'; 
biodatabase 
taxon 
taxon_name 
ontology 
term 
term_synonym 
term_dbxref 
term_relationship 
term_relationship_term 
term_path
bioentry 
bioentry_relationship 
bioentry_path 
biosequence 
dbxref 
dbxref_qualifier_value 
bioentry_dbxref 
reference 
bioentry_reference 
comment 
bioentry_qualifier_value 
seqfeature 
seqfeature_relationship 
seqfeature_path 
seqfeature_qualifier_value 
seqfeature_dbxref 
location 
location_qualifier_value 
sqlite>

परिणाम स्वरूपित रूप में दिखाने के लिए SQLite को कॉन्फ़िगर करने के लिए पहले तीन कमांड कॉन्फ़िगरेशन कमांड हैं।

Step 8 - BioPython टीम द्वारा प्रदान किए गए नमूना GenBank फ़ाइल, ls_orchid.gbk की प्रतिलिपि बनाएँ https://raw.githubusercontent.com/biopython/biopython/master/Doc/examples/ls_orchid.gbk वर्तमान निर्देशिका में और इसे orchid.gbk के रूप में सहेजें।

Step 9 - नीचे दिए गए कोड का उपयोग करके एक python स्क्रिप्ट, load_orchid.py बनाएं और इसे निष्पादित करें।

from Bio import SeqIO 
from BioSQL import BioSeqDatabase 
import os 

server = BioSeqDatabase.open_database(driver = 'sqlite3', db = "orchid.db") 

db = server.new_database("orchid") 
count = db.load(SeqIO.parse("orchid.gbk", "gb"), True) server.commit() 
server.close()

उपरोक्त कोड फ़ाइल में रिकॉर्ड को पार्स करता है और इसे अजगर वस्तुओं में परिवर्तित करता है और इसे बायो एसक्यूएल डेटाबेस में सम्मिलित करता है। हम बाद के अनुभाग में कोड का विश्लेषण करेंगे।

अंत में, हमने एक नया BioSQL डेटाबेस बनाया और उसमें कुछ सैंपल डेटा लोड किया। हम अगले अध्याय में महत्वपूर्ण तालिकाओं पर चर्चा करेंगे।

सरल ईआर आरेख

biodatabase तालिका पदानुक्रम के शीर्ष पर है और इसका मुख्य उद्देश्य एक एकल समूह / आभासी डेटाबेस में अनुक्रम डेटा के एक सेट को व्यवस्थित करना है। Every entry in the biodatabase refers to a separate database and it does not mingle with another database. BioSQL डेटाबेस में सभी संबंधित तालिकाओं में बायोडेटाबेस प्रविष्टि के संदर्भ हैं।

bioentryतालिका अनुक्रम डेटा को छोड़कर अनुक्रम के बारे में सभी विवरण रखती है। किसी विशेष का अनुक्रम डेटाbioentry में संग्रहीत किया जाएगा biosequence तालिका।

टैक्सन और टैक्सोन_नाम टैक्सोनॉमी विवरण हैं और हर प्रविष्टि इस तालिका को अपनी टैक्सोन जानकारी निर्दिष्ट करने के लिए संदर्भित करती है।

स्कीमा को समझने के बाद, हमें अगले भाग में कुछ प्रश्नों पर ध्यान दें।

BioSQL प्रश्न

आइए डेटा को व्यवस्थित करने और तालिकाओं को एक दूसरे से संबंधित होने के तरीके को बेहतर ढंग से समझने के लिए कुछ एसक्यूएल प्रश्नों में तल्लीन करें। आगे बढ़ने से पहले, नीचे दिए गए कमांड का उपयोग करके डेटाबेस को खोलें और कुछ फॉर्मेटिंग कमांड सेट करें -

> sqlite3 orchid.db 
SQLite version 3.25.2 2018-09-25 19:08:10 
Enter ".help" for usage hints. 
sqlite> .header on 
sqlite> .mode columns

.header and .mode are formatting options to better visualize the data। क्वेरी चलाने के लिए आप किसी भी SQLite एडिटर का उपयोग कर सकते हैं।

सिस्टम में उपलब्ध वर्चुअल सीक्वेंस डेटाबेस की सूची नीचे दी गई है -

select 
   * 
from 
   biodatabase;
*** Result ***
sqlite> .width 15 15 15 15 
sqlite> select * from biodatabase; 
biodatabase_id       name        authority       description    
---------------  --------------- --------------- --------------- 
1                   orchid 
sqlite>

यहाँ, हमारे पास केवल एक डेटाबेस है, orchid

डेटाबेस में उपलब्ध प्रविष्टियों (शीर्ष 3) को सूचीबद्ध करें orchid नीचे दिए गए कोड के साथ

select 
   be.*, 
   bd.name 
from 
   bioentry be 
   inner join 
      biodatabase bd 
      on bd.biodatabase_id = be.biodatabase_id 
where 
   bd.name = 'orchid' Limit 1, 
   3;
*** Result ***
sqlite> .width 15 15 10 10 10 10 10 50 10 10 
sqlite> select be.*, bd.name from bioentry be inner join biodatabase bd on 
bd.biodatabase_id = be.biodatabase_id where bd.name = 'orchid' Limit 1,3; 
bioentry_id biodatabase_id taxon_id name accession identifier division description version name 
--------------- --------------- ---------- ---------- ---------- ---------- ---------- 
---------- ---------- ----------- ---------- --------- ---------- ---------- 
2                   1               19       Z78532     Z78532    2765657     PLN 
C.californicum  5.8S rRNA  gene    and      ITS1    and   ITS2 DN  1 
orchid 
3         1         20          Z78531          Z78531         2765656        PLN
C.fasciculatum  5.8S rRNA  gene    and      ITS1    and   ITS2 DN  1 
orchid 
4         1         21          Z78530          Z78530         2765655        PLN 
C.margaritaceum 5.8S rRNA  gene    and      ITS1    and   ITS2  D  1 
orchid 
sqlite>

दिए गए कोड के साथ एक प्रविष्टि (परिग्रहण - Z78530, नाम - सी। फासिकुलटम 5.8 s rRNA जीन और ITS1 और ITS2 डीएनए) से जुड़े अनुक्रम विवरणों को सूचीबद्ध करें -

select 
   substr(cast(bs.seq as varchar), 0, 10) || '...' as seq, 
   bs.length, 
   be.accession, 
   be.description, 
   bd.name 
from 
   biosequence bs 
   inner join 
      bioentry be 
      on be.bioentry_id = bs.bioentry_id 
   inner join 
      biodatabase bd 
      on bd.biodatabase_id = be.biodatabase_id 
where 
   bd.name = 'orchid' 
   and be.accession = 'Z78532';
*** Result ***

sqlite> .width 15 5 10 50 10 
sqlite> select substr(cast(bs.seq as varchar), 0, 10) || '...' as seq, 
bs.length, be.accession, be.description, bd.name from biosequence bs inner 
join bioentry be on be.bioentry_id = bs.bioentry_id inner join biodatabase bd 
on bd.biodatabase_id = be.biodatabase_id where bd.name = 'orchid' and 
be.accession = 'Z78532'; 
seq           length    accession   description  name 
------------ ---------- ---------- ------------ ------------ ---------- ---------- ----------------- 
CGTAACAAG...    753    Z78532    C.californicum 5.8S rRNA gene and ITS1 and ITS2 DNA orchid 
sqlite>

(- Z78530, नाम - सी परिग्रहण पूरा एक प्रवेश के साथ जुड़े अनुक्रम जाओ fasciculatum 5.8S rRNA जीन और ITS1 और ITS2 डीएनए) नीचे दिए गए कोड का उपयोग कर -

select 
   bs.seq 
from 
   biosequence bs 
   inner join 
      bioentry be 
      on be.bioentry_id = bs.bioentry_id 
   inner join 
      biodatabase bd 
      on bd.biodatabase_id = be.biodatabase_id 
where 
   bd.name = 'orchid' 
   and be.accession = 'Z78532';
*** Result ***

sqlite> .width 1000 
sqlite> select bs.seq from biosequence bs inner join bioentry be on 
be.bioentry_id = bs.bioentry_id inner join biodatabase bd on bd.biodatabase_id = 
be.biodatabase_id where bd.name = 'orchid' and be.accession = 'Z78532'; 
seq 
----------------------------------------------------------------------------------------
----------------------------
CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAACAGAATATATGATCGAGTGAATCT
GGAGGACCTGTGGTAACTCAGCTCGTCGTGGCACTGCTTTTGTCGTGACCCTGCTTTGTTGTTGGGCCTCC
TCAAGAGCTTTCATGGCAGGTTTGAACTTTAGTACGGTGCAGTTTGCGCCAAGTCATATAAAGCATCACTGATGAATGACATTATTGT
CAGAAAAAATCAGAGGGGCAGTATGCTACTGAGCATGCCAGTGAATTTTTATGACTCTCGCAACGGATATCTTGGCTC
TAACATCGATGAAGAACGCAG 
sqlite>

जैव डेटाबेस, ऑर्किड के साथ जुड़े कर सूची

select distinct 
   tn.name 
from 
   biodatabase d 
   inner join 
      bioentry e 
      on e.biodatabase_id = d.biodatabase_id 
   inner join 
      taxon t 
      on t.taxon_id = e.taxon_id 
   inner join 
      taxon_name tn 
      on tn.taxon_id = t.taxon_id 
where 
   d.name = 'orchid' limit 10;
*** Result ***

sqlite> select distinct tn.name from biodatabase d inner join bioentry e on 
e.biodatabase_id = d.biodatabase_id inner join taxon t on t.taxon_id = 
e.taxon_id inner join taxon_name tn on tn.taxon_id = t.taxon_id where d.name = 
'orchid' limit 10; 
name 
------------------------------ 
Cypripedium irapeanum 
Cypripedium californicum 
Cypripedium fasciculatum 
Cypripedium margaritaceum 
Cypripedium lichiangense 
Cypripedium yatabeanum 
Cypripedium guttatum 
Cypripedium acaule 
pink lady's slipper 
Cypripedium formosanum 
sqlite>

BioSQL डाटाबेस में डेटा लोड करें

आइए इस अध्याय में BioSQL डेटाबेस में अनुक्रम डेटा लोड करने का तरीका जानें। हमारे पास पहले से ही पिछले खंड में डेटाबेस में डेटा लोड करने के लिए कोड है और कोड निम्नानुसार है -

from Bio import SeqIO 
from BioSQL import BioSeqDatabase 
import os 

server = BioSeqDatabase.open_database(driver = 'sqlite3', db = "orchid.db") 
DBSCHEMA = "biosqldb-sqlite.sql" 
SQL_FILE = os.path.join(os.getcwd(), DBSCHEMA) 

server.load_database_sql(SQL_FILE) 
server.commit() 

db = server.new_database("orchid") 
count = db.load(SeqIO.parse("orchid.gbk", "gb"), True) server.commit() 
server.close()

हम कोड की हर पंक्ति और उसके उद्देश्य पर एक गहरी नज़र रखेंगे -

Line 1 - SeqIO मॉड्यूल को लोड करता है।

Line 2- BioSeqDatabase मॉड्यूल लोड करता है। यह मॉड्यूल BioSQL डेटाबेस के साथ बातचीत करने के लिए सभी कार्यक्षमता प्रदान करता है।

Line 3 - भार ओएस मॉड्यूल।

Line 5- open_database से कॉन्फ़िगर किए गए ड्राइवर (ड्राइवर) के साथ निर्दिष्ट डेटाबेस (db) को खोलता है और BioSQL डेटाबेस (सर्वर) को हैंडल देता है। Biopython sqlite, mysql, postgresql और oracle डेटाबेस का समर्थन करता है।

Line 6-10- load_database_sql विधि बाहरी फ़ाइल से sql को लोड करती है और इसे निष्पादित करती है। प्रतिबद्ध पद्धति लेन-देन करती है। हम इस चरण को छोड़ सकते हैं क्योंकि हमने पहले ही स्कीमा के साथ डेटाबेस बनाया था।

Line 12 - new_database मेथड्स नए वर्चुअल डेटाबेस ऑर्किड बनाता है और ऑर्किड डेटाबेस के विरुद्ध कमांड निष्पादित करने के लिए एक db देता है।

Line 13- लोड विधि ऑर्किड डेटाबेस में अनुक्रम प्रविष्टियों (पुनरावृत्त SeqRecord) को लोड करती है। SqlIO.parse जेनबैंक डेटाबेस को पार्स करता है और इसमें सभी अनुक्रमों को पुनरावृत्त SeqRecord के रूप में लौटाता है। लोड विधि का दूसरा पैरामीटर (ट्रू) एनसीबीआई ब्लास्ट वेबसाइट से अनुक्रम डेटा के वर्गीकरण विवरण प्राप्त करने का निर्देश देता है, अगर यह सिस्टम में पहले से उपलब्ध नहीं है।

Line 14 - प्रतिबद्ध लेन-देन करता है।

Line 15 - करीब डेटाबेस कनेक्शन को बंद कर देता है और सर्वर हैंडल को नष्ट कर देता है।

अनुक्रम डेटा प्राप्त करें

आइए नीचे दिए गए आर्किड डेटाबेस से पहचानकर्ता, 2765658 के साथ एक क्रम प्राप्त करें -

from BioSQL import BioSeqDatabase 

server = BioSeqDatabase.open_database(driver = 'sqlite3', db = "orchid.db") 

db = server["orchid"] 
seq_record = db.lookup(gi = 2765658) 
print(seq_record.id, seq_record.description[:50] + "...") 
print("Sequence length %i," % len(seq_record.seq))

यहां, सर्वर ["ऑर्किड"] वर्चुअल डेटाबेसॉर्चिड से डेटा लाने के लिए हैंडल लौटाता है। lookup विधि मानदंडों के आधार पर अनुक्रमों का चयन करने का विकल्प प्रदान करती है और हमने पहचानकर्ता, 2765658 के साथ अनुक्रम का चयन किया है। lookupअनुक्रम सूचना SeqRecordobject के रूप में देता है। चूंकि, हम पहले से ही जानते हैं कि SeqRecord` के साथ कैसे काम करना है, इससे डेटा प्राप्त करना आसान है।

एक डेटाबेस निकालें

डेटाबेस को निकालना उतना ही सरल है जितना कि उचित डेटाबेस के नाम के साथ remove_database विधि को कॉल करना और फिर इसे नीचे बताए अनुसार करना -

from BioSQL import BioSeqDatabase 
server = BioSeqDatabase.open_database(driver = 'sqlite3', db = "orchid.db") 
server.remove_database("orchids") 
server.commit()

विकास सिद्धांत में जनसंख्या आनुवंशिकी एक महत्वपूर्ण भूमिका निभाती है। यह प्रजातियों और साथ ही एक ही प्रजाति के भीतर दो या अधिक व्यक्तियों के बीच आनुवंशिक अंतर का विश्लेषण करता है।

Biopython जनसंख्या आनुवंशिकी के लिए Bio.PopGen मॉड्यूल प्रदान करता है और मुख्य रूप से `GenePop, मिशेल रेमंड और फ्रेंकोइस रूसेसेट द्वारा विकसित एक लोकप्रिय आनुवंशिकी पैकेज का समर्थन करता है।

एक साधारण पार्सर

हमें जीनपॉप प्रारूप को पार्स करने और अवधारणा को समझने के लिए एक सरल एप्लिकेशन लिखें।

नीचे दिए गए लिंक में बायोपथॉन टीम द्वारा प्रदान की गई जीनपॉप फ़ाइल डाउनलोड करें -https://raw.githubusercontent.com/biopython/biopython/master/Tests/PopGen/c3line.gen

नीचे कोड स्निपेट का उपयोग करके जीनपॉप मॉड्यूल लोड करें -

from Bio.PopGen import GenePop

नीचे के रूप में GenePop.read पद्धति का उपयोग करके फ़ाइल को पार्स करें -

record = GenePop.read(open("c3line.gen"))

नीचे दिए गए अनुसार लोकी और जनसंख्या की जानकारी दिखाएं -

>>> record.loci_list 
['136255903', '136257048', '136257636'] 
>>> record.pop_list 
['4', 'b3', '5'] 
>>> record.populations 
[[('1', [(3, 3), (4, 4), (2, 2)]), ('2', [(3, 3), (3, 4), (2, 2)]), 
   ('3', [(3, 3), (4, 4), (2, 2)]), ('4', [(3, 3), (4, 3), (None, None)])], 
[('b1', [(None, None), (4, 4), (2, 2)]), ('b2', [(None, None), (4, 4), (2, 2)]), 
   ('b3', [(None, None), (4, 4), (2, 2)])], 
[('1', [(3, 3), (4, 4), (2, 2)]), ('2', [(3, 3), (1, 4), (2, 2)]), 
   ('3', [(3, 2), (1, 1), (2, 2)]), ('4', 
   [(None, None), (4, 4), (2, 2)]), ('5', [(3, 3), (4, 4), (2, 2)])]] 
>>>

यहां, फ़ाइल में तीन लोकी और जनसंख्या के तीन सेट उपलब्ध हैं: पहली जनसंख्या में 4 रिकॉर्ड हैं, दूसरी जनसंख्या में 3 रिकॉर्ड हैं और तीसरी जनसंख्या में 5 रिकॉर्ड हैं। record.populations प्रत्येक स्थान के लिए एलील डेटा के साथ जनसंख्या के सभी सेट दिखाता है।

GenePop फ़ाइल में हेरफेर करें

बायोपथॉन लोकस और जनसंख्या डेटा को हटाने के लिए विकल्प प्रदान करता है।

Remove a population set by position,

>>> record.remove_population(0) 
>>> record.populations 
[[('b1', [(None, None), (4, 4), (2, 2)]), 
   ('b2', [(None, None), (4, 4), (2, 2)]), 
   ('b3', [(None, None), (4, 4), (2, 2)])], 
   [('1', [(3, 3), (4, 4), (2, 2)]), 
   ('2', [(3, 3), (1, 4), (2, 2)]), 
   ('3', [(3, 2), (1, 1), (2, 2)]), 
   ('4', [(None, None), (4, 4), (2, 2)]), 
   ('5', [(3, 3), (4, 4), (2, 2)])]]
>>>

Remove a locus by position,

>>> record.remove_locus_by_position(0) 
>>> record.loci_list 
['136257048', '136257636'] 
>>> record.populations 
[[('b1', [(4, 4), (2, 2)]), ('b2', [(4, 4), (2, 2)]), ('b3', [(4, 4), (2, 2)])], 
   [('1', [(4, 4), (2, 2)]), ('2', [(1, 4), (2, 2)]), 
   ('3', [(1, 1), (2, 2)]), ('4', [(4, 4), (2, 2)]), ('5', [(4, 4), (2, 2)])]]
>>>

Remove a locus by name,

>>> record.remove_locus_by_name('136257636') >>> record.loci_list 
['136257048'] 
>>> record.populations 
[[('b1', [(4, 4)]), ('b2', [(4, 4)]), ('b3', [(4, 4)])], 
   [('1', [(4, 4)]), ('2', [(1, 4)]), 
   ('3', [(1, 1)]), ('4', [(4, 4)]), ('5', [(4, 4)])]]
>>>

जीनपॉप सॉफ्टवेयर के साथ इंटरफेस

बायोपथॉन जीनपॉप सॉफ्टवेयर के साथ बातचीत करने के लिए इंटरफेस प्रदान करता है और इस तरह से बहुत अधिक कार्यक्षमता को उजागर करता है। इस उद्देश्य के लिए Bio.PopGen.GenePop मॉड्यूल का उपयोग किया जाता है। इंटरफ़ेस का उपयोग करने के लिए एक ऐसा आसान ईज़ी कॉन्ट्रोलर है। चलिए देखते हैं कि GenePop फ़ाइल को पार्स कैसे करें और EasyController का उपयोग करके कुछ विश्लेषण करें।

सबसे पहले, जीनपॉप सॉफ़्टवेयर स्थापित करें और सिस्टम पथ में इंस्टॉलेशन फ़ोल्डर को रखें। GenePop फ़ाइल के बारे में मूलभूत जानकारी प्राप्त करने के लिए, एक EasyController ऑब्जेक्ट बनाएं और फिर get_basic_info विधि को नीचे निर्दिष्ट करें।

>>> from Bio.PopGen.GenePop.EasyController import EasyController 
>>> ec = EasyController('c3line.gen') 
>>> print(ec.get_basic_info()) 
(['4', 'b3', '5'], ['136255903', '136257048', '136257636'])
>>>

यहाँ, पहला आइटम जनसंख्या सूची और दूसरा आइटम लोकी सूची है।

किसी विशेष स्थान की सभी एलील सूची प्राप्त करने के लिए, नीचे दिए गए स्थान नाम से पास करके get_alleles_all_pops विधि को कॉल करें।

>>> allele_list = ec.get_alleles_all_pops("136255903") 
>>> print(allele_list) 
[2, 3]

विशिष्ट जनसंख्या और नियंत्रण रेखा द्वारा एलील सूची प्राप्त करने के लिए, नीचे दिए गए अनुसार लोकल नाम और जनसंख्या की स्थिति को पास करके get_alleles को कॉल करें -

>>> allele_list = ec.get_alleles(0, "136255903") 
>>> print(allele_list) 
[] 
>>> allele_list = ec.get_alleles(1, "136255903") 
>>> print(allele_list) 
[] 
>>> allele_list = ec.get_alleles(2, "136255903") 
>>> print(allele_list) 
[2, 3] 
>>>

इसी तरह, ईज़ीकंट्रोलर कई कार्यक्षमताओं को उजागर करता है: एलील फ़्रीक्वेंसी, जीनोटाइप फ़्रीक्वेंसी, मल्टीकोकस एफ आँकड़े, हार्डी-वेनबर्ग संतुलन, लिंकेज डेसीक्विलिब्रियम, आदि।

एक जीनोम डीएनए का पूरा सेट है, जिसमें उसके सभी जीन शामिल हैं। जीनोम विश्लेषण से तात्पर्य व्यक्तिगत जीन और वंशानुक्रम में उनकी भूमिकाओं के अध्ययन से है।

जीनोम आरेख

जीनोम आरेख चार्ट के रूप में आनुवंशिक जानकारी का प्रतिनिधित्व करता है। बायोमेथेन जीनोमीडाग्राम का प्रतिनिधित्व करने के लिए बायो.ग्राफिक्स.गेनोमीडिओग्राम मॉड्यूल का उपयोग करता है। GenomeDiagram मॉड्यूल को ReportLab को इंस्टॉल करने की आवश्यकता है।

आरेख बनाने के लिए चरण

आरेख बनाने की प्रक्रिया आम तौर पर नीचे दिए गए सरल पैटर्न का अनुसरण करती है -

  • उन प्रत्येक अलग-अलग सेट के लिए एक फ़ीचरसेट बनाएं, जिन्हें आप प्रदर्शित करना चाहते हैं, और उनके लिए Bio.SeqFeature ऑब्जेक्ट जोड़ें।

  • प्रत्येक ग्राफ़ के लिए एक ग्राफ़सेट बनाएं जिसे आप प्रदर्शित करना चाहते हैं, और उनमें ग्राफ़ डेटा जोड़ें।

  • प्रत्येक ट्रैक के लिए एक ट्रैक बनाएं, जिसे आप आरेख पर चाहते हैं, और अपनी आवश्यकता के पटरियों में ग्राफ़सेट्स और फ़ीचरसेट्स जोड़ें।

  • एक आरेख बनाएँ, और इसमें ट्रैक्स जोड़ें।

  • चित्र बनाने के लिए आरेख को बताएं।

  • छवि को फ़ाइल में लिखें।

आइए हम इनपुट जेनबैंक फ़ाइल का एक उदाहरण लेते हैं -

https://raw.githubusercontent.com/biopython/biopython/master/Doc/examples/ls_orchid.gbkऔर SeqRecord ऑब्जेक्ट से रिकॉर्ड पढ़ें और अंत में एक जीनोम आरेख बनाएं। यह नीचे समझाया गया है,

हम नीचे दिखाए गए अनुसार पहले सभी मॉड्यूल आयात करेंगे -

>>> from reportlab.lib import colors 
>>> from reportlab.lib.units import cm 
>>> from Bio.Graphics import GenomeDiagram

अब, डेटा को पढ़ने के लिए SeqIO मॉड्यूल आयात करें -

>>> from Bio import SeqIO 
record = SeqIO.read("example.gb", "genbank")

यहां, रिकॉर्ड जीनबैंक फ़ाइल से अनुक्रम पढ़ता है।

अब, ट्रैक और फीचर सेट को जोड़ने के लिए एक खाली आरेख बनाएं -

>>> diagram = GenomeDiagram.Diagram(
   "Yersinia pestis biovar Microtus plasmid pPCP1") 
>>> track = diagram.new_track(1, name="Annotated Features") 
>>> feature = track.new_set()

अब, हम नीचे से परिभाषित रूप में हरे से ग्रे तक वैकल्पिक रंगों का उपयोग करके रंग विषय परिवर्तन लागू कर सकते हैं -

>>> for feature in record.features: 
>>>    if feature.type != "gene": 
>>>       continue 
>>>    if len(feature) % 2 == 0: 
>>>       color = colors.blue 
>>>    else: 
>>>       color = colors.red 
>>> 
>>>    feature.add_feature(feature, color=color, label=True)

अब आप अपनी स्क्रीन पर निम्न प्रतिक्रिया देख सकते हैं -

<Bio.Graphics.GenomeDiagram._Feature.Feature object at 0x105d3dc90> 
<Bio.Graphics.GenomeDiagram._Feature.Feature object at 0x105d3dfd0> 
<Bio.Graphics.GenomeDiagram._Feature.Feature object at 0x1007627d0> 
<Bio.Graphics.GenomeDiagram._Feature.Feature object at 0x105d57290> 
<Bio.Graphics.GenomeDiagram._Feature.Feature object at 0x105d57050> 
<Bio.Graphics.GenomeDiagram._Feature.Feature object at 0x105d57390> 
<Bio.Graphics.GenomeDiagram._Feature.Feature object at 0x105d57590> 
<Bio.Graphics.GenomeDiagram._Feature.Feature object at 0x105d57410> 
<Bio.Graphics.GenomeDiagram._Feature.Feature object at 0x105d57490> 
<Bio.Graphics.GenomeDiagram._Feature.Feature object at 0x105d574d0>

आइए हम उपरोक्त इनपुट रिकॉर्ड के लिए आरेख बनाते हैं -

>>> diagram.draw(
   format = "linear", orientation = "landscape", pagesize = 'A4', 
   ... fragments = 4, start = 0, end = len(record)) 
>>> diagram.write("orchid.pdf", "PDF") 
>>> diagram.write("orchid.eps", "EPS") 
>>> diagram.write("orchid.svg", "SVG") 
>>> diagram.write("orchid.png", "PNG")

उपरोक्त कमांड को निष्पादित करने के बाद, आप अपने बायोपथॉन डायरेक्टरी में सहेजी गई निम्न छवि देख सकते हैं।

** Result **
genome.png

आप नीचे दिए गए परिवर्तन करके छवि को गोलाकार प्रारूप में भी खींच सकते हैं -

>>> diagram.draw(
   format = "circular", circular = True, pagesize = (20*cm,20*cm), 
   ... start = 0, end = len(record), circle_core = 0.7) 
>>> diagram.write("circular.pdf", "PDF")

क्रोमोसोम अवलोकन

डीएनए अणु को क्रोमोसोम नामक धागे जैसी संरचनाओं में पैक किया जाता है। प्रत्येक गुणसूत्र डीएनए से बना होता है जो हिस्टोन नामक प्रोटीन के चारों ओर कई बार कसकर जमा होता है जो इसकी संरचना का समर्थन करता है।

गुणसूत्र कोशिका के केंद्रक में दिखाई नहीं देते हैं - सूक्ष्मदर्शी के नीचे भी नहीं-जब कोशिका विभाजित नहीं होती है। हालांकि, जो डीएनए गुणसूत्र बनाता है वह कोशिका विभाजन के दौरान अधिक कसकर पैक हो जाता है और फिर माइक्रोस्कोप के नीचे दिखाई देता है।

मनुष्यों में, प्रत्येक कोशिका में सामान्य रूप से कुल 46 में से 23 जोड़े गुणसूत्र होते हैं। इन जोड़ियों में से दो जोड़े, जिन्हें ऑटोसोम कहा जाता है, दोनों पुरुषों और महिलाओं में समान दिखते हैं। 23 वीं जोड़ी, सेक्स गुणसूत्र, पुरुषों और महिलाओं के बीच भिन्न होते हैं। मादाओं के पास X गुणसूत्र की दो प्रतियां होती हैं, जबकि पुरुषों में एक X और एक Y गुणसूत्र होता है।

फेनोटाइप को एक विशेष रासायनिक या पर्यावरण के खिलाफ एक जीव द्वारा प्रदर्शित अवलोकन चरित्र या विशेषता के रूप में परिभाषित किया गया है। फेनोटाइप माइक्रोएरे एक साथ बड़ी संख्या में रसायनों और पर्यावरण के खिलाफ एक जीव की प्रतिक्रिया को मापता है और जीन उत्परिवर्तन, जीन वर्ण आदि को समझने के लिए डेटा का विश्लेषण करता है।

बायोप्थॉन फेनोटाइपिक डेटा का विश्लेषण करने के लिए एक उत्कृष्ट मॉड्यूल, बायो.फेनोटाइप प्रदान करता है। आइए हम इस अध्याय में फेनोटाइप माइक्रोएरे डेटा को पार्स, इंटरपोलेट, एक्सट्रैक्ट करने और विश्लेषण करने का तरीका जानें।

पदच्छेद

फेनोटाइप माइक्रोएरे डेटा दो स्वरूपों में हो सकता है: CSV और JSON। बायोपथॉन दोनों प्रारूपों का समर्थन करता है। बायोप्थॉन पार्सर फेनोटाइप माइक्रोएरे डेटा को पार्स करता है और प्लेटरकार्ड ऑब्जेक्ट्स के संग्रह के रूप में लौटता है। प्रत्येक प्लेटRecord ऑब्जेक्ट में WellRecord ऑब्जेक्ट का संग्रह होता है। प्रत्येक WellRecord ऑब्जेक्ट 8 पंक्तियों और 12 कॉलम प्रारूप में डेटा रखता है। आठ पंक्तियों का प्रतिनिधित्व ए से एच और 12 कॉलम का प्रतिनिधित्व 01 से 12 तक किया जाता है। उदाहरण के लिए, 4 वें पंक्ति और 6 वें कॉलम को D06 द्वारा दर्शाया जाता है।

आइए निम्न उदाहरण के साथ प्रारूपण और पार्सिंग की अवधारणा को समझते हैं -

Step 1 - बायोपथॉन टीम द्वारा प्रदान की गई प्लेट्स.एससीवी फ़ाइल डाउनलोड करें - https://raw.githubusercontent.com/biopython/biopython/master/Doc/examples/Plates.csv

Step 2 - नीचे फिनोटपे मॉड्यूल लोड करें -

>>> from Bio import phenotype

Step 3- डेटा फ़ाइल और प्रारूप विकल्प ("pm-csv") पास करने के लिए phenotype.parse विधि लागू करें। यह नीचे के रूप में पुन: प्रयोज्य प्लेटकार्ड को वापस करता है,

>>> plates = list(phenotype.parse('Plates.csv', "pm-csv")) 
>>> plates 
[PlateRecord('WellRecord['A01'], WellRecord['A02'], WellRecord['A03'], ..., WellRecord['H12']'), 
PlateRecord('WellRecord['A01'], WellRecord['A02'], WellRecord['A03'], ..., WellRecord['H12']'), 
PlateRecord('WellRecord['A01'], WellRecord['A02'], WellRecord['A03'], ..., WellRecord['H12']'), 
PlateRecord('WellRecord['A01'], WellRecord['A02'],WellRecord['A03'], ..., WellRecord['H12']')] 
>>>

Step 4 - नीचे दी गई सूची से पहली प्लेट को एक्सेस करें -

>>> plate = plates[0] 
>>> plate 
PlateRecord('WellRecord['A01'], WellRecord['A02'], WellRecord['A03'], ...,
WellRecord['H12']')
>>>

Step 5- जैसा कि पहले चर्चा की गई है, एक प्लेट में 8 पंक्तियाँ होती हैं जिनमें से प्रत्येक में 12 आइटम होते हैं। WellRecord को नीचे बताए अनुसार दो तरीकों से एक्सेस किया जा सकता है -

>>> well = plate["A04"] 
>>> well = plate[0, 4] 
>>> well WellRecord('(0.0, 0.0), (0.25, 0.0), (0.5, 0.0), (0.75, 0.0), 
   (1.0, 0.0), ..., (71.75, 388.0)')
>>>

Step 6 - प्रत्येक कुएं में अलग-अलग समय बिंदुओं पर माप की श्रृंखला होगी और इसे नीचे दिए गए अनुसार लूप के लिए उपयोग किया जा सकता है -

>>> for v1, v2 in well: 
... print(v1, v2) 
... 
0.0 0.0 
0.25 0.0 
0.5 0.0 
0.75 0.0 
1.0 0.0 
... 
71.25 388.0 
71.5 388.0 
71.75 388.0
>>>

प्रक्षेप

प्रक्षेप डेटा में अधिक अंतर्दृष्टि देता है। Biopython मध्यवर्ती समय बिंदुओं की जानकारी प्राप्त करने के लिए WellRecord डेटा को प्रक्षेपित करने के तरीके प्रदान करता है। सिंटैक्स सूची अनुक्रमण के समान है और इसलिए, सीखना आसान है।

20.1 घंटे पर डेटा प्राप्त करने के लिए, बस नीचे दिए गए अनुसार सूचकांक मानों को पास करें -

>>> well[20.10] 
69.40000000000003
>>>

हम प्रारंभ समय बिंदु और अंतिम समय बिंदु और साथ ही नीचे निर्दिष्ट कर सकते हैं -

>>> well[20:30] 
[67.0, 84.0, 102.0, 119.0, 135.0, 147.0, 158.0, 168.0, 179.0, 186.0]
>>>

उपरोक्त कमांड 1 घंटे के अंतराल के साथ 20 घंटे से 30 घंटे तक डेटा प्रक्षेपित करता है। डिफ़ॉल्ट रूप से, अंतराल 1 घंटा है और हम इसे किसी भी मान में बदल सकते हैं। उदाहरण के लिए, नीचे दिए अनुसार 15 मिनट (0.25 घंटे) का अंतराल दें।

>>> well[20:21:0.25] 
[67.0, 73.0, 75.0, 81.0]
>>>

विश्लेषण और निकालें

बायोपथॉन, गोम्पर्ट्ज़, लॉजिस्टिक और रिचर्ड्स सिग्मॉइड फ़ंक्शंस का उपयोग करके वेलकॉर्ड डेटा का विश्लेषण करने के लिए एक विधि फिट प्रदान करता है। डिफ़ॉल्ट रूप से, फिट विधि Gompertz फ़ंक्शन का उपयोग करती है। हमें कार्य पूरा करने के लिए वेलरकार्ड ऑब्जेक्ट की फिट विधि को कॉल करने की आवश्यकता है। कोडिंग इस प्रकार है -

>>> well.fit() 
Traceback (most recent call last): 
... 
Bio.MissingPythonDependencyError: Install scipy to extract curve parameters. 
>>> well.model 
>>> getattr(well, 'min') 0.0 
>>> getattr(well, 'max') 388.0 
>>> getattr(well, 'average_height') 
205.42708333333334
>>>

बायोपथॉन स्कैपी मॉड्यूल पर निर्भर करता है ताकि उन्नत विश्लेषण किया जा सके। यह न्यूनतम, अधिकतम और औसत_ विवरणों की गणना बिना स्केपी मॉड्यूल का उपयोग किए करेगा।

यह अध्याय बताता है कि अनुक्रमों को कैसे प्लॉट करना है। इस विषय पर जाने से पहले, हमें प्लॉटिंग की मूल बातें समझ लेनी चाहिए।

अंकन

Matplotlib एक पायथन प्लॉटिंग लाइब्रेरी है जो विभिन्न स्वरूपों में गुणवत्ता के आंकड़े पैदा करता है। हम विभिन्न प्रकार के प्लॉट बना सकते हैं जैसे लाइन चार्ट, हिस्टोग्राम, बार चार्ट, पाई चार्ट, स्कैटर चार्ट इत्यादि।

pyLab is a module that belongs to the matplotlib which combines the numerical module numpy with the graphical plotting module pyplot.बायोपथॉन अनुक्रमों की साजिश रचने के लिए पाइलैब मॉड्यूल का उपयोग करता है। ऐसा करने के लिए, हमें नीचे दिए गए कोड को आयात करना होगा -

import pylab

आयात करने से पहले, हमें नीचे दिए गए कमांड के साथ पाइप कमांड का उपयोग करके matplotlib पैकेज स्थापित करने की आवश्यकता है -

pip install matplotlib

नमूना इनपुट फ़ाइल

नाम से एक नमूना फ़ाइल बनाएँ plot.fasta अपने Biopython निर्देशिका में और निम्नलिखित परिवर्तन जोड़ें -

>seq0 FQTWEEFSRAAEKLYLADPMKVRVVLKYRHVDGNLCIKVTDDLVCLVYRTDQAQDVKKIEKF 
>seq1 KYRTWEEFTRAAEKLYQADPMKVRVVLKYRHCDGNLCIKVTDDVVCLLYRTDQAQDVKKIEKFHSQLMRLME 
>seq2 EEYQTWEEFARAAEKLYLTDPMKVRVVLKYRHCDGNLCMKVTDDAVCLQYKTDQAQDVKKVEKLHGK 
>seq3 MYQVWEEFSRAVEKLYLTDPMKVRVVLKYRHCDGNLCIKVTDNSVCLQYKTDQAQDV
>seq4 EEFSRAVEKLYLTDPMKVRVVLKYRHCDGNLCIKVTDNSVVSYEMRLFGVQKDNFALEHSLL 
>seq5 SWEEFAKAAEVLYLEDPMKCRMCTKYRHVDHKLVVKLTDNHTVLKYVTDMAQDVKKIEKLTTLLMR 
>seq6 FTNWEEFAKAAERLHSANPEKCRFVTKYNHTKGELVLKLTDDVVCLQYSTNQLQDVKKLEKLSSTLLRSI 
>seq7 SWEEFVERSVQLFRGDPNATRYVMKYRHCEGKLVLKVTDDRECLKFKTDQAQDAKKMEKLNNIFF 
>seq8 SWDEFVDRSVQLFRADPESTRYVMKYRHCDGKLVLKVTDNKECLKFKTDQAQEAKKMEKLNNIFFTLM 
>seq9 KNWEDFEIAAENMYMANPQNCRYTMKYVHSKGHILLKMSDNVKCVQYRAENMPDLKK
>seq10 FDSWDEFVSKSVELFRNHPDTTRYVVKYRHCEGKLVLKVTDNHECLKFKTDQAQDAKKMEK

लाइन प्लॉट

अब, उपर्युक्त फास्टा फाइल के लिए एक सरल रेखा प्लॉट बनाते हैं।

Step 1 Fasta फ़ाइल को पढ़ने के लिए SeqIO मॉड्यूल आयात करें।

>>> from Bio import SeqIO

Step 2 - इनपुट फ़ाइल पार्स।

>>> records = [len(rec) for rec in SeqIO.parse("plot.fasta", "fasta")] 
>>> len(records) 
11 
>>> max(records) 
72 
>>> min(records) 
57

Step 3 - पाइलैब मॉड्यूल आयात करते हैं।

>>> import pylab

Step 4 - एक्स और वाई अक्ष लेबल असाइन करके लाइन चार्ट को कॉन्फ़िगर करें।

>>> pylab.xlabel("sequence length") 
Text(0.5, 0, 'sequence length') 

>>> pylab.ylabel("count") 
Text(0, 0.5, 'count') 
>>>

Step 5 - ग्रिड डिस्प्ले सेट करके लाइन चार्ट को कॉन्फ़िगर करें।

>>> pylab.grid()

Step 6 - प्लॉट विधि को कॉल करके और इनपुट के रूप में रिकॉर्ड की आपूर्ति करके सरल रेखा चार्ट बनाएं।

>>> pylab.plot(records) 
[<matplotlib.lines.Line2D object at 0x10b6869d 0>]

Step 7 - अंत में नीचे दिए गए कमांड का उपयोग करके चार्ट को सेव करें।

>>> pylab.savefig("lines.png")

परिणाम

उपरोक्त कमांड को निष्पादित करने के बाद, आप अपने बायोपथॉन डायरेक्टरी में सहेजी गई निम्न छवि देख सकते हैं।

हिस्टोग्राम चार्ट

हिस्टोग्राम का उपयोग निरंतर डेटा के लिए किया जाता है, जहां डिब्बे डेटा की श्रेणियों का प्रतिनिधित्व करते हैं। ड्राइंग हिस्टोग्राम pylab.plot को छोड़कर लाइन चार्ट के समान है। इसके बजाय, रिकॉर्ड्स के साथ पाइलैब मॉड्यूल की हिस्ट विधि और डिब्बे के लिए कुछ हिरासत मूल्य (5) कहते हैं। पूरा कोडिंग इस प्रकार है -

Step 1 Fasta फ़ाइल को पढ़ने के लिए SeqIO मॉड्यूल आयात करें।

>>> from Bio import SeqIO

Step 2 - इनपुट फ़ाइल पार्स।

>>> records = [len(rec) for rec in SeqIO.parse("plot.fasta", "fasta")] 
>>> len(records) 
11 
>>> max(records) 
72 
>>> min(records) 
57

Step 3 - पाइलैब मॉड्यूल आयात करते हैं।

>>> import pylab

Step 4 - एक्स और वाई अक्ष लेबल असाइन करके लाइन चार्ट को कॉन्फ़िगर करें।

>>> pylab.xlabel("sequence length") 
Text(0.5, 0, 'sequence length') 

>>> pylab.ylabel("count") 
Text(0, 0.5, 'count') 
>>>

Step 5 - ग्रिड डिस्प्ले सेट करके लाइन चार्ट को कॉन्फ़िगर करें।

>>> pylab.grid()

Step 6 - प्लॉट विधि को कॉल करके और इनपुट के रूप में रिकॉर्ड की आपूर्ति करके सरल रेखा चार्ट बनाएं।

>>> pylab.hist(records,bins=5) 
(array([2., 3., 1., 3., 2.]), array([57., 60., 63., 66., 69., 72.]), <a list 
of 5 Patch objects>) 
>>>

Step 7 - अंत में नीचे दिए गए कमांड का उपयोग करके चार्ट को सेव करें।

>>> pylab.savefig("hist.png")

परिणाम

उपरोक्त कमांड को निष्पादित करने के बाद, आप अपने बायोपथॉन डायरेक्टरी में सहेजी गई निम्न छवि देख सकते हैं।

अनुक्रम में जीसी प्रतिशत

जीसी प्रतिशत विभिन्न अनुक्रमों की तुलना करने के लिए आमतौर पर उपयोग किए जाने वाले विश्लेषणात्मक डेटा में से एक है। हम दृश्यों के एक सेट के जीसी प्रतिशत का उपयोग करके एक सरल लाइन चार्ट कर सकते हैं और तुरंत इसकी तुलना कर सकते हैं। यहां, हम केवल अनुक्रम लंबाई से जीसी प्रतिशत तक डेटा बदल सकते हैं। पूरा कोडिंग नीचे दिया गया है -

Step 1 Fasta फ़ाइल को पढ़ने के लिए SeqIO मॉड्यूल आयात करें।

>>> from Bio import SeqIO

Step 2 - इनपुट फ़ाइल पार्स।

>>> from Bio.SeqUtils import GC 
>>> gc = sorted(GC(rec.seq) for rec in SeqIO.parse("plot.fasta", "fasta"))

Step 3 - पाइलैब मॉड्यूल आयात करते हैं।

>>> import pylab

Step 4 - एक्स और वाई अक्ष लेबल असाइन करके लाइन चार्ट को कॉन्फ़िगर करें।

>>> pylab.xlabel("Genes") 
Text(0.5, 0, 'Genes') 

>>> pylab.ylabel("GC Percentage") 
Text(0, 0.5, 'GC Percentage') 
>>>

Step 5 - ग्रिड डिस्प्ले सेट करके लाइन चार्ट को कॉन्फ़िगर करें।

>>> pylab.grid()

Step 6 - प्लॉट विधि को कॉल करके और इनपुट के रूप में रिकॉर्ड की आपूर्ति करके सरल रेखा चार्ट बनाएं।

>>> pylab.plot(gc) 
[<matplotlib.lines.Line2D object at 0x10b6869d 0>]

Step 7 - अंत में नीचे दिए गए कमांड का उपयोग करके चार्ट को सेव करें।

>>> pylab.savefig("gc.png")

परिणाम

उपरोक्त कमांड को निष्पादित करने के बाद, आप अपने बायोपथॉन डायरेक्टरी में सहेजी गई निम्न छवि देख सकते हैं।

सामान्य तौर पर, क्लस्टर विश्लेषण समान समूह में वस्तुओं का एक समूह बना रहा है। यह अवधारणा मुख्य रूप से डेटा खनन, सांख्यिकीय डेटा विश्लेषण, मशीन लर्निंग, पैटर्न मान्यता, छवि विश्लेषण, जैव सूचना विज्ञान आदि में उपयोग की जाती है। यह विभिन्न एल्गोरिदम द्वारा यह समझा जा सकता है कि विभिन्न विश्लेषण में क्लस्टर का व्यापक रूप से उपयोग कैसे किया जाता है।

जैव सूचना विज्ञान के अनुसार, क्लस्टर विश्लेषण मुख्य रूप से जीन अभिव्यक्ति डेटा विश्लेषण में समान जीन अभिव्यक्ति वाले जीन के समूहों को खोजने के लिए उपयोग किया जाता है।

इस अध्याय में, हम एक वास्तविक डेटासेट पर क्लस्टरिंग के मूल सिद्धांतों को समझने के लिए बायोपथॉन में महत्वपूर्ण एल्गोरिदम की जांच करेंगे।

बायोपथॉन सभी एल्गोरिदम को लागू करने के लिए बायो. क्लस्टर मॉड्यूल का उपयोग करता है। यह निम्नलिखित एल्गोरिदम का समर्थन करता है -

  • पदानुक्रमित क्लस्टरिंग
  • के - क्लस्टरिंग
  • स्व-व्यवस्थित मानचित्र
  • प्रमुख कंपोनेंट विश्लेषण

आइए हम उपरोक्त एल्गोरिदम पर एक संक्षिप्त परिचय दें।

पदानुक्रमित क्लस्टरिंग

पदानुक्रमित क्लस्टरिंग का उपयोग प्रत्येक नोड को अपने निकटतम पड़ोसी से दूरी माप द्वारा लिंक करने और क्लस्टर बनाने के लिए किया जाता है। Bio.Cluster नोड में तीन विशेषताएँ हैं: बाएँ, दाएँ और दूरी। जैसा कि नीचे दिखाया गया है, हम एक सरल क्लस्टर बनाते हैं -

>>> from Bio.Cluster import Node 
>>> n = Node(1,10) 
>>> n.left = 11 
>>> n.right = 0 
>>> n.distance = 1 
>>> print(n) 
(11, 0): 1

यदि आप ट्री आधारित क्लस्टरिंग का निर्माण करना चाहते हैं, तो नीचे दिए गए कमांड का उपयोग करें -

>>> n1 = [Node(1, 2, 0.2), Node(0, -1, 0.5)] >>> n1_tree = Tree(n1) 
>>> print(n1_tree) 
(1, 2): 0.2 
(0, -1): 0.5 
>>> print(n1_tree[0]) 
(1, 2): 0.2

हमें Bio.Cluster मॉड्यूल का उपयोग करके पदानुक्रमित क्लस्टरिंग करते हैं।

विचार करें कि दूरी एक सरणी में परिभाषित की गई है।

>>> import numpy as np 
>>> distance = array([[1,2,3],[4,5,6],[3,5,7]])

अब ट्री क्लस्टर में दूरी सरणी जोड़ें।

>>> from Bio.Cluster import treecluster 
>>> cluster = treecluster(distance) 
>>> print(cluster) 
(2, 1): 0.666667 
(-1, 0): 9.66667

उपरोक्त फ़ंक्शन ट्री क्लस्टर ऑब्जेक्ट देता है। इस ऑब्जेक्ट में नोड्स होते हैं जहां आइटम की संख्या पंक्तियों या स्तंभों के रूप में क्लस्टर की जाती है।

के - क्लस्टरिंग

यह एक प्रकार का विभाजन एल्गोरिथ्म है और इसे k - मतलब, मंझला और ध्यान हटाने वाली श्रेणी में वर्गीकृत किया गया है। आइए हम संक्षेप में प्रत्येक क्लस्टरिंग को समझें।

K- मतलब क्लस्टरिंग

यह दृष्टिकोण डेटा माइनिंग में लोकप्रिय है। इस एल्गोरिदम का लक्ष्य डेटा में समूहों को खोजना है, चर K द्वारा दर्शाए गए समूहों की संख्या।

एल्गोरिथ्म प्रदान किए गए सुविधाओं के आधार पर प्रत्येक डेटा बिंदु को K समूहों में से एक को असाइन करने के लिए चलने का कार्य करता है। फ़ीचर समानता के आधार पर डेटा पॉइंट्स को क्लस्टर किया जाता है।

>>> from Bio.Cluster import kcluster 
>>> from numpy import array 
>>> data = array([[1, 2], [3, 4], [5, 6]]) 
>>> clusterid, error,found = kcluster(data) 
>>> print(clusterid) [0 0 1] 
>>> print(found) 
1

के-मेडियंस क्लस्टरिंग

यह क्लस्टरिंग एल्गोरिथ्म का एक और प्रकार है जो प्रत्येक सेंटीमीटर के लिए इसका केंद्रक निर्धारित करने के लिए माध्य की गणना करता है।

K- मेड्स क्लस्टरिंग

यह दृष्टिकोण वस्तुओं के दिए गए सेट पर आधारित है, दूरी मैट्रिक्स और उपयोगकर्ता द्वारा पारित समूहों की संख्या का उपयोग करते हुए।

नीचे बताए अनुसार दूरी मैट्रिक्स पर विचार करें -

>>> distance = array([[1,2,3],[4,5,6],[3,5,7]])

हम नीचे दिए गए आदेश का उपयोग करते हुए k-medoids क्लस्टरिंग की गणना कर सकते हैं -

>>> from Bio.Cluster import kmedoids 
>>> clusterid, error, found = kmedoids(distance)

चलिए, हम एक उदाहरण पर विचार करते हैं।

Kcluster फ़ंक्शन इनपुट के रूप में डेटा मैट्रिक्स लेता है न कि Seq इंस्टेंस। आपको अपने अनुक्रमों को एक मैट्रिक्स में बदलना होगा और इसे kcluster फ़ंक्शन प्रदान करना होगा।

संख्यात्मक तत्वों वाले मैट्रिक्स को डेटा परिवर्तित करने का एक तरीका केवल उपयोग करने से है numpy.fromstringसमारोह। यह मूल रूप से प्रत्येक अक्षर को अपने ASCII समकक्ष के अनुक्रम में अनुवादित करता है।

यह एन्कोडेड अनुक्रमों का 2 डी सरणी बनाता है जिसे क्लक्स्टर फ़ंक्शन मान्यता देता है और आपके अनुक्रमों को क्लस्टर करने के लिए उपयोग करता है।

>>> from Bio.Cluster import kcluster 
>>> import numpy as np 
>>> sequence = [ 'AGCT','CGTA','AAGT','TCCG'] 
>>> matrix = np.asarray([np.fromstring(s, dtype=np.uint8) for s in sequence]) 
>>> clusterid,error,found = kcluster(matrix) 
>>> print(clusterid) [1 0 0 1]

स्व-व्यवस्थित मानचित्र

यह दृष्टिकोण एक प्रकार का कृत्रिम तंत्रिका नेटवर्क है। यह कोहेनन द्वारा विकसित किया गया है और अक्सर कोहेनन मानचित्र के रूप में कहा जाता है। यह आयताकार टोपोलॉजी पर आधारित समूहों में वस्तुओं को व्यवस्थित करता है।

नीचे दिखाए गए समान सरणी दूरी का उपयोग करके एक सरल क्लस्टर बनाते हैं -

>>> from Bio.Cluster import somcluster 
>>> from numpy import array 
>>> data = array([[1, 2], [3, 4], [5, 6]]) 
>>> clusterid,map = somcluster(data) 

>>> print(map) 
[[[-1.36032469 0.38667395]] 
   [[-0.41170578 1.35295911]]] 

>>> print(clusterid) 
[[1 0]
   [1 0]
   [1 0]]

यहाँ, clusterid दो स्तंभों के साथ एक सरणी है, जहां पंक्तियों की संख्या उन वस्तुओं की संख्या के बराबर है, जिन्हें क्लस्टर किया गया था, और data या तो पंक्तियों या स्तंभों के साथ एक सरणी है।

प्रमुख कंपोनेंट विश्लेषण

प्रधान घटक विश्लेषण उच्च-आयामी डेटा की कल्पना करने के लिए उपयोगी है। यह एक ऐसी विधि है जो मूल डेटा के प्रक्षेपण को एक ही संख्या या कम आयामों में गणना करने के लिए रैखिक बीजगणित और सांख्यिकी से सरल मैट्रिक्स संचालन का उपयोग करती है।

प्रिंसिपल कंपोनेंट एनालिसिस एक टपल कॉलमस्मैन, निर्देशांक, घटकों और आईजेन्यूअल देता है। आइए हम इस अवधारणा की मूल बातों पर ध्यान दें।

>>> from numpy import array 
>>> from numpy import mean 
>>> from numpy import cov 
>>> from numpy.linalg import eig 

# define a matrix 
>>> A = array([[1, 2], [3, 4], [5, 6]]) 

>>> print(A) 
[[1 2]
   [3 4]
   [5 6]] 
 
# calculate the mean of each column 
>>> M = mean(A.T, axis = 1) 
>>> print(M) 
[ 3. 4.] 

# center columns by subtracting column means 
>>> C = A - M

>>> print(C) 
[[-2. -2.]
   [ 0. 0.]
   [ 2. 2.]] 

# calculate covariance matrix of centered matrix 
>>> V = cov(C.T) 

>>> print(V) 
[[ 4. 4.]
   [ 4. 4.]] 
 
# eigendecomposition of covariance matrix 
>>> values, vectors = eig(V) 

>>> print(vectors) 
[[ 0.70710678 -0.70710678]
   [ 0.70710678 0.70710678]] 
 
>>> print(values) 
[ 8. 0.]

हमें उसी आयताकार मैट्रिक्स डेटा को Bio.Cluster मॉड्यूल पर लागू करना चाहिए जैसा कि नीचे परिभाषित किया गया है -

>>> from Bio.Cluster import pca 
>>> from numpy import array 
>>> data = array([[1, 2], [3, 4], [5, 6]]) 
>>> columnmean, coordinates, components, eigenvalues = pca(data) 
>>> print(columnmean) 
[ 3. 4.] 
>>> print(coordinates) 
[[-2.82842712 0. ]
   [ 0.         0. ]
   [ 2.82842712 0. ]] 
>>> print(components) 
[[ 0.70710678 0.70710678]
   [ 0.70710678 -0.70710678]] 
>>> print(eigenvalues) 
[ 4. 0.]

बायोइंफॉर्मेटिक्स मशीन लर्निंग एल्गोरिदम लागू करने के लिए एक उत्कृष्ट क्षेत्र है। यहां, हमारे पास बड़ी संख्या में जीवों की आनुवांशिक जानकारी है और इस सभी जानकारी का मैन्युअल रूप से विश्लेषण करना संभव नहीं है। यदि उचित मशीन लर्निंग एल्गोरिदम का उपयोग किया जाता है, तो हम इन आंकड़ों से बहुत सारी उपयोगी जानकारी निकाल सकते हैं। Biopython पर्यवेक्षित मशीन लर्निंग करने के लिए एल्गोरिदम का उपयोगी सेट प्रदान करता है।

पर्यवेक्षित अधिगम इनपुट चर (X) और आउटपुट चर (Y) पर आधारित है। यह इनपुट से आउटपुट तक मैपिंग फ़ंक्शन सीखने के लिए एक एल्गोरिथ्म का उपयोग करता है। यह नीचे परिभाषित किया गया है -

Y = f(X)

इस दृष्टिकोण का मुख्य उद्देश्य मैपिंग फ़ंक्शन को अनुमानित करना है और जब आपके पास नया इनपुट डेटा (x) है, तो आप उस डेटा के लिए आउटपुट चर (Y) की भविष्यवाणी कर सकते हैं।

लॉजिस्टिक रिग्रेशन मॉडल

लॉजिस्टिक रिग्रेशन एक सुपरवाइज्ड मशीन लर्निंग एल्गोरिथम है। यह भविष्यवाणियों के भारित योग का उपयोग करते हुए K वर्गों के बीच अंतर का पता लगाने के लिए उपयोग किया जाता है। यह एक घटना की संभावना की गणना करता है और कैंसर का पता लगाने के लिए इस्तेमाल किया जा सकता है।

बायोपिथॉन लॉजिस्टिक रिग्रेशन अल्गोरिथम के आधार पर वैरिएबल की भविष्यवाणी करने के लिए बायो.लिस्टिकरिग्रेशन मॉड्यूल प्रदान करता है। वर्तमान में, Biopython केवल दो वर्गों (K = 2) के लिए लॉजिस्टिक प्रतिगमन एल्गोरिथ्म लागू करता है।

k- निकटतम पड़ोसी

k- निकटतम पड़ोसी भी एक पर्यवेक्षित मशीन लर्निंग एल्गोरिदम है। यह निकटतम पड़ोसियों के आधार पर डेटा को वर्गीकृत करके काम करता है। Biopython k- निकटतम पड़ोसियों के एल्गोरिथ्म के आधार पर चर की भविष्यवाणी करने के लिए Bio.KNN मॉड्यूल प्रदान करता है।

भोले भाले

नैवे बेस क्लासिफायर बेयर्स प्रमेय के आधार पर वर्गीकरण एल्गोरिदम का एक संग्रह है। यह एक एकल एल्गोरिथ्म नहीं है, लेकिन एल्गोरिदम का एक परिवार है जहां सभी एक समान सिद्धांत साझा करते हैं, अर्थात वर्गीकृत की जा रही प्रत्येक जोड़ी एक दूसरे से स्वतंत्र है। बायोपथॉन Naive Bayes एल्गोरिदम के साथ काम करने के लिए Bio.NaiveBayes मॉड्यूल प्रदान करता है।

मार्कोव मॉडल

मार्कोव मॉडल एक गणितीय प्रणाली है जिसे यादृच्छिक चर के संग्रह के रूप में परिभाषित किया गया है, जो कुछ संभावित संभाव्य नियमों के अनुसार एक राज्य से दूसरे में संक्रमण का अनुभव करता है। बायोपथॉन प्रदान करता हैBio.MarkovModel and Bio.HMM.MarkovModel modules to work with Markov models

सॉफ़्टवेयर को बग-मुक्त करने के लिए बायोपथॉन के पास विभिन्न परिस्थितियों में सॉफ़्टवेयर का परीक्षण करने के लिए व्यापक परीक्षण स्क्रिप्ट है। परीक्षण स्क्रिप्ट चलाने के लिए, बायोपथॉन के स्रोत कोड को डाउनलोड करें और फिर नीचे दिए गए कमांड को चलाएं -

python run_tests.py

यह सभी परीक्षण स्क्रिप्ट चलाएगा और निम्न आउटपुट देगा -

Python version: 2.7.12 (v2.7.12:d33e0cf91556, Jun 26 2016, 12:10:39) 
[GCC 4.2.1 (Apple Inc. build 5666) (dot 3)] 
Operating system: posix darwin 
test_Ace ... ok 
test_Affy ... ok 
test_AlignIO ... ok 
test_AlignIO_ClustalIO ... ok 
test_AlignIO_EmbossIO ... ok 
test_AlignIO_FastaIO ... ok 
test_AlignIO_MauveIO ... ok 
test_AlignIO_PhylipIO ... ok 
test_AlignIO_convert ... ok 
........................................... 
...........................................

हम नीचे बताए अनुसार अलग-अलग टेस्ट स्क्रिप्ट भी चला सकते हैं -

python test_AlignIO.py

निष्कर्ष

जैसा कि हमने सीखा है, जैव सूचना विज्ञान के क्षेत्र में बायोपथॉन एक महत्वपूर्ण सॉफ्टवेयर है। अजगर में लिखा जा रहा है (सीखने और लिखने में आसान), यह जैव सूचना विज्ञान के क्षेत्र में किसी भी संगणना और संचालन से निपटने के लिए व्यापक कार्यक्षमता प्रदान करता है। यह लगभग सभी लोकप्रिय जैव सूचना विज्ञान सॉफ़्टवेयर को आसान और लचीला इंटरफ़ेस प्रदान करता है ताकि इसकी कार्यक्षमता का भी फायदा उठाया जा सके।