बायोपथॉन - अनुक्रम

एक अनुक्रम एक जीव के प्रोटीन, डीएनए या आरएनए का प्रतिनिधित्व करने के लिए उपयोग किए जाने वाले पत्रों की श्रृंखला है। यह Seq वर्ग द्वारा दर्शाया गया है। Seq वर्ग Bio.Seq मॉड्यूल में परिभाषित किया गया है।

चलो नीचे दिखाए गए अनुसार बायोपथॉन में एक सरल अनुक्रम बनाते हैं -

>>> from Bio.Seq import Seq 
>>> seq = Seq("AGCT") 
>>> seq 
Seq('AGCT') 
>>> print(seq) 
AGCT

यहां, हमने एक सरल प्रोटीन अनुक्रम बनाया है AGCT और प्रत्येक अक्षर का प्रतिनिधित्व करता है Alanine, Glycine, Cयस्टीन और Threonine।

प्रत्येक Seq ऑब्जेक्ट की दो महत्वपूर्ण विशेषताएं हैं -

  • डेटा - वास्तविक अनुक्रम स्ट्रिंग (AGCT)

  • वर्णमाला - अनुक्रम के प्रकार का प्रतिनिधित्व करने के लिए उपयोग किया जाता है। जैसे डीएनए अनुक्रम, आरएनए अनुक्रम, आदि। डिफ़ॉल्ट रूप से, यह किसी भी अनुक्रम का प्रतिनिधित्व नहीं करता है और प्रकृति में सामान्य है।

वर्णमाला मॉड्यूल

अनुक्रम वस्तुओं में अनुक्रम प्रकार, पत्र और संभावित संचालन को निर्दिष्ट करने के लिए वर्णमाला विशेषता शामिल है। इसे Bio.Alphabet मॉड्यूल में परिभाषित किया गया है। वर्णमाला को नीचे के रूप में परिभाषित किया जा सकता है -

>>> from Bio.Seq import Seq 
>>> myseq = Seq("AGCT") 
>>> myseq 
Seq('AGCT') 
>>> myseq.alphabet 
Alphabet()

वर्णमाला मॉड्यूल विभिन्न प्रकार के अनुक्रमों का प्रतिनिधित्व करने के लिए नीचे की कक्षाएं प्रदान करता है। वर्णमाला - सभी प्रकार के वर्णमालाओं के लिए आधार वर्ग।

SingleLetterAlphabet - आकार के अक्षरों के साथ सामान्य वर्णमाला। यह वर्णमाला से प्राप्त होता है और अन्य सभी अक्षर इसके प्रकार से प्राप्त होते हैं।

>>> from Bio.Seq import Seq 
>>> from Bio.Alphabet import single_letter_alphabet 
>>> test_seq = Seq('AGTACACTGGT', single_letter_alphabet) 
>>> test_seq 
Seq('AGTACACTGGT', SingleLetterAlphabet())

प्रोटीनएल्फाबेट - जेनेरिक एकल अक्षर प्रोटीन वर्णमाला।

>>> from Bio.Seq import Seq 
>>> from Bio.Alphabet import generic_protein 
>>> test_seq = Seq('AGTACACTGGT', generic_protein) 
>>> test_seq 
Seq('AGTACACTGGT', ProteinAlphabet())

न्यूक्लिओटाइडलाइपलाइन - जेनेरिक एकल अक्षर न्यूक्लियोटाइड वर्णमाला।

>>> from Bio.Seq import Seq 
>>> from Bio.Alphabet import generic_nucleotide 
>>> test_seq = Seq('AGTACACTGGT', generic_nucleotide) >>> test_seq 
Seq('AGTACACTGGT', NucleotideAlphabet())

DNAAlphabet - जेनेरिक एकल अक्षर डीएनए वर्णमाला।

>>> from Bio.Seq import Seq 
>>> from Bio.Alphabet import generic_dna 
>>> test_seq = Seq('AGTACACTGGT', generic_dna) 
>>> test_seq 
Seq('AGTACACTGGT', DNAAlphabet())

RNAAlphabet - सामान्य एकल अक्षर RNA वर्णमाला।

>>> from Bio.Seq import Seq 
>>> from Bio.Alphabet import generic_rna 
>>> test_seq = Seq('AGTACACTGGT', generic_rna) 
>>> test_seq 
Seq('AGTACACTGGT', RNAAlphabet())

बायोपथॉन मॉड्यूल, Bio.Alphabet.IUPAC IUPAC समुदाय द्वारा परिभाषित मूल अनुक्रम प्रकार प्रदान करता है। इसमें निम्न वर्ग शामिल हैं -

  • IUPACProtein (protein) - आईयूपीएसी प्रोटीन 20 मानक अमीनो एसिड की वर्णमाला।

  • ExtendedIUPACProtein (extended_protein) - एक्स सहित विस्तारित अपरकेस IUPAC प्रोटीन एकल अक्षर वर्णमाला।

  • IUPACAmbiguousDNA (ambiguous_dna) - अपरकेस आइयूपीएसी अस्पष्ट डीएनए।

  • IUPACUnambiguousDNA (unambiguous_dna) - अपरकेस IUPAC अस्पष्ट डीएनए (GATC)।

  • ExtendedIUPACDNA (extended_dna) - विस्तारित IUPAC डीएनए वर्णमाला।

  • IUPACAmbiguousRNA (ambiguous_rna) - अपरकेस IUPAC अस्पष्ट RNA।

  • IUPACUnambiguousRNA (unambiguous_rna) - अपरकेस IUPAC अस्पष्ट आरएनए (GAUC)।

नीचे दिखाए गए अनुसार IUPACProtein वर्ग के लिए एक सरल उदाहरण पर विचार करें -

>>> from Bio.Alphabet import IUPAC 
>>> protein_seq = Seq("AGCT", IUPAC.protein) 
>>> protein_seq 
Seq('AGCT', IUPACProtein()) 
>>> protein_seq.alphabet

इसके अलावा, Biopython बायोडेटा मॉड्यूल के माध्यम से सभी जैव सूचना विज्ञान संबंधित कॉन्फ़िगरेशन डेटा को उजागर करता है। उदाहरण के लिए, IUPACData.protein_letters में IUPACProtein वर्णमाला के संभावित अक्षर हैं।

>>> from Bio.Data import IUPACData 
>>> IUPACData.protein_letters 
'ACDEFGHIKLMNPQRSTVWY'

मूलभूत क्रियाएं

यह खंड Seq वर्ग में उपलब्ध सभी बुनियादी कार्यों के बारे में संक्षेप में बताता है। अनुक्रम अजगर के तार के समान हैं। हम अनुक्रम में कताई, गिनती, संघनन, खोज, विभाजन और पट्टी जैसे अजगर स्ट्रिंग ऑपरेशन कर सकते हैं।

विभिन्न आउटपुट प्राप्त करने के लिए नीचे दिए गए कोड का उपयोग करें।

To get the first value in sequence.

>>> seq_string = Seq("AGCTAGCT") 
>>> seq_string[0] 
'A'

To print the first two values.

>>> seq_string[0:2] 
Seq('AG')

To print all the values.

>>> seq_string[ : ] 
Seq('AGCTAGCT')

To perform length and count operations.

>>> len(seq_string) 
8 
>>> seq_string.count('A') 
2

To add two sequences.

>>> from Bio.Alphabet import generic_dna, generic_protein 
>>> seq1 = Seq("AGCT", generic_dna) 
>>> seq2 = Seq("TCGA", generic_dna)
>>> seq1+seq2 
Seq('AGCTTCGA', DNAAlphabet())

यहां, उपरोक्त दो अनुक्रम ऑब्जेक्ट, seq1, seq2 जेनेरिक डीएनए अनुक्रम हैं और इसलिए आप उन्हें जोड़ सकते हैं और नए अनुक्रम का उत्पादन कर सकते हैं। आप असंगत अक्षर के साथ अनुक्रम नहीं जोड़ सकते हैं, जैसे कि प्रोटीन अनुक्रम और नीचे दिए गए अनुसार एक डीएनए अनुक्रम -

>>> dna_seq = Seq('AGTACACTGGT', generic_dna) 
>>> protein_seq = Seq('AGUACACUGGU', generic_protein) 
>>> dna_seq + protein_seq 
..... 
..... 
TypeError: Incompatible alphabets DNAAlphabet() and ProteinAlphabet() 
>>>

दो या दो से अधिक दृश्यों को जोड़ने के लिए, पहले इसे एक अजगर सूची में संग्रहीत करें, फिर 'लूप के लिए' का उपयोग करके इसे पुनः प्राप्त करें और अंत में इसे नीचे दिखाए अनुसार जोड़ दें -

>>> from Bio.Alphabet import generic_dna 
>>> list = [Seq("AGCT",generic_dna),Seq("TCGA",generic_dna),Seq("AAA",generic_dna)] 
>>> for s in list: 
... print(s) 
... 
AGCT 
TCGA 
AAA 
>>> final_seq = Seq(" ",generic_dna) 
>>> for s in list: 
... final_seq = final_seq + s 
... 
>>> final_seq 
Seq('AGCTTCGAAAA', DNAAlphabet())

नीचे दिए गए अनुभाग में, आवश्यकता के आधार पर आउटपुट प्राप्त करने के लिए विभिन्न कोड दिए गए हैं।

To change the case of sequence.

>>> from Bio.Alphabet import generic_rna 
>>> rna = Seq("agct", generic_rna) 
>>> rna.upper() 
Seq('AGCT', RNAAlphabet())

To check python membership and identity operator.

>>> rna = Seq("agct", generic_rna) 
>>> 'a' in rna 
True 
>>> 'A' in rna 
False 
>>> rna1 = Seq("AGCT", generic_dna) 
>>> rna is rna1 
False

To find single letter or sequence of letter inside the given sequence.

>>> protein_seq = Seq('AGUACACUGGU', generic_protein) 
>>> protein_seq.find('G') 
1 
>>> protein_seq.find('GG') 
8

To perform splitting operation.

>>> protein_seq = Seq('AGUACACUGGU', generic_protein) 
>>> protein_seq.split('A') 
[Seq('', ProteinAlphabet()), Seq('GU', ProteinAlphabet()), 
   Seq('C', ProteinAlphabet()), Seq('CUGGU', ProteinAlphabet())]

To perform strip operations in the sequence.

>>> strip_seq = Seq(" AGCT ") 
>>> strip_seq 
Seq(' AGCT ') 
>>> strip_seq.strip() 
Seq('AGCT')