बायोपथॉन - अनुक्रम
एक अनुक्रम एक जीव के प्रोटीन, डीएनए या आरएनए का प्रतिनिधित्व करने के लिए उपयोग किए जाने वाले पत्रों की श्रृंखला है। यह Seq वर्ग द्वारा दर्शाया गया है। Seq वर्ग Bio.Seq मॉड्यूल में परिभाषित किया गया है।
चलो नीचे दिखाए गए अनुसार बायोपथॉन में एक सरल अनुक्रम बनाते हैं -
>>> from Bio.Seq import Seq
>>> seq = Seq("AGCT")
>>> seq
Seq('AGCT')
>>> print(seq)
AGCT
यहां, हमने एक सरल प्रोटीन अनुक्रम बनाया है AGCT और प्रत्येक अक्षर का प्रतिनिधित्व करता है Alanine, Glycine, Cयस्टीन और Threonine।
प्रत्येक Seq ऑब्जेक्ट की दो महत्वपूर्ण विशेषताएं हैं -
डेटा - वास्तविक अनुक्रम स्ट्रिंग (AGCT)
वर्णमाला - अनुक्रम के प्रकार का प्रतिनिधित्व करने के लिए उपयोग किया जाता है। जैसे डीएनए अनुक्रम, आरएनए अनुक्रम, आदि। डिफ़ॉल्ट रूप से, यह किसी भी अनुक्रम का प्रतिनिधित्व नहीं करता है और प्रकृति में सामान्य है।
वर्णमाला मॉड्यूल
अनुक्रम वस्तुओं में अनुक्रम प्रकार, पत्र और संभावित संचालन को निर्दिष्ट करने के लिए वर्णमाला विशेषता शामिल है। इसे Bio.Alphabet मॉड्यूल में परिभाषित किया गया है। वर्णमाला को नीचे के रूप में परिभाषित किया जा सकता है -
>>> from Bio.Seq import Seq
>>> myseq = Seq("AGCT")
>>> myseq
Seq('AGCT')
>>> myseq.alphabet
Alphabet()
वर्णमाला मॉड्यूल विभिन्न प्रकार के अनुक्रमों का प्रतिनिधित्व करने के लिए नीचे की कक्षाएं प्रदान करता है। वर्णमाला - सभी प्रकार के वर्णमालाओं के लिए आधार वर्ग।
SingleLetterAlphabet - आकार के अक्षरों के साथ सामान्य वर्णमाला। यह वर्णमाला से प्राप्त होता है और अन्य सभी अक्षर इसके प्रकार से प्राप्त होते हैं।
>>> from Bio.Seq import Seq
>>> from Bio.Alphabet import single_letter_alphabet
>>> test_seq = Seq('AGTACACTGGT', single_letter_alphabet)
>>> test_seq
Seq('AGTACACTGGT', SingleLetterAlphabet())
प्रोटीनएल्फाबेट - जेनेरिक एकल अक्षर प्रोटीन वर्णमाला।
>>> from Bio.Seq import Seq
>>> from Bio.Alphabet import generic_protein
>>> test_seq = Seq('AGTACACTGGT', generic_protein)
>>> test_seq
Seq('AGTACACTGGT', ProteinAlphabet())
न्यूक्लिओटाइडलाइपलाइन - जेनेरिक एकल अक्षर न्यूक्लियोटाइड वर्णमाला।
>>> from Bio.Seq import Seq
>>> from Bio.Alphabet import generic_nucleotide
>>> test_seq = Seq('AGTACACTGGT', generic_nucleotide) >>> test_seq
Seq('AGTACACTGGT', NucleotideAlphabet())
DNAAlphabet - जेनेरिक एकल अक्षर डीएनए वर्णमाला।
>>> from Bio.Seq import Seq
>>> from Bio.Alphabet import generic_dna
>>> test_seq = Seq('AGTACACTGGT', generic_dna)
>>> test_seq
Seq('AGTACACTGGT', DNAAlphabet())
RNAAlphabet - सामान्य एकल अक्षर RNA वर्णमाला।
>>> from Bio.Seq import Seq
>>> from Bio.Alphabet import generic_rna
>>> test_seq = Seq('AGTACACTGGT', generic_rna)
>>> test_seq
Seq('AGTACACTGGT', RNAAlphabet())
बायोपथॉन मॉड्यूल, Bio.Alphabet.IUPAC IUPAC समुदाय द्वारा परिभाषित मूल अनुक्रम प्रकार प्रदान करता है। इसमें निम्न वर्ग शामिल हैं -
IUPACProtein (protein) - आईयूपीएसी प्रोटीन 20 मानक अमीनो एसिड की वर्णमाला।
ExtendedIUPACProtein (extended_protein) - एक्स सहित विस्तारित अपरकेस IUPAC प्रोटीन एकल अक्षर वर्णमाला।
IUPACAmbiguousDNA (ambiguous_dna) - अपरकेस आइयूपीएसी अस्पष्ट डीएनए।
IUPACUnambiguousDNA (unambiguous_dna) - अपरकेस IUPAC अस्पष्ट डीएनए (GATC)।
ExtendedIUPACDNA (extended_dna) - विस्तारित IUPAC डीएनए वर्णमाला।
IUPACAmbiguousRNA (ambiguous_rna) - अपरकेस IUPAC अस्पष्ट RNA।
IUPACUnambiguousRNA (unambiguous_rna) - अपरकेस IUPAC अस्पष्ट आरएनए (GAUC)।
नीचे दिखाए गए अनुसार IUPACProtein वर्ग के लिए एक सरल उदाहरण पर विचार करें -
>>> from Bio.Alphabet import IUPAC
>>> protein_seq = Seq("AGCT", IUPAC.protein)
>>> protein_seq
Seq('AGCT', IUPACProtein())
>>> protein_seq.alphabet
इसके अलावा, Biopython बायोडेटा मॉड्यूल के माध्यम से सभी जैव सूचना विज्ञान संबंधित कॉन्फ़िगरेशन डेटा को उजागर करता है। उदाहरण के लिए, IUPACData.protein_letters में IUPACProtein वर्णमाला के संभावित अक्षर हैं।
>>> from Bio.Data import IUPACData
>>> IUPACData.protein_letters
'ACDEFGHIKLMNPQRSTVWY'
मूलभूत क्रियाएं
यह खंड Seq वर्ग में उपलब्ध सभी बुनियादी कार्यों के बारे में संक्षेप में बताता है। अनुक्रम अजगर के तार के समान हैं। हम अनुक्रम में कताई, गिनती, संघनन, खोज, विभाजन और पट्टी जैसे अजगर स्ट्रिंग ऑपरेशन कर सकते हैं।
विभिन्न आउटपुट प्राप्त करने के लिए नीचे दिए गए कोड का उपयोग करें।
To get the first value in sequence.
>>> seq_string = Seq("AGCTAGCT")
>>> seq_string[0]
'A'
To print the first two values.
>>> seq_string[0:2]
Seq('AG')
To print all the values.
>>> seq_string[ : ]
Seq('AGCTAGCT')
To perform length and count operations.
>>> len(seq_string)
8
>>> seq_string.count('A')
2
To add two sequences.
>>> from Bio.Alphabet import generic_dna, generic_protein
>>> seq1 = Seq("AGCT", generic_dna)
>>> seq2 = Seq("TCGA", generic_dna)
>>> seq1+seq2
Seq('AGCTTCGA', DNAAlphabet())
यहां, उपरोक्त दो अनुक्रम ऑब्जेक्ट, seq1, seq2 जेनेरिक डीएनए अनुक्रम हैं और इसलिए आप उन्हें जोड़ सकते हैं और नए अनुक्रम का उत्पादन कर सकते हैं। आप असंगत अक्षर के साथ अनुक्रम नहीं जोड़ सकते हैं, जैसे कि प्रोटीन अनुक्रम और नीचे दिए गए अनुसार एक डीएनए अनुक्रम -
>>> dna_seq = Seq('AGTACACTGGT', generic_dna)
>>> protein_seq = Seq('AGUACACUGGU', generic_protein)
>>> dna_seq + protein_seq
.....
.....
TypeError: Incompatible alphabets DNAAlphabet() and ProteinAlphabet()
>>>
दो या दो से अधिक दृश्यों को जोड़ने के लिए, पहले इसे एक अजगर सूची में संग्रहीत करें, फिर 'लूप के लिए' का उपयोग करके इसे पुनः प्राप्त करें और अंत में इसे नीचे दिखाए अनुसार जोड़ दें -
>>> from Bio.Alphabet import generic_dna
>>> list = [Seq("AGCT",generic_dna),Seq("TCGA",generic_dna),Seq("AAA",generic_dna)]
>>> for s in list:
... print(s)
...
AGCT
TCGA
AAA
>>> final_seq = Seq(" ",generic_dna)
>>> for s in list:
... final_seq = final_seq + s
...
>>> final_seq
Seq('AGCTTCGAAAA', DNAAlphabet())
नीचे दिए गए अनुभाग में, आवश्यकता के आधार पर आउटपुट प्राप्त करने के लिए विभिन्न कोड दिए गए हैं।
To change the case of sequence.
>>> from Bio.Alphabet import generic_rna
>>> rna = Seq("agct", generic_rna)
>>> rna.upper()
Seq('AGCT', RNAAlphabet())
To check python membership and identity operator.
>>> rna = Seq("agct", generic_rna)
>>> 'a' in rna
True
>>> 'A' in rna
False
>>> rna1 = Seq("AGCT", generic_dna)
>>> rna is rna1
False
To find single letter or sequence of letter inside the given sequence.
>>> protein_seq = Seq('AGUACACUGGU', generic_protein)
>>> protein_seq.find('G')
1
>>> protein_seq.find('GG')
8
To perform splitting operation.
>>> protein_seq = Seq('AGUACACUGGU', generic_protein)
>>> protein_seq.split('A')
[Seq('', ProteinAlphabet()), Seq('GU', ProteinAlphabet()),
Seq('C', ProteinAlphabet()), Seq('CUGGU', ProteinAlphabet())]
To perform strip operations in the sequence.
>>> strip_seq = Seq(" AGCT ")
>>> strip_seq
Seq(' AGCT ')
>>> strip_seq.strip()
Seq('AGCT')