बायोपथॉन - अनुक्रम I / O संचालन
बायोपथॉन क्रमशः, एक फ़ाइल और (किसी भी स्ट्रीम) से अनुक्रम पढ़ने और लिखने के लिए एक मॉड्यूल, बायोसाइको प्रदान करता है। यह जैव सूचना विज्ञान में उपलब्ध लगभग सभी फ़ाइल स्वरूपों का समर्थन करता है। अधिकांश सॉफ्टवेयर विभिन्न फ़ाइल स्वरूपों के लिए अलग-अलग दृष्टिकोण प्रदान करते हैं। लेकिन, Biopython जानबूझकर अपने SeqRecord ऑब्जेक्ट के माध्यम से उपयोगकर्ता को पार्स अनुक्रम अनुक्रम प्रस्तुत करने के लिए एकल दृष्टिकोण का अनुसरण करता है।
आइए हम निम्नलिखित अनुभाग में SeqRecord के बारे में अधिक जानें।
SeqRecord
Bio.SeqRecord मॉड्यूल SeqRecord को अनुक्रम की मेटा जानकारी और साथ ही नीचे दिए गए अनुक्रम डेटा को रखने के लिए प्रदान करता है -
seq - यह एक वास्तविक अनुक्रम है।
आईडी - यह दिए गए अनुक्रम का प्राथमिक पहचानकर्ता है। डिफ़ॉल्ट प्रकार स्ट्रिंग है।
name - यह अनुक्रम का नाम है। डिफ़ॉल्ट प्रकार स्ट्रिंग है।
विवरण - यह अनुक्रम के बारे में मानव पठनीय जानकारी प्रदर्शित करता है।
एनोटेशन - यह अनुक्रम के बारे में अतिरिक्त जानकारी का एक शब्दकोश है।
SeqRecord नीचे निर्दिष्ट के रूप में आयात किया जा सकता है
from Bio.SeqRecord import SeqRecord
आइए हम आने वाले अनुभागों में वास्तविक अनुक्रम फ़ाइल का उपयोग करके अनुक्रम फ़ाइल को पार्स करने की बारीकियों को समझते हैं।
पार्सिंग अनुक्रम फ़ाइल प्रारूप
यह अनुभाग सबसे लोकप्रिय अनुक्रम फ़ाइल स्वरूपों में से दो को पार्स करने के तरीके के बारे में बताता है, FASTA तथा GenBank।
FASTA
FASTAअनुक्रम डेटा संग्रहीत करने के लिए सबसे बुनियादी फ़ाइल प्रारूप है। मूल रूप से, FASTA डीएनए और प्रोटीन के अनुक्रम संरेखण के लिए एक सॉफ्टवेयर पैकेज है जो जैव सूचना विज्ञान के प्रारंभिक विकास के दौरान विकसित किया गया था और इसका उपयोग ज्यादातर अनुक्रम समानता को खोजने के लिए किया गया था।
Biopython एक उदाहरण FASTA फ़ाइल प्रदान करता है और इसे एक्सेस किया जा सकता है https://github.com/biopython/biopython/blob/master/Doc/examples/ls_orchid.fasta.
डाउनलोड करें और इस फ़ाइल को अपनी बायोपथॉन नमूना निर्देशिका में सहेजें ‘orchid.fasta’।
Bio.SeqIO मॉड्यूल अनुक्रम फ़ाइलों को संसाधित करने के लिए पार्स () विधि प्रदान करता है और निम्नानुसार आयात किया जा सकता है -
from Bio.SeqIO import parse
पार्स () विधि में दो तर्क होते हैं, पहला फ़ाइल हैंडल और दूसरा फ़ाइल स्वरूप है।
>>> file = open('path/to/biopython/sample/orchid.fasta')
>>> for record in parse(file, "fasta"):
... print(record.id)
...
gi|2765658|emb|Z78533.1|CIZ78533
gi|2765657|emb|Z78532.1|CCZ78532
..........
..........
gi|2765565|emb|Z78440.1|PPZ78440
gi|2765564|emb|Z78439.1|PBZ78439
>>>
यहां, पार्स () विधि एक पुनरावृत्त वस्तु देता है जो हर पुनरावृत्ति पर SeqRecord लौटाता है। चलने योग्य होने के नाते, यह बहुत सारे परिष्कृत और आसान तरीके प्रदान करता है और हमें कुछ विशेषताओं को देखने देता है।
आगे()
अगला () विधि पुनरावृत्त वस्तु में उपलब्ध अगले आइटम को लौटाता है, जिसका उपयोग हम नीचे दिए गए अनुसार पहले अनुक्रम को प्राप्त करने के लिए कर सकते हैं -
>>> first_seq_record = next(SeqIO.parse(open('path/to/biopython/sample/orchid.fasta'),'fasta'))
>>> first_seq_record.id 'gi|2765658|emb|Z78533.1|CIZ78533'
>>> first_seq_record.name 'gi|2765658|emb|Z78533.1|CIZ78533'
>>> first_seq_record.seq Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGATGAGACCGTGG...CGC', SingleLetterAlphabet())
>>> first_seq_record.description 'gi|2765658|emb|Z78533.1|CIZ78533 C.irapeanum 5.8S rRNA gene and ITS1 and ITS2 DNA'
>>> first_seq_record.annotations
{}
>>>
यहां, seq_record.annotations खाली है क्योंकि FASTA प्रारूप अनुक्रम एनोटेशन का समर्थन नहीं करता है।
सूची की समझ
हम नीचे दिए गए अनुसार सूची की समझ का उपयोग करके पुनरावृत्त वस्तु को सूची में बदल सकते हैं
>>> seq_iter = SeqIO.parse(open('path/to/biopython/sample/orchid.fasta'),'fasta')
>>> all_seq = [seq_record for seq_record in seq_iter] >>> len(all_seq)
94
>>>
यहां, हमने कुल गणना प्राप्त करने के लिए लेन विधि का उपयोग किया है। हम अधिकतम लंबाई के साथ अनुक्रम प्राप्त कर सकते हैं -
>>> seq_iter = SeqIO.parse(open('path/to/biopython/sample/orchid.fasta'),'fasta')
>>> max_seq = max(len(seq_record.seq) for seq_record in seq_iter)
>>> max_seq
789
>>>
हम नीचे दिए गए कोड का उपयोग करके अनुक्रम को फ़िल्टर कर सकते हैं -
>>> seq_iter = SeqIO.parse(open('path/to/biopython/sample/orchid.fasta'),'fasta')
>>> seq_under_600 = [seq_record for seq_record in seq_iter if len(seq_record.seq) < 600]
>>> for seq in seq_under_600:
... print(seq.id)
...
gi|2765606|emb|Z78481.1|PIZ78481
gi|2765605|emb|Z78480.1|PGZ78480
gi|2765601|emb|Z78476.1|PGZ78476
gi|2765595|emb|Z78470.1|PPZ78470
gi|2765594|emb|Z78469.1|PHZ78469
gi|2765564|emb|Z78439.1|PBZ78439
>>>
फ़ाइल में SqlRecord ऑब्जेक्ट्स (पार्स किए गए डेटा) का संग्रह लिखना उतना ही सरल है जितना नीचे SeqIO.write विधि को कॉल करना -
file = open("converted.fasta", "w)
SeqIO.write(seq_record, file, "fasta")
इस विधि को प्रभावी रूप से नीचे दिए गए प्रारूप में बदलने के लिए उपयोग किया जा सकता है -
file = open("converted.gbk", "w)
SeqIO.write(seq_record, file, "genbank")
GenBank
यह जीन के लिए एक समृद्ध अनुक्रम प्रारूप है और इसमें विभिन्न प्रकार के एनोटेशन के लिए फ़ील्ड शामिल हैं। बायोपथॉन जेनबैंक फ़ाइल एक उदाहरण प्रदान करता है और इसे एक्सेस किया जा सकता हैhttps://github.com/biopython/biopython/blob/master/Doc/examples/ls_orchid.fasta.
डाउनलोड करें और फ़ाइल को अपनी बायोपथॉन नमूना निर्देशिका में सहेजें ‘orchid.gbk’
चूंकि, बायोपथॉन सभी जैव सूचना विज्ञान प्रारूप को पार्स करने के लिए एक एकल फ़ंक्शन, पार्स प्रदान करता है। पार्स विधि में प्रारूप विकल्प को बदलने के रूप में जेनबैंक प्रारूप को पार्स करना उतना ही सरल है।
उसी के लिए कोड नीचे दिया गया है -
>>> from Bio import SeqIO
>>> from Bio.SeqIO import parse
>>> seq_record = next(parse(open('path/to/biopython/sample/orchid.gbk'),'genbank'))
>>> seq_record.id
'Z78533.1'
>>> seq_record.name
'Z78533'
>>> seq_record.seq Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGATGAGACCGTGG...CGC', IUPACAmbiguousDNA())
>>> seq_record.description
'C.irapeanum 5.8S rRNA gene and ITS1 and ITS2 DNA'
>>> seq_record.annotations {
'molecule_type': 'DNA',
'topology': 'linear',
'data_file_division': 'PLN',
'date': '30-NOV-2006',
'accessions': ['Z78533'],
'sequence_version': 1,
'gi': '2765658',
'keywords': ['5.8S ribosomal RNA', '5.8S rRNA gene', 'internal transcribed spacer', 'ITS1', 'ITS2'],
'source': 'Cypripedium irapeanum',
'organism': 'Cypripedium irapeanum',
'taxonomy': [
'Eukaryota',
'Viridiplantae',
'Streptophyta',
'Embryophyta',
'Tracheophyta',
'Spermatophyta',
'Magnoliophyta',
'Liliopsida',
'Asparagales',
'Orchidaceae',
'Cypripedioideae',
'Cypripedium'],
'references': [
Reference(title = 'Phylogenetics of the slipper orchids (Cypripedioideae:
Orchidaceae): nuclear rDNA ITS sequences', ...),
Reference(title = 'Direct Submission', ...)
]
}