बायोपथॉन - प्लॉटिंग
यह अध्याय बताता है कि अनुक्रमों को कैसे प्लॉट करना है। इस विषय पर जाने से पहले, हमें प्लॉटिंग की मूल बातें समझ लेनी चाहिए।
प्लॉटिंग
Matplotlib एक पायथन प्लॉटिंग लाइब्रेरी है जो विभिन्न स्वरूपों में गुणवत्ता के आंकड़े पैदा करता है। हम विभिन्न प्रकार के प्लॉट बना सकते हैं जैसे लाइन चार्ट, हिस्टोग्राम, बार चार्ट, पाई चार्ट, स्कैटर चार्ट इत्यादि।
pyLab is a module that belongs to the matplotlib which combines the numerical module numpy with the graphical plotting module pyplot.बायोपथॉन अनुक्रमों की साजिश रचने के लिए पाइलैब मॉड्यूल का उपयोग करता है। ऐसा करने के लिए, हमें नीचे दिए गए कोड को आयात करना होगा -
import pylab
आयात करने से पहले, हमें नीचे दिए गए कमांड के साथ पाइप कमांड का उपयोग करके matplotlib पैकेज स्थापित करने की आवश्यकता है -
pip install matplotlib
नमूना इनपुट फ़ाइल
नाम से एक नमूना फ़ाइल बनाएँ plot.fasta अपने Biopython निर्देशिका में और निम्नलिखित परिवर्तन जोड़ें -
>seq0 FQTWEEFSRAAEKLYLADPMKVRVVLKYRHVDGNLCIKVTDDLVCLVYRTDQAQDVKKIEKF
>seq1 KYRTWEEFTRAAEKLYQADPMKVRVVLKYRHCDGNLCIKVTDDVVCLLYRTDQAQDVKKIEKFHSQLMRLME
>seq2 EEYQTWEEFARAAEKLYLTDPMKVRVVLKYRHCDGNLCMKVTDDAVCLQYKTDQAQDVKKVEKLHGK
>seq3 MYQVWEEFSRAVEKLYLTDPMKVRVVLKYRHCDGNLCIKVTDNSVCLQYKTDQAQDV
>seq4 EEFSRAVEKLYLTDPMKVRVVLKYRHCDGNLCIKVTDNSVVSYEMRLFGVQKDNFALEHSLL
>seq5 SWEEFAKAAEVLYLEDPMKCRMCTKYRHVDHKLVVKLTDNHTVLKYVTDMAQDVKKIEKLTTLLMR
>seq6 FTNWEEFAKAAERLHSANPEKCRFVTKYNHTKGELVLKLTDDVVCLQYSTNQLQDVKKLEKLSSTLLRSI
>seq7 SWEEFVERSVQLFRGDPNATRYVMKYRHCEGKLVLKVTDDRECLKFKTDQAQDAKKMEKLNNIFF
>seq8 SWDEFVDRSVQLFRADPESTRYVMKYRHCDGKLVLKVTDNKECLKFKTDQAQEAKKMEKLNNIFFTLM
>seq9 KNWEDFEIAAENMYMANPQNCRYTMKYVHSKGHILLKMSDNVKCVQYRAENMPDLKK
>seq10 FDSWDEFVSKSVELFRNHPDTTRYVVKYRHCEGKLVLKVTDNHECLKFKTDQAQDAKKMEK
लाइन प्लॉट
अब, उपर्युक्त फास्टा फ़ाइल के लिए एक सरल रेखा प्लॉट बनाते हैं।
Step 1 Fasta फ़ाइल को पढ़ने के लिए SeqIO मॉड्यूल आयात करें।
>>> from Bio import SeqIO
Step 2 - इनपुट फ़ाइल पार्स।
>>> records = [len(rec) for rec in SeqIO.parse("plot.fasta", "fasta")]
>>> len(records)
11
>>> max(records)
72
>>> min(records)
57
Step 3 - पाइलैब मॉड्यूल आयात करते हैं।
>>> import pylab
Step 4 - x और y अक्ष लेबल असाइन करके लाइन चार्ट को कॉन्फ़िगर करें।
>>> pylab.xlabel("sequence length")
Text(0.5, 0, 'sequence length')
>>> pylab.ylabel("count")
Text(0, 0.5, 'count')
>>>
Step 5 - ग्रिड डिस्प्ले सेट करके लाइन चार्ट को कॉन्फ़िगर करें।
>>> pylab.grid()
Step 6 - प्लॉट विधि को कॉल करके और इनपुट के रूप में रिकॉर्ड की आपूर्ति करके सरल लाइन चार्ट बनाएं।
>>> pylab.plot(records)
[<matplotlib.lines.Line2D object at 0x10b6869d 0>]
Step 7 - अंत में नीचे दिए गए कमांड का उपयोग करके चार्ट को सेव करें।
>>> pylab.savefig("lines.png")
परिणाम
उपरोक्त कमांड निष्पादित करने के बाद, आप अपनी बायोपथॉन डायरेक्टरी में सेव की गई निम्न छवि देख सकते हैं।
हिस्टोग्राम चार्ट
हिस्टोग्राम का उपयोग निरंतर डेटा के लिए किया जाता है, जहां डिब्बे डेटा की श्रेणियों का प्रतिनिधित्व करते हैं। ड्राइंग हिस्टोग्राम pylab.plot को छोड़कर लाइन चार्ट के समान है। इसके बजाय, रिकॉर्ड के साथ पाइलैब मॉड्यूल की हिस्ट विधि और डिब्बे के लिए कुछ हिरासत मूल्य (5) कहते हैं। पूरा कोडिंग इस प्रकार है -
Step 1 Fasta फ़ाइल को पढ़ने के लिए SeqIO मॉड्यूल आयात करें।
>>> from Bio import SeqIO
Step 2 - इनपुट फ़ाइल पार्स।
>>> records = [len(rec) for rec in SeqIO.parse("plot.fasta", "fasta")]
>>> len(records)
11
>>> max(records)
72
>>> min(records)
57
Step 3 - पाइलैब मॉड्यूल आयात करते हैं।
>>> import pylab
Step 4 - x और y अक्ष लेबल असाइन करके लाइन चार्ट को कॉन्फ़िगर करें।
>>> pylab.xlabel("sequence length")
Text(0.5, 0, 'sequence length')
>>> pylab.ylabel("count")
Text(0, 0.5, 'count')
>>>
Step 5 - ग्रिड डिस्प्ले सेट करके लाइन चार्ट को कॉन्फ़िगर करें।
>>> pylab.grid()
Step 6 - प्लॉट विधि को कॉल करके और इनपुट के रूप में रिकॉर्ड की आपूर्ति करके सरल लाइन चार्ट बनाएं।
>>> pylab.hist(records,bins=5)
(array([2., 3., 1., 3., 2.]), array([57., 60., 63., 66., 69., 72.]), <a list
of 5 Patch objects>)
>>>
Step 7 - अंत में नीचे दिए गए कमांड का उपयोग करके चार्ट को सेव करें।
>>> pylab.savefig("hist.png")
परिणाम
उपरोक्त कमांड निष्पादित करने के बाद, आप अपनी बायोपथॉन डायरेक्टरी में सेव की गई निम्न छवि देख सकते हैं।
अनुक्रम में जीसी प्रतिशत
जीसी प्रतिशत विभिन्न अनुक्रमों की तुलना करने के लिए आमतौर पर उपयोग किए जाने वाले विश्लेषणात्मक डेटा में से एक है। हम दृश्यों के एक सेट के जीसी प्रतिशत का उपयोग करके एक सरल लाइन चार्ट कर सकते हैं और तुरंत इसकी तुलना कर सकते हैं। यहां, हम केवल अनुक्रम लंबाई से जीसी प्रतिशत तक डेटा बदल सकते हैं। पूरा कोडिंग नीचे दिया गया है -
Step 1 Fasta फ़ाइल को पढ़ने के लिए SeqIO मॉड्यूल आयात करें।
>>> from Bio import SeqIO
Step 2 - इनपुट फ़ाइल पार्स।
>>> from Bio.SeqUtils import GC
>>> gc = sorted(GC(rec.seq) for rec in SeqIO.parse("plot.fasta", "fasta"))
Step 3 - पाइलैब मॉड्यूल आयात करते हैं।
>>> import pylab
Step 4 - x और y अक्ष लेबल असाइन करके लाइन चार्ट को कॉन्फ़िगर करें।
>>> pylab.xlabel("Genes")
Text(0.5, 0, 'Genes')
>>> pylab.ylabel("GC Percentage")
Text(0, 0.5, 'GC Percentage')
>>>
Step 5 - ग्रिड डिस्प्ले सेट करके लाइन चार्ट को कॉन्फ़िगर करें।
>>> pylab.grid()
Step 6 - प्लॉट विधि को कॉल करके और इनपुट के रूप में रिकॉर्ड की आपूर्ति करके सरल लाइन चार्ट बनाएं।
>>> pylab.plot(gc)
[<matplotlib.lines.Line2D object at 0x10b6869d 0>]
Step 7 - अंत में नीचे दिए गए कमांड का उपयोग करके चार्ट को सेव करें।
>>> pylab.savefig("gc.png")
परिणाम
उपरोक्त कमांड निष्पादित करने के बाद, आप अपनी बायोपथॉन डायरेक्टरी में सेव की गई निम्न छवि देख सकते हैं।