बायोपथॉन - मोटिफ ऑब्जेक्ट

एक अनुक्रम आकृति एक न्यूक्लियोटाइड या अमीनो-एसिड अनुक्रम पैटर्न है। अनुक्रम रूपांकनों का निर्माण अमीनो एसिड की त्रि-आयामी व्यवस्था द्वारा किया जाता है जो आसन्न नहीं हो सकता है। Biopython एक अलग मॉड्यूल प्रदान करता है, Bio.motifs नीचे दिए गए अनुसार अनुक्रम रूपांकनों की कार्यक्षमता तक पहुंचने के लिए -

from Bio import motifs

सरल डीएनए आकृति बनाना

आइए हम नीचे कमांड का उपयोग करते हुए एक सरल डीएनए आकृति अनुक्रम बनाते हैं -

>>> from Bio import motifs 
>>> from Bio.Seq import Seq 
>>> DNA_motif = [ Seq("AGCT"), 
...               Seq("TCGA"), 
...               Seq("AACT"), 
...             ] 
>>> seq = motifs.create(DNA_motif) 
>>> print(seq) AGCT TCGA AACT

अनुक्रम मानों को गिनने के लिए, नीचे दिए गए कमांड का उपयोग करें -

>>> print(seq.counts) 
         0       1      2       3 
A:    2.00    1.00   0.00    1.00 
C:    0.00    1.00   2.00    0.00 
G:    0.00    1.00   1.00    0.00 
T:    1.00    0.00   0.00    2.00

अनुक्रम में 'A' को गिनने के लिए निम्नलिखित कोड का उपयोग करें -

>>> seq.counts["A", :] 
(2, 1, 0, 1)

यदि आप कोट्स के कॉलम को एक्सेस करना चाहते हैं, तो नीचे दिए गए कमांड का उपयोग करें -

>>> seq.counts[:, 3] 
{'A': 1, 'C': 0, 'T': 2, 'G': 0}

अनुक्रम लोगो बनाना

अब हम चर्चा करेंगे कि एक अनुक्रम लोगो कैसे बनाया जाए।

नीचे दिए गए अनुक्रम पर विचार करें -

AGCTTACG 
ATCGTACC 
TTCCGAAT 
GGTACGTA 
AAGCTTGG

आप निम्न लिंक का उपयोग करके अपना खुद का लोगो बना सकते हैं - http://weblogo.berkeley.edu/

उपरोक्त अनुक्रम जोड़ें और एक नया लोगो बनाएं और अपने बायोपथॉन फ़ोल्डर में seq.png नाम की छवि को सहेजें।

seq.png

छवि बनाने के बाद, अब निम्नलिखित कमांड चलाएँ -

>>> seq.weblogo("seq.png")

इस डीएनए अनुक्रम आकृति को लेक्सा-बाइंडिंग आकृति के लिए अनुक्रम लोगो के रूप में दर्शाया गया है।

JASPAR डेटाबेस

JASPAR सबसे लोकप्रिय डेटाबेस में से एक है। यह दृश्यों को पढ़ने, लिखने और स्कैनिंग के लिए किसी भी आकृति प्रारूप की सुविधाएं प्रदान करता है। यह प्रत्येक आकृति के लिए मेटा-जानकारी संग्रहीत करता है।The module Bio.motifs contains a specialized class jaspar.Motif to represent meta-information attributes

इसके निम्नलिखित उल्लेखनीय गुण हैं -

  • मैट्रिक्स_आईडी - अद्वितीय जस्पार आकृति आईडी
  • नाम - आकृति का नाम
  • tf_family - मोटिफ का परिवार, उदाहरण के लिए 'हेलिक्स-लूप-हेलिक्स'
  • data_type - रूपांकनों में प्रयुक्त डेटा का प्रकार।

आइए हम एक JASPAR साइटों का प्रारूप बनाते हैं जिसका नाम नमूना है। बायोपथॉन फ़ोल्डर में नमूने। यह नीचे परिभाषित किया गया है -

sample.sites
>MA0001 ARNT 1 
AACGTGatgtccta 
>MA0001 ARNT 2 
CAGGTGggatgtac 
>MA0001 ARNT 3 
TACGTAgctcatgc 
>MA0001 ARNT 4 
AACGTGacagcgct 
>MA0001 ARNT 5 
CACGTGcacgtcgt 
>MA0001 ARNT 6 
cggcctCGCGTGc

उपरोक्त फ़ाइल में, हमने मोटिफ इंस्टेंसेस बनाए हैं। अब, हम उपरोक्त उदाहरणों से एक आकृति वस्तु बनाते हैं -

>>> from Bio import motifs 
>>> with open("sample.sites") as handle: 
... data = motifs.read(handle,"sites") 
... 
>>> print(data) 
TF name None 
Matrix ID None 
Matrix:
            0       1       2       3       4       5 
A:       2.00    5.00    0.00    0.00    0.00    1.00 
C:       3.00    0.00    5.00    0.00    0.00    0.00 
G:       0.00    1.00    1.00    6.00    0.00    5.00 
T:       1.00    0.00    0.00    0.00    6.00    0.00

यहां, डेटा sample.sites फ़ाइल से सभी आकृति उदाहरणों को पढ़ता है।

डेटा से सभी उदाहरणों को प्रिंट करने के लिए, नीचे दिए गए कमांड का उपयोग करें -

>>> for instance in data.instances: 
...    print(instance) 
... 
AACGTG 
CAGGTG 
TACGTA 
AACGTG 
CACGTG 
CGCGTG

सभी मानों को गिनने के लिए नीचे दिए गए कमांड का उपयोग करें -

>>> print(data.counts)
            0       1       2       3       4       5 
A:       2.00    5.00    0.00    0.00    0.00    1.00 
C:       3.00    0.00    5.00    0.00    0.00    0.00 
G:       0.00    1.00    1.00    6.00    0.00    5.00 
T:       1.00    0.00    0.00    0.00    6.00    0.00
>>>