बायोपथॉन - पीडीबी मॉड्यूल
पॉलीपेप्टाइड संरचनाओं में हेरफेर करने के लिए बायोपथॉन बायोप्सी मॉड्यूल प्रदान करता है। पीडीबी (प्रोटीन डेटा बैंक) ऑनलाइन उपलब्ध सबसे बड़ा प्रोटीन संरचना संसाधन है। यह प्रोटीन-प्रोटीन, प्रोटीन-डीएनए, प्रोटीन-आरएनए परिसरों सहित कई विशिष्ट प्रोटीन संरचनाओं को होस्ट करता है।
PDB लोड करने के लिए, नीचे दी गई कमांड टाइप करें -
from Bio.PDB import *
प्रोटीन संरचना फ़ाइल प्रारूप
पीडीबी तीन अलग-अलग स्वरूपों में प्रोटीन संरचनाओं को वितरित करता है -
- XML- आधारित फ़ाइल स्वरूप जो Biopython द्वारा समर्थित नहीं है
- Pdb फ़ाइल स्वरूप, जो एक विशेष रूप से स्वरूपित पाठ फ़ाइल है
- PDBx / mmCIF फ़ाइल स्वरूप
प्रोटीन डाटा बैंक द्वारा वितरित पीडीबी फाइलों में प्रारूपण करने की त्रुटियां हो सकती हैं जो उन्हें अस्पष्ट या पार्स करने में कठिन बनाती हैं। Bio.PDB मॉड्यूल स्वचालित रूप से इन त्रुटियों से निपटने का प्रयास करता है।
Bio.PDB मॉड्यूल दो अलग-अलग पार्सर लागू करता है, एक है mmCIF प्रारूप और दूसरा है pdb प्रारूप।
आइए जानें कि प्रारूप के प्रत्येक भाग को विस्तार से कैसे लिखा जाए -
mmCIF पार्सर
नीचे कमांड का उपयोग करके pdb सर्वर से mmCIF प्रारूप में एक उदाहरण डेटाबेस डाउनलोड करें -
>>> pdbl = PDBList()
>>> pdbl.retrieve_pdb_file('2FAT', pdir = '.', file_format = 'mmCif')
यह सर्वर से निर्दिष्ट फ़ाइल (2fat.cif) डाउनलोड करेगा और इसे वर्तमान कार्य निर्देशिका में संग्रहीत करेगा।
यहां, PDBList ऑनलाइन पीडीबी एफ़टीपी सर्वर से फ़ाइलों को सूचीबद्ध करने और डाउनलोड करने के लिए विकल्प प्रदान करता है। पुनर्प्राप्ति_pdb_file विधि को एक्सटेंशन के बिना फ़ाइल के नाम की आवश्यकता है। पुनर्प्राप्त_पद_फाइल के पास फ़ाइल की निर्देशिका, पीडीएआर और प्रारूप को डाउनलोड करने का विकल्प भी है, file_format। फ़ाइल प्रारूप के संभावित मूल्य इस प्रकार हैं -
- "MmCif" (डिफ़ॉल्ट, PDBx / mmCif फ़ाइल)
- "पीडीबी" (प्रारूप पीडीबी)
- "Xml" (PMDML / XML प्रारूप)
- "एमएमटीएफ" (अत्यधिक संकुचित)
- "बंडल" (बड़ी संरचना के लिए पीडीबी स्वरूपित संग्रह)
सीआईएफ फ़ाइल लोड करने के लिए, नीचे दिए गए अनुसार Bio.MMCIF.MMCIFParser का उपयोग करें -
>>> parser = MMCIFParser(QUIET = True)
>>> data = parser.get_structure("2FAT", "2FAT.cif")
यहाँ, QUIET फ़ाइल को पार्स करने के दौरान चेतावनी को दबा देता है। get_structure will parse the file and return the structure with id as 2FAT (पहला तर्क)।
उपरोक्त कमांड चलाने के बाद, यह फ़ाइल को पार्स करता है और यदि संभव हो तो चेतावनी को प्रिंट करता है।
अब, नीचे दिए गए कमांड का उपयोग करके संरचना की जांच करें -
>>> data
<Structure id = 2FAT>
To get the type, use type method as specified below,
>>> print(type(data))
<class 'Bio.PDB.Structure.Structure'>
हमने फ़ाइल को सफलतापूर्वक पार्स किया है और प्रोटीन की संरचना प्राप्त की है। हम प्रोटीन संरचना के विवरण और बाद के अध्याय में इसे प्राप्त करने का तरीका जानेंगे।
पीडीबी पार्सर
नीचे दिए गए कमांड का उपयोग करके पीडीबी सर्वर से पीडीबी प्रारूप में एक उदाहरण डेटाबेस डाउनलोड करें -
>>> pdbl = PDBList()
>>> pdbl.retrieve_pdb_file('2FAT', pdir = '.', file_format = 'pdb')
यह सर्वर से निर्दिष्ट फ़ाइल (pdb2fat.ent) डाउनलोड करेगा और इसे वर्तमान कार्यशील निर्देशिका में संग्रहीत करेगा।
Pdb फ़ाइल लोड करने के लिए, नीचे दिए अनुसार Bio.PDB.PDBParser का उपयोग करें -
>>> parser = PDBParser(PERMISSIVE = True, QUIET = True)
>>> data = parser.get_structure("2fat","pdb2fat.ent")
यहाँ, get_structure MMCIFParser के समान है। संभावित विकल्प प्रोटीन डेटा को यथासंभव लचीला बनाने की कोशिश करते हैं।
अब, नीचे दिए गए कोड स्निपेट के साथ संरचना और उसके प्रकार की जांच करें -
>>> data
<Structure id = 2fat>
>>> print(type(data))
<class 'Bio.PDB.Structure.Structure'>
खैर, हेडर संरचना शब्दकोश जानकारी संग्रहीत करता है। इसे करने के लिए, नीचे दिया गया कमांड टाइप करें -
>>> print(data.header.keys()) dict_keys([
'name', 'head', 'deposition_date', 'release_date', 'structure_method', 'resolution',
'structure_reference', 'journal_reference', 'author', 'compound', 'source',
'keywords', 'journal'])
>>>
नाम पाने के लिए, निम्नलिखित कोड का उपयोग करें -
>>> print(data.header["name"])
an anti-urokinase plasminogen activator receptor (upar) antibody: crystal
structure and binding epitope
>>>
आप नीचे दिए गए कोड के साथ दिनांक और रिज़ॉल्यूशन भी देख सकते हैं -
>>> print(data.header["release_date"]) 2006-11-14
>>> print(data.header["resolution"]) 1.77
PDB संरचना
पीडीबी संरचना एक एकल मॉडल से बना है, जिसमें दो श्रृंखलाएं हैं।
- श्रृंखला एल, जिसमें अवशेषों की संख्या है
- श्रृंखला एच, जिसमें अवशेषों की संख्या है
प्रत्येक अवशेष कई परमाणुओं से बना होता है, प्रत्येक का 3 डी स्थिति (x, y, z) निर्देशांक द्वारा प्रतिनिधित्व होता है।
आइए जानें नीचे दिए गए भाग में विस्तार से परमाणु की संरचना कैसे प्राप्त करें -
नमूना
संरचना.गेट_मॉडल () विधि मॉडल पर एक पुनरावृत्ति देता है। यह नीचे परिभाषित किया गया है -
>>> model = data.get_models()
>>> model
<generator object get_models at 0x103fa1c80>
>>> models = list(model)
>>> models [<Model id = 0>]
>>> type(models[0])
<class 'Bio.PDB.Model.Model'>
यहाँ, एक मॉडल ठीक एक 3 डी का वर्णन करता है। इसमें एक या एक से अधिक जंजीरें होती हैं।
जंजीर
Model.get_chain () विधि जंजीरों पर एक पुनरावृत्ति देता है। यह नीचे परिभाषित किया गया है -
>>> chains = list(models[0].get_chains())
>>> chains
[<Chain id = L>, <Chain id = H>]
>>> type(chains[0])
<class 'Bio.PDB.Chain.Chain'>
यहां, चेन एक उचित पॉलीपेप्टाइड संरचना का वर्णन करता है, अर्थात, बाउंड अवशेषों का एक निरंतर अनुक्रम।
अवशेष
Chain.get_residues () विधि अवशेषों पर एक पुनरावृत्ति देता है। यह नीचे परिभाषित किया गया है -
>>> residue = list(chains[0].get_residues())
>>> len(residue)
293
>>> residue1 = list(chains[1].get_residues())
>>> len(residue1)
311
खैर, अवशेषों में उन परमाणुओं को रखा गया है जो अमीनो एसिड के हैं।
परमाणुओं
रेसिड्यू.गेट_टॉम () नीचे दिए गए अनुसार परमाणुओं पर एक पुनरावृत्ति देता है -
>>> atoms = list(residue[0].get_atoms())
>>> atoms
[<Atom N>, <Atom CA>, <Atom C>, <Atom Ov, <Atom CB>, <Atom CG>, <Atom OD1>, <Atom OD2>]
एक परमाणु एक परमाणु का 3 डी समन्वय रखता है और इसे एक वेक्टर कहा जाता है। इसे नीचे परिभाषित किया गया है
>>> atoms[0].get_vector()
<Vector 18.49, 73.26, 44.16>
यह x, y और z को-ऑर्डिनेट वैल्यू का प्रतिनिधित्व करता है।