बायोपथॉन - एन्ट्रीज़ डेटाबेस
Entrezएनसीबीआई द्वारा प्रदान की गई एक ऑनलाइन खोज प्रणाली है। यह बूलियन ऑपरेटरों और क्षेत्र खोज का समर्थन करने वाली एक एकीकृत वैश्विक क्वेरी के साथ लगभग सभी ज्ञात आणविक जीव विज्ञान डेटाबेस तक पहुंच प्रदान करता है। यह सभी डेटाबेस से परिणाम की सूचना देता है जैसे प्रत्येक डेटाबेस से हिट की संख्या, मूल डेटाबेस से लिंक के साथ रिकॉर्ड आदि।
कुछ लोकप्रिय डेटाबेस जिन्हें एन्ट्रीज़ के माध्यम से एक्सेस किया जा सकता है, वे नीचे सूचीबद्ध हैं -
- Pubmed
- पबड सेंट्रल
- न्यूक्लियोटाइड (जेनबैंक अनुक्रम डेटाबेस)
- प्रोटीन (अनुक्रम डेटाबेस)
- जीनोम (संपूर्ण जीनोम डेटाबेस)
- संरचना (तीन आयामी macromolecular संरचना)
- वर्गीकरण (जेनबैंक में जीव)
- एसएनपी (एकल न्यूक्लियोटाइड बहुरूपता)
- यूनीजेन (जीनियन ओरिएंटेड क्लस्टर्स ऑफ ट्रांसस्क्रिप्ट अनुक्रम)
- सीडीडी (संरक्षित प्रोटीन डोमेन डेटाबेस)
- 3D डोमेन (Entrez संरचना से डोमेन)
उपरोक्त डेटाबेस के अलावा, Entrez फ़ील्ड खोज करने के लिए कई और डेटाबेस प्रदान करता है।
Biopython Entrez डेटाबेस तक पहुँचने के लिए एक Entrez विशिष्ट मॉड्यूल, Bio.Entrez प्रदान करता है। आइए इस अध्याय में बायोपीथॉन का उपयोग करके एंट्रेज़ तक पहुँचने का तरीका जानें -
डेटाबेस कनेक्शन चरण
Entrez की सुविधाओं को जोड़ने के लिए, निम्न मॉड्यूल को आयात करें -
>>> from Bio import Entrez
नीचे दिए गए कोड से कौन जुड़ा है, इसकी पहचान करने के लिए अपना ईमेल सेट करें -
>>> Entrez.email = '<youremail>'
फिर, Entrez टूल पैरामीटर सेट करें और डिफ़ॉल्ट रूप से, यह Biopython है।
>>> Entrez.tool = 'Demoscript'
अभी, call einfo function to find index term counts, last update, and available links for each database जैसा कि नीचे परिभाषित किया गया है -
>>> info = Entrez.einfo()
Einfo पद्धति एक वस्तु लौटाती है, जो नीचे दी गई जानकारी को पढ़ने की विधि के माध्यम से जानकारी प्रदान करती है -
>>> data = info.read()
>>> print(data)
<?xml version = "1.0" encoding = "UTF-8" ?>
<!DOCTYPE eInfoResult PUBLIC "-//NLM//DTD einfo 20130322//EN"
"https://eutils.ncbi.nlm.nih.gov/eutils/dtd/20130322/einfo.dtd">
<eInfoResult>
<DbList>
<DbName>pubmed</DbName>
<DbName>protein</DbName>
<DbName>nuccore</DbName>
<DbName>ipg</DbName>
<DbName>nucleotide</DbName>
<DbName>nucgss</DbName>
<DbName>nucest</DbName>
<DbName>structure</DbName>
<DbName>sparcle</DbName>
<DbName>genome</DbName>
<DbName>annotinfo</DbName>
<DbName>assembly</DbName>
<DbName>bioproject</DbName>
<DbName>biosample</DbName>
<DbName>blastdbinfo</DbName>
<DbName>books</DbName>
<DbName>cdd</DbName>
<DbName>clinvar</DbName>
<DbName>clone</DbName>
<DbName>gap</DbName>
<DbName>gapplus</DbName>
<DbName>grasp</DbName>
<DbName>dbvar</DbName>
<DbName>gene</DbName>
<DbName>gds</DbName>
<DbName>geoprofiles</DbName>
<DbName>homologene</DbName>
<DbName>medgen</DbName>
<DbName>mesh</DbName>
<DbName>ncbisearch</DbName>
<DbName>nlmcatalog</DbName>
<DbName>omim</DbName>
<DbName>orgtrack</DbName>
<DbName>pmc</DbName>
<DbName>popset</DbName>
<DbName>probe</DbName>
<DbName>proteinclusters</DbName>
<DbName>pcassay</DbName>
<DbName>biosystems</DbName>
<DbName>pccompound</DbName>
<DbName>pcsubstance</DbName>
<DbName>pubmedhealth</DbName>
<DbName>seqannot</DbName>
<DbName>snp</DbName>
<DbName>sra</DbName>
<DbName>taxonomy</DbName>
<DbName>biocollections</DbName>
<DbName>unigene</DbName>
<DbName>gencoll</DbName>
<DbName>gtr</DbName>
</DbList>
</eInfoResult>
डेटा XML प्रारूप में है, और डेटा को अजगर ऑब्जेक्ट के रूप में प्राप्त करने के लिए उपयोग करें Entrez.read जैसे ही विधि Entrez.einfo() विधि लागू है -
>>> info = Entrez.einfo()
>>> record = Entrez.read(info)
यहाँ, रिकॉर्ड एक शब्दकोश है जिसमें एक कुंजी है, डीबीएलस्ट नीचे दिखाया गया है -
>>> record.keys()
[u'DbList']
DbList कुंजी तक पहुँचने से नीचे दिखाए गए डेटाबेस नामों की सूची मिलती है -
>>> record[u'DbList']
['pubmed', 'protein', 'nuccore', 'ipg', 'nucleotide', 'nucgss',
'nucest', 'structure', 'sparcle', 'genome', 'annotinfo', 'assembly',
'bioproject', 'biosample', 'blastdbinfo', 'books', 'cdd', 'clinvar',
'clone', 'gap', 'gapplus', 'grasp', 'dbvar', 'gene', 'gds', 'geoprofiles',
'homologene', 'medgen', 'mesh', 'ncbisearch', 'nlmcatalog', 'omim',
'orgtrack', 'pmc', 'popset', 'probe', 'proteinclusters', 'pcassay',
'biosystems', 'pccompound', 'pcsubstance', 'pubmedhealth', 'seqannot',
'snp', 'sra', 'taxonomy', 'biocollections', 'unigene', 'gencoll', 'gtr']
>>>
मूल रूप से, एन्ट्रेज़ मॉड्यूल पार्स करता है एक्सएमएल एंट्रेज़ खोज प्रणाली द्वारा लौटाया गया है और इसे अजगर शब्दकोश और सूचियों के रूप में प्रदान करता है।
डेटाबेस खोजें
Entrez डेटाबेस में से किसी एक को खोजने के लिए हम Bio.Entrez.esearch () मॉड्यूल का उपयोग कर सकते हैं। यह नीचे परिभाषित किया गया है -
>>> info = Entrez.einfo()
>>> info = Entrez.esearch(db = "pubmed",term = "genome")
>>> record = Entrez.read(info)
>>>print(record)
DictElement({u'Count': '1146113', u'RetMax': '20', u'IdList':
['30347444', '30347404', '30347317', '30347292',
'30347286', '30347249', '30347194', '30347187',
'30347172', '30347088', '30347075', '30346992',
'30346990', '30346982', '30346980', '30346969',
'30346962', '30346954', '30346941', '30346939'],
u'TranslationStack': [DictElement({u'Count':
'927819', u'Field': 'MeSH Terms', u'Term': '"genome"[MeSH Terms]',
u'Explode': 'Y'}, attributes = {})
, DictElement({u'Count': '422712', u'Field':
'All Fields', u'Term': '"genome"[All Fields]', u'Explode': 'N'}, attributes = {}),
'OR', 'GROUP'], u'TranslationSet': [DictElement({u'To': '"genome"[MeSH Terms]
OR "genome"[All Fields]', u'From': 'genome'}, attributes = {})], u'RetStart': '0',
u'QueryTranslation': '"genome"[MeSH Terms] OR "genome"[All Fields]'},
attributes = {})
>>>
यदि आप गलत db असाइन करते हैं तो यह वापस आ जाता है
>>> info = Entrez.esearch(db = "blastdbinfo",term = "books")
>>> record = Entrez.read(info)
>>> print(record)
DictElement({u'Count': '0', u'RetMax': '0', u'IdList': [],
u'WarningList': DictElement({u'OutputMessage': ['No items found.'],
u'PhraseIgnored': [], u'QuotedPhraseNotFound': []}, attributes = {}),
u'ErrorList': DictElement({u'FieldNotFound': [], u'PhraseNotFound':
['books']}, attributes = {}), u'TranslationSet': [], u'RetStart': '0',
u'QueryTranslation': '(books[All Fields])'}, attributes = {})
यदि आप डेटाबेस में खोज करना चाहते हैं, तो आप उपयोग कर सकते हैं Entrez.egquery। इस के समान हैEntrez.esearch सिवाय इसके कि यह कीवर्ड को निर्दिष्ट करने और डेटाबेस पैरामीटर को छोड़ने के लिए पर्याप्त है।
>>>info = Entrez.egquery(term = "entrez")
>>> record = Entrez.read(info)
>>> for row in record["eGQueryResult"]:
... print(row["DbName"], row["Count"])
...
pubmed 458
pmc 12779 mesh 1
...
...
...
biosample 7
biocollections 0
रिकॉर्ड प्राप्त करें
Enterz एक विशेष विधि प्रदान करता है, Entrez से रिकॉर्ड का पूरा विवरण खोजने और डाउनलोड करने के लिए efetch। निम्नलिखित सरल उदाहरण पर विचार करें -
>>> handle = Entrez.efetch(
db = "nucleotide", id = "EU490707", rettype = "fasta")
अब, हम बस Seqio ऑब्जेक्ट का उपयोग करके रिकॉर्ड पढ़ सकते हैं
>>> record = SeqIO.read( handle, "fasta" )
>>> record
SeqRecord(seq = Seq('ATTTTTTACGAACCTGTGGAAATTTTTGGTTATGACAATAAATCTAGTTTAGTA...GAA',
SingleLetterAlphabet()), id = 'EU490707.1', name = 'EU490707.1',
description = 'EU490707.1
Selenipedium aequinoctiale maturase K (matK) gene, partial cds; chloroplast',
dbxrefs = [])