Biopython - Database Entrez

Entrezadalah sistem pencarian online yang disediakan oleh NCBI. Ini menyediakan akses ke hampir semua database biologi molekuler yang dikenal dengan kueri global terintegrasi yang mendukung operator Boolean dan pencarian lapangan. Ini mengembalikan hasil dari semua database dengan informasi seperti jumlah hit dari setiap database, catatan dengan link ke database asal, dll.

Beberapa database populer yang dapat diakses melalui Entrez tercantum di bawah ini -

  • Pubmed
  • Pubmed Central
  • Nukleotida (Database Urutan GenBank)
  • Protein (Database Urutan)
  • Genom (Basis Data Genom Utuh)
  • Struktur (Struktur Makromolekul Tiga Dimensi)
  • Taksonomi (Organisme di GenBank)
  • SNP (Polimorfisme Nukleotida Tunggal)
  • UniGene (Gene Oriented Clusters of Transcript Sequences)
  • CDD (Database Domain Protein yang Dilestarikan)
  • Domain 3D (Domain dari Entrez Structure)

Selain database di atas, Entrez menyediakan lebih banyak database untuk melakukan pencarian lapangan.

Biopython menyediakan modul khusus Entrez, Bio.Entrez untuk mengakses database Entrez. Mari kita pelajari cara mengakses Entrez menggunakan Biopython di bab ini -

Langkah-langkah Koneksi Database

Untuk menambahkan fitur Entrez, impor modul berikut -

>>> from Bio import Entrez

Selanjutnya atur email Anda untuk mengidentifikasi siapa yang terhubung dengan kode yang diberikan di bawah ini -

>>> Entrez.email = '<youremail>'

Kemudian, setel parameter alat Entrez dan secara default adalah Biopython.

>>> Entrez.tool = 'Demoscript'

Sekarang, call einfo function to find index term counts, last update, and available links for each database seperti yang didefinisikan di bawah -

>>> info = Entrez.einfo()

Metode einfo mengembalikan objek, yang menyediakan akses ke informasi melalui metode baca seperti yang ditunjukkan di bawah ini -

>>> data = info.read() 
>>> print(data) 
<?xml version = "1.0" encoding = "UTF-8" ?>
<!DOCTYPE eInfoResult PUBLIC "-//NLM//DTD einfo 20130322//EN" 
   "https://eutils.ncbi.nlm.nih.gov/eutils/dtd/20130322/einfo.dtd"> 
<eInfoResult>
   <DbList>
      <DbName>pubmed</DbName> 
      <DbName>protein</DbName>
      <DbName>nuccore</DbName> 
      <DbName>ipg</DbName> 
      <DbName>nucleotide</DbName>
      <DbName>nucgss</DbName> 
      <DbName>nucest</DbName>
      <DbName>structure</DbName>
      <DbName>sparcle</DbName>
      <DbName>genome</DbName>
      <DbName>annotinfo</DbName>
      <DbName>assembly</DbName> 
      <DbName>bioproject</DbName>
      <DbName>biosample</DbName>
      <DbName>blastdbinfo</DbName>
      <DbName>books</DbName> 
      <DbName>cdd</DbName>
      <DbName>clinvar</DbName> 
      <DbName>clone</DbName> 
      <DbName>gap</DbName> 
      <DbName>gapplus</DbName> 
      <DbName>grasp</DbName> 
      <DbName>dbvar</DbName>
      <DbName>gene</DbName> 
      <DbName>gds</DbName> 
      <DbName>geoprofiles</DbName>
      <DbName>homologene</DbName> 
      <DbName>medgen</DbName> 
      <DbName>mesh</DbName>
      <DbName>ncbisearch</DbName> 
      <DbName>nlmcatalog</DbName>
      <DbName>omim</DbName>
      <DbName>orgtrack</DbName>
      <DbName>pmc</DbName>
      <DbName>popset</DbName>
      <DbName>probe</DbName>
      <DbName>proteinclusters</DbName>
      <DbName>pcassay</DbName>
      <DbName>biosystems</DbName> 
      <DbName>pccompound</DbName> 
      <DbName>pcsubstance</DbName> 
      <DbName>pubmedhealth</DbName> 
      <DbName>seqannot</DbName> 
      <DbName>snp</DbName> 
      <DbName>sra</DbName> 
      <DbName>taxonomy</DbName> 
      <DbName>biocollections</DbName> 
      <DbName>unigene</DbName>
      <DbName>gencoll</DbName> 
      <DbName>gtr</DbName>
   </DbList> 
</eInfoResult>

Data dalam format XML, dan untuk mendapatkan data sebagai objek python, gunakan Entrez.read metode secepatnya Entrez.einfo() metode dipanggil -

>>> info = Entrez.einfo() 
>>> record = Entrez.read(info)

Di sini, record adalah kamus yang memiliki satu kunci, DbList seperti yang ditunjukkan di bawah ini -

>>> record.keys() 
[u'DbList']

Mengakses kunci DbList akan mengembalikan daftar nama database yang diperlihatkan di bawah ini -

>>> record[u'DbList'] 
['pubmed', 'protein', 'nuccore', 'ipg', 'nucleotide', 'nucgss', 
   'nucest', 'structure', 'sparcle', 'genome', 'annotinfo', 'assembly', 
   'bioproject', 'biosample', 'blastdbinfo', 'books', 'cdd', 'clinvar', 
   'clone', 'gap', 'gapplus', 'grasp', 'dbvar', 'gene', 'gds', 'geoprofiles', 
   'homologene', 'medgen', 'mesh', 'ncbisearch', 'nlmcatalog', 'omim', 
   'orgtrack', 'pmc', 'popset', 'probe', 'proteinclusters', 'pcassay', 
   'biosystems', 'pccompound', 'pcsubstance', 'pubmedhealth', 'seqannot', 
   'snp', 'sra', 'taxonomy', 'biocollections', 'unigene', 'gencoll', 'gtr'] 
>>>

Pada dasarnya, modul Entrez mengurai XML yang dikembalikan oleh sistem pencarian Entrez dan menyediakannya sebagai kamus dan daftar python.

Cari Database

Untuk mencari salah satu database Entrez, kita dapat menggunakan modul Bio.Entrez.esearch (). Ini didefinisikan di bawah -

>>> info = Entrez.einfo() 
>>> info = Entrez.esearch(db = "pubmed",term = "genome") 
>>> record = Entrez.read(info) 
>>>print(record) 
DictElement({u'Count': '1146113', u'RetMax': '20', u'IdList':
['30347444', '30347404', '30347317', '30347292', 
'30347286', '30347249', '30347194', '30347187', 
'30347172', '30347088', '30347075', '30346992', 
'30346990', '30346982', '30346980', '30346969', 
'30346962', '30346954', '30346941', '30346939'], 
u'TranslationStack': [DictElement({u'Count': 
'927819', u'Field': 'MeSH Terms', u'Term': '"genome"[MeSH Terms]', 
u'Explode': 'Y'}, attributes = {})
, DictElement({u'Count': '422712', u'Field': 
'All Fields', u'Term': '"genome"[All Fields]', u'Explode': 'N'}, attributes = {}), 
'OR', 'GROUP'], u'TranslationSet': [DictElement({u'To': '"genome"[MeSH Terms] 
OR "genome"[All Fields]', u'From': 'genome'}, attributes = {})], u'RetStart': '0', 
u'QueryTranslation': '"genome"[MeSH Terms] OR "genome"[All Fields]'}, 
attributes = {})
>>>

Jika Anda menetapkan db yang salah maka itu kembali

>>> info = Entrez.esearch(db = "blastdbinfo",term = "books")
>>> record = Entrez.read(info) 
>>> print(record) 
DictElement({u'Count': '0', u'RetMax': '0', u'IdList': [], 
u'WarningList': DictElement({u'OutputMessage': ['No items found.'], 
   u'PhraseIgnored': [], u'QuotedPhraseNotFound': []}, attributes = {}), 
   u'ErrorList': DictElement({u'FieldNotFound': [], u'PhraseNotFound': 
      ['books']}, attributes = {}), u'TranslationSet': [], u'RetStart': '0', 
      u'QueryTranslation': '(books[All Fields])'}, attributes = {})

Jika Anda ingin mencari di seluruh database, maka Anda dapat menggunakan Entrez.egquery. Ini mirip denganEntrez.esearch kecuali itu cukup untuk menentukan kata kunci dan melewatkan parameter database.

>>>info = Entrez.egquery(term = "entrez") 
>>> record = Entrez.read(info) 
>>> for row in record["eGQueryResult"]: 
... print(row["DbName"], row["Count"]) 
... 
pubmed 458 
pmc 12779 mesh 1 
... 
... 
... 
biosample 7 
biocollections 0

Ambil Rekaman

Enterz menyediakan metode khusus, efetch untuk mencari dan mendownload rincian lengkap catatan dari Entrez. Perhatikan contoh sederhana berikut -

>>> handle = Entrez.efetch(
   db = "nucleotide", id = "EU490707", rettype = "fasta")

Sekarang, kita cukup membaca record menggunakan objek SeqIO

>>> record = SeqIO.read( handle, "fasta" ) 
>>> record 
SeqRecord(seq = Seq('ATTTTTTACGAACCTGTGGAAATTTTTGGTTATGACAATAAATCTAGTTTAGTA...GAA', 
SingleLetterAlphabet()), id = 'EU490707.1', name = 'EU490707.1', 
description = 'EU490707.1 
Selenipedium aequinoctiale maturase K (matK) gene, partial cds; chloroplast', 
dbxrefs = [])