Biopython - Banco de dados Entrez

Entrezé um sistema de pesquisa online fornecido pelo NCBI. Ele fornece acesso a quase todos os bancos de dados de biologia molecular conhecidos com uma consulta global integrada que oferece suporte a operadores booleanos e pesquisa de campo. Ele retorna resultados de todos os bancos de dados com informações como o número de acessos de cada banco de dados, registros com links para o banco de dados de origem, etc.

Alguns dos bancos de dados populares que podem ser acessados através do Entrez estão listados abaixo -

Pubmed
Pubmed Central
Nucleotídeo (banco de dados de sequência GenBank)
Proteína (banco de dados de sequência)
Genoma (banco de dados do genoma inteiro)
Estrutura (Estrutura Macromolecular Tridimensional)
Taxonomia (Organismos no GenBank)
SNP (polimorfismo de nucleotídeo único)
UniGene (clusters de sequências de transcrição orientadas por genes)
CDD (Conserved Protein Domain Database)
Domínios 3D (Domínios da Estrutura Entrez)

Além dos bancos de dados acima, o Entrez fornece muitos outros bancos de dados para realizar a pesquisa de campo.

Biopython fornece um módulo específico do Entrez, Bio.Entrez, para acessar o banco de dados do Entrez. Vamos aprender como acessar o Entrez usando Biopython neste capítulo -

Etapas de conexão de banco de dados

Para adicionar os recursos do Entrez, importe o seguinte módulo -

>>> from Bio import Entrez

Em seguida, defina seu e-mail para identificar quem está conectado com o código fornecido abaixo -

>>> Entrez.email = '<youremail>'

Em seguida, defina o parâmetro da ferramenta Entrez e, por padrão, é Biopython.

>>> Entrez.tool = 'Demoscript'

Agora, call einfo function to find index term counts, last update, and available links for each database conforme definido abaixo -

>>> info = Entrez.einfo()

O método einfo retorna um objeto, que fornece acesso às informações por meio de seu método de leitura, conforme mostrado abaixo -

>>> data = info.read() 
>>> print(data) 
<?xml version = "1.0" encoding = "UTF-8" ?>
<!DOCTYPE eInfoResult PUBLIC "-//NLM//DTD einfo 20130322//EN" 
   "https://eutils.ncbi.nlm.nih.gov/eutils/dtd/20130322/einfo.dtd"> 
<eInfoResult>
   <DbList>
      <DbName>pubmed</DbName> 
      <DbName>protein</DbName>
      <DbName>nuccore</DbName> 
      <DbName>ipg</DbName> 
      <DbName>nucleotide</DbName>
      <DbName>nucgss</DbName> 
      <DbName>nucest</DbName>
      <DbName>structure</DbName>
      <DbName>sparcle</DbName>
      <DbName>genome</DbName>
      <DbName>annotinfo</DbName>
      <DbName>assembly</DbName> 
      <DbName>bioproject</DbName>
      <DbName>biosample</DbName>
      <DbName>blastdbinfo</DbName>
      <DbName>books</DbName> 
      <DbName>cdd</DbName>
      <DbName>clinvar</DbName> 
      <DbName>clone</DbName> 
      <DbName>gap</DbName> 
      <DbName>gapplus</DbName> 
      <DbName>grasp</DbName> 
      <DbName>dbvar</DbName>
      <DbName>gene</DbName> 
      <DbName>gds</DbName> 
      <DbName>geoprofiles</DbName>
      <DbName>homologene</DbName> 
      <DbName>medgen</DbName> 
      <DbName>mesh</DbName>
      <DbName>ncbisearch</DbName> 
      <DbName>nlmcatalog</DbName>
      <DbName>omim</DbName>
      <DbName>orgtrack</DbName>
      <DbName>pmc</DbName>
      <DbName>popset</DbName>
      <DbName>probe</DbName>
      <DbName>proteinclusters</DbName>
      <DbName>pcassay</DbName>
      <DbName>biosystems</DbName> 
      <DbName>pccompound</DbName> 
      <DbName>pcsubstance</DbName> 
      <DbName>pubmedhealth</DbName> 
      <DbName>seqannot</DbName> 
      <DbName>snp</DbName> 
      <DbName>sra</DbName> 
      <DbName>taxonomy</DbName> 
      <DbName>biocollections</DbName> 
      <DbName>unigene</DbName>
      <DbName>gencoll</DbName> 
      <DbName>gtr</DbName>
   </DbList> 
</eInfoResult>

Os dados estão no formato XML e, para obter os dados como objeto python, use Entrez.read método assim que Entrez.einfo() método é invocado -

>>> info = Entrez.einfo() 
>>> record = Entrez.read(info)

Aqui, registro é um dicionário que tem uma chave, DbList conforme mostrado abaixo -

>>> record.keys() 
[u'DbList']

Acessar a chave DbList retorna a lista de nomes de banco de dados mostrada abaixo -

>>> record[u'DbList'] 
['pubmed', 'protein', 'nuccore', 'ipg', 'nucleotide', 'nucgss', 
   'nucest', 'structure', 'sparcle', 'genome', 'annotinfo', 'assembly', 
   'bioproject', 'biosample', 'blastdbinfo', 'books', 'cdd', 'clinvar', 
   'clone', 'gap', 'gapplus', 'grasp', 'dbvar', 'gene', 'gds', 'geoprofiles', 
   'homologene', 'medgen', 'mesh', 'ncbisearch', 'nlmcatalog', 'omim', 
   'orgtrack', 'pmc', 'popset', 'probe', 'proteinclusters', 'pcassay', 
   'biosystems', 'pccompound', 'pcsubstance', 'pubmedhealth', 'seqannot', 
   'snp', 'sra', 'taxonomy', 'biocollections', 'unigene', 'gencoll', 'gtr'] 
>>>

Basicamente, o módulo Entrez analisa o XML retornado pelo sistema de pesquisa Entrez e fornece-o como listas e dicionário python.

Banco de dados de pesquisa

Para pesquisar qualquer um dos bancos de dados Entrez, podemos usar o módulo Bio.Entrez.esearch (). É definido abaixo -

>>> info = Entrez.einfo() 
>>> info = Entrez.esearch(db = "pubmed",term = "genome") 
>>> record = Entrez.read(info) 
>>>print(record) 
DictElement({u'Count': '1146113', u'RetMax': '20', u'IdList':
['30347444', '30347404', '30347317', '30347292', 
'30347286', '30347249', '30347194', '30347187', 
'30347172', '30347088', '30347075', '30346992', 
'30346990', '30346982', '30346980', '30346969', 
'30346962', '30346954', '30346941', '30346939'], 
u'TranslationStack': [DictElement({u'Count': 
'927819', u'Field': 'MeSH Terms', u'Term': '"genome"[MeSH Terms]', 
u'Explode': 'Y'}, attributes = {})
, DictElement({u'Count': '422712', u'Field': 
'All Fields', u'Term': '"genome"[All Fields]', u'Explode': 'N'}, attributes = {}), 
'OR', 'GROUP'], u'TranslationSet': [DictElement({u'To': '"genome"[MeSH Terms] 
OR "genome"[All Fields]', u'From': 'genome'}, attributes = {})], u'RetStart': '0', 
u'QueryTranslation': '"genome"[MeSH Terms] OR "genome"[All Fields]'}, 
attributes = {})
>>>

Se você atribuir um banco de dados incorreto, ele retornará

>>> info = Entrez.esearch(db = "blastdbinfo",term = "books")
>>> record = Entrez.read(info) 
>>> print(record) 
DictElement({u'Count': '0', u'RetMax': '0', u'IdList': [], 
u'WarningList': DictElement({u'OutputMessage': ['No items found.'], 
   u'PhraseIgnored': [], u'QuotedPhraseNotFound': []}, attributes = {}), 
   u'ErrorList': DictElement({u'FieldNotFound': [], u'PhraseNotFound': 
      ['books']}, attributes = {}), u'TranslationSet': [], u'RetStart': '0', 
      u'QueryTranslation': '(books[All Fields])'}, attributes = {})

Se você deseja pesquisar no banco de dados, pode usar Entrez.egquery. Isso é semelhante aEntrez.esearch exceto que é suficiente especificar a palavra-chave e ignorar o parâmetro do banco de dados.

>>>info = Entrez.egquery(term = "entrez") 
>>> record = Entrez.read(info) 
>>> for row in record["eGQueryResult"]: 
... print(row["DbName"], row["Count"]) 
... 
pubmed 458 
pmc 12779 mesh 1 
... 
... 
... 
biosample 7 
biocollections 0

Buscar registros

Enterz fornece um método especial, efetch para pesquisar e baixar os detalhes completos de um registro de Entrez. Considere o seguinte exemplo simples -

>>> handle = Entrez.efetch(
   db = "nucleotide", id = "EU490707", rettype = "fasta")

Agora, podemos simplesmente ler os registros usando o objeto SeqIO

>>> record = SeqIO.read( handle, "fasta" ) 
>>> record 
SeqRecord(seq = Seq('ATTTTTTACGAACCTGTGGAAATTTTTGGTTATGACAATAAATCTAGTTTAGTA...GAA', 
SingleLetterAlphabet()), id = 'EU490707.1', name = 'EU490707.1', 
description = 'EU490707.1 
Selenipedium aequinoctiale maturase K (matK) gene, partial cds; chloroplast', 
dbxrefs = [])