Biopython - Base de données Entrez

Entrezest un système de recherche en ligne fourni par NCBI. Il donne accès à presque toutes les bases de données connues de biologie moléculaire avec une requête globale intégrée prenant en charge les opérateurs booléens et la recherche sur le terrain. Il renvoie les résultats de toutes les bases de données avec des informations comme le nombre de résultats de chaque base de données, les enregistrements avec des liens vers la base de données d'origine, etc.

Certaines des bases de données les plus populaires accessibles via Entrez sont répertoriées ci-dessous -

  • Pubmed
  • Pubmed Central
  • Nucléotide (base de données de séquences GenBank)
  • Protéine (base de données de séquences)
  • Génome (base de données du génome entier)
  • Structure (structure macromoléculaire tridimensionnelle)
  • Taxonomie (organismes dans GenBank)
  • SNP (polymorphisme nucléotidique unique)
  • UniGene (Clusters orientés gène de séquences de transcription)
  • CDD (base de données du domaine des protéines conservées)
  • Domaines 3D (Domaines de Entrez Structure)

En plus des bases de données ci-dessus, Entrez fournit de nombreuses autres bases de données pour effectuer la recherche sur le terrain.

Biopython fournit un module spécifique Entrez, Bio.Entrez pour accéder à la base de données Entrez. Apprenons à accéder à Entrez en utilisant Biopython dans ce chapitre -

Étapes de connexion à la base de données

Pour ajouter les fonctionnalités de Entrez, importez le module suivant -

>>> from Bio import Entrez

Ensuite, définissez votre e-mail pour identifier qui est connecté avec le code ci-dessous -

>>> Entrez.email = '<youremail>'

Ensuite, définissez le paramètre de l'outil Entrez et par défaut, il s'agit de Biopython.

>>> Entrez.tool = 'Demoscript'

Maintenant, call einfo function to find index term counts, last update, and available links for each database comme défini ci-dessous -

>>> info = Entrez.einfo()

La méthode einfo renvoie un objet, qui permet d'accéder aux informations via sa méthode de lecture comme indiqué ci-dessous -

>>> data = info.read() 
>>> print(data) 
<?xml version = "1.0" encoding = "UTF-8" ?>
<!DOCTYPE eInfoResult PUBLIC "-//NLM//DTD einfo 20130322//EN" 
   "https://eutils.ncbi.nlm.nih.gov/eutils/dtd/20130322/einfo.dtd"> 
<eInfoResult>
   <DbList>
      <DbName>pubmed</DbName> 
      <DbName>protein</DbName>
      <DbName>nuccore</DbName> 
      <DbName>ipg</DbName> 
      <DbName>nucleotide</DbName>
      <DbName>nucgss</DbName> 
      <DbName>nucest</DbName>
      <DbName>structure</DbName>
      <DbName>sparcle</DbName>
      <DbName>genome</DbName>
      <DbName>annotinfo</DbName>
      <DbName>assembly</DbName> 
      <DbName>bioproject</DbName>
      <DbName>biosample</DbName>
      <DbName>blastdbinfo</DbName>
      <DbName>books</DbName> 
      <DbName>cdd</DbName>
      <DbName>clinvar</DbName> 
      <DbName>clone</DbName> 
      <DbName>gap</DbName> 
      <DbName>gapplus</DbName> 
      <DbName>grasp</DbName> 
      <DbName>dbvar</DbName>
      <DbName>gene</DbName> 
      <DbName>gds</DbName> 
      <DbName>geoprofiles</DbName>
      <DbName>homologene</DbName> 
      <DbName>medgen</DbName> 
      <DbName>mesh</DbName>
      <DbName>ncbisearch</DbName> 
      <DbName>nlmcatalog</DbName>
      <DbName>omim</DbName>
      <DbName>orgtrack</DbName>
      <DbName>pmc</DbName>
      <DbName>popset</DbName>
      <DbName>probe</DbName>
      <DbName>proteinclusters</DbName>
      <DbName>pcassay</DbName>
      <DbName>biosystems</DbName> 
      <DbName>pccompound</DbName> 
      <DbName>pcsubstance</DbName> 
      <DbName>pubmedhealth</DbName> 
      <DbName>seqannot</DbName> 
      <DbName>snp</DbName> 
      <DbName>sra</DbName> 
      <DbName>taxonomy</DbName> 
      <DbName>biocollections</DbName> 
      <DbName>unigene</DbName>
      <DbName>gencoll</DbName> 
      <DbName>gtr</DbName>
   </DbList> 
</eInfoResult>

Les données sont au format XML, et pour obtenir les données en tant qu'objet python, utilisez Entrez.read méthode dès que Entrez.einfo() méthode est invoquée -

>>> info = Entrez.einfo() 
>>> record = Entrez.read(info)

Ici, record est un dictionnaire qui a une clé, DbList comme indiqué ci-dessous -

>>> record.keys() 
[u'DbList']

L'accès à la clé DbList renvoie la liste des noms de base de données ci-dessous -

>>> record[u'DbList'] 
['pubmed', 'protein', 'nuccore', 'ipg', 'nucleotide', 'nucgss', 
   'nucest', 'structure', 'sparcle', 'genome', 'annotinfo', 'assembly', 
   'bioproject', 'biosample', 'blastdbinfo', 'books', 'cdd', 'clinvar', 
   'clone', 'gap', 'gapplus', 'grasp', 'dbvar', 'gene', 'gds', 'geoprofiles', 
   'homologene', 'medgen', 'mesh', 'ncbisearch', 'nlmcatalog', 'omim', 
   'orgtrack', 'pmc', 'popset', 'probe', 'proteinclusters', 'pcassay', 
   'biosystems', 'pccompound', 'pcsubstance', 'pubmedhealth', 'seqannot', 
   'snp', 'sra', 'taxonomy', 'biocollections', 'unigene', 'gencoll', 'gtr'] 
>>>

Fondamentalement, le module Entrez analyse le code XML renvoyé par le système de recherche Entrez et le fournit sous forme de dictionnaire et de listes Python.

Rechercher dans la base de données

Pour rechercher l'une des bases de données Entrez, nous pouvons utiliser le module Bio.Entrez.esearch (). Il est défini ci-dessous -

>>> info = Entrez.einfo() 
>>> info = Entrez.esearch(db = "pubmed",term = "genome") 
>>> record = Entrez.read(info) 
>>>print(record) 
DictElement({u'Count': '1146113', u'RetMax': '20', u'IdList':
['30347444', '30347404', '30347317', '30347292', 
'30347286', '30347249', '30347194', '30347187', 
'30347172', '30347088', '30347075', '30346992', 
'30346990', '30346982', '30346980', '30346969', 
'30346962', '30346954', '30346941', '30346939'], 
u'TranslationStack': [DictElement({u'Count': 
'927819', u'Field': 'MeSH Terms', u'Term': '"genome"[MeSH Terms]', 
u'Explode': 'Y'}, attributes = {})
, DictElement({u'Count': '422712', u'Field': 
'All Fields', u'Term': '"genome"[All Fields]', u'Explode': 'N'}, attributes = {}), 
'OR', 'GROUP'], u'TranslationSet': [DictElement({u'To': '"genome"[MeSH Terms] 
OR "genome"[All Fields]', u'From': 'genome'}, attributes = {})], u'RetStart': '0', 
u'QueryTranslation': '"genome"[MeSH Terms] OR "genome"[All Fields]'}, 
attributes = {})
>>>

Si vous attribuez une base de données incorrecte, il renvoie

>>> info = Entrez.esearch(db = "blastdbinfo",term = "books")
>>> record = Entrez.read(info) 
>>> print(record) 
DictElement({u'Count': '0', u'RetMax': '0', u'IdList': [], 
u'WarningList': DictElement({u'OutputMessage': ['No items found.'], 
   u'PhraseIgnored': [], u'QuotedPhraseNotFound': []}, attributes = {}), 
   u'ErrorList': DictElement({u'FieldNotFound': [], u'PhraseNotFound': 
      ['books']}, attributes = {}), u'TranslationSet': [], u'RetStart': '0', 
      u'QueryTranslation': '(books[All Fields])'}, attributes = {})

Si vous souhaitez effectuer une recherche dans la base de données, vous pouvez utiliser Entrez.egquery. Ceci est similaire àEntrez.esearch sauf qu'il suffit de spécifier le mot-clé et d'ignorer le paramètre de base de données.

>>>info = Entrez.egquery(term = "entrez") 
>>> record = Entrez.read(info) 
>>> for row in record["eGQueryResult"]: 
... print(row["DbName"], row["Count"]) 
... 
pubmed 458 
pmc 12779 mesh 1 
... 
... 
... 
biosample 7 
biocollections 0

Récupérer des enregistrements

Enterz fournit une méthode spéciale, efetch, pour rechercher et télécharger tous les détails d'un enregistrement depuis Entrez. Prenons l'exemple simple suivant -

>>> handle = Entrez.efetch(
   db = "nucleotide", id = "EU490707", rettype = "fasta")

Maintenant, nous pouvons simplement lire les enregistrements en utilisant l'objet SeqIO

>>> record = SeqIO.read( handle, "fasta" ) 
>>> record 
SeqRecord(seq = Seq('ATTTTTTACGAACCTGTGGAAATTTTTGGTTATGACAATAAATCTAGTTTAGTA...GAA', 
SingleLetterAlphabet()), id = 'EU490707.1', name = 'EU490707.1', 
description = 'EU490707.1 
Selenipedium aequinoctiale maturase K (matK) gene, partial cds; chloroplast', 
dbxrefs = [])