Biopython-Entrez 데이터베이스

EntrezNCBI에서 제공하는 온라인 검색 시스템입니다. 부울 연산자 및 필드 검색을 지원하는 통합 글로벌 쿼리를 통해 거의 모든 알려진 분자 생물학 데이터베이스에 액세스 할 수 있습니다. 각 데이터베이스의 적중 수, 원래 데이터베이스에 대한 링크가있는 레코드 등과 같은 정보가있는 모든 데이터베이스의 결과를 반환합니다.

Entrez를 통해 액세스 할 수있는 인기있는 데이터베이스 중 일부는 다음과 같습니다.

  • Pubmed
  • Pubmed Central
  • 뉴클레오티드 (GenBank 시퀀스 데이터베이스)
  • 단백질 (시퀀스 데이터베이스)
  • Genome (전체 게놈 데이터베이스)
  • 구조 (3 차원 고분자 구조)
  • 분류 (GenBank의 유기체)
  • SNP (단일 뉴클레오티드 다형성)
  • UniGene (전사 서열의 유전자 지향 클러스터)
  • CDD (보존 단백질 도메인 데이터베이스)
  • 3D 도메인 (Entrez 구조의 도메인)

위의 데이터베이스 외에도 Entrez는 필드 검색을 수행하기 위해 더 많은 데이터베이스를 제공합니다.

Biopython은 Entrez 데이터베이스에 액세스하기 위해 Entrez 특정 모듈 인 Bio.Entrez를 제공합니다. 이 장에서 Biopython을 사용하여 Entrez에 액세스하는 방법을 알아 보겠습니다.

데이터베이스 연결 단계

Entrez의 기능을 추가하려면 다음 모듈을 가져 오십시오.

>>> from Bio import Entrez

다음으로 아래에 주어진 코드와 연결된 사람을 식별하기 위해 이메일을 설정하십시오-

>>> Entrez.email = '<youremail>'

그런 다음 Entrez 도구 매개 변수를 설정하고 기본적으로 Biopython입니다.

>>> Entrez.tool = 'Demoscript'

지금, call einfo function to find index term counts, last update, and available links for each database 아래에 정의 된대로-

>>> info = Entrez.einfo()

einfo 메소드는 아래와 같이 읽기 메소드를 통해 정보에 대한 액세스를 제공하는 객체를 반환합니다.

>>> data = info.read() 
>>> print(data) 
<?xml version = "1.0" encoding = "UTF-8" ?>
<!DOCTYPE eInfoResult PUBLIC "-//NLM//DTD einfo 20130322//EN" 
   "https://eutils.ncbi.nlm.nih.gov/eutils/dtd/20130322/einfo.dtd"> 
<eInfoResult>
   <DbList>
      <DbName>pubmed</DbName> 
      <DbName>protein</DbName>
      <DbName>nuccore</DbName> 
      <DbName>ipg</DbName> 
      <DbName>nucleotide</DbName>
      <DbName>nucgss</DbName> 
      <DbName>nucest</DbName>
      <DbName>structure</DbName>
      <DbName>sparcle</DbName>
      <DbName>genome</DbName>
      <DbName>annotinfo</DbName>
      <DbName>assembly</DbName> 
      <DbName>bioproject</DbName>
      <DbName>biosample</DbName>
      <DbName>blastdbinfo</DbName>
      <DbName>books</DbName> 
      <DbName>cdd</DbName>
      <DbName>clinvar</DbName> 
      <DbName>clone</DbName> 
      <DbName>gap</DbName> 
      <DbName>gapplus</DbName> 
      <DbName>grasp</DbName> 
      <DbName>dbvar</DbName>
      <DbName>gene</DbName> 
      <DbName>gds</DbName> 
      <DbName>geoprofiles</DbName>
      <DbName>homologene</DbName> 
      <DbName>medgen</DbName> 
      <DbName>mesh</DbName>
      <DbName>ncbisearch</DbName> 
      <DbName>nlmcatalog</DbName>
      <DbName>omim</DbName>
      <DbName>orgtrack</DbName>
      <DbName>pmc</DbName>
      <DbName>popset</DbName>
      <DbName>probe</DbName>
      <DbName>proteinclusters</DbName>
      <DbName>pcassay</DbName>
      <DbName>biosystems</DbName> 
      <DbName>pccompound</DbName> 
      <DbName>pcsubstance</DbName> 
      <DbName>pubmedhealth</DbName> 
      <DbName>seqannot</DbName> 
      <DbName>snp</DbName> 
      <DbName>sra</DbName> 
      <DbName>taxonomy</DbName> 
      <DbName>biocollections</DbName> 
      <DbName>unigene</DbName>
      <DbName>gencoll</DbName> 
      <DbName>gtr</DbName>
   </DbList> 
</eInfoResult>

데이터는 XML 형식이며 데이터를 python 객체로 가져 오려면 Entrez.read 즉시 방법 Entrez.einfo() 메서드가 호출됩니다-

>>> info = Entrez.einfo() 
>>> record = Entrez.read(info)

여기서 레코드는 아래와 같이 DbList라는 하나의 키가있는 사전입니다.

>>> record.keys() 
[u'DbList']

DbList 키에 액세스하면 아래에 표시된 데이터베이스 이름 목록이 반환됩니다.

>>> record[u'DbList'] 
['pubmed', 'protein', 'nuccore', 'ipg', 'nucleotide', 'nucgss', 
   'nucest', 'structure', 'sparcle', 'genome', 'annotinfo', 'assembly', 
   'bioproject', 'biosample', 'blastdbinfo', 'books', 'cdd', 'clinvar', 
   'clone', 'gap', 'gapplus', 'grasp', 'dbvar', 'gene', 'gds', 'geoprofiles', 
   'homologene', 'medgen', 'mesh', 'ncbisearch', 'nlmcatalog', 'omim', 
   'orgtrack', 'pmc', 'popset', 'probe', 'proteinclusters', 'pcassay', 
   'biosystems', 'pccompound', 'pcsubstance', 'pubmedhealth', 'seqannot', 
   'snp', 'sra', 'taxonomy', 'biocollections', 'unigene', 'gencoll', 'gtr'] 
>>>

기본적으로 Entrez 모듈은 Entrez 검색 시스템에서 반환 한 XML을 구문 분석하고이를 Python 사전 및 목록으로 제공합니다.

데이터베이스 검색

Entrez 데이터베이스 중 하나를 검색하려면 Bio.Entrez.esearch () 모듈을 사용할 수 있습니다. 아래에 정의되어 있습니다-

>>> info = Entrez.einfo() 
>>> info = Entrez.esearch(db = "pubmed",term = "genome") 
>>> record = Entrez.read(info) 
>>>print(record) 
DictElement({u'Count': '1146113', u'RetMax': '20', u'IdList':
['30347444', '30347404', '30347317', '30347292', 
'30347286', '30347249', '30347194', '30347187', 
'30347172', '30347088', '30347075', '30346992', 
'30346990', '30346982', '30346980', '30346969', 
'30346962', '30346954', '30346941', '30346939'], 
u'TranslationStack': [DictElement({u'Count': 
'927819', u'Field': 'MeSH Terms', u'Term': '"genome"[MeSH Terms]', 
u'Explode': 'Y'}, attributes = {})
, DictElement({u'Count': '422712', u'Field': 
'All Fields', u'Term': '"genome"[All Fields]', u'Explode': 'N'}, attributes = {}), 
'OR', 'GROUP'], u'TranslationSet': [DictElement({u'To': '"genome"[MeSH Terms] 
OR "genome"[All Fields]', u'From': 'genome'}, attributes = {})], u'RetStart': '0', 
u'QueryTranslation': '"genome"[MeSH Terms] OR "genome"[All Fields]'}, 
attributes = {})
>>>

잘못된 db를 할당하면 다음을 반환합니다.

>>> info = Entrez.esearch(db = "blastdbinfo",term = "books")
>>> record = Entrez.read(info) 
>>> print(record) 
DictElement({u'Count': '0', u'RetMax': '0', u'IdList': [], 
u'WarningList': DictElement({u'OutputMessage': ['No items found.'], 
   u'PhraseIgnored': [], u'QuotedPhraseNotFound': []}, attributes = {}), 
   u'ErrorList': DictElement({u'FieldNotFound': [], u'PhraseNotFound': 
      ['books']}, attributes = {}), u'TranslationSet': [], u'RetStart': '0', 
      u'QueryTranslation': '(books[All Fields])'}, attributes = {})

데이터베이스를 검색하려면 다음을 사용할 수 있습니다. Entrez.egquery. 이것은Entrez.esearch 키워드를 지정하고 데이터베이스 매개 변수를 건너 뛰는 것만으로 충분합니다.

>>>info = Entrez.egquery(term = "entrez") 
>>> record = Entrez.read(info) 
>>> for row in record["eGQueryResult"]: 
... print(row["DbName"], row["Count"]) 
... 
pubmed 458 
pmc 12779 mesh 1 
... 
... 
... 
biosample 7 
biocollections 0

레코드 가져 오기

Enterz는 Entrez에서 레코드의 전체 세부 정보를 검색하고 다운로드하는 특별한 방법 인 efetch를 제공합니다. 다음 간단한 예를 고려하십시오-

>>> handle = Entrez.efetch(
   db = "nucleotide", id = "EU490707", rettype = "fasta")

이제 SeqIO 객체를 사용하여 레코드를 간단히 읽을 수 있습니다.

>>> record = SeqIO.read( handle, "fasta" ) 
>>> record 
SeqRecord(seq = Seq('ATTTTTTACGAACCTGTGGAAATTTTTGGTTATGACAATAAATCTAGTTTAGTA...GAA', 
SingleLetterAlphabet()), id = 'EU490707.1', name = 'EU490707.1', 
description = 'EU490707.1 
Selenipedium aequinoctiale maturase K (matK) gene, partial cds; chloroplast', 
dbxrefs = [])