Biopython-BLAST 개요

BLAST는 Basic Local Alignment Search Tool. 생물학적 서열 사이의 유사성 영역을 찾습니다. Biopython은 NCBI BLAST 작업을 처리하기 위해 Bio.Blast 모듈을 제공합니다. BLAST는 로컬 연결 또는 인터넷 연결을 통해 실행할 수 있습니다.

다음 섹션에서이 두 가지 연결을 간략하게 이해하겠습니다.

인터넷을 통해 실행

Biopython은 BLAST의 온라인 버전을 호출하기 위해 Bio.Blast.NCBIWWW 모듈을 제공합니다. 이렇게하려면 다음 모듈을 가져와야합니다.

>>> from Bio.Blast import NCBIWWW

NCBIWW 모듈은 BLAST 온라인 버전을 조회하는 qblast 기능을 제공합니다. https://blast.ncbi.nlm.nih.gov/Blast.cgi. qblast는 온라인 버전에서 지원하는 모든 매개 변수를 지원합니다.

이 모듈에 대한 도움말을 얻으려면 아래 명령을 사용하고 기능을 이해하십시오.

>>> help(NCBIWWW.qblast) 
Help on function qblast in module Bio.Blast.NCBIWWW: 
qblast(
   program, database, sequence, 
   url_base = 'https://blast.ncbi.nlm.nih.gov/Blast.cgi', 
   auto_format = None, 
   composition_based_statistics = None, 
   db_genetic_code =  None, 
   endpoints = None, 
   entrez_query = '(none)', 
   expect = 10.0, 
   filter = None, 
   gapcosts = None, 
   genetic_code = None, 
   hitlist_size = 50, 
   i_thresh = None, 
   layout = None, 
   lcase_mask = None, 
   matrix_name = None, 
   nucl_penalty = None, 
   nucl_reward = None, 
   other_advanced = None, 
   perc_ident = None, 
   phi_pattern = None, 
   query_file = None, 
   query_believe_defline = None, 
   query_from = None, 
   query_to = None, 
   searchsp_eff = None, 
   service = None, 
   threshold = None, 
   ungapped_alignment = None, 
   word_size = None, 
   alignments = 500, 
   alignment_view = None, 
   descriptions = 500, 
   entrez_links_new_window = None, 
   expect_low = None, 
   expect_high = None, 
   format_entrez_query = None, 
   format_object = None, 
   format_type = 'XML', 
   ncbi_gi = None, 
   results_file = None, 
   show_overview = None, 
   megablast = None, 
   template_type = None, 
   template_length = None
) 
   
   BLAST search using NCBI's QBLAST server or a cloud service provider. 
   
   Supports all parameters of the qblast API for Put and Get. 
   
   Please note that BLAST on the cloud supports the NCBI-BLAST Common 
   URL API (http://ncbi.github.io/blast-cloud/dev/api.html). 
   To use this feature, please set url_base to 'http://host.my.cloud.service.provider.com/cgi-bin/blast.cgi' and 
   format_object = 'Alignment'. For more details, please see 8. Biopython – Overview of BLAST
   
https://blast.ncbi.nlm.nih.gov/Blast.cgi?PAGE_TYPE = BlastDocs&DOC_TYPE = CloudBlast 
   
   Some useful parameters: 
   
   - program blastn, blastp, blastx, tblastn, or tblastx (lower case) 
   - database Which database to search against (e.g. "nr"). 
   - sequence The sequence to search. 
   - ncbi_gi TRUE/FALSE whether to give 'gi' identifier. 
   - descriptions Number of descriptions to show. Def 500. 
   - alignments Number of alignments to show. Def 500. 
   - expect An expect value cutoff. Def 10.0. 
   - matrix_name Specify an alt. matrix (PAM30, PAM70, BLOSUM80, BLOSUM45). 
   - filter "none" turns off filtering. Default no filtering 
   - format_type "HTML", "Text", "ASN.1", or "XML". Def. "XML". 
   - entrez_query Entrez query to limit Blast search 
   - hitlist_size Number of hits to return. Default 50 
   - megablast TRUE/FALSE whether to use MEga BLAST algorithm (blastn only) 
   - service plain, psi, phi, rpsblast, megablast (lower case) 
   
   This function does no checking of the validity of the parameters 
   and passes the values to the server as is. More help is available at: 
   https://ncbi.github.io/blast-cloud/dev/api.html

일반적으로 qblast 함수의 인수는 기본적으로 BLAST 웹 페이지에서 설정할 수있는 다른 매개 변수와 유사합니다. 이것은 qblast 함수를 이해하기 쉽게 만들고 그것을 사용하기위한 학습 곡선을 줄여줍니다.

연결 및 검색

BLAST 온라인 버전 연결 및 검색 과정을 이해하기 위해 Biopython을 통해 온라인 BLAST 서버에 대해 간단한 시퀀스 검색 (로컬 시퀀스 파일에서 사용 가능)을 수행해 보겠습니다.

Step 1 − 이름이 지정된 파일을 생성합니다. blast_example.fasta Biopython 디렉토리에서 아래 시퀀스 정보를 입력으로 제공하십시오.

Example of a single sequence in FASTA/Pearson format: 
>sequence A ggtaagtcctctagtacaaacacccccaatattgtgatataattaaaattatattcatat
tctgttgccagaaaaaacacttttaggctatattagagccatcttctttgaagcgttgtc 

>sequence B ggtaagtcctctagtacaaacacccccaatattgtgatataattaaaattatattca
tattctgttgccagaaaaaacacttttaggctatattagagccatcttctttgaagcgttgtc

Step 2 − NCBIWWW 모듈을 가져옵니다.

>>> from Bio.Blast import NCBIWWW

Step 3 − 시퀀스 파일을 엽니 다. blast_example.fasta 파이썬 IO 모듈을 사용합니다.

>>> sequence_data = open("blast_example.fasta").read() 
>>> sequence_data 
'Example of a single sequence in FASTA/Pearson format:\n\n\n> sequence 
A\nggtaagtcctctagtacaaacacccccaatattgtgatataattaaaatt 
atattcatat\ntctgttgccagaaaaaacacttttaggctatattagagccatcttctttg aagcgttgtc\n\n'

Step 4− 이제 시퀀스 데이터를 주 매개 변수로 전달하는 qblast 함수를 호출합니다. 다른 매개 변수는 데이터베이스 (nt)와 내부 프로그램 (blastn)을 나타냅니다.

>>> result_handle = NCBIWWW.qblast("blastn", "nt", sequence_data) 
>>> result_handle 
<_io.StringIO object at 0x000001EC9FAA4558>

blast_results검색 결과를 보관합니다. 나중에 사용하기 위해 파일에 저장할 수 있으며 세부 정보를 얻기 위해 구문 분석 할 수도 있습니다. 다음 섹션에서 방법을 배우겠습니다.

Step 5 − 아래와 같이 전체 fasta 파일을 사용하는 대신 Seq 객체를 사용하여 동일한 기능을 수행 할 수 있습니다. −

>>> from Bio import SeqIO 
>>> seq_record = next(SeqIO.parse(open('blast_example.fasta'),'fasta')) 
>>> seq_record.id 
'sequence' 
>>> seq_record.seq 
Seq('ggtaagtcctctagtacaaacacccccaatattgtgatataattaaaattatat...gtc', 
SingleLetterAlphabet())

이제 Seq 객체 인 record.seq를 주 매개 변수로 전달하는 qblast 함수를 호출합니다.

>>> result_handle = NCBIWWW.qblast("blastn", "nt", seq_record.seq) 
>>> print(result_handle) 
<_io.StringIO object at 0x000001EC9FAA4558>

BLAST는 시퀀스에 대한 식별자를 자동으로 할당합니다.

Step 6 − result_handle 객체는 전체 결과를 가지며 나중에 사용하기 위해 파일에 저장할 수 있습니다.

>>> with open('results.xml', 'w') as save_file: 
>>>   blast_results = result_handle.read() 
>>>   save_file.write(blast_results)

이후 섹션에서 결과 파일을 구문 분석하는 방법을 살펴 보겠습니다.

독립형 BLAST 실행

이 섹션에서는 로컬 시스템에서 BLAST를 실행하는 방법에 대해 설명합니다. 로컬 시스템에서 BLAST를 실행하면 더 빠를 수 있으며 시퀀스를 검색하기 위해 자체 데이터베이스를 만들 수도 있습니다.

BLAST 연결

일반적으로 BLAST를 로컬에서 실행하는 것은 큰 크기, 소프트웨어 실행에 필요한 추가 노력 및 관련 비용 때문에 권장되지 않습니다. 온라인 BLAST는 기본 및 고급 목적에 충분합니다. 물론 때로는 로컬로 설치해야 할 수도 있습니다.

많은 시간과 네트워크 볼륨이 필요할 수있는 온라인 검색을 자주 수행하고 있으며 독점 ​​시퀀스 데이터 또는 IP 관련 문제가있는 경우 로컬에 설치하는 것이 좋습니다.

이렇게하려면 아래 단계를 따라야합니다.

Step 1− 주어진 링크를 사용하여 최신 blast 바이너리를 다운로드하고 설치합니다 − ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/

Step 2− 아래 링크를 사용하여 필요한 최신 데이터베이스를 다운로드하고 압축을 풉니 다. − ftp://ftp.ncbi.nlm.nih.gov/blast/db/

BLAST 소프트웨어는 사이트에 많은 데이터베이스를 제공합니다. blast 데이터베이스 사이트에서 alu.n.gz 파일을 다운로드 하고 alu 폴더에 압축을 풉니 다. 이 파일은 FASTA 형식입니다. blast 애플리케이션에서이 파일을 사용하려면 먼저 파일을 FASTA 형식에서 blast 데이터베이스 형식으로 변환해야합니다. BLAST는이 변환을 수행하기 위해 makeblastdb 애플리케이션을 제공합니다.

아래 코드 스 니펫을 사용하십시오-

cd /path/to/alu 
makeblastdb -in alu.n -parse_seqids -dbtype nucl -out alun

위의 코드를 실행하면 입력 파일 alu.n을 구문 분석하고 BLAST 데이터베이스를 alun.nsq, alun.nsi 등의 여러 파일로 만듭니다. 이제이 데이터베이스를 쿼리하여 시퀀스를 찾을 수 있습니다.

로컬 서버에 BLAST를 설치했으며 샘플 BLAST 데이터베이스도 있습니다. alun 그것에 대해 쿼리합니다.

Step 3− 데이터베이스 쿼리를위한 샘플 시퀀스 파일을 생성 해 보겠습니다. search.fsa 파일을 만들고 그 안에 아래 데이터를 넣으십시오.

>gnl|alu|Z15030_HSAL001056 (Alu-J) 
AGGCTGGCACTGTGGCTCATGCTGAAATCCCAGCACGGCGGAGGACGGCGGAAGATTGCT 
TGAGCCTAGGAGTTTGCGACCAGCCTGGGTGACATAGGGAGATGCCTGTCTCTACGCAAA 
AGAAAAAAAAAATAGCTCTGCTGGTGGTGCATGCCTATAGTCTCAGCTATCAGGAGGCTG 
GGACAGGAGGATCACTTGGGCCCGGGAGTTGAGGCTGTGGTGAGCCACGATCACACCACT 
GCACTCCAGCCTGGGTGACAGAGCAAGACCCTGTCTCAAAACAAACAAATAA 
>gnl|alu|D00596_HSAL003180 (Alu-Sx) 
AGCCAGGTGTGGTGGCTCACGCCTGTAATCCCACCGCTTTGGGAGGCTGAGTCAGATCAC 
CTGAGGTTAGGAATTTGGGACCAGCCTGGCCAACATGGCGACACCCCAGTCTCTACTAAT 
AACACAAAAAATTAGCCAGGTGTGCTGGTGCATGTCTGTAATCCCAGCTACTCAGGAGGC 
TGAGGCATGAGAATTGCTCACGAGGCGGAGGTTGTAGTGAGCTGAGATCGTGGCACTGTA
CTCCAGCCTGGCGACAGAGGGAGAACCCATGTCAAAAACAAAAAAAGACACCACCAAAGG 
TCAAAGCATA 
>gnl|alu|X55502_HSAL000745 (Alu-J) 
TGCCTTCCCCATCTGTAATTCTGGCACTTGGGGAGTCCAAGGCAGGATGATCACTTATGC 
CCAAGGAATTTGAGTACCAAGCCTGGGCAATATAACAAGGCCCTGTTTCTACAAAAACTT 
TAAACAATTAGCCAGGTGTGGTGGTGCGTGCCTGTGTCCAGCTACTCAGGAAGCTGAGGC 
AAGAGCTTGAGGCTACAGTGAGCTGTGTTCCACCATGGTGCTCCAGCCTGGGTGACAGGG 
CAAGACCCTGTCAAAAGAAAGGAAGAAAGAACGGAAGGAAAGAAGGAAAGAAACAAGGAG 
AG

시퀀스 데이터는 alu.n 파일에서 수집됩니다. 따라서 데이터베이스와 일치합니다.

Step 4 − BLAST 소프트웨어는 데이터베이스 검색을위한 많은 응용 프로그램을 제공하며 blastn을 사용합니다. blastn application requires minimum of three arguments, db, query and out. db 검색에 대한 데이터베이스를 참조합니다. query 일치시킬 시퀀스이며 out결과를 저장할 파일입니다. 이제 아래 명령을 실행하여이 간단한 쿼리를 수행하십시오.

blastn -db alun -query search.fsa -out results.xml -outfmt 5

위의 명령을 실행하면 results.xml 아래 주어진 파일 (부분 데이터)-

<?xml version = "1.0"?> 
<!DOCTYPE BlastOutput PUBLIC "-//NCBI//NCBI BlastOutput/EN" 
   "http://www.ncbi.nlm.nih.gov/dtd/NCBI_BlastOutput.dtd">
<BlastOutput> 
   <BlastOutput_program>blastn</BlastOutput_program> 
   <BlastOutput_version>BLASTN 2.7.1+</BlastOutput_version> 
   <BlastOutput_reference>Zheng Zhang, Scott Schwartz, Lukas Wagner, and Webb 
      Miller (2000), "A greedy algorithm for aligning DNA sequences", J 
      Comput Biol 2000; 7(1-2):203-14.
   </BlastOutput_reference> 
   
   <BlastOutput_db>alun</BlastOutput_db> 
   <BlastOutput_query-ID>Query_1</BlastOutput_query-ID> 
   <BlastOutput_query-def>gnl|alu|Z15030_HSAL001056 (Alu-J)</BlastOutput_query-def>
   <BlastOutput_query-len>292</BlastOutput_query-len> 
   <BlastOutput_param> 
      <Parameters> 
         <Parameters_expect>10</Parameters_expect> 
         <Parameters_sc-match>1</Parameters_sc-match> 
         <Parameters_sc-mismatch>-2</Parameters_sc-mismatch> 
         <Parameters_gap-open>0</Parameters_gap-open> 
         <Parameters_gap-extend>0</Parameters_gap-extend> 
         <Parameters_filter>L;m;</Parameters_filter> 
      </Parameters> 
   </BlastOutput_param> 
   <BlastOutput_iterations> 
      <Iteration> 
         <Iteration_iter-num>1</Iteration_iter-num><Iteration_query-ID>Query_1</Iteration_query-ID> 
         <Iteration_query-def>gnl|alu|Z15030_HSAL001056 (Alu-J)</Iteration_query-def> 
         <Iteration_query-len>292</Iteration_query-len> 
         <Iteration_hits> 
         <Hit>
            <Hit_num>1</Hit_num> 
            <Hit_id>gnl|alu|Z15030_HSAL001056</Hit_id> 
            <Hit_def>(Alu-J)</Hit_def> 
            <Hit_accession>Z15030_HSAL001056</Hit_accession> 
            <Hit_len>292</Hit_len>
            <Hit_hsps> 
               <Hsp>
                 <Hsp_num>1</Hsp_num> 
                  <Hsp_bit-score>540.342</Hsp_bit-score> 
                  <Hsp_score>292</Hsp_score>
                  <Hsp_evalue>4.55414e-156</Hsp_evalue> 
                  <Hsp_query-from>1</Hsp_query-from>
                  <Hsp_query-to>292</Hsp_query-to> 
                  <Hsp_hit-from>1</Hsp_hit-from> 
                  <Hsp_hit-to>292</Hsp_hit-to> 
                  <Hsp_query-frame>1</Hsp_query-frame>
                  <Hsp_hit-frame>1</Hsp_hit-frame>
                  <Hsp_identity>292</Hsp_identity>
                  <Hsp_positive>292</Hsp_positive> 
                  <Hsp_gaps>0</Hsp_gaps> 
                  <Hsp_align-len>292</Hsp_align-len>
                  
                  <Hsp_qseq>
                     AGGCTGGCACTGTGGCTCATGCTGAAATCCCAGCACGGCGGAGGACGGCGGAAGATTGCTTGAGCCTAGGAGTTTG
                     CGACCAGCCTGGGTGACATAGGGAGATGCCTGTCTCTACGCAAAAGAAAAAAAAAATAGCTCTGCTGGTGGTGCATG
                     CCTATAGTCTCAGCTATCAGGAGGCTGGGACAGGAGGATCACTTGGGCCCGGGAGTTGAGGCTGTGGTGAGCC
                     ACGATCACACCACTGCACTCCAGCCTGGGTGACAGAGCAAGACCCTGTCTCAAAACAAACAAATAA
                  </Hsp_qseq> 

                  <Hsp_hseq>
                     AGGCTGGCACTGTGGCTCATGCTGAAATCCCAGCACGGCGGAGGACGGCGGAAGATTGCTTGAGCCTAGGA
                     GTTTGCGACCAGCCTGGGTGACATAGGGAGATGCCTGTCTCTACGCAAAAGAAAAAAAAAATAGCTCTGCT
                     GGTGGTGCATGCCTATAGTCTCAGCTATCAGGAGGCTGGGACAGGAGGATCACTTGGGCCCGGGAGTTGAGG
                     CTGTGGTGAGCCACGATCACACCACTGCACTCCAGCCTGGGTGACAGAGCAAGACCCTGTCTCAAAACAAAC
                     AAATAA
                  </Hsp_hseq>

                  <Hsp_midline>
                     |||||||||||||||||||||||||||||||||||||||||||||||||||||
                     |||||||||||||||||||||||||||||||||||||||||||||||||||||
                     |||||||||||||||||||||||||||||||||||||||||||||||||||||
                     |||||||||||||||||||||||||||||||||||||||||||||||||||||
                     |||||||||||||||||||||||||||||||||||||||||||||||||||||
                     |||||||||||||||||||||||||||
                  </Hsp_midline>
               </Hsp> 
            </Hit_hsps>
         </Hit>
         ......................... 
         ......................... 
         ......................... 
         </Iteration_hits> 
         <Iteration_stat> 
            <Statistics> 
               <Statistics_db-num>327</Statistics_db-num> 
               <Statistics_db-len>80506</Statistics_db-len> 
               <Statistics_hsp-lenv16</Statistics_hsp-len> 
               <Statistics_eff-space>21528364</Statistics_eff-space> 
               <Statistics_kappa>0.46</Statistics_kappa> 
               <Statistics_lambda>1.28</Statistics_lambda> 
               <Statistics_entropy>0.85</Statistics_entropy>
            </Statistics>
         </Iteration_stat>
      </Iteration> 
   </BlastOutput_iterations>
</BlastOutput>

위의 명령은 아래 코드를 사용하여 파이썬 내부에서 실행할 수 있습니다.

>>> from Bio.Blast.Applications import NcbiblastnCommandline 
>>> blastn_cline = NcbiblastnCommandline(query = "search.fasta", db = "alun", 
outfmt = 5, out = "results.xml") 
>>> stdout, stderr = blastn_cline()

여기에서 첫 번째는 blast 출력에 대한 핸들이고 두 번째는 blast 명령에 의해 생성 된 가능한 오류 출력입니다.

출력 파일을 명령 줄 인수 (out = "results.xml")로 제공하고 출력 형식을 XML (outfmt = 5)로 설정 했으므로 출력 파일은 현재 작업 디렉터리에 저장됩니다.

BLAST 결과 구문 분석

일반적으로 BLAST 출력은 NCBIXML 모듈을 사용하여 XML 형식으로 구문 분석됩니다. 이렇게하려면 다음 모듈을 가져와야합니다.

>>> from Bio.Blast import NCBIXML

지금, open the file directly using python open methoduse NCBIXML parse method 아래와 같이-

>>> E_VALUE_THRESH = 1e-20 
>>> for record in NCBIXML.parse(open("results.xml")): 
>>>     if record.alignments: 
>>>        print("\n") 
>>>        print("query: %s" % record.query[:100]) 
>>>        for align in record.alignments: 
>>>           for hsp in align.hsps: 
>>>              if hsp.expect < E_VALUE_THRESH: 
>>>                 print("match: %s " % align.title[:100])

이것은 다음과 같은 출력을 생성합니다-

query: gnl|alu|Z15030_HSAL001056 (Alu-J) 
match: gnl|alu|Z15030_HSAL001056 (Alu-J) 
match: gnl|alu|L12964_HSAL003860 (Alu-J) 
match: gnl|alu|L13042_HSAL003863 (Alu-FLA?) 
match: gnl|alu|M86249_HSAL001462 (Alu-FLA?) 
match: gnl|alu|M29484_HSAL002265 (Alu-J) 

query: gnl|alu|D00596_HSAL003180 (Alu-Sx) 
match: gnl|alu|D00596_HSAL003180 (Alu-Sx) 
match: gnl|alu|J03071_HSAL001860 (Alu-J) 
match: gnl|alu|X72409_HSAL005025 (Alu-Sx) 

query: gnl|alu|X55502_HSAL000745 (Alu-J) 
match: gnl|alu|X55502_HSAL000745 (Alu-J)