बायोपथॉन - ब्लास्ट का अवलोकन

BLAST खड़ा है Basic Local Alignment Search Tool। यह जैविक अनुक्रमों के बीच समानता के क्षेत्र पाता है। बायोपथॉन NCBI ब्लास्ट ऑपरेशन से निपटने के लिए बायो.ब्लास्ट मॉड्यूल प्रदान करता है। आप BLAST को स्थानीय कनेक्शन या इंटरनेट कनेक्शन पर चला सकते हैं।

आइए इन दो कनेक्शनों को संक्षेप में निम्न अनुभाग में समझते हैं -

इंटरनेट पर चल रहा है

Biopython BLAST के ऑनलाइन संस्करण को कॉल करने के लिए Bio.Blast.NCBIWWW मॉड्यूल प्रदान करता है। ऐसा करने के लिए, हमें निम्नलिखित मॉड्यूल को आयात करना होगा -

>>> from Bio.Blast import NCBIWWW

NCBIWW मॉड्यूल BLAST ऑनलाइन संस्करण को क्वेरी करने के लिए qblast फ़ंक्शन प्रदान करता है, https://blast.ncbi.nlm.nih.gov/Blast.cgi। qblast ऑनलाइन संस्करण द्वारा समर्थित सभी मापदंडों का समर्थन करता है।

इस मॉड्यूल के बारे में कोई सहायता प्राप्त करने के लिए, नीचे दिए गए आदेश का उपयोग करें और सुविधाओं को समझें -

>>> help(NCBIWWW.qblast) 
Help on function qblast in module Bio.Blast.NCBIWWW: 
qblast(
   program, database, sequence, 
   url_base = 'https://blast.ncbi.nlm.nih.gov/Blast.cgi', 
   auto_format = None, 
   composition_based_statistics = None, 
   db_genetic_code =  None, 
   endpoints = None, 
   entrez_query = '(none)', 
   expect = 10.0, 
   filter = None, 
   gapcosts = None, 
   genetic_code = None, 
   hitlist_size = 50, 
   i_thresh = None, 
   layout = None, 
   lcase_mask = None, 
   matrix_name = None, 
   nucl_penalty = None, 
   nucl_reward = None, 
   other_advanced = None, 
   perc_ident = None, 
   phi_pattern = None, 
   query_file = None, 
   query_believe_defline = None, 
   query_from = None, 
   query_to = None, 
   searchsp_eff = None, 
   service = None, 
   threshold = None, 
   ungapped_alignment = None, 
   word_size = None, 
   alignments = 500, 
   alignment_view = None, 
   descriptions = 500, 
   entrez_links_new_window = None, 
   expect_low = None, 
   expect_high = None, 
   format_entrez_query = None, 
   format_object = None, 
   format_type = 'XML', 
   ncbi_gi = None, 
   results_file = None, 
   show_overview = None, 
   megablast = None, 
   template_type = None, 
   template_length = None
) 
   
   BLAST search using NCBI's QBLAST server or a cloud service provider. 
   
   Supports all parameters of the qblast API for Put and Get. 
   
   Please note that BLAST on the cloud supports the NCBI-BLAST Common 
   URL API (http://ncbi.github.io/blast-cloud/dev/api.html). 
   To use this feature, please set url_base to 'http://host.my.cloud.service.provider.com/cgi-bin/blast.cgi' and 
   format_object = 'Alignment'. For more details, please see 8. Biopython – Overview of BLAST
   
https://blast.ncbi.nlm.nih.gov/Blast.cgi?PAGE_TYPE = BlastDocs&DOC_TYPE = CloudBlast 
   
   Some useful parameters: 
   
   - program blastn, blastp, blastx, tblastn, or tblastx (lower case) 
   - database Which database to search against (e.g. "nr"). 
   - sequence The sequence to search. 
   - ncbi_gi TRUE/FALSE whether to give 'gi' identifier. 
   - descriptions Number of descriptions to show. Def 500. 
   - alignments Number of alignments to show. Def 500. 
   - expect An expect value cutoff. Def 10.0. 
   - matrix_name Specify an alt. matrix (PAM30, PAM70, BLOSUM80, BLOSUM45). 
   - filter "none" turns off filtering. Default no filtering 
   - format_type "HTML", "Text", "ASN.1", or "XML". Def. "XML". 
   - entrez_query Entrez query to limit Blast search 
   - hitlist_size Number of hits to return. Default 50 
   - megablast TRUE/FALSE whether to use MEga BLAST algorithm (blastn only) 
   - service plain, psi, phi, rpsblast, megablast (lower case) 
   
   This function does no checking of the validity of the parameters 
   and passes the values to the server as is. More help is available at: 
   https://ncbi.github.io/blast-cloud/dev/api.html

आमतौर पर, काब्लैस्ट फ़ंक्शन के तर्क मूल रूप से विभिन्न मापदंडों के अनुरूप होते हैं जिन्हें आप BLAST वेब पेज पर सेट कर सकते हैं। यह qblast फ़ंक्शन को समझने में आसान बनाता है और साथ ही इसका उपयोग करने के लिए सीखने की अवस्था को कम करता है।

कनेक्ट करना और खोजना

BLAST ऑनलाइन संस्करण को जोड़ने और खोजने की प्रक्रिया को समझने के लिए, आइए हम Biopython के माध्यम से ऑनलाइन BLAST सर्वर के खिलाफ एक सरल अनुक्रम खोज (हमारे स्थानीय अनुक्रम फ़ाइल में उपलब्ध) करते हैं।

Step 1 - नाम की एक फाइल बनाएं blast_example.fasta Biopython निर्देशिका में इनपुट के रूप में नीचे अनुक्रम जानकारी दे

Example of a single sequence in FASTA/Pearson format: 
>sequence A ggtaagtcctctagtacaaacacccccaatattgtgatataattaaaattatattcatat
tctgttgccagaaaaaacacttttaggctatattagagccatcttctttgaagcgttgtc 

>sequence B ggtaagtcctctagtacaaacacccccaatattgtgatataattaaaattatattca
tattctgttgccagaaaaaacacttttaggctatattagagccatcttctttgaagcgttgtc

Step 2 - NCBIWWW मॉड्यूल आयात करें।

>>> from Bio.Blast import NCBIWWW

Step 3 - अनुक्रम फ़ाइल खोलें, blast_example.fasta अजगर IO मॉड्यूल का उपयोग करना।

>>> sequence_data = open("blast_example.fasta").read() 
>>> sequence_data 
'Example of a single sequence in FASTA/Pearson format:\n\n\n> sequence 
A\nggtaagtcctctagtacaaacacccccaatattgtgatataattaaaatt 
atattcatat\ntctgttgccagaaaaaacacttttaggctatattagagccatcttctttg aagcgttgtc\n\n'

Step 4- अब, qblast फ़ंक्शन पासिंग अनुक्रम डेटा को मुख्य पैरामीटर के रूप में कॉल करें। अन्य पैरामीटर डेटाबेस (एनटी) और आंतरिक कार्यक्रम (ब्लास्ट) का प्रतिनिधित्व करता है।

>>> result_handle = NCBIWWW.qblast("blastn", "nt", sequence_data) 
>>> result_handle 
<_io.StringIO object at 0x000001EC9FAA4558>

blast_resultsहमारी खोज का परिणाम है। यह विवरण प्राप्त करने के लिए पार्स और बाद में उपयोग के लिए एक फ़ाइल में सहेजा जा सकता है। हम आने वाले सेक्शन में इसे करना सीखेंगे।

Step 5 - समान फंक्शन का उपयोग सीक ऑब्जेक्ट के साथ-साथ नीचे दिखाए गए अनुसार पूरी फास्टा फ़ाइल का उपयोग करके किया जा सकता है -

>>> from Bio import SeqIO 
>>> seq_record = next(SeqIO.parse(open('blast_example.fasta'),'fasta')) 
>>> seq_record.id 
'sequence' 
>>> seq_record.seq 
Seq('ggtaagtcctctagtacaaacacccccaatattgtgatataattaaaattatat...gtc', 
SingleLetterAlphabet())

अब, Qqast फंक्शन पासिंग Seq ऑब्जेक्ट को कॉल करें, मुख्य पैरामीटर के रूप में record.seq।

>>> result_handle = NCBIWWW.qblast("blastn", "nt", seq_record.seq) 
>>> print(result_handle) 
<_io.StringIO object at 0x000001EC9FAA4558>

ब्लास्ट स्वचालित रूप से आपके अनुक्रम के लिए एक पहचानकर्ता असाइन करेगा।

Step 6 - result_handle ऑब्जेक्ट में संपूर्ण परिणाम होगा और बाद में उपयोग के लिए फ़ाइल में सहेजा जा सकता है।

>>> with open('results.xml', 'w') as save_file: 
>>>   blast_results = result_handle.read() 
>>>   save_file.write(blast_results)

हम देखेंगे कि परिणाम फ़ाइल को बाद के अनुभाग में पार्स कैसे करें।

रनिंग स्टैंडअलोन ब्लास्ट

यह अनुभाग स्थानीय प्रणाली में BLAST चलाने के तरीके के बारे में बताता है। यदि आप स्थानीय प्रणाली में BLAST चलाते हैं, तो यह तेज़ हो सकता है और आपको अनुक्रमों के विरुद्ध खोज करने के लिए अपना स्वयं का डेटाबेस बनाने की अनुमति देता है।

ब्लास्ट कनेक्ट कर रहा है

सामान्य तौर पर, अपने बड़े आकार, सॉफ्टवेयर को चलाने के लिए अतिरिक्त प्रयास और लागत शामिल होने के कारण स्थानीय स्तर पर BLAST चलाने की अनुशंसा नहीं की जाती है। ऑनलाइन ब्लास्ट मूल और उन्नत उद्देश्यों के लिए पर्याप्त है। बेशक, कभी-कभी आपको इसे स्थानीय रूप से स्थापित करने की आवश्यकता हो सकती है।

विचार करें कि आप लगातार ऑनलाइन खोज कर रहे हैं जिसके लिए बहुत समय और उच्च नेटवर्क मात्रा की आवश्यकता हो सकती है और यदि आपके पास मालिकाना अनुक्रम डेटा या आईपी से संबंधित समस्याएं हैं, तो इसे स्थानीय स्तर पर स्थापित करने की सिफारिश की जाती है।

ऐसा करने के लिए, हमें निम्न चरणों का पालन करने की आवश्यकता है -

Step 1- दिए गए लिंक का उपयोग करके नवीनतम ब्लास्ट बाइनरी डाउनलोड और इंस्टॉल करें - ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/

Step 2- नीचे दिए गए लिंक का उपयोग करके नवीनतम और आवश्यक डेटाबेस को डाउनलोड और अनपैक करें - ftp://ftp.ncbi.nlm.nih.gov/blast/db/

BLAST सॉफ्टवेयर अपनी साइट में बहुत सारे डेटाबेस प्रदान करता है। आइए हम ब्लास्ट डेटाबेस साइट से alu.n.gz फ़ाइल डाउनलोड करें और इसे alu फ़ोल्डर में अनपैक करें। यह फ़ाइल FASTA प्रारूप में है। हमारे ब्लास्ट एप्लिकेशन में इस फ़ाइल का उपयोग करने के लिए, हमें पहले फ़ाइल को FASTA प्रारूप से ब्लास्ट डेटाबेस प्रारूप में बदलना होगा। इस रूपांतरण को करने के लिए BLAST मेकब्लस्टडीबी एप्लिकेशन प्रदान करता है।

नीचे दिए गए कोड स्निपेट का उपयोग करें -

cd /path/to/alu 
makeblastdb -in alu.n -parse_seqids -dbtype nucl -out alun

ऊपर दिए गए कोड को चलाने से इनपुट फ़ाइल, alu.n हो जाएगी और कई फ़ाइलों के रूप में BLAST डेटाबेस बन जाएगा। अब alun.nsq, alun.nsi, आदि अनुक्रम खोजने के लिए इस डेटाबेस को क्वेरी कर सकते हैं।

हमने अपने स्थानीय सर्वर में BLAST को स्थापित किया है और नमूना BLAST डेटाबेस भी है, alun इसके खिलाफ सवाल करना।

Step 3- डेटाबेस को क्वेरी करने के लिए एक नमूना अनुक्रम फ़ाइल बनाते हैं। एक फ़ाइल search.fsa बनाएँ और उसमें नीचे डेटा डालें।

>gnl|alu|Z15030_HSAL001056 (Alu-J) 
AGGCTGGCACTGTGGCTCATGCTGAAATCCCAGCACGGCGGAGGACGGCGGAAGATTGCT 
TGAGCCTAGGAGTTTGCGACCAGCCTGGGTGACATAGGGAGATGCCTGTCTCTACGCAAA 
AGAAAAAAAAAATAGCTCTGCTGGTGGTGCATGCCTATAGTCTCAGCTATCAGGAGGCTG 
GGACAGGAGGATCACTTGGGCCCGGGAGTTGAGGCTGTGGTGAGCCACGATCACACCACT 
GCACTCCAGCCTGGGTGACAGAGCAAGACCCTGTCTCAAAACAAACAAATAA 
>gnl|alu|D00596_HSAL003180 (Alu-Sx) 
AGCCAGGTGTGGTGGCTCACGCCTGTAATCCCACCGCTTTGGGAGGCTGAGTCAGATCAC 
CTGAGGTTAGGAATTTGGGACCAGCCTGGCCAACATGGCGACACCCCAGTCTCTACTAAT 
AACACAAAAAATTAGCCAGGTGTGCTGGTGCATGTCTGTAATCCCAGCTACTCAGGAGGC 
TGAGGCATGAGAATTGCTCACGAGGCGGAGGTTGTAGTGAGCTGAGATCGTGGCACTGTA
CTCCAGCCTGGCGACAGAGGGAGAACCCATGTCAAAAACAAAAAAAGACACCACCAAAGG 
TCAAAGCATA 
>gnl|alu|X55502_HSAL000745 (Alu-J) 
TGCCTTCCCCATCTGTAATTCTGGCACTTGGGGAGTCCAAGGCAGGATGATCACTTATGC 
CCAAGGAATTTGAGTACCAAGCCTGGGCAATATAACAAGGCCCTGTTTCTACAAAAACTT 
TAAACAATTAGCCAGGTGTGGTGGTGCGTGCCTGTGTCCAGCTACTCAGGAAGCTGAGGC 
AAGAGCTTGAGGCTACAGTGAGCTGTGTTCCACCATGGTGCTCCAGCCTGGGTGACAGGG 
CAAGACCCTGTCAAAAGAAAGGAAGAAAGAACGGAAGGAAAGAAGGAAAGAAACAAGGAG 
AG

अनुक्रम डेटा को alu.n फ़ाइल से इकट्ठा किया जाता है; इसलिए, यह हमारे डेटाबेस से मेल खाता है।

Step 4 - BLAST सॉफ्टवेयर डेटाबेस को खोजने के लिए कई एप्लिकेशन प्रदान करता है और हम ब्लास्ट का उपयोग करते हैं। blastn application requires minimum of three arguments, db, query and out. db खोज के खिलाफ डेटाबेस को संदर्भित करता है; query मैच के लिए अनुक्रम है और outपरिणामों को संग्रहीत करने के लिए फ़ाइल है। अब, इस सरल क्वेरी को करने के लिए नीचे दिए गए कमांड को चलाएं -

blastn -db alun -query search.fsa -out results.xml -outfmt 5

ऊपर दिए गए कमांड को चलाने से सर्च किया जाएगा और आउटपुट दिया जाएगा results.xml फ़ाइल नीचे दी गई है (आंशिक रूप से डेटा) -

<?xml version = "1.0"?> 
<!DOCTYPE BlastOutput PUBLIC "-//NCBI//NCBI BlastOutput/EN" 
   "http://www.ncbi.nlm.nih.gov/dtd/NCBI_BlastOutput.dtd">
<BlastOutput> 
   <BlastOutput_program>blastn</BlastOutput_program> 
   <BlastOutput_version>BLASTN 2.7.1+</BlastOutput_version> 
   <BlastOutput_reference>Zheng Zhang, Scott Schwartz, Lukas Wagner, and Webb 
      Miller (2000), "A greedy algorithm for aligning DNA sequences", J 
      Comput Biol 2000; 7(1-2):203-14.
   </BlastOutput_reference> 
   
   <BlastOutput_db>alun</BlastOutput_db> 
   <BlastOutput_query-ID>Query_1</BlastOutput_query-ID> 
   <BlastOutput_query-def>gnl|alu|Z15030_HSAL001056 (Alu-J)</BlastOutput_query-def>
   <BlastOutput_query-len>292</BlastOutput_query-len> 
   <BlastOutput_param> 
      <Parameters> 
         <Parameters_expect>10</Parameters_expect> 
         <Parameters_sc-match>1</Parameters_sc-match> 
         <Parameters_sc-mismatch>-2</Parameters_sc-mismatch> 
         <Parameters_gap-open>0</Parameters_gap-open> 
         <Parameters_gap-extend>0</Parameters_gap-extend> 
         <Parameters_filter>L;m;</Parameters_filter> 
      </Parameters> 
   </BlastOutput_param> 
   <BlastOutput_iterations> 
      <Iteration> 
         <Iteration_iter-num>1</Iteration_iter-num><Iteration_query-ID>Query_1</Iteration_query-ID> 
         <Iteration_query-def>gnl|alu|Z15030_HSAL001056 (Alu-J)</Iteration_query-def> 
         <Iteration_query-len>292</Iteration_query-len> 
         <Iteration_hits> 
         <Hit>
            <Hit_num>1</Hit_num> 
            <Hit_id>gnl|alu|Z15030_HSAL001056</Hit_id> 
            <Hit_def>(Alu-J)</Hit_def> 
            <Hit_accession>Z15030_HSAL001056</Hit_accession> 
            <Hit_len>292</Hit_len>
            <Hit_hsps> 
               <Hsp>
                 <Hsp_num>1</Hsp_num> 
                  <Hsp_bit-score>540.342</Hsp_bit-score> 
                  <Hsp_score>292</Hsp_score>
                  <Hsp_evalue>4.55414e-156</Hsp_evalue> 
                  <Hsp_query-from>1</Hsp_query-from>
                  <Hsp_query-to>292</Hsp_query-to> 
                  <Hsp_hit-from>1</Hsp_hit-from> 
                  <Hsp_hit-to>292</Hsp_hit-to> 
                  <Hsp_query-frame>1</Hsp_query-frame>
                  <Hsp_hit-frame>1</Hsp_hit-frame>
                  <Hsp_identity>292</Hsp_identity>
                  <Hsp_positive>292</Hsp_positive> 
                  <Hsp_gaps>0</Hsp_gaps> 
                  <Hsp_align-len>292</Hsp_align-len>
                  
                  <Hsp_qseq>
                     AGGCTGGCACTGTGGCTCATGCTGAAATCCCAGCACGGCGGAGGACGGCGGAAGATTGCTTGAGCCTAGGAGTTTG
                     CGACCAGCCTGGGTGACATAGGGAGATGCCTGTCTCTACGCAAAAGAAAAAAAAAATAGCTCTGCTGGTGGTGCATG
                     CCTATAGTCTCAGCTATCAGGAGGCTGGGACAGGAGGATCACTTGGGCCCGGGAGTTGAGGCTGTGGTGAGCC
                     ACGATCACACCACTGCACTCCAGCCTGGGTGACAGAGCAAGACCCTGTCTCAAAACAAACAAATAA
                  </Hsp_qseq> 

                  <Hsp_hseq>
                     AGGCTGGCACTGTGGCTCATGCTGAAATCCCAGCACGGCGGAGGACGGCGGAAGATTGCTTGAGCCTAGGA
                     GTTTGCGACCAGCCTGGGTGACATAGGGAGATGCCTGTCTCTACGCAAAAGAAAAAAAAAATAGCTCTGCT
                     GGTGGTGCATGCCTATAGTCTCAGCTATCAGGAGGCTGGGACAGGAGGATCACTTGGGCCCGGGAGTTGAGG
                     CTGTGGTGAGCCACGATCACACCACTGCACTCCAGCCTGGGTGACAGAGCAAGACCCTGTCTCAAAACAAAC
                     AAATAA
                  </Hsp_hseq>

                  <Hsp_midline>
                     |||||||||||||||||||||||||||||||||||||||||||||||||||||
                     |||||||||||||||||||||||||||||||||||||||||||||||||||||
                     |||||||||||||||||||||||||||||||||||||||||||||||||||||
                     |||||||||||||||||||||||||||||||||||||||||||||||||||||
                     |||||||||||||||||||||||||||||||||||||||||||||||||||||
                     |||||||||||||||||||||||||||
                  </Hsp_midline>
               </Hsp> 
            </Hit_hsps>
         </Hit>
         ......................... 
         ......................... 
         ......................... 
         </Iteration_hits> 
         <Iteration_stat> 
            <Statistics> 
               <Statistics_db-num>327</Statistics_db-num> 
               <Statistics_db-len>80506</Statistics_db-len> 
               <Statistics_hsp-lenv16</Statistics_hsp-len> 
               <Statistics_eff-space>21528364</Statistics_eff-space> 
               <Statistics_kappa>0.46</Statistics_kappa> 
               <Statistics_lambda>1.28</Statistics_lambda> 
               <Statistics_entropy>0.85</Statistics_entropy>
            </Statistics>
         </Iteration_stat>
      </Iteration> 
   </BlastOutput_iterations>
</BlastOutput>

उपरोक्त कमांड को नीचे दिए गए कोड का उपयोग करके अजगर के अंदर चलाया जा सकता है -

>>> from Bio.Blast.Applications import NcbiblastnCommandline 
>>> blastn_cline = NcbiblastnCommandline(query = "search.fasta", db = "alun", 
outfmt = 5, out = "results.xml") 
>>> stdout, stderr = blastn_cline()

यहां, पहला ब्लास्ट आउटपुट के लिए एक हैंडल है और दूसरा ब्लास्ट कमांड द्वारा उत्पन्न संभावित त्रुटि आउटपुट है।

चूंकि हमने आउटपुट फ़ाइल को कमांड लाइन तर्क (आउट = "results.xml") के रूप में प्रदान किया है और आउटपुट प्रारूप को XML (आउटकम = 5) के रूप में सेट करता है, आउटपुट फ़ाइल वर्तमान कार्य निर्देशिका में सहेजी जाएगी।

पार्सिंग ब्लास्ट परिणाम

सामान्यतया, BLAST आउटपुट NCBIXML मॉड्यूल का उपयोग करके XML प्रारूप के रूप में पार्स किया जाता है। ऐसा करने के लिए, हमें निम्नलिखित मॉड्यूल को आयात करना होगा -

>>> from Bio.Blast import NCBIXML

अभी, open the file directly using python open method तथा use NCBIXML parse method जैसा कि नीचे दिया गया है -

>>> E_VALUE_THRESH = 1e-20 
>>> for record in NCBIXML.parse(open("results.xml")): 
>>>     if record.alignments: 
>>>        print("\n") 
>>>        print("query: %s" % record.query[:100]) 
>>>        for align in record.alignments: 
>>>           for hsp in align.hsps: 
>>>              if hsp.expect < E_VALUE_THRESH: 
>>>                 print("match: %s " % align.title[:100])

यह इस प्रकार एक उत्पादन का उत्पादन करेगा -

query: gnl|alu|Z15030_HSAL001056 (Alu-J) 
match: gnl|alu|Z15030_HSAL001056 (Alu-J) 
match: gnl|alu|L12964_HSAL003860 (Alu-J) 
match: gnl|alu|L13042_HSAL003863 (Alu-FLA?) 
match: gnl|alu|M86249_HSAL001462 (Alu-FLA?) 
match: gnl|alu|M29484_HSAL002265 (Alu-J) 

query: gnl|alu|D00596_HSAL003180 (Alu-Sx) 
match: gnl|alu|D00596_HSAL003180 (Alu-Sx) 
match: gnl|alu|J03071_HSAL001860 (Alu-J) 
match: gnl|alu|X72409_HSAL005025 (Alu-Sx) 

query: gnl|alu|X55502_HSAL000745 (Alu-J) 
match: gnl|alu|X55502_HSAL000745 (Alu-J)