बायोपीथॉन - बायो एसक्यूएल मॉड्यूल

BioSQLमुख्य रूप से सभी RDBMS इंजन के लिए अनुक्रम और उसके संबंधित डेटा को संग्रहीत करने के लिए डिज़ाइन किया गया एक सामान्य डेटाबेस स्कीमा है। इसे इस तरह से डिज़ाइन किया गया है कि यह जेनबैंक, स्विसपोर्ट आदि जैसे सभी लोकप्रिय जैव सूचना विज्ञान डेटाबेस से डेटा को रखता है, इसका उपयोग इन-हाउस डेटा को भी स्टोर करने के लिए किया जा सकता है।

BioSQL वर्तमान में नीचे दिए गए डेटाबेस के लिए विशिष्ट स्कीमा प्रदान करता है -

  • MySQL (biosqldb-mysql.sql)
  • PostgreSQL (biosqldb-pg.sql)
  • ओरेकल (बायोसक्लब-ओरा / *। Sql)
  • SQLite (biosqldb-sqlite.sql)

यह जावा आधारित HSQLDB और डर्बी डेटाबेस के लिए न्यूनतम समर्थन भी प्रदान करता है।

BioPython BioSQL आधारित डेटाबेस के साथ काम करने के लिए बहुत ही सरल, आसान और उन्नत ORM क्षमताएं प्रदान करता है। BioPython provides a module, BioSQL निम्नलिखित कार्यक्षमता करने के लिए -

  • BioSQL डेटाबेस बनाएँ / निकालें
  • BioSQL डेटाबेस से कनेक्ट करें
  • GenBank, Swisport, BLAST परिणाम, Entrez परिणाम, आदि जैसे अनुक्रम डेटाबेस को पार्स करें, और इसे सीधे BioSQL डेटाबेस में लोड करें
  • BioSQL डेटाबेस से अनुक्रम डेटा प्राप्त करें
  • NCBI BLAST से टैक्सोनॉमी डेटा प्राप्त करें और इसे बायोस SQL ​​डेटाबेस में संग्रहीत करें
  • BioSQL डेटाबेस के खिलाफ किसी भी SQL क्वेरी को चलाएँ

BioSQL डाटाबेस स्कीमा का अवलोकन

BioSQL में गहराई से जाने से पहले, हमें BioSQL स्कीमा की मूल बातें समझ लें। BioSQL स्कीमा अनुक्रम डेटा, अनुक्रम सुविधा, अनुक्रम श्रेणी / ऑन्कोलॉजी और टैक्सोनॉमी जानकारी रखने के लिए 25+ टेबल प्रदान करता है। कुछ महत्वपूर्ण सारणी इस प्रकार हैं -

  • biodatabase
  • bioentry
  • biosequence
  • seqfeature
  • taxon
  • taxon_name
  • antology
  • term
  • dxref

BioSQL डाटाबेस बनाना

इस खंड में, बायोमास टीम द्वारा प्रदान किए गए स्कीमा का उपयोग करके एक नमूना बायोसक्यूएल डेटाबेस, बायोसैक बनाएं। हम SQLite डेटाबेस के साथ काम करेंगे क्योंकि इसे शुरू करना वास्तव में आसान है और इसमें जटिल सेटअप नहीं है।

यहां, हम नीचे दिए गए चरणों का उपयोग करके एक SQLite आधारित BioSQL डेटाबेस बनाएंगे।

Step 1 - SQLite डेटाबेस इंजन डाउनलोड करें और इसे इंस्टॉल करें।

Step 2 - GitHub URL से BioSQL प्रोजेक्ट डाउनलोड करें। https://github.com/biosql/biosql

Step 3 - एक कंसोल खोलें और mkdir का उपयोग करके एक निर्देशिका बनाएं और उसमें प्रवेश करें।

cd /path/to/your/biopython/sample 
mkdir sqlite-biosql 
cd sqlite-biosql

Step 4 - नया SQLite डेटाबेस बनाने के लिए नीचे दिया गया कमांड चलाएँ।

> sqlite3.exe mybiosql.db 
SQLite version 3.25.2 2018-09-25 19:08:10 
Enter ".help" for usage hints. 
sqlite>

Step 5 - बायोसक्यूएल प्रोजेक्ट (/ sql / biosqldb-sqlite.sql`) से biosqldb-sqlite.sql फ़ाइल की प्रतिलिपि बनाएँ और इसे वर्तमान निर्देशिका में संग्रहीत करें।

Step 6 - सभी टेबल बनाने के लिए नीचे दिया गया कमांड चलाएँ।

sqlite> .read biosqldb-sqlite.sql

अब, हमारे नए डेटाबेस में सभी टेबल बनाए गए हैं।

Step 7 - हमारे डेटाबेस में सभी नई तालिकाओं को देखने के लिए नीचे दिए गए आदेश को चलाएं।

sqlite> .headers on 
sqlite> .mode column 
sqlite> .separator ROW "\n" 
sqlite> SELECT name FROM sqlite_master WHERE type = 'table'; 
biodatabase 
taxon 
taxon_name 
ontology 
term 
term_synonym 
term_dbxref 
term_relationship 
term_relationship_term 
term_path
bioentry 
bioentry_relationship 
bioentry_path 
biosequence 
dbxref 
dbxref_qualifier_value 
bioentry_dbxref 
reference 
bioentry_reference 
comment 
bioentry_qualifier_value 
seqfeature 
seqfeature_relationship 
seqfeature_path 
seqfeature_qualifier_value 
seqfeature_dbxref 
location 
location_qualifier_value 
sqlite>

परिणाम स्वरूपित रूप में दिखाने के लिए SQLite को कॉन्फ़िगर करने के लिए पहले तीन कमांड कॉन्फ़िगरेशन कमांड हैं।

Step 8 - BioPython टीम द्वारा प्रदान किए गए नमूना GenBank फ़ाइल, ls_orchid.gbk की प्रतिलिपि बनाएँ https://raw.githubusercontent.com/biopython/biopython/master/Doc/examples/ls_orchid.gbk वर्तमान निर्देशिका में और इसे orchid.gbk के रूप में सहेजें।

Step 9 - नीचे कोड का उपयोग करके एक पायथन स्क्रिप्ट, load_orchid.py बनाएँ और इसे निष्पादित करें।

from Bio import SeqIO 
from BioSQL import BioSeqDatabase 
import os 

server = BioSeqDatabase.open_database(driver = 'sqlite3', db = "orchid.db") 

db = server.new_database("orchid") 
count = db.load(SeqIO.parse("orchid.gbk", "gb"), True) server.commit() 
server.close()

उपरोक्त कोड फ़ाइल में रिकॉर्ड को पार्स करता है और इसे अजगर वस्तुओं में परिवर्तित करता है और इसे बायोएसक्यूएल डेटाबेस में सम्मिलित करता है। हम बाद के अनुभाग में कोड का विश्लेषण करेंगे।

अंत में, हमने एक नया BioSQL डेटाबेस बनाया और उसमें कुछ सैंपल डेटा लोड किया। हम अगले अध्याय में महत्वपूर्ण तालिकाओं पर चर्चा करेंगे।

सरल ईआर आरेख

biodatabase तालिका पदानुक्रम के शीर्ष पर है और इसका मुख्य उद्देश्य एकल समूह / वर्चुअल डेटाबेस में अनुक्रम डेटा के एक सेट को व्यवस्थित करना है। Every entry in the biodatabase refers to a separate database and it does not mingle with another database. BioSQL डेटाबेस में सभी संबंधित तालिकाओं में बायोडेटाबेस प्रविष्टि के संदर्भ हैं।

bioentryतालिका अनुक्रम डेटा को छोड़कर अनुक्रम के बारे में सभी विवरण रखती है। किसी विशेष का अनुक्रम डेटाbioentry में संग्रहीत किया जाएगा biosequence तालिका।

टैक्सन और टैक्सोन_नाम टैक्सोनॉमी विवरण हैं और हर प्रविष्टि इस तालिका को अपनी टैक्सोन जानकारी निर्दिष्ट करने के लिए संदर्भित करती है।

स्कीमा को समझने के बाद, हमें अगले भाग में कुछ प्रश्नों पर ध्यान दें।

BioSQL प्रश्न

आइए डेटा को व्यवस्थित करने और तालिकाओं को एक-दूसरे से संबंधित करने के तरीके को बेहतर ढंग से समझने के लिए कुछ एसक्यूएल प्रश्नों पर ध्यान दें। आगे बढ़ने से पहले, नीचे दिए गए कमांड का उपयोग करके डेटाबेस को खोलें और कुछ फॉर्मेटिंग कमांड सेट करें -

> sqlite3 orchid.db 
SQLite version 3.25.2 2018-09-25 19:08:10 
Enter ".help" for usage hints. 
sqlite> .header on 
sqlite> .mode columns

.header and .mode are formatting options to better visualize the data। क्वेरी चलाने के लिए आप किसी भी SQLite एडिटर का उपयोग कर सकते हैं।

सिस्टम में उपलब्ध आभासी अनुक्रम डेटाबेस की सूची नीचे दी गई है -

select 
   * 
from 
   biodatabase;
*** Result ***
sqlite> .width 15 15 15 15 
sqlite> select * from biodatabase; 
biodatabase_id       name        authority       description    
---------------  --------------- --------------- --------------- 
1                   orchid 
sqlite>

यहाँ, हमारे पास केवल एक डेटाबेस है, orchid

डेटाबेस में उपलब्ध प्रविष्टियों (शीर्ष 3) को सूचीबद्ध करें orchid नीचे दिए गए कोड के साथ

select 
   be.*, 
   bd.name 
from 
   bioentry be 
   inner join 
      biodatabase bd 
      on bd.biodatabase_id = be.biodatabase_id 
where 
   bd.name = 'orchid' Limit 1, 
   3;
*** Result ***
sqlite> .width 15 15 10 10 10 10 10 50 10 10 
sqlite> select be.*, bd.name from bioentry be inner join biodatabase bd on 
bd.biodatabase_id = be.biodatabase_id where bd.name = 'orchid' Limit 1,3; 
bioentry_id biodatabase_id taxon_id name accession identifier division description version name 
--------------- --------------- ---------- ---------- ---------- ---------- ---------- 
---------- ---------- ----------- ---------- --------- ---------- ---------- 
2                   1               19       Z78532     Z78532    2765657     PLN 
C.californicum  5.8S rRNA  gene    and      ITS1    and   ITS2 DN  1 
orchid 
3         1         20          Z78531          Z78531         2765656        PLN
C.fasciculatum  5.8S rRNA  gene    and      ITS1    and   ITS2 DN  1 
orchid 
4         1         21          Z78530          Z78530         2765655        PLN 
C.margaritaceum 5.8S rRNA  gene    and      ITS1    and   ITS2  D  1 
orchid 
sqlite>

दिए गए कोड के साथ एक प्रविष्टि (परिग्रहण - Z78530, नाम - सी। फासिकुलटम 5.8 एस rRNA जीन और ITS1 और ITS2 डीएनए) के साथ अनुक्रम विवरण सूचीबद्ध करें -

select 
   substr(cast(bs.seq as varchar), 0, 10) || '...' as seq, 
   bs.length, 
   be.accession, 
   be.description, 
   bd.name 
from 
   biosequence bs 
   inner join 
      bioentry be 
      on be.bioentry_id = bs.bioentry_id 
   inner join 
      biodatabase bd 
      on bd.biodatabase_id = be.biodatabase_id 
where 
   bd.name = 'orchid' 
   and be.accession = 'Z78532';
*** Result ***

sqlite> .width 15 5 10 50 10 
sqlite> select substr(cast(bs.seq as varchar), 0, 10) || '...' as seq, 
bs.length, be.accession, be.description, bd.name from biosequence bs inner 
join bioentry be on be.bioentry_id = bs.bioentry_id inner join biodatabase bd 
on bd.biodatabase_id = be.biodatabase_id where bd.name = 'orchid' and 
be.accession = 'Z78532'; 
seq           length    accession   description  name 
------------ ---------- ---------- ------------ ------------ ---------- ---------- ----------------- 
CGTAACAAG...    753    Z78532    C.californicum 5.8S rRNA gene and ITS1 and ITS2 DNA orchid 
sqlite>

(- Z78530, नाम - सी परिग्रहण पूरा एक प्रवेश के साथ जुड़े अनुक्रम जाओ fasciculatum 5.8S rRNA जीन और ITS1 और ITS2 डीएनए) नीचे दिए गए कोड का उपयोग कर -

select 
   bs.seq 
from 
   biosequence bs 
   inner join 
      bioentry be 
      on be.bioentry_id = bs.bioentry_id 
   inner join 
      biodatabase bd 
      on bd.biodatabase_id = be.biodatabase_id 
where 
   bd.name = 'orchid' 
   and be.accession = 'Z78532';
*** Result ***

sqlite> .width 1000 
sqlite> select bs.seq from biosequence bs inner join bioentry be on 
be.bioentry_id = bs.bioentry_id inner join biodatabase bd on bd.biodatabase_id = 
be.biodatabase_id where bd.name = 'orchid' and be.accession = 'Z78532'; 
seq 
----------------------------------------------------------------------------------------
----------------------------
CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAACAGAATATATGATCGAGTGAATCT
GGAGGACCTGTGGTAACTCAGCTCGTCGTGGCACTGCTTTTGTCGTGACCCTGCTTTGTTGTTGGGCCTCC
TCAAGAGCTTTCATGGCAGGTTTGAACTTTAGTACGGTGCAGTTTGCGCCAAGTCATATAAAGCATCACTGATGAATGACATTATTGT
CAGAAAAAATCAGAGGGGCAGTATGCTACTGAGCATGCCAGTGAATTTTTATGACTCTCGCAACGGATATCTTGGCTC
TAACATCGATGAAGAACGCAG 
sqlite>

जैव डेटाबेस, ऑर्किड के साथ जुड़े कर सूची

select distinct 
   tn.name 
from 
   biodatabase d 
   inner join 
      bioentry e 
      on e.biodatabase_id = d.biodatabase_id 
   inner join 
      taxon t 
      on t.taxon_id = e.taxon_id 
   inner join 
      taxon_name tn 
      on tn.taxon_id = t.taxon_id 
where 
   d.name = 'orchid' limit 10;
*** Result ***

sqlite> select distinct tn.name from biodatabase d inner join bioentry e on 
e.biodatabase_id = d.biodatabase_id inner join taxon t on t.taxon_id = 
e.taxon_id inner join taxon_name tn on tn.taxon_id = t.taxon_id where d.name = 
'orchid' limit 10; 
name 
------------------------------ 
Cypripedium irapeanum 
Cypripedium californicum 
Cypripedium fasciculatum 
Cypripedium margaritaceum 
Cypripedium lichiangense 
Cypripedium yatabeanum 
Cypripedium guttatum 
Cypripedium acaule 
pink lady's slipper 
Cypripedium formosanum 
sqlite>

BioSQL डाटाबेस में डेटा लोड करें

आइए इस अध्याय में BioSQL डेटाबेस में अनुक्रम डेटा लोड करने का तरीका जानें। हमारे पास पिछले अनुभाग में डेटाबेस में डेटा लोड करने के लिए पहले से ही कोड है और कोड इस प्रकार है -

from Bio import SeqIO 
from BioSQL import BioSeqDatabase 
import os 

server = BioSeqDatabase.open_database(driver = 'sqlite3', db = "orchid.db") 
DBSCHEMA = "biosqldb-sqlite.sql" 
SQL_FILE = os.path.join(os.getcwd(), DBSCHEMA) 

server.load_database_sql(SQL_FILE) 
server.commit() 

db = server.new_database("orchid") 
count = db.load(SeqIO.parse("orchid.gbk", "gb"), True) server.commit() 
server.close()

हम कोड की हर पंक्ति और उसके उद्देश्य पर एक गहरी नज़र रखेंगे -

Line 1 - SeqIO मॉड्यूल को लोड करता है।

Line 2- BioSeqDatabase मॉड्यूल लोड करता है। यह मॉड्यूल BioSQL डेटाबेस के साथ बातचीत करने के लिए सभी कार्यक्षमता प्रदान करता है।

Line 3 - भार ओएस मॉड्यूल।

Line 5- open_database से कॉन्फ़िगर किए गए ड्राइवर (ड्राइवर) के साथ निर्दिष्ट डेटाबेस (db) को खोलता है और BioSQL डेटाबेस (सर्वर) को हैंडल देता है। Biopython sqlite, mysql, postgresql और oracle डेटाबेस का समर्थन करता है।

Line 6-10- load_database_sql विधि बाहरी फ़ाइल से sql लोड करती है और इसे निष्पादित करती है। प्रतिबद्ध पद्धति लेन-देन करती है। हम इस चरण को छोड़ सकते हैं क्योंकि हमने पहले से ही स्कीमा के साथ डेटाबेस बनाया है।

Line 12 - new_database मेथड्स नए वर्चुअल डेटाबेस ऑर्किड बनाता है और आर्किड डेटाबेस के विरुद्ध कमांड निष्पादित करने के लिए एक db देता है।

Line 13- लोड विधि ऑर्किड डेटाबेस में अनुक्रम प्रविष्टियों (पुनरावृत्त SeqRecord) को लोड करती है। SqlIO.parse जेनबैंक डेटाबेस को पार्स करता है और इसमें सभी अनुक्रमों को पुनरावृत्त SeqRecord के रूप में लौटाता है। लोड विधि का दूसरा पैरामीटर (ट्रू) एनसीबीआई ब्लास्ट वेबसाइट से अनुक्रम डेटा के वर्गीकरण विवरण प्राप्त करने का निर्देश देता है, अगर यह सिस्टम में पहले से उपलब्ध नहीं है।

Line 14 - प्रतिबद्ध लेन-देन करता है।

Line 15 - करीब डेटाबेस कनेक्शन को बंद कर देता है और सर्वर हैंडल को नष्ट कर देता है।

अनुक्रम डेटा प्राप्त करें

आइए नीचे दिए गए आर्किड डेटाबेस से पहचानकर्ता, 2765658 के साथ एक अनुक्रम प्राप्त करें -

from BioSQL import BioSeqDatabase 

server = BioSeqDatabase.open_database(driver = 'sqlite3', db = "orchid.db") 

db = server["orchid"] 
seq_record = db.lookup(gi = 2765658) 
print(seq_record.id, seq_record.description[:50] + "...") 
print("Sequence length %i," % len(seq_record.seq))

यहां, सर्वर ["ऑर्किड"] वर्चुअल डेटाबेसॉर्चिड से डेटा लाने के लिए हैंडल लौटाता है। lookup विधि मानदंडों के आधार पर अनुक्रमों का चयन करने का विकल्प प्रदान करती है और हमने पहचानकर्ता, 2765658 के साथ अनुक्रम का चयन किया है। lookupअनुक्रम जानकारी SeqRecordobject के रूप में देता है। चूंकि, हम पहले से ही जानते हैं कि SeqRecord` के साथ कैसे काम करना है, इससे डेटा प्राप्त करना आसान है।

एक डेटाबेस निकालें

डेटाबेस को हटाना उतना ही सरल है जितना कि उचित डेटाबेस के नाम के साथ remove_database विधि को कॉल करना और फिर इसे नीचे बताए अनुसार करना -

from BioSQL import BioSeqDatabase 
server = BioSeqDatabase.open_database(driver = 'sqlite3', db = "orchid.db") 
server.remove_database("orchids") 
server.commit()