बायोपीथॉन - बायो एसक्यूएल मॉड्यूल
BioSQLमुख्य रूप से सभी RDBMS इंजन के लिए अनुक्रम और उसके संबंधित डेटा को संग्रहीत करने के लिए डिज़ाइन किया गया एक सामान्य डेटाबेस स्कीमा है। इसे इस तरह से डिज़ाइन किया गया है कि यह जेनबैंक, स्विसपोर्ट आदि जैसे सभी लोकप्रिय जैव सूचना विज्ञान डेटाबेस से डेटा को रखता है, इसका उपयोग इन-हाउस डेटा को भी स्टोर करने के लिए किया जा सकता है।
BioSQL वर्तमान में नीचे दिए गए डेटाबेस के लिए विशिष्ट स्कीमा प्रदान करता है -
- MySQL (biosqldb-mysql.sql)
- PostgreSQL (biosqldb-pg.sql)
- ओरेकल (बायोसक्लब-ओरा / *। Sql)
- SQLite (biosqldb-sqlite.sql)
यह जावा आधारित HSQLDB और डर्बी डेटाबेस के लिए न्यूनतम समर्थन भी प्रदान करता है।
BioPython BioSQL आधारित डेटाबेस के साथ काम करने के लिए बहुत ही सरल, आसान और उन्नत ORM क्षमताएं प्रदान करता है। BioPython provides a module, BioSQL निम्नलिखित कार्यक्षमता करने के लिए -
- BioSQL डेटाबेस बनाएँ / निकालें
- BioSQL डेटाबेस से कनेक्ट करें
- GenBank, Swisport, BLAST परिणाम, Entrez परिणाम, आदि जैसे अनुक्रम डेटाबेस को पार्स करें, और इसे सीधे BioSQL डेटाबेस में लोड करें
- BioSQL डेटाबेस से अनुक्रम डेटा प्राप्त करें
- NCBI BLAST से टैक्सोनॉमी डेटा प्राप्त करें और इसे बायोस SQL डेटाबेस में संग्रहीत करें
- BioSQL डेटाबेस के खिलाफ किसी भी SQL क्वेरी को चलाएँ
BioSQL डाटाबेस स्कीमा का अवलोकन
BioSQL में गहराई से जाने से पहले, हमें BioSQL स्कीमा की मूल बातें समझ लें। BioSQL स्कीमा अनुक्रम डेटा, अनुक्रम सुविधा, अनुक्रम श्रेणी / ऑन्कोलॉजी और टैक्सोनॉमी जानकारी रखने के लिए 25+ टेबल प्रदान करता है। कुछ महत्वपूर्ण सारणी इस प्रकार हैं -
- biodatabase
- bioentry
- biosequence
- seqfeature
- taxon
- taxon_name
- antology
- term
- dxref
BioSQL डाटाबेस बनाना
इस खंड में, बायोमास टीम द्वारा प्रदान किए गए स्कीमा का उपयोग करके एक नमूना बायोसक्यूएल डेटाबेस, बायोसैक बनाएं। हम SQLite डेटाबेस के साथ काम करेंगे क्योंकि इसे शुरू करना वास्तव में आसान है और इसमें जटिल सेटअप नहीं है।
यहां, हम नीचे दिए गए चरणों का उपयोग करके एक SQLite आधारित BioSQL डेटाबेस बनाएंगे।
Step 1 - SQLite डेटाबेस इंजन डाउनलोड करें और इसे इंस्टॉल करें।
Step 2 - GitHub URL से BioSQL प्रोजेक्ट डाउनलोड करें। https://github.com/biosql/biosql
Step 3 - एक कंसोल खोलें और mkdir का उपयोग करके एक निर्देशिका बनाएं और उसमें प्रवेश करें।
cd /path/to/your/biopython/sample
mkdir sqlite-biosql
cd sqlite-biosql
Step 4 - नया SQLite डेटाबेस बनाने के लिए नीचे दिया गया कमांड चलाएँ।
> sqlite3.exe mybiosql.db
SQLite version 3.25.2 2018-09-25 19:08:10
Enter ".help" for usage hints.
sqlite>
Step 5 - बायोसक्यूएल प्रोजेक्ट (/ sql / biosqldb-sqlite.sql`) से biosqldb-sqlite.sql फ़ाइल की प्रतिलिपि बनाएँ और इसे वर्तमान निर्देशिका में संग्रहीत करें।
Step 6 - सभी टेबल बनाने के लिए नीचे दिया गया कमांड चलाएँ।
sqlite> .read biosqldb-sqlite.sql
अब, हमारे नए डेटाबेस में सभी टेबल बनाए गए हैं।
Step 7 - हमारे डेटाबेस में सभी नई तालिकाओं को देखने के लिए नीचे दिए गए आदेश को चलाएं।
sqlite> .headers on
sqlite> .mode column
sqlite> .separator ROW "\n"
sqlite> SELECT name FROM sqlite_master WHERE type = 'table';
biodatabase
taxon
taxon_name
ontology
term
term_synonym
term_dbxref
term_relationship
term_relationship_term
term_path
bioentry
bioentry_relationship
bioentry_path
biosequence
dbxref
dbxref_qualifier_value
bioentry_dbxref
reference
bioentry_reference
comment
bioentry_qualifier_value
seqfeature
seqfeature_relationship
seqfeature_path
seqfeature_qualifier_value
seqfeature_dbxref
location
location_qualifier_value
sqlite>
परिणाम स्वरूपित रूप में दिखाने के लिए SQLite को कॉन्फ़िगर करने के लिए पहले तीन कमांड कॉन्फ़िगरेशन कमांड हैं।
Step 8 - BioPython टीम द्वारा प्रदान किए गए नमूना GenBank फ़ाइल, ls_orchid.gbk की प्रतिलिपि बनाएँ https://raw.githubusercontent.com/biopython/biopython/master/Doc/examples/ls_orchid.gbk वर्तमान निर्देशिका में और इसे orchid.gbk के रूप में सहेजें।
Step 9 - नीचे कोड का उपयोग करके एक पायथन स्क्रिप्ट, load_orchid.py बनाएँ और इसे निष्पादित करें।
from Bio import SeqIO
from BioSQL import BioSeqDatabase
import os
server = BioSeqDatabase.open_database(driver = 'sqlite3', db = "orchid.db")
db = server.new_database("orchid")
count = db.load(SeqIO.parse("orchid.gbk", "gb"), True) server.commit()
server.close()
उपरोक्त कोड फ़ाइल में रिकॉर्ड को पार्स करता है और इसे अजगर वस्तुओं में परिवर्तित करता है और इसे बायोएसक्यूएल डेटाबेस में सम्मिलित करता है। हम बाद के अनुभाग में कोड का विश्लेषण करेंगे।
अंत में, हमने एक नया BioSQL डेटाबेस बनाया और उसमें कुछ सैंपल डेटा लोड किया। हम अगले अध्याय में महत्वपूर्ण तालिकाओं पर चर्चा करेंगे।
सरल ईआर आरेख
biodatabase तालिका पदानुक्रम के शीर्ष पर है और इसका मुख्य उद्देश्य एकल समूह / वर्चुअल डेटाबेस में अनुक्रम डेटा के एक सेट को व्यवस्थित करना है। Every entry in the biodatabase refers to a separate database and it does not mingle with another database. BioSQL डेटाबेस में सभी संबंधित तालिकाओं में बायोडेटाबेस प्रविष्टि के संदर्भ हैं।
bioentryतालिका अनुक्रम डेटा को छोड़कर अनुक्रम के बारे में सभी विवरण रखती है। किसी विशेष का अनुक्रम डेटाbioentry में संग्रहीत किया जाएगा biosequence तालिका।
टैक्सन और टैक्सोन_नाम टैक्सोनॉमी विवरण हैं और हर प्रविष्टि इस तालिका को अपनी टैक्सोन जानकारी निर्दिष्ट करने के लिए संदर्भित करती है।
स्कीमा को समझने के बाद, हमें अगले भाग में कुछ प्रश्नों पर ध्यान दें।
BioSQL प्रश्न
आइए डेटा को व्यवस्थित करने और तालिकाओं को एक-दूसरे से संबंधित करने के तरीके को बेहतर ढंग से समझने के लिए कुछ एसक्यूएल प्रश्नों पर ध्यान दें। आगे बढ़ने से पहले, नीचे दिए गए कमांड का उपयोग करके डेटाबेस को खोलें और कुछ फॉर्मेटिंग कमांड सेट करें -
> sqlite3 orchid.db
SQLite version 3.25.2 2018-09-25 19:08:10
Enter ".help" for usage hints.
sqlite> .header on
sqlite> .mode columns
.header and .mode are formatting options to better visualize the data। क्वेरी चलाने के लिए आप किसी भी SQLite एडिटर का उपयोग कर सकते हैं।
सिस्टम में उपलब्ध आभासी अनुक्रम डेटाबेस की सूची नीचे दी गई है -
select
*
from
biodatabase;
*** Result ***
sqlite> .width 15 15 15 15
sqlite> select * from biodatabase;
biodatabase_id name authority description
--------------- --------------- --------------- ---------------
1 orchid
sqlite>
यहाँ, हमारे पास केवल एक डेटाबेस है, orchid।
डेटाबेस में उपलब्ध प्रविष्टियों (शीर्ष 3) को सूचीबद्ध करें orchid नीचे दिए गए कोड के साथ
select
be.*,
bd.name
from
bioentry be
inner join
biodatabase bd
on bd.biodatabase_id = be.biodatabase_id
where
bd.name = 'orchid' Limit 1,
3;
*** Result ***
sqlite> .width 15 15 10 10 10 10 10 50 10 10
sqlite> select be.*, bd.name from bioentry be inner join biodatabase bd on
bd.biodatabase_id = be.biodatabase_id where bd.name = 'orchid' Limit 1,3;
bioentry_id biodatabase_id taxon_id name accession identifier division description version name
--------------- --------------- ---------- ---------- ---------- ---------- ----------
---------- ---------- ----------- ---------- --------- ---------- ----------
2 1 19 Z78532 Z78532 2765657 PLN
C.californicum 5.8S rRNA gene and ITS1 and ITS2 DN 1
orchid
3 1 20 Z78531 Z78531 2765656 PLN
C.fasciculatum 5.8S rRNA gene and ITS1 and ITS2 DN 1
orchid
4 1 21 Z78530 Z78530 2765655 PLN
C.margaritaceum 5.8S rRNA gene and ITS1 and ITS2 D 1
orchid
sqlite>
दिए गए कोड के साथ एक प्रविष्टि (परिग्रहण - Z78530, नाम - सी। फासिकुलटम 5.8 एस rRNA जीन और ITS1 और ITS2 डीएनए) के साथ अनुक्रम विवरण सूचीबद्ध करें -
select
substr(cast(bs.seq as varchar), 0, 10) || '...' as seq,
bs.length,
be.accession,
be.description,
bd.name
from
biosequence bs
inner join
bioentry be
on be.bioentry_id = bs.bioentry_id
inner join
biodatabase bd
on bd.biodatabase_id = be.biodatabase_id
where
bd.name = 'orchid'
and be.accession = 'Z78532';
*** Result ***
sqlite> .width 15 5 10 50 10
sqlite> select substr(cast(bs.seq as varchar), 0, 10) || '...' as seq,
bs.length, be.accession, be.description, bd.name from biosequence bs inner
join bioentry be on be.bioentry_id = bs.bioentry_id inner join biodatabase bd
on bd.biodatabase_id = be.biodatabase_id where bd.name = 'orchid' and
be.accession = 'Z78532';
seq length accession description name
------------ ---------- ---------- ------------ ------------ ---------- ---------- -----------------
CGTAACAAG... 753 Z78532 C.californicum 5.8S rRNA gene and ITS1 and ITS2 DNA orchid
sqlite>
(- Z78530, नाम - सी परिग्रहण पूरा एक प्रवेश के साथ जुड़े अनुक्रम जाओ fasciculatum 5.8S rRNA जीन और ITS1 और ITS2 डीएनए) नीचे दिए गए कोड का उपयोग कर -
select
bs.seq
from
biosequence bs
inner join
bioentry be
on be.bioentry_id = bs.bioentry_id
inner join
biodatabase bd
on bd.biodatabase_id = be.biodatabase_id
where
bd.name = 'orchid'
and be.accession = 'Z78532';
*** Result ***
sqlite> .width 1000
sqlite> select bs.seq from biosequence bs inner join bioentry be on
be.bioentry_id = bs.bioentry_id inner join biodatabase bd on bd.biodatabase_id =
be.biodatabase_id where bd.name = 'orchid' and be.accession = 'Z78532';
seq
----------------------------------------------------------------------------------------
----------------------------
CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAACAGAATATATGATCGAGTGAATCT
GGAGGACCTGTGGTAACTCAGCTCGTCGTGGCACTGCTTTTGTCGTGACCCTGCTTTGTTGTTGGGCCTCC
TCAAGAGCTTTCATGGCAGGTTTGAACTTTAGTACGGTGCAGTTTGCGCCAAGTCATATAAAGCATCACTGATGAATGACATTATTGT
CAGAAAAAATCAGAGGGGCAGTATGCTACTGAGCATGCCAGTGAATTTTTATGACTCTCGCAACGGATATCTTGGCTC
TAACATCGATGAAGAACGCAG
sqlite>
जैव डेटाबेस, ऑर्किड के साथ जुड़े कर सूची
select distinct
tn.name
from
biodatabase d
inner join
bioentry e
on e.biodatabase_id = d.biodatabase_id
inner join
taxon t
on t.taxon_id = e.taxon_id
inner join
taxon_name tn
on tn.taxon_id = t.taxon_id
where
d.name = 'orchid' limit 10;
*** Result ***
sqlite> select distinct tn.name from biodatabase d inner join bioentry e on
e.biodatabase_id = d.biodatabase_id inner join taxon t on t.taxon_id =
e.taxon_id inner join taxon_name tn on tn.taxon_id = t.taxon_id where d.name =
'orchid' limit 10;
name
------------------------------
Cypripedium irapeanum
Cypripedium californicum
Cypripedium fasciculatum
Cypripedium margaritaceum
Cypripedium lichiangense
Cypripedium yatabeanum
Cypripedium guttatum
Cypripedium acaule
pink lady's slipper
Cypripedium formosanum
sqlite>
BioSQL डाटाबेस में डेटा लोड करें
आइए इस अध्याय में BioSQL डेटाबेस में अनुक्रम डेटा लोड करने का तरीका जानें। हमारे पास पिछले अनुभाग में डेटाबेस में डेटा लोड करने के लिए पहले से ही कोड है और कोड इस प्रकार है -
from Bio import SeqIO
from BioSQL import BioSeqDatabase
import os
server = BioSeqDatabase.open_database(driver = 'sqlite3', db = "orchid.db")
DBSCHEMA = "biosqldb-sqlite.sql"
SQL_FILE = os.path.join(os.getcwd(), DBSCHEMA)
server.load_database_sql(SQL_FILE)
server.commit()
db = server.new_database("orchid")
count = db.load(SeqIO.parse("orchid.gbk", "gb"), True) server.commit()
server.close()
हम कोड की हर पंक्ति और उसके उद्देश्य पर एक गहरी नज़र रखेंगे -
Line 1 - SeqIO मॉड्यूल को लोड करता है।
Line 2- BioSeqDatabase मॉड्यूल लोड करता है। यह मॉड्यूल BioSQL डेटाबेस के साथ बातचीत करने के लिए सभी कार्यक्षमता प्रदान करता है।
Line 3 - भार ओएस मॉड्यूल।
Line 5- open_database से कॉन्फ़िगर किए गए ड्राइवर (ड्राइवर) के साथ निर्दिष्ट डेटाबेस (db) को खोलता है और BioSQL डेटाबेस (सर्वर) को हैंडल देता है। Biopython sqlite, mysql, postgresql और oracle डेटाबेस का समर्थन करता है।
Line 6-10- load_database_sql विधि बाहरी फ़ाइल से sql लोड करती है और इसे निष्पादित करती है। प्रतिबद्ध पद्धति लेन-देन करती है। हम इस चरण को छोड़ सकते हैं क्योंकि हमने पहले से ही स्कीमा के साथ डेटाबेस बनाया है।
Line 12 - new_database मेथड्स नए वर्चुअल डेटाबेस ऑर्किड बनाता है और आर्किड डेटाबेस के विरुद्ध कमांड निष्पादित करने के लिए एक db देता है।
Line 13- लोड विधि ऑर्किड डेटाबेस में अनुक्रम प्रविष्टियों (पुनरावृत्त SeqRecord) को लोड करती है। SqlIO.parse जेनबैंक डेटाबेस को पार्स करता है और इसमें सभी अनुक्रमों को पुनरावृत्त SeqRecord के रूप में लौटाता है। लोड विधि का दूसरा पैरामीटर (ट्रू) एनसीबीआई ब्लास्ट वेबसाइट से अनुक्रम डेटा के वर्गीकरण विवरण प्राप्त करने का निर्देश देता है, अगर यह सिस्टम में पहले से उपलब्ध नहीं है।
Line 14 - प्रतिबद्ध लेन-देन करता है।
Line 15 - करीब डेटाबेस कनेक्शन को बंद कर देता है और सर्वर हैंडल को नष्ट कर देता है।
अनुक्रम डेटा प्राप्त करें
आइए नीचे दिए गए आर्किड डेटाबेस से पहचानकर्ता, 2765658 के साथ एक अनुक्रम प्राप्त करें -
from BioSQL import BioSeqDatabase
server = BioSeqDatabase.open_database(driver = 'sqlite3', db = "orchid.db")
db = server["orchid"]
seq_record = db.lookup(gi = 2765658)
print(seq_record.id, seq_record.description[:50] + "...")
print("Sequence length %i," % len(seq_record.seq))
यहां, सर्वर ["ऑर्किड"] वर्चुअल डेटाबेसॉर्चिड से डेटा लाने के लिए हैंडल लौटाता है। lookup विधि मानदंडों के आधार पर अनुक्रमों का चयन करने का विकल्प प्रदान करती है और हमने पहचानकर्ता, 2765658 के साथ अनुक्रम का चयन किया है। lookupअनुक्रम जानकारी SeqRecordobject के रूप में देता है। चूंकि, हम पहले से ही जानते हैं कि SeqRecord` के साथ कैसे काम करना है, इससे डेटा प्राप्त करना आसान है।
एक डेटाबेस निकालें
डेटाबेस को हटाना उतना ही सरल है जितना कि उचित डेटाबेस के नाम के साथ remove_database विधि को कॉल करना और फिर इसे नीचे बताए अनुसार करना -
from BioSQL import BioSeqDatabase
server = BioSeqDatabase.open_database(driver = 'sqlite3', db = "orchid.db")
server.remove_database("orchids")
server.commit()