Biopython - Modul BioSQL
BioSQLadalah skema database generik yang dirancang terutama untuk menyimpan urutan dan data terkait untuk semua mesin RDBMS. Ini dirancang sedemikian rupa sehingga menyimpan data dari semua database bioinformatika populer seperti GenBank, Swissport, dll. Dapat digunakan untuk menyimpan data internal juga.
BioSQL saat ini menyediakan skema khusus untuk database di bawah ini -
- MySQL (biosqldb-mysql.sql)
- PostgreSQL (biosqldb-pg.sql)
- Oracle (biosqldb-ora / *. Sql)
- SQLite (biosqldb-sqlite.sql)
Ini juga memberikan dukungan minimal untuk database HSQLDB dan Derby berbasis Java.
BioPython menyediakan kemampuan ORM yang sangat sederhana, mudah dan canggih untuk bekerja dengan database berbasis BioSQL. BioPython provides a module, BioSQL untuk melakukan fungsi berikut -
- Membuat / menghapus database BioSQL
- Hubungkan ke database BioSQL
- Parsing database urutan seperti GenBank, Swisport, hasil BLAST, hasil Entrez, dll., Dan langsung muat ke database BioSQL
- Ambil data urutan dari database BioSQL
- Ambil data taksonomi dari NCBI BLAST dan simpan di database BioSQL
- Jalankan kueri SQL apa pun terhadap database BioSQL
Gambaran Umum Skema Database BioSQL
Sebelum masuk lebih dalam ke BioSQL, mari kita pahami dasar-dasar skema BioSQL. Skema BioSQL menyediakan 25+ tabel untuk menyimpan data urutan, fitur urutan, kategori urutan / ontologi dan informasi taksonomi. Beberapa tabel penting adalah sebagai berikut -
- biodatabase
- bioentry
- biosequence
- seqfeature
- taxon
- taxon_name
- antology
- term
- dxref
Membuat Database BioSQL
Di bagian ini, mari kita buat contoh database BioSQL, biosql menggunakan skema yang disediakan oleh tim BioSQL. Kami akan bekerja dengan database SQLite karena sangat mudah untuk memulai dan tidak memiliki pengaturan yang rumit.
Di sini, kita akan membuat database BioSQL berbasis SQLite menggunakan langkah-langkah di bawah ini.
Step 1 - Unduh mesin data SQLite dan instal.
Step 2 - Unduh proyek BioSQL dari URL GitHub. https://github.com/biosql/biosql
Step 3 - Buka konsol dan buat direktori menggunakan mkdir dan masuk ke dalamnya.
cd /path/to/your/biopython/sample
mkdir sqlite-biosql
cd sqlite-biosql
Step 4 - Jalankan perintah di bawah ini untuk membuat database SQLite baru.
> sqlite3.exe mybiosql.db
SQLite version 3.25.2 2018-09-25 19:08:10
Enter ".help" for usage hints.
sqlite>
Step 5 - Salin file biosqldb-sqlite.sql dari proyek BioSQL (/ sql / biosqldb-sqlite.sql`) dan simpan di direktori saat ini.
Step 6 - Jalankan perintah di bawah ini untuk membuat semua tabel.
sqlite> .read biosqldb-sqlite.sql
Sekarang, semua tabel dibuat di database baru kami.
Step 7 - Jalankan perintah di bawah ini untuk melihat semua tabel baru di database kami.
sqlite> .headers on
sqlite> .mode column
sqlite> .separator ROW "\n"
sqlite> SELECT name FROM sqlite_master WHERE type = 'table';
biodatabase
taxon
taxon_name
ontology
term
term_synonym
term_dbxref
term_relationship
term_relationship_term
term_path
bioentry
bioentry_relationship
bioentry_path
biosequence
dbxref
dbxref_qualifier_value
bioentry_dbxref
reference
bioentry_reference
comment
bioentry_qualifier_value
seqfeature
seqfeature_relationship
seqfeature_path
seqfeature_qualifier_value
seqfeature_dbxref
location
location_qualifier_value
sqlite>
Tiga perintah pertama adalah perintah konfigurasi untuk mengkonfigurasi SQLite agar menampilkan hasil dalam format yang telah ditetapkan.
Step 8 - Salin contoh file GenBank, ls_orchid.gbk yang disediakan oleh tim BioPython https://raw.githubusercontent.com/biopython/biopython/master/Doc/examples/ls_orchid.gbk ke direktori saat ini dan simpan sebagai orchid.gbk.
Step 9 - Buat skrip python, load_orchid.py menggunakan kode di bawah ini dan jalankan.
from Bio import SeqIO
from BioSQL import BioSeqDatabase
import os
server = BioSeqDatabase.open_database(driver = 'sqlite3', db = "orchid.db")
db = server.new_database("orchid")
count = db.load(SeqIO.parse("orchid.gbk", "gb"), True) server.commit()
server.close()
Kode di atas mem-parsing record dalam file dan mengubahnya menjadi objek python dan memasukkannya ke database BioSQL. Kami akan menganalisis kode di bagian selanjutnya.
Terakhir, kami membuat database BioSQL baru dan memuat beberapa data sampel ke dalamnya. Kami akan membahas tabel penting di bab berikutnya.
Diagram ER Sederhana
biodatabase tabel berada di puncak hierarki dan tujuan utamanya adalah untuk mengatur sekumpulan data urutan ke dalam satu grup / database virtual. Every entry in the biodatabase refers to a separate database and it does not mingle with another database. Semua tabel terkait dalam database BioSQL memiliki referensi ke entri biodatabase.
bioentrytabel menyimpan semua detail tentang urutan kecuali data urutan. data urutan tertentubioentry akan disimpan di biosequence meja.
takson dan nama_ takson adalah detail taksonomi dan setiap entri merujuk pada tabel ini untuk menentukan informasi taksonnya.
Setelah memahami skema, mari kita lihat beberapa kueri di bagian selanjutnya.
Kueri BioSQL
Mari kita mempelajari beberapa kueri SQL untuk lebih memahami bagaimana data diatur dan tabel terkait satu sama lain. Sebelum melanjutkan, mari kita buka database menggunakan perintah di bawah ini dan atur beberapa perintah pemformatan -
> sqlite3 orchid.db
SQLite version 3.25.2 2018-09-25 19:08:10
Enter ".help" for usage hints.
sqlite> .header on
sqlite> .mode columns
.header and .mode are formatting options to better visualize the data. Anda juga dapat menggunakan editor SQLite apa pun untuk menjalankan kueri.
Buat daftar database urutan virtual yang tersedia di sistem seperti yang diberikan di bawah ini -
select
*
from
biodatabase;
*** Result ***
sqlite> .width 15 15 15 15
sqlite> select * from biodatabase;
biodatabase_id name authority description
--------------- --------------- --------------- ---------------
1 orchid
sqlite>
Di sini, kami hanya memiliki satu database, orchid.
Buat daftar entri (3 teratas) yang tersedia di database orchid dengan kode yang diberikan di bawah ini
select
be.*,
bd.name
from
bioentry be
inner join
biodatabase bd
on bd.biodatabase_id = be.biodatabase_id
where
bd.name = 'orchid' Limit 1,
3;
*** Result ***
sqlite> .width 15 15 10 10 10 10 10 50 10 10
sqlite> select be.*, bd.name from bioentry be inner join biodatabase bd on
bd.biodatabase_id = be.biodatabase_id where bd.name = 'orchid' Limit 1,3;
bioentry_id biodatabase_id taxon_id name accession identifier division description version name
--------------- --------------- ---------- ---------- ---------- ---------- ----------
---------- ---------- ----------- ---------- --------- ---------- ----------
2 1 19 Z78532 Z78532 2765657 PLN
C.californicum 5.8S rRNA gene and ITS1 and ITS2 DN 1
orchid
3 1 20 Z78531 Z78531 2765656 PLN
C.fasciculatum 5.8S rRNA gene and ITS1 and ITS2 DN 1
orchid
4 1 21 Z78530 Z78530 2765655 PLN
C.margaritaceum 5.8S rRNA gene and ITS1 and ITS2 D 1
orchid
sqlite>
Buat daftar detail urutan yang terkait dengan entri (aksesi - Z78530, nama - gen C. fasciculatum 5.8S rRNA dan DNA ITS1 dan ITS2) dengan kode yang diberikan -
select
substr(cast(bs.seq as varchar), 0, 10) || '...' as seq,
bs.length,
be.accession,
be.description,
bd.name
from
biosequence bs
inner join
bioentry be
on be.bioentry_id = bs.bioentry_id
inner join
biodatabase bd
on bd.biodatabase_id = be.biodatabase_id
where
bd.name = 'orchid'
and be.accession = 'Z78532';
*** Result ***
sqlite> .width 15 5 10 50 10
sqlite> select substr(cast(bs.seq as varchar), 0, 10) || '...' as seq,
bs.length, be.accession, be.description, bd.name from biosequence bs inner
join bioentry be on be.bioentry_id = bs.bioentry_id inner join biodatabase bd
on bd.biodatabase_id = be.biodatabase_id where bd.name = 'orchid' and
be.accession = 'Z78532';
seq length accession description name
------------ ---------- ---------- ------------ ------------ ---------- ---------- -----------------
CGTAACAAG... 753 Z78532 C.californicum 5.8S rRNA gene and ITS1 and ITS2 DNA orchid
sqlite>
Dapatkan urutan lengkap yang terkait dengan entri (aksesi - Z78530, nama - gen C. fasciculatum 5.8S rRNA dan DNA ITS1 dan ITS2) menggunakan kode di bawah ini -
select
bs.seq
from
biosequence bs
inner join
bioentry be
on be.bioentry_id = bs.bioentry_id
inner join
biodatabase bd
on bd.biodatabase_id = be.biodatabase_id
where
bd.name = 'orchid'
and be.accession = 'Z78532';
*** Result ***
sqlite> .width 1000
sqlite> select bs.seq from biosequence bs inner join bioentry be on
be.bioentry_id = bs.bioentry_id inner join biodatabase bd on bd.biodatabase_id =
be.biodatabase_id where bd.name = 'orchid' and be.accession = 'Z78532';
seq
----------------------------------------------------------------------------------------
----------------------------
CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAACAGAATATATGATCGAGTGAATCT
GGAGGACCTGTGGTAACTCAGCTCGTCGTGGCACTGCTTTTGTCGTGACCCTGCTTTGTTGTTGGGCCTCC
TCAAGAGCTTTCATGGCAGGTTTGAACTTTAGTACGGTGCAGTTTGCGCCAAGTCATATAAAGCATCACTGATGAATGACATTATTGT
CAGAAAAAATCAGAGGGGCAGTATGCTACTGAGCATGCCAGTGAATTTTTATGACTCTCGCAACGGATATCTTGGCTC
TAACATCGATGAAGAACGCAG
sqlite>
Daftar takson yang terkait dengan database bio, anggrek
select distinct
tn.name
from
biodatabase d
inner join
bioentry e
on e.biodatabase_id = d.biodatabase_id
inner join
taxon t
on t.taxon_id = e.taxon_id
inner join
taxon_name tn
on tn.taxon_id = t.taxon_id
where
d.name = 'orchid' limit 10;
*** Result ***
sqlite> select distinct tn.name from biodatabase d inner join bioentry e on
e.biodatabase_id = d.biodatabase_id inner join taxon t on t.taxon_id =
e.taxon_id inner join taxon_name tn on tn.taxon_id = t.taxon_id where d.name =
'orchid' limit 10;
name
------------------------------
Cypripedium irapeanum
Cypripedium californicum
Cypripedium fasciculatum
Cypripedium margaritaceum
Cypripedium lichiangense
Cypripedium yatabeanum
Cypripedium guttatum
Cypripedium acaule
pink lady's slipper
Cypripedium formosanum
sqlite>
Muat Data ke Database BioSQL
Mari kita pelajari cara memuat data urutan ke database BioSQL di bab ini. Kami sudah memiliki kode untuk memuat data ke database di bagian sebelumnya dan kodenya adalah sebagai berikut -
from Bio import SeqIO
from BioSQL import BioSeqDatabase
import os
server = BioSeqDatabase.open_database(driver = 'sqlite3', db = "orchid.db")
DBSCHEMA = "biosqldb-sqlite.sql"
SQL_FILE = os.path.join(os.getcwd(), DBSCHEMA)
server.load_database_sql(SQL_FILE)
server.commit()
db = server.new_database("orchid")
count = db.load(SeqIO.parse("orchid.gbk", "gb"), True) server.commit()
server.close()
Kami akan melihat lebih dalam setiap baris kode dan tujuannya -
Line 1 - Memuat modul SeqIO.
Line 2- Memuat modul BioSeqDatabase. Modul ini menyediakan semua fungsionalitas untuk berinteraksi dengan database BioSQL.
Line 3 - Memuat modul os.
Line 5- open_database membuka database yang ditentukan (db) dengan driver yang dikonfigurasi (driver) dan mengembalikan pegangan ke database BioSQL (server). Biopython mendukung database sqlite, mysql, postgresql dan oracle.
Line 6-10- Metode load_database_sql memuat sql dari file eksternal dan menjalankannya. metode komit melakukan transaksi. Kita bisa melewati langkah ini karena kita sudah membuat database dengan skema.
Line 12 - metode_database baru membuat database virtual baru, anggrek dan mengembalikan pegangan db untuk menjalankan perintah terhadap database anggrek.
Line 13- metode beban memuat entri urutan (SeqRecord iterable) ke dalam database anggrek. SqlIO.parse mem-parsing database GenBank dan mengembalikan semua urutan di dalamnya sebagai SeqRecord yang dapat diulang. Parameter kedua (Benar) dari metode beban menginstruksikannya untuk mengambil detail taksonomi dari data urutan dari situs web ledakan NCBI, jika belum tersedia di sistem.
Line 14 - melakukan transaksi.
Line 15 - tutup menutup koneksi database dan menghancurkan pegangan server.
Ambil Data Urutan
Mari kita ambil urutan dengan pengenal, 2765658 dari database anggrek seperti di bawah ini -
from BioSQL import BioSeqDatabase
server = BioSeqDatabase.open_database(driver = 'sqlite3', db = "orchid.db")
db = server["orchid"]
seq_record = db.lookup(gi = 2765658)
print(seq_record.id, seq_record.description[:50] + "...")
print("Sequence length %i," % len(seq_record.seq))
Di sini, server ["orchid"] mengembalikan pegangan untuk mengambil data dari database atauchid virtual. lookup Metode menyediakan opsi untuk memilih urutan berdasarkan kriteria dan kami telah memilih urutan dengan pengenal, 2765658. lookupmengembalikan informasi urutan sebagai SeqRecordobject. Karena, kita sudah tahu bagaimana bekerja dengan SeqRecord`, sangat mudah untuk mendapatkan data darinya.
Hapus Database
Menghapus database semudah memanggil metode remove_database dengan nama database yang tepat dan kemudian melakukan seperti yang ditentukan di bawah ini -
from BioSQL import BioSeqDatabase
server = BioSeqDatabase.open_database(driver = 'sqlite3', db = "orchid.db")
server.remove_database("orchids")
server.commit()