Biopython - Modul BioSQL

BioSQLadalah skema database generik yang dirancang terutama untuk menyimpan urutan dan data terkait untuk semua mesin RDBMS. Ini dirancang sedemikian rupa sehingga menyimpan data dari semua database bioinformatika populer seperti GenBank, Swissport, dll. Dapat digunakan untuk menyimpan data internal juga.

BioSQL saat ini menyediakan skema khusus untuk database di bawah ini -

  • MySQL (biosqldb-mysql.sql)
  • PostgreSQL (biosqldb-pg.sql)
  • Oracle (biosqldb-ora / *. Sql)
  • SQLite (biosqldb-sqlite.sql)

Ini juga memberikan dukungan minimal untuk database HSQLDB dan Derby berbasis Java.

BioPython menyediakan kemampuan ORM yang sangat sederhana, mudah dan canggih untuk bekerja dengan database berbasis BioSQL. BioPython provides a module, BioSQL untuk melakukan fungsi berikut -

  • Membuat / menghapus database BioSQL
  • Hubungkan ke database BioSQL
  • Parsing database urutan seperti GenBank, Swisport, hasil BLAST, hasil Entrez, dll., Dan langsung muat ke database BioSQL
  • Ambil data urutan dari database BioSQL
  • Ambil data taksonomi dari NCBI BLAST dan simpan di database BioSQL
  • Jalankan kueri SQL apa pun terhadap database BioSQL

Gambaran Umum Skema Database BioSQL

Sebelum masuk lebih dalam ke BioSQL, mari kita pahami dasar-dasar skema BioSQL. Skema BioSQL menyediakan 25+ tabel untuk menyimpan data urutan, fitur urutan, kategori urutan / ontologi dan informasi taksonomi. Beberapa tabel penting adalah sebagai berikut -

  • biodatabase
  • bioentry
  • biosequence
  • seqfeature
  • taxon
  • taxon_name
  • antology
  • term
  • dxref

Membuat Database BioSQL

Di bagian ini, mari kita buat contoh database BioSQL, biosql menggunakan skema yang disediakan oleh tim BioSQL. Kami akan bekerja dengan database SQLite karena sangat mudah untuk memulai dan tidak memiliki pengaturan yang rumit.

Di sini, kita akan membuat database BioSQL berbasis SQLite menggunakan langkah-langkah di bawah ini.

Step 1 - Unduh mesin data SQLite dan instal.

Step 2 - Unduh proyek BioSQL dari URL GitHub. https://github.com/biosql/biosql

Step 3 - Buka konsol dan buat direktori menggunakan mkdir dan masuk ke dalamnya.

cd /path/to/your/biopython/sample 
mkdir sqlite-biosql 
cd sqlite-biosql

Step 4 - Jalankan perintah di bawah ini untuk membuat database SQLite baru.

> sqlite3.exe mybiosql.db 
SQLite version 3.25.2 2018-09-25 19:08:10 
Enter ".help" for usage hints. 
sqlite>

Step 5 - Salin file biosqldb-sqlite.sql dari proyek BioSQL (/ sql / biosqldb-sqlite.sql`) dan simpan di direktori saat ini.

Step 6 - Jalankan perintah di bawah ini untuk membuat semua tabel.

sqlite> .read biosqldb-sqlite.sql

Sekarang, semua tabel dibuat di database baru kami.

Step 7 - Jalankan perintah di bawah ini untuk melihat semua tabel baru di database kami.

sqlite> .headers on 
sqlite> .mode column 
sqlite> .separator ROW "\n" 
sqlite> SELECT name FROM sqlite_master WHERE type = 'table'; 
biodatabase 
taxon 
taxon_name 
ontology 
term 
term_synonym 
term_dbxref 
term_relationship 
term_relationship_term 
term_path
bioentry 
bioentry_relationship 
bioentry_path 
biosequence 
dbxref 
dbxref_qualifier_value 
bioentry_dbxref 
reference 
bioentry_reference 
comment 
bioentry_qualifier_value 
seqfeature 
seqfeature_relationship 
seqfeature_path 
seqfeature_qualifier_value 
seqfeature_dbxref 
location 
location_qualifier_value 
sqlite>

Tiga perintah pertama adalah perintah konfigurasi untuk mengkonfigurasi SQLite agar menampilkan hasil dalam format yang telah ditetapkan.

Step 8 - Salin contoh file GenBank, ls_orchid.gbk yang disediakan oleh tim BioPython https://raw.githubusercontent.com/biopython/biopython/master/Doc/examples/ls_orchid.gbk ke direktori saat ini dan simpan sebagai orchid.gbk.

Step 9 - Buat skrip python, load_orchid.py menggunakan kode di bawah ini dan jalankan.

from Bio import SeqIO 
from BioSQL import BioSeqDatabase 
import os 

server = BioSeqDatabase.open_database(driver = 'sqlite3', db = "orchid.db") 

db = server.new_database("orchid") 
count = db.load(SeqIO.parse("orchid.gbk", "gb"), True) server.commit() 
server.close()

Kode di atas mem-parsing record dalam file dan mengubahnya menjadi objek python dan memasukkannya ke database BioSQL. Kami akan menganalisis kode di bagian selanjutnya.

Terakhir, kami membuat database BioSQL baru dan memuat beberapa data sampel ke dalamnya. Kami akan membahas tabel penting di bab berikutnya.

Diagram ER Sederhana

biodatabase tabel berada di puncak hierarki dan tujuan utamanya adalah untuk mengatur sekumpulan data urutan ke dalam satu grup / database virtual. Every entry in the biodatabase refers to a separate database and it does not mingle with another database. Semua tabel terkait dalam database BioSQL memiliki referensi ke entri biodatabase.

bioentrytabel menyimpan semua detail tentang urutan kecuali data urutan. data urutan tertentubioentry akan disimpan di biosequence meja.

takson dan nama_ takson adalah detail taksonomi dan setiap entri merujuk pada tabel ini untuk menentukan informasi taksonnya.

Setelah memahami skema, mari kita lihat beberapa kueri di bagian selanjutnya.

Kueri BioSQL

Mari kita mempelajari beberapa kueri SQL untuk lebih memahami bagaimana data diatur dan tabel terkait satu sama lain. Sebelum melanjutkan, mari kita buka database menggunakan perintah di bawah ini dan atur beberapa perintah pemformatan -

> sqlite3 orchid.db 
SQLite version 3.25.2 2018-09-25 19:08:10 
Enter ".help" for usage hints. 
sqlite> .header on 
sqlite> .mode columns

.header and .mode are formatting options to better visualize the data. Anda juga dapat menggunakan editor SQLite apa pun untuk menjalankan kueri.

Buat daftar database urutan virtual yang tersedia di sistem seperti yang diberikan di bawah ini -

select 
   * 
from 
   biodatabase;
*** Result ***
sqlite> .width 15 15 15 15 
sqlite> select * from biodatabase; 
biodatabase_id       name        authority       description    
---------------  --------------- --------------- --------------- 
1                   orchid 
sqlite>

Di sini, kami hanya memiliki satu database, orchid.

Buat daftar entri (3 teratas) yang tersedia di database orchid dengan kode yang diberikan di bawah ini

select 
   be.*, 
   bd.name 
from 
   bioentry be 
   inner join 
      biodatabase bd 
      on bd.biodatabase_id = be.biodatabase_id 
where 
   bd.name = 'orchid' Limit 1, 
   3;
*** Result ***
sqlite> .width 15 15 10 10 10 10 10 50 10 10 
sqlite> select be.*, bd.name from bioentry be inner join biodatabase bd on 
bd.biodatabase_id = be.biodatabase_id where bd.name = 'orchid' Limit 1,3; 
bioentry_id biodatabase_id taxon_id name accession identifier division description version name 
--------------- --------------- ---------- ---------- ---------- ---------- ---------- 
---------- ---------- ----------- ---------- --------- ---------- ---------- 
2                   1               19       Z78532     Z78532    2765657     PLN 
C.californicum  5.8S rRNA  gene    and      ITS1    and   ITS2 DN  1 
orchid 
3         1         20          Z78531          Z78531         2765656        PLN
C.fasciculatum  5.8S rRNA  gene    and      ITS1    and   ITS2 DN  1 
orchid 
4         1         21          Z78530          Z78530         2765655        PLN 
C.margaritaceum 5.8S rRNA  gene    and      ITS1    and   ITS2  D  1 
orchid 
sqlite>

Buat daftar detail urutan yang terkait dengan entri (aksesi - Z78530, nama - gen C. fasciculatum 5.8S rRNA dan DNA ITS1 dan ITS2) dengan kode yang diberikan -

select 
   substr(cast(bs.seq as varchar), 0, 10) || '...' as seq, 
   bs.length, 
   be.accession, 
   be.description, 
   bd.name 
from 
   biosequence bs 
   inner join 
      bioentry be 
      on be.bioentry_id = bs.bioentry_id 
   inner join 
      biodatabase bd 
      on bd.biodatabase_id = be.biodatabase_id 
where 
   bd.name = 'orchid' 
   and be.accession = 'Z78532';
*** Result ***

sqlite> .width 15 5 10 50 10 
sqlite> select substr(cast(bs.seq as varchar), 0, 10) || '...' as seq, 
bs.length, be.accession, be.description, bd.name from biosequence bs inner 
join bioentry be on be.bioentry_id = bs.bioentry_id inner join biodatabase bd 
on bd.biodatabase_id = be.biodatabase_id where bd.name = 'orchid' and 
be.accession = 'Z78532'; 
seq           length    accession   description  name 
------------ ---------- ---------- ------------ ------------ ---------- ---------- ----------------- 
CGTAACAAG...    753    Z78532    C.californicum 5.8S rRNA gene and ITS1 and ITS2 DNA orchid 
sqlite>

Dapatkan urutan lengkap yang terkait dengan entri (aksesi - Z78530, nama - gen C. fasciculatum 5.8S rRNA dan DNA ITS1 dan ITS2) menggunakan kode di bawah ini -

select 
   bs.seq 
from 
   biosequence bs 
   inner join 
      bioentry be 
      on be.bioentry_id = bs.bioentry_id 
   inner join 
      biodatabase bd 
      on bd.biodatabase_id = be.biodatabase_id 
where 
   bd.name = 'orchid' 
   and be.accession = 'Z78532';
*** Result ***

sqlite> .width 1000 
sqlite> select bs.seq from biosequence bs inner join bioentry be on 
be.bioentry_id = bs.bioentry_id inner join biodatabase bd on bd.biodatabase_id = 
be.biodatabase_id where bd.name = 'orchid' and be.accession = 'Z78532'; 
seq 
----------------------------------------------------------------------------------------
----------------------------
CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAACAGAATATATGATCGAGTGAATCT
GGAGGACCTGTGGTAACTCAGCTCGTCGTGGCACTGCTTTTGTCGTGACCCTGCTTTGTTGTTGGGCCTCC
TCAAGAGCTTTCATGGCAGGTTTGAACTTTAGTACGGTGCAGTTTGCGCCAAGTCATATAAAGCATCACTGATGAATGACATTATTGT
CAGAAAAAATCAGAGGGGCAGTATGCTACTGAGCATGCCAGTGAATTTTTATGACTCTCGCAACGGATATCTTGGCTC
TAACATCGATGAAGAACGCAG 
sqlite>

Daftar takson yang terkait dengan database bio, anggrek

select distinct 
   tn.name 
from 
   biodatabase d 
   inner join 
      bioentry e 
      on e.biodatabase_id = d.biodatabase_id 
   inner join 
      taxon t 
      on t.taxon_id = e.taxon_id 
   inner join 
      taxon_name tn 
      on tn.taxon_id = t.taxon_id 
where 
   d.name = 'orchid' limit 10;
*** Result ***

sqlite> select distinct tn.name from biodatabase d inner join bioentry e on 
e.biodatabase_id = d.biodatabase_id inner join taxon t on t.taxon_id = 
e.taxon_id inner join taxon_name tn on tn.taxon_id = t.taxon_id where d.name = 
'orchid' limit 10; 
name 
------------------------------ 
Cypripedium irapeanum 
Cypripedium californicum 
Cypripedium fasciculatum 
Cypripedium margaritaceum 
Cypripedium lichiangense 
Cypripedium yatabeanum 
Cypripedium guttatum 
Cypripedium acaule 
pink lady's slipper 
Cypripedium formosanum 
sqlite>

Muat Data ke Database BioSQL

Mari kita pelajari cara memuat data urutan ke database BioSQL di bab ini. Kami sudah memiliki kode untuk memuat data ke database di bagian sebelumnya dan kodenya adalah sebagai berikut -

from Bio import SeqIO 
from BioSQL import BioSeqDatabase 
import os 

server = BioSeqDatabase.open_database(driver = 'sqlite3', db = "orchid.db") 
DBSCHEMA = "biosqldb-sqlite.sql" 
SQL_FILE = os.path.join(os.getcwd(), DBSCHEMA) 

server.load_database_sql(SQL_FILE) 
server.commit() 

db = server.new_database("orchid") 
count = db.load(SeqIO.parse("orchid.gbk", "gb"), True) server.commit() 
server.close()

Kami akan melihat lebih dalam setiap baris kode dan tujuannya -

Line 1 - Memuat modul SeqIO.

Line 2- Memuat modul BioSeqDatabase. Modul ini menyediakan semua fungsionalitas untuk berinteraksi dengan database BioSQL.

Line 3 - Memuat modul os.

Line 5- open_database membuka database yang ditentukan (db) dengan driver yang dikonfigurasi (driver) dan mengembalikan pegangan ke database BioSQL (server). Biopython mendukung database sqlite, mysql, postgresql dan oracle.

Line 6-10- Metode load_database_sql memuat sql dari file eksternal dan menjalankannya. metode komit melakukan transaksi. Kita bisa melewati langkah ini karena kita sudah membuat database dengan skema.

Line 12 - metode_database baru membuat database virtual baru, anggrek dan mengembalikan pegangan db untuk menjalankan perintah terhadap database anggrek.

Line 13- metode beban memuat entri urutan (SeqRecord iterable) ke dalam database anggrek. SqlIO.parse mem-parsing database GenBank dan mengembalikan semua urutan di dalamnya sebagai SeqRecord yang dapat diulang. Parameter kedua (Benar) dari metode beban menginstruksikannya untuk mengambil detail taksonomi dari data urutan dari situs web ledakan NCBI, jika belum tersedia di sistem.

Line 14 - melakukan transaksi.

Line 15 - tutup menutup koneksi database dan menghancurkan pegangan server.

Ambil Data Urutan

Mari kita ambil urutan dengan pengenal, 2765658 dari database anggrek seperti di bawah ini -

from BioSQL import BioSeqDatabase 

server = BioSeqDatabase.open_database(driver = 'sqlite3', db = "orchid.db") 

db = server["orchid"] 
seq_record = db.lookup(gi = 2765658) 
print(seq_record.id, seq_record.description[:50] + "...") 
print("Sequence length %i," % len(seq_record.seq))

Di sini, server ["orchid"] mengembalikan pegangan untuk mengambil data dari database atauchid virtual. lookup Metode menyediakan opsi untuk memilih urutan berdasarkan kriteria dan kami telah memilih urutan dengan pengenal, 2765658. lookupmengembalikan informasi urutan sebagai SeqRecordobject. Karena, kita sudah tahu bagaimana bekerja dengan SeqRecord`, sangat mudah untuk mendapatkan data darinya.

Hapus Database

Menghapus database semudah memanggil metode remove_database dengan nama database yang tepat dan kemudian melakukan seperti yang ditentukan di bawah ini -

from BioSQL import BioSeqDatabase 
server = BioSeqDatabase.open_database(driver = 'sqlite3', db = "orchid.db") 
server.remove_database("orchids") 
server.commit()