Biopython - Módulo BioSQL
BioSQLé um esquema de banco de dados genérico projetado principalmente para armazenar sequências e seus dados relacionados para todos os mecanismos RDBMS. Ele é projetado de forma a conter os dados de todos os bancos de dados de bioinformática populares, como GenBank, Swissport, etc. Ele também pode ser usado para armazenar dados internos.
BioSQL atualmente fornece esquema específico para os bancos de dados abaixo -
- MySQL (biosqldb-mysql.sql)
- PostgreSQL (biosqldb-pg.sql)
- Oracle (biosqldb-ora / *. Sql)
- SQLite (biosqldb-sqlite.sql)
Ele também fornece suporte mínimo para bancos de dados HSQLDB e Derby baseados em Java.
BioPython fornece recursos ORM muito simples, fáceis e avançados para trabalhar com banco de dados baseado em BioSQL. BioPython provides a module, BioSQL para fazer a seguinte funcionalidade -
- Criar / remover um banco de dados BioSQL
- Conecte-se a um banco de dados BioSQL
- Analise um banco de dados de sequência como GenBank, Swisport, resultado do BLAST, resultado do Entrez, etc. e carregue-o diretamente no banco de dados BioSQL
- Busque os dados de sequência do banco de dados BioSQL
- Obter dados de taxonomia do NCBI BLAST e armazená-los no banco de dados BioSQL
- Execute qualquer consulta SQL no banco de dados BioSQL
Visão geral do esquema de banco de dados BioSQL
Antes de nos aprofundarmos no BioSQL, vamos entender os fundamentos do esquema BioSQL. O esquema BioSQL fornece mais de 25 tabelas para conter dados de sequência, recurso de sequência, categoria / ontologia de sequência e informações de taxonomia. Algumas das tabelas importantes são as seguintes -
- biodatabase
- bioentry
- biosequence
- seqfeature
- taxon
- taxon_name
- antology
- term
- dxref
Criação de um banco de dados BioSQL
Nesta seção, vamos criar um banco de dados BioSQL de amostra, biosql, usando o esquema fornecido pela equipe do BioSQL. Vamos trabalhar com banco de dados SQLite, pois é muito fácil de começar e não tem configurações complexas.
Aqui, devemos criar um banco de dados BioSQL baseado em SQLite usando as etapas abaixo.
Step 1 - Baixe o mecanismo de banco de dados SQLite e instale-o.
Step 2 - Baixe o projeto BioSQL da URL do GitHub. https://github.com/biosql/biosql
Step 3 - Abra um console e crie um diretório usando mkdir e entre nele.
cd /path/to/your/biopython/sample
mkdir sqlite-biosql
cd sqlite-biosql
Step 4 - Execute o comando abaixo para criar um novo banco de dados SQLite.
> sqlite3.exe mybiosql.db
SQLite version 3.25.2 2018-09-25 19:08:10
Enter ".help" for usage hints.
sqlite>
Step 5 - Copie o arquivo biosqldb-sqlite.sql do projeto BioSQL (/ sql / biosqldb-sqlite.sql`) e armazene-o no diretório atual.
Step 6 - Execute o comando abaixo para criar todas as tabelas.
sqlite> .read biosqldb-sqlite.sql
Agora, todas as tabelas são criadas em nosso novo banco de dados.
Step 7 - Execute o comando abaixo para ver todas as novas tabelas em nosso banco de dados.
sqlite> .headers on
sqlite> .mode column
sqlite> .separator ROW "\n"
sqlite> SELECT name FROM sqlite_master WHERE type = 'table';
biodatabase
taxon
taxon_name
ontology
term
term_synonym
term_dbxref
term_relationship
term_relationship_term
term_path
bioentry
bioentry_relationship
bioentry_path
biosequence
dbxref
dbxref_qualifier_value
bioentry_dbxref
reference
bioentry_reference
comment
bioentry_qualifier_value
seqfeature
seqfeature_relationship
seqfeature_path
seqfeature_qualifier_value
seqfeature_dbxref
location
location_qualifier_value
sqlite>
Os três primeiros comandos são comandos de configuração para configurar o SQLite para mostrar o resultado de uma maneira formatada.
Step 8 - Copie o arquivo de amostra do GenBank, ls_orchid.gbk fornecido pela equipe BioPython https://raw.githubusercontent.com/biopython/biopython/master/Doc/examples/ls_orchid.gbk no diretório atual e salve-o como orchid.gbk.
Step 9 - Crie um script python, load_orchid.py usando o código abaixo e execute-o.
from Bio import SeqIO
from BioSQL import BioSeqDatabase
import os
server = BioSeqDatabase.open_database(driver = 'sqlite3', db = "orchid.db")
db = server.new_database("orchid")
count = db.load(SeqIO.parse("orchid.gbk", "gb"), True) server.commit()
server.close()
O código acima analisa o registro no arquivo, converte-o em objetos Python e insere-o no banco de dados BioSQL. Analisaremos o código na seção posterior.
Finalmente, criamos um novo banco de dados BioSQL e carregamos alguns dados de amostra nele. Discutiremos as tabelas importantes no próximo capítulo.
Diagrama ER Simples
biodatabase table está no topo da hierarquia e seu objetivo principal é organizar um conjunto de dados de sequência em um único grupo / banco de dados virtual. Every entry in the biodatabase refers to a separate database and it does not mingle with another database. Todas as tabelas relacionadas no banco de dados BioSQL têm referências para a entrada de banco de dados.
bioentryA tabela contém todos os detalhes sobre uma sequência, exceto os dados da sequência. dados de sequência de um determinadobioentry será armazenado em biosequence tabela.
taxon e taxon_name são detalhes de taxonomia e cada entrada faz referência a esta tabela para especificar suas informações de taxon.
Depois de entender o esquema, vamos examinar algumas consultas na próxima seção.
Consultas BioSQL
Vamos nos aprofundar em algumas consultas SQL para entender melhor como os dados são organizados e as tabelas estão relacionadas entre si. Antes de continuar, vamos abrir o banco de dados usando o comando abaixo e definir alguns comandos de formatação -
> sqlite3 orchid.db
SQLite version 3.25.2 2018-09-25 19:08:10
Enter ".help" for usage hints.
sqlite> .header on
sqlite> .mode columns
.header and .mode are formatting options to better visualize the data. Você também pode usar qualquer editor SQLite para executar a consulta.
Liste o banco de dados de sequência virtual disponível no sistema conforme fornecido abaixo -
select
*
from
biodatabase;
*** Result ***
sqlite> .width 15 15 15 15
sqlite> select * from biodatabase;
biodatabase_id name authority description
--------------- --------------- --------------- ---------------
1 orchid
sqlite>
Aqui, temos apenas um banco de dados, orchid.
Liste as entradas (top 3) disponíveis no banco de dados orchid com o código fornecido abaixo
select
be.*,
bd.name
from
bioentry be
inner join
biodatabase bd
on bd.biodatabase_id = be.biodatabase_id
where
bd.name = 'orchid' Limit 1,
3;
*** Result ***
sqlite> .width 15 15 10 10 10 10 10 50 10 10
sqlite> select be.*, bd.name from bioentry be inner join biodatabase bd on
bd.biodatabase_id = be.biodatabase_id where bd.name = 'orchid' Limit 1,3;
bioentry_id biodatabase_id taxon_id name accession identifier division description version name
--------------- --------------- ---------- ---------- ---------- ---------- ----------
---------- ---------- ----------- ---------- --------- ---------- ----------
2 1 19 Z78532 Z78532 2765657 PLN
C.californicum 5.8S rRNA gene and ITS1 and ITS2 DN 1
orchid
3 1 20 Z78531 Z78531 2765656 PLN
C.fasciculatum 5.8S rRNA gene and ITS1 and ITS2 DN 1
orchid
4 1 21 Z78530 Z78530 2765655 PLN
C.margaritaceum 5.8S rRNA gene and ITS1 and ITS2 D 1
orchid
sqlite>
Liste os detalhes da sequência associados a uma entrada (acesso - Z78530, nome - C. fasciculatum 5.8S rRNA gene e ITS1 e ITS2 DNA) com o código fornecido -
select
substr(cast(bs.seq as varchar), 0, 10) || '...' as seq,
bs.length,
be.accession,
be.description,
bd.name
from
biosequence bs
inner join
bioentry be
on be.bioentry_id = bs.bioentry_id
inner join
biodatabase bd
on bd.biodatabase_id = be.biodatabase_id
where
bd.name = 'orchid'
and be.accession = 'Z78532';
*** Result ***
sqlite> .width 15 5 10 50 10
sqlite> select substr(cast(bs.seq as varchar), 0, 10) || '...' as seq,
bs.length, be.accession, be.description, bd.name from biosequence bs inner
join bioentry be on be.bioentry_id = bs.bioentry_id inner join biodatabase bd
on bd.biodatabase_id = be.biodatabase_id where bd.name = 'orchid' and
be.accession = 'Z78532';
seq length accession description name
------------ ---------- ---------- ------------ ------------ ---------- ---------- -----------------
CGTAACAAG... 753 Z78532 C.californicum 5.8S rRNA gene and ITS1 and ITS2 DNA orchid
sqlite>
Obtenha a sequência completa associada a uma entrada (acesso - Z78530, nome - C. fasciculatum 5.8S rRNA gene e ITS1 e ITS2 DNA) usando o código abaixo -
select
bs.seq
from
biosequence bs
inner join
bioentry be
on be.bioentry_id = bs.bioentry_id
inner join
biodatabase bd
on bd.biodatabase_id = be.biodatabase_id
where
bd.name = 'orchid'
and be.accession = 'Z78532';
*** Result ***
sqlite> .width 1000
sqlite> select bs.seq from biosequence bs inner join bioentry be on
be.bioentry_id = bs.bioentry_id inner join biodatabase bd on bd.biodatabase_id =
be.biodatabase_id where bd.name = 'orchid' and be.accession = 'Z78532';
seq
----------------------------------------------------------------------------------------
----------------------------
CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAACAGAATATATGATCGAGTGAATCT
GGAGGACCTGTGGTAACTCAGCTCGTCGTGGCACTGCTTTTGTCGTGACCCTGCTTTGTTGTTGGGCCTCC
TCAAGAGCTTTCATGGCAGGTTTGAACTTTAGTACGGTGCAGTTTGCGCCAAGTCATATAAAGCATCACTGATGAATGACATTATTGT
CAGAAAAAATCAGAGGGGCAGTATGCTACTGAGCATGCCAGTGAATTTTTATGACTCTCGCAACGGATATCTTGGCTC
TAACATCGATGAAGAACGCAG
sqlite>
Listar táxon associado ao banco de dados bio, orquídea
select distinct
tn.name
from
biodatabase d
inner join
bioentry e
on e.biodatabase_id = d.biodatabase_id
inner join
taxon t
on t.taxon_id = e.taxon_id
inner join
taxon_name tn
on tn.taxon_id = t.taxon_id
where
d.name = 'orchid' limit 10;
*** Result ***
sqlite> select distinct tn.name from biodatabase d inner join bioentry e on
e.biodatabase_id = d.biodatabase_id inner join taxon t on t.taxon_id =
e.taxon_id inner join taxon_name tn on tn.taxon_id = t.taxon_id where d.name =
'orchid' limit 10;
name
------------------------------
Cypripedium irapeanum
Cypripedium californicum
Cypripedium fasciculatum
Cypripedium margaritaceum
Cypripedium lichiangense
Cypripedium yatabeanum
Cypripedium guttatum
Cypripedium acaule
pink lady's slipper
Cypripedium formosanum
sqlite>
Carregar dados no banco de dados BioSQL
Vamos aprender como carregar dados de sequência no banco de dados BioSQL neste capítulo. Já temos o código para carregar dados no banco de dados na seção anterior e o código é o seguinte -
from Bio import SeqIO
from BioSQL import BioSeqDatabase
import os
server = BioSeqDatabase.open_database(driver = 'sqlite3', db = "orchid.db")
DBSCHEMA = "biosqldb-sqlite.sql"
SQL_FILE = os.path.join(os.getcwd(), DBSCHEMA)
server.load_database_sql(SQL_FILE)
server.commit()
db = server.new_database("orchid")
count = db.load(SeqIO.parse("orchid.gbk", "gb"), True) server.commit()
server.close()
Teremos uma análise mais aprofundada de cada linha do código e sua finalidade -
Line 1 - Carrega o módulo SeqIO.
Line 2- Carrega o módulo BioSeqDatabase. Este módulo fornece todas as funcionalidades para interagir com o banco de dados BioSQL.
Line 3 - Carrega módulo de sistema operacional.
Line 5- open_database abre o banco de dados especificado (db) com o driver configurado (driver) e retorna um identificador para o banco de dados BioSQL (servidor). Biopython suporta bancos de dados sqlite, mysql, postgresql e oracle.
Line 6-10- o método load_database_sql carrega o sql do arquivo externo e o executa. método commit confirma a transação. Podemos pular esta etapa porque já criamos o banco de dados com o esquema.
Line 12 - os métodos new_database criam um novo banco de dados virtual, orchid, e retorna um manipulador db para executar o comando no banco de dados orchid.
Line 13- o método load carrega as entradas de sequência (SeqRecord iterável) no banco de dados Orchid. SqlIO.parse analisa o banco de dados GenBank e retorna todas as sequências nele como SeqRecord iterável. O segundo parâmetro (True) do método de carregamento o instrui a buscar os detalhes da taxonomia dos dados de sequência do site de explosão do NCBI, se ainda não estiver disponível no sistema.
Line 14 - commit confirma a transação.
Line 15 - close fecha a conexão do banco de dados e destrói o identificador do servidor.
Busque os dados de sequência
Vamos buscar uma sequência com o identificador 2765658 no banco de dados de orquídeas como abaixo -
from BioSQL import BioSeqDatabase
server = BioSeqDatabase.open_database(driver = 'sqlite3', db = "orchid.db")
db = server["orchid"]
seq_record = db.lookup(gi = 2765658)
print(seq_record.id, seq_record.description[:50] + "...")
print("Sequence length %i," % len(seq_record.seq))
Aqui, o servidor ["orquídea"] retorna o identificador para buscar dados do banco de dados virtualorchid. lookup O método fornece uma opção para selecionar sequências com base em critérios e selecionamos a sequência com o identificador 2765658. lookupretorna as informações de sequência como SeqRecordobject. Visto que já sabemos como trabalhar com SeqRecord`, é fácil obter dados dele.
Remover um banco de dados
Remover um banco de dados é tão simples quanto chamar o método remove_database com o nome do banco de dados apropriado e, em seguida, confirmá-lo conforme especificado abaixo -
from BioSQL import BioSeqDatabase
server = BioSeqDatabase.open_database(driver = 'sqlite3', db = "orchid.db")
server.remove_database("orchids")
server.commit()