Biopython - Objets Motif
Un motif de séquence est un motif de séquence de nucléotides ou d'acides aminés. Les motifs de séquence sont formés par un arrangement tridimensionnel d'acides aminés qui peuvent ne pas être adjacents. Biopython fournit un module séparé, Bio.motifs pour accéder aux fonctionnalités du motif de séquence comme spécifié ci-dessous -
from Bio import motifs
Créer un motif d'ADN simple
Créons une simple séquence de motifs d'ADN en utilisant la commande ci-dessous -
>>> from Bio import motifs
>>> from Bio.Seq import Seq
>>> DNA_motif = [ Seq("AGCT"),
... Seq("TCGA"),
... Seq("AACT"),
... ]
>>> seq = motifs.create(DNA_motif)
>>> print(seq) AGCT TCGA AACT
Pour compter les valeurs de séquence, utilisez la commande ci-dessous -
>>> print(seq.counts)
0 1 2 3
A: 2.00 1.00 0.00 1.00
C: 0.00 1.00 2.00 0.00
G: 0.00 1.00 1.00 0.00
T: 1.00 0.00 0.00 2.00
Utilisez le code suivant pour compter 'A' dans la séquence -
>>> seq.counts["A", :]
(2, 1, 0, 1)
Si vous souhaitez accéder aux colonnes de décomptes, utilisez la commande ci-dessous -
>>> seq.counts[:, 3]
{'A': 1, 'C': 0, 'T': 2, 'G': 0}
Création d'un logo de séquence
Nous allons maintenant discuter de la création d'un logo de séquence.
Considérez la séquence ci-dessous -
AGCTTACG
ATCGTACC
TTCCGAAT
GGTACGTA
AAGCTTGG
Vous pouvez créer votre propre logo en utilisant le lien suivant - http://weblogo.berkeley.edu/
Ajoutez la séquence ci-dessus et créez un nouveau logo et enregistrez l'image nommée seq.png dans votre dossier biopython.
seq.png
Après avoir créé l'image, exécutez maintenant la commande suivante -
>>> seq.weblogo("seq.png")
Ce motif de séquence d'ADN est représenté comme un logo de séquence pour le motif de liaison LexA.
Base de données JASPAR
JASPAR est l'une des bases de données les plus populaires. Il fournit des installations de tous les formats de motifs pour la lecture, l'écriture et la numérisation de séquences. Il stocke des méta-informations pour chaque motif.The module Bio.motifs contains a specialized class jaspar.Motif to represent meta-information attributes.
Il a les types d'attributs notables suivants -
- matrix_id - ID de motif JASPAR unique
- name - Le nom du motif
- tf_family - La famille de motif, par exemple 'Helix-Loop-Helix'
- data_type - le type de données utilisé dans le motif.
Créons un format de sites JASPAR nommé dans sample.sites dans le dossier biopython. Il est défini ci-dessous -
sample.sites
>MA0001 ARNT 1
AACGTGatgtccta
>MA0001 ARNT 2
CAGGTGggatgtac
>MA0001 ARNT 3
TACGTAgctcatgc
>MA0001 ARNT 4
AACGTGacagcgct
>MA0001 ARNT 5
CACGTGcacgtcgt
>MA0001 ARNT 6
cggcctCGCGTGc
Dans le fichier ci-dessus, nous avons créé des instances de motif. Maintenant, créons un objet motif à partir des instances ci-dessus -
>>> from Bio import motifs
>>> with open("sample.sites") as handle:
... data = motifs.read(handle,"sites")
...
>>> print(data)
TF name None
Matrix ID None
Matrix:
0 1 2 3 4 5
A: 2.00 5.00 0.00 0.00 0.00 1.00
C: 3.00 0.00 5.00 0.00 0.00 0.00
G: 0.00 1.00 1.00 6.00 0.00 5.00
T: 1.00 0.00 0.00 0.00 6.00 0.00
Ici, les données lisent toutes les instances de motif du fichier sample.sites.
Pour imprimer toutes les instances à partir de données, utilisez la commande ci-dessous -
>>> for instance in data.instances:
... print(instance)
...
AACGTG
CAGGTG
TACGTA
AACGTG
CACGTG
CGCGTG
Utilisez la commande ci-dessous pour compter toutes les valeurs -
>>> print(data.counts)
0 1 2 3 4 5
A: 2.00 5.00 0.00 0.00 0.00 1.00
C: 3.00 0.00 5.00 0.00 0.00 0.00
G: 0.00 1.00 1.00 6.00 0.00 5.00
T: 1.00 0.00 0.00 0.00 6.00 0.00
>>>