Biopython - Tracé
Ce chapitre explique comment tracer des séquences. Avant de passer à ce sujet, laissez-nous comprendre les bases du traçage.
Traçage
Matplotlib est une bibliothèque de traçage Python qui produit des figures de qualité dans une variété de formats. Nous pouvons créer différents types de graphiques tels que des graphiques linéaires, des histogrammes, des graphiques à barres, des camemberts, des nuages de points, etc.
pyLab is a module that belongs to the matplotlib which combines the numerical module numpy with the graphical plotting module pyplot.Biopython utilise le module pylab pour tracer des séquences. Pour ce faire, nous devons importer le code ci-dessous -
import pylab
Avant d'importer, nous devons installer le paquet matplotlib en utilisant la commande pip avec la commande donnée ci-dessous -
pip install matplotlib
Exemple de fichier d'entrée
Créez un exemple de fichier nommé plot.fasta dans votre répertoire Biopython et ajoutez les modifications suivantes -
>seq0 FQTWEEFSRAAEKLYLADPMKVRVVLKYRHVDGNLCIKVTDDLVCLVYRTDQAQDVKKIEKF
>seq1 KYRTWEEFTRAAEKLYQADPMKVRVVLKYRHCDGNLCIKVTDDVVCLLYRTDQAQDVKKIEKFHSQLMRLME
>seq2 EEYQTWEEFARAAEKLYLTDPMKVRVVLKYRHCDGNLCMKVTDDAVCLQYKTDQAQDVKKVEKLHGK
>seq3 MYQVWEEFSRAVEKLYLTDPMKVRVVLKYRHCDGNLCIKVTDNSVCLQYKTDQAQDV
>seq4 EEFSRAVEKLYLTDPMKVRVVLKYRHCDGNLCIKVTDNSVVSYEMRLFGVQKDNFALEHSLL
>seq5 SWEEFAKAAEVLYLEDPMKCRMCTKYRHVDHKLVVKLTDNHTVLKYVTDMAQDVKKIEKLTTLLMR
>seq6 FTNWEEFAKAAERLHSANPEKCRFVTKYNHTKGELVLKLTDDVVCLQYSTNQLQDVKKLEKLSSTLLRSI
>seq7 SWEEFVERSVQLFRGDPNATRYVMKYRHCEGKLVLKVTDDRECLKFKTDQAQDAKKMEKLNNIFF
>seq8 SWDEFVDRSVQLFRADPESTRYVMKYRHCDGKLVLKVTDNKECLKFKTDQAQEAKKMEKLNNIFFTLM
>seq9 KNWEDFEIAAENMYMANPQNCRYTMKYVHSKGHILLKMSDNVKCVQYRAENMPDLKK
>seq10 FDSWDEFVSKSVELFRNHPDTTRYVVKYRHCEGKLVLKVTDNHECLKFKTDQAQDAKKMEK
Graphique linéaire
Maintenant, créons un tracé de ligne simple pour le fichier fasta ci-dessus.
Step 1 - Importez le module SeqIO pour lire le fichier fasta.
>>> from Bio import SeqIO
Step 2 - Analysez le fichier d'entrée.
>>> records = [len(rec) for rec in SeqIO.parse("plot.fasta", "fasta")]
>>> len(records)
11
>>> max(records)
72
>>> min(records)
57
Step 3 - Importons le module pylab.
>>> import pylab
Step 4 - Configurez le graphique en courbes en attribuant des étiquettes aux axes x et y.
>>> pylab.xlabel("sequence length")
Text(0.5, 0, 'sequence length')
>>> pylab.ylabel("count")
Text(0, 0.5, 'count')
>>>
Step 5 - Configurez le graphique en courbes en définissant l'affichage de la grille.
>>> pylab.grid()
Step 6 - Dessinez un graphique linéaire simple en appelant la méthode plot et en fournissant des enregistrements en entrée.
>>> pylab.plot(records)
[<matplotlib.lines.Line2D object at 0x10b6869d 0>]
Step 7 - Enfin, enregistrez le graphique en utilisant la commande ci-dessous.
>>> pylab.savefig("lines.png")
Résultat
Après avoir exécuté la commande ci-dessus, vous pouvez voir l'image suivante enregistrée dans votre répertoire Biopython.
Diagramme d'histogramme
Un histogramme est utilisé pour les données continues, où les groupes représentent des plages de données. L'histogramme du dessin est identique au graphique en courbes, sauf pylab.plot. Au lieu de cela, appelez la méthode hist du module pylab avec des enregistrements et une valeur personnalisée pour bins (5). Le codage complet est le suivant -
Step 1 - Importez le module SeqIO pour lire le fichier fasta.
>>> from Bio import SeqIO
Step 2 - Analysez le fichier d'entrée.
>>> records = [len(rec) for rec in SeqIO.parse("plot.fasta", "fasta")]
>>> len(records)
11
>>> max(records)
72
>>> min(records)
57
Step 3 - Importons le module pylab.
>>> import pylab
Step 4 - Configurez le graphique en courbes en attribuant des étiquettes aux axes x et y.
>>> pylab.xlabel("sequence length")
Text(0.5, 0, 'sequence length')
>>> pylab.ylabel("count")
Text(0, 0.5, 'count')
>>>
Step 5 - Configurez le graphique en courbes en définissant l'affichage de la grille.
>>> pylab.grid()
Step 6 - Dessinez un graphique linéaire simple en appelant la méthode plot et en fournissant des enregistrements en entrée.
>>> pylab.hist(records,bins=5)
(array([2., 3., 1., 3., 2.]), array([57., 60., 63., 66., 69., 72.]), <a list
of 5 Patch objects>)
>>>
Step 7 - Enfin, enregistrez le graphique en utilisant la commande ci-dessous.
>>> pylab.savefig("hist.png")
Résultat
Après avoir exécuté la commande ci-dessus, vous pouvez voir l'image suivante enregistrée dans votre répertoire Biopython.
Pourcentage GC en séquence
Le pourcentage de GC est l'une des données analytiques couramment utilisées pour comparer différentes séquences. Nous pouvons faire un graphique linéaire simple en utilisant GC Pourcentage d'un ensemble de séquences et le comparer immédiatement. Ici, nous pouvons simplement changer les données de la longueur de la séquence en pourcentage GC. Le codage complet est donné ci-dessous -
Step 1 - Importez le module SeqIO pour lire le fichier fasta.
>>> from Bio import SeqIO
Step 2 - Analysez le fichier d'entrée.
>>> from Bio.SeqUtils import GC
>>> gc = sorted(GC(rec.seq) for rec in SeqIO.parse("plot.fasta", "fasta"))
Step 3 - Importons le module pylab.
>>> import pylab
Step 4 - Configurez le graphique en courbes en attribuant des étiquettes aux axes x et y.
>>> pylab.xlabel("Genes")
Text(0.5, 0, 'Genes')
>>> pylab.ylabel("GC Percentage")
Text(0, 0.5, 'GC Percentage')
>>>
Step 5 - Configurez le graphique en courbes en définissant l'affichage de la grille.
>>> pylab.grid()
Step 6 - Dessinez un graphique linéaire simple en appelant la méthode plot et en fournissant des enregistrements en entrée.
>>> pylab.plot(gc)
[<matplotlib.lines.Line2D object at 0x10b6869d 0>]
Step 7 - Enfin, enregistrez le graphique en utilisant la commande ci-dessous.
>>> pylab.savefig("gc.png")
Résultat
Après avoir exécuté la commande ci-dessus, vous pouvez voir l'image suivante enregistrée dans votre répertoire Biopython.