Biopython - Alignements de séquence
Sequence alignment est le processus d'agencement de deux séquences ou plus (de séquences d'ADN, d'ARN ou de protéines) dans un ordre spécifique pour identifier la région de similitude entre elles.
L'identification de la région similaire nous permet de déduire de nombreuses informations telles que les caractères conservés entre les espèces, la proximité génétique des différentes espèces, la manière dont les espèces évoluent, etc. Biopython fournit un support étendu pour l'alignement des séquences.
Apprenons quelques-unes des fonctionnalités importantes fournies par Biopython dans ce chapitre -
Analyse de l'alignement des séquences
Biopython fournit un module, Bio.AlignIO pour lire et écrire des alignements de séquences. En bioinformatique, il existe de nombreux formats disponibles pour spécifier les données d'alignement de séquence similaires aux données de séquence apprises plus tôt. Bio.AlignIO fournit une API similaire à Bio.SeqIO, sauf que Bio.SeqIO fonctionne sur les données de séquence et Bio.AlignIO fonctionne sur les données d'alignement de séquence.
Avant de commencer à apprendre, téléchargeons un exemple de fichier d'alignement de séquence sur Internet.
Pour télécharger l'exemple de fichier, suivez les étapes ci-dessous -
Step 1 - Ouvrez votre navigateur préféré et accédez à http://pfam.xfam.org/family/browsesite Internet. Il affichera toutes les familles Pfam par ordre alphabétique.
Step 2- Choisissez une famille ayant moins de nombre de valeurs de semences. Il contient un minimum de données et nous permet de travailler facilement avec l'alignement. Ici, nous avons sélectionné / cliqué sur PF18225 et il s'ouvre allez àhttp://pfam.xfam.org/family/PF18225 et montre des détails complets à ce sujet, y compris les alignements de séquence.
Step 3 - Allez dans la section d'alignement et téléchargez le fichier d'alignement de séquence au format Stockholm (PF18225_seed.txt).
Essayons de lire le fichier d'alignement de séquence téléchargé en utilisant Bio.AlignIO comme ci-dessous -
Importer le module Bio.AlignIO
>>> from Bio import AlignIO
Lire l'alignement à l'aide de la méthode de lecture. read est utilisée pour lire les données d'alignement uniques disponibles dans le fichier donné. Si le fichier donné contient de nombreux alignements, nous pouvons utiliser la méthode parse. parse méthode renvoie un objet d'alignement itérable similaire à la méthode parse dans le module Bio.SeqIO.
>>> alignment = AlignIO.read(open("PF18225_seed.txt"), "stockholm")
Imprimez l'objet d'alignement.
>>> print(alignment)
SingleLetterAlphabet() alignment with 6 rows and 65 columns
MQNTPAERLPAIIEKAKSKHDINVWLLDRQGRDLLEQRVPAKVA...EGP B7RZ31_9GAMM/59-123
AKQRGIAGLEEWLHRLDHSEAIPIFLIDEAGKDLLEREVPADIT...KKP A0A0C3NPG9_9PROT/58-119
ARRHGQEYFQQWLERQPKKVKEQVFAVDQFGRELLGRPLPEDMA...KKP A0A143HL37_9GAMM/57-121
TRRHGPESFRFWLERQPVEARDRIYAIDRSGAEILDRPIPRGMA...NKP A0A0X3UC67_9GAMM/57-121
AINRNTQQLTQDLRAMPNWSLRFVYIVDRNNQDLLKRPLPPGIM...NRK B3PFT7_CELJU/62-126
AVNATEREFTERIRTLPHWARRNVFVLDSQGFEIFDRELPSPVA...NRT K4KEM7_SIMAS/61-125
>>>
Nous pouvons également vérifier les séquences (SeqRecord) disponibles dans l'alignement ainsi que ci-dessous -
>>> for align in alignment:
... print(align.seq)
...
MQNTPAERLPAIIEKAKSKHDINVWLLDRQGRDLLEQRVPAKVATVANQLRGRKRRAFARHREGP
AKQRGIAGLEEWLHRLDHSEAIPIFLIDEAGKDLLEREVPADITA---RLDRRREHGEHGVRKKP
ARRHGQEYFQQWLERQPKKVKEQVFAVDQFGRELLGRPLPEDMAPMLIALNYRNRESHAQVDKKP
TRRHGPESFRFWLERQPVEARDRIYAIDRSGAEILDRPIPRGMAPLFKVLSFRNREDQGLVNNKP
AINRNTQQLTQDLRAMPNWSLRFVYIVDRNNQDLLKRPLPPGIMVLAPRLTAKHPYDKVQDRNRK
AVNATEREFTERIRTLPHWARRNVFVLDSQGFEIFDRELPSPVADLMRKLDLDRPFKKLERKNRT
>>>
Alignements multiples
En général, la plupart des fichiers d'alignement de séquence contiennent des données d'alignement uniques et il suffit d'utiliser readméthode pour l'analyser. Dans le concept d'alignement de séquences multiples, deux séquences ou plus sont comparées pour obtenir les meilleures correspondances de sous-séquences entre elles et aboutit à un alignement de séquences multiples dans un seul fichier.
Si le format d'alignement de séquence d'entrée contient plus d'un alignement de séquence, nous devons utiliser parse méthode au lieu de read méthode comme spécifié ci-dessous -
>>> from Bio import AlignIO
>>> alignments = AlignIO.parse(open("PF18225_seed.txt"), "stockholm")
>>> print(alignments)
<generator object parse at 0x000001CD1C7E0360>
>>> for alignment in alignments:
... print(alignment)
...
SingleLetterAlphabet() alignment with 6 rows and 65 columns
MQNTPAERLPAIIEKAKSKHDINVWLLDRQGRDLLEQRVPAKVA...EGP B7RZ31_9GAMM/59-123
AKQRGIAGLEEWLHRLDHSEAIPIFLIDEAGKDLLEREVPADIT...KKP A0A0C3NPG9_9PROT/58-119
ARRHGQEYFQQWLERQPKKVKEQVFAVDQFGRELLGRPLPEDMA...KKP A0A143HL37_9GAMM/57-121
TRRHGPESFRFWLERQPVEARDRIYAIDRSGAEILDRPIPRGMA...NKP A0A0X3UC67_9GAMM/57-121
AINRNTQQLTQDLRAMPNWSLRFVYIVDRNNQDLLKRPLPPGIM...NRK B3PFT7_CELJU/62-126
AVNATEREFTERIRTLPHWARRNVFVLDSQGFEIFDRELPSPVA...NRT K4KEM7_SIMAS/61-125
>>>
Ici, la méthode parse renvoie un objet d'alignement itérable et il peut être itéré pour obtenir des alignements réels.
Alignement de séquence par paires
Pairwise sequence alignment compare seulement deux séquences à la fois et fournit les meilleurs alignements de séquence possibles. Pairwise est facile à comprendre et exceptionnel à déduire de l'alignement de séquence résultant.
Biopython fournit un module spécial, Bio.pairwise2pour identifier la séquence d'alignement en utilisant la méthode par paires. Biopython applique le meilleur algorithme pour trouver la séquence d'alignement et il est comparable à d'autres logiciels.
Écrivons un exemple pour trouver l'alignement de séquence de deux séquences simples et hypothétiques en utilisant le module par paires. Cela nous aidera à comprendre le concept d'alignement de séquence et comment le programmer à l'aide de Biopython.
Étape 1
Importez le module pairwise2 avec la commande donnée ci-dessous -
>>> from Bio import pairwise2
Étape 2
Créez deux séquences, seq1 et seq2 -
>>> from Bio.Seq import Seq
>>> seq1 = Seq("ACCGGT")
>>> seq2 = Seq("ACGT")
Étape 3
Appelez la méthode pairwise2.align.globalxx avec seq1 et seq2 pour trouver les alignements en utilisant la ligne de code ci-dessous -
>>> alignments = pairwise2.align.globalxx(seq1, seq2)
Ici, globalxxLa méthode effectue le travail réel et trouve tous les meilleurs alignements possibles dans les séquences données. En fait, Bio.pairwise2 fournit un ensemble de méthodes qui suit la convention ci-dessous pour trouver des alignements dans différents scénarios.
<sequence alignment type>XY
Ici, le type d'alignement de séquence fait référence au type d'alignement qui peut être global ou local. le type global consiste à trouver l'alignement de séquence en prenant en considération la séquence entière. le type local consiste à trouver l'alignement des séquences en examinant également le sous-ensemble des séquences données. Ce sera fastidieux mais donnera une meilleure idée de la similitude entre les séquences données.
X fait référence au score correspondant. Les valeurs possibles sont x (correspondance exacte), m (score basé sur des caractères identiques), d (dictionnaire fourni par l'utilisateur avec caractère et score de correspondance) et enfin c (fonction définie par l'utilisateur pour fournir un algorithme de notation personnalisé).
Y se réfère à la pénalité d'écart. Les valeurs possibles sont x (pas de pénalités d'écart), s (mêmes pénalités pour les deux séquences), d (pénalités différentes pour chaque séquence) et enfin c (fonction définie par l'utilisateur pour fournir des pénalités d'écart personnalisées)
Ainsi, localds est également une méthode valide, qui trouve l'alignement de séquence à l'aide de la technique d'alignement local, d'un dictionnaire fourni par l'utilisateur pour les correspondances et d'une pénalité d'écart fournie par l'utilisateur pour les deux séquences.
>>> test_alignments = pairwise2.align.localds(seq1, seq2, blosum62, -10, -1)
Ici, blosum62 fait référence à un dictionnaire disponible dans le module pairwise2 pour fournir le score de correspondance. -10 se réfère à une pénalité d'ouverture d'écart et -1 à une pénalité d'extension d'écart.
Étape 4
Faites une boucle sur l'objet d'alignement itérable, récupérez chaque objet d'alignement individuel et imprimez-le.
>>> for alignment in alignments:
... print(alignment)
...
('ACCGGT', 'A-C-GT', 4.0, 0, 6)
('ACCGGT', 'AC--GT', 4.0, 0, 6)
('ACCGGT', 'A-CG-T', 4.0, 0, 6)
('ACCGGT', 'AC-G-T', 4.0, 0, 6)
Étape 5
Le module Bio.pairwise2 fournit une méthode de formatage, format_alignment pour mieux visualiser le résultat -
>>> from Bio.pairwise2 import format_alignment
>>> alignments = pairwise2.align.globalxx(seq1, seq2)
>>> for alignment in alignments:
... print(format_alignment(*alignment))
...
ACCGGT
| | ||
A-C-GT
Score=4
ACCGGT
|| ||
AC--GT
Score=4
ACCGGT
| || |
A-CG-T
Score=4
ACCGGT
|| | |
AC-G-T
Score=4
>>>
Biopython fournit également un autre module pour faire l'alignement de séquence, Align. Ce module fournit un ensemble différent d'API pour simplement définir des paramètres tels que l'algorithme, le mode, le score de correspondance, les pénalités d'écart, etc., Un simple regard sur l'objet Align est le suivant -
>>> from Bio import Align
>>> aligner = Align.PairwiseAligner()
>>> print(aligner)
Pairwise sequence aligner with parameters
match score: 1.000000
mismatch score: 0.000000
target open gap score: 0.000000
target extend gap score: 0.000000
target left open gap score: 0.000000
target left extend gap score: 0.000000
target right open gap score: 0.000000
target right extend gap score: 0.000000
query open gap score: 0.000000
query extend gap score: 0.000000
query left open gap score: 0.000000
query left extend gap score: 0.000000
query right open gap score: 0.000000
query right extend gap score: 0.000000
mode: global
>>>
Prise en charge des outils d'alignement de séquence
Biopython fournit une interface à de nombreux outils d'alignement de séquence via le module Bio.Align.Applications. Certains des outils sont répertoriés ci-dessous -
- ClustalW
- MUSCLE
- Aiguille EMBOSS et eau
Écrivons un exemple simple en Biopython pour créer un alignement de séquence via l'outil d'alignement le plus populaire, ClustalW.
Step 1 - Téléchargez le programme Clustalw depuis http://www.clustal.org/download/current/et installez-le. Mettez également à jour le PATH système avec le chemin d'installation «clustal».
Step 2 - importer ClustalwCommanLine depuis le module Bio.Align.Applications.
>>> from Bio.Align.Applications import ClustalwCommandline
Step 3 - Définissez cmd en appelant ClustalwCommanLine avec le fichier d'entrée, opuntia.fasta disponible dans le package Biopython. https://raw.githubusercontent.com/biopython/biopython/master/Doc/examples/opuntia.fasta
>>> cmd = ClustalwCommandline("clustalw2",
infile="/path/to/biopython/sample/opuntia.fasta")
>>> print(cmd)
clustalw2 -infile=fasta/opuntia.fasta
Step 4 - L'appel de cmd () exécutera la commande clustalw et donnera une sortie du fichier d'alignement résultant, opuntia.aln.
>>> stdout, stderr = cmd()
Step 5 - Lisez et imprimez le fichier d'alignement comme ci-dessous -
>>> from Bio import AlignIO
>>> align = AlignIO.read("/path/to/biopython/sample/opuntia.aln", "clustal")
>>> print(align)
SingleLetterAlphabet() alignment with 7 rows and 906 columns
TATACATTAAAGAAGGGGGATGCGGATAAATGGAAAGGCGAAAG...AGA
gi|6273285|gb|AF191659.1|AF191
TATACATTAAAGAAGGGGGATGCGGATAAATGGAAAGGCGAAAG...AGA
gi|6273284|gb|AF191658.1|AF191
TATACATTAAAGAAGGGGGATGCGGATAAATGGAAAGGCGAAAG...AGA
gi|6273287|gb|AF191661.1|AF191
TATACATAAAAGAAGGGGGATGCGGATAAATGGAAAGGCGAAAG...AGA
gi|6273286|gb|AF191660.1|AF191
TATACATTAAAGGAGGGGGATGCGGATAAATGGAAAGGCGAAAG...AGA
gi|6273290|gb|AF191664.1|AF191
TATACATTAAAGGAGGGGGATGCGGATAAATGGAAAGGCGAAAG...AGA
gi|6273289|gb|AF191663.1|AF191
TATACATTAAAGGAGGGGGATGCGGATAAATGGAAAGGCGAAAG...AGA
gi|6273291|gb|AF191665.1|AF191
>>>