Biopython - Séquence
Une séquence est une série de lettres utilisées pour représenter la protéine, l'ADN ou l'ARN d'un organisme. Il est représenté par la classe Seq. La classe Seq est définie dans le module Bio.Seq.
Créons une séquence simple en Biopython comme indiqué ci-dessous -
>>> from Bio.Seq import Seq
>>> seq = Seq("AGCT")
>>> seq
Seq('AGCT')
>>> print(seq)
AGCT
Ici, nous avons créé une séquence protéique simple AGCT et chaque lettre représente Alanine, Glycine, Cysteine et Threonine.
Chaque objet Seq a deux attributs importants -
data - la chaîne de séquence réelle (AGCT)
alphabet - utilisé pour représenter le type de séquence. par exemple, séquence d'ADN, séquence d'ARN, etc. Par défaut, elle ne représente aucune séquence et est de nature générique.
Module alphabet
Les objets Seq contiennent un attribut Alphabet pour spécifier le type de séquence, les lettres et les opérations possibles. Il est défini dans le module Bio.Alphabet. L'alphabet peut être défini comme ci-dessous -
>>> from Bio.Seq import Seq
>>> myseq = Seq("AGCT")
>>> myseq
Seq('AGCT')
>>> myseq.alphabet
Alphabet()
Le module Alphabet fournit ci-dessous des classes pour représenter différents types de séquences. Alphabet - classe de base pour tous les types d'alphabets.
SingleLetterAlphabet - Alphabet générique avec des lettres de taille un. Il dérive d'Alphabet et tous les autres types d'alphabets en dérivent.
>>> from Bio.Seq import Seq
>>> from Bio.Alphabet import single_letter_alphabet
>>> test_seq = Seq('AGTACACTGGT', single_letter_alphabet)
>>> test_seq
Seq('AGTACACTGGT', SingleLetterAlphabet())
ProteinAlphabet - Alphabet générique de protéines à une seule lettre.
>>> from Bio.Seq import Seq
>>> from Bio.Alphabet import generic_protein
>>> test_seq = Seq('AGTACACTGGT', generic_protein)
>>> test_seq
Seq('AGTACACTGGT', ProteinAlphabet())
NucleotideAlphabet - Alphabet nucléotidique générique à une seule lettre.
>>> from Bio.Seq import Seq
>>> from Bio.Alphabet import generic_nucleotide
>>> test_seq = Seq('AGTACACTGGT', generic_nucleotide) >>> test_seq
Seq('AGTACACTGGT', NucleotideAlphabet())
DNAAlphabet - Alphabet générique d'ADN à une seule lettre.
>>> from Bio.Seq import Seq
>>> from Bio.Alphabet import generic_dna
>>> test_seq = Seq('AGTACACTGGT', generic_dna)
>>> test_seq
Seq('AGTACACTGGT', DNAAlphabet())
RNAAlphabet - Alphabet générique d'ARN à une seule lettre.
>>> from Bio.Seq import Seq
>>> from Bio.Alphabet import generic_rna
>>> test_seq = Seq('AGTACACTGGT', generic_rna)
>>> test_seq
Seq('AGTACACTGGT', RNAAlphabet())
Le module Biopython, Bio.Alphabet.IUPAC fournit des types de séquence de base tels que définis par la communauté IUPAC. Il contient les classes suivantes -
IUPACProtein (protein) - Alphabet protéique IUPAC de 20 acides aminés standards.
ExtendedIUPACProtein (extended_protein) - Alphabet lettre unique de protéine IUPAC majuscule étendue, y compris X.
IUPACAmbiguousDNA (ambiguous_dna) - ADN ambigu IUPAC majuscule.
IUPACUnambiguousDNA (unambiguous_dna) - ADN non ambigu IUPAC en majuscules (GATC).
ExtendedIUPACDNA (extended_dna) - Alphabet ADN IUPAC étendu.
IUPACAmbiguousRNA (ambiguous_rna) - ARN ambigu IUPAC en majuscules.
IUPACUnambiguousRNA (unambiguous_rna) - ARN non ambigu IUPAC en majuscules (GAUC).
Prenons un exemple simple pour la classe IUPACProtein comme indiqué ci-dessous -
>>> from Bio.Alphabet import IUPAC
>>> protein_seq = Seq("AGCT", IUPAC.protein)
>>> protein_seq
Seq('AGCT', IUPACProtein())
>>> protein_seq.alphabet
En outre, Biopython expose toutes les données de configuration liées à la bioinformatique via le module Bio.Data. Par exemple, IUPACData.protein_letters a les lettres possibles de l'alphabet IUPACProtein.
>>> from Bio.Data import IUPACData
>>> IUPACData.protein_letters
'ACDEFGHIKLMNPQRSTVWY'
Opérations de base
Cette section explique brièvement toutes les opérations de base disponibles dans la classe Seq. Les séquences sont similaires aux chaînes python. Nous pouvons effectuer des opérations de chaîne python telles que le découpage, le comptage, la concaténation, la recherche, le fractionnement et le décapage en séquences.
Utilisez les codes ci-dessous pour obtenir diverses sorties.
To get the first value in sequence.
>>> seq_string = Seq("AGCTAGCT")
>>> seq_string[0]
'A'
To print the first two values.
>>> seq_string[0:2]
Seq('AG')
To print all the values.
>>> seq_string[ : ]
Seq('AGCTAGCT')
To perform length and count operations.
>>> len(seq_string)
8
>>> seq_string.count('A')
2
To add two sequences.
>>> from Bio.Alphabet import generic_dna, generic_protein
>>> seq1 = Seq("AGCT", generic_dna)
>>> seq2 = Seq("TCGA", generic_dna)
>>> seq1+seq2
Seq('AGCTTCGA', DNAAlphabet())
Ici, les deux objets séquence ci-dessus, seq1, seq2 sont des séquences d'ADN génériques et vous pouvez donc les ajouter et produire une nouvelle séquence. Vous ne pouvez pas ajouter de séquences avec des alphabets incompatibles, comme une séquence de protéines et une séquence d'ADN comme spécifié ci-dessous -
>>> dna_seq = Seq('AGTACACTGGT', generic_dna)
>>> protein_seq = Seq('AGUACACUGGU', generic_protein)
>>> dna_seq + protein_seq
.....
.....
TypeError: Incompatible alphabets DNAAlphabet() and ProteinAlphabet()
>>>
Pour ajouter deux séquences ou plus, commencez par la stocker dans une liste python, puis récupérez-la en utilisant 'for loop' et enfin ajoutez-la comme indiqué ci-dessous -
>>> from Bio.Alphabet import generic_dna
>>> list = [Seq("AGCT",generic_dna),Seq("TCGA",generic_dna),Seq("AAA",generic_dna)]
>>> for s in list:
... print(s)
...
AGCT
TCGA
AAA
>>> final_seq = Seq(" ",generic_dna)
>>> for s in list:
... final_seq = final_seq + s
...
>>> final_seq
Seq('AGCTTCGAAAA', DNAAlphabet())
Dans la section ci-dessous, divers codes sont donnés pour obtenir des sorties en fonction de l'exigence.
To change the case of sequence.
>>> from Bio.Alphabet import generic_rna
>>> rna = Seq("agct", generic_rna)
>>> rna.upper()
Seq('AGCT', RNAAlphabet())
To check python membership and identity operator.
>>> rna = Seq("agct", generic_rna)
>>> 'a' in rna
True
>>> 'A' in rna
False
>>> rna1 = Seq("AGCT", generic_dna)
>>> rna is rna1
False
To find single letter or sequence of letter inside the given sequence.
>>> protein_seq = Seq('AGUACACUGGU', generic_protein)
>>> protein_seq.find('G')
1
>>> protein_seq.find('GG')
8
To perform splitting operation.
>>> protein_seq = Seq('AGUACACUGGU', generic_protein)
>>> protein_seq.split('A')
[Seq('', ProteinAlphabet()), Seq('GU', ProteinAlphabet()),
Seq('C', ProteinAlphabet()), Seq('CUGGU', ProteinAlphabet())]
To perform strip operations in the sequence.
>>> strip_seq = Seq(" AGCT ")
>>> strip_seq
Seq(' AGCT ')
>>> strip_seq.strip()
Seq('AGCT')