Biopython - Opérations de séquence avancées
Dans ce chapitre, nous discuterons de certaines des fonctionnalités de séquence avancées fournies par Biopython.
Complément et complément inverse
La séquence nucléotidique peut être complémentée en inverse pour obtenir une nouvelle séquence. En outre, la séquence complémentée peut être complémentée en sens inverse pour obtenir la séquence d'origine. Biopython fournit deux méthodes pour faire cette fonctionnalité -complement et reverse_complement. Le code pour cela est donné ci-dessous -
>>> from Bio.Alphabet import IUPAC
>>> nucleotide = Seq('TCGAAGTCAGTC', IUPAC.ambiguous_dna)
>>> nucleotide.complement()
Seq('AGCTTCAGTCAG', IUPACAmbiguousDNA())
>>>
Ici, la méthode complément () permet de compléter une séquence d'ADN ou d'ARN. La méthode reverse_complement () complète et inverse la séquence résultante de gauche à droite. Il est montré ci-dessous -
>>> nucleotide.reverse_complement()
Seq('GACTGACTTCGA', IUPACAmbiguousDNA())
Biopython utilise la variable ambiguous_dna_complement fournie par Bio.Data.IUPACData pour effectuer l'opération de complément.
>>> from Bio.Data import IUPACData
>>> import pprint
>>> pprint.pprint(IUPACData.ambiguous_dna_complement) {
'A': 'T',
'B': 'V',
'C': 'G',
'D': 'H',
'G': 'C',
'H': 'D',
'K': 'M',
'M': 'K',
'N': 'N',
'R': 'Y',
'S': 'S',
'T': 'A',
'V': 'B',
'W': 'W',
'X': 'X',
'Y': 'R'}
>>>
Contenu GC
On prévoit que la composition de la base d'ADN génomique (contenu en GC) affectera considérablement le fonctionnement du génome et l'écologie des espèces. Le contenu GC est le nombre de nucléotides GC divisé par le total des nucléotides.
Pour obtenir le contenu nucléotidique du GC, importez le module suivant et procédez comme suit:
>>> from Bio.SeqUtils import GC
>>> nucleotide = Seq("GACTGACTTCGA",IUPAC.unambiguous_dna)
>>> GC(nucleotide)
50.0
Transcription
La transcription est le processus de changement de séquence d'ADN en séquence d'ARN. Le processus de transcription biologique proprement dit effectue un complément inverse (TCAG → CUGA) pour obtenir l'ARNm en considérant l'ADN comme brin matrice. Cependant, en bioinformatique et donc en Biopython, nous travaillons généralement directement avec le brin codant et nous pouvons obtenir la séquence d'ARNm en changeant la lettre T en U.
Un exemple simple pour ce qui précède est le suivant -
>>> from Bio.Seq import Seq
>>> from Bio.Seq import transcribe
>>> from Bio.Alphabet import IUPAC
>>> dna_seq = Seq("ATGCCGATCGTAT",IUPAC.unambiguous_dna) >>> transcribe(dna_seq)
Seq('AUGCCGAUCGUAU', IUPACUnambiguousRNA())
>>>
Pour inverser la transcription, T est changé en U comme indiqué dans le code ci-dessous -
>>> rna_seq = transcribe(dna_seq)
>>> rna_seq.back_transcribe()
Seq('ATGCCGATCGTAT', IUPACUnambiguousDNA())
Pour obtenir le brin de matrice d'ADN, effectuez un complément inverse de l'ARN retranscrit comme indiqué ci-dessous -
>>> rna_seq.back_transcribe().reverse_complement()
Seq('ATACGATCGGCAT', IUPACUnambiguousDNA())
Traduction
La traduction est un processus de traduction de la séquence d'ARN en séquence protéique. Considérez une séquence d'ARN comme indiqué ci-dessous -
>>> rna_seq = Seq("AUGGCCAUUGUAAU",IUPAC.unambiguous_rna)
>>> rna_seq
Seq('AUGGCCAUUGUAAUGGGCCGCUGAAAGGGUGCCCGAUAG', IUPACUnambiguousRNA())
Maintenant, appliquez la fonction translate () au code ci-dessus -
>>> rna_seq.translate()
Seq('MAIV', IUPACProtein())
La séquence d'ARN ci-dessus est simple. Considérez la séquence d'ARN, AUGGCCAUUGUAAUGGGCCGCUGAAAGGGUGCCCGA et appliquez translate () -
>>> rna = Seq('AUGGCCAUUGUAAUGGGCCGCUGAAAGGGUGCCCGA', IUPAC.unambiguous_rna)
>>> rna.translate()
Seq('MAIVMGR*KGAR', HasStopCodon(IUPACProtein(), '*'))
Ici, les codons d'arrêt sont indiqués par un astérisque «*».
Il est possible dans la méthode translate () de s'arrêter au premier codon d'arrêt. Pour ce faire, vous pouvez affecter to_stop = True dans translate () comme suit -
>>> rna.translate(to_stop = True)
Seq('MAIVMGR', IUPACProtein())
Ici, le codon stop n'est pas inclus dans la séquence résultante car il n'en contient pas.
Table de traduction
La page Codes génétiques du NCBI fournit la liste complète des tables de traduction utilisées par Biopython. Voyons un exemple de table standard pour visualiser le code -
>>> from Bio.Data import CodonTable
>>> table = CodonTable.unambiguous_dna_by_name["Standard"]
>>> print(table)
Table 1 Standard, SGC0
| T | C | A | G |
--+---------+---------+---------+---------+--
T | TTT F | TCT S | TAT Y | TGT C | T
T | TTC F | TCC S | TAC Y | TGC C | C
T | TTA L | TCA S | TAA Stop| TGA Stop| A
T | TTG L(s)| TCG S | TAG Stop| TGG W | G
--+---------+---------+---------+---------+--
C | CTT L | CCT P | CAT H | CGT R | T
C | CTC L | CCC P | CAC H | CGC R | C
C | CTA L | CCA P | CAA Q | CGA R | A
C | CTG L(s)| CCG P | CAG Q | CGG R | G
--+---------+---------+---------+---------+--
A | ATT I | ACT T | AAT N | AGT S | T
A | ATC I | ACC T | AAC N | AGC S | C
A | ATA I | ACA T | AAA K | AGA R | A
A | ATG M(s)| ACG T | AAG K | AGG R | G
--+---------+---------+---------+---------+--
G | GTT V | GCT A | GAT D | GGT G | T
G | GTC V | GCC A | GAC D | GGC G | C
G | GTA V | GCA A | GAA E | GGA G | A
G | GTG V | GCG A | GAG E | GGG G | G
--+---------+---------+---------+---------+--
>>>
Biopython utilise cette table pour traduire l'ADN en protéine ainsi que pour trouver le codon Stop.