Biopython - Gelişmiş Sıra İşlemleri
Bu bölümde, Biopython tarafından sağlanan gelişmiş dizi özelliklerinden bazılarını tartışacağız.
Tamamlayıcı ve Ters Tamamlayıcı
Nükleotit sekansı, yeni sekans elde etmek için tersine tamamlanabilir. Ayrıca, tamamlanan dizi, orijinal diziyi elde etmek için ters tamamlanabilir. Biopython, bu işlevi gerçekleştirmek için iki yöntem sağlar -complement ve reverse_complement. Bunun kodu aşağıda verilmiştir -
>>> from Bio.Alphabet import IUPAC
>>> nucleotide = Seq('TCGAAGTCAGTC', IUPAC.ambiguous_dna)
>>> nucleotide.complement()
Seq('AGCTTCAGTCAG', IUPACAmbiguousDNA())
>>>
Burada, kompleman () yöntemi, bir DNA veya RNA dizisini tamamlamaya izin verir. Reverse_complement () yöntemi, sonuçtaki diziyi soldan sağa tamamlar ve ters çevirir. Aşağıda gösterilmiştir -
>>> nucleotide.reverse_complement()
Seq('GACTGACTTCGA', IUPACAmbiguousDNA())
Biopython, tamamlama işlemini yapmak için Bio.Data.IUPACData tarafından sağlanan ambiguous_dna_complement değişkenini kullanır.
>>> from Bio.Data import IUPACData
>>> import pprint
>>> pprint.pprint(IUPACData.ambiguous_dna_complement) {
'A': 'T',
'B': 'V',
'C': 'G',
'D': 'H',
'G': 'C',
'H': 'D',
'K': 'M',
'M': 'K',
'N': 'N',
'R': 'Y',
'S': 'S',
'T': 'A',
'V': 'B',
'W': 'W',
'X': 'X',
'Y': 'R'}
>>>
GC İçeriği
Genomik DNA baz bileşiminin (GC içeriği), genom işleyişini ve tür ekolojisini önemli ölçüde etkilediği tahmin edilmektedir. GC içeriği, GC nükleotidlerinin sayısının toplam nükleotidlere bölünmesiyle elde edilir.
GC nükleotid içeriğini almak için aşağıdaki modülü içe aktarın ve aşağıdaki adımları gerçekleştirin -
>>> from Bio.SeqUtils import GC
>>> nucleotide = Seq("GACTGACTTCGA",IUPAC.unambiguous_dna)
>>> GC(nucleotide)
50.0
Transkripsiyon
Transkripsiyon, DNA dizisini RNA dizisine dönüştürme işlemidir. Gerçek biyolojik transkripsiyon işlemi, DNA'yı şablon zincir olarak dikkate alarak mRNA'yı elde etmek için bir ters tamamlayıcı (TCAG → CUGA) gerçekleştiriyor. Bununla birlikte, biyoinformatikte ve dolayısıyla Biopython'da, genellikle doğrudan kodlama dizisiyle çalışırız ve mRNA dizisini T harfini U olarak değiştirerek elde edebiliriz.
Yukarıdakiler için basit bir örnek aşağıdaki gibidir -
>>> from Bio.Seq import Seq
>>> from Bio.Seq import transcribe
>>> from Bio.Alphabet import IUPAC
>>> dna_seq = Seq("ATGCCGATCGTAT",IUPAC.unambiguous_dna) >>> transcribe(dna_seq)
Seq('AUGCCGAUCGUAU', IUPACUnambiguousRNA())
>>>
Transkripsiyonu tersine çevirmek için, aşağıdaki kodda gösterildiği gibi T, U olarak değiştirilir -
>>> rna_seq = transcribe(dna_seq)
>>> rna_seq.back_transcribe()
Seq('ATGCCGATCGTAT', IUPACUnambiguousDNA())
DNA şablon zincirini elde etmek için, aşağıda verildiği gibi ters kopyalanmış RNA'yı ters tamamlayın -
>>> rna_seq.back_transcribe().reverse_complement()
Seq('ATACGATCGGCAT', IUPACUnambiguousDNA())
Tercüme
Çeviri, RNA dizisini protein dizisine dönüştürme işlemidir. Aşağıda gösterildiği gibi bir RNA dizisi düşünün -
>>> rna_seq = Seq("AUGGCCAUUGUAAU",IUPAC.unambiguous_rna)
>>> rna_seq
Seq('AUGGCCAUUGUAAUGGGCCGCUGAAAGGGUGCCCGAUAG', IUPACUnambiguousRNA())
Şimdi, translate () işlevini yukarıdaki koda uygulayın -
>>> rna_seq.translate()
Seq('MAIV', IUPACProtein())
Yukarıdaki RNA dizisi basittir. AUGGCCAUUGUAAUGGGCCGCUGAAAGGGUGCCCGA RNA dizisini düşünün ve translate () uygulayın -
>>> rna = Seq('AUGGCCAUUGUAAUGGGCCGCUGAAAGGGUGCCCGA', IUPAC.unambiguous_rna)
>>> rna.translate()
Seq('MAIVMGR*KGAR', HasStopCodon(IUPACProtein(), '*'))
Burada, durdurma kodonları bir yıldız işareti '*' ile gösterilir.
Translate () yönteminde ilk durdurma kodonunda durmak mümkündür. Bunu yapmak için, translate () 'de to_stop = True atayabilirsiniz:
>>> rna.translate(to_stop = True)
Seq('MAIVMGR', IUPACProtein())
Burada, durdurma kodonu, bir tane içermediğinden sonuç dizisine dahil edilmez.
Çeviri Tablosu
NCBI'nin Genetik Kodlar sayfası, Biopython tarafından kullanılan çeviri tablolarının tam listesini sağlar. Kodu görselleştirmek için bir standart tablo örneği görelim -
>>> from Bio.Data import CodonTable
>>> table = CodonTable.unambiguous_dna_by_name["Standard"]
>>> print(table)
Table 1 Standard, SGC0
| T | C | A | G |
--+---------+---------+---------+---------+--
T | TTT F | TCT S | TAT Y | TGT C | T
T | TTC F | TCC S | TAC Y | TGC C | C
T | TTA L | TCA S | TAA Stop| TGA Stop| A
T | TTG L(s)| TCG S | TAG Stop| TGG W | G
--+---------+---------+---------+---------+--
C | CTT L | CCT P | CAT H | CGT R | T
C | CTC L | CCC P | CAC H | CGC R | C
C | CTA L | CCA P | CAA Q | CGA R | A
C | CTG L(s)| CCG P | CAG Q | CGG R | G
--+---------+---------+---------+---------+--
A | ATT I | ACT T | AAT N | AGT S | T
A | ATC I | ACC T | AAC N | AGC S | C
A | ATA I | ACA T | AAA K | AGA R | A
A | ATG M(s)| ACG T | AAG K | AGG R | G
--+---------+---------+---------+---------+--
G | GTT V | GCT A | GAT D | GGT G | T
G | GTC V | GCC A | GAC D | GGC G | C
G | GTA V | GCA A | GAA E | GGA G | A
G | GTG V | GCG A | GAG E | GGG G | G
--+---------+---------+---------+---------+--
>>>
Biopython, bu tabloyu DNA'yı proteine çevirmek ve ayrıca Durdurma kodonunu bulmak için kullanır.