Biopython-고급 시퀀스 작업
이 장에서는 Biopython이 제공하는 몇 가지 고급 시퀀스 기능에 대해 설명합니다.
보완 및 역 보완
뉴클레오티드 서열은 새로운 서열을 얻기 위해 역 보완 될 수 있습니다. 또한, 보완 된 시퀀스는 원래 시퀀스를 얻기 위해 역 보완 될 수 있습니다. Biopython은이 기능을 수행하는 두 가지 방법을 제공합니다.complement 과 reverse_complement. 이에 대한 코드는 다음과 같습니다.
>>> from Bio.Alphabet import IUPAC
>>> nucleotide = Seq('TCGAAGTCAGTC', IUPAC.ambiguous_dna)
>>> nucleotide.complement()
Seq('AGCTTCAGTCAG', IUPACAmbiguousDNA())
>>>
여기서, complement () 메서드는 DNA 또는 RNA 시퀀스를 보완 할 수 있습니다. reverse_complement () 메서드는 결과 시퀀스를 왼쪽에서 오른쪽으로 보완하고 반전합니다. 아래에 나와 있습니다-
>>> nucleotide.reverse_complement()
Seq('GACTGACTTCGA', IUPACAmbiguousDNA())
Biopython은 Bio.Data.IUPACData에서 제공하는 ambiguous_dna_complement 변수를 사용하여 보완 작업을 수행합니다.
>>> from Bio.Data import IUPACData
>>> import pprint
>>> pprint.pprint(IUPACData.ambiguous_dna_complement) {
'A': 'T',
'B': 'V',
'C': 'G',
'D': 'H',
'G': 'C',
'H': 'D',
'K': 'M',
'M': 'K',
'N': 'N',
'R': 'Y',
'S': 'S',
'T': 'A',
'V': 'B',
'W': 'W',
'X': 'X',
'Y': 'R'}
>>>
GC 콘텐츠
게놈 DNA 염기 구성 (GC 함량)은 게놈 기능과 종 생태에 상당한 영향을 미칠 것으로 예상됩니다. GC 함량은 총 뉴클레오티드로 나눈 GC 뉴클레오티드의 수입니다.
GC 뉴클레오티드 내용을 얻으려면 다음 모듈을 가져오고 다음 단계를 수행하십시오.
>>> from Bio.SeqUtils import GC
>>> nucleotide = Seq("GACTGACTTCGA",IUPAC.unambiguous_dna)
>>> GC(nucleotide)
50.0
전사
전사는 DNA 염기 서열을 RNA 염기 서열로 바꾸는 과정입니다. 실제 생물학적 전사 과정은 DNA를 template strand로 고려한 mRNA를 얻기 위해 역 보체 (TCAG → CUGA)를 수행하는 것입니다. 그러나 생물 정보학 등에서 Biopython에서는 일반적으로 코딩 가닥으로 직접 작업하고 문자 T를 U로 변경하여 mRNA 서열을 얻을 수 있습니다.
위의 간단한 예는 다음과 같습니다.
>>> from Bio.Seq import Seq
>>> from Bio.Seq import transcribe
>>> from Bio.Alphabet import IUPAC
>>> dna_seq = Seq("ATGCCGATCGTAT",IUPAC.unambiguous_dna) >>> transcribe(dna_seq)
Seq('AUGCCGAUCGUAU', IUPACUnambiguousRNA())
>>>
전사를 되돌리려면 T는 아래 코드와 같이 U로 변경됩니다.
>>> rna_seq = transcribe(dna_seq)
>>> rna_seq.back_transcribe()
Seq('ATGCCGATCGTAT', IUPACUnambiguousDNA())
DNA 주형 가닥을 얻으려면 아래에 주어진 바와 같이 역전사 된 RNA를 역 보정하십시오.
>>> rna_seq.back_transcribe().reverse_complement()
Seq('ATACGATCGGCAT', IUPACUnambiguousDNA())
번역
번역은 RNA 서열을 단백질 서열로 번역하는 과정입니다. 아래와 같이 RNA 시퀀스를 고려하십시오.
>>> rna_seq = Seq("AUGGCCAUUGUAAU",IUPAC.unambiguous_rna)
>>> rna_seq
Seq('AUGGCCAUUGUAAUGGGCCGCUGAAAGGGUGCCCGAUAG', IUPACUnambiguousRNA())
이제 위의 코드에 translate () 함수를 적용합니다.
>>> rna_seq.translate()
Seq('MAIV', IUPACProtein())
위의 RNA 시퀀스는 간단합니다. RNA 시퀀스, AUGGCCAUUGUAAUGGGCCGCUGAAAGGGUGCCCGA를 고려하고 translate ()를 적용하십시오.
>>> rna = Seq('AUGGCCAUUGUAAUGGGCCGCUGAAAGGGUGCCCGA', IUPAC.unambiguous_rna)
>>> rna.translate()
Seq('MAIVMGR*KGAR', HasStopCodon(IUPACProtein(), '*'))
여기서 중지 코돈은 별표 '*'로 표시됩니다.
translate () 메서드에서 첫 번째 중지 코돈에서 중지 할 수 있습니다. 이를 수행하려면 다음과 같이 translate ()에서 to_stop = True를 할당 할 수 있습니다.
>>> rna.translate(to_stop = True)
Seq('MAIVMGR', IUPACProtein())
여기서 중지 코돈은 포함되지 않으므로 결과 시퀀스에 포함되지 않습니다.
번역 표
NCBI의 유전 코드 페이지는 Biopython에서 사용하는 번역 테이블의 전체 목록을 제공합니다. 코드를 시각화하는 표준 테이블의 예를 살펴 보겠습니다.
>>> from Bio.Data import CodonTable
>>> table = CodonTable.unambiguous_dna_by_name["Standard"]
>>> print(table)
Table 1 Standard, SGC0
| T | C | A | G |
--+---------+---------+---------+---------+--
T | TTT F | TCT S | TAT Y | TGT C | T
T | TTC F | TCC S | TAC Y | TGC C | C
T | TTA L | TCA S | TAA Stop| TGA Stop| A
T | TTG L(s)| TCG S | TAG Stop| TGG W | G
--+---------+---------+---------+---------+--
C | CTT L | CCT P | CAT H | CGT R | T
C | CTC L | CCC P | CAC H | CGC R | C
C | CTA L | CCA P | CAA Q | CGA R | A
C | CTG L(s)| CCG P | CAG Q | CGG R | G
--+---------+---------+---------+---------+--
A | ATT I | ACT T | AAT N | AGT S | T
A | ATC I | ACC T | AAC N | AGC S | C
A | ATA I | ACA T | AAA K | AGA R | A
A | ATG M(s)| ACG T | AAG K | AGG R | G
--+---------+---------+---------+---------+--
G | GTT V | GCT A | GAT D | GGT G | T
G | GTC V | GCC A | GAC D | GGC G | C
G | GTA V | GCA A | GAA E | GGA G | A
G | GTG V | GCG A | GAG E | GGG G | G
--+---------+---------+---------+---------+--
>>>
Biopython은이 표를 사용하여 DNA를 단백질로 번역하고 중지 코돈을 찾습니다.