Biopython-고급 시퀀스 작업

이 장에서는 Biopython이 제공하는 몇 가지 고급 시퀀스 기능에 대해 설명합니다.

보완 및 역 보완

뉴클레오티드 서열은 새로운 서열을 얻기 위해 역 보완 될 수 있습니다. 또한, 보완 된 시퀀스는 원래 시퀀스를 얻기 위해 역 보완 될 수 있습니다. Biopython은이 기능을 수행하는 두 가지 방법을 제공합니다.complementreverse_complement. 이에 대한 코드는 다음과 같습니다.

>>> from Bio.Alphabet import IUPAC 
>>> nucleotide = Seq('TCGAAGTCAGTC', IUPAC.ambiguous_dna) 
>>> nucleotide.complement() 
Seq('AGCTTCAGTCAG', IUPACAmbiguousDNA()) 
>>>

여기서, complement () 메서드는 DNA 또는 RNA 시퀀스를 보완 할 수 있습니다. reverse_complement () 메서드는 결과 시퀀스를 왼쪽에서 오른쪽으로 보완하고 반전합니다. 아래에 나와 있습니다-

>>> nucleotide.reverse_complement() 
Seq('GACTGACTTCGA', IUPACAmbiguousDNA())

Biopython은 Bio.Data.IUPACData에서 제공하는 ambiguous_dna_complement 변수를 사용하여 보완 작업을 수행합니다.

>>> from Bio.Data import IUPACData 
>>> import pprint 
>>> pprint.pprint(IUPACData.ambiguous_dna_complement) {
   'A': 'T',
   'B': 'V',
   'C': 'G',
   'D': 'H',
   'G': 'C',
   'H': 'D',
   'K': 'M',
   'M': 'K',
   'N': 'N',
   'R': 'Y',
   'S': 'S',
   'T': 'A',
   'V': 'B',
   'W': 'W',
   'X': 'X',
   'Y': 'R'} 
>>>

GC 콘텐츠

게놈 DNA 염기 구성 (GC 함량)은 게놈 기능과 종 생태에 상당한 영향을 미칠 것으로 예상됩니다. GC 함량은 총 뉴클레오티드로 나눈 GC 뉴클레오티드의 수입니다.

GC 뉴클레오티드 내용을 얻으려면 다음 모듈을 가져오고 다음 단계를 수행하십시오.

>>> from Bio.SeqUtils import GC 
>>> nucleotide = Seq("GACTGACTTCGA",IUPAC.unambiguous_dna) 
>>> GC(nucleotide) 
50.0

전사

전사는 DNA 염기 서열을 RNA 염기 서열로 바꾸는 과정입니다. 실제 생물학적 전사 과정은 DNA를 template strand로 고려한 mRNA를 얻기 위해 역 보체 (TCAG → CUGA)를 수행하는 것입니다. 그러나 생물 정보학 등에서 Biopython에서는 일반적으로 코딩 가닥으로 직접 작업하고 문자 T를 U로 변경하여 mRNA 서열을 얻을 수 있습니다.

위의 간단한 예는 다음과 같습니다.

>>> from Bio.Seq import Seq 
>>> from Bio.Seq import transcribe 
>>> from Bio.Alphabet import IUPAC 
>>> dna_seq = Seq("ATGCCGATCGTAT",IUPAC.unambiguous_dna) >>> transcribe(dna_seq) 
Seq('AUGCCGAUCGUAU', IUPACUnambiguousRNA()) 
>>>

전사를 되돌리려면 T는 아래 코드와 같이 U로 변경됩니다.

>>> rna_seq = transcribe(dna_seq) 
>>> rna_seq.back_transcribe() 
Seq('ATGCCGATCGTAT', IUPACUnambiguousDNA())

DNA 주형 가닥을 얻으려면 아래에 주어진 바와 같이 역전사 된 RNA를 역 보정하십시오.

>>> rna_seq.back_transcribe().reverse_complement() 
Seq('ATACGATCGGCAT', IUPACUnambiguousDNA())

번역

번역은 RNA 서열을 단백질 서열로 번역하는 과정입니다. 아래와 같이 RNA 시퀀스를 고려하십시오.

>>> rna_seq = Seq("AUGGCCAUUGUAAU",IUPAC.unambiguous_rna) 
>>> rna_seq 
Seq('AUGGCCAUUGUAAUGGGCCGCUGAAAGGGUGCCCGAUAG', IUPACUnambiguousRNA())

이제 위의 코드에 translate () 함수를 적용합니다.

>>> rna_seq.translate() 
Seq('MAIV', IUPACProtein())

위의 RNA 시퀀스는 간단합니다. RNA 시퀀스, AUGGCCAUUGUAAUGGGCCGCUGAAAGGGUGCCCGA를 고려하고 translate ()를 적용하십시오.

>>> rna = Seq('AUGGCCAUUGUAAUGGGCCGCUGAAAGGGUGCCCGA', IUPAC.unambiguous_rna) 
>>> rna.translate() 
Seq('MAIVMGR*KGAR', HasStopCodon(IUPACProtein(), '*'))

여기서 중지 코돈은 별표 '*'로 표시됩니다.

translate () 메서드에서 첫 번째 중지 코돈에서 중지 할 수 있습니다. 이를 수행하려면 다음과 같이 translate ()에서 to_stop = True를 할당 할 수 있습니다.

>>> rna.translate(to_stop = True) 
Seq('MAIVMGR', IUPACProtein())

여기서 중지 코돈은 포함되지 않으므로 결과 시퀀스에 포함되지 않습니다.

번역 표

NCBI의 유전 코드 페이지는 Biopython에서 사용하는 번역 테이블의 전체 목록을 제공합니다. 코드를 시각화하는 표준 테이블의 예를 살펴 보겠습니다.

>>> from Bio.Data import CodonTable 
>>> table = CodonTable.unambiguous_dna_by_name["Standard"] 
>>> print(table) 
Table 1 Standard, SGC0
   | T       | C       | A       | G       | 
 --+---------+---------+---------+---------+-- 
 T | TTT F   | TCT S   | TAT Y   | TGT C   | T
 T | TTC F   | TCC S   | TAC Y   | TGC C   | C
 T | TTA L   | TCA S   | TAA Stop| TGA Stop| A
 T | TTG L(s)| TCG S   | TAG Stop| TGG W   | G 
 --+---------+---------+---------+---------+--
 C | CTT L   | CCT P   | CAT H   | CGT R   | T
 C | CTC L   | CCC P   | CAC H   | CGC R   | C
 C | CTA L   | CCA P   | CAA Q   | CGA R   | A
 C | CTG L(s)| CCG P   | CAG Q   | CGG R   | G 
 --+---------+---------+---------+---------+--
 A | ATT I   | ACT T   | AAT N   | AGT S   | T
 A | ATC I   | ACC T   | AAC N   | AGC S   | C
 A | ATA I   | ACA T   | AAA K   | AGA R   | A
 A | ATG M(s)| ACG T   | AAG K   | AGG R   | G 
 --+---------+---------+---------+---------+--
 G | GTT V   | GCT A   | GAT D   | GGT G   | T
 G | GTC V   | GCC A   | GAC D   | GGC G   | C
 G | GTA V   | GCA A   | GAA E   | GGA G   | A
 G | GTG V   | GCG A   | GAG E   | GGG G   | G 
 --+---------+---------+---------+---------+-- 
>>>

Biopython은이 표를 사용하여 DNA를 단백질로 번역하고 중지 코돈을 찾습니다.