Biopython-시퀀스

시퀀스는 유기체의 단백질, DNA 또는 RNA를 나타내는 데 사용되는 일련의 문자입니다. Seq 클래스로 표시됩니다. Seq 클래스는 Bio.Seq 모듈에 정의되어 있습니다.

아래와 같이 Biopython에서 간단한 시퀀스를 생성 해 보겠습니다.

>>> from Bio.Seq import Seq 
>>> seq = Seq("AGCT") 
>>> seq 
Seq('AGCT') 
>>> print(seq) 
AGCT

여기에서 우리는 간단한 단백질 서열을 만들었습니다. AGCT 그리고 각 문자는 A라닌, G라이신, C이스 테인과 T헤 오닌.

각 Seq 객체에는 두 가지 중요한 속성이 있습니다.

  • 데이터-실제 시퀀스 문자열 (AGCT)

  • 알파벳-시퀀스 유형을 나타내는 데 사용됩니다. 예를 들어 DNA 염기 서열, RNA 염기 서열 등. 기본적으로 어떤 염기 서열도 나타내지 않으며 본질적으로 일반적입니다.

알파벳 모듈

Seq 개체에는 시퀀스 유형, 문자 및 가능한 작업을 지정하는 알파벳 속성이 포함되어 있습니다. Bio.Alphabet 모듈에 정의되어 있습니다. 알파벳은 아래와 같이 정의 할 수 있습니다-

>>> from Bio.Seq import Seq 
>>> myseq = Seq("AGCT") 
>>> myseq 
Seq('AGCT') 
>>> myseq.alphabet 
Alphabet()

알파벳 모듈은 다양한 유형의 시퀀스를 나타내는 아래 클래스를 제공합니다. 알파벳-모든 유형의 알파벳에 대한 기본 클래스입니다.

SingleLetterAlphabet-글자 크기가 1 인 일반 알파벳. 그것은 알파벳에서 파생되고 다른 모든 알파벳 유형은 여기서 파생됩니다.

>>> from Bio.Seq import Seq 
>>> from Bio.Alphabet import single_letter_alphabet 
>>> test_seq = Seq('AGTACACTGGT', single_letter_alphabet) 
>>> test_seq 
Seq('AGTACACTGGT', SingleLetterAlphabet())

ProteinAlphabet-일반 단일 문자 단백질 알파벳.

>>> from Bio.Seq import Seq 
>>> from Bio.Alphabet import generic_protein 
>>> test_seq = Seq('AGTACACTGGT', generic_protein) 
>>> test_seq 
Seq('AGTACACTGGT', ProteinAlphabet())

NucleotideAlphabet-일반 단일 문자 뉴클레오티드 알파벳.

>>> from Bio.Seq import Seq 
>>> from Bio.Alphabet import generic_nucleotide 
>>> test_seq = Seq('AGTACACTGGT', generic_nucleotide) >>> test_seq 
Seq('AGTACACTGGT', NucleotideAlphabet())

DNAAlphabet-일반 단일 문자 DNA 알파벳.

>>> from Bio.Seq import Seq 
>>> from Bio.Alphabet import generic_dna 
>>> test_seq = Seq('AGTACACTGGT', generic_dna) 
>>> test_seq 
Seq('AGTACACTGGT', DNAAlphabet())

RNAAlphabet-일반 단일 문자 RNA 알파벳.

>>> from Bio.Seq import Seq 
>>> from Bio.Alphabet import generic_rna 
>>> test_seq = Seq('AGTACACTGGT', generic_rna) 
>>> test_seq 
Seq('AGTACACTGGT', RNAAlphabet())

Biopython 모듈 인 Bio.Alphabet.IUPAC는 IUPAC 커뮤니티에서 정의한 기본 시퀀스 유형을 제공합니다. 그것은 다음과 같은 클래스를 포함합니다-

  • IUPACProtein (protein) − 20 개의 표준 아미노산으로 구성된 IUPAC 단백질 알파벳.

  • ExtendedIUPACProtein (extended_protein) − X를 포함한 확장 대문자 IUPAC 단백질 단일 문자 알파벳.

  • IUPACAmbiguousDNA (ambiguous_dna) − 대문자 IUPAC 모호한 DNA.

  • IUPACUnambiguousDNA (unambiguous_dna) − 대문자 IUPAC 명확성 DNA (GATC).

  • ExtendedIUPACDNA (extended_dna) − 확장 된 IUPAC DNA 알파벳.

  • IUPACAmbiguousRNA (ambiguous_rna) − 대문자 IUPAC 모호한 RNA.

  • IUPACUnambiguousRNA (unambiguous_rna) − 대문자 IUPAC 명확성 RNA (GAUC).

아래와 같이 IUPACProtein 클래스에 대한 간단한 예를 고려하십시오.

>>> from Bio.Alphabet import IUPAC 
>>> protein_seq = Seq("AGCT", IUPAC.protein) 
>>> protein_seq 
Seq('AGCT', IUPACProtein()) 
>>> protein_seq.alphabet

또한 Biopython은 Bio.Data 모듈을 통해 모든 생물 정보학 관련 구성 데이터를 노출합니다. 예를 들어 IUPACData.protein_letters에는 IUPACProtein 알파벳의 가능한 문자가 있습니다.

>>> from Bio.Data import IUPACData 
>>> IUPACData.protein_letters 
'ACDEFGHIKLMNPQRSTVWY'

기본 작동

이 섹션에서는 Seq 클래스에서 사용할 수있는 모든 기본 작업에 대해 간략하게 설명합니다. 시퀀스는 파이썬 문자열과 유사합니다. 우리는 slicing, counting, concatenation, find, split, strip in sequence와 같은 파이썬 문자열 연산을 수행 할 수 있습니다.

다양한 출력을 얻으려면 아래 코드를 사용하십시오.

To get the first value in sequence.

>>> seq_string = Seq("AGCTAGCT") 
>>> seq_string[0] 
'A'

To print the first two values.

>>> seq_string[0:2] 
Seq('AG')

To print all the values.

>>> seq_string[ : ] 
Seq('AGCTAGCT')

To perform length and count operations.

>>> len(seq_string) 
8 
>>> seq_string.count('A') 
2

To add two sequences.

>>> from Bio.Alphabet import generic_dna, generic_protein 
>>> seq1 = Seq("AGCT", generic_dna) 
>>> seq2 = Seq("TCGA", generic_dna)
>>> seq1+seq2 
Seq('AGCTTCGA', DNAAlphabet())

여기에서 위의 두 시퀀스 객체 인 seq1, seq2는 일반적인 DNA 시퀀스이므로 추가하여 새로운 시퀀스를 생성 할 수 있습니다. 아래와 같이 단백질 서열 및 DNA 서열과 같이 호환되지 않는 알파벳을 가진 서열을 추가 할 수 없습니다.

>>> dna_seq = Seq('AGTACACTGGT', generic_dna) 
>>> protein_seq = Seq('AGUACACUGGU', generic_protein) 
>>> dna_seq + protein_seq 
..... 
..... 
TypeError: Incompatible alphabets DNAAlphabet() and ProteinAlphabet() 
>>>

두 개 이상의 시퀀스를 추가하려면 먼저 파이썬 목록에 저장 한 다음 'for 루프'를 사용하여 검색하고 마지막으로 아래와 같이 추가합니다.

>>> from Bio.Alphabet import generic_dna 
>>> list = [Seq("AGCT",generic_dna),Seq("TCGA",generic_dna),Seq("AAA",generic_dna)] 
>>> for s in list: 
... print(s) 
... 
AGCT 
TCGA 
AAA 
>>> final_seq = Seq(" ",generic_dna) 
>>> for s in list: 
... final_seq = final_seq + s 
... 
>>> final_seq 
Seq('AGCTTCGAAAA', DNAAlphabet())

아래 섹션에서는 요구 사항에 따라 출력을 얻기 위해 다양한 코드가 제공됩니다.

To change the case of sequence.

>>> from Bio.Alphabet import generic_rna 
>>> rna = Seq("agct", generic_rna) 
>>> rna.upper() 
Seq('AGCT', RNAAlphabet())

To check python membership and identity operator.

>>> rna = Seq("agct", generic_rna) 
>>> 'a' in rna 
True 
>>> 'A' in rna 
False 
>>> rna1 = Seq("AGCT", generic_dna) 
>>> rna is rna1 
False

To find single letter or sequence of letter inside the given sequence.

>>> protein_seq = Seq('AGUACACUGGU', generic_protein) 
>>> protein_seq.find('G') 
1 
>>> protein_seq.find('GG') 
8

To perform splitting operation.

>>> protein_seq = Seq('AGUACACUGGU', generic_protein) 
>>> protein_seq.split('A') 
[Seq('', ProteinAlphabet()), Seq('GU', ProteinAlphabet()), 
   Seq('C', ProteinAlphabet()), Seq('CUGGU', ProteinAlphabet())]

To perform strip operations in the sequence.

>>> strip_seq = Seq(" AGCT ") 
>>> strip_seq 
Seq(' AGCT ') 
>>> strip_seq.strip() 
Seq('AGCT')