Biopython-간단한 응용 프로그램 만들기

간단한 Biopython 애플리케이션을 만들어 생물 정보학 파일을 구문 분석하고 내용을 인쇄 해 보겠습니다. 이것은 우리가 Biopython의 일반적인 개념과 그것이 생물 정보학 분야에서 어떻게 도움이되는지 이해하는 데 도움이 될 것입니다.

Step 1 − 먼저 샘플 시퀀스 파일“example.fasta”를 생성하고 아래 내용을 입력합니다.

>sp|P25730|FMS1_ECOLI CS1 fimbrial subunit A precursor (CS1 pilin) 
MKLKKTIGAMALATLFATMGASAVEKTISVTASVDPTVDLLQSDGSALPNSVALTYSPAV
NNFEAHTINTVVHTNDSDKGVVVKLSADPVLSNVLNPTLQIPVSVNFAGKPLSTTGITID 
SNDLNFASSGVNKVSSTQKLSIHADATRVTGGALTAGQYQGLVSIILTKSTTTTTTTKGT 

>sp|P15488|FMS3_ECOLI CS3 fimbrial subunit A precursor (CS3 pilin) 
MLKIKYLLIGLSLSAMSSYSLAAAGPTLTKELALNVLSPAALDATWAPQDNLTLSNTGVS 
NTLVGVLTLSNTSIDTVSIASTNVSDTSKNGTVTFAHETNNSASFATTISTDNANITLDK 
NAGNTIVKTTNGSQLPTNLPLKFITTEGNEHLVSGNYRANITITSTIKGGGTKKGTTDKK

확장자 fasta 는 시퀀스 파일의 파일 형식을 나타냅니다. FASTA는 생물 정보학 소프트웨어 인 FASTA에서 유래되었으므로 그 이름을 얻었습니다. FASTA 형식에는 여러 시퀀스가 ​​하나씩 배열되어 있으며 각 시퀀스에는 고유 한 ID, 이름, 설명 및 실제 시퀀스 데이터가 있습니다.

Step 2 − 새로운 파이썬 스크립트 * simple_example.py "를 생성하고 아래 코드를 입력하고 저장합니다.

from Bio.SeqIO import parse 
from Bio.SeqRecord import SeqRecord 
from Bio.Seq import Seq 

file = open("example.fasta") 

records = parse(file, "fasta") for record in records:    
   print("Id: %s" % record.id) 
   print("Name: %s" % record.name) 
   print("Description: %s" % record.description) 
   print("Annotations: %s" % record.annotations) 
   print("Sequence Data: %s" % record.seq) 
   print("Sequence Alphabet: %s" % record.seq.alphabet)

코드를 좀 더 자세히 살펴 보겠습니다.

Line 1Bio.SeqIO 모듈에서 사용할 수있는 구문 분석 클래스를 가져옵니다. Bio.SeqIO 모듈은 시퀀스 파일을 다른 형식으로 읽고 쓰는 데 사용되며`parse '클래스는 시퀀스 파일의 내용을 구문 분석하는 데 사용됩니다.

Line 2Bio.SeqRecord 모듈에서 사용 가능한 SeqRecord 클래스를 가져옵니다. 이 모듈은 시퀀스 레코드를 조작하는 데 사용되며 SeqRecord 클래스는 시퀀스 파일에서 사용 가능한 특정 시퀀스를 나타내는 데 사용됩니다.

*Line 3"Bio.Seq 모듈에서 사용 가능한 Seq 클래스를 가져옵니다. 이 모듈은 시퀀스 데이터를 조작하는 데 사용되며 Seq 클래스는 시퀀스 파일에서 사용 가능한 특정 시퀀스 레코드의 시퀀스 데이터를 나타내는 데 사용됩니다.

Line 5 일반 파이썬 함수를 사용하여 "example.fasta"파일을 엽니 다.

Line 7 시퀀스 파일의 내용을 구문 분석하고 내용을 SeqRecord 객체 목록으로 반환합니다.

Line 9-15 python for 루프를 사용하여 레코드를 반복하고 id, 이름, 설명, 시퀀스 데이터 등과 같은 시퀀스 레코드 (SqlRecord)의 속성을 인쇄합니다.

Line 15 알파벳 클래스를 사용하여 시퀀스의 유형을 인쇄합니다.

Step 3 − 명령 프롬프트를 열고 시퀀스 파일“example.fasta”가 포함 된 폴더로 이동하여 아래 명령을 실행합니다. −

> python simple_example.py

Step 4− Python은 스크립트를 실행하고 샘플 파일“example.fasta”에서 사용 가능한 모든 시퀀스 데이터를 인쇄합니다. 출력은 다음 내용과 유사합니다.

Id: sp|P25730|FMS1_ECOLI 
Name: sp|P25730|FMS1_ECOLI 
Decription: sp|P25730|FMS1_ECOLI CS1 fimbrial subunit A precursor (CS1 pilin) 
Annotations: {} 
Sequence Data: MKLKKTIGAMALATLFATMGASAVEKTISVTASVDPTVDLLQSDGSALPNSVALTYSPAVNNFEAHTINTVVHTNDSD
KGVVVKLSADPVLSNVLNPTLQIPVSVNFAGKPLSTTGITIDSNDLNFASSGVNKVSSTQKLSIHADATRVTGGALTA
GQYQGLVSIILTKSTTTTTTTKGT 
Sequence Alphabet: SingleLetterAlphabet() 
Id: sp|P15488|FMS3_ECOLI 
Name: sp|P15488|FMS3_ECOLI 
Decription: sp|P15488|FMS3_ECOLI CS3 fimbrial subunit A precursor (CS3 pilin) 
Annotations: {} 
Sequence Data: MLKIKYLLIGLSLSAMSSYSLAAAGPTLTKELALNVLSPAALDATWAPQDNLTLSNTGVSNTLVGVLTLSNTSIDTVS
IASTNVSDTSKNGTVTFAHETNNSASFATTISTDNANITLDKNAGNTIVKTTNGSQLPTNLPLKFITTEGNEHLVSGN
YRANITITSTIKGGGTKKGTTDKK 
Sequence Alphabet: SingleLetterAlphabet()

이 예제에서는 parse, SeqRecord 및 Seq의 세 가지 클래스를 보았습니다. 이 세 클래스는 대부분의 기능을 제공하며 다음 섹션에서 해당 클래스에 대해 알아 봅니다.