Biopython - Membuat Aplikasi Sederhana

Mari kita buat aplikasi Biopython sederhana untuk mengurai file bioinformatika dan mencetak isinya. Ini akan membantu kami memahami konsep umum Biopython dan bagaimana hal itu membantu di bidang bioinformatika.

Step 1 - Pertama, buat file urutan sampel, "example.fasta" dan letakkan konten di bawah ini ke dalamnya.

>sp|P25730|FMS1_ECOLI CS1 fimbrial subunit A precursor (CS1 pilin) 
MKLKKTIGAMALATLFATMGASAVEKTISVTASVDPTVDLLQSDGSALPNSVALTYSPAV
NNFEAHTINTVVHTNDSDKGVVVKLSADPVLSNVLNPTLQIPVSVNFAGKPLSTTGITID 
SNDLNFASSGVNKVSSTQKLSIHADATRVTGGALTAGQYQGLVSIILTKSTTTTTTTKGT 

>sp|P15488|FMS3_ECOLI CS3 fimbrial subunit A precursor (CS3 pilin) 
MLKIKYLLIGLSLSAMSSYSLAAAGPTLTKELALNVLSPAALDATWAPQDNLTLSNTGVS 
NTLVGVLTLSNTSIDTVSIASTNVSDTSKNGTVTFAHETNNSASFATTISTDNANITLDK 
NAGNTIVKTTNGSQLPTNLPLKFITTEGNEHLVSGNYRANITITSTIKGGGTKKGTTDKK

Ekstensi, fasta mengacu pada format file dari file sequence. FASTA berasal dari perangkat lunak bioinformatika, FASTA dan karenanya mendapatkan namanya. Format FASTA memiliki beberapa urutan yang disusun satu per satu dan setiap urutan akan memiliki id, nama, deskripsi dan data urutan sebenarnya.

Step 2 - Buat skrip python baru, * simple_example.py "dan masukkan kode di bawah ini dan simpan.

from Bio.SeqIO import parse 
from Bio.SeqRecord import SeqRecord 
from Bio.Seq import Seq 

file = open("example.fasta") 

records = parse(file, "fasta") for record in records:    
   print("Id: %s" % record.id) 
   print("Name: %s" % record.name) 
   print("Description: %s" % record.description) 
   print("Annotations: %s" % record.annotations) 
   print("Sequence Data: %s" % record.seq) 
   print("Sequence Alphabet: %s" % record.seq.alphabet)

Mari kita lihat lebih dalam kodenya -

Line 1mengimpor kelas parse yang tersedia di modul Bio.SeqIO. Modul Bio.SeqIO digunakan untuk membaca dan menulis file urutan dalam format yang berbeda dan kelas `parse 'digunakan untuk mengurai konten file urutan.

Line 2mengimpor kelas SeqRecord yang tersedia di modul Bio.SeqRecord. Modul ini digunakan untuk memanipulasi rekaman urutan dan kelas SeqRecord digunakan untuk mewakili urutan tertentu yang tersedia di file urutan.

*Line 3"impor kelas Seq tersedia dalam modul Bio.Seq. Modul ini digunakan untuk memanipulasi data urutan dan kelas Seq digunakan untuk mewakili data urutan dari catatan urutan tertentu yang tersedia di file urutan.

Line 5 membuka file "example.fasta" menggunakan fungsi python biasa, buka.

Line 7 mengurai konten file sequence dan mengembalikan konten sebagai daftar objek SeqRecord.

Line 9-15 loop di atas record menggunakan python for loop dan mencetak atribut dari sequence record (SqlRecord) seperti id, name, description, sequence data, dll.

Line 15 mencetak jenis urutan menggunakan kelas Alphabet.

Step 3 - Buka command prompt dan masuk ke folder yang berisi file sequence, “example.fasta” dan jalankan perintah di bawah ini -

> python simple_example.py

Step 4- Python menjalankan skrip dan mencetak semua data urutan yang tersedia di file contoh, "example.fasta". Outputnya akan serupa dengan konten berikut.

Id: sp|P25730|FMS1_ECOLI 
Name: sp|P25730|FMS1_ECOLI 
Decription: sp|P25730|FMS1_ECOLI CS1 fimbrial subunit A precursor (CS1 pilin) 
Annotations: {} 
Sequence Data: MKLKKTIGAMALATLFATMGASAVEKTISVTASVDPTVDLLQSDGSALPNSVALTYSPAVNNFEAHTINTVVHTNDSD
KGVVVKLSADPVLSNVLNPTLQIPVSVNFAGKPLSTTGITIDSNDLNFASSGVNKVSSTQKLSIHADATRVTGGALTA
GQYQGLVSIILTKSTTTTTTTKGT 
Sequence Alphabet: SingleLetterAlphabet() 
Id: sp|P15488|FMS3_ECOLI 
Name: sp|P15488|FMS3_ECOLI 
Decription: sp|P15488|FMS3_ECOLI CS3 fimbrial subunit A precursor (CS3 pilin) 
Annotations: {} 
Sequence Data: MLKIKYLLIGLSLSAMSSYSLAAAGPTLTKELALNVLSPAALDATWAPQDNLTLSNTGVSNTLVGVLTLSNTSIDTVS
IASTNVSDTSKNGTVTFAHETNNSASFATTISTDNANITLDKNAGNTIVKTTNGSQLPTNLPLKFITTEGNEHLVSGN
YRANITITSTIKGGGTKKGTTDKK 
Sequence Alphabet: SingleLetterAlphabet()

Kami telah melihat tiga kelas, parse, SeqRecord dan Seq dalam contoh ini. Ketiga kelas ini menyediakan sebagian besar fungsionalitas dan kita akan mempelajari kelas-kelas itu di bagian selanjutnya.