Biopython - บทนำ
Biopython เป็นแพ็คเกจชีวสารสนเทศศาสตร์ที่ใหญ่ที่สุดและเป็นที่นิยมมากที่สุดสำหรับ Python ประกอบด้วยโมดูลย่อยที่แตกต่างกันจำนวนมากสำหรับงานชีวสารสนเทศศาสตร์ทั่วไป ได้รับการพัฒนาโดย Chapman และ Chang ส่วนใหญ่เขียนด้วยภาษา Python นอกจากนี้ยังมีรหัส C เพื่อเพิ่มประสิทธิภาพส่วนการคำนวณที่ซับซ้อนของซอฟต์แวร์ ทำงานบน Windows, Linux, Mac OS X ฯลฯ
โดยพื้นฐานแล้ว Biopython คือชุดของโมดูล python ที่มีฟังก์ชันในการจัดการกับการดำเนินการตามลำดับ DNA, RNA และโปรตีนเช่นการเสริมสาย DNA แบบย้อนกลับการค้นหา motifs ในลำดับโปรตีนเป็นต้นซึ่งมีตัววิเคราะห์จำนวนมากเพื่ออ่านฐานข้อมูลทางพันธุกรรมที่สำคัญ เช่น GenBank, SwissPort, FASTA และอื่น ๆ รวมถึงเครื่องห่อ / อินเทอร์เฟซเพื่อเรียกใช้ซอฟต์แวร์ / เครื่องมือชีวสารสนเทศยอดนิยมอื่น ๆ เช่น NCBI BLASTN, Entrez ฯลฯ ภายในสภาพแวดล้อม python มีโครงการพี่น้องเช่น BioPerl, BioJava และ BioRuby
คุณสมบัติ
Biopython เป็นแบบพกพาชัดเจนและง่ายต่อการเรียนรู้ไวยากรณ์ คุณสมบัติเด่นบางประการมีดังต่อไปนี้ -
ตีความโต้ตอบและเชิงวัตถุ
รองรับ FASTA, PDB, GenBank, Blast, SCOP, PubMed / Medline, ExPASy ที่เกี่ยวข้องกับรูปแบบ
ตัวเลือกในการจัดการกับรูปแบบลำดับ
เครื่องมือในการจัดการโครงสร้างโปรตีน
BioSQL - ชุดตาราง SQL มาตรฐานสำหรับจัดเก็บลำดับพร้อมคุณสมบัติและคำอธิบายประกอบ
เข้าถึงบริการออนไลน์และฐานข้อมูลรวมถึงบริการ NCBI (Blast, Entrez, PubMed) และบริการ ExPASY (SwissProt, Prosite)
เข้าถึงบริการในพื้นที่ ได้แก่ Blast, Clustalw, EMBOSS
เป้าหมาย
เป้าหมายของ Biopython คือการให้การเข้าถึงข้อมูลทางชีวสารสนเทศที่เรียบง่ายเป็นมาตรฐานและกว้างขวางผ่านภาษา Python เป้าหมายเฉพาะของ Biopython มีดังต่อไปนี้ -
ให้การเข้าถึงแหล่งข้อมูลชีวสารสนเทศที่เป็นมาตรฐาน
โมดูลและสคริปต์ที่ใช้ซ้ำได้คุณภาพสูง
การจัดการอาร์เรย์อย่างรวดเร็วที่สามารถใช้ใน Cluster code, PDB, NaiveBayes และ Markov Model
การวิเคราะห์ข้อมูลจีโนม
ข้อดี
Biopython ต้องการรหัสน้อยมากและมีข้อดีดังต่อไปนี้ -
จัดเตรียมประเภทข้อมูล microarray ที่ใช้ในการทำคลัสเตอร์
อ่านและเขียนไฟล์ประเภท Tree-View
รองรับข้อมูลโครงสร้างที่ใช้สำหรับการแยกวิเคราะห์การเป็นตัวแทนและการวิเคราะห์ PDB
รองรับข้อมูลวารสารที่ใช้ในแอปพลิเคชัน Medline
รองรับฐานข้อมูล BioSQL ซึ่งเป็นฐานข้อมูลมาตรฐานที่ใช้กันอย่างแพร่หลายในบรรดาโครงการชีวสารสนเทศศาสตร์ทั้งหมด
รองรับการพัฒนาตัวแยกวิเคราะห์โดยจัดเตรียมโมดูลเพื่อแยกวิเคราะห์ไฟล์ชีวสารสนเทศในรูปแบบวัตถุบันทึกเฉพาะหรือคลาสทั่วไปของลำดับและคุณสมบัติ
ล้างเอกสารตามสไตล์ตำราอาหาร
กรณีศึกษาตัวอย่าง
ให้เราตรวจสอบบางกรณีการใช้งาน (พันธุศาสตร์ประชากรโครงสร้าง RNA ฯลฯ ) และพยายามทำความเข้าใจว่า Biopython มีบทบาทสำคัญอย่างไรในสาขานี้ -
พันธุศาสตร์ประชากร
พันธุศาสตร์ประชากรคือการศึกษาการเปลี่ยนแปลงทางพันธุกรรมภายในประชากรและเกี่ยวข้องกับการตรวจสอบและการสร้างแบบจำลองของการเปลี่ยนแปลงความถี่ของยีนและอัลลีลในประชากรในอวกาศและเวลา
Biopython มีโมดูล Bio.PopGen สำหรับพันธุศาสตร์ประชากร โมดูลนี้ประกอบด้วยฟังก์ชันที่จำเป็นทั้งหมดในการรวบรวมข้อมูลเกี่ยวกับพันธุศาสตร์ประชากรแบบคลาสสิก
โครงสร้าง RNA
โมเลกุลขนาดใหญ่ทางชีววิทยา 3 ชนิดที่จำเป็นต่อชีวิตของเรา ได้แก่ DNA, RNA และ Protein โปรตีนเป็นส่วนสำคัญของเซลล์และมีบทบาทสำคัญในฐานะเอนไซม์ DNA (deoxyribonucleic acid) ถือเป็น“ พิมพ์เขียว” ของเซลล์ มีข้อมูลทางพันธุกรรมทั้งหมดที่จำเป็นสำหรับเซลล์ในการเจริญเติบโตรับสารอาหารและขยายพันธุ์ RNA (กรดไรโบนิวคลีอิก) ทำหน้าที่เป็น "การถ่ายเอกสารดีเอ็นเอ" ในเซลล์
Biopython จัดเตรียมวัตถุ Bio.Sequence ที่แสดงถึงนิวคลีโอไทด์การสร้าง DNA และ RNA