Biopython - บทนำ

Biopython เป็นแพ็คเกจชีวสารสนเทศศาสตร์ที่ใหญ่ที่สุดและเป็นที่นิยมมากที่สุดสำหรับ Python ประกอบด้วยโมดูลย่อยที่แตกต่างกันจำนวนมากสำหรับงานชีวสารสนเทศศาสตร์ทั่วไป ได้รับการพัฒนาโดย Chapman และ Chang ส่วนใหญ่เขียนด้วยภาษา Python นอกจากนี้ยังมีรหัส C เพื่อเพิ่มประสิทธิภาพส่วนการคำนวณที่ซับซ้อนของซอฟต์แวร์ ทำงานบน Windows, Linux, Mac OS X ฯลฯ

โดยพื้นฐานแล้ว Biopython คือชุดของโมดูล python ที่มีฟังก์ชันในการจัดการกับการดำเนินการตามลำดับ DNA, RNA และโปรตีนเช่นการเสริมสาย DNA แบบย้อนกลับการค้นหา motifs ในลำดับโปรตีนเป็นต้นซึ่งมีตัววิเคราะห์จำนวนมากเพื่ออ่านฐานข้อมูลทางพันธุกรรมที่สำคัญ เช่น GenBank, SwissPort, FASTA และอื่น ๆ รวมถึงเครื่องห่อ / อินเทอร์เฟซเพื่อเรียกใช้ซอฟต์แวร์ / เครื่องมือชีวสารสนเทศยอดนิยมอื่น ๆ เช่น NCBI BLASTN, Entrez ฯลฯ ภายในสภาพแวดล้อม python มีโครงการพี่น้องเช่น BioPerl, BioJava และ BioRuby

คุณสมบัติ

Biopython เป็นแบบพกพาชัดเจนและง่ายต่อการเรียนรู้ไวยากรณ์ คุณสมบัติเด่นบางประการมีดังต่อไปนี้ -

  • ตีความโต้ตอบและเชิงวัตถุ

  • รองรับ FASTA, PDB, GenBank, Blast, SCOP, PubMed / Medline, ExPASy ที่เกี่ยวข้องกับรูปแบบ

  • ตัวเลือกในการจัดการกับรูปแบบลำดับ

  • เครื่องมือในการจัดการโครงสร้างโปรตีน

  • BioSQL - ชุดตาราง SQL มาตรฐานสำหรับจัดเก็บลำดับพร้อมคุณสมบัติและคำอธิบายประกอบ

  • เข้าถึงบริการออนไลน์และฐานข้อมูลรวมถึงบริการ NCBI (Blast, Entrez, PubMed) และบริการ ExPASY (SwissProt, Prosite)

  • เข้าถึงบริการในพื้นที่ ได้แก่ Blast, Clustalw, EMBOSS

เป้าหมาย

เป้าหมายของ Biopython คือการให้การเข้าถึงข้อมูลทางชีวสารสนเทศที่เรียบง่ายเป็นมาตรฐานและกว้างขวางผ่านภาษา Python เป้าหมายเฉพาะของ Biopython มีดังต่อไปนี้ -

  • ให้การเข้าถึงแหล่งข้อมูลชีวสารสนเทศที่เป็นมาตรฐาน

  • โมดูลและสคริปต์ที่ใช้ซ้ำได้คุณภาพสูง

  • การจัดการอาร์เรย์อย่างรวดเร็วที่สามารถใช้ใน Cluster code, PDB, NaiveBayes และ Markov Model

  • การวิเคราะห์ข้อมูลจีโนม

ข้อดี

Biopython ต้องการรหัสน้อยมากและมีข้อดีดังต่อไปนี้ -

  • จัดเตรียมประเภทข้อมูล microarray ที่ใช้ในการทำคลัสเตอร์

  • อ่านและเขียนไฟล์ประเภท Tree-View

  • รองรับข้อมูลโครงสร้างที่ใช้สำหรับการแยกวิเคราะห์การเป็นตัวแทนและการวิเคราะห์ PDB

  • รองรับข้อมูลวารสารที่ใช้ในแอปพลิเคชัน Medline

  • รองรับฐานข้อมูล BioSQL ซึ่งเป็นฐานข้อมูลมาตรฐานที่ใช้กันอย่างแพร่หลายในบรรดาโครงการชีวสารสนเทศศาสตร์ทั้งหมด

  • รองรับการพัฒนาตัวแยกวิเคราะห์โดยจัดเตรียมโมดูลเพื่อแยกวิเคราะห์ไฟล์ชีวสารสนเทศในรูปแบบวัตถุบันทึกเฉพาะหรือคลาสทั่วไปของลำดับและคุณสมบัติ

  • ล้างเอกสารตามสไตล์ตำราอาหาร

กรณีศึกษาตัวอย่าง

ให้เราตรวจสอบบางกรณีการใช้งาน (พันธุศาสตร์ประชากรโครงสร้าง RNA ฯลฯ ) และพยายามทำความเข้าใจว่า Biopython มีบทบาทสำคัญอย่างไรในสาขานี้ -

พันธุศาสตร์ประชากร

พันธุศาสตร์ประชากรคือการศึกษาการเปลี่ยนแปลงทางพันธุกรรมภายในประชากรและเกี่ยวข้องกับการตรวจสอบและการสร้างแบบจำลองของการเปลี่ยนแปลงความถี่ของยีนและอัลลีลในประชากรในอวกาศและเวลา

Biopython มีโมดูล Bio.PopGen สำหรับพันธุศาสตร์ประชากร โมดูลนี้ประกอบด้วยฟังก์ชันที่จำเป็นทั้งหมดในการรวบรวมข้อมูลเกี่ยวกับพันธุศาสตร์ประชากรแบบคลาสสิก

โครงสร้าง RNA

โมเลกุลขนาดใหญ่ทางชีววิทยา 3 ชนิดที่จำเป็นต่อชีวิตของเรา ได้แก่ DNA, RNA และ Protein โปรตีนเป็นส่วนสำคัญของเซลล์และมีบทบาทสำคัญในฐานะเอนไซม์ DNA (deoxyribonucleic acid) ถือเป็น“ พิมพ์เขียว” ของเซลล์ มีข้อมูลทางพันธุกรรมทั้งหมดที่จำเป็นสำหรับเซลล์ในการเจริญเติบโตรับสารอาหารและขยายพันธุ์ RNA (กรดไรโบนิวคลีอิก) ทำหน้าที่เป็น "การถ่ายเอกสารดีเอ็นเอ" ในเซลล์

Biopython จัดเตรียมวัตถุ Bio.Sequence ที่แสดงถึงนิวคลีโอไทด์การสร้าง DNA และ RNA