Biopython - Einführung

Biopython ist das größte und beliebteste Bioinformatik-Paket für Python. Es enthält eine Reihe verschiedener Untermodule für allgemeine Bioinformatikaufgaben. Es wird von Chapman und Chang entwickelt und hauptsächlich in Python geschrieben. Es enthält auch C-Code zur Optimierung des komplexen Berechnungsteils der Software. Es läuft unter Windows, Linux, Mac OS X usw.

Grundsätzlich handelt es sich bei Biopython um eine Sammlung von Python-Modulen, die Funktionen für DNA-, RNA- und Proteinsequenzoperationen wie die umgekehrte Komplementierung eines DNA-Strings, das Auffinden von Motiven in Proteinsequenzen usw. bereitstellen. Es bietet viele Parser zum Lesen aller wichtigen genetischen Datenbanken wie GenBank, SwissPort, FASTA usw. sowie Wrapper / Interfaces zum Ausführen anderer beliebter Bioinformatik-Software / -Tools wie NCBI BLASTN, Entrez usw. in der Python-Umgebung. Es hat Geschwisterprojekte wie BioPerl, BioJava und BioRuby.

Eigenschaften

Biopython ist portabel, klar und hat eine leicht zu erlernende Syntax. Einige der wichtigsten Merkmale sind unten aufgeführt -

Interpretiert, interaktiv und objektorientiert.
Unterstützt die Formate FASTA, PDB, GenBank, Blast, SCOP, PubMed / Medline und ExPASy.
Option zum Umgang mit Sequenzformaten.
Werkzeuge zur Verwaltung von Proteinstrukturen.
BioSQL - Standardsatz von SQL-Tabellen zum Speichern von Sequenzen sowie Funktionen und Anmerkungen.
Zugriff auf Online-Dienste und Datenbanken, einschließlich NCBI-Dienste (Blast, Entrez, PubMed) und ExPASY-Dienste (SwissProt, Prosite).
Zugang zu lokalen Diensten, einschließlich Blast, Clustalw, EMBOSS.

Tore

Das Ziel von Biopython ist es, einen einfachen, standardmäßigen und umfassenden Zugang zur Bioinformatik über die Python-Sprache zu ermöglichen. Die spezifischen Ziele des Biopython sind unten aufgeführt -

Bereitstellung eines standardisierten Zugangs zu Bioinformatik-Ressourcen.
Hochwertige, wiederverwendbare Module und Skripte.
Schnelle Array-Manipulation, die in Cluster-Code, PDB, NaiveBayes und Markov-Modell verwendet werden kann.
Genomische Datenanalyse.

Vorteile

Biopython benötigt sehr wenig Code und bietet die folgenden Vorteile:

Bietet einen Microarray-Datentyp, der beim Clustering verwendet wird.
Liest und schreibt Dateien vom Typ Tree-View.
Unterstützt Strukturdaten, die zum Parsen, Darstellen und Analysieren von PDBs verwendet werden.
Unterstützt Journaldaten, die in Medline-Anwendungen verwendet werden.
Unterstützt die BioSQL-Datenbank, die in allen Bioinformatik-Projekten als Standarddatenbank weit verbreitet ist.
Unterstützt die Parserentwicklung durch Bereitstellung von Modulen zum Parsen einer Bioinformatikdatei in ein formatspezifisches Datensatzobjekt oder eine generische Klasse von Sequenzen plus Funktionen.
Klare Dokumentation basierend auf dem Kochbuchstil.

Beispielfallstudie

Lassen Sie uns einige Anwendungsfälle (Populationsgenetik, RNA-Struktur usw.) überprüfen und versuchen zu verstehen, wie Biopython in diesem Bereich eine wichtige Rolle spielt -

Populationsgenetik

Populationsgenetik ist die Untersuchung der genetischen Variation innerhalb einer Population und beinhaltet die Untersuchung und Modellierung von Veränderungen in der Häufigkeit von Genen und Allelen in Populationen über Raum und Zeit.

Biopython bietet das Bio.PopGen-Modul für die Populationsgenetik. Dieses Modul enthält alle notwendigen Funktionen, um Informationen über die klassische Populationsgenetik zu sammeln.

RNA-Struktur

Drei wichtige biologische Makromoleküle, die für unser Leben essentiell sind, sind DNA, RNA und Protein. Proteine sind die Arbeitspferde der Zelle und spielen als Enzyme eine wichtige Rolle. DNA (Desoxyribonukleinsäure) wird als „Blaupause“ der Zelle angesehen. Es enthält alle genetischen Informationen, die erforderlich sind, damit die Zelle wächst, Nährstoffe aufnimmt und sich vermehrt. RNA (Ribonukleinsäure) fungiert als "DNA-Fotokopie" in der Zelle.

Biopython bietet Bio.Sequence-Objekte, die Nukleotide, Bausteine von DNA und RNA darstellen.