Biopython - Wprowadzenie
Biopython to największy i najpopularniejszy pakiet bioinformatyczny dla Pythona. Zawiera szereg różnych podmodułów do typowych zadań bioinformatycznych. Został opracowany przez Chapmana i Changa, głównie w języku Python. Zawiera również kod C do optymalizacji złożonej części obliczeniowej oprogramowania. Działa w systemach Windows, Linux, Mac OS X itp.
Zasadniczo Biopython jest zbiorem modułów Pythona, które zapewniają funkcje do obsługi sekwencji DNA, RNA i białek, takich jak odwrotne uzupełnianie ciągu DNA, znajdowanie motywów w sekwencjach białek itp. Zapewnia wiele parserów do odczytu wszystkich głównych genetycznych baz danych. jak GenBank, SwissPort, FASTA itp., a także otoki / interfejsy do uruchamiania innych popularnych programów / narzędzi bioinformatycznych, takich jak NCBI BLASTN, Entrez itp., w środowisku Pythona. Ma podobne projekty, takie jak BioPerl, BioJava i BioRuby.
cechy
Biopython jest przenośny, przejrzysty i ma łatwą do nauczenia składnię. Poniżej wymieniono niektóre z najważniejszych funkcji -
Interpretowane, interaktywne i obiektowe.
Obsługuje formaty powiązane z FASTA, PDB, GenBank, Blast, SCOP, PubMed / Medline, ExPASy.
Możliwość radzenia sobie z formatami sekwencji.
Narzędzia do zarządzania strukturami białek.
BioSQL - standardowy zestaw tabel SQL do przechowywania sekwencji oraz funkcji i adnotacji.
Dostęp do usług i baz danych online, w tym usług NCBI (Blast, Entrez, PubMed) i usług ExPASY (SwissProt, Prosite).
Dostęp do usług lokalnych, w tym Blast, Clustalw, EMBOSS.
Cele
Celem Biopython jest zapewnienie prostego, standardowego i szerokiego dostępu do bioinformatyki za pośrednictwem języka Python. Konkretne cele Biopythonu są wymienione poniżej -
Zapewnienie ustandaryzowanego dostępu do zasobów bioinformatycznych.
Wysokiej jakości moduły i skrypty wielokrotnego użytku.
Szybkie manipulowanie tablicami, które można wykorzystać w kodzie klastra, PDB, NaiveBayes i modelu Markov.
Analiza danych genomowych.
Zalety
Biopython wymaga bardzo mniej kodu i ma następujące zalety -
Zapewnia typ danych mikromacierzy używany w klastrowaniu.
Odczytuje i zapisuje pliki typu Tree-View.
Obsługuje dane strukturalne używane do analizowania, reprezentacji i analizy PDB.
Obsługuje dane dziennika używane w aplikacjach Medline.
Obsługuje bazę danych BioSQL, która jest powszechnie używaną standardową bazą danych we wszystkich projektach bioinformatycznych.
Obsługuje rozwój analizatora składni, dostarczając moduły do analizowania pliku bioinformatycznego do obiektu rekordu określonego formatu lub ogólnej klasy sekwencji i funkcji.
Przejrzysta dokumentacja oparta na stylu książki kucharskiej.
Przykładowe studium przypadku
Sprawdźmy niektóre przypadki użycia (genetyka populacji, struktura RNA itp.) I spróbujmy zrozumieć, jak Biopython odgrywa ważną rolę w tej dziedzinie -
Genetyka populacji
Genetyka populacji to badanie zmienności genetycznej w populacji i obejmuje badanie i modelowanie zmian w częstości występowania genów i alleli w populacji w czasie i przestrzeni.
Biopython dostarcza moduł Bio.PopGen do genetyki populacyjnej. Ten moduł zawiera wszystkie niezbędne funkcje do zbierania informacji o klasycznej genetyce populacji.
Struktura RNA
Trzy główne makrocząsteczki biologiczne, które są niezbędne dla naszego życia, to DNA, RNA i Białko. Białka są końmi roboczymi komórki i odgrywają ważną rolę jako enzymy. DNA (kwas dezoksyrybonukleinowy) jest uważany za „plan” komórki. Zawiera wszystkie informacje genetyczne potrzebne komórce do wzrostu, pobierania składników odżywczych i rozmnażania. RNA (kwas rybonukleinowy) działa jako „fotokopia DNA” w komórce.
Biopython dostarcza obiekty Bio.Sequence, które reprezentują nukleotydy, elementy składowe DNA i RNA.