Biopython - Wprowadzenie

Biopython to największy i najpopularniejszy pakiet bioinformatyczny dla Pythona. Zawiera szereg różnych podmodułów do typowych zadań bioinformatycznych. Został opracowany przez Chapmana i Changa, głównie w języku Python. Zawiera również kod C do optymalizacji złożonej części obliczeniowej oprogramowania. Działa w systemach Windows, Linux, Mac OS X itp.

Zasadniczo Biopython jest zbiorem modułów Pythona, które zapewniają funkcje do obsługi sekwencji DNA, RNA i białek, takich jak odwrotne uzupełnianie ciągu DNA, znajdowanie motywów w sekwencjach białek itp. Zapewnia wiele parserów do odczytu wszystkich głównych genetycznych baz danych. jak GenBank, SwissPort, FASTA itp., a także otoki / interfejsy do uruchamiania innych popularnych programów / narzędzi bioinformatycznych, takich jak NCBI BLASTN, Entrez itp., w środowisku Pythona. Ma podobne projekty, takie jak BioPerl, BioJava i BioRuby.

cechy

Biopython jest przenośny, przejrzysty i ma łatwą do nauczenia składnię. Poniżej wymieniono niektóre z najważniejszych funkcji -

  • Interpretowane, interaktywne i obiektowe.

  • Obsługuje formaty powiązane z FASTA, PDB, GenBank, Blast, SCOP, PubMed / Medline, ExPASy.

  • Możliwość radzenia sobie z formatami sekwencji.

  • Narzędzia do zarządzania strukturami białek.

  • BioSQL - standardowy zestaw tabel SQL do przechowywania sekwencji oraz funkcji i adnotacji.

  • Dostęp do usług i baz danych online, w tym usług NCBI (Blast, Entrez, PubMed) i usług ExPASY (SwissProt, Prosite).

  • Dostęp do usług lokalnych, w tym Blast, Clustalw, EMBOSS.

Cele

Celem Biopython jest zapewnienie prostego, standardowego i szerokiego dostępu do bioinformatyki za pośrednictwem języka Python. Konkretne cele Biopythonu są wymienione poniżej -

  • Zapewnienie ustandaryzowanego dostępu do zasobów bioinformatycznych.

  • Wysokiej jakości moduły i skrypty wielokrotnego użytku.

  • Szybkie manipulowanie tablicami, które można wykorzystać w kodzie klastra, PDB, NaiveBayes i modelu Markov.

  • Analiza danych genomowych.

Zalety

Biopython wymaga bardzo mniej kodu i ma następujące zalety -

  • Zapewnia typ danych mikromacierzy używany w klastrowaniu.

  • Odczytuje i zapisuje pliki typu Tree-View.

  • Obsługuje dane strukturalne używane do analizowania, reprezentacji i analizy PDB.

  • Obsługuje dane dziennika używane w aplikacjach Medline.

  • Obsługuje bazę danych BioSQL, która jest powszechnie używaną standardową bazą danych we wszystkich projektach bioinformatycznych.

  • Obsługuje rozwój analizatora składni, dostarczając moduły do ​​analizowania pliku bioinformatycznego do obiektu rekordu określonego formatu lub ogólnej klasy sekwencji i funkcji.

  • Przejrzysta dokumentacja oparta na stylu książki kucharskiej.

Przykładowe studium przypadku

Sprawdźmy niektóre przypadki użycia (genetyka populacji, struktura RNA itp.) I spróbujmy zrozumieć, jak Biopython odgrywa ważną rolę w tej dziedzinie -

Genetyka populacji

Genetyka populacji to badanie zmienności genetycznej w populacji i obejmuje badanie i modelowanie zmian w częstości występowania genów i alleli w populacji w czasie i przestrzeni.

Biopython dostarcza moduł Bio.PopGen do genetyki populacyjnej. Ten moduł zawiera wszystkie niezbędne funkcje do zbierania informacji o klasycznej genetyce populacji.

Struktura RNA

Trzy główne makrocząsteczki biologiczne, które są niezbędne dla naszego życia, to DNA, RNA i Białko. Białka są końmi roboczymi komórki i odgrywają ważną rolę jako enzymy. DNA (kwas dezoksyrybonukleinowy) jest uważany za „plan” komórki. Zawiera wszystkie informacje genetyczne potrzebne komórce do wzrostu, pobierania składników odżywczych i rozmnażania. RNA (kwas rybonukleinowy) działa jako „fotokopia DNA” w komórce.

Biopython dostarcza obiekty Bio.Sequence, które reprezentują nukleotydy, elementy składowe DNA i RNA.