Biopython-はじめに
Biopythonは、Python用の最大かつ最も人気のあるバイオインフォマティクスパッケージです。これには、一般的なバイオインフォマティクスタスク用のさまざまなサブモジュールが含まれています。これはChapmanとChangによって開発され、主にPythonで記述されています。また、ソフトウェアの複雑な計算部分を最適化するためのCコードも含まれています。Windows、Linux、Mac OSXなどで動作します。
基本的に、Biopythonは、DNAストリングの逆補完、タンパク質配列内のモチーフの検索など、DNA、RNA、およびタンパク質配列の操作を処理する機能を提供するPythonモジュールのコレクションです。これは、すべての主要な遺伝子データベースを読み取るための多くのパーサーを提供します。 GenBank、SwissPort、FASTAなどのほか、Python環境内でNCBI BLASTN、Entrezなどの他の一般的なバイオインフォマティクスソフトウェア/ツールを実行するためのラッパー/インターフェイス。BioPerl、BioJava、BioRubyなどの兄弟プロジェクトがあります。
特徴
Biopythonは移植性があり、明確で、構文を簡単に習得できます。顕著な特徴のいくつかを以下に示します-
解釈され、インタラクティブで、オブジェクト指向。
FASTA、PDB、GenBank、Blast、SCOP、PubMed / Medline、ExPASy関連の形式をサポートします。
シーケンス形式を処理するオプション。
タンパク質構造を管理するためのツール。
BioSQL-シーケンスと機能および注釈を格納するためのSQLテーブルの標準セット。
NCBIサービス(Blast、Entrez、PubMed)およびExPASYサービス(SwissProt、Prosite)を含むオンラインサービスおよびデータベースへのアクセス。
Blast、Clustalw、EMBOSSなどのローカルサービスへのアクセス。
目標
Biopythonの目標は、Python言語を介して、バイオインフォマティクスへのシンプルで標準的かつ広範なアクセスを提供することです。Biopythonの具体的な目標は以下のとおりです-
バイオインフォマティクスリソースへの標準化されたアクセスを提供します。
高品質で再利用可能なモジュールとスクリプト。
クラスターコード、PDB、NaiveBayes、Markovモデルで使用できる高速配列操作。
ゲノムデータ分析。
利点
Biopythonは非常に少ないコードで済み、次の利点があります-
クラスタリングで使用されるマイクロアレイデータ型を提供します。
ツリービュータイプのファイルの読み取りと書き込み。
PDBの解析、表現、分析に使用される構造データをサポートします。
Medlineアプリケーションで使用されるジャーナルデータをサポートします。
すべてのバイオインフォマティクスプロジェクトで広く使用されている標準データベースであるBioSQLデータベースをサポートします。
バイオインフォマティクスファイルをフォーマット固有のレコードオブジェクトまたはシーケンスと機能の汎用クラスに解析するモジュールを提供することにより、パーサー開発をサポートします。
クックブックスタイルに基づいた明確なドキュメント。
サンプルケーススタディ
いくつかのユースケース(集団遺伝学、RNA構造など)を確認し、Biopythonがこの分野でどのように重要な役割を果たしているかを理解してみましょう-
集団遺伝学
集団遺伝学は、集団内の遺伝的変異の研究であり、空間と時間にわたる集団内の遺伝子と対立遺伝子の頻度の変化の調査とモデリングを含みます。
Biopythonは、集団遺伝学のためのBio.PopGenモジュールを提供します。このモジュールには、古典的な集団遺伝学に関する情報を収集するために必要なすべての機能が含まれています。
RNA構造
私たちの生活に欠かせない3つの主要な生体高分子は、DNA、RNA、タンパク質です。タンパク質は細胞の主力であり、酵素として重要な役割を果たしています。DNA(デオキシリボ核酸)は、細胞の「青写真」と見なされます。細胞が成長し、栄養素を取り込み、増殖するために必要なすべての遺伝情報を持っています。RNA(リボ核酸)は細胞内で「DNAコピー」として機能します。
Biopythonは、ヌクレオチド、DNAおよびRNAのビルディングブロックを表すBio.Sequenceオブジェクトを提供します。