DeepVariantはどのようにしてDNA配列からRGB画像を構築しますか？

Aug 19 2020

DeepVariantは、DNAシーケンシングデータから遺伝的変異を呼び出すパイプラインです。

CNNに情報を提供する前の主要なステップは、これらのDNA配列を画像に変換することです。GoogleがDNAデータからRGB画像を構築する理由と方法は不明です。明らかに、DNAは文字が{A、T、C、G}のアルファベット上の文字列です。

単体テストのソースコードに基づいてマッピングがどのように機能するかを理解することはさらに困難です。

論文からの彼らの図では、Aは赤、Cは緑、Gは青、Tは黄色（G + R）ですが、これは彼らがどのように3xNxN画像を構成するかはまだ不明です。

グーグルのブログから編集：

この記事では、6つのチャネルを続けて示しますが、DeepVariantでは、3次元で6つのレイヤーとしてエンコードされ、各テンソルに（高さ、幅、チャネル）に対応する（100、221、6）の形状を与えます。問題のバリアントは常に各パイルアップ画像の中央にあり、ここでは上部に小さな線でマークされています。

チャネルは、以下の順序でグレースケールで表示されます。

基数の読み取り：異なる強度はA、C、G、およびTを表します。

基本品質：シーケンスマシンによって設定されます。白は高品質です。

マッピング品質：アライナーによって設定されます。白は高品質です。

整列のストランド：黒は前方です。白は逆です。

読み取りはバリアントをサポートします：白は読み取りが特定の代替対立遺伝子をサポートすることを意味し、灰色はサポートしないことを意味します。

ベースが参照と異なる：白はベースが参照と異なることを意味し、濃い灰色はベースが参照と一致することを意味します。

回答

1 SmallChess Aug 26 2020 at 07:03

実際、この論文は彼らがそれをどのように行ったかを明らかにしています。補足資料を詳しく読む必要があります。

論文の図では、Aは赤、Cは緑、Gは青、Tは黄色（G + R）ですが、3xNxNの画像がどのようになっているのかはまだ不明です。

RGBでは、各次元はNxN画像です。3次元があるので、3xNxNです。赤い次元はヌクレオチド塩基をコード化するために使用されました。緑のディメンションは、品質スコアをエンコードするために使用されました。最後に、青色の寸法を使用してストランド情報をエンコードしました。

明らかに、DNAは文字が{A、T、C、G}のアルファベット上の文字列です。

かんたんだよ。たくさんの方法があります。ワンホットエンコーディングまたはDeepVariantが使用したものを実行できます。