差次的遺伝子発現分析後のヒートマップにおけるバッチ効果の除去
各グループの最初のレプリケートが1つのバッチで、2番目のレプリケートが2番目のバッチにあるデータセットに取り組んでいます。PCA
プロットを確認し、PC1でバッチ効果を確認した後removeBatchEffect
、limmaの関数を使用して、カウントデータからバッチ効果を減算しました。次に、PCAを使用すると、明らかなバッチ効果が残っていないように見えるプロットが得られます。ただし、差分遺伝子分析にはバッチ効果補正を使用せず、グループ変数とともにバッチ変数を使用してを作成することをお勧めしますmodel.matrix
。だから、私はそれをした、走ったlimma/voom
正規化されたカウントで、抽出された差次的に発現された遺伝子。ただし、DEGからヒートマップを作成しようとすると、同じサンプルの複製のクラスタリングではなく、異なるバッチのサンプルが個別にクラスタリングされていることがわかります。だから、私の質問はremoveBatchEffect
、DEGからのカウントデータを使用してから、変換されたデータセットをヒートマップに使用する必要があるのか、それともこれを修正する別の方法があるのかということです。
回答
DE分析の場合、元のカウントが変更されないように、数式にバッチを含める必要があることは確かです。それでも、ヒートマップのプロットなど、他のすべての場合、の使用removeBatchEffects
は完全に問題なく、(少なくとも私にとっては)標準的で広く受け入れられている手順です。ダウンストリームで使用するカウントのバッチ効果を修正するために何を使用するかは、基本的に重要ではありません。結果はおそらく似ているでしょう。Combat-Seq
svaパッケージからは、特にRNA-seq用のComBatの最近の適応であり、(私が理解していることから)データの整数カウントの性質をより適切に処理します。これは、生のカウントに動作し、両方で時々起こる悪名高い負の値回避limma
とをCombat
。ComBat-Seq
rawカウントを適用した後、通常どおりedgeR(または任意のツール)を使用してそれらを正規化し、ヒートマップを作成できます。見るhttps://github.com/zhangyuqing/ComBat-seq。DEの結果は、上記のように共変量としてバッチを使用する通常のDEパイプラインから取得する必要があります。