これは因果関係ですか?
確率変数について、次の同時分布を検討してください $A$ そして $B$:
$$ \begin{array} {|r|r|}\hline & B=1 & B=2 \\ \hline A=1 & 49\% & 1\% \\ \hline A=2 & 49\% & 1\% \\ \hline \end{array}$$
直感的に、
- Aを知っていれば、Bを非常によく予測できます(98%の精度!)
- でもBを知っていればAについては何も言えない
質問:
- AがBを引き起こすと言えますか?
- はいの場合、AがBを引き起こすと結論付ける数学的な方法は何ですか?
ありがとうございました!(そしておそらく「ナイーブ」な質問についてお詫びします)
回答
AがBを引き起こすと言えますか?
いいえ、これは(おそらく)単純な観察研究です。原因を推測するには、実験または対照試験を実施する必要があります(必ずしも十分ではありません)。
あなたが良い予測をすることができるという理由だけで、因果関係については何も言いません。自動車用電源ソケットを持っている人の数を観察すると、これは癌と診断された人の数を予測しますが、ライターを持っていることが癌を引き起こすという意味ではありません。
編集:コメントのポイントの1つに対処するには:
しかし今、私は疑問に思います:相関関係のない因果関係はあり得ますか?
はい。これはさまざまな方法で発生する可能性があります。実証するのが最も簡単なものの1つは、因果関係が線形ではない場合です。例えば:
> X <- 1:20
> Y <- 21*X - X^2
> cor(X,Y)
[1] 0
明らかY
にによって引き起こされX
ますが、相関はゼロです。
前の答えは両方とも良いですが、私はこの質問の雑草にもう少し飛び込みたいと思います。したがって、相関関係は因果関係ではありませんが、相関関係も因果関係ではありません。それで、いつ相関関係が因果関係であると言うことができますか。残念ながら、データ自体がこれを知ることはできません。データに仮定を課すことによってのみ、これに到達することができます。
簡単な例:仮定をグラフィカルにエンコードするため、有向非巡回グラフ(DAG)を使用します。3つの変数に焦点を当てましょう:$A$、 $B$、および $U$ (これをさらに拡張することはできますが、基本的な概念は同じです)。 $U$収集する機会がなかった変数です。DAGの各矢印は因果関係を示し、矢印の方向は何が何を引き起こしているのかを示します。3つの変数(および順序の制限)について、以下は、間の相関関係をもたらす可能性のあるいくつかのDAGです。$A$ そして $B$:

相関関係は、1、2、および3の番号が付けられたDAGのみの原因です。これには外部の知識にアピールする必要があります(ただし、3は$U$ 両方の一般的な原因である $A$ そして $B$ 真の因果関係から関係を反転させることができます。 $A$ から保護されています $B$ 実際にはしかし $U$ 有害に見える)。
相関関係が因果関係と一致しているかどうかを判断する1つの方法は、ランダム化実験を行ったかどうかです。に基づいてランダム化しなかった場合$U$ そして $B$ 後に測定された $A$ ランダム化された場合、からの矢印が $U$ に $A$ そして $B$ に $A$信じられないです。したがって、相関関係は因果関係であると言えます。あるいは、多分私達はのトピックに関するいくつかの主題の知識を持っています$A$ そして $B$つまり、一般的な原因はありません(実際にはありそうにありませんが、これは単なる例です)。同様に、相関関係は因果関係であると言えます。
重要な部分は、相関関係を主張するために使用される仮定が因果関係であるということは、外部の知識によってサポートされているということです。どのようにそして正確に外部の知識が必要かは重要な問題です。
結論:特定の相関関係が因果関係であると主張するために使用できるさまざまなフレームワークと正式な仮定があります。重要な部分は、データだけでは、相関関係が因果関係であるかどうかを判断できないことです。非因果相関と因果相関を区別するために、いくつかの外部の仮定または手順を適用する必要があります。
余談ですが、因果関係はあるが相関関係がないシナリオの私の例では、DAGは忠実であると想定されています。これは基本的に、完全なキャンセルが発生しないことを意味します(個々の因果効果がすべて完全にキャンセルされるわけではなく、平均的な因果効果は発生しません)。このため、相関関係がないということは因果関係がないということを主張するのは少し難しいです。
いいえ、AがBを引き起こすとは言えません。あなたが持っている表はAとBの間の関連のみを説明しています。AがBを正確に予測したことを知っていても、AがBを引き起こすことを意味するわけではありません。 Aは、Bと高度に相関する他の交絡変数Cを発生させます。
予測とは、エントロピーが減少することを意味します。つまり、AがBを予測する場合、Bの分布のエントロピーは、Aを条件とする分布Bのエントロピーよりも大きくなります。
予測は対称的です。AがBを予測する場合、BはAを予測します(退化したケースを除く)。
原因は対称的ではありません。因果関係とは、2つのイベント間の非対称的な関係を指します。したがって、予測は因果関係を意味するものではありません。
あなたが提示する場合、AとBはお互いを予測しません。Aが与えられた場合のBのエントロピーは低いですが、Aを知らなくても同じように低くなります。