Isso é causalidade?

Aug 24 2020

Considere a seguinte distribuição conjunta para as variáveis ​​aleatórias$A$e$B$:

$$ \begin{array} {|r|r|}\hline & B=1 & B=2 \\ \hline A=1 & 49\% & 1\% \\ \hline A=2 & 49\% & 1\% \\ \hline \end{array}$$

Intuitivamente,

  • se eu conheço A, posso prever muito bem B (98% de precisão!)
  • mas se eu conheço B, não posso dizer nada sobre A

Perguntas:

  • podemos dizer que A causa B?
  • se sim, qual é a maneira matemática de concluir que A causa B?

obrigada! (e desculpas pela pergunta talvez "ingênua")

Respostas

30 RobertLong Aug 24 2020 at 14:11

podemos dizer que A causa B?

Não, este é (presumivelmente) um estudo observacional simples. Para inferir a causalidade é necessário (mas não necessariamente suficiente) realizar um experimento ou um ensaio controlado.

Só porque você é capaz de fazer boas previsões não diz nada sobre causalidade. Se eu observar o número de pessoas que carregam isqueiros, isso irá prever o número de pessoas com diagnóstico de câncer, mas isso não significa que carregar um isqueiro cause câncer.


Edit: Para abordar um dos pontos nos comentários:

Mas agora eu me pergunto: pode haver causalidade sem correlação?

Sim. Isso pode acontecer de várias maneiras. Um dos mais fáceis de demonstrar é onde a relação causal não é linear. Por exemplo:

> X <- 1:20
> Y <- 21*X - X^2
> cor(X,Y)
[1] 0

Claramente Yé causado por X, mas a correlação é zero.

17 pzivich Aug 24 2020 at 19:18

Ambas as respostas anteriores são boas, mas quero mergulhar um pouco mais nas ervas daninhas dessa questão. Portanto, sabemos que correlação não é causalidade, mas correlação também não é causalidade. Então, quando podemos dizer que correlação é causalidade ? Infelizmente, os próprios dados nunca podem nos dizer isso, só podemos chegar a isso impondo suposições sobre os dados.

Exemplo simples: vou usar gráficos acíclicos direcionados (DAGs), pois eles codificam graficamente as suposições. Vamos nos concentrar em três variáveis:$A$,$B$, e$U$(você pode estender isso para mais, mas os conceitos básicos permanecem os mesmos).$U$é alguma variável que não tivemos a oportunidade de coletar. Cada seta no DAG indica uma relação causal, com a direção da seta indicando o que causa o quê. Para três variáveis ​​(e a restrição de ordem), a seguir estão alguns DAGs possíveis que resultarão em uma correlação entre$A$e$B$:

Correlação é causalidade apenas em DAGs numerados 1, 2 e 3; que requer apelar para o conhecimento externo (embora 3 seja complicado, pois$U$sendo uma causa comum de ambos$A$e$B$pode inverter a relação da verdadeira direção causal, por exemplo$A$é protetor de$B$na realidade mas$U$faz com que pareça prejudicial).

Uma maneira de determinar se a correlação é consistente com a causalidade é se conduzirmos um experimento aleatório. Se não randomizássemos com base em$U$e$B$foi medido depois$A$foi randomizado, então sabemos que uma flecha de$U$para$A$e$B$para$A$são implausíveis. Portanto, podemos dizer que a correlação é causalidade. Alternativamente, talvez tenhamos algum conhecimento do assunto sobre o tópico de$A$e$B$que diz que não há causas comuns (improvável na realidade, mas este é apenas um exemplo), da mesma forma, podemos dizer que correlação é causalidade.

A parte importante é que as suposições usadas para afirmar que a correlação é causalidade são apoiadas por conhecimento externo. Como e exatamente qual conhecimento externo é necessário é uma questão importante.

Conclusão: Há uma variedade de estruturas e suposições formais que podem ser usadas para afirmar que uma certa correlação é causalidade. A parte principal é que os dados por si só não podem dizer se uma correlação é ou não causalidade. Algumas suposições ou procedimentos externos devem ser aplicados para distinguir correlações não causais de correlações causais.

À parte: Quanto ao meu exemplo de um cenário com causalidade, mas sem correlação, supõe-se que os DAGs sejam fiéis. Isso basicamente significa que não ocorrem cancelamentos perfeitos (todos os efeitos causais individuais não se cancelam perfeitamente para resultar em nenhum efeito causal médio). Por causa disso, é um pouco mais complicado afirmar que nenhuma correlação significa nenhuma causalidade.

8 StatsStudent Aug 24 2020 at 14:10

Não, você não pode dizer que A causa B. A tabela que você tem descreve apenas associações entre A e B. Mesmo que você saiba que A previu B com precisão uma grande porcentagem do tempo, isso não implica que A cause B. Pode, de fato, pode ser que A cause alguma outra variável de confusão C, que é altamente correlacionada com B.

1 Acccumulation Aug 25 2020 at 01:23
  1. A previsão significa que a entropia é reduzida. Ou seja, se A prediz B, então a entropia da distribuição de B é maior que a entropia da distribuição B condicionada em A.

  2. A previsão é simétrica. Se A prevê B, então B prevê A (exceto casos degenerados).

  3. A causalidade não é simétrica. Causalidade refere-se a uma relação assimétrica entre dois eventos. Portanto, segue-se que a previsão não significa causalidade.

  4. No caso que você apresenta, A e B não se prevêem. Embora a entropia de B dado A seja baixa, é igualmente baixa sem conhecer A.