¿Es esto causalidad?
Considere la siguiente distribución conjunta para las variables aleatorias$A$y$B$:
$$ \begin{array} {|r|r|}\hline & B=1 & B=2 \\ \hline A=1 & 49\% & 1\% \\ \hline A=2 & 49\% & 1\% \\ \hline \end{array}$$
Intuitivamente,
- si conozco A, puedo predecir muy bien B (¡98% de precisión!)
- pero si conozco a B, no puedo decir nada de A
Preguntas:
- ¿Podemos decir que A causa B?
- en caso afirmativo, ¿cuál es la forma matemática de concluir que A causa B?
¡gracias! (y disculpas por la pregunta quizás "ingenua")
Respuestas
¿Podemos decir que A causa B?
No, esto es (presumiblemente) un simple estudio observacional. Para inferir causalidad es necesario (pero no necesariamente suficiente) realizar un experimento o un ensayo controlado.
El hecho de que pueda hacer buenas predicciones no dice nada sobre la causalidad. Si observo la cantidad de personas que llevan encendedores de cigarrillos, esto predecirá la cantidad de personas que tienen un diagnóstico de cáncer, pero eso no significa que llevar un encendedor provoque cáncer.
Editar: para abordar uno de los puntos en los comentarios:
Pero ahora me pregunto: ¿puede haber causalidad sin correlación?
Sí. Esto puede suceder de varias maneras. Uno de los más fáciles de demostrar es donde la relación causal no es lineal. Por ejemplo:
> X <- 1:20
> Y <- 21*X - X^2
> cor(X,Y)
[1] 0
Claramente Yes causado por X, pero la correlación es cero.
Las dos respuestas anteriores son buenas, pero quiero sumergirme un poco más en la maleza de esta pregunta. Entonces sabemos que la correlación no es causalidad, pero la correlación tampoco es causalidad. Entonces, ¿cuándo podemos decir que la correlación es causalidad ? Desafortunadamente, los datos en sí nunca pueden decirnos esto, solo podemos llegar a esto imponiendo suposiciones sobre los datos.
Ejemplo simple: voy a usar gráficos acíclicos dirigidos (DAG) ya que codifican gráficamente las suposiciones. Centrémonos en tres variables:$A$,$B$, y$U$(puede extender esto a más, pero los conceptos básicos siguen siendo los mismos).$U$es alguna variable que no tuvimos la oportunidad de recolectar. Cada flecha en el DAG indica una relación causal, y la dirección de la flecha indica qué causa qué. Para tres variables (y la restricción de orden), los siguientes son algunos DAG posibles que darán como resultado una correlación entre$A$y$B$:
La correlación es causalidad solo en los DAG numerados 1, 2 y 3; que requiere apelar al conocimiento externo (aunque 3 es complicado ya que$U$siendo una causa común de ambos$A$y$B$puede cambiar la relación de la verdadera dirección causal, por ejemplo$A$es protector de$B$en realidad pero$U$hace que parezca dañino).
Una forma de determinar si la correlación es consistente con la causalidad es realizar un experimento aleatorio. Si no aleatorizáramos en función de$U$y$B$se midió después$A$fue aleatoria, entonces sabemos que una flecha de$U$a$A$y$B$a$A$son inverosímiles. Por lo tanto, podemos decir que la correlación es causalidad. Alternativamente, tal vez tengamos algún conocimiento de la materia sobre el tema de$A$y$B$que dice que no hay causas comunes (poco probable en la realidad, pero esto es solo un ejemplo), de manera similar podemos decir que la correlación es causalidad.
La parte importante es que las suposiciones utilizadas para afirmar que la correlación es causalidad están respaldadas por conocimientos externos. Cómo y exactamente qué conocimiento externo se necesita es un tema importante.
Conclusión: Hay una variedad de marcos y suposiciones formales que pueden usarse para afirmar que cierta correlación es causalidad. La parte clave es que los datos por sí solos no pueden decirle si una correlación es o no causalidad. Se deben aplicar algunos supuestos o procedimientos externos para distinguir las correlaciones no causales de las causales.
Aparte: en cuanto a mi ejemplo de un escenario con causalidad pero sin correlación, se supone que los DAG son fieles. Básicamente, esto significa que no se producen cancelaciones perfectas (todos los efectos causales individuales no se cancelan perfectamente para dar como resultado un efecto causal promedio). Debido a esto, es un poco más complicado afirmar que sin correlación significa que no hay causalidad.
No, no puede decir que A causa B. La tabla que tiene solo describe asociaciones entre A y B. Incluso si sabe que A predijo B con precisión un gran porcentaje de las veces, eso no implica que A cause B. De hecho, puede, ser que A hace que ocurra alguna otra variable de confusión C que está altamente correlacionada con B.
La predicción significa que la entropía se reduce. Es decir, si A predice B, entonces la entropía de la distribución de B es mayor que la entropía de la distribución B condicionada a A.
La predicción es simétrica. Si A predice B, entonces B predice A (salvo casos degenerados).
La causalidad no es simétrica. La causalidad se refiere a una relación asimétrica entre dos eventos. Entonces se sigue que predicción no significa causalidad.
En el caso que presentas, A y B no se predicen entre sí. Si bien la entropía de B dada A es baja, es igual de baja sin conocer A.