Questa è causalità?

Aug 24 2020

Considera la seguente distribuzione congiunta per le variabili casuali$A$e$B$:

$$ \begin{array} {|r|r|}\hline & B=1 & B=2 \\ \hline A=1 & 49\% & 1\% \\ \hline A=2 & 49\% & 1\% \\ \hline \end{array}$$

Intuitivamente,

  • se conosco A, posso predire molto bene B (98% di precisione!)
  • ma se conosco B, non posso dire nulla su A

Domande:

  • possiamo dire che A causa B?
  • se sì, qual è il modo matematico per concludere che A causa B?

grazie! (e mi scuso per la domanda forse "ingenua")

Risposte

30 RobertLong Aug 24 2020 at 14:11

possiamo dire che A causa B?

No, questo è (presumibilmente) un semplice studio osservazionale. Per inferire il nesso di causalità è necessario (ma non necessariamente sufficiente) condurre un esperimento o una sperimentazione controllata.

Solo perché sei in grado di fare buone previsioni non dice nulla sulla causalità. Se osservo il numero di persone che portano accendini, questo predice il numero di persone che hanno una diagnosi di cancro, ma non significa che portare un accendino provochi il cancro.


Modifica: per affrontare uno dei punti nei commenti:

Ma ora mi chiedo: può mai esserci causalità senza correlazione?

Sì. Questo può accadere in diversi modi. Uno dei più facili da dimostrare è dove la relazione causale non è lineare. Per esempio:

> X <- 1:20
> Y <- 21*X - X^2
> cor(X,Y)
[1] 0

Chiaramente Yè causato da X, ma la correlazione è zero.

17 pzivich Aug 24 2020 at 19:18

Entrambe le risposte precedenti sono buone, ma voglio approfondire un po' di più questa domanda. Quindi sappiamo che la correlazione non è causalità, ma anche la correlazione non è non causalità. Quindi, quando arriviamo a dire che la correlazione è causalità ? Sfortunatamente, i dati stessi non possono mai dircelo, possiamo arrivarci solo imponendo ipotesi sui dati.

Esempio semplice: utilizzerò i grafici aciclici diretti (DAG) poiché codificano graficamente le ipotesi. Concentriamoci su tre variabili:$A$,$B$, e$U$(puoi estenderlo a più, ma i concetti di base rimangono gli stessi).$U$è una variabile che non abbiamo avuto l'opportunità di raccogliere. Ogni freccia nel DAG indica una relazione causale, con la direzione della freccia che indica cosa causa cosa. Per tre variabili (e la restrizione dell'ordinamento), di seguito sono riportati alcuni possibili DAG che si tradurranno in una correlazione tra$A$e$B$:

La correlazione è causalità solo nei DAG numerati 1, 2 e 3; che richiede di fare appello alla conoscenza esterna (anche se 3 è complicato poiché$U$essendo una causa comune di entrambi$A$e$B$può capovolgere la relazione dalla vera direzione causale, ad es$A$è protettivo da$B$in realtà ma$U$lo fa sembrare dannoso).

Un modo per determinare se la correlazione è coerente con la causalità è condurre un esperimento randomizzato. Se non abbiamo randomizzato in base a$U$e$B$è stato misurato dopo$A$è stato randomizzato, quindi sappiamo che una freccia da$U$a$A$e$B$a$A$sono poco plausibili. Pertanto, possiamo dire che la correlazione è causalità. In alternativa, forse abbiamo alcune conoscenze in materia sull'argomento di$A$e$B$che dice che non ci sono cause comuni (improbabile in realtà ma questo è solo un esempio), analogamente possiamo dire che la correlazione è causalità.

La parte importante è che le ipotesi utilizzate per affermare che la correlazione è causalità sono supportate da conoscenze esterne. Come ed esattamente quale conoscenza esterna è necessaria è una questione importante.

Conclusione: ci sono una varietà di strutture e assunzioni formali che possono essere utilizzate per affermare che una certa correlazione è causalità. La parte fondamentale è che i dati da soli non possono dirti se una correlazione è o meno una causalità. Alcune assunzioni o procedure esterne devono essere applicate per distinguere le correlazioni non causali dalle correlazioni causali.

A parte: per quanto riguarda il mio esempio di uno scenario con causalità ma nessuna correlazione, si presume che i DAG siano fedeli. Ciò significa fondamentalmente che non si verificano cancellazioni perfette (tutti i singoli effetti causali non si annullano perfettamente per non provocare alcun effetto causale medio). Per questo motivo, è un po' più complicato affermare che nessuna correlazione significa nessuna causalità.

8 StatsStudent Aug 24 2020 at 14:10

No, non puoi dire che A causa B. La tabella che hai descrive solo le associazioni tra A e B. Anche se sai che A ha predetto accuratamente B per una grande percentuale di volte, ciò non implica che A causi B. Potrebbe infatti, essere che A causi qualche altra variabile confondente C che è altamente correlata con B.

1 Acccumulation Aug 25 2020 at 01:23
  1. Previsione significa che l'entropia è ridotta. Cioè, se A predice B, allora l'entropia della distribuzione di B è maggiore dell'entropia della distribuzione B condizionata su A.

  2. La previsione è simmetrica. Se A predice B, allora B predice A (salvo casi degenerati).

  3. La causalità non è simmetrica. La causalità si riferisce a una relazione asimmetrica tra due eventi. Quindi ne consegue che predizione non significa causalità.

  4. Nel caso in cui presenti, A e B non si prevedono a vicenda. Mentre l'entropia di B dato A è bassa, è altrettanto bassa senza conoscere A.