18 maja 2014

Korelacja a przyczynowość

Współautorem wpisu jest Mateusz Krzysztoń*.

Ludzie analizują problem przyczynowości od najdawniejszych czasów. Wystarczy przypomnieć anegdoty o Archimedesie, który wyskoczywszy z wanny wybiegł na miasto, by oznajmić odkrycie prawa wyporu, czy też o Izaaku Newtonie, któremu spadające jabłko nasunęło przypuszczenie o istnieniu siły ciążenia. Badanie przyczynowości jest próbą zrozumienia tego, jak działa świat. Co więcej, odkrycia w tej kwestii pozwalają nam na stawianie prognoz. Jeżeli znamy przyczynę - możemy próbować przewidzieć skutek. 

Bardziej formalnie możemy zdefiniować przyczynowość jako związek, który występuje pomiędzy dwoma zmiennymi losowymi, przy czym jedna ze zmiennych wyznacza wartość drugiej zmiennej.

Nie jest to jednak to samo, co korelacja. W przypadku korelacji dane kategorie są ze sobą powiązane statystycznie, współwystępują, jednak to nie wynika z tego, że jedna wpływa na drugą. Bardzo często popełniamy jednak ten błąd i utożsamiamy korelację z przyczynowością. Aby zilustrować tę różnicę przytoczmy następujący przykład:
dźwięk dworcowego zegara wybijającego godzinę pierwszą jest niezwykle silnie skorelowany z odjazdem pociągu o 1:00 ze stacji, nie jest on jednak żadną przyczyną ruchu - i odwrotnie, odjazd pociągu nie jest przyczyną dźwięku.  
Albo inny przykład z Wikipedii:
Wśród statystyków jako przykład podawana jest anegdota o tym, że wykryto istotną statystycznie dodatnią zależność pomiędzy liczbą bocianów przypadających na km2 w danym skupisku ludzkim, a przyrostem naturalnym na tym obszarze. Oczywiście nie dowodzi to, że bociany przynoszą dzieci. Na wsi jest średnio większy przyrost naturalny i czasem żyją tam bociany. W mieście przyrost jest mniejszy i nie ma bocianów. Istnienie trzeciej zmiennej – miasto / wieś, skorelowanej zarówno z liczbą bocianów jak i z przyrostem naturalnym powoduje powstanie zależności także tamtych dwóch zmiennych.
Wiele innych, podobnych do tego przykładów możemy znaleźć na stronie Spurious Correlations (ang. pozorne korelacje). Dodatkowo możemy samodzielnie odkrywać korelacje pomiędzy różnymi kategoriami. Wybrane z nich:

Powiązane posty:

* Mateusz Krzysztoń jest doktorantem na Wydziale Ekonomicznym UMCS. Mail: Mateusz_Krzyszton@wp.pl