1. /Inside
  2. /Korrelation und Kausalität: Die Fragen auf die Antworten finden

Frage: Sind dermaßen viele Briten in die USA ausgewandert, sodass der dortige durchschnittliche Cheddarkonsum durch die Einwanderungsrate bestimmt wird? Oder wurde – andersherum gedacht – in den USA so viel Cheddar produziert, dass sich die Briten geradezu genötigt sahen, dorthin auszuwandern?
Frage: Liegt es an der Missachtung des wohlgemeinten Ratschlages „Mit vollem Magen schwimmt man nicht“, dass zu Zeiten des höchsten Eisverkaufs auch die meisten Menschen ertrinken?
Und zu guter Letzt: Regnet es etwa, weil die Straße nass ist?

Alle drei Fragen sind thematisch grundverschieden, machen aber eines deutlich: Wenn Daten analysiert und dabei Zusammenhänge zwischen verschiedenen Aussagen entdeckt werden, sollte man sich vor allem eine Frage stellen: Warum?
 

Korrelation vs. Kausalität

Wir betrachten zwei Aussagen A und B. Die Korrelation beschreibt die Stärke und Richtung des Zusammenhangs von A und B. Der Korrelationskoeffizient ist eine anhand von Daten berechenbare Größe zwischen -1 und 1, wobei 1 Zusammenhang, 0 keinen Zusammenhang und -1 gegenläufigen Zusammenhang beschreibt. Für die Berechnung gibt es mehrere Ansätze – der Bekannteste ist der Korrelationskoeffizient nach Pearson. Die Korrelation sagt nichts zu der Beziehung der zwei Aussagen zueinander aus, sie gibt keine Antwort auf das Warum.
Die Kausalität beschreibt die Beziehung von A und B zueinander. Erzwingt Ereignis A das Ereignis B? Oder andersherum? 
 

Zusammenhänge in der Praxis

Zurück zu den Eingangsbeispielen: Alle beschriebenen Fälle zeigen Korrelationen, aber wie sieht es mit der Kausalität aus?

Im Beispiel der regennassen Straßen ist dies einfach zu analysieren. Die Behauptung „Es regnet, weil die Straße nass ist“ lässt sich folgendermaßen entkräften: Es gibt Zeitpunkte, zu denen die Straße nass ist, es aber nicht regnet – beispielsweise direkt nach einem Regenschauer oder einem Wasserrohrbruch. Anders herum heißt die Behauptung „Die Straße ist nass, weil es regnet“. Es liegt offensichtlich ein kausaler Zusammenhang vor.

Im Beispiel der Auswanderung in die USA und des Cheddarkonsums fällt es trotz hohem Korrelationskoeffizienten schwer, eine (ernstgemeinte) Kausalität zu entdecken, man kann hier also eher von einem Zufall ausgehen.

Besonders interessant ist das Beispiel des Eiskonsums und die Anzahl der Ertrinkenden. Es fällt schwer, eine direkte Kausalität zu beschreiben, aber dennoch wirkt es nicht so abwegig wie im ersten Beispiel, dass dort ein Zusammenhang besteht: In Zeiten besonders großer Hitze wird sowohl viel Eis gegessen als auch viel geschwommen. Es besteht also ein kausaler Zusammenhang zu einer dritten Aussage („Es ist heiß!“), der die Menge des verkauften Eises und die Anzahl der Ertrunkenen beeinflusst. In diesen Fällen spricht man von Scheinkorrelation. Und genau diese sind es, die einen zu immer neuen Fragen und damit neuen Erkenntnissen bringen.
 

Korrelation als Wegweiser

Daten können Korrelationen aufzeigen, nicht aber Kausalitäten. In der Regel sind allerdings genau diese Beziehungen von Faktoren interessant, um damit ein besseres Gesamtbild zu erlangen – beispielsweise um weitere Anforderungen zu erkennen. Dennoch sind die datengestützt gefundenen Korrelationen nicht wertlos. Ganz im Gegenteil: sie können als Frage und nicht als Antwort verstanden werden.

Hat man verstanden, dass der Eisverkauf von der Hitze abhängt (und nicht von der Anzahl der Ertrunkenen), kann man daraus ableiten, wann der Eiskonsum steigt. 

Auf diese Weise kann man mittels Daten für ein bestimmtes Produkt zu potenziellen Nutzergruppen gelangen:

  • Entdecken neuer Anwendungsbereiche für bereits bestehende Produkte
  • Erkennen sinnvoller neuer Features und verstehen, welche Faktoren ein Produkt beeinflussen
  • Verstehen, wie es zu Fehlverhalten von Maschinen kommt und effektive Maßnahmen ableiten können

Zusammenfassend lässt sich sagen, dass Daten keine perfekte Antworten auf Fragen liefern. Wenn man aber die Unmengen an weltweit verfügbaren Daten als Ausgangspunkt für Fragen versteht, liefern sie neue Sichtweisen, Ideen und Anknüpfungspunkte für innovative Produkte und Geschäftsmodelle, die die Welt von morgen besser machen können.

Dr. Juliane Hansmann
Juliane Hansmann gehört zum UXMA Data Science Team. Mit ihrer Erfahrung aus der Mathematik und Datenverarbeitung ist sie Expertin für (Pre-)Integration Testing.
props.nextPost.title

It's hackathon time, baby!