Ich habe vor einiger Zeit mal behauptet, dass Big Data nichts mit Statistik zu tun habe. Letzte Woche habe ich versucht, diese Behauptung mit einem Fallbeispiel zu veranschaulichen. Dabei ging es vor allem um die naive Verallgemeinerung von Beobachtungen. Das ist aber nicht alles, was mich an Big Data stört...
Im ersten Teil hatte ich eine (unzulässige) Stichprobe betrachtet, die aus den neun "Ring-Gefährten" bestand. Nun bekommt der Big-Data-Spezialist selten so ein schönes, vollständiges Datenset. Vielmehr kombinieren wir Daten aus verschiedenen Quellen und bekommen etwas in dieser Art:
Name | Rasse | Alter | Datenquelle | Überlebt | Raucht |
---|
Mithrandir | Istar | sehr alt | Bruchtal (public) | | |
Bilbo Beutlin | Hobbit | sehr alt | Gollum | | ja |
Frodo Beutlin | Hobbit | jung | Bree, Bruchtal (public), Moria, Parth Galen | ja | nein |
| Hobbit | jung | Moria, Parth Galen | ja | nein |
| Hobbit | jung | Moria, Parth Galen | ja | ja |
| Hobbit | jung | Moria, Parth Galen | ja | ja |
Gandalf | Mensch | sehr alt | Gollum, Moria | nein | ja |
Gandalf Graurock | Mensch | sehr alt | Bree | ja | ja |
Streicher | Mensch | erwachsen | Bree, Moria, Parth Galen | nein | ja |
Aragorn | Mensch | alt | Bruchtal (public) | | |
Boromir | Mensch | jung | Bruchtal (public) | | |
Legolas Grünblatt | Elb | erwachsen | Bruchtal (public), Moria, Parth Galen | ja | nein |
Gimli, Glóins Sohn | Zwerg | erwachsen | Bruchtal (public), Moria, Parth Galen | ja | ja |
Im Vergleich zum vollständigen Datenset von letzter Woche stellen wir ein paar Abweichungen fest:
* Gandalf reist viel und ist unter vielen verschiedenen Namen bekannt. Deshalb taucht er auch gleich dreimal in der Liste auf. So etwas kann passieren, daher sind relative Häufigkeitsangaben mit Vorsicht zu behandeln.
* Es gibt keine Maiar mehr. Das liegt daran, dass diesen engelsähnlichen Wesen verboten ist, ihre wahre Identität zu offenbaren. Da sie in der Gestalt alter Menschen erscheinen werden sie meist für Menschen gehalten, die Elben erkennen sie allerdings als Nicht-Menschen und nennen sie Istari -- deshalb unterscheidet sich der dreifache Datensatz zu Gandalf nicht nur im Namen, sondern auch in der Rasse!
* Der aufmerksame Leser wird feststellen, dass noch jemand doppelt auftaucht: Aragorn aka Streicher.
In diesem Beispiel weiß ich, dass in Bree der erwachsene Mensch Streicher zur Gruppe stößt. In den public Anouncements von Bruchtal werden zwei Menschen genannt, allerdings entsprechen die Alterskategorien dort nicht meinen Kategorien. Kann passieren -- blöd nur, dass ich nun nicht zuordnen kann, ob einer der beiden Menschen (Aragorn oder Boromir) mit dem mir bekannten Streicher identisch sind.
Ich weiß allerdings von meinen Orkhorden in Parth Galen, dass ein erwachsener Mensch dort umgekommen ist -- da Streicher später nicht mehr auftaucht können wir hier ruhigen Gewissens Überlebt auf nein setzen.
Die Schlussfolgerungen für meinen Tabak-Onlinehandel verändern sich durch das unvollständige Datenset nur geringfügig. Die Spezialkampagne für Menschen lassen wir vielleicht lieber weg (da alle Menschen rauchen, aber nicht alle überleben...), aber die relevante Zielgruppe bleiben ältere Zwerge.
Aber verlassen wir den Werbe-Markt und betrachten wir nun, was wir aus solchen (zu einem anderen Zweck erfassten!) Daten noch so folgern können. Nehmen wir mal an, rein hypotetisch, es gäbe eine Institution, die versucht alle Daten überhaupt in die Finger zu bekommen und diese Daten zu bösen Zwecken zu verwenden. Nennen wir diese Institution das "allsehende Auge".
Das allsehende Auge hat ein Spezialtool entwickelt, das Aktivisten eine so genannte RingträgerID zuweist. Dadurch kann das allsehende Auge Datensätze zusammenführen, die andere nicht verbinden können. Daher möchte es so viele Daten wie überhaupt möglich sammeln!
In unserem Beispiel könnten wir zum Beispiel anhand der RingträgerID sehen, dass der Mensch Gandalf aus der einen Datenquelle und der Istar Mithrandir aus einer anderen Datenquelle ein und die selbe Person sein müssen. Wir können daraus schließen, dass der Istar ebenfalls raucht, aber das Abenteuer nicht überlebt. Und wir wissen, dass in unseren Datensätzen manche Menschen eigentlich Istari sein könnten -- klassisches Problem mit zusammengeführten Daten unterschiedlicher Qualität aus verschiedenen Quellen. Aber das Motto von Big Data ist freilich "lieber viele schwache Daten als zu wenige ordentliche!", denn: "
large volumes of data can, in effect, dampen out any data inconsistency"
Sagen wir nun, das allsehende Auge möchten einen bestimmten Aktivisten aufspüren. Dieser Aktivist ist blöderweise sehr effektiv im Verschleiern seiner Aktivitäten und taucht daher nur selten in meinen Daten auf. Plötzlich meldet die (unabhängige) Datenquelle "Palantir": "Hobbit-Aktivist hat Angriffspläne entwendet!"
Nun können wir durchaus folgern, dass es sich um den gesuchten Ringträger handeln
könnte... wenn auch die Wahrschinlichkeit gering sein wird. Da unser gesuchter Terr-... ähm... ich meine: unser gesuchter "Aktivist" nur selten in unseren Daten auftaucht, ist die Gelegenheit aber zu verlockend, als dass das allsehende Auge nicht umgehend die Orkarmee loszuschicken würde.
Natürlich sind in dieser Analyse viele "vielleicht"'s und "womöglich"'s, aber prinzipiell könnte dank der Big-Data-Analyse und durch das beherzte Eingreifen der Orkarmee doch ein Terroranschlag verhindert werden... Wo ist das Problem?
Das Problem ist: entsprechend der geschätzten Wahrscheinlichkeit und entgegen aller Hollywood-Klischees war es
tatsächlich nicht der gesuchte Ringträger Frodo, der durch den Palantir geschaut hat!
Das bedeutet: es ist völlig egal, ob DU etwas zu verbergen hast oder nicht -- wenn du zur falschen Zeit in den falschen Kategorien steckst, dann könnte es passieren, dass
eine Orkarmee vor deiner Tür aufmarschiert. Oder dass
deine Versicherung plötzlich teuerer wird. Oder dass du plötzlich
gar nicht mehr kreditwürdig bist.
Big Data ist für die Werbeindustrie ein Tool, dass "häufig genug" richtig liegt, um den Aufwand zu rechtfertigen. Sind die Daten aber erst einmal vorhanden, dann werden sie in vielen anderen Bereichen einfach übernommen, und dabei wird diese
bekannte und bewusst in Kauf genommene Ungenauigkeit meist einfach ignoriert! Die Ergebnisse werden dann als Tatsachen verkauft, um z.B.
Verbrechensvorhersagen abzuleiten. Und alle rufen "Hurra!" -- bis irgendwann ganz plötzlich und unvorhergesehen ein "Algorithmus" zu einem ungünstigen Ergebnis kommt. Dann ist das Gejammer groß...
- Thomas