Ich habe vor einiger Zeit mal behauptet, dass Big Data nichts mit Statistik zu tun habe. Diese Behauptung kann ich natürlich mit vielen mathematischen Fachbegriffen und weitschweifenden Ausführungen belegen. Ich dachte mir aber, dass vielleicht ein Fallbeispiel unterhaltsamer wäre.
Nehmen wir doch mal eine Stichprobe der Bevölkerung von Mittelerde. Wie viele menschenähnliche Wesen wird es dort geben? Keine Ahnung. Aber eine Stichprobengröße von 9 wird sicherlich ok sein. Also betrachten wir mal das folgende Datenset:
Name | Rasse | Geschlecht | Alter | Überlebt | Raucht |
Gandalf der Graue | Maia | m | sehr alt | nein | ja |
Frodo Beutlin | Hobbit | m | jung | ja | nein |
Sam Gamdschie | Hobbit | m | jung | ja | nein |
Merry Brandybock | Hobbit | m | jung | ja | ja |
Peregrin Tuk | Hobbit | m | jung | ja | ja |
Aragorn | Mensch | m | erwachsen | ja | ja |
Boromir | Mensch | m | erwachsen | nein | nein |
Legolas Grünblatt | Elb | m | erwachsen | ja | nein |
Gimli, Glóins Sohn | Zwerg | m | erwachsen | ja | ja |
Was lernen wir?
* In Mittelerde gibt es nur Männer
* In Mittelerde gibt es keine Kinder; genauer gibt es offenbar nur junge Hobbits und ältere Vertreter anderer Rassen, so dass wir folgern könnten, dass die Hobbits die Jugendform aller anderen Rassen ist
* Elben, Zwerge und Hobbits sind unsterblich (zumindest in Kämpfen / auf Abenteuerreisen)
* Alle untersuchten Maiar sind getötet worden, so dass die Vermutung nahe liegt, dass dies die schwächste aller Rassen in Mittelerde ist; möglicherweise liegt es aber auch nur am sehr hohen Alter des untersuchten Maia
Aber natürlich machen wir Big Data nicht aus wissenschaftlichem Interesse an der Bevölkerungsstruktur, sondern um etwas zu verkaufen. Sagen wir, wir arbeiten für einen großen Online-Versandhändler für Tabakwaren. Wir möchten unsere Online-Werbung optimieren und suchen daher die Bevölkerungsgruppe, die am meisten Potential hat.
Schauen wir uns zunächst einmal die Rassen an. Hobbits und Menschen sind zunächst eher uninteressant, da sie in unserem Datenset nur mit 50% Wahrscheinlichkeit rauchen. Elben sind völlig uninteressant. Alle untersuchten Maiar und Zwerge rauchen dagegen. Ganz klar sind also Zwerge unsere bevorzugte Zielgruppe. Maiar sind ja eh schwächlich und kurzlebig -- schlecht für langfristigen Profit.
Die Frage nach dem Geschlecht erübrigt sich, da wir nur Männer im Dataset haben. Dieses Kriterium sollten wir vielleicht lieber auslassen, falls unsere Online-Plattform verschiedene Geschlechterklassen kennt. Wobei wir ja statistisch gesehen davon ausgehen können, dass es ohnehin ausschließlich oder zumindest überwiegend Männer gibt.
Die Altersklasse ist nun wieder recht aufschlussreich: mit steigender Altersklasse steigt die Wahrscheinlichkeit zu rauchen: junge und erwachsene Personen rauchen zu 50%, sehr alte Personen zu 100%. Wir sollten die Werbung also klar auf ältere Konsumenten ausrichten.
Unsere allgemeine Werbekampagne sollte sich also an ältere Zwerge richten.
Als besonderes Schmankerl können wir noch eine zielgruppenspezifische Spezial-Kampagne für Menschen starten: Menschen, die Rauchen, haben eine höhere Lebenserwartung! Die Marketingabteilung wird das schon irgendwie gut verpacken.
Klingt das alles irgendwie dämlich?
Mag sein... aber so funktioniert Big Data. Und genau deshalb wollen Facebook und Google so viel über euch wissen. Um zu beurteilen, ob ihr sehr alte Zwerge oder junge Hobbits seid. Und wenn sie es nicht wissen versuchen sie es aus anderen Informationen zu schätzen.
Dann wissen sie nämlich auch, ob ihr raucht.
Oder... glauben es zu wissen.
Aber für den Werbe-Fachmenschen ist eine Trefferquote von 70% völlig ausreichend -- hauptsache die Verkaufszahlen gehen hoch. Oder bleiben wo sie sind. Oder fallen wenigstens nicht so stark wie bei der Konkurrenz.
Falls DU also Werbung für Tabakwaren siehst, die dich nicht interessiert, kann es sein, dass die Werbeplattform dich für einen alten Zwerg hält, weil du im Feld "Rasse" keine Angabe gemacht hast.
- Thomas
#
BigData #
Mittelerde #
CyberpunkPhilosophie #
Statistik #
HerrDerDaten #
MINT-Stammtisch