Der Begriff maschinelles Lernen suggeriert, Algorithmen könnten perfekt die Zukunft vorhersagen. Dass dem nicht so ist, zeigt dieser Beitrag. Dennoch sind die Fähigkeiten Algorithmen-basierter Systeme, unser zukünftiges Verhalten bestmöglich vorherzusagen, nicht zu unterschätzen, auch wenn sie dazu Daten aus der Vergangenheit benutzen. Schlagwörter wie "Industrielle Revolution 4.0", "Digitalisierung", "Big Data", "artifizielle Intelligenz" und "maschinelles Lernen" sind zurzeit in aller Munde und hängen konzeptionell zusammen. Durch die fortschreitende Automatisierung und Digitalisierung übernehmen Maschinen, Programme und Algorithmen zusehends mehr, ehemals von Menschen durchgeführte wirtschaftliche Aktivitäten, insbesondere solche mit einem hohen Routineanteil. Dazu gehören
Topics:
Martin Huber considers the following as important:
This could be interesting, too:
Cash - "Aktuell" | News writes Länder einigen sich bei Weltklima-Konferenz auf globalen Emissionshandel
Cash - "Aktuell" | News writes Selenskyj glaubt an mögliches Kriegsende 2025
Cash - "Aktuell" | News writes Was Schweizer Bäuerinnen und Bauern verdienen
Cash - "Aktuell" | News writes Schweizer Efta/EU-Delegation will Abkommen mit China optimieren
Der Begriff maschinelles Lernen suggeriert, Algorithmen könnten perfekt die Zukunft vorhersagen. Dass dem nicht so ist, zeigt dieser Beitrag. Dennoch sind die Fähigkeiten Algorithmen-basierter Systeme, unser zukünftiges Verhalten bestmöglich vorherzusagen, nicht zu unterschätzen, auch wenn sie dazu Daten aus der Vergangenheit benutzen.
Schlagwörter wie "Industrielle Revolution 4.0", "Digitalisierung", "Big Data", "artifizielle Intelligenz" und "maschinelles Lernen" sind zurzeit in aller Munde und hängen konzeptionell zusammen. Durch die fortschreitende Automatisierung und Digitalisierung übernehmen Maschinen, Programme und Algorithmen zusehends mehr, ehemals von Menschen durchgeführte wirtschaftliche Aktivitäten, insbesondere solche mit einem hohen Routineanteil. Dazu gehören online-Handel, -Werbung und -banking ebenso wie die Überwachung von Produktionsprozessen. Diese Revolution bringt es mit sich, dass immer mehr Informationen zu Prozessen und menschlichen Entscheidungen in digitaler Form gesammelt und gespeichert werden, was einen exponentiellen Anstieg des Datenvolumens bedeutet. "Big Data" kann sich dabei sowohl auf die wachsende "Länge" der Daten beziehen, z.B. die Anzahl der Personen, über welche die Daten gesammelt werden, als auch auf deren "Breite", d.h. die Anzahl der erhobenen Merkmale wie z.B. Alter, Geschlecht, Einkommen, Anzahl der Facebook-Freunde etc. Maschinelles Lernen versucht nun aus diesen Daten – ja, ganz genau – zu lernen. Aber was bedeutet das eigentlich?
Blick in die Zukunft
Um das zu beantworten, sei zuerst das Lernziel erläutert: Es geht um nichts Geringeres als die Vorhersage der Zukunft. Das vorherzusagende Phänomen kann z.B. das zukünftige Kaufverhalten von NeukundInnen auf einer online Plattform sein. Maschinelles Lernen versucht anhand statistischer Methoden in den gesammelten Daten zu erkennen, ob bestimmte Merkmalskombinationen von z.B. Alter, Geschlecht, Einkommen etc. sehr häufig (also mit hoher Wahrscheinlichkeit) zu einem bestimmten Kaufverhalten geführt haben. Ziel ist das Entdecken systematischer Zusammenhänge oder Muster zwischen den Merkmalen und dem Kaufverhalten in den Daten, um für NeukundInnen unter alleiniger Kenntnis derer Merkmale ihr zukünftiges Kaufverhalten abschätzen zu können.
Maschinelles Lernen "lernt" deshalb, weil es Algorithmus-basiert untersucht, welche Merkmale oder Kombinationen von Merkmalen für die Vorhersage des Kaufverhaltens besonders wichtig sind (z.B. könnte das Einkommen eine grössere Rolle spielen als das Alter). Dies ist besonders vorteilhaft, wenn es, wie im Zeitalter von "Big Data" nicht unüblich, eine exorbitant grosse Zahl an möglichen Merkmalen gibt, die aber nicht alle gleichermassen relevant sind. Die Berücksichtigung irrelevanter Merkmale in einem statistischen Verfahren verschlechtert nämlich dessen Präzision: Die Vorhersage "eiert" mehr und wird unsicherer. In der Fachsprache heisst das: Die Varianz wird grösser. Dadurch steigt der zu erwartende (absolute) Vorhersagefehler, der der Abweichung des vorhergesagten vom tatsächlichen zukünftigen Kaufverhalten entspricht. Umgekehrt sollten aber keine relevanten Merkmale unberücksichtigt bleiben, weil ansonsten die Vorhersage im Durchschnitt stärker vom tatsächlichen Kaufverhalten abweicht. Dann wird die sogenannte Verzerrung grösser. Ohne die Unterstützung durch maschinelles Lernen käme die Bestimmung der für die Vorhersage optimalen Kombination, welche relevante Merkmale berücksichtigt und irrelevante ignoriert, in grossen Datensätzen häufig der Suche einer Nadel im Heuhaufen gleich.
Maschinelles Lernen "lernt" auch deshalb, weil es unter mehreren statistischen Verfahren jenes auszuwählen vermag, das den geringsten Vorhersagefehler macht. Diese Verfahren tragen so klingende Namen wie "Entscheidungsbäume", "neuronale Netzwerke" oder "elastische Netze"; oder auch weniger klingende wie "Regression". Sie unterscheiden sich in der Art, wie sie den Zusammenhang zwischen den Merkmalen und dem Kaufverhalten modellieren, sprich, welche mathematische Funktion sie für die Vorhersage unterstellen. Ohne hier auf die Intuition, Stärken und Schwächen der statistischen Ansätze einzugehen, sei erwähnt, dass maschinelles Lernen sogar optimale "Mischungen" aus den einzelnen Verfahren erzeugen kann. In diesem Fall spricht man von einer sogenannten "Ensemble" Methode.
Fortschreibung der Vergangenheit
Maschinelles Lernen lernt also, zukünftiges Verhalten bestmöglich vorherzusagen, basierend auf der optimalen Kombination von Merkmalen und statistischen Verfahren. Aber wie funktioniert dieser Optimierungsprozess eigentlich, gegeben, dass man das zukünftige Kaufverhalten ja noch nicht kennt und somit nicht wissen kann, welche Methode die Zukunft am besten vorhersagt? Die Lösung ist banal. Maschinelles Lernen imitiert das Vorhersageproblem einfach in der Vergangenheit, sprich in den bereits gesammelten Daten. Konkret bedeutet das, dass der Datensatz (zufällig) in zwei Teile gesplittet wird. Den ersten Teil behandelt man als "vergangene" Daten (Fachsprache: Trainingsdaten). Darin wird der Zusammenhang zwischen den Merkmalen und dem Kaufverhalten modelliert, basierend auf verschiedenen Merkmalskombinationen und statistischen Verfahren. Den zweiten Teil behandelt man als "zukünftige Daten" (Fachsprache: Validierungsdaten). Darin wendet man die Modelle aus dem ersten Teil auf die Werte der Merkmale (im zweiten Teil) an, um die Vorhersage zu machen. Dieses Vorgehen imitiert das Ausgangsproblem, dass man das zukünftige Kaufverhalten von NeukundInnen noch nicht kennt, es aber anhand ihrer Merkmale (Alter, Einkommen,…) vorhersagen will. Der entscheidende Vorteil im Gegensatz zur "echten" Zukunft ist nun aber, dass das tatsächliche Kaufverhalten auch im zweiten Teil des Datensatzes beobachtet wird. Maschinelles Lernen vergleicht deshalb die Vorhersagefehler im zweiten Teil der verschiedenen, im ersten Teil entwickelten Modelle, um letztendlich das statistische Modell mit dem geringsten Fehler auszuwählen.
Maschinelles Lernen funktioniert aber nicht immer gleich gut. Wie akkurat zukünftiges Verhalten vorhergesagt werden kann, hängt insbesondere davon ab, wie stark die im Datensatz verfügbaren Merkmale mit dem interessierenden Verhalten zusammenhängen. So könnte eben das Einkommen einer Person einen grösseren Einfluss auf das Kaufverhalten haben als z.B. die Farbe der Hausfassade. In diesem Fall wäre ein Datensatz mit Informationen zu Hausfassaden wesentlich weniger hilfreich als einer mit sozio-ökonomischen Merkmalen der KundInnen. Ferner kann sich die Relevanz der Merkmale über die Zeit auch verändern. Angenommen, die im Datensatz beobachteten Merkmale wiesen in der Vergangenheit einen starken Zusammenhang mit dem Kaufverhalten auf, der in der Zukunft aber völlig verschwindet, was eine Art "Strukturbruch" darstellt. Maschinelles Lernen wird in diesem Fall keine überzeugende Leistung erbringen. Es ist deshalb wichtig, den Algorithmus mit möglichst aktuellen und umfangreichen Daten zu "füttern", in denen zukünftiges Verhalten (hoffentlich) möglichst angemessen approximiert werden kann.
Maschinelles Lernen ist kein Allheilmittel, hat sich aber als bemerkenswert effektives Vorhersageinstrument in vielen Bereichen erwiesen, wie zum Beispiel zur Kundenanalyse, Produktionsoptimierung, Krankheitsdiagnose, Aufdeckung von Versicherungsbetrug, ja sogar zur verbesserten Arbeitsmarktintegration von Asylsuchenden in der Schweiz. Maschinelles Lernen wird deshalb auf dem Vormarsch bleiben, auch dank seiner Implementierung in statistischen open source Programmen wie "R" und "Python", die es für ForscherInnen, Unternehmen und auch alle anderen leicht zugänglich und anwendbar machen. Da maschinelles Lernen unser Leben mehr und mehr tangiert, erscheint es wünschenswert, dass auch die breite Bevölkerung dessen Grundidee und Implikationen versteht, als Grundlage einer informierten, kritischen Beurteilung seiner Anwendung in verschiedenen Lebensbereichen. Die Grundidee selbst ist in der Tat keine Magie (wenngleich ein bestimmter Algorithmus mit der Bezeichnung "magic sauce" Gegenteiliges suggeriert), wie dieser Beitrag zu vermitteln versuchte. Letztendlich kochen auch die StatistikerInnen und DatenanalystInnen nur mit bereits verflossenem Wasser, um die Sauce von morgen zuzubereiten.
©KOF ETH Zürich, 19. Sep. 2018