Data Science · 22. Dezember 2017

Grundzüge und Arten maschinellen Lernens

Künstliche Intelligenz ist in aller Munde. Viele sagen, dass sie in den kommenden zehn bis zwanzig Jahren den Menschen eine Menge Arbeit abnehmen wird. Sei es der First-Level Support in Callcentern oder eine schlaue Haushaltshilfe. Die Grundlage künstlicher Intelligenz ist das maschinelle Lernen. In diesem Artikel erfährst du dessen grundlegende Funktionsweise und Arten.

Das maschinelle Lernen ist dem menschlichen sehr ähnlich. Am Anfang stehen Informationen zu Verfügung, auf deren Basis versucht wird, Dinge zu unterscheiden, einander zuzuordnen oder vorherzusagen. Im Wesentlichen wird zwischen zwei Arten unterschieden, dem überwachten Lernen und dem nicht überwachten Lernen. Letzteres versucht Muster zu erkennen, während ersteres versucht eine Zielgröße vorherzusagen oder eine optimale Strategie zu finden.

Klassifikation und Regression

Klassifikation und Regression gehören in den Bereich des überwachten Lernens. Hierbei ist es klar, was die Zielgröße ist, die vorhergesagt werden soll. Auch die Eingabedaten sind bereits mit ihrem Zielwert ausgestattet. Diese Daten werden auch Trainingsdaten genannt, je mehr desto besser (in der Regel). Im Endeffekt sollen bei neuen Daten die Zielgröße vorhergesagt werden. Handelt es sich bei dieser Zielgröße, um einen diskreten Wert, wie zum Beispiel, ob ein Kunde ein Premium-Kunde ist, so wird bei der Vorhersage von einer Klassifikation gesprochen. Handelt es sich um einen kontinuierlichen Wert, wie bspw. die Bevölkerung einer Stadt, so wird es Regression genannt.

Die Grafik auf der rechten Seite zeigt ein vereinfachtes Beispiel einer Klassifikation. Es wurden die Größen und Gewichte von Hunden und Katzen erfasst und in dem Diagramm dargestellt. Ziel der Klassifikation ist es, basierend auf dem Gewicht und der Größe eines nicht zugeordneten Tieres dessen Art vorherzusagen. Das lässt sich entsprechend auch auf Probleme mit viel mehr als nur zwei Eigenschaften anwenden.

Im nächsten Fall geht es darum, die gelaufene Strecke eines Fußballspielers pro Spiel über dessen Alter zu bestimmen (auch hier eine stark vereinfachte Darstellung). Im Gegensatz zu dem oberen Beispiel gibt es hier nicht nur zwei Klassen. In diesem Beispiel ist die Zielgröße >Gelaufene Strecke< kontinuierlich und kann sehr viele verschiedene Werte annehmen. Für dieses Problem können Regressions-Algorithmen angewendet werden.

Zu den beschriebenen Operationen gibt es eine Vielzahl von Algorithmen. Klassifikationen können beispielsweise mit Nächste-Nachbarn-Klassifikatoren, Bayes-Klassifikatoren oder auch mit neuronalen Netzen durchgeführt werden. Auch bei Regressionen können neuronal Netze oder auch beispielsweise die lineare Regression angewendet werden.

Bestärkendes und aktives Lernen

Auch bestärkendes und aktives Lernen finden überwacht statt. Der Unterschied bei diesen Varianten ist, dass sie nur nach und nach mit Daten gefüttert werden. Beim aktiven Lernen wird gezielt nach der Zielgröße für eine Eingabe gefragt. Durch geschickte Fragen wird versucht, die Menge an benötigten Trainingsdaten möglichst gering zu halten. Auch beim bestärkenden Lernen bekommt der Algorithmus nur nach und nach Feedback, wie gut das derzeitige Modell ist. Das Feedback wird auch Ziel- oder Fitnessfunktion genannt.

Ein gutes Beispiel für bestärkendes Lernen ist Super Mario. Die aktuellen Elemente, wie Wände und Pilze etc., auf dem Bildschirm sind die Eingabedaten. Die Ausgabe des Entscheidungsprozesses kann eine der Bewegungsaktionen sein (links, rechts, springen etc.). Die Fitness des aktuell gelernten Modells wird durch die Strecke bestimmt die Mario zurücklegt. Nach und nach kann dann der Algorithmus lernen, dass er weiter kommt, wenn er über Schildkröten hinweg springt, anstatt dagegen zu laufen.

Beim aktiven Lernen wiederum besteht der Trick darin, mit jeder Frage einen möglichst hohen Informationsgewinn zu erzeugen. So lohnt es sich beispielsweise nicht, zweimal Mario den exakt selben Weg laufen zu lassen. Das Ergebnis würde das selbe sein wird. Dies gilt natürlich nur weil Super Mario nicht auf Zufall beruht.

Kategorisierung durch Clustering

Im Gegensatz zum überwachten Lernen gibt es beim nicht überwachten Lernen keine Zielgröße und keine Klasse. Hierbei geht es darum Muster in den Daten zu finden. Das bedeutet sowohl ähnliche Elemente zu erkennen, als auch unterschiedliche Sachen von einander zu unterscheiden. Die Gruppen, die dabei gebildet werden, werden auch Cluster genannt. Zu diesem Zweck muss bestimmt werden, wie Entfernungen zwischen Elementen bestimmt werden. Dazu werden alle bekannten Eigenschaften herangezogen. Besteht solch ein Entfernungsmaß, so wird versucht die Gruppen so zu bilden, dass die Entfernungen innerhalb der Gruppe möglichst klein und zwischen den Gruppen möglichst groß ist. Für Clustering können verschiedene Algorithmen, wie k-Means, k-Medoids, DBSCAN, oder auch neuronale Netze angewendet werden.

Die Grafik auf der rechten Seite zeigt ein Beispiel für Clustering. Hierbei geht es um Personen, die laufen gehen. Die Datenpunkte geben an, für wie viel Zeit und welche Strecke die einzelnen Personen gelaufen sind. Ziel des Clusterings ist es nun, Muster aufzudecken. Wie in der Grafik zu sehen ist, scheint es zwei Gruppen zu geben. Basierend auf diesen Gruppen könnte interpretiert werden, dass sich die Läufer in Sprinter und Ausdauerläufer unterscheiden lassen.

Referenzen und Links

Prof. Dr. Heiko Paulheim: Lecture Slides Data Mining. Universität Mannheim, 2017.
Lillian Pierson: Data Science für Dummies. Wiley VCH-Verlag, 2009.
Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction to Data Mining. Pearson, 2006.

Tags: Data Science, Data Mining, Künstliche Inteligenz, Maschinelles Lernen, Lernen, Klassifikation, Regression, Clustering, Bestärkendes Lernen, Aktives Lernen

Kommentar schreiben

Kommentare: 0