Ein großer Bereich des maschinellen Lernens bilden die Klassifikationen. Das Modell einer Klassifikation wird mit Hilfe von bereits klassifizierten Daten trainiert. Das Ziel ist es, nicht klassifizierte Objekte zu bestimmen oder vorhersagen zu können. Eine sehr einfache und verbreitete Methode ist der Bayes-Algorithmus, oder auch Naive Bayes (engl.). Dieser Artikel beschreibt die grundlegende Funktionsweise dieser Methode, welche Annahmen sie trifft und welche Vor- bzw. Nachteile sie hat.
Grundlegende Annahmen
Das unten stehende Beispiel soll den Bayes-Klassifikator verständlich machen. Im Beispiel wurden 40 Personen befragt, ob sie jung oder alt, arm oder reich und Student oder Geschäftsführer sind. Letzteres stellt die Klasse dar, die später vorausgesagt werden soll. Beim Bayes-Klassifikator werden die Eigenschaften der Objekte (hier das Alter und das Vermögen) als Zufallsvariable betrachtet. Außerdem wird angenommen, dass diese Eigenschaften unabhängig voneinander sind, wenn die Klasse gegeben ist. Sprich das Alter ist unabhängig von dem Vermögen, wenn bekannt ist, dass es sich um einen Studenten handelt. Diese Annahme ist nicht immer war bzw. es ist naive diese Annahme zu treffen. Deswegen wird der Bayes-Klassifikator auf englisch Naive Bayes genannt.
Das Ziel ist es die Klasse für neue Personen auf der Grundlage ihrer Eigenschaften zu bestimmen. Genauer gesagt, geht es um die Wahrscheinlichkeit der Klassen. Der Bayes-Klassifikator benötigt dafür zwei Sachen. Das ist zum einen die Häufigkeitsverteilung der Klassen. In diesem Fall wäre das drei viertel Student und ein viertel Geschäftsführer. Und zum anderen ist das die Häufigkeitsverteilung jeder einzelnen Eigenschaft für jede Klasse. Beispielsweise ist ein Student nach dieser Stichprobe mit 22/30 jung und mit 8/30 alt.
Satz von Bayes
Der Bayes-Klassifikator beruht auf dem Satz von Bayes, daher auch der Name. Ausgangspunkt ist, dass es zwei Zufallsvariablen gibt, beispielsweise A und B. Der
Satz sagt aus, dass sich die Wahrscheinlichkeit von A unter der Bedingung, dass B eingetreten ist, durch die Wahrscheinlichkeit von B unter der
Bedingung, dass A eingetreten ist, ausdrücken lässt. Als Formel heißt es: P(A|B) = P(B|A) * P(A) / P(B). Ignorieren wir beispielsweise das Vermögen und nehmen nur das Alter und
die Klasse aus dem oben beschriebenen Fall. Betrachten wir die Klasse als A und das Alter als B und nehmen als Werte "Student" und "Jung".
Nun kann einfach eingesetzt werden: P(A = Student|B = jung) = (22/30 * 3/4) / (28/40)
Im Endeffekt gilt: P(Klasse|Eigenschaften) = P(Eigenschaften|Klasse) * P(Klasse) / P(Eigenschaften)
Klassifikation
Beim Lernen des Modells werden lediglich wie oben beschrieben die Häufigkeitsverteilung der Klassen und die Häufigkeitsverteilung der einzelnen Eigenschaften gegeben der Klasse benötigt. Die Häufigkeitsverteilung der Eigenschaften wird nicht benötigt, da sie für die Bestimmung jeder Klasse gleich ist. Sprich P(Klasse=Student|Eigenschaften) und P(Klasse=Geschäftsführer|Eigenschaften) haben das gleiche P(Eigenschaften). Das bedeutet, dass nur das Produkt im Zähler für jede Klasse ausgerechnet werden muss und dann die Werte ganz einfach normiert werden. Somit entsteht eine Wahrscheinlichkeitsverteilung, die in der Summe 1 ergibt.
Wie bereits gesagt, wird die Annahme getroffen, dass die Eigenschaften voneinander unabhängig sind, wenn die Klasse gegeben ist. Das wird benötigt, um P(Eigenschaften|Klasse) für mehrere Eigenschaften zu berechnen. Und zwar ist es dann lediglich das Produkt der beiden einzelnen Wahrscheinlichkeiten: P(Eigenschaften|Klasse) = P(Vermögen|Klasse) * P(Alter|Klasse).
Vorteile und Nachteile
Der offensichtliche Nachteil des Bayes-Klassifikators ist, dass die naive Annahme meistens nicht stimmt. Dennoch funktioniert der Algorithmus in der Praxis sehr gut. Zudem kann er auch für wenig Daten und fehlende Werte angewendet werden und lässt sich relativ schnell berechnen. Der Bayes-Klassifikator ist daher ein sehr beliebtes Verfahren.
Referenzen und Links
- Prof. Dr. Heiko Paulheim: Vorlesungsunterlagen Data Mining - Classification Part 1. Universität Mannheim, 2017.
- Lillian Pierson: Data Science für Dummies. Wiley VCH-Verlag, 2009.
- Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction to Data Mining. Pearson, 2006.
Kommentar schreiben