Blog - Software Developer: David Thol

Artikel mit dem Tag "Daten"

Data Science · 26. Januar 2018

Was ist eigentlich Hadoop?

Apache Hadoop gewann in den letzten Jahren stark an Popularität. Hadoop als Ökosystem für mehrere Anwendungen im Bereich Big Data, ermöglicht die Verarbeitung massiv vieler Daten. Damit bietet es die Grundlage für Analysen, aber auch für neue Möglichkeiten der künstlichen Intelligenz und im Bereich des Internets der Dinge (zu engl. Internet of Things). Hinzu kommt das Hadoop unter der Apache Lizenz steht und somit freie Software ist.

Data Science · 19. Januar 2018

Maschinelles Lernen mit Python

Wenn es darum geht maschinelles Lernen selber zu programmieren und anzuwenden, gibt es nur ein paar Programmiersprachen, die gut dafür geeignet sind. Dieser Artikel beschreibt, wieso Python eine gute Sprache ist um maschinelles Lernen anzuwenden und welche Funktionsbibliotheken dafür bekannt sein sollten.

Data Science · 12. Januar 2018

Klassifikation mit dem k-Nächste-Nachbarn-Algorithmus

Wer sind meine Nachbarn? Dieser Artikel beschreibt einen sehr einfachen Algorithmus für Klassifikationen, den k-Nächste-Nachbarn-Algorithmus (kurz kNN). Wie bereits in den Grundzügen maschinellen Lernens erklärt, dienen Klassifikationen dazu, neue Daten in eine der gelernten Klassen einzuteilen. In diesem Artikel erfährst du die grundlegende Funktionsweise von kNN, sowie dessen Ein- und Ausgaben und Vor- und Nachteile. Viel Spaß beim Lernen!

Data Science · 05. Januar 2018

Clustering mit Hilfe des K-Means-Algorithmus

Gruppierungen von Kunden, verschiedener Produkten oder auch Erkennung von Segmenten in Bildern. All diese Aufgaben können durch Clustering bewerkstelligt werden. Clustering Algorithmen ermöglichen es Daten in Gruppen einzuteilen. Der K-Means-Algorithmus (engl. means = Mittelwerte) ist ein Vertreter des Clusterings. Dieser Artikel beschreibt, dessen Ein- und Ausgänge, die grundlegende Funktionsweise und abschließend dessen Vor- und Nachteile. Viel Spaß beim Lesen! :)

Data Science · 29. Dezember 2017

Klassifikation mit dem Bayes-Algorithmus

Ein großer Bereich des maschinellen Lernens bilden die Klassifikationen. Das Modell einer Klassifikation wird mit Hilfe von bereits klassifizierten Daten trainiert. Das Ziel ist es, nicht klassifizierte Objekte zu bestimmen oder vorhersagen zu können. Eine sehr einfache und verbreitete Methode ist der Bayes-Algorithmus, oder auch Naive Bayes (engl.). Dieser Artikel beschreibt die grundlegende Funktionsweise dieser Methode, welche Annahmen sie trifft und welche Vor- bzw. Nachteile sie hat.

Data Science · 01. Dezember 2017

Integration von Daten

Heutzutage haben wir viele Quellen für Daten. Um die Daten gut verarbeiten zu können, müssen die Daten in eine Datenquelle integriert werden. Zu diesem Zweck muss zuerst eine Zielstruktur aufgestellt werden. Danach werden verschiedene Einträge zu der selben Sache erkannt. Diese Einträge können dann in einem letzten Schritt zusammengeführt werden. Dieser Artikel erklärt stark vereinfacht, was den genannten Schritten passiert.