Sobald eine Organisation eine Vielzahl von Dokumenten hält, wird es schwierig einzelne Dokumente zu finden. In diesem Artikel findest du einen Überblick über das Problem und wie es mit Suchmaschinen gelöst werden kann.
Was bedeutet Auffinden von Informationen?
Das Auffinden von Informationen wird häufig auch Informationsgewinnung oder auf englisch "Information Retrieval" genannt. Das typische Ausgangsszenario ist, dass es eine große Menge an Dokumenten gibt. Im Regelfall handelt es sich um Texte, aber es können auch Bilder, Videos und strukturierte Daten sein (wie beispielsweise in einer SQL-Datenbank). Die Schwierigkeit besteht nun darin, eine Frage an diese Dokumente zu beantworten. Wenn es nur wenig Dokumente gibt und nur wenige Personen damit arbeiten, reicht häufig eine gute Ordnerstruktur und ein einheitliches Verständnis über den Aufbau der Dokumente. Aber wie sollen die Informationen gefunden werden, wenn es mehrere Tausend Dokumente gibt und mehrere Tausend Personen Dokumente erstellen und bearbeiten?
Die perfekte Lösung wäre, wenn eine Frage gestellt wird und eine künstliche Intelligenz die Dokumente versteht und die Frage beantworten kann. Das ist wahrscheinlich die Lösung der Zukunft. In der Vergangenheit und zur Zeit ist es ausreichend eine Suchabfrage aus Schlüsselbegriffen zu formulieren und eine Rangliste von Dokumenten zurückzuliefern. Solch ein System wird Suchmaschine genannt.
Grundlegende Funktionsweise von Suchmaschinen
Zunächst ein paar Worte zu Suchmaschinen im Allgemeinen. Wie oben beschrieben gibt es eine Menge an Dokumenten, an die eine Suchabfrage gestellt wird. Als Ergebnis soll eine Liste von Dokumenten erscheinen, die je nach der Relevanz des Dokumentes bezüglich der Suchabfrage sortiert ist. Der gängige Ansatz ist, dass ein Index aufgebaut wird, in dem Wörter auf die Dokumente verweisen, in denen sie vorkommen. Zum Beispiel könnte das Wort "Technologie" im "Dokument 1" und "Dokument 5" vorkommen.
Für eine gute Rangliste lohnt es sich allerdings noch mehr Faktoren zu berücksichtigen. So gewinnen Wörter an Gewicht, die sehr häufig in einem Dokument vorkommen. Kommt ein Wort sehr häufig in allen Dokumenten vor (wie zum Beispiel "der", "die", "das"), dann verliert es an Gewichtung. Dieses Maß wird Tf-idf-Maß genannt (aus dem Englischen "term frequency - inverse document frequency", zu deutsch "Häufigkeit des Wortes und umgekehrte Häufigkeit des Wortes in den Dokumenten"). Letztendlich bekommt jedes Dokument für eine Suchabfrage eine Punktzahl zugeordnet. Je mehr Punkte, desto höher in der Ergebnisliste.
Suchmaschinen im Internet
Wie verhält es sich nun mit den bekannten Suchmaschinen wie Google, Bing und Yahoo? Auch sie sind Suchmaschinen wie oben beschrieben, nur eben für Internetseiten. Der wesentliche Unterschied ist, dass bei diesen Suchmaschinen die Menge an Dokumenten wesentlich größer ist. Außerdem muss auch die Frage gestellt werden, ob Seiten vertrauenswürdig sind oder nicht? Um eine Seite möglichst gut auffindbar zu machen, kann sie für Suchmaschinen optimiert werden (das sogenannte SEO: engl. "Search Engine Optimization"). Darunter zählt beispielsweise eine klare Struktur von Überschriften, Untertitel von Bildern und so weiter.
Um überhaupt Seiten zu finden, werden Programme eingesetzt (auch Crawler-Bots genannt), die sich über die Verlinkungen zwischen den Seiten durch das Internet hangeln. In regelmäßigen Abständen wird dann der Index aktualisiert und es werden nach neuen Verlinkungen gesucht. Die Verlinkungen werden auch betrachtet, um zu klären wie viel Autorität diese Webseite hat. Deshalb haben Verlinkungen ein großen Einfluss auf die Platzierung in der Rangliste. In der Regel gilt, umso mehr relevante Seiten auf eine Seite zeigen, desto relevanter ist diese. Es ist quasi so, als ob jeder Link einen Teil der Relevanz auf die verlinkte Seite überträgt.
Die Abbildung zeigt ein Beispiel von fünf Webseiten, die miteinander verlinkt sind. Die Pfeile zeigen, welche Seite auf welche andere Seite verlinkt. In diesem Szenario würde Googles "PageRank" Algorithmus der Seite D die größte Relevanz zuordnen. Seite A und Seite E wären im Mittelfeld, während Seite B weiter hinten gelistet werden würde. Seite C wird im Zweifel gar nicht gefunden, weil keine Seite auf sie verweist.
Verlinkungen können natürlich auch bei Offline-Dokumenten in Organisationen berücksichtigt werden. Das lohnt sich insbesondere, wenn viele Personen Dokumente erstellen können. So kristallisieren sich relevante Dokumente heraus und es können bessere Ergebnisse für Abfragen erzielt werden.
Referenzen und Links
- Christopher D. Manning, Prabhakar Raghavan und Heinrich Schütze: Introduction to Information Retrieval. Cambridge University Press, 2008.
- W. Bruce Croft, Donald Metzler und Trevor Strohman: Information Retrieval in Practise. Addison-Wesley, 2009.
- Morefire: SEO - Die 10 goldenen Regeln der Suchmaschinenoptimierung.
Kommentar schreiben
Birgit (Montag, 08 Januar 2018 17:09)
Hi, warum muss (bzw kann) man beim Artikelkommentar eine Homepage eingeben? Ist das so üblich, um Nutzerverlinkungen zu generieren? Fehlt hier im Gegensatz zum allgemeinen Kommentar deshalb die Mailadresse, weil diese Kommentare öffentlich sind?