Robots, Spider und Crawler

Robots, Spider und Crawler – Suchmaschinen im Internet

Die Suchmaschinen im Internet basieren auf automatischen Programmen, die den Inhalt von Internetseiten analysieren, die darin enthaltene Textinformation in einer Datenbank indizieren und die in ihr enthaltenen Verweise auf weitere Dokumente benutzen, um sich durch das Internet fortzubewegen. Solche Programme werden daher auch als Robots,
Spider oder Crawler bezeichnet.
Das folgende Beispiel soll die Funktionsweise eines Robots prinzipiell verdeutlichen. Dazu ist in der folgenden Box eine (frei erfundene) Webseite mit der URL:
http://www.beispiel1/titanic.html als Beispiel kreiert worden.

Alles Wissenswerte über den Untergang der Titanic
Diese Datei enthält Verweise auf weiterführende Dokumente zum Untergang der Titanic.

Verweis 1
Verweis 2

Hat der Robot die URL dieser Datei erhalten, z. B. durch Anmeldung der Seite durch den Autor bei der entsprechenden Suchmaschine, lädt er diese um den Inhalt analysieren (parsen) zu können. Aus dem Inhalt der Seite kann durch den Robot eine Liste von
Schlagwörtern generiert (im einfachsten Fall wird der gesamte Text in der Datenbank der Suchmaschine gespeichert- Volltextsuchmaschine) werden. In unserem Beispiel könnten das unter anderem die Wörter Untergang und Titanic sein. Die Speicherung in einer Datenbank hat den Vorteil, das die Suchen stark beschleunigt werden. Nur so sind Suchmaschinen wie Google in der Lage riesige Mengen an Suchanfragen zu bearbeiten (abgesehen von der zur Verfügung stehenden Hardware)

Aus diesen Schlagwörtern wird dann ein Eintrag in der Datenbank der Suchmaschine generiert, der in einem Datenfeld diese Schlagwörter enthält. In einem weiteren Datenfeld wird dann die Internetadresse (sprich: http://www.beispiel1/titanic.html) der
Datei gespeichert. Anschließend lädt das Programm das Dokument mit der Adresse „http://www.beispiel1/verweis1.html“ und analysiert diese Dateien in gleicher Art und Weise.

Ein Nutzer der Suchmaschine, der zum Beispiel nach dem Begriff Titanic sucht, bekommt als Ergebnis eine Liste von Verweisen, in der sich dann auch die Beispieldatei befinden sollte.

Allgemeine Hinweise zur Nutzung von Suchmaschinen

Mittlerweile haben sich im Internet eine Vielzahl von Suchmaschinen allgemeiner und spezieller Natur etabliert. Daher sollen in diesem Kapitel nur einige der bekanntesten Suchmaschinen vorgestellt werden, wobei die Auswahl willkürlich nach der Erfahrung des Autors getroffen wurde.
Die meisten der professionellen Suchmaschinen benutzen glücklicherweise einen ähnlichen Syntax für allgemeine Anfragen. Dieser ist in der folgenden Tabelle aufgelistet.

Syntax	Bedeutung
+	Ein Plus vor einem Suchbegriff bedeutet, das der Suchbegriff in der Seite enthalten sein muß.
–	Ein Minus vor einem Suchbegriff bedeutet, daß dieses Wort nicht in der gesuchten Seite enthalten sein darf.
and	logisches UND
or	logisches ODER
not	Logisches NEIN
„…“	Phrasen (Redewendungen) werden i. A. in Anführungszeichen gesetzt.
(..)	Klammern werden meist zur Bildung komplexerer Suchabfragen benutzt.

Der in dieser Tabelle dargestellte Suchsyntax wird nicht notwendiger Weise von jeder Suchmaschine unterstützt. Sollten daher Anfragen an eine Suchmaschine unter Benutzung dieses Syntaxes fehlschlagen, so sollte der Nutzer unbedingt in der meist angebotenen
Hilfe nachsehen.
Weiterhin befinden sich die Suchmaschinen ebenso wie das Internet in ständiger Entwicklung, so daß Erweiterungen oder Veränderungen beim Syntax jederzeit möglich sind, und welche vom Betreiber meist nicht auf der Startseite bekannt gegeben werden.

Neue Konzepte

Es gibt derzeit verschiedene Bestrebungen, Suchmaschinen „intelligenter“ zu gestalten. Auf der einen Seite ist da das Konzept der natürlich-sprachlichen Eingabe und auf der anderen Seite das der sogenannten Clusterung.

Natürlich-sprachliche Eingabe: Bei diesem Konzept wird der Suchmaschine eine Frage so gestellt, wie man es im „normalen“ Leben auch täte. Zum Beispiel: Was ist die Hauptstadt von Deutschland? Darauf hin gibt die Suchmaschine im Idealfall eine Reihe von Seiten über Berlin aus.
Als Beispiel (wenn auch englisch) ist die Suchmaschine Ask. Die folgenden Bildschirmaufnamen zeigen die Suche nach der Hauptstadt von Deutschland und die daraus resultierenden Ergebnisse:

Suchmaske mit Frage

Suchergebniss von Ask

Clusterung: Bei dem Verfahren der Clusterung versuchen die Suchmaschinen thematisch ähnlich Seiten in Gruppen zusammen zu fassen und in Gruppen sortiert dem Nutzer zu präsentieren. Musterbeispiel hierfür ist derzeit die französische Suchmaschine Kartoo. Aber auch andere Suchdienste bieten mittlerweile diese Zusatzfunktion an.

Warum so viele Suchmaschinen?
Diese Frage läßt sich nicht so ohne weiteres beantworten. Einerseits spielen kommerzielle Überlegungen eine Rolle, obwohl der Betrieb einer umfassenden Suchmaschine (wie z. B. Google) sehr kostenintensiv ist. Aber die Vielfalt der Suchmaschinen mit ihren unterschiedlichen Bewertungskriterien und eventuell auch thematischen Spezifizierung sorgt dafür, das das Internet noch benutzbar ist und nicht im Chaos versinkt.
Anderersets hat nicht mehr jede sogenannte Suchmaschine einen eigenen Datenbestand sondern benutzt (mit Erlaubnis und gegen Bezahlung) Datenbestände anderer Suchmaschinen (und damit sind noch nicht einmal die Meta-Suchmaschinen gemeint, bei denen das ja kennzeichnend ist) oder Dienste. Häufig genutzt werden dabei Datenbestände von Google, Teoma, Fast und Inktomi.

Bezahlte Suchen
Es gibt mittlerweile eine Vielzahl von Suchmaschinen, die sich teilweise über bezahlte Suchergebnisse (sponsored links) finanzieren. Das Konzept weiterführend, haben sich mittlerweile auch Suchmaschinen herausgebildet, die hauptsächlich bezahlte Einträge
haben. Die Qualität der Suchergebnisse solcher Suchmaschinen sind nach den Erfahrungen des Autors als nicht sehr hoch einzuschätzen.

Wie hilfreich war dieser Beitrag?

Klicke auf die Sterne um zu bewerten!

Durchschnittliche Bewertung 3 / 5. Anzahl Bewertungen: 1

Bisher keine Bewertungen! Sei der Erste, der diesen Beitrag bewertet.

Post Views: 59

Robots, Spider und Crawler

Allgemeine Hinweise zur Nutzung von Suchmaschinen

Kommentar verfassenAntwort abbrechen

In diesem Abschnitt

Mein Netzwerk

Blog via E-Mail abonnieren

Blogstatistik

Archive

Social