Webcrawler
Ein Webcrawler (auch Spider oder robot) ist ein Computerprogramm, das automatisch das World Wide Web durchsucht und Webseiten analysiert. Webcrawler werden vor allem von Suchmaschinen eingesetzt. Weitere Anwendungen sind beispielsweise das Sammeln von Mailadressen oder anderen Informationen.Wie beim Internetsurfen gelangt ein Webcrawler über Hyperlinks von einer Webseite zu weiteren URLs. Dabei werden alle bisher bekannten Adressen gespeichert und der Reihe nach besucht. Die neu gefundenen Hyperlinks werden zur Liste aller URLs, hinzugefügt. Auf diese Weise können theoretisch alle erreichbaren Seiten des WWW gefunden werden können. In der Praxis wird jedoch oft eine Auswahl getroffen und der Prozess wird irgendwann beendet und von vorne begonnen. Webcrawler sind eine spezielle Art von Bots und werden auch als Spinnen bezeichnet, da sich sich wie diese in einem Netz fortbewegen.
Ja nach Aufgabe des Webcrawlers wird der Inhalt der gefundenen Webseiten beispielsweise mittels Indexierung ausgewertet und gespeichert, um ein späteres Suchen in den so gesammelten Daten zu ermöglichen. Dabei werden verschiedene Ranking-Algorithmen eingesetz. Webcrawler werden auch zum Data Mining und zur Untersuchung des Internets (Webometrie) eingesetzt und müssen nicht zwangsläufig auf das WWW beschränkt sein. Ein Großteil des gesamten Internets wird jedoch von Webcrawlern und damit auch mit bekannten Suchmaschinen nicht erfasst, da viele Inhalte nicht über einfache Links sondern beispielsweise nur über Suchmasken und zugangsbeschränkte Portale erreichbar sind. Man spricht bei diesen Bereichen auch vom "Deep Web".
Mit Hilfe des Robots Exclusion Standards kann ein Webseitenbetreiber in der Datei robots.txt und in bestimmten Meta-Tags im HTML-Header einem Webcrawler mitteilen, welche Seiten er indexieren soll und welche nicht, sofern sich der Webcrawler an das Protokoll hält.
Eine besondere Form von Webcrawlern sind Software-Agenten, bei denen eine Menge von autonomen Programmen das Web gemeinsam durchsuchen.
Siehe auch
Webspinnen (die Tiere), Wrapper, Metasuchmaschine, Bot