Sun, 22 Dec 2024 13:20:06 GMT |
3.147.66.224 |
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +claudebot@anthropic.com) |
1734873606 |
Der erste Webcrawler war 1993 der World Wide Web Wanderer, der das Wachstum des Internets messen sollte. 1994 startete mit WebCrawler die erste öffentlich erreichbare WWW-Suchmaschine mit Volltextindex. Von dieser stammt auch der Name Webcrawler für solche Programme. Da die Anzahl der Suchmaschinen rasant wuchs, gibt es heute eine Vielzahl von unterschiedlichen Webcrawlern. Diese erzeugten nach einer Schätzung von 2002 bis zu 40 % des gesamten Internet-Datenverkehr
Mit Hilfe des Robots Exclusion Standards kann ein Webseitenbetreiber in der Datei robots.txt und in bestimmten Meta-Tags im HTML-Header einem Webcrawler mitteilen, welche Seiten er indexieren soll und welche nicht, sofern sich der Webcrawler an das Protokoll hält. Zur Bekämpfung unerwünschter Webcrawler gibt es auch spezielle Webseiten, sogenannte Teergruben, die den Webcrawlern falsche Informationen liefern und diese zusätzlich stark ausbremsen.
Webcrawler werden auch zum Data-Mining und zur Untersuchung des Internets (Webometrie) eingesetzt und müssen nicht zwangsläufig auf das WWW beschränkt sein