Spider

Spider sind Softwareprogramme, die von Suchmaschinen wie Google oder Bing genutzt werden, um das Internet zu durchsuchen. Die so gesammelten Informationen werden dann in ihren Index durch die Spider aufgenommen. Spider sind auch als Crawler, Roboter oder einfach Bots bekannt. Ohne diese Tools könnten Suchmaschinen nicht funktionieren. Der Spider oder Crawler durchsucht und analysiert die Websites auf bestehende und neue Informationen und sendet diese an die Datenbank der Suchmaschine. Für die Suchmaschinenoptimierung ist es daher von besonderem Belang, die Websites möglichst spiderfreundlich zu gestalten. Der erste Webcrawler war übrigens im Jahr 1993 der World Wide Web Wanderer, der dazu dienen sollte, das Wachstum des Internets zu messen. Den Namen (Web)Crawler, der meist häufiger als Spider benutzt wird, leitet sich von der ersten öffentlich erreichbaren Suchmaschine mit Volltextsuche aus dem Jahr 1994 her, die eben WebCrawler hieß.

So funktioniert ein Spider

Damit die Suchmaschinen perfekt funktionieren und den Suchenden relevante Informationen in Form von Websites und anderen Inhalten bereitstellen können, müssen sie natürlich wissen, was es im World Wide Web überhaupt alles gibt. Dafür werden Spider eingesetzt. Sie sammeln Informationen, analysieren sie, navigieren durch die Websites anhand der Linkstrukturen und erstellen Listen.

Wir eine Webseite von einem Crawler bzw. Spider durchsucht, liest er den gesamten Text, Meta-Tags, Bildinformationen, Hyperlinks und den Code der Webseite aus. Mit all diesen Informationen erstellt er ein Profil der Webseite, welches er der Suchmaschine zur Verfügung stellt. Zusätzlich zu den Inhalten auf dieser speziellen Webseite folgt der Bot dann noch weiteren Pfaden wie Links auf andere Webseiten.

Die Daten werden in unterschiedlichen Modi gesammelt. Einer ist dafür da, die Warteschlangen für Websites zu erstellen, die dann durch andere Spider durchsucht werden sollen. Ein anderer überspringt Seiten, die bereits von einem Bot derselben Suchmaschine durchsucht wurden. Der Modus politeness, den einige Suchmaschinen verwenden, crawlt nur überarbeitete Seiten, um ein zu häufiges Crawlen zu verhindern. Und schlussendlich schafft ein weiterer Modus die Möglichkeit der Koordination der Spider, die die gleiche Seite durchsucht haben oder durchsuchen.

Spider und SEO

Spider sind die Voraussetzung dafür, dass Webseiten überhaupt in der Ergebnisliste der Suchmaschinen angezeigt und gerankt werden. Sie folgen dafür permanent Links im WWW und haben dafür nur eine begrenzte Zeit zur Verfügung (CrawlBudget). Optimiert man also seine Website, die Datenstruktur, die Navigation und die Dateigrößen, so erleichtert man dem Crawler seine Arbeit. Er findet sich schneller durch die Strukturen und Inhalte und kann in seiner begrenzten Zeit mehr erfassen. Je häufiger eine Website von normalen Usern, keinen Bots, besucht wird und je mehr Links sie hat (interne und externe Links), desto höher wird das CrawlBudget.