Crawler sind der Grund dafür, dass Such­ma­schi­nen wie Google, Bing, Yahoo und Duck­Duck­Go immer aktuelle und neue Such­ergeb­nis­se liefern können. Wie Spinnen wandern die Bots durch das Netz, sammeln In­for­ma­tio­nen und legen diese in Indexen an. Doch wo kommen Web­craw­ler noch zum Einsatz und welche ver­schie­de­nen Crawler gibt es im World Wide Web?

ran­king­Coach
Er­folg­rei­ches Online-Marketing mit KI
  • Kos­ten­güns­tig: Google-Ranking ver­bes­sern ohne teure Agentur
  • Effizient: Re­zen­sio­nen be­ant­wor­ten, Posts für Social Media erstellen
  • Einfach: Keine SEO- oder Marketing-Kennt­nis­se nötig

Was ist ein Crawler?

Crawler sind Bots, die das Internet nach Daten durch­su­chen. Sie ana­ly­sie­ren Inhalte und legen In­for­ma­tio­nen in Da­ten­ban­ken und Indexen an, um die Leistung von Such­ma­schi­nen zu ver­bes­sern. Darüber hinaus sammeln sie für Marketing-Zwecke Kontakt- und Pro­fil­da­ten.

Da Crawler-Bots sich auf der Suche nach In­for­ma­tio­nen so sicher durch das Netz mit all seinen Ver­zwei­gun­gen bewegen wie Spinnen, sind sie auch als Spider Bots bekannt. Andere Be­zeich­nun­gen sind Search Bots und Web­craw­ler. Der erste Crawler trug den Namen World Wide Web Wanderer (kurz: WWW Wanderer) und basierte auf der Pro­gram­mier­spra­che PERL. Ab 1993 maß der WWW Wanderer das Wachstum des damals noch jungen Internets und legte die ge­sam­mel­ten Daten im ersten Internet-Index Wandex an.

Hinweis

Crawler sind vor allem für die Such­ma­schi­nen­op­ti­mie­rung (SEO) von we­sent­li­cher Bedeutung. So ist es für Un­ter­neh­men es­sen­zi­ell, sich mit den un­ter­schied­li­chen Arten und Funk­tio­nen der Web­craw­ler vertraut zu machen, um online SEO-op­ti­mier­te Inhalte anbieten zu können.

Wie funk­tio­niert ein Crawler?

Genau wie Social Bots und Chatbots setzen sich auch Crawler aus einem Code von Al­go­rith­men und Skripten zusammen, der klare Aufgaben und Befehle erteilt. Der Crawler wie­der­holt die im Code fest­ge­leg­ten Funk­tio­nen selbst­stän­dig und kon­ti­nu­ier­lich.

Crawler bewegen sich über Hy­per­links bereits vor­han­de­ner Websites durch das Web. Sie werten Keywords und Hashtags aus, in­de­xie­ren die Inhalte und URLs jeder Website, kopieren Webpages und öffnen alle oder nur eine Auswahl der ge­fun­de­nen URLs, um neue Websites zu ana­ly­sie­ren. Zudem über­prü­fen Crawler die Ak­tua­li­tät von Links und HTML-Codes.

Über spezielle Web­ana­ly­se-Tools können Web­craw­ler In­for­ma­tio­nen wie Sei­ten­auf­ru­fe und Ver­lin­kun­gen auswerten und im Sinne des Data Mining Daten sammeln oder (zum Beispiel für Ver­gleichs­por­ta­le) gezielt ver­glei­chen.

Hinweis

Immer häufiger nutzen Such­ma­schi­nen und spe­zia­li­sier­te Crawler auch künst­li­che In­tel­li­genz und Natural Language Pro­ces­sing (NLP), um Web­in­hal­te nicht nur technisch, sondern auch in­halt­lich besser zu verstehen. So können moderne Crawler bei­spiels­wei­se se­man­ti­sche Zu­sam­men­hän­ge, The­men­re­le­vanz oder Text­qua­li­tät ana­ly­sie­ren.

Welche Crawler-Arten gibt es?

Es gibt ver­schie­de­ne Web­craw­ler, die sich in ihrem Fokus und in ihrer Reich­wei­te un­ter­schei­den.

Such­ma­schi­nen-Crawler

Die älteste und häufigste Art von Web­craw­lern sind die Search­bots von Google oder al­ter­na­ti­ven Such­ma­schi­nen wie Yahoo, Bing oder Duck­Duck­Go. Sie sichten, sammeln und in­de­xie­ren Web-Content und op­ti­mie­ren so die Reich­wei­te und die Such­ma­schi­nen-Datenbank. Die Namen der be­kann­tes­ten Web­craw­ler sind:

  • GoogleBot (Google)
  • Bingbot (Bing)
  • Duck­Duck­Bot (Duck­Duck­Go)
  • Bai­du­spi­der (Baidu)
  • Yandex Bot (Yandex)
  • Sogou Spider (Sogou)
  • Exabot (Exalead)
  • GPTBot (OpenAI)
  • ClaudeBot (Anthropic)

Personal-Website-Crawler

Diese kleinen Crawler sind in ihrer Funktion einfach gehalten und können von einzelnen Un­ter­neh­men genutzt werden, um spe­zi­fi­sche Aufgaben zu erfüllen. So über­wa­chen sie zum Beispiel die Häu­fig­keit be­stimm­ter Such­be­grif­fe oder die Er­reich­bar­keit von be­stimm­ten URLs.

Kom­mer­zi­el­le Website-Crawler

Kom­mer­zi­el­le Crawler sind komplexe Software-Lösungen von Firmen, die Web­craw­ler als käufliche Tools anbieten. Sie bieten mehr Leis­tun­gen und Funk­tio­nen und sparen einem Un­ter­neh­men Zeit und Kosten, die eine eigene Crawler-Ent­wick­lung erfordern würde.

Cloud-Website-Crawler

Es gibt auch Website-Crawler, die Daten nicht auf lokalen Servern, sondern in einer Cloud speichern und die meist kom­mer­zi­ell als Service von Software-Firmen ver­trie­ben werden. Durch die Un­ab­hän­gig­keit von lokalen Computern lassen sich die Ana­ly­se­tools und Da­ten­ban­ken mit ent­spre­chen­dem Login-Zugang von jedem Gerät aus nutzen. Zudem lässt sich die An­wend­bar­keit skalieren.

Desktop-Website-Crawler

Man kann auch kleine Web­craw­ler auf dem eigenen PC oder Laptop laufen lassen. Diese sehr begrenzt ein­setz­ba­ren, günstigen Crawler können meist nur kleine Mengen an Daten und Websites auswerten.

Mobile-Crawler

Mobile-Crawler ana­ly­sie­ren Websites so, wie sie auf Smart­phones und Tablets dar­ge­stellt werden. Seit der Um­stel­lung auf Mobile-First-In­de­xie­rung durch Google sind sie ent­schei­dend für die Such­ma­schi­nen­plat­zie­rung. Sie können bei­spiels­wei­se Probleme bei der Dar­stel­lung erkennen und ent­spre­chend bewerten.

AI-Crawler

Bei AI-Crawlern handelt es sich um KI-basierte Web­craw­ler. Sie werden von Un­ter­neh­men ein­ge­setzt, um Inhalte aus dem Web zu ana­ly­sie­ren, zu bewerten oder für das Training großer Sprach­mo­del­le (LLMs) zu verwenden. Anders als klas­si­sche Such­ma­schi­nen­bots in­de­xie­ren sie Websites nicht nur, sondern verstehen die Inhalte auf einer se­man­ti­schen Ebene, ex­tra­hie­ren Wissen und nutzen es zur Ver­bes­se­rung von Modellen.

Wie gehen Crawler konkret vor?

Die konkrete Vor­ge­hens­wei­se eines Web­craw­lers besteht aus mehreren Schritten:

  1. Crawl-Frontier: Such­ma­schi­nen legen in einer Da­ten­struk­tur namens Crawl-Frontier fest, ob Crawler über bekannte, in­de­xier­te Websites und in Sitemaps an­ge­ge­be­ne Links neue URLs er­for­schen oder nur spe­zi­fi­sche Websites und Inhalte crawlen sollen.
  2. Seed-Set: Crawler erhalten von der Such­ma­schi­ne oder dem Auf­trag­ge­ber ein so­ge­nann­tes Seed-Set. Das Seed-Set ist eine Liste von bekannten oder zu er­for­schen­den Web-Adressen und URLs. Das Set baut auf bis­he­ri­gen In­de­xie­run­gen, Da­ten­ban­ken und Sitemaps auf. Crawler er­for­schen das Set, bis sie Schleifen oder tote Links erreichen.
  3. Index-Ergänzung: Durch die Seed-Analyse können Crawler neuen Web­con­tent auswerten und zum Index hin­zu­fü­gen. Alten Content ak­tua­li­sie­ren sie oder löschen URLs und Links aus dem Index, wenn diese nicht mehr exis­tie­ren.
  4. Crawling-Frequenz: Obwohl Crawler un­un­ter­bro­chen das Web er­for­schen, können Pro­gram­mie­rer bestimmen, wie oft sie URLs besuchen und auswerten sollen. Dafür ana­ly­sie­ren sie die Seiten-Per­for­mance, die Häu­fig­keit von Ak­tua­li­sie­run­gen und den Da­ten­ver­kehr. Darauf aufbauend de­fi­nie­ren die Pro­gram­mie­rer die Crawl-Nachfrage.
  5. In­de­xie­rungs­ma­nage­ment: Website-Ad­mi­nis­tra­to­ren können Crawler gezielt vom Besuch der eigenen Website aus­schlie­ßen. Dies ist durch so­ge­nann­te robots.txt-Pro­to­kol­le oder nofollow-HTML-Tags möglich. Crawler erhalten beim Aufrufen einer URL dadurch An­wei­sun­gen, eine Website zu meiden oder nur ein­ge­schränkt Daten aus­zu­wer­ten.
Hinweis

Seit 2020 behandelt Google das nofollow-Attribut nicht mehr als strikte Anweisung, sondern nur noch als Hinweis zur Bewertung von Links. Das bedeutet, dass Google nofollow-Links unter Umständen trotzdem crawlen und in­de­xie­ren kann. Für Website-Be­trei­be­rin­nen und -Betreiber heißt das: Wenn Sie Inhalte wirklich vom Crawling aus­schlie­ßen möchten, sollten Sie zu­sätz­lich auf die robots.txt oder das noindex-Tag achten.

Bild: Grafik: Die konkrete Vorgehensweise eines Crawlers – Schritt für Schritt
Die konkrete Vor­ge­hens­wei­se eines Crawlers – Schritt für Schritt

Welche Vorteile haben Crawler?

Kos­ten­güns­tig und effektiv: Web­craw­ler über­neh­men zeit- und kos­ten­in­ten­si­ve Analyse-Aufgaben und können schneller, günstiger und um­fas­sen­der Web-Content scannen, ana­ly­sie­ren und in­de­xie­ren als Menschen.

Einfache Anwendung, große Reich­wei­te: Web­craw­ler lassen sich schnell und einfach im­ple­men­tie­ren und ga­ran­tie­ren um­fas­sen­de und kon­ti­nu­ier­li­che Da­ten­samm­lung und -analyse.

Ver­bes­se­rung der Online-Re­pu­ta­ti­on: Mit Crawlern lässt sich das eigene Online-Marketing durch die Aus­wei­tung und Fo­kus­sie­rung des eigenen Kun­den­spek­trums op­ti­mie­ren. Zudem können Crawler die Online-Re­pu­ta­ti­on eines Un­ter­neh­mens durch die Erfassung von Kom­mu­ni­ka­ti­ons­mus­tern in sozialen Medien ver­bes­sern.

Gezielte Werbung: Durch Data Mining und gezielte Werbung lassen sich spe­zi­fi­sche Kun­den­grup­pen an­spre­chen. Websites mit hoher Crawling-Frequenz werden in Such­ma­schi­nen höher gelistet und erhalten mehr Aufrufe.

Aus­wer­tung von Un­ter­neh­mens- und Kun­den­da­ten: Un­ter­neh­men können durch Crawler online ver­füg­ba­re Kunden- und Un­ter­neh­mens­da­ten auswerten, ana­ly­sie­ren und für das eigene Marketing und die Un­ter­neh­mens­stra­te­gie nutzen.

SEO-Op­ti­mie­rung: Durch Aus­wer­tung von Such­be­grif­fen und Keywords lassen sich Fokus-Keywords de­fi­nie­ren, die Kon­kur­renz ein­gren­zen und Sei­ten­auf­ru­fe erhöhen.

Weitere An­wen­dungs­mög­lich­kei­ten sind:

  • kon­ti­nu­ier­li­che Über­wa­chung von Systemen, um Schwach­stel­len zu finden
  • Ar­chi­vie­rung alter Websites
  • Vergleich von ak­tua­li­sier­ten Websites mit alten Versionen
  • Aufspüren und Entfernen toter Links
  • Un­ter­su­chung des Keyword-Such­vo­lu­mens
  • Aufspüren von Schreib­feh­lern und anderen feh­ler­haf­ten Inhalten

Wie lässt sich die Crawling-Frequenz einer Website erhöhen?

Wenn Sie möchten, dass Ihre Website in Such­ma­schi­nen möglichst weit oben steht und re­gel­mä­ßig von Web­craw­lern besucht wird, sollten Sie es den Bots so leicht wie möglich machen, Ihre Website zu finden. Wer eine hohe Crawling-Frequenz hat, erhält in Such­ma­schi­nen eine höhere Priorität. Soll eine Website von Crawlern leichter gefunden werden, sind folgende Faktoren ent­schei­dend:

  • Die Website hat ver­schie­de­ne wei­ter­füh­ren­de Links und ist auch auf anderen Websites verlinkt. So finden Crawler Ihre Website nicht nur über Links, sondern können die Website als wei­ter­füh­ren­den Knoten und nicht nur als Ein­bahn­stra­ße werten.
  • Der Website-Content ist stets ak­tua­li­siert und aktuell gehalten. Dies betrifft Inhalte, Links und HTML-Code.
  • Die Er­reich­bar­keit des Servers ist ge­währ­leis­tet.
  • Die Ladezeit der Website ist gut.
  • Es gibt keine doppelten oder über­flüs­si­gen Links und Inhalte.
  • Sitemap, robots.txt und http-Response-Header ver­mit­teln dem Crawler bereits wichtige In­for­ma­tio­nen über die Website.

Web­craw­ler und Scraper: Was ist der Un­ter­schied?

Obwohl man sie oft mit­ein­an­der gleich­setzt, zählen Web­craw­ler und Scraper nicht zur gleichen Art von Bot. Während Web­craw­ler in erster Linie Web-Inhalte suchen, in Indexen anlegen und bewerten, haben Scraper vor allem die Aufgabe, durch Web Scraping Daten von Websites zu ex­tra­hie­ren.

Obwohl es zwischen einem Crawler und einem Scraper Über­schnei­dun­gen gibt und auch Crawler oftmals Web-Scraping anwenden, indem sie Web­in­hal­te kopieren und ab­spei­chern, sind ihre Haupt­funk­tio­nen das Abrufen von URLs, die Analyse der Inhalte und die Er­wei­te­rung des Index um neue Links und URLs.

Scraper wiederum haben in erster Linie die Funktion, spe­zi­fi­sche URLs zu besuchen, spe­zi­fi­sche Daten der Websites zu entnehmen und diese in Da­ten­ban­ken für späteren Gebrauch zu speichern.

Zum Hauptmenü