Such­ma­schi­nen wie Google nutzen schon lange so­ge­nann­te Crawler, die das Internet nach nut­zer­de­fi­nier­ten Begriffen durch­su­chen. Crawler sind besondere Arten von Bots, die Webseite nach Webseite besuchen, um As­so­zia­tio­nen zu Such­be­grif­fen zu erstellen und diese zu ka­te­go­ri­sie­ren. Den ersten Crawler gab es übrigens schon 1993, als die erste Such­ma­schi­ne – Jump­sta­ti­on – ein­ge­führt wurde.

Eine Technik des Crawlings ist das Web Scraping oder Web Har­ve­s­t­ing. Wir erklären, wie es funk­tio­niert, wofür genau es genutzt wird und wie man es ggf. blo­ckie­ren kann.

Web Scraping: De­fi­ni­ti­on

Beim Web Scraping (engl. scraping = „kratzen/ab­schür­fen“) werden Daten von Webseiten ex­tra­hiert und ge­spei­chert, um diese zu ana­ly­sie­ren oder an­der­wei­tig zu verwerten. Beim Scraping werden viele ver­schie­de­ne Arten von In­for­ma­tio­nen gesammelt. Das können z. B. Kon­takt­da­ten wie E-Mail-Adressen oder Te­le­fon­num­mern, aber auch einzelne Such­wör­ter oder URLs sein. Diese werden dann in lokalen Da­ten­ban­ken oder Tabellen gesammelt.

De­fi­ni­ti­on

Beim Web Scraping werden Texte aus Webseiten her­aus­ge­le­sen, um In­for­ma­tio­nen zu gewinnen und zu speichern. Dies ist mit einem au­to­ma­ti­schen Copy-and-Paste-Prozess ver­gleich­bar. Für die Bildsuche nennt sich der Prozess übrigens ganz treffend Image Scraping.

Wie funk­tio­niert Web Scraping?

Beim Scraping gibt es ver­schie­de­ne Funk­ti­ons­wei­sen, doch generell wird zwischen dem manuellen und dem au­to­ma­ti­schen Scraping un­ter­schie­den. Manuelles Scraping be­zeich­net das manuelle Kopieren und Einfügen von In­for­ma­tio­nen und Daten. Man kann dies mit dem Aus­schnei­den und Sammeln von Zei­tungs­ar­ti­keln ver­glei­chen. Manuelles Scraping wird nur dann durch­ge­führt, wenn man ver­ein­zelt In­for­ma­tio­nen finden und speichern will. Es ist ein sehr ar­beits­auf­wen­di­ger Prozess, der selten für große Mengen an Daten an­ge­wen­det wird.

Beim au­to­ma­ti­schen Scraping wird eine Software oder ein Al­go­rith­mus an­ge­wen­det, der mehrere Webseiten durch­sucht, um In­for­ma­tio­nen zu ex­tra­hie­ren. Je nach Art der Webseite und des Contents gibt es dafür eine spezielle Software. Beim au­to­ma­ti­schen Scraping werden ver­schie­de­ne Vor­ge­hens­wei­sen un­ter­schie­den:

  • Parser: Ein Parser (oder Über­set­zer) wird genutzt, um Text in eine neue Struktur um­zu­wan­deln. Beim HTML-Parsing bei­spiels­wei­se liest die Software ein HTML-Dokument aus und speichert die In­for­ma­tio­nen. DOM-Parsing nutzt die cli­ent­sei­ti­ge Dar­stel­lung der Inhalte im Browser, um Daten zu ex­tra­hie­ren.
  • Bots: Ein Bot ist eine Com­pu­ter­soft­ware, die sich be­stimm­ten Aufgaben widmet und diese au­to­ma­ti­siert. Beim Web Har­ve­s­t­ing werden Bots genutzt, um Webseiten au­to­ma­tisch zu durch­su­chen und Daten zu sammeln.
  • Text: Wer sich mit Command Line auskennt, kann Unix-grep-An­wei­sun­gen anwenden, um in Python oder Perl das Web nach be­stimm­ten Begriffen zu durch­fors­ten. Dies ist eine sehr einfache Methode, um Daten zu scrapen, erfordert al­ler­dings mehr Arbeit als das Einsetzen einer Software.
Hinweis

Was es beim Web Scraping mit Python zu beachten gibt, zeigen wir in diesem Tutorial. Dabei lässt sich der Selenium WebDriver leicht in­te­grie­ren, um Daten zu sammeln.

Für was wird Web Scraping genutzt?

Web Scraping wird für eine Vielzahl von Aufgaben genutzt. So lassen sich z. B. Kon­takt­da­ten oder spezielle In­for­ma­tio­nen schnell sammeln. Im pro­fes­sio­nel­len Bereich wird oft gescraped, um im Wett­be­werb Vorteile gegenüber Kon­kur­ren­ten zu erlangen. Durch Daten-Har­ve­s­t­ing kann eine Firma alle Produkte eines Kon­kur­ren­ten einsehen und mit den eigenen ver­glei­chen. Auch bei Fi­nanz­da­ten bringt Web Scraping einen Mehrwert: Die In­for­ma­ti­on werden von einer externen Website aus­ge­le­sen, in ein Ta­bel­len­for­mat über­tra­gen und können dann ana­ly­siert und wei­ter­ver­ar­bei­tet werden.

Ein gutes Beispiel für das Web Scraping ist Google. Die Such­ma­schi­ne nutzt die Tech­no­lo­gie, um Wet­ter­in­for­ma­tio­nen oder Preis­ver­glei­che von Hotels und Flügen an­zu­zei­gen. Viele der gängigen Preis­ver­gleichs­por­ta­le nutzen ebenfalls Scraping, um In­for­ma­tio­nen von vielen ver­schie­de­nen Webseiten und Anbietern dar­zu­stel­len.

Ist Web Scraping legal?

Das Scraping ist nicht immer legal, und Scraper müssen zunächst einmal die Ur­he­ber­rech­te einer Webseite be­rück­sich­ti­gen. Für manche Webshops und Anbieter hat das Web Scraping durchaus negative Kon­se­quen­zen, wenn z. B. durch Ag­gre­ga­to­ren das Ranking einer Seite leidet. Es kommt also nicht selten vor, dass ein Un­ter­neh­men ein Ver­gleichs­por­tal verklagt, um das Web Scraping zu un­ter­bin­den. In einem solchen Fall entschied al­ler­dings das OLG Frankfurt bereits 2009, dass eine Flug­ge­sell­schaft das Scraping durch Ver­gleichs­por­ta­le erlauben muss, weil ihre In­for­ma­tio­nen schließ­lich frei zu­gäng­lich seien. Die Fluglinie habe al­ler­dings die Mög­lich­keit, tech­ni­sche Maßnahmen zu in­stal­lie­ren, um das Scraping zu ver­hin­dern.

Das Scraping ist also dann legal, wenn die ex­tra­hier­ten Daten frei zu­gäng­lich für Dritte im Web stehen. Um rechtlich auf der sicheren Seite zu sein, sollte man folgendes beim Web Scraping beachten:

  • Das Ur­he­ber­recht einsehen und einhalten. Wenn Daten ur­he­ber­recht­lich geschützt sind, dann dürfen sie nicht woanders ver­öf­fent­licht werden.
  • Sei­ten­be­trei­ber haben ein Recht, tech­ni­sche Vorgänge zu in­stal­lie­ren, die das Web Scraping zu ver­hin­dern. Diese dürfen nicht umgangen werden.
  • Wenn das Nutzen von Daten mit einer User-Anmeldung oder einem Nut­zungs­ver­trag zu­sam­men­hängt, dann dürfen diese Daten nicht gescraped werden.
  • Das Aus­blen­den von Werbung, all­ge­mei­nen Nut­zungs­be­din­gun­gen oder Dis­clai­mern durch Scraping-Tech­no­lo­gie ist nicht erlaubt.

Obwohl das Scraping in vielen Fällen erlaubt ist, kann es durchaus zu de­struk­ti­ven oder gar illegalen Zwecken miss­braucht werden. So wird die Tech­no­lo­gie bei­spiels­wei­se oft für Spam ein­ge­setzt. Spammer können mit ihr z. B. E-Mail-Adressen sammeln und Spam-Mails an diese Empfänger senden.

Wie kann man das Web Scraping blo­ckie­ren?

Um Scraping zu blo­ckie­ren, können Betreiber von Webseiten ver­schie­de­ne Maßnahmen ergreifen. Die Datei robots.txt bei­spiels­wei­se wird ein­ge­setzt, um Such­ma­schi­nen-Bots zu blo­ckie­ren. Folglich ver­hin­dern sie auch das au­to­ma­ti­sche Scraping durch Software-Bots. IP-Adressen von Bots können ebenfalls gesperrt werden. Kon­takt­da­ten und per­sön­li­che In­for­ma­tio­nen lassen sich gezielt ver­ste­cken. Sensible Daten wie Te­le­fon­num­mern kann man außerdem in Bildform oder als CSS hin­ter­le­gen, was das Scrapen der Daten erschwert. Außerdem gibt es zahl­rei­che kos­ten­pflich­ti­ge Anbieter von Anti-Bot-Services, die eine Firewall ein­rich­ten können.

Bitte beachten Sie den recht­li­chen Hinweis zu diesem Artikel.

Zum Hauptmenü