„Spam will be a thing of the past in two years’ time!” Mit dieser Pro­phe­zei­ung über­rasch­te Bill Gates die Öf­fent­lich­keit im Jahr 2004 im Rahmen des World Economic Forums in Davos. Ein fataler Irrtum, der die In­ter­net­ge­mein­de noch heute zum Lachen bringt und dem Microsoft-Mit­be­grün­der ver­mut­lich für alle Zeiten einen Platz in der Liste der spek­ta­ku­lärs­ten Falsch­aus­sa­gen der IT-Branche sichert.

Nicht mal Gates hatte 2004 eine Vor­stel­lung davon, welche Ent­wick­lung Spam in den kommenden 12 Jahren nehmen sollte. Noch heute vergeht für die meisten In­ter­net­nut­zer nicht ein Tag, an dem sie nicht mit au­to­ma­tisch ge­ne­rier­ten Werbe-Inhalten kon­fron­tiert werden: sei es im E-Mail-Postfach, auf dem Lieblings-Blog, in der Kom­men­tar­funk­ti­on eines On­line­shops oder im Gästebuch der eigenen Homepage.

Tat­säch­lich werden Spam-Bots immer in­tel­li­gen­ter. Die weit­ge­hend autonom agie­ren­den Com­pu­ter­pro­gram­me durch­fors­ten das Internet nach For­mu­lar­fel­dern und anderen in­ter­ak­ti­ven Webseiten-Elementen, um die Wer­be­bot­schaf­ten Ihrer Pro­gram­mie­rer zu plat­zie­ren – und über­win­den dabei selbst aus­ge­klü­gel­te Anti-Spam-Verfahren im Hand­um­dre­hen.

Als Bollwerk gegen Spam-Kom­men­ta­re galt lange Zeit das Captcha. Doch die nervigen Abfragen stellen für mensch­li­che Nutzer heute oft ein größeres Hindernis als für die aus­ge­klü­gel­ten Programme. Tat­säch­lich ergaben aktuelle Studien zur Captcha-Tech­no­lo­gie, dass bei den eta­blier­ten Verfahren Spam-Bots häufig eine geringe Feh­ler­quo­te aufweisen als Menschen. Ist das das Ende der Captcha-Codes, Bil­der­puz­zle und Logik-Rätsel? Wir liefern Ihnen einen Überblick über die An­wen­dungs­be­rei­che der Captcha-Tech­no­lo­gie, stellen ver­schie­de­ne Captcha-Typen gegenüber und zeigen auf, welche Al­ter­na­ti­ven der Spam-Prä­ven­ti­on es gibt.

Was ist ein Captcha?

Bei einem Captcha handelt es sich um ein Verfahren im Rahmen des Spam­schut­zes. Ziel ist es, in­ter­ak­ti­ve Webseiten vor Miss­brauch zu schützen, indem au­to­ma­tisch ge­ne­rier­te Eingaben aus­ge­fil­tert werden. Das Akronym Captcha steht für „Completely Automated Public Turing test to tell Computers and Humans Apart”. Ins Deutsche übersetzt ist ein Captcha der De­fi­ni­ti­on zufolge somit ein „voll­au­to­ma­ti­scher öf­fent­li­cher Turing-Test zur Un­ter­schei­dung von Computern und Menschen“.

Bereits 1950 schlug der In­for­ma­ti­ker Alan Turing ein Verfahren vor, um das Denk­ver­mö­gen künst­li­cher In­tel­li­genz auf die Probe zu stellen. Dem Com­pu­ter­pio­nier zufolge ist eine Maschine in der Lage, das mensch­li­che Denk­ver­mö­gen nach­zu­ah­men, wenn es ihr gelingt, sich in einem Chat mit Menschen zu un­ter­hal­ten, ohne dass diese bemerken, dass es sich um einen Computer handelt.

Der Turing-Test ging in die Ge­schich­te der KI-Forschung (Künst­li­che In­tel­li­genz) ein und wurde erst 2014 von einem Com­pu­ter­pro­gramm bestanden: Als erste Maschine der Welt gelang es dem Su­per­com­pu­ter Eugene Goostman mehr als 30 Prozent einer un­ab­hän­gi­gen Jury für min­des­tens 5 Minuten zu täuschen. Eugene gab sich er­folg­reich als ukrai­ni­scher Teenager mit Meer­schwein­chen aus, der sich für die politisch in­kor­rek­ten Texte des Rappers EMINEM be­geis­tern kann.

Was sich nach Science-Fiction anhört, ist heute eines der Kern­pro­ble­me des Internets. Für in­ter­ak­ti­ve Webseiten ist es von zentraler Bedeutung, im Rahmen einer Human Ve­ri­fi­ca­ti­on mensch­li­che Web­sei­ten­be­su­cher von Com­pu­ter­pro­gram­men un­ter­schei­den zu können. Immer raf­fi­nier­te­re Captchas sollen dabei helfen, au­to­ma­ti­sche Eingaben oder Abfragen von Spam- und Click-Robotern (Bots) ab­zu­weh­ren.

Welchem Ver­wen­dungs­zweck dienen Captchas?

Zum Einsatz kommen Captchas meist dann, wenn Web­an­wen­dun­gen Nut­zer­ein­ga­ben erfordern. Stellen Sie sich vor, Sie betreiben einen On­line­shop und geben Ihren Kunden die Mög­lich­keit, durch eine Kom­men­tar­funk­ti­on Pro­dukt­be­wer­tun­gen zu verfassen. In diesem Fall möchten Sie si­cher­stel­len, dass die Einträge tat­säch­lich von Ihren Kunden oder zumindest von mensch­li­chen Besuchern Ihrer Website stammen. Häufig findet man statt­des­sen unter den Produkten zahl­rei­che au­to­ma­tisch ge­ne­rier­te Spam-Beiträge – im schlimms­ten Fall mit Links zur Kon­kur­renz.

Begrenzen lässt sich dieser Schaden, indem Sie Online-Formulare durch ein Captcha absichern, mit dem sich Nutzer zunächst als Menschen ve­ri­fi­zie­ren müssen, bevor sie ihre Eingaben absenden können. Captchas finden sich heute in nahezu allen Bereichen, in denen es mensch­li­che Nutzer von Bots zu un­ter­schei­den gilt. Das betrifft bei­spiels­wei­se An­mel­de­for­mu­la­re für E-Mail-Services, News­let­ter, Com­mu­ni­ties und soziale-Netzwerke, aber auch Online-Umfragen oder Web-Services wie Such­ma­schi­nen­diens­te.

Im Laufe der Zeit ent­wi­ckel­te man ver­schie­de­ne Methoden, um eine Human Ve­ri­fi­ca­ti­on durch­zu­füh­ren. Grund­sätz­lich gilt jedoch: Kein eta­blier­tes Verfahren bietet eine 100-pro­zen­ti­ge Si­cher­heit vor Spam und in jedem Fall geht die Captcha-Tech­no­lo­gie mit Einbußen in der Be­nut­zer­freund­lich­keit einher.

Welche Arten von Captchas gibt es?

Dem Konzept des Captchas liegt die Annahme zugrunde, dass trotz der rasanten Fort­schrit­te der KI-Forschung nach wie vor Un­ter­schie­de zwischen der ge­dank­li­chen Leis­tungs­fä­hig­keit eines Menschen und der eines Com­pu­ter­pro­gramms bestehen. Jedes Captcha umfasst daher min­des­tens eine Aufgabe, die von mensch­li­chen Nutzern ohne weiteres zu be­wäl­ti­gen sein sollte, Maschinen in der Theorie jedoch vor ein un­lös­ba­res Problem stellt.

Captcha-basierte Verfahren zur Human Ve­ri­fi­ca­ti­on lassen sich grob in text- und bild­ba­sier­te Captchas, Audio-Captchas, ma­the­ma­ti­sche Captchas, Logik-Captchas und Ga­mi­fi­ca­ti­on-Captchas un­ter­tei­len.

Text­ba­sier­te Captchas

Die älteste Form der Human Ve­ri­fi­ca­ti­on ist das text­ba­sier­te Captcha. Dabei werden bekannte Wörter oder zufällige Kom­bi­na­tio­nen aus Buch­sta­ben und Ziffern ver­frem­det. Um die Prüfung zu bestehen, muss ein Nutzer das in der Captcha-Box dar­ge­stell­te Lö­sungs­wort ent­zif­fern und über die Tastatur in ein dafür vor­ge­se­he­nes Textfeld eingeben. Klas­si­sche Verfahren, die bei der Er­stel­lung text­ba­sier­ten Captchas zum Einsatz kommen, sind Gimpy, ez-Gimpy, Gimpy-r und Simard’s HIP.

Die Ver­frem­dung umfasst ver­schie­de­ne Schritte, bei denen die einzelnen Zeichen des Lö­sungs­wor­tes verzerrt, skaliert, rotiert oder gekrümmt und mit zu­sätz­li­chen gra­fi­schen Elementen wie Linien, Bögen, Punkten, Farb­ver­läu­fe oder Hin­ter­grund­rau­schen kom­bi­niert werden. Folgende Grafik zeigt eine Auswahl möglicher Text­trans­for­ma­tio­nen, die einem im Internet begegnen können.

Einen zu­ver­läs­si­gen Schutz vor Spam gewähren Text-Captchas nur dann, wenn das dar­ge­stell­te Lö­sungs­wort für Programme mit au­to­ma­ti­scher Tex­terken­nung eine un­über­wind­ba­re Hürde darstellt. In der Regel setzt dies jedoch eine Ver­frem­dung voraus, die auch die Les­bar­keit für mensch­li­che Nutzer si­gni­fi­kant ein­schränkt.

De­mons­trie­ren lässt sich dies an folgenden Bei­spie­len. Wer bei GMX eine kos­ten­lo­se E-Mail-Adresse re­gis­trie­ren möchte, wird mit text­ba­sier­ten Captchas nach folgendem Schema kon­fron­tiert.

Ein mensch­li­cher Nutzer erkennt unschwer die Zeichen n88n5. Anders hingegen ist dies bei folgendem Captcha, das auf Facebook zum Einsatz kommt, um au­to­ma­ti­sche Abfragen durch Spambots zu ver­hin­dern.

Hier lautet die korrekte Lösung trM7wsL. Das zweite Zeichen des stark ver­frem­det dar­ge­stell­ten Lö­sungs­wor­tes könnte von Nutzern jedoch ebenso gut als p oder o gewertet werden.

Während man sich beim ersten Captcha fragt, ob dieses für eine aus­ge­reif­te Tex­terken­nungs­soft­ware tat­säch­lich ein Hindernis dar­ge­stellt, geht die Ver­frem­dung im zweiten Beispiel so weit, dass selbst mensch­li­che Nutzer über­for­dert sein könnten. In der Regel be­inhal­tet ein gut im­ple­men­tier­tes Captcha daher die Mög­lich­keit, das aktuelle Lö­sungs­wort zu über­sprin­gen und es mit einem anderen, etwas besser lesbaren zu versuchen. Doch Sie können sich die „Be­geis­te­rung“ von Web­sei­ten­be­su­chern vor­stel­len, die häufiger mit Captchas dieser Art kon­fron­tiert werden.

Im Laufe der Zeit haben sich daher zahl­rei­che Al­ter­na­ti­ven zur text­ba­sier­ten Captcha-Tech­no­lo­gie etabliert. Eine pro­mi­nen­te Variante des klas­si­schen Text-Captchas bietet Google mit reCAPTCHA an. Statt zufällige Lö­sungs­wör­ter zu ge­ne­rie­ren, speist sich reCAPTCHA aus diversen Di­gi­ta­li­sie­rungs­pro­jek­ten wie Google Books oder Google Street View. Nutzer bekommen bei­spiels­wei­se Stra­ßen­na­men, Haus­num­mern, Verkehrs- und Orts­schil­der sowie Fragmente ein­ge­scann­ter Text­ab­schnit­te angezeigt, müssen diese ent­zif­fern und über die Tastatur in ein Textfeld eingeben. Die Software bietet dabei stets zwei Elemente an – ein bekanntes, bereits be­stä­tig­tes sowie ein bisher noch un­be­stä­tig­tes. Prin­zi­pi­ell müssen Nutzer lediglich das erste Element erkennen, um das Captcha er­folg­reich zu ab­sol­vie­ren. Nutzer, die auch das zweite Element ent­zif­fern, nehmen damit an Googles Di­gi­ta­li­sie­rungs­pro­gramm teil. Ve­ri­fi­ziert werden die Eingaben auf sta­tis­ti­scher Basis. Die zu ent­zif­fern­den Elemente werden stets mehreren Nutzern prä­sen­tiert. Die häufigste Antwort gilt als richtig.

Folgendes Beispiel zeigt zwei un­ter­schied­lich ge­stal­te­te reCAPTCHA-Abfragen, die Nutzern bei­spiels­wei­se im Rahmen von Community-An­mel­dun­gen begegnen.

Bild­ba­sier­te Captchas

Eine Al­ter­na­ti­ve zu Text-Captchas stellen bild­ba­sier­te Verfahren dar. Statt Nutzern ein ver­frem­de­tes Lö­sungs­wort aus Ziffern und Buch­sta­ben zu prä­sen­tie­ren, stützen sich bild­ba­sier­te Captchas auf schnell er­fass­ba­re grafische Elemente. In der Regel werden mehrere Fotos all­täg­li­cher Motive ne­ben­ein­an­der dar­ge­stellt. Der Nutzer hat die Aufgabe, ein be­stimm­tes Motiv an­zu­kli­cken, ähnliche Motive zu iden­ti­fi­zie­ren oder einen se­man­ti­schen Zu­sam­men­hang dar­zu­stel­len.

Folgendes Beispiel zeigt ein bild­ba­sier­tes Captcha, das im Rahmen des Google Dienstes reCAPTCHA zum Einsatz kommt. Der Nutzer wird auf­ge­for­dert, alle Bilder aus­zu­wäh­len, auf denen Kaffee ab­ge­bil­det ist.

Al­ter­na­tiv verwendet Google Captchas, bei denen Nutzer lediglich bestimmte Bereiche eines Fotos auswählen sollen – bei­spiels­wei­se alle Felder auf denen Teile eines Stra­ßen­schil­des dar­ge­stellt sind. Anders als bei text­ba­sier­ten re­CAPTCHAs genügt ein Klick auf die ent­spre­chen­den Bild­be­rei­che, um den Prüf­schritt zu ab­sol­vie­ren.

Die meisten Nutzer erfassen die Lösung eines bild­ba­sier­ten Captchas mit wenigen Blicken. Die Fähigkeit von Com­pu­ter­pro­gram­men, ein ab­ge­bil­de­tes Motiv zu erfassen, se­man­tisch ein­zu­ord­nen und gleich­ar­ti­ge Motive zu klas­si­fi­zie­ren, ist heut­zu­ta­ge jedoch noch stark begrenzt. Bild­ba­sier­ten Captchas wird daher eine höhere Schutz­wir­kung zu­ge­spro­chen als text­ba­sier­ten Verfahren.

Audio-Captcha

Text- und Bild-Captchas lassen sich den gra­fi­schen Human-Ve­ri­fi­ca­ti­on-Verfahren zuordnen. Ob ein mensch­li­cher Nutzer einen solchen Prüf­schritt ohne weiteres passieren kann, hängt maß­geb­lich mit dessen Fähigkeit zusammen, die dar­ge­stell­ten Text- oder Bild­in­for­ma­tio­nen zu erkennen. Für Menschen mit ein­ge­schränk­ter Seh­fä­hig­keit bzw. Seh­be­hin­de­rung kann ein gra­fi­sches Captcha eine un­über­wind­ba­re Hürde dar­stel­len. Captchas, die lediglich über einen der mensch­li­chen Sinne wahr­nehm­bar sind, weisen daher eine geringe Usability (Ge­brauchs­taug­lich­keit) auf und gelten als nicht bar­rie­re­frei. Web­sei­ten­be­trei­ber, die Captchas einsetzen, sollten daher darauf achten, dass das gewählte Prüf­ver­fah­ren Nutzern mehrere Lö­sungs­we­ge auf ver­schie­de­nen Sin­ne­s­ka­nä­len zur Verfügung stellt.

Um auch seh­be­hin­der­ten Menschen einen Zugang zu captcha-ge­schütz­ten Bereichen einer Web­an­wen­dung zu er­mög­li­chen, werden text- oder bild­ba­sier­te Prüf­ver­fah­ren in der Regel mit so­ge­nann­ten Audio-Captchas kom­bi­niert. Oft wird dazu eine Schalt­flä­che im­ple­men­tiert, mit der Nutzer bei Bedarf er­satz­wei­se eine Audio-Aufnahme abrufen – zum Beispiel eine kurze Zah­len­fol­ge, die in ein dafür vor­ge­se­he­nes Ein­ga­be­feld ein­ge­tippt wird.

Google setzt Audio-Captchas derzeit fol­gen­der­ma­ßen um:

Ma­the­ma­ti­sche Aufgaben und Logik-Captchas

Eine Captcha-Al­ter­na­ti­ve, die ebenfalls die Be­dürf­nis­se seh­be­hin­der­ter Menschen be­rück­sich­tigt, setzt auf ma­the­ma­ti­sche Aufgaben oder Rätsel, um Spam-Bots aus­zu­sie­ben. Eine Auf­ga­ben­stel­lung wie folgende, lässt sich bei Bedarf auch mit einem Screen­rea­der auslesen und steht Nutzern somit auch über nicht-visuelle Aus­ga­be­ge­rä­te zur Verfügung.

Einfache ma­the­ma­ti­sche Re­chen­auf­ga­ben setzen in der Regel lediglich Grund­schul­wis­sen voraus, stellen damit jedoch auch für Spambots kein großes Hindernis dar. Zumal Computer Menschen im Umgang mit Zahlen deutlich überlegen sind. Diese Art des Capchas wird daher oft mit den ver­schie­de­nen Mög­lich­kei­ten der Text­ver­frem­dung kom­bi­niert, was jedoch die Zu­gäng­lich­keit für Screen­rea­der zu­nich­te­macht. Deutlich schwie­ri­ger wird es für Programme, wenn das Re­chen­er­geb­nis nicht als Ziffer, sondern als Zahlwort abgefragt wird oder lediglich eine einzelne Ziffer des Er­geb­nis­ses ein­ge­tra­gen werden soll (Beispiel: Rechne 7 x 7 und trage die erste Ziffer des Er­geb­nis­ses in das dafür vor­ge­se­he­ne Feld ein. Das Re­chen­er­geb­nis wäre 49, aber die Captcha-Lösung 4).

Neben Re­chen­auf­ga­ben kommen auch logische Aufgaben oder auf All­ge­mein­wis­sen beruhende Fragen in Captchas zum Einsatz. Oft mit the­ma­ti­schem Bezug zur je­wei­li­gen Web­an­wen­dung. In einem Forum zum The­men­spek­trum HiFi und Audio wird die Be­nut­zer­re­gis­trie­rung bei­spiels­wei­se mit folgendem Captcha geschützt.

Logik-Captchas umfassen Fragen, die mensch­li­chen Nutzern trivial er­schei­nen mögen. Klas­si­sche Spam-Bots sind in der Regel jedoch nicht in der Lage, folgende Zu­sam­men­hän­ge her­zu­stel­len.

Nenne alle Farbe in der Liste: Apfel, Grün, Orange, Tomate, Gelb. (Ant­wort­wort: Grün, Gelb)

Geben Sie das fünfte Wort in diesem Satz ein. (Antwort: Wort)

Wie lautet der dritte Buchstabe des vor­let­zen­den Wortes? (Antwort: r)

Wie viele Euter hat eine Kuh? (Antwort: einen)

Captchas dieser Art werden meist so gestaltet, dass mehrere Ant­wort­va­ria­tio­nen (zum Beispiel Groß- und Klein­schrei­bung) zum ge­wünsch­ten Ergebnis führen.

Ga­mi­fi­ca­ti­on-Captchas

Web­sei­ten­be­trei­ber, die be­fürch­ten, Ihre Besucher mit kryp­ti­schen Text-Captchas oder kniff­li­gen Mathe-Aufgaben zu ver­schre­cken, können sich den Trend zur Ga­mi­fi­ca­ti­on zunutze machen. Anbieter wie Sweet­Captcha und Fun­Captcha bieten mehr oder weniger un­ter­halt­sa­me Mi­ni­spie­le, die sich als Ga­mi­fi­ca­ti­on-Captcha einbinden lassen.

Sweet­Captcha verlässt sich auf die As­so­zia­ti­ons­fä­hig­keit des Menschen und stellt Web­sei­ten­be­su­chern einfache Zu­ord­nungs­auf­ga­ben. In folgendem Beispiel genügt es, die Drum­sticks auf die Trommel zu bewegen, um sich als Mensch zu outen.

Sweet­Captcha nutzt somit eine Variation klas­si­scher Puzzle-Captchas, bei denen Nutzer Bild­ele­men­te per Drag&Drop in die richtige Position bewegen müssen.

Bei Fun­Captcha hingegen dreht sich alles im Kreis. Erst wenn sich der Hund in der richtigen Position befindet, gibt sich die Software mit der Eingabe zufrieden und lässt den Benutzer passieren.

Zugegeben, richtiger Spaß sieht anders aus, aber un­ter­halt­sa­mer als ein ver­zerr­ter Text­schnip­sel ist so ein Ga­mi­fi­ca­ti­on-Captcha allemal.

Vor- und Nachteile von Captchas?

Ist ein Captcha in der Lage, Spambots zu­ver­läs­sig ab­zu­weh­ren, mensch­li­che Nutzer jedoch un­ge­hin­dert passieren zu lassen, reduziert dies den Ad­mi­nis­tra­ti­ons­auf­wand einer Website erheblich. Sei­ten­be­trei­ber die user-ge­ne­rier­ten Content anbieten, sparen sich die Mühe, Beiträge manuell zu ve­ri­fi­zie­ren. Zudem wird ein Server deutlich entlastet, wenn au­to­ma­ti­sche Eingaben und Abfragen, bereits ab­ge­blockt werden, bevor diese res­sour­cen­in­ten­si­ve Re­ak­tio­nen des Systems her­vor­ru­fen. Doch was macht ein gutes Captcha aus? Die KI-Forschung macht kon­ti­nu­ier­lich Fort­schrit­te. Die Fähigkeit spe­zia­li­sier­ter Programme, ver­frem­de­te Texte aus­zu­le­sen oder logische Aufgaben zu lösen, ver­bes­sert sich rasant. Bereits 2014 ver­öf­fent­lich­te ein Google-For­scher­team einen Ansatz (PDF-Download via arxiv.org), mit dem sich klas­si­sche re­CAPTCHAs in 99,8 Prozent der Fälle au­to­ma­tisch lösen lassen. Als Da­ten­ba­sis kamen 10 Millionen an­no­tier­te Haus­num­mern zum Einsatz, die das Team via Google Street View ge­ne­rier­te. Viele Captcha-Anbieter versuchen die Fort­schrit­te im Ma­schi­nen­ler­nen durch immer schwie­ri­ge­re Prü­fungs­ver­fah­ren zu kom­pen­sie­ren. In der Praxis streifen Captchas dabei nicht selten die Grenze der Un­lös­bar­keit. Bereits 2010 zeigten Forscher der Stanford Uni­ver­si­ty (PDF-Dowload via http://web.stanford.edu), dass Capchas in vielen Fällen selbst für mensch­li­che In­ter­net­nut­zer eine große Her­aus­for­de­rung dar­stel­len. In einer Studie wurden mehr als 1.100 Personen gebeten, rund 318.000 Captchas aus den damals ge­bräuch­lichs­ten Schemata zu lösen. Im Durch­schnitt ab­sol­vier­ten die Ver­suchs­per­so­nen grafische Captchas in 9,8 Sekunden. Für Audio-Captchas be­nö­tig­ten die Probanden mit 28,4 Sekunden mehr als dreimal so viel Zeit. Wurde ein und dasselbe grafische Captcha 3 ver­schie­de­nen Ver­suchs­per­so­nen gezeigt, kamen diese nur in 71 Prozent der Fälle zur selben Lösung. Bei Audio-Captchas war die Über­ein­stim­mung mit 31 Prozent noch deutlich geringer. Zudem stellten die Forscher bei au­dio­ba­sier­ten Capchas eine Ab­sprungra­te von 50 Prozent fest. Ob eine Human Ve­ri­fi­ca­ti­on zum Einsatz kommt und wie diese rea­li­siert wird, wirkt sich somit auch auf die Mo­ti­va­ti­on eines Besuchers aus, mit der je­wei­li­gen Website zu in­ter­agie­ren. Bereits 2009 ver­öf­fent­li­che das SaaS-Un­ter­neh­men MOZ in diesem Zu­sam­men­hang einen Blog­ar­ti­kel über den Effekt von Captchas auf die Con­ver­si­on-Rates von Web-For­mu­la­ren. In einer Fall­stu­die un­ter­such­te der YouMoz-Autor Casey Henry über einen Zeitraum von 6 Monaten mehr als 50 ver­schie­den Un­ter­neh­mens-Websites und kam zu dem Ergebnis, dass die Converion-Rates von Online-For­mu­la­ren (z. B. im Rahmen der News­let­ter-Anmeldung) im Durch­schnitt um 3,2 Prozent sanken, wenn Captchas aktiviert waren. Al­ler­dings re­du­zier­te sich auch das Spam-Aufkommen um 88 Prozent. Gerade Un­ter­neh­men, die Einnahmen dadurch ge­ne­rie­ren, dass In­ter­net­nut­zer In­ter­ak­tio­nen auf der Website ausführen, sollten sich überlegen, ob eine Ab­sprungra­te in dieser Grö­ßen­ord­nung ak­zep­ta­bel ist. Hier gilt es, die Kosten al­ter­na­ti­ver Anti-Spam-Methoden mit den Ein­nah­me­ver­lus­ten durch Captchas ge­gen­zu­rech­nen.

Captchas und Bar­rie­re­frei­heit

Schwierig wird die Wahl einer ge­eig­ne­ten Captcha-Tech­no­lo­gie für Web­sei­ten­be­trei­ber, die ihre In­ter­net­an­ge­bo­te bar­rie­re­frei und somit auch für Menschen mit Be­hin­de­rung in vollem Umfang zur Verfügung stellen möchten.

In Deutsch­land nutzen 4 von 5 Menschen mit Be­hin­de­rung das Internet. Gerade für In­ter­net­nut­zer, die ihr Leben mit Ein­schrän­kun­gen be­strei­ten, ver­spre­chen die Mög­lich­kei­ten des World Wide Web oft eine deutliche Er­leich­te­rung im Alltag. Doch noch immer ist ein Großteil der Online-Angebote nicht bar­rie­re­frei zu­gäng­lich. Auch Captchas stellen oft eine un­über­wind­ba­re Barriere dar – bei­spiels­wei­se, wenn die Mög­lich­keit der Ve­ri­fi­ka­ti­on aufgrund einer ein­ge­schränk­ten Seh­fä­hig­keit oder geistigen Be­hin­de­rung nicht wahr­ge­nom­men werden kann.

Auch die Web Content Ac­ces­si­bi­li­ty Gui­de­lines (WCAG) der Web Ac­ces­si­bi­li­ty In­itia­ti­ve (WAI) des World Wide Web Con­sor­ti­ums (W3C) the­ma­ti­sie­ren das Problem der Ac­ces­si­bi­li­ty (Bar­rie­re­frei­heit) im Zu­sam­men­hang mit Captchas und geben folgende Punkte als Mi­ni­mal­an­for­de­run­gen für ein bar­rie­re­ar­mes Captcha vor:

  • Wird ein Nicht-Text-Inhalt (z.B. eine Grafik) verwendet, um mensch­li­che Nutzer von Com­pu­ter­pro­gram­men zu un­ter­schei­den, sollte eine Text­al­ter­na­ti­ve be­reit­ge­stellt werden, die den Zweck des Nicht-Text-Inhalts erläutert.
  • Kommt eine Captcha-Tech­no­lo­gie zum Einsatz, sollte diese so gestaltet sein, dass al­ter­na­ti­ve Lö­sungs­mög­lich­kei­ten zur Auswahl stehen, die ver­schie­de­ne Formen der Be­hin­de­run­gen Rechnung tragen.

In dieser Form wurden die Mi­ni­mal­vor­ga­ben zu bar­rie­re­ar­men Captchas auch in die Ver­ord­nung zur Schaffung bar­rie­re­frei­er In­for­ma­ti­ons­tech­nik nach dem Be­hin­der­ten­gleich­stel­lungs­ge­setz (Bar­rie­re­freie-In­for­ma­ti­ons­tech­nik-Ver­ord­nung - BITV 2.0) der Bun­des­re­pu­blik Deutsch­land über­nom­men.

Über diese Mi­ni­mal­an­for­de­run­gen hinaus empfiehlt es sich, Captchas immer in einen er­klä­ren­den Be­gleit­text ein­zu­bet­ten. Web­sei­ten­be­trei­ber, die Captchas als Mittel der Spam-Prä­ven­ti­on einsetzen, sollten si­cher­stel­len, dass Anwender verstehen, wie sie sich als mensch­li­cher Nutzer ve­ri­fi­zie­ren können. Dies umfasst eine ver­ständ­li­che Anleitung des dar­ge­bo­te­nen Turing-Tests in ma­schi­nen­les­ba­rer Textform sowie aus­rei­chend be­schrif­te­te Ein­ga­be­fel­der. Nutzer sollten in jedem Fall die Mög­lich­keit bekommen, unlesbare Captchas zu über­sprin­gen und die Ve­ri­fi­zie­rung mit einem neuen Captcha zu wie­der­ho­len, falls die Eingabe falsch war.

Darüber hinaus sollte das Captcha nie die einzige Mög­lich­keit dar­stel­len, ein Web-Angebot zu nutzen. Bieten Sie Nutzern al­ter­na­tiv zum Captcha immer auch die Option, sich durch die Kon­takt­auf­nah­me mit dem Ad­mi­nis­tra­tor oder einem Kun­den­dienst frei­schal­ten zu lassen. Es empfiehlt sich zudem, den Einsatz von Captchas auf ein Minimum zu re­du­zie­ren. Ist ein Nutzer bereits er­folg­reich am System an­ge­mel­det, sollte keine weitere Ve­ri­fi­ka­ti­on in Form von Captchas statt­fin­den.

Gibt es Al­ter­na­ti­ven zu Captchas?

Auch wenn Captchas heute all­ge­gen­wär­tig sind, die an den Turing-Test an­ge­lehn­ten Verfahren bilden bei Weitem nicht die einzige Mög­lich­keit, eine in­ter­ak­ti­ve Website gegen Spam ab­zu­si­chern. Bereits 2005 hat das WAI mit der https://www.w3.org/TR/tu­ring­test/Working Group Note 23 „In­ac­ces­si­bi­li­ty of CAPTCHA – Al­ter­na­ti­ves to Visual Turing Tests on the Web” einen Vor­schlags­ka­ta­log zur Spam-Prä­ven­ti­on ohne Captcha ent­wi­ckelt. Im Laufe der Zeit haben sich zahl­rei­che Methoden etabliert, au­to­ma­ti­sche Anfragen oder Eingaben zu iden­ti­fi­zie­ren.

  • Black-Lists: Lässt sich für Spam­bei­trä­ge oder mas­sen­haf­te, au­to­ma­ti­sche Abfragen eine bestimmte Quelle ausmachen, haben Web­sei­ten­be­trei­ber die Mög­lich­kei­ten, alle In­ter­ak­tio­nen aus dieser Richtung durch eine Aufnahme in die Black-List zu un­ter­bin­den. Dabei handelt es sich um eine Sperr­lis­te, die alle Server oder IP-Adressen aufführt, die bei zu­künf­ti­gen Abfragen blockiert werden sollen. Eine solche Black-List lässt sich manuell via .htaccess anlegen. Al­ter­na­tiv finden sich im Internet diverse Anti-Spam-Netzwerke sowie pro­fes­sio­nel­le Dienst­leis­ter, die zen­tra­li­sier­te, kon­ti­nu­ier­lich ak­tua­li­sier­te Sperr­lis­ten zur Verfügung stellen.
  • Honeypots: Manche Web­sei­ten­be­trei­ber entlarven po­ten­zi­el­le Kan­di­da­ten für die Black-List, indem sie Online-Formulare mit Spam-Fallen versehen. Bei diesen so­ge­nann­ten Honeypots (Ho­nig­töp­fe) handelt es sich bei­spiels­wei­se um Ein­ga­be­fel­der die via CSS oder Ja­va­Script vor mensch­li­chen Nutzern versteckt werden. Einfache Spam-Bots hingegen lesen in der Regel nur den HTML-Code einer Website aus und füllen selbst ver­steck­te Felder mit au­to­ma­tisch ge­ne­rier­ten Inhalten. Ein klares Indiz dafür, dass die In­ter­ak­ti­on mit der Webseite nicht über einen Web­brow­ser erfolgt und somit kein mensch­li­cher Nutzer hinter der Anfrage steckt.
  • Content-Filter: Eine Mög­lich­keit, Kom­men­tar­spam auf Blogs, in On­line­shops oder Foren ent­ge­gen­zu­wir­ken bieten Content-Filter. Auch diese arbeiten mit Black-Lists. Dabei de­fi­nie­ren Web­sei­ten­be­trei­ber so­ge­nann­te „Hot Words“, Keywords die in erster Linie im Rahmen von Spam-Kom­men­ta­ren vorkommen, um ver­däch­ti­ge Eingaben au­to­ma­tisch als com­pu­ter­ge­neriert zu iden­ti­fi­zie­ren. Kommen Content-Filter zum Einsatz, steigt jedoch die Gefahr, dass auch Beiträge mensch­li­cher Nutzer blockiert werden, sofern diese Keywords der Black-List enthalten.
  • Ser­ver­sei­ti­ge Filterung: Auf den meisten Web­ser­vern kommt eine Filter-Software zum Einsatz, die es er­mög­licht, auf­fäl­li­ge In­ter­ak­tio­nen mit be­stimm­ten Bereichen einer Website zu erkennen und so den Schaden durch Spam-Bots zu begrenzen. Spam-Filter stützen sich auf statische, heu­ris­ti­sche und ver­hal­tens­ba­sier­te Analysen, um ver­däch­ti­ge In­ter­ak­tio­nen anhand auf­fäl­li­ger Merkmaler und bekannter Muster zu iden­ti­fi­zie­ren. Analysen im Rahmen der Spam­fil­te­rung beziehen sich auf tech­ni­sche Merkmale des User Agents. Aus­ge­wer­tet werden bei­spiels­wei­se der Umfang der an­ge­frag­ten Daten, die IP-Adresse, die ver­wen­de­te Da­ten­ein­ga­be­me­tho­den sowie Si­gna­tur­da­ten und bereits im Vorfeld besuchte Webseiten. Darüber hinaus lässt sich via Zeit­stem­pel nach­voll­zie­hen, wie viel Zeit zwischen der Aus­lie­fe­rung eines Online-Formulars und dem Eingang der Antwort vergeht. Denn im Gegensatz zu mensch­li­chen Nutzern legen Spam-Bots ein be­trächt­li­ches Tempo beim Ausfüllen von Ein­ga­be­fel­dern an den Tag.

Eine weit ver­brei­te­te Al­ter­na­ti­ve zum klas­si­schen Captcha, die sich auf ver­hal­tens­ba­sier­te Analysen stützt, stammt ebenfalls aus dem Hause Google. Unter dem Namen „No CAPTCHA reCaptcha“ bietet Google seit 2013 einen Human-Ve­ri­fi­ca­ti­on-Service an, der in­ter­ak­ti­ve Webseiten zu­ver­läs­sig gegen Miss­brauch absichert und dabei in den meisten Fällen ohne Captcha auskommt. Statt Nutzer vor eine auf visuellen, auditiven oder logischen Zu­sam­men­hän­gen beruhende Aufgabe zu stellen, umfasst Googles neustes reCAPTCHA lediglich eine einfache Check-Box.

Setzt ein Nutzer ein Häkchen bei „Ich bin kein Roboter“ prüft die Software im Hin­ter­grund, mit welcher Wahr­schein­lich­keit es sich eine au­to­ma­ti­sche Eingabe handelt. Dabei setzt Google auf eine fort­ge­schrit­te­ne Ri­si­ko­ana­ly­se. Welche Prüf­schrit­te dieser Prüf­al­go­rith­mus umfasst hält das Un­ter­neh­men geheim. Im Netz werden jedoch folgende Merkmale dis­ku­tiert:

  • Cookies
  • IP-Adresse
  • Maus­be­we­gun­gen im Bereich der Checkbox
  • Dauer des Auf­ent­halts

Kommt die Software zu dem Schluss, dass es sich um einen mensch­li­chen Nutzer handelt, kann dieser un­ge­hin­dert fort­fah­ren. Nur, wenn das Ergebnis der Analyse auf ein hohes Spam-Risiko schießen lässt, muss ein Captcha ab­sol­viert werden. No CAPTCHA ist somit ein vor­ge­la­ger­tes Prüf­ver­fah­ren, das evaluiert, ob eine Ve­ri­fi­ca­ti­on via Turing Test notwendig ist oder über­sprun­gen werden kann. Das kommt dem Nutzer in Bezug auf die Usability entgegen, wirft jedoch da­ten­schutz­recht­li­che Probleme auf. Web­sei­ten­be­trei­ber, die das neue reCAPTCHA verwenden, über­mit­teln Google au­to­ma­tisch Be­we­gungs­da­ten ihrer Nutzer. Die User müssen in der Da­ten­schutz­er­klä­rung daher explizit darauf hin­ge­wie­sen werden, dass Dritt­an­bie­ter­soft­ware im Rahmen der Spam-Prä­ven­ti­on zur Anwendung kommt. Auffällig ist zudem, dass Google für das neue reCAPTCHA die all­ge­mei­nen Nut­zungs­be­din­gun­gen sowie eine globale Da­ten­schutz­er­klä­rung angibt. Diese kommt auch bei allen anderen Google-Diensten zur Anwendung. Es ist daher nicht aus­zu­schlie­ßen, dass das Un­ter­neh­men die ge­sam­mel­ten Daten auch jenseits der Spam-Prä­ven­ti­on zur Op­ti­mie­rung der eigenen Dienst­leis­tun­gen einsetzt – zum Beispiel im Bereich der Werbung. The­ma­ti­siert wird diese Pro­ble­ma­tik in einem Artikel des Online-Magazins Business Insider. Obwohl sich der Google-Dienst großer Be­liebt­heit erfreut, sucht man eine öf­fent­li­che Stel­lung­nah­me deutscher Da­ten­schutz­be­hör­den bisher ver­geb­lich. Auf der aktuellen Start­sei­te des reCaptcha-Projekts (Stand: Januar 2017) kündigt Google mit Invisible reCAPTCHA bereist eine Wei­ter­ent­wick­lung den des No CAPTCHA reCAPTCHA an, das ohne in­ter­ak­ti­ve Check-Box auskommt.

In der Theorie funk­tio­niert das Invisible reCAPTCHA fol­gen­der­ma­ßen: Füllt ein Nutzer ein Online-Formular aus, laufen im Hin­ter­grund diverse Ana­ly­se­pro­zes­se ab, über die sich Google bisher al­ler­dings noch in Schweigen hüllt.

Zum Hauptmenü