Statistik-Fallen und andere Stolpersteine beim A/B-Testing

Die Funktionalität verschiedener Elemente mithilfe von A/B-Tests zu überprüfen, gehört mittlerweile zur gängigen Praxis der meisten Website-Entwickler und -Betreiber. Sofern ausreichend Traffic vorhanden ist, verrät dieses Testverfahren schnell, ob ein Szenario A beispielsweise eher zur gewünschten Conversion führt als ein Szenario B. Doch sowohl bei der Planung als auch während der Testphase und der abschließenden Auswertung warten einige Stolperfallen auf Sie. Welche Statistik-Fehler und Irrtümer besonders verbreitet sind und wie Sie diese am besten vermeiden, erfahren Sie im Folgenden.

Die größten Fehler bei der A/B-Test-Planung

Noch bevor mit dem Testing begonnen wird, können falsche Annahmen und das daraus resultierende Set-up bereits die Weichen für einen Misserfolg stellen.

Fehler 1: Auf eine Hypothese verzichten und stattdessen auf den Zufall setzen

Der wohl gravierendste Fehler, der in der Vorbereitungsphase gemacht werden kann, ist der, auf eine Hypothese zu verzichten und darauf zu hoffen, dass bei einer ausreichend hohen Zahl an getesteten Varianten schon die richtige dabei sein wird. Zwar steigt mit der Anzahl an zufällig ausgewählten Test-Varianten auch die Chance, einen Gewinner deklarieren zu können, doch steigt ebenso die Chance, dass dieser Gewinner in Wirklichkeit überhaupt keine Verbesserung für das Webprojekt darstellt. Bei einer einzigen Variante wird man in 5 Prozent aller Fälle auf einen signifikanten Optimierungseffekt der Testvariante stoßen, den es aber in Wahrheit gar nicht gibt. Die Wahrscheinlichkeit eines solchen Alpha-Fehlers erhöht sich, je mehr Varianten eingesetzt werden – bei 3 verschiedenen Testobjekten sind es zum Beispiel bereits 14 Prozent, bei 8 Varianten schon 34 Prozent. Wenn Sie zuvor keine These formulieren, wissen Sie später nicht, aus welchem Grund der ermittelte Sieger überhaupt für eine Optimierung sorgt. Stellen Sie hingegen vorab beispielsweise die Hypothese auf, dass die Vergrößerung eines Buttons zum Anstieg der Conversions führen wird, können Sie das anschließende Ergebnis einordnen.

Zusammengefasst lässt sich also sagen, dass ein A/B-Test keineswegs vom Zufall bestimmt, sondern immer hypothesengetrieben sowie in der Anzahl seiner Varianten beschränkt sein sollte. Wenn Sie zusätzlich mit Tools wie Optimizely arbeiten, die eine Potenzierung der Fehlerquote verhindern, steht einem erfolgreichen Testing nichts mehr im Wege.

Fehler 2: Die falschen Indikatoren für den Erfolg einer Testvariante bestimmen

Auch beim A/B-Testing spielen Key-Performance-Indicators (KPIs) – also die für Ihr Projekt entscheidenden Kennziffern – eine wichtige Rolle, die Sie nicht vernachlässigen sollten. Während ansteigende Seitenaufrufe und Klicks für einen Blog oder ein Nachrichtenportal bereits wertvolle Conversions darstellen, sind diese Faktoren für einen Onlineshop nicht mehr als ein positiver Trend. Für Shops sind Kennziffern wie Bestellungen, Retouren-Rate, Umsatz oder Gewinn deutlich wichtiger. Aufgrund ihrer schwereren Messbarkeit sind A/B-Tests, die auf einen Haupt-KPI wie den absoluten Gewinn abzielen, selbstverständlich mit einem höheren Aufwand verbunden. Im Gegenzug lassen sie aber sehr viel verlässlichere Erfolgsprognosen zu als solche Test, die beispielsweise nur das Platzieren eines Artikels in den Warenkorb erfassen. Denn in solchen Fällen ist es immer noch möglich, dass der Kunde letztlich doch keinen Kauf tätigt.

Es ist also wichtig, die geeigneten Messwerte zu finden. Allerdings sollten Sie nicht zu viele verschiedene wählen. Beschränken Sie sich stattdessen auf die wesentlichen Faktoren und erinnern Sie sich der zuvor formulierten Hypothese. Das mindert das Risiko, dass Sie fälschlicherweise einen dauerhaften Steigerungseffekt vermuten, wo eigentlich nur ein zufällig entstandener Effekt ohne Nachhaltigkeit vorliegt.

Fehler 3: Multivariate Testing kategorisch ausschließen

In einigen Fällen stehen Sie bei der Vorbereitung eines A/B-Tests vor dem Problem, dass Sie in den Varianten gerne mehrere Elemente testen wollen. Mit einem einfachen A/B-Test ist das nicht wirklich realisierbar, weshalb vielen das sogenannte Multivariate Testing als Alternative in den Sinn kommt. Allerdings wird dieser Gedanke oft vorzeitig wieder verworfen, da die Multivarianten-Tests als zu aufwendig und zu ungenau gelten. Dabei können sie richtig eingesetzt die optimale Lösung des geschilderten Problems sein. Mit den richtigen Tools sind die verschiedenen Testseiten nicht nur schnell geschaltet, sondern im Anschluss auch leicht zu analysieren. Mit ein wenig Übung lässt sich außerdem der Einfluss der einzelnen veränderten Komponenten feststellen. Voraussetzung ist jedoch, dass Ihr Webprojekt genügend Traffic aufweist.

Die Chance, einen falschen Gewinner zu deklarieren, steigt ebenso wie beim A/B-Testing mit der Zahl der eingesetzten Testvarianten – eine Beschränkung auf eine Vorauswahl ist demnach auch bei dieser Methode zu empfehlen. Um Gewissheit zu erlangen, dass eine potenziell bessere Version das Original tatsächlich überflügelt, können Sie das Ergebnis im Nachhinein mit einem A/B-Test validieren. Dabei bleibt allerdings die übliche Wahrscheinlichkeit eines Alpha-Fehlers von 5 Prozent.

Statistik-Fallen und Irrtümer während des Testvorgangs

Ist der Test online und alle relevanten Daten werden wie gewünscht aufgezeichnet, meinen viele, einem erfolgreichen Ablauf des A/B-Tests stünde nichts mehr im Wege. Ungeduld und Fehleinschätzungen führen allerdings oft dazu, dass dem nicht so ist. Daher sollte man die folgenden typischen Fehler unbedingt vermeiden.

Fehler 4: Den Testvorgang vorzeitig bzw. zu schnell stoppen

Die Möglichkeit, bereits während des Tests ausführliche Statistiken auszulesen, ist zwar überaus nützlich, führt jedoch oftmals dazu, dass voreilige Schlüsse gezogen werden und der A/B-Test im Extremfall sogar vorzeitig beendet wird. Prinzipiell gilt: Jeder Test benötigt eine minimale Testgröße, denn gerade zu Beginn schwanken die Ergebnisse in der Regel sehr stark. Außerdem erhöht sich die Aussagekraft, je länger die Testphase andauert, da mit fortschreitender Testdauer zufällige Effekte ausgeschlossen werden können. Stoppen Sie Ihren Test also zu früh, riskieren Sie, ein vollkommen falsches Bild über die Performance der Variante zu erhalten und selbige falsch einzustufen – entweder zu gut oder zu schlecht.

Da es nicht einfach ist, die optimale Testdauer zu bestimmen, gibt es verschiedene Tools wie den A/B-Test Testdauer-Rechner von converlytics, die Sie bei der Berechnung zur Hilfe nehmen können. Natürlich gibt es durchaus auch sehr gute Gründe dafür, einen Test vorzeitig abzubrechen, zum Beispiel, wenn eine signifikant schlecht performende Variante beginnt, Ihre wirtschaftlichen Interessen zu gefährden.

Fehler 5: Moderne Testverfahren zum Anlass nehmen, die Testdauer zu verkürzen

Es ist bereits angeklungen, dass diverse A/B-Testing-Tools mit Verfahren arbeiten, die bei den eingesetzten Varianten die Fehlerquote möglichst gering halten. Das Bayessche Verfahren, das beispielsweise bei den Anwendungen Optimizely und Visual Website Optimizer zum Einsatz kommt, verspricht darüber hinaus sogar aussagekräftige Ergebnisse, wenn die minimale Testgröße noch nicht erreicht wurde. Auch hier drohen Sie in die Statistik-Falle zu tappen, wenn Sie einen zu frühen Stand als Grundlage für Ihre Auswertung verwenden. Denn einerseits basiert die Methode auf Ihren Schätzungen über den Erfolg einer Variante und andererseits kann auch das Bayessche Verfahren anfängliche Zufallseffekte nicht als solche identifizieren.

Verbreitete Fehlschlüsse bei der Auswertung von A/B-Test-Ergebnissen

Ohne Zweifel ist es bereits eine große Herausforderung, geeignete KPIs zu finden, treffende Hypothesen zu formulieren und den A/B-Test letztendlich zu organisieren und durchzuführen. Die wirkliche Herausforderung erwartet Sie allerdings erst ganz zum Schluss, wenn es darum geht, die gesammelten Werte zu analysieren und deren Nutzen für den Erfolg Ihres Webprojektes herauszuarbeiten. Dass dabei selbst Profis Fehlentscheidungen treffen können, steht außer Frage. Anfängerfehler wie solche, die in den folgenden Abschnitten beleuchtet werden, sollten Sie hingegen unbedingt vermeiden.

Fehler 6: Sich lediglich auf die Ergebnisse des Testing-Tools verlassen

Ihr verwendetes Testing-Tool unterstützt Sie nicht einfach nur dabei, den Test zu initiieren und alle gesammelten Daten visuell darzustellen, sondern liefert auch gleich komplette Angaben darüber, ob die jeweilige Variante eine Verbesserung bedeuten und inwiefern ein Umstieg Ihre Conversion-Rate beeinflussen würde. Außerdem wird auch gleich eine Variante zum absoluten Gewinner erklärt. Einen KPI wie den absoluten Umsatz oder Retouren können diese Tools dabei nicht messen, weshalb Sie unbedingt auch den entsprechenden externen Datenbestand miteinbeziehen müssen. Insbesondere, wenn die Ergebnisse nicht den Erwartungen entsprechen, lohnt sich auch ein Blick auf die separaten Ergebnisse Ihres Webanalyse-Programms, das in der Regel einen wesentlich detaillierteren Überblick über das Verhalten der User bietet.

Die gezielte Inspektion der einzelnen Daten ist auch der einzige Weg, um Ausreißer festzustellen und eventuell aus dem Gesamtergebnis herauszufiltern. Warum dies ein ganz entscheidendes Kriterium zur Vermeidung einer falschen Annahme sein kann, verdeutlicht das folgende Beispiel: Variante A wird vom Tool zur optimalen Version erklärt und auch ein Blick auf den erzielten Umsatz zeigt, dass mit Variante A das beste Ergebnis erzielt wurde. Bei der genaueren Untersuchung fällt allerdings auf, dass dieser Umstand insbesondere auf den Einkauf eines einzelnen Users – eines B2B-Kunden – zurückzuführen ist. Rechnet man diesen einen Einkauf aus der Statistik heraus, weist plötzlich Variante B das bessere Umsatz-Ergebnis auf.

Das gleiche Beispiel ließe sich auch auf den Warenkorb, die Bestellrate oder verschiedene andere KPIs anwenden. In jedem dieser Fälle werden Sie feststellen, dass Extremwerte den Mittelwert stark beeinflussen und so schnell falsche Schlussfolgerungen entstehen können.

Fehler 7: Ergebnisse zu stark segmentieren

Die detaillierte Überprüfung der Daten des A/B-Tests in Kombination mit externen Datenquellen eröffnet natürlich noch ganz andere Optionen. Besonders beliebt ist es, die Ergebnisse individuell definierten Nutzergruppen zuzuordnen. So bringen Sie zum Beispiel in Erfahrung, wie Nutzer einer bestimmten Altersgruppe, aus einer bestimmten Region oder eines bestimmten Browsers auf die jeweilige Variante reagiert haben. Je mehr Segmente Sie miteinander vergleichen, desto höher wird jedoch die Fehlerwahrscheinlichkeit.

Sie sollten sich aus diesem Grund darum bemühen, dass die gewählten Gruppen eine hohe Relevanz für Ihr Testkonzept besitzen und jeweils einen repräsentativen Teil der Gesamtnutzer ausmachen. Wenn Sie zum Beispiel lediglich die Besucher unter die Lupe nehmen, die männlich und unter 30 Jahre alt sind, vom Tablet zugreifen und Ihre Seite ausschließlich am Wochenende besuchen, decken Sie eine Testgröße ab, die keinesfalls repräsentativ für die gesamte Zielgruppe ist. Wenn Sie schon im Vorfeld planen, die Ergebnisse eines A/B-Tests zu segmentieren, sollten Sie unbedingt auch eine entsprechend lange Testdauer ansetzen.

Fehler 8: Den Erfolg aufgrund vager Hochrechnungen in Frage stellen

Um zu verdeutlichen, inwiefern der Umstieg auf eine neue Variante die Conversion-Rate zukünftig beeinflusst, werden die A/B-Test-Ergebnisse häufig als Basis für konkrete Hochrechnungen genutzt. Zu Präsentationszwecken mag dies ein effektives Mittel sein, wirklich praktikabel sind solche Zukunftsprognosen aufgrund verschiedener Einflüsse allerdings nicht. Während die Ergebnisse eines A/B-Tests nämlich lediglich Aufschluss über kurzfristige Veränderungen im Verhalten der User geben, sind langfristige Effekte wie der Einfluss auf die Zufriedenheit der Kunden innerhalb der kurzen Testdauer nicht messbar – von der Konstanz eines festgestellten Wachstums auszugehen, ist daher voreilig. Hinzu kommen Einflüsse wie zum Beispiel saisonale Schwankungen, Lieferengpässe, Veränderungen im Produktsortiment, die Veränderung des Kundenstammes oder technische Probleme, die beim A/B-Testing unmöglich einbezogen werden können.

Wie bei den anderen Statistik-Fallen und Fehlannahmen bei der Durchführung und Auswertung eines Website-Usability-Tests gilt es, einen kühlen Kopf zu bewahren. Voreilige Schlüsse führen schnell auch dazu, dass Sie von dem anschließenden Live-Ergebnis enttäuscht werden, obwohl die optimierte Version Ihres Webprojektes eigentlich gut funktioniert. Nur wenn Sie bei der Formulierung einer Zukunftsprognose sowie bei der nachfolgenden Bewertung dieser Prognose auf eine saubere und überlegte Arbeitsweise setzen, werden Sie die A/B-Test-Ergebnisse sinnvoll auswerten und deuten können.