Website Optimization, also die Optimierung der Webseite bzw. des Online-Shops auf Basis von A/B Tests bzw. mulltivariaten Tests, wird immer populärer. Anbieterseitig rüsten sich die großen Unternehmen der Web Analytics Branche mit dem notwendigen Know-How indem kleinere Unternehmen aufgekauft werden (Offermatica gehört nun zu Omniture, Optimost gehört nun zu Interwoven, Memetrics gehört nun zu Accenture etc). Auch auf Anwenderseite gewinnt das Thema immer mehr an Fahrt. In letzter Zeit höre ich jedoch aus Gesprächen mit Personen, welche sich für das Thema interessieren, immer öfter heraus, dass man sich um die statistiche Aussagekraft eines Tests wenig Gedanken macht. Grund genug für mich, einen Versuch zu starten eine Erklärung zu liefern warum Statistik ein wichtiger Faktor bei der Auswertung von A/B bzw. Multivariaten Tests ist.
Zu allererst, auch ich bin kein Statistiker, und um in das Theme Website Optimization einzusteigen muss man auch kein Statistiker sein. Ich habe zwar während meines Studiums einige Statistik-Vorlesungen genossen (Danke Prof. L., hätte damals nie gedacht, dass ich Ihnen so dankbar sein werde, dass ich in Ihren Vorlesungen war), dennoch entwickelte sich das meiste Know-How im Bereich Statistik auch bei mir erst on-the-job. Wer also das Thema Website Optimization forciert, der sollte nicht aufgrund der Angst vor Statistik zurückschrecken.
Schauen wir uns zunächst mal an, welche Faktoren maßgeblich für die Dauer eines A/B- bzw multivariaten Testexperiments verantwortlich sind:
- Vorhandene Masse (=wie viele Nutzer besuchen die Testseite)
- Die aktuelle Konversionsrate auf das vorab definierte Testziel (z.B. Testseite ist eine Seite im Bestellprozess: Wieviele Besucher konvertieren von der Testseite zur Bestellbestätigungsseite)
- Welche Steigerung der Konversionsrate wird ggü. der Kontrollvariante (=die Seite, die bisher live war) angestrebt? (z.B. Steigerung der Konversionsrate um 10% – nicht zu verwechseln mit der Steigerung der Konversionsrate in Prozentpunkten)
- Wieviele Varianten werden gegeneinander getestet (in einem A/B Test sind es zwei Varianten; in einem multivariaten Test ist die maximale Anzahl der Testvarianten je Testelement ausschlaggebend)
Zusätzlich kommen dann noch folgende statistischen Größen hinzu:
- das Konfidenzintervall (auch Vertrauensintervall genannt; das Konfidenzintervall gibt an, mit welcher Wahrscheinlichkeit ein gemessener Wertebereich den realen Wert trifft)
- die sich daraus ergebende Signifikanz (man spricht von einem signifikanten Ergebnis wenn nachgewiesen wurde, dass die Ergebnisse nicht per Zufall entstanden sind und wenn man somit zwischen den Testelementen und den Testzielgrößen einen Zusammenhang bewiesen hat)
Das Konfidenzintervall für einen A/B bzw. multivariaten Test wird vor dem Teststart festgelegt. Meist liegt man mit Werten größer als 90% im sicheren Bereich.
Was bedeutet das nun alles:
Die tatsächlich gemessenen Werte während der Experimentdauer sind natürlich nicht alle gleich. Sie bewegen sich meist in einem bestimmten Bereich um einen errechneten Mittelwert. Durch statistische Verfahren und Berechnungen (auf die ich jetzt nicht näher eingehen möchte) lässt sich nun ermitteln mit welcher Streuung sich der tatsächliche Wert um den errechneten Mittelwert bewegt. Und hier kommt das vorher festgelegte Konfidenzintervall zum Spiel.
Beispiel:
Das Testingtool gibt aus, dass eine bestimmte Seitenvariation eine Steigerung der Konversionsrate um +22.5% erzielt.
Schaut man jetzt nur auf den Wert von +22.5%, so dürfte sich erstmal jeder Online Marketer freuen. Tschakka, ich habe es geschafft die CVR um 22.5% zu steigern. Ich bekomme eine goldene Krone aufgesetzt.
Theoretisch kann jedoch folgendes passieren: Schaut man sich die Streuung der Werte um den Mittelwert an, so kann zum Vorschein kommen, dass das Konfidenzintervall (oder Vertrauensbereich) von 90% in dem Bereich von [-12.5% bis +57.5%] liegt. Das bedeutet wiederum, dass sich der tatsächliche Wert mit 90%iger Wahrscheinlichkeit innerhalb dieses angegebenen Bereichs liegt. Es ist also gar nicht mehr so eindeutig, ob eine Steigerung der Konversionsrate erzielt wurde, man spricht hier von einem nicht signifikanten Ergebnis. Selbstverständlich ist es so, dass die Werte um den Mittelwert von +22.5% am häufigsten gemessen wurden (siehe Normalverteilung und Gaußsche Glocke), dennoch ist ein Restrisko vorhanden, dass der reale Wert keine Steigerung der Konversionsrate erzielt.
Wichtig ist daher, dass das Konfidenzintervall sowohl am unteren Ende, als auch am oberen Ende positive Daten ausweist (also z.B. [+5% bis +40%]). Erst dann kann man sicher sein, dass ein Test auch wirklich erfolgreich war – erst dann spricht man von signifikanten Ergebnissen. Je mehr Experimentteilnehmer an einem Test teilnehmen, und je größer die (gemessenen) Unterschiede zwischen den Testvarianten sind, desto kleiner wird das Konfidenzintervall und desto klarer (signifikanter) können die Ergebnisse werden.
Es kann jedoch auch sein, dass bei einem A/B bzw. multivariaten Test niemals signifikante Ergebnisse messbar sind, sprich es ist keine eindeutige Steigerung der CVR messbar. Dies tritt immer dann auf, wenn zwischen den Testelementen und den Testzielgrößen kein Zusammenhang nachweisbar ist. Aber auch das ist ein Ergebnis, dass man verwerten kann.
Fazit:
Wer auf sämtliche statistische Verfahren verzichtet und reine Häufigkeitsauswertungen verwendet, der nimmt grob fahrlässig die Gefahr in Kauf falsche Handlungsempfehlungen bzw. falsche Entscheidungen auf Basis der Testergebnisse zu treffen. Welche Auswirkungen dies auf den Gesamterfolg eines Online-Shops bzw. eines Unternehmens haben kann mag ich hier gar nicht ausmalen.
Die gängigen Testingtools aller großer kostenpflichtigen Anbieter (Omniture, Interwoven, SiteSpect) und auch der kostenlos erhältliche Google Website Optimizer verwenden statistische Auswertungsverfahren und weisen die Konfidenzintervalle (Vertrauensbereiche) sowie die Signifikanz direkt in deren Auswertungsstatistiken aus. Es muss also niemand selbst aufwendig die statistischen Berechnungen übernehmen. Wer jedoch stattdessen mit kleineren, eigenentwickelten Tools testet, dem sei dringend geraten die statistische Aussagekraft in das Tool zu integrieren bzw. manuell die statistischen Berechnungen durchzuführen.
Ähnliche Beiträge:
- Conversion Rate Optimierung: Testdauer & Signifikanz bestimmen
- Download – Wie Online Shops aus Besuchern Käufer machen (AB Test, Multivariater Test)
- Webinars: Website Optimierung (A/B-Testing, Multivariate Tests)
- Fallstudie: 1-stufiger Checkout vs. 2-stufiger Checkout
- Google Conversion University & Google Analytics Individual Qualification (IQ) Zertifikat


3 Kommentare vorhanden für “Website Optimization – Warum Statistik ein wichtiger Faktor bei A/B bzw. multivariaten Tests ist”
Statistik ist ein wichtiger Faktor bei A/B & multivariaten Tests…
Statistik spielt bei A/B bzw. multivariaten Tests eine wichtige Rolle, denn auf Basis der Ergebnisse werden umsatzentscheidenen Handlungsempfehlungen bzw. Entscheidungen getroffen. Teilweise sind damit große Veränderungen auf Webseiten bzw. in Online…
Zwei Dinge noch als Anmerkung:
1. Neben dem ganzen Fallustieren an Signifikanzniveaus (statistischer Fehler) wird der systematischer Fehler oft vergessen. Gibt es evtl. Gegebenheiten, die ein Ergebnis ausschließen und damit den Ergebnisraum eingrenzen? Ich könnte jedem mit einem Alpha von 0,00000.. beweisen, dass Frauen mehr Kinder bekommen als Männer
2. Korrektur von Ausreißern: Gerade bei Zufallsgrößen, die eine sehr weite Streuung aufweisen ist es unbedingt ratsam alle Werte jenseits von der 2-3 fachen Varianz abzuschneiden, da diese Werte den Mittelwert stark verzerren.
P. S. wenn man auf den Warenkorb optimiert hat man nur eine Ordinalskala (da der Preis nur diskrete Werte annehmen kann)
[...] nochmal nachlesen will, warum Statistik bei der Conversion Rate Optimierung so wichtig ist, dem empfehle ich diesen älteren Artikel von [...]