vrijdag 13 september 2013

Significantie óf relevantie bij A/B-tests

Een van mijn favoriete usability-instrumenten is de A/B-splittest of kortweg A/B-test. Ik gebruik A/B-tests vaak bij usability-adviezen. Ik heb ook altijd wel een A/B-test lopen in een van mijn eigen webwinkels voor LEGO. Dat het niet altijd volgens het boekje gaat, is voor eigen webprojecten namelijk niet eens zo heel erg…

Significantie en relevantie

Is een verandering van een website wel een verbetering? Is de aanpassing relevant? Op die vraag kan een A/B-splittest of A/B-test vaak een duidelijk antwoord geven. Bij een A/B-test leg je twee verschillende versies (A en B) van een ontwerp voor aan gebruikers. Vervolgens controleer je welke versie het gewenste resultaat oplevert: A of B?

A/B-tests lijken veel op het dubbel blind testen van medicijnen. De ene groep mensen geef je een medicijn, de andere groep een nutteloos placebo. Vervolgens voer je een statistische analyse uit om te controleren of het medicijn een significant effect heeft. Statistisch is het enige verschil dat je niet beperkt bent tot een steekproef van vooraf geselecteerde patiënten, maar je meteen een volledige populatie test van alle bezoekers van een live website.

Voor e-commerce zijn A/B-tests onmisbaar. Er is nauwelijks een beter instrument te vinden om conversie te meten. Je kunt als online marketeer allerlei zachte technieken voor storytelling, contentmarketing of persuasion design inzetten, maar meten is weten. Vergelijk je sitestatistieken met je verkoopstatistieken en je ziet in harde cijfers of je inspanningen een relevante bijdrage leveren.

Levert een A/B-test dan altijd iets op? Nee, dat nu ook weer niet. Aan de hand van twee praktijkvoorbeelden zal ik laten zien dat je soms onverwachte resultaten ziet.

Niet significant, maar wel relevant

Een van de eerste A/B-tests voor een van mijn webwinkels heb ik voortijdig afgebroken. Dat was de onderstaande vergelijking van productinformatie zonder voorraadindicatie (de A-versie links) en dezelfde informatie met voorraadindicatie (de B-versie rechts). Zoals het hoort bij een goede A/B-test, werd slechts één detail gevarieerd.

Voor statistisch significante vergelijkingen heb je vele honderden tot enkele duizenden observaties nodig. Bij een kleine tot middelgrote webwinkel moet je een A/B-test veelal een maand of langer laten lopen voordat je voldoende pageviews hebt gemeten. Het eerste typische omslagpunt van Nederlandse webwinkels — 200 bezoekers per dag — moet je toch wel voorbij zijn voordat je aan A/B-tests kunt beginnen.

In dit geval kon ik de A/B-test staken om een opvallende reden. De klantenservice werd veel minder gebeld met vragen van het type: “Hebt u dit of dat nog op voorraad?” Hoewel we helemaal niet bijhouden welke vragen klanten telefonisch stellen, was dat voldoende aanleiding om de B-versie met voorraadindicatie onmiddellijk te verheffen tot de standaardweergave. In de weken daarna volgde het definitieve bewijs: er werd helemaal niet meer gebeld met vragen over de voorraad.

Deze methodologie is zacht gezegd discutabel. Het is alsof je een middeltje tegen diarree op de markt brengt zodra een handvol proefpersonen minder hoest. We meten telefoongesprekken namelijk niet. En als we ze wel zouden meten, zijn het er te weinig voor statistisch significante conclusies. Dat er minder werd gebeld met vragen, had gewoon toeval kunnen zijn. Er bestond slechts een vermoeden van een causaal verband, maar dat kon op geen enkele wijze worden aangetoond.

Wat significantie betreft, kon deze A/B-test de prullenbak in. Maar wat relevantie betreft zeer zeker niet. De uitkomst was voor onze bedrijfsvoering relevant, want we werden minder gebeld. En veel belangrijker: de uitkomst was voor onze klanten en bezoekers relevant, want ze hoefden niet meer te bellen!

Wel significant, maar niet relevant

Met een andere A/B-splittest wilde ik achterhalen of we nog wat aan branding in een van de webwinkels konden verbeteren. Het LEGO-assortiment bestaat uit verschillende soorten producten, die LEGO op de markt brengt in wat zij thema’s noemt. Bekende thema’s zijn bijvoorbeeld LEGO City, LEGO Star Wars en LEGO Technic. Marketingtechnisch moet je daarmee twee merken ‘laden’, met LEGO als hoofdmerk en de thema’s als submerken. Bij thema’s waarvoor LEGO samenwerkingsverbanden aangaat, bijvoorbeeld LEGO Disney Cars of LEGO Star Wars, kun je het co-branding noemen.

Logo’s van LEGO City (boven), LEGO Star Wars (midden) en LEGO Technic (onder)

Maar hoe test je de effectiviteit van merken online? Met webpagina’s kun je van alles uitspoken, maar in wezen heb je weinig meer te bieden dan een plaatje of een praatje. Dát is wat de gebruiker ziet en dát is wat je goed kunt testen. We kwamen daarom al gauw op wat alle submerken uniek maakt: het dubbele logo dat je aantreft op elke verpakking. Links staat altijd het LEGO-logo als de vaste waarde van het hoofdmerk. Rechts daarnaast staat het uniek gestileerde logo van een submerk.

In een tweede A/B-test werd de A-versie een productpagina zonder logo (links in de onderstaande afbeelding) en de B-versie een pagina met opvallend geplaatst logo (rechts). Daarbij pasten we nog een belangrijk usabilitybeginsel toe: omdat plaatjes blikvangers zijn, werd het logo een hyperlink naar de overzichtspagina van de productcategorie.

A/B-test zonder logo (links) en met logo (rechts)

Deze A/B-test leverde significante resultaten op. In de B-versie werd het logo met de hyperlink actief gebruikt voor navigatie. Bezoekers klikten er vaak mee door naar de overzichtspagina van een thema. Van daaruit klikten ze vaker door naar een ander product uit hetzelfde thema, om vervolgens weer via het logo door te klikken naar de overzichtspagina. De B-versie genereerde significant meer pageviews en een significant langere bezoekduur.

Hoewel het met de significantie van deze A/B-test wel goed zat, was het resultaat niet relevant. De conversie verbeterde namelijk niet. ‘Kijken maar niet kopen’ levert een webwinkel niets op. Een verandering die geen verbetering is, is irrelevant. Het doel van de verandering was het verhogen van de conversie; wordt dat doel vervolgens niet bereikt, dan is de verandering geen verbetering.

Een pessimist zou dit zelfs een “verslechtering” kunnen noemen. Méér kijken leidde namelijk niet tot méér kopen. Het lijkt op de paradox die de Amerikaanse psycholoog Barry Schwartz beschrijft in zijn boek The Paradox of Choice: Why More Is Less. Statistisch bleek dat gelukkig niet aan de orde, want de ronddwalende kijkers kochten niet significant minder dan de controlegroep.

1 opmerking:

  1. Ik ben dol op testen. Tenminste als ze uitgevoerd worden door een ander :-).

    Die laatste test zou ik overigens zelf een derde optie toegevoegd hebben. Of anders uitgevoerd hebben. Gevoelsmatig geeft het plaatje rechts mij een betere, meer vertrouwde indruk. Wat gebeurt er als je er een niet klikbaar logo boven zet?

    BeantwoordenVerwijderen