No. 104

Titolo originale: A Primer on A/B Testing

Pubblicato in: Javascript, Usabilità, User Research

Scritto da Lara Swanson

I dati sono uno strumento inestimabile per i web designer che devono prendere delle decisioni riguardanti la user experience. I test A/B, o split test, sono uno dei modi più semplici per misurare l'effetto di diversi design, contenuto o funzionalità. I test A/B ci permettono di creare degli elementi di user experience altamente performanti che potete implementare nel vostro sito. Ma è importante essere sicuri di raggiungere dei risultati statistici significativi ed evitare le false tracce. Vediamo come fare.

Cos'è un test A/B?

In un test A/B si paragonano due versioni di un elemento della pagina per un certo tempo, con lo scopo di verificare quale abbia una miglior performance. Gli utenti vedranno una versione oppure l'altra e voi misurerete le conversioni per ciascun insieme di utenti. I test A/B aiutano i designer nel confronto dei contenuti, come ad esempio titoli differenti, il testo per una call to action o la lunghezza del testo principale. Le scelte di design e di stile possono essere anch'esse testate. Ad esempio, potete testare dove mettere un pulsante per il login o quanto deve essere grande. I test A/B possono inoltre essere d'aiuto per misurare i cambiamenti di funzionalità: ad esempio, come e quando vengono mostrati i messaggi di errore.

In aggiunta, gli split test possono esserci d'aiuto quando stiamo operando dei cambiamenti drastici nel design, che pertanto devono essere mitigati, come ad esempio un redesign della homepage. Potete prendere dei pezzi del design modificato e testarli per ogni passo che fate dal vecchio design al nuovo, senza preoccuparvi del fatto che un cambiamento drastico possa alienare la vostra base di utenti o causare una grande diminuzione delle conversioni.

I risultati dei test A/B hanno un impatto duraturo. E' importante sapere quali design pattern funzionano meglio per i vostri utenti, così che possiate ripetere i risultati “vincenti” dei test A/B su tutto il vostro sito. Sia che apprendiate il modo in cui gli utenti rispondono al tono del contenuto, alle call to action o al layout, potete applicare quello che imparate man mano che create del nuovo contenuto.

I dati vanno molto bene anche per i decision-maker che non sono designer. I test A/B possono aiutare a prevenire le diminuzioni nel conversion rate, l'alienazione degli utenti abituali e le diminuzioni delle entrate. I clienti apprezzano questo tipo di dati. Le conversioni che misurate potrebbero effettivamente essere gli acquisti di determinati prodotti, i click su un link, il numero di visite di ritorno al sito, la creazione di account o qualunque altra azione misurabile. Gli split test possono aiutare il vostro team a prendere decisioni basate sui fatti piuttosto che sulle opinioni.

Decidere cosa testare

Innanzitutto, dovete decidere quali elementi della pagina vorreste sottoporre a un test. Le differenze tra le versioni A/B dovrebbero essere nette: un piccolo cambiamento nel colore, un leggero riordinamento delle parole o dei cambiamenti trascurabili della funzionalità potrebbero non costituire dei buoni test A/B, perché potrebbero non registrare delle grandi differenze nella user experience, dipendendo dalla dimensione della base degli utenti. La differenza tra le versioni dovrebbe influenzare il conversion rate e dovrebbe essere qualcosa da cui imparare per i futuri design. I migliori test A/B dovrebbero confrontare:

  • titoli delle e-mail completamente differenti,
  • offrire servizi in pacchetti o per più anni,
  • richiedere la registrazione per un insieme di utenti e lasciarla opzionale per un altro.

Which Test Won [Quale test ha vinto, ndt] è una grande fonte di ispirazione per i test A/B ed include i risultati così come le valutazioni dei tester sul perché ha vinto una particolare versione. I test A/B dovrebbero essere fatti solo con una variabile alla volta: se testate più di una differenza tra le versioni, sarà impossibile dire in che modo ciascuna variabile ha influenzato le conversioni.

A questo punto, dovreste anche capire quale metrica confronterete nelle due versioni. La metrica più utilizzata per i test A/B è il conversion rate, ma ci potrebbero essere altri dati a cui siete interessati. Il conversion rate che misurate potrebbe essere la percentuale di utenti che hanno cliccato su un pulsante, che hanno compilato una form o aperto un'email.

Implementare i test

Una volta decise le differenze tra le versioni A e B, dovrete impostare il test A/B perché giri sul vostro sito. Ci sono molti tool per eseguire i test A/B che potete provare, a seconda del medium (website, email), piattaforma (HTML statico, contenuto dinamico) o comodità nel rilascio delle metriche per i tool di terze parti. Which Test Won ha una nutrita lista di tool che potete usare per creare i vostri test A/B. Potete anche creare la vostra soluzione “fatta in casa”. Dovrete essere in grado di controllare:

  • il numero di visitatori che vedono ciascuna versione del test,
  • la differenza tra ogni versione
  • come misurare l'effetto di ciascun test.

Tracciare gli eventi con Google Analytics può essere utile se state usando la vostra soluzione per lo split test. Potete personalizzare le variabili usando Google Analytics, che è utile perché traccia gli utenti che vedono la versione A del vostro test e quelli che vedono la versione B. Questo può aiutare a decifrare dati aggiuntivi oltre al fondamentale dato del conversion rate. Ad esempio, gli utenti in diversi stati hanno dato risultati differenti rispetto all'utente medio?

Per impostare le variabili personalizzate in Google Analytics, aggiungete la seguente riga di JavaScript alla vostra pagina:

_gaq.push(['_setCustomVar',1,'testname','testversion',2]);

Potete trovare ulteriori informazioni sulla creazione di variabili personalizzate nella documentazione di Google. Le parti della riga di cui sopra che dovrete sostituire sono: testname, che sarà un identificatore per il test A/B che state facendo, e testversion, che indicherà se si tratta della versione A o della B. Usate nomi che siano intuitivi. Ad esempio, se dovessi fare un esperimento per una homepage per confrontare un testo breve con un testo lungo, nella versione A userei:

_gaq.push(['_setCustomVar',1,'Homepage Content Test','Short',2]);

Nella versione B userei:

_gaq.push(['_setCustomVar',1,'Homepage Content Test','Long',2]);

Raccogliere queste informazioni in Google Analytics vi permetterà di vedere più dati sugli utenti che vedono il vostro testo rispetto al solo conversion rate, quali il numero di visite al sito, il numero di account creati e altro ancora. Per vedere queste variabili di Google Analytics una volta che avrete raccolto i dati, andate su Visitors > Custom Variables e selezionate il nome del test che avete usato prima.

Misurare i risultati

Dopo qualche tempo (tipicamente alcune settimane, a seconda del traffico verso il test), controllate i risultati del vostro test e confrontateli con il conversion rate di ciascuna versione. Ciascun test A/B dovrebbe raggiungere la significatività statistica prima di potersi fidare dei suoi risultati. Potete trovare diversi calcolatori online per verificare se avete raggiunto un livello di sicurezza pari al 95% nel vostro test. La significatività è calcolata utilizzando il numero totale di utenti che hanno partecipato a ciascuna versione del test ed il numero di conversioni per ciascuna versione: un numero scarso di utenti o di conversioni e avrete bisogno di più dati per confermare il vincitore. Il calcolatore di Usereffect.com può aiutarvi a capire quanti utenti in più vi servono prima di raggiungere la sicurezza al 95%: porre fine ad un test troppo precocemente può significare che la versione “vincente” non sia in realtà la scelta migliore, quindi misurate attentamente.

Più visitatori vedono il vostro test, più il test sarà rapido. E' importante fare i test A/B sulle aree ad alto traffico del vostro sito, così che possiate raggiungere velocemente la significatività statistica. Man mano che vi impratichite con gli split test, troverete che più visitatori vedono il vostro test, più sarà facile raggiungere un livello di sicurezza pari al 95%.

Esempi di test A/B

Supponiamo che io sia una sviluppatrice di un sito di e-commerce. Dal momento che i test A/B sono perfetti per testare un elemento della pagina per volta, ho creato un test A/B per risolvere un disaccordo riguardante il volere in bold una parte del nome del prodotto nell'account dell'utente. Avevamo una lunga lista di prodotti nell'interfaccia utente per aiutare gli utenti a gestire il rinnovo dei propri prodotti e non eravamo sicuri su quanto fosse facile scorrere questa lista. Nella Versione A, la lista degli item appariva con il nome di dominio in grassetto:

service name, yourdomainname.com

Mentre nella Versione B appariva così:

service name, yourdomainname.com

Dopo aver raggiunto un numero sufficiente di conversioni tali da avere un livello di sicurezza al 95%, ecco i risultati:

E-commerce Conversion Rate Valore Per Visita
Versione A 26.87% $11.28
Versione B 23.26% $10.62

Chiaramente, la Versione A era la vincitrice e ci ha aiutato a capire che gli utenti molto probabilmente scorrono la lista di prodotti per cercare il proprio nome di dominio.

La user interaction è un'altra metrica da controllare quando si creano i test A/B. Abbiamo confrontato i livelli di aggressività del tono di un contenuto in un test e abbiamo osservato per capire come cambiavano i pattern dei visitatori.

Testo della Versione A:

Don’t miss out on becoming a VIP user. Sign up now.

[“Non perdete l'occasione di diventare un utente VIP. Iscrivetevi adesso.”, ndt]

Testo della Versione B:

Don’t be an idiot; become a VIP!

[“Non fare l'idiota: diventa un VIP!”, ndt]

Il bounce rate può essere una buona metrica per i test A/B delle landing pages. Come abbiamo osservato i numeri, i bounce rate delle versioni erano significativamente differenti:

Bounce Rate
Versione A 0.05%
Versione B 0.13%

Naturalmente volevamo essere cauti con il testo troppo aggressivo e il bounce rate ha indicato che la versione più aggressiva avrebbe potuto essere alienante per gli utenti. Occasionalmente, una volta raggiunta la significatività statistica, potreste voler indagare un po' di più in questi dati, specialmente se avete una user base diversificata. In un altro test sul contenuto, ho separato i dati sul bounce rate per stato utilizzando Google Analytics.

Bounce Rate Versione A Bounce Rate Versione B
Stati Uniti 13.20% 16.50%
Non-US 15.64% 16.01%

La Versione B ha avuto un bounce rate più consistente tra le versioni e abbiamo realizzato di aver bisogno di fare ulteriori test per vedere perché la versione A aveva performance così diverse per i due gruppi di utenti.

Oltre ai test sul design e sul contenuto, si possono anche fare degli esperimenti sulla funzionalità. Avevamo un pulsante che semplicemente aggiungeva un prodotto al carrello dell'utente. In entrambe le versioni del nostro test A/B abbiamo usato lo stesso linguaggio e stile per il pulsante, con una sola differenza tra le due versioni: il pulsante della versione A aggiungeva il prodotto al carrello con il prezzo per un anno, mentre la versione B lo aggiungeva con il prezzo per due anni.

Il nostro obiettivo era quello di misurare il conversion rate dell'e-commerce e la media del valore dell'ordine per le due versioni. Non eravamo sicuri se gli utenti che avrebbero usato la versione B avrebbero ridotto il numero di anni nel carrello per pagare un solo anno o se vedendo un prezzo più alto nel carrello avrebbero rinunciato ed abbandonato il carrello. Speravamo di poter guadagnare di più con la versione B, ma dovevamo testarlo. Dopo aver raggiunto il numero di conversioni necessarie perché il test fosse statisticamente significativo, abbiamo scoperto:

Valore Medio dell'Ordine E-commerce Conversion Rate
Versione A $17.13 8.33%
Versione B $18.61 9.60%

Il pulsante della versione B che aggiungeva il prodotto al carrello con il prezzo per due anni era ovviamente il vincitore. Siamo in grado di utilizzare questa informazione per creare altri pulsanti “Aggiungi al carrello” sul sito.

False tracce

A volte, i dati dei test A/B saranno inconcludenti. Recentemente, abbiamo fatto un test sulla nostra homepage per determinare quale contenuto aveva una performance migliore. Ero sicura che una determinata versione sarebbe stata la vincitrice assoluta. Tuttavia, entrambe le versioni produssero lo stesso e-commerce conversion rate, le stesse pagine per visita e lo stesso valore medio per ordine. Dopo aver fatto il test per settimane, realizzammo che non avremmo probabilmente mai trovato dei dati significativi per fare un cambiamento, così abbiamo posto fine al test e siamo passati al successivo. Dopo un risultato neutro, si poteva scegliere qualunque versione per l'uso sul sito, ma non c'erano dati statisticamente significativi che indicassero che una versione fosse “meglio” dell'altra.

Ricordatevi di non farvi intrappolare dai test A/B: a volte non mostreranno alcuna differenza. Lasciate ai test un tempo sufficiente da essere sicuri di aver fatto del vostro meglio (a seconda del numero di visitatori che vedranno la pagina, mi piace fare test per almeno tre settimane prima di controllare i dati). Se pensate che un test possa non avere successo, terminatelo e provato qualcosa d'altro.

Tenete una lista delle diverse cose che dovete testare: vi aiuterà a continuare ad imparare nuove cose e servirà inoltre come modo semplice per risolvere i disaccordi nelle decisioni riguardanti il design. “Lo aggiungo alla lista dei test A/B” è utile quando si devono placare le persone che prendono le decisioni.

Illustrazioni: Carlo Brigatti

Share/Save/Bookmark
 

Discutiamone

Ti sembra interessante? Scrivi tu il primo commento


Cenni sull'autore

Lara Swanson

Lara Swanson è una engineering manager di Etsy. Potete seguire le sue riglessioni sul coding semantico, sul mobile web e sull'importanza di fare torte per i propri collaboratori su Twitter.