Usabilità del test A / B con conteggio utenti statico
Sono nuovo nel test A / B e ho alcune domande.
La situazione
vorrei testare un sistema informativo senza nuovi utenti, quindi il conteggio degli utenti è più o meno costante. Nel sistema c'è un grande modulo che gli utenti stanno riempiendo. Non misurerò i tassi di conversione o qualcosa del genere. L'obiettivo è misurare i tempi di completamento di questo modulo e l'obiettivo è migliorare il modulo, in modo che gli utenti impieghino meno tempo per riempirlo.
Alcuni utenti potrebbero compilare questo modulo una volta una falena, mentre altri potrebbero riempirlo più volte al giorno.
Le domande
- Divido gli utenti a metà in base al conteggio dei moduli (in modo che il conteggio dei moduli compilati sia approssimativamente uguale) o in base al conteggio degli utenti (in modo che il conteggio degli utenti sia approssimativamente uguale in ogni gruppo)?
- Posso considerare il completamento di ciascun modulo come una "istanza" (invece degli utenti) nonostante un utente possa compilare più moduli?
- Come faccio a calcolare per quanto tempo devo eseguire il test per ottenere risultati statisticamente significativi?
Ad esempio, ho trovato il calcolatore della dimensione del campione (https://www.surveysystem.com/sscalc.htm), e inserisco tali dati:
-Livello di fiducia: 95%
-Intervallo di confidenza: 5
e come output ottengo 384. 384 è il conteggio dei completamenti del modulo per ciascuna variante?
Supponiamo che ci siano in media 70 completamenti di moduli al giorno. Ciò significa che devo eseguire il test per 11 giorni? (Il calcolo è:384/70 * 2
(moltiplicato per 2 perché c'è la variante A e B)) O dovrei arrotondarlo per eccesso a settimane intere (quindi 14 giorni in questo caso)?
Mi scuso se le mie domande sono molto semplici. Ho letto molto sui test A / B, ma di solito ci sono tassi di conversione e non riesco ad applicarli alla mia situazione.
Risposte
Sei sulla strada giusta, ma ci sono alcune cose da pianificare.
Prova a fare misure di controllo prima di iniziare. Questi saranno preziosi per segmentare i tuoi utenti, classificare i tempi di completamento e sono un buon backup se il test A / B non è possibile o ha un impatto negativo. Ciò ti consentirà di sapere quanta varianza nel tempo di completamento hai già e potrebbe indicare tendenze o correlazioni che devi conoscere. (La regola 80/20 dice che l'80% dei tuoi completamenti proviene probabilmente dal 20% dei tuoi utenti. Sono i tempi più veloci o i più lenti? Si verificano tutti in un solo giorno della settimana? Gli orari del lunedì sono diversi da quelli del venerdì? Eccetera.)
Pensare al completamento del modulo come alle unità che stai misurando, piuttosto che agli utenti è una buona idea, ma vorrai assicurarti che ogni utente riceva solo una versione del modulo poiché cambiare più volte introdurrà più pregiudizi. Se sei preoccupato di avere un impatto su troppi utenti, i due segmenti di pubblico non devono essere uguali. Un campione del 10% dei tuoi utenti (si spera che faccia il 10% dei tuoi completamenti) può darti risultati. Ci vorrà più tempo, ma avrà un minor numero di utenti.
I calcoli della dimensione del campione servono a valutare quanto un campione casuale corrisponderà all'intera popolazione. Se vuoi selezionare un campione casuale dei tuoi utenti come gruppo B, un calcolatore della dimensione del campione ti dirà quanti ne hai bisogno per essere sicuro che rappresentino il tutto. (Se hai 1000 utenti, devi solo 278 per essere nel gruppo B per essere sicuro al 95% che i loro dati saranno entro il 5% dell'intero gruppo. Hai solo bisogno di 88 se possono essere entro il 10%. Potrebbe essere OK per tempi di completamento.)
Per misurare il successo del test stesso è necessario un calcolatore di significatività statistica come questo: https://www.surveymonkey.com/mp/ab-testing-significance-calculator/
Tuttavia, la significatività statistica misura solo eventi discreti (cioè conversioni) e non i tempi. È qui che entrano in gioco i dati di controllo. Se il tempo di completamento mediano precedente (o medio se i dati sono distorti) era di 60 secondi, è possibile definire una conversione riuscita come 59 secondi o meno. Quindi puoi inserire quei numeri nel calcolo e vedere se hai bisogno di più test. Tassi di conversione molto diversi tra loro potranno raggiungere rapidamente un significato, ma più sono vicini più a lungo dovrai lasciarli funzionare prima di dichiarare un vincitore. Se la modifica rende un modulo due volte più veloce, lo vedrai rapidamente, ma dovrai misurare a lungo per rilevare una diminuzione del 5%.
Nota che il test A / B ti dirà solo quale versione è più veloce, non quale agli utenti piace di più o il loro tasso di errore o altre cose. Potresti ottimizzare te stesso in un modulo che è molto più veloce ma si traduce in una raccolta di dati molto più cattivi a causa di errori di battitura o altri errori.
Sarò in anticipo: non ho mai condotto un test A / B da solo, quindi aggiungerò i miei suggerimenti qui per essere votato in alto o in basso a seconda che la comunità si senta appropriato, tuttavia sento di capire concettualmente come viene utilizzato.
Penso che tu sia sulla strada giusta per come applicarlo . Idealmente divideresti la tua base di utenti in modo che alcuni utenti vedano costantemente la versione A e altri la versione B. Non vorresti che un determinato utente a volte vedesse una versione durante un'istanza, quindi una versione diversa per l'istanza successiva .
Come hai accennato, il tuo obiettivo, in questo caso, non è misurare i tassi di conversione (ovvero quanti utenti scelgono di compiere una determinata azione), ma piuttosto l'efficienza con cui eseguono l'azione. Quindi, per il tuo caso, hai ragione nel dire che misurare il tempo di completamento del modulo è probabilmente uno dei migliori indicatori di questo. Se in qualche modo sei in grado di verificare che i moduli siano stati completati correttamente (ad esempio, gli utenti non tornano per correggere o modificare i loro contributi, o per dare seguito a richieste di supporto), allora questo potrebbe essere un altro punto di dati significativo da provare e raccogliere.
Hai identificato differenze significative nel modo in cui i tuoi utenti interagiscono con il modulo: alcuni lo usano più volte al giorno (chiamali "utenti frequenti"), mentre altri lo usano molto meno ("utenti occasionali").
Come hai già accennato, penso sia saggio dividere i tuoi utenti in modo tale da avere un mix di utenti frequenti e utenti occasionali che vedono ogni versione del modulo, quindi potresti essere in grado di notare differenze nel modo in cui una versione influisce su ogni tipo di utente.
Anche i tuoi calcoli statistici sembrano ragionevoli: due settimane sembrano una quantità di tempo sufficiente per iniziare ad attingere ai tuoi risultati. Ciò consente inoltre agli utenti che visualizzano ciascuna versione di acquisire familiarità con le loro versioni e di "stabilire" quanto tempo impiega ora a completare la versione del modulo.
Alla fine delle due settimane, puoi eseguire le tue analisi per cercare di scoprire se uno ha avuto un tempo medio di completamento inferiore rispetto all'altro, e suddividere i risultati in base a diverse dimensioni: tipo di utente (per vedere se il modulo funziona meglio per utenti molto più abili, o forse più semplici per gli utenti che lo usano solo occasionalmente), tempo trascorso dall'introduzione al modulo (per vedere se le persone sono migliorate dopo essersi abituate alle nuove versioni), o tasso di errore di completamento (se applicabile, a vedere se una versione previene gli errori meglio dell'altra).