Introduzione

Le valutazioni vengono effettuate su degli artefatti (artifact) e ne valutano sia il design che l’implementazione.

Artifact: simulazioni, prototipi, full implementations

Sono molto utili se applicate a tutti gli stage del design life cycle e determinano:

  • to assess extent of system functionality
  • to assess effect of interface on user
  • to identify specific problems

Utenti

Le valutazioni sono effettuati attraverso degli utenti, che dovrebbero:

  • rappresentare il target degli utenti dello studio
  • dovrebbero avere esperienza simili (omogenei)
  • avere conoscenze nel dominio di studio
  • essere almeno 3/5 utenti

Scenario e Task

Lo scenario descrive una situazione potenzialmente reale nella quale si immedesimano i partecipanti alla valutazione

  • permette di individuare: utenti, azioni, strumenti da usare e contesti

I task sono i singoli compiti che si richiede di svolgere ai partecipanti

Stili di Valutazione

Laboratory Studies

Appropriate if system location is dangerous or impractical

Positives:

  • specialist equipment available
  • uninterrupted environment

Negatives:

  • lack of context
  • difficult to observe several users cooperating

Field Studies

Appropriate where context is crucial for longitudinal studies.

Positives:

  • natural environment
  • context retained (though observation may alter it)
  • longitudinal studies possible

Negatives:

  • distractions
  • noise

Observational Methods

Think Aloud

Characteristics:

  • user observed performing task
  • user asked to describe what he is doing and why, what he thinks is happening etc

Positives:

  • simplicity - requires little expertise
  • can provide useful insight
  • can show how system is actually used

Negatives:

  • subjective
  • selective
  • act of describing may alter task performance

Cooperative evaluation

It’s a variation of Think Aloud Method where the user collaborates in evaluation:

  • both user and evaluator can ask each other questions throughout

Additional advantages:

  • less constrained and easier to use
  • user is encouraged to criticize system
  • clarification possible

Protocol analysis

protocol = recording of evaluation session

There are different ways to “write” a protocol:

  • paper and pencil: cheap, limited to writing speed
  • audio: good for think aloud, difficult to match with other protocols
  • video: accurate and realistic, needs special equipment, obtrusive
  • computer logging: automatic and unobtrusive, large amounts of data difficult to analyze
  • user notebooks: coarse and subjective, useful insights, good for longitudinal studies

In practice a mix of these techniques is used.

Post-task walkthroughs

Tecnica utilizzata nella ricerca per raccogliere informazioni aggiuntive dai partecipanti dopo che hanno completato un compito.

Prevede di riprodurre la trascrizione del compito al partecipante e chiedergli di commentare le proprie azioni e decisioni.

Tipi di de-briefing:

  • Immediato: il de-briefing viene condotto subito dopo il compito, quando i dettagli sono ancora freschi nella mente del partecipante
  • Ritardato: il de-briefing viene condotto dopo un certo periodo di tempo, permettendo al valutatore di riflettere sulle domande da chiedere al partecipante.

Quando utilizzare il de-briefing:

  • Quando non è possibile utilizzare la tecnica del “think aloud” (pensare ad alta voce)
  • Quando si desidera raccogliere informazioni aggiuntive sui processi decisionali dei partecipanti

Misurazioni

I metodi di valutazione discussi sono soggettivi e dipendono dalle conoscenze e dalle capacità del valutatore. Il valutatore deve essere in grado di riconoscere i problemi e comprendere cosa fa l’utente.

Problemi dei metodi di valutazione:

  • Bias del valutatore (evaluator bias): può essere attenuato utilizzando più valutatori
  • Risposta soggettiva dell’utente: anche la risposta dell’utente può essere soggettiva

Misure qualitative

  • I metodi discussi producono misure qualitative, ovvero non numeriche
  • Queste misure possono rivelare dettagli che non possono essere determinati da misure numeriche
  • I metodi soggettivi generalmente portano a misure qualitative

In generale, è importante essere consapevoli delle limitazioni dei metodi di valutazione e cercare di mitigare i bias e le soggettività per ottenere risultati più affidabili.

Valutazione Sperimentale

La valutazione sperimentale è un metodo di valutazione che consiste nell’effettuare un esperimento per studiare degli aspetti specifici del comportamento interattivo.

Fattori Sperimentali

  • Soggetti: chi sono i partecipanti, rappresentativi e sufficienti?
  • Variabili: cosa modificare e misurare?
  • Ipotesi: cosa si vuole dimostrare (un’idea provvisoria il cui valore dev’essere accertato)
  • Progettazione sperimentale: come si effettuerà la valutazione?

Variabili

  • Variabile indipendente (IV): caratteristica modificata per produrre condizioni diverse (ad esempio, stile dell’interfaccia, numero di elementi del menu)
  • Variabile dipendente (DV): caratteristica misurata nell’esperimento (ad esempio, tempo impiegato, numero di errori)

Ipotesi

  • Ipotesi alternativa: previsione che una variazione della IV causerà una differenza nella DV (ad esempio, “la frequenza degli errori aumenterà al diminuire della dimensione del carattere”)
  • Ipotesi nulla: afferma che non ci sarà differenza nella DV (ad esempio, “nessun cambiamento con la dimensione del carattere”)

Progettazione Sperimentale

  • Scegliere l’ipotesi
  • Scegliere le variabili dipendenti e indipendenti (le variabili indipendenti devono essere le più semplici possibili)
  • Scegliere i partecipanti
  • Scegliere il metodo sperimentale: between subjects o within subjects

Condizioni

  • Condizione di controllo: condizione di base per confrontare i risultati
  • Condizione sperimentale: condizione in cui solo una variabile indipendente viene modificata rispetto alla condizione di controllo

Metodi sperimentali

Between subjects: ogni partecipante viene assegnato a una sola condizione e svolge il test una volta sola.

  • Positives: non risente del “trasferimento dell’apprendimento”
  • Negatives:
    • sono richiesti più partecipanti
    • variazioni tra gli utenti possono alterare il risultato della valutazione

Within subjects: ogni partecipante viene assegnato a tutte le condizioni che vengono analizzate singolarmente svolgendo il test più volte ogni volta con una condizione diversa.

  • Positives:
    • richiede meno partecipanti, quindi è meno costoso
    •  le differenze tra gli utenti influenzano di meno la valutazione
  • Negatives:
    • risente del “trasferimento dell’apprendimento”

Mitigare il trasferimento dell'apprendimento

Problema: si verifica quando un partecipante esegue un compito più volte, con diverse condizioni sperimentali, e apprende qualcosa durante la prima esecuzione del compito che può influenzare le sue prestazioni nelle esecuzioni successive

Esempio: un partecipante esegue un compito con un’interfaccia utente e poi esegue lo stesso compito con un’altra interfaccia utente, potrebbe aver già imparato alcune cose durante la prima esecuzione del compito che possono aiutarlo a eseguire meglio il compito con la seconda interfaccia utente, anche se la seconda interfaccia utente è diversa dalla prima.

Mitigazione:

  • Metà dei partecipanti esegue il test dapprima sotto la condizione di controllo, poi sotto la condizione sperimentale
  • L’altra metà esegue il test dapprima sotto la condizione sperimentale, poi sotto la condizione di controllo

Analisi Statistica

  • Osservare i dati raccolti (DV)
  • Possibilmente su un grafico
  • Ricerca di outliers
  • Salvare i dati originali (potrebbero essere necessari in seguito)

Tipi di dati:

  • variabili discrete o continue
  • variabili continue positive (> 0). Es. tempo impiegato
  • variabili indipendenti tipicamente discrete
  • distribuzione normale della variabile dipendente

Risultati:

  • Se i dati soddisfano la distribuzione normale: test parametrici (tecniche di analisi statistica standard molto robuste)
  • Altrimenti: test non parametrici, tabella di contingenza,…
  • Verifiche d’ipotesi: sì/no al rifiuto dell’ipotesi nulla (ad esempio, “possiamo, al 99%, rifiutare l’ipotesi nulla”)

A/B Testing (esperimento di usabilità)

L’ A/B Testing è l’esperimento di usabilità più semplice, consiste nel confrontare due versioni di un prodotto o di un servizio per determinare quale sia più efficace.

Questo tipo di esperimento è comunemente utilizzato per testare piccole modifiche a un prodotto o di un servizio e per determinare se queste modifiche abbiano un impatto significativo sull’esperienza dell’utente.

L’esperimento di usabilità più semplice è caratterizzato da:

  • Una sola variabile indipendente con due valori (A e B)
  • Due condizioni (A e B)
  • Utilizzo di un test statistico (ad esempio test di distribuzione Gaussiana: t-test) per confrontare i risultati.

L’obiettivo di questo tipo di esperimento è di determinare se c’è una differenza statisticamente significativa tra le due versioni. Per raggiungere questo obiettivo, i partecipanti vengono assegnati casualmente alle due condizioni e vengono misurate le variabili dipendenti (ad esempio, conversion rate, call-to-action clicks, engagement).

I vantaggi di questo tipo di esperimento sono:

  • Semplicità di progettazione e realizzazione
  • Risultati facili da misurare e interpretare
  • Possibilità di ottenere risultati chiari e significativi

Tuttavia, ci sono anche alcuni svantaggi:

  • Adatto solo al caso di due condizioni diverse
  • Difficoltà nel decidere cosa misurare (A e B) in alcuni casi

Esempio

Variabili dipendenti:

  • conversion rate (CVR)
  • call-to-action (CTA) clicks
  • engagement

Risultato: CVR nella condizione B è superiore del 6% ad A (in C è inferiore ad A).