Problemas anecdóticos

Un test de usabilidad evaluativo es una técnica cualitativa con la que intentamos descubrir problemas observando participantes realizando tareas. Lo más habitual es que el facilitador de un test determine también la causa del problema en el momento en que es observado, por lo que la existencia del problema nunca se debería probar, o justificar, con la observación, sino con las causas que lo produjeron.

Pese a esto, es habitual preguntarse hasta qué punto la observación es relevante o puede acreditar la existencia del problema por sí sola, sin justificación causal. Así pues, ¿observar un participante teniendo un problema es significativo? Significativo, estadísticamente hablando, expresa que el resultado del test no se puede atribuir al azar o que, mejor dicho, la probabilidad de que sea atribuible al azar es muy pequeña.

Podemos preguntarnos lo mismo de otro modo: ¿qué probabilidad hay que el problema observado le pueda suceder a otra persona? Para un sitio web dirigido a una población de 10 o 20 millones de usuarios, por ejemplo, sería una gran casualidad que hubiéramos dado con la única persona que va a tener dificultades. Nuestra intuición, pues, nos dice que el problema le va a suceder a más gente, pero ¿a cuánta?

Pongamos que hacemos un test de un sitio web de comercio electrónico con únicamente 3 participantes y sólo uno de ellos tiene problemas para comprar. Con una muestra tan pequeña y con una sola observación, podríamos categorizar el problema de anecdótico y no atrevernos ni siquiera a exponerlo.

Vamos a suponer, arbitrariamente y con poco criterio, que para nosotros un problema anecdótico es aquél que afecta a menos de 1 de cada 1000 usuarios. ¿Qué probabilidad existe de que observemos un problema una única ocasión con tres participantes si en la realidad se da 1 de cada 1000 veces?

Una forma de calcular esto es utilizando probabilidad binomial, ya que cada participante es un “experimento” independiente en el que podemos observar, o no, el problema. La fórmula para calcular esta probabilidad es:

{P(k;n,p)=\binom{n}{k}p^k(1-p)^{n-k}}

donde k es el número de observaciones (una), n el número de experimentos (tres) y p la probabilidad del problema (0,001).

Calculando obtenemos que existe una probabilidad del 0,3% de obtener este resultado en el test. Dicho de otro modo: sólo obtendríamos este resultado (“1 observación en 3 participantes”) 3 de cada 1000 veces que hiciéramos el test. En el resto de casos obtendríamos otro número de observaciones para el problema (0, 2 o 3).

Visto esto, podemos afirmar que es “raro” que nos encontremos ante esta situación. ¿Existirá otra más probable? Quizás el problema es más habitual de lo que creemos. En nuestra muestra lo hemos observado 1 de cada 3 veces… ¿qué probabilidad hay que hayamos obtenido este resultado si la proporción de usuarios “real” afectados por el problema fuera la misma que la observada en nuestra muestra? Pues bastante. Si hacemos el cálculo el resultado es de un 44%.

Debemos tener claro que ambos casos son posibles: puede que la frecuencia del problema sea pequeña, de sólo un 0,1%, y que haya dado la casualidad que hayamos obtenido este resultado del test. O puede que la frecuencia sea mayor y que no hayamos tenido tanta casualidad al obtener este resultado. Sea como sea, con estos números podemos afirmar que es más probable que el problema detectado no sea anecdótico que no que lo sea.

Seguimos, eso sí, sin saber la probabilidad real del problema, pero podemos calcular una aproximación: una horquilla entre dos números donde, con gran seguridad, se encuentre la frecuencia que buscamos. Esto es lo que se llama intervalo de confianza y si lo calculamos usando el método de Clopper-Pearson obtenemos que es muy probable (un 95% de probabilidad) que la frecuencia del problema observado esté entre el 0,8% y el 90,5%. El intervalo es muy amplio, pero nos da gran seguridad de que no estamos ante algo anecdótico.

Si os interesa profundizar en cuestiones estadísticas y usabilidad os recomiendo leer a Jeff Sauro, quien en 2010 ya trató este mismo tema haciendo también un análisis de probabilidad binomial.

Publicado por

Dani Armengol

Consultor independiente de arquitectura de información