Al momento de desplegar un test A/B (o test de hipótesis), de iniciar un proceso de entrevistas o encuestas, el método con el que se realiza el muestreo es igual de importante que la calidad de los datos. Un procedimiento correcto de muestreo nos asegura que los datos recopilados posean atributos de aleatoriedad, independencia y sistematicidad. De la misma forma, una metodología incorrecta puede atentar contra la insesgadez y la variabilidad de nuestra muestra.
En este artículo exploraremos algunas de las técnicas más utilizadas para realizar muestreos exitosos. Veremos algunas de las propiedades y aportes que nos genera cada una y derribaremos el mito de que "más siempre es mejor" al momento de tomar una muestra.
Como optimizadores nos vemos a menudo delante de la necesidad de conocer medidas estadísticas de los datos de nuestros usuarios. El problema al que nos enfrentamos es que el tamaño de los datos puede ser demasiado grande, o demasiado costoso e incluso inaccesible. Estos impedimentos nos llevan a basarnos en herramientas estadísticas para poder estimar dichas medidas, y es entonces cuando nos apalancamos de la inferencia para poder lograrlo.
Por ejemplo: Supongamos que deseamos conocer la preferencia del usuario ante dos packagings distintos que hemos diseñado. Para poder conocer la opinión de todas las personas tendríamos que encuestar a cada una de ellas. Este proceso exhaustivo implica un gasto enorme para poder llegar a una conclusión general. Sin mencionar el hecho de que algunas personas serían inaccesibles en nuestro proceso de investigación. Entonces, ¿Cómo puedo solucionar este paradigma? Es en este caso que el muestreo nos ofrece una solución elegante y robusta desde el punto de vista estadístico.
Cuando llevamos adelante un muestreo lo que estamos haciendo es encuestar, observar u obtener conclusiones a partir de una porción representativa de esa población. De esta forma, renunciamos a la idea de tener un parámetro estadístico poblacional preciso y nos decantamos por un acercamiento lo más próximo al que obtendríamos por medio de un proceso exhaustivo de censo. Con esto logramos reducir el costo en términos de dinero, tiempo y otros recursos, además de solucionar el problema de la inaccesibilidad de algunos datos.
Un aspecto importante del muestreo es que nos permite acercarnos a los parámetros que obtendríamos de la población entera por medio de las herramientas de inferencia que nos ofrece la estadística. Con tales herramientas estableceremos caminos para acercarnos a los valores reales de los principales parámetros poblacionales: Media, desvío, varianza y proporción.
En la actualidad, los modelos de muestreo más tradicionales se pueden dividir en dos grupos: Muestreos probabilísticos y muestreos no probabilísticos. Los primeros nos aseguran que todos los elementos disponibles tengan la misma probabilidad de ser parte de la muestra, mientras que en el segundo no es así. Veamos cada uno de ellos.
El procedimiento en este tipo de muestreo se encuentra explícito en el nombre. Se basa en seleccionar de manera azarosa elementos disponibles para integrarlos a nuestra muestra. Por lo tanto, el principal motor de este procedimiento es la aleatoriedad. Para ello, existen diversas herramientas que nos ofrecen números aleatorios o pseudo-aleatorios. Con estos números, se puede establecer una regla de decisión para definir qué elementos integrar a la muestra.
Por ejemplo: a cada elemento disponible le debo asignar un número aleatorio del 1 al 10. Mi regla de decisión aleatoria es que debo seleccionar los datos que sean menores o iguales a 5. De esta forma, el azar determina con qué elementos conformo la muestra asegurando una condición de equiprobabilidad.
Con este procedimiento los elementos de la población son seleccionados cada cierto periodo de tiempo o cada cierta cantidad/intervalo de unidades. Casi siempre se emplea si se tiene una lista de datos ordenada o un flujo de datos aproximadamente continuo. Para poder lograr un procedimiento exitoso los datos deben ser seleccionados cada k elementos, siendo k un entero positivo resultado de dividir el tamaño de la población por el tamaño de la muestra.
k =N/n
Por ejemplo: Supongamos que queremos estimar la tasa de conversión de un sitio con determinado nivel de confianza y precisión. Para lograr dichos objetivos calculamos que el tamaño óptimo son 4.000 usuarios. Sabiendo que tenemos a disposición mediciones de 20.000 usuarios, tomaremos al primero y luego repartir el proceso cada 5 (k = 20.000/4.000 = 5 usuarios).
Este tipo de muestreo es una variante del aleatorio simple. En este proceso se divide a la población en grupos homogéneos o aproximadamente similares, los cuales denominaremos estratos, y se sigue el siguiente procedimiento:
Los estratos nos permiten corroborar que haya características presentes en todos. Para ello se puede apalancar las características intrínsecas de la población: nivel socioeconómico, comportamiento, rango etario, etnia, nacionalidad, estado civil, etc.
Este tipo de muestreo probabilístico se suele utilizar cuando no tenemos acceso al tamaño de la población ni tampoco podemos inferirla, aunque suele tener mejores resultados si sabemos a priori que es extensa y diversa. Para ello se debe dividir a los datos disponibles en grupos homogéneos que llamaremos conglomerados. Luego se selecciona de manera aleatoria algunos de los conglomerados y se evalúa de manera exhaustiva los elementos que la conforman por ser considerados acercamientos a la población.
Algunos conglomerados son agrupados de manera natural en función a grupos que ya se encuentran institucionalizados. Si deseamos evaluar a todos los alumnos de determinada carrera, podríamos considerar que cada universidad es un conglomerado.
Por ejemplo: Supongamos que queremos realizar una investigación sobre el comportamiento de los clientes del segmento retail a través de diversas plataformas. Cada una de las aplicaciones o plataformas de e-commerce podría ser un conglomerado. Suponiendo que tenemos a disposición m aplicaciones diferentes, deberíamos seleccionar de manera aleatoria algunos de los m conglomerados y exploraríamos la totalidad de los elementos integrantes, para volverlos parte de nuestra muestra.
Este tipo de muestreo, como su nombre lo indica, es un proceso secuencial fraccionado por etapas que nos permiten seleccionar elementos o grupos generales hasta llegar a los elementos particulares de la población. En este, se sabe que la población tiene clasificaciones que nos permite agruparlos a nivel general, y a niveles menos generales hasta llegar al elemento. A cada uno de esos niveles se les aplica uno de los métodos que vimos previamente.
Por ejemplo: Supongamos que queremos realizar un análisis determinado sobre el comportamiento de nuestros usuarios, y los mismos provienen de distintos países. Sin embargo, en lugar de utilizar todos los datos que tenemos recolectados de ellos, decidimos trabajar con una muestra lo suficientemente variada. Para ello, decidimos llevar adelante un muestreo polietápico, por lo que debemos comenzar a seleccionar de manera aleatoria los distintos grupos que vamos a encuestar. En el primer nivel tenemos al grupo de los países, así que seleccionamos n del total de la región con alguno de los métodos que vimos hasta ahora. En el segundo nivel para cada país seleccionamos k provincias o estados con las que decidiremos trabajar. En el tercer nivel, seleccionaremos h clientes de las provincias o estados elegidas, cuyos datos de usuarios integraremos a la muestra.
En este caso se apalanca del conocimiento previo por parte del investigador ya que debemos seleccionar los elementos que son más “adecuados” para nuestro proceso de investigación. Ese criterio que nos delimita cuáles datos son o no adecuados provienen de un intervalo que define el investigador. En cuanto se tenga contacto con la población, se deben seleccionar los primeros elementos disponibles que encajen con el intervalo de adecuación.
Es por ello que este procedimiento tiene ciertas similitudes con el tipo de muestreo estratificado solo que prescinde del atributo de aleatoriedad.
Por ejemplo: Para lograr obtener la proporción de usuarios que están dispuestos a retomar un carrito de compras luego de abandonarlo, se puede tomar a aquellos que hayan tenido un comportamiento que correlacione con los que suelen retomar la compra y luego recabar información de todos los que podamos. De esta manera no se busca una conclusión general del comportamiento de la población, si no que se pretende encontrar características de ese segmento de interés.
Este tipo de muestreo es bastante similar al sistemático salvo por el atributo de la aleatoriedad. En esta ocasión el procedimiento nos lleva a tomar el primero de los elementos disponibles y luego tomar al siguiente una vez que hayan dejado pasar h cantidad de elementos (siendo h el tamaño de la cuota). Esta cuota no se define en función a ningún dato proveniente de la población o de la muestra objetivo, si no que lo determina de manera subjetiva el investigador.
Por ejemplo: Supongamos el caso del muestreo para conocer la conversión de un sitio. El investigador definiría adrede que desea recabar datos cada 10 usuarios. Por lo tanto, tomaría al primero, luego el 10mo, luego el 20vo, etc.
En este tipo de muestreo se recaba información de los elementos de la población que se encuentren disponibles en cierto momento y lugar. Para este caso, todos los elementos disponibles se incluyen dentro de la muestra hasta obtener el tamaño indicado o incluso hasta donde los recursos disponibles lo permitan.
Este muestreo se basa en llegar a nuestro elemento objetivo por medio de un sistema de referidos o por redes sociales. Su sobrenombre de snowball se debe precisamente a que cada uno de los individuos nos lleva al siguiente candidato potencial de la muestra. Cuando nos llega una encuesta de producto y se nos pide que lo compartamos con otro sujeto, estamos en presencia de un muestreo Snowball.
Hay un concepto erróneo que da vueltas por la estadística sosteniendo que el tamaño de muestra siempre tiene que ser lo más grande posible. La realidad es que no siempre es lo adecuado. En todos los casos depende de qué estemos buscando probar o qué tipo de experimento estemos corriendo.
Un argumento a favor de la toma de muestras grandes es el teorema central del límite, el cual sostiene que la suma de n variables independiente siempre da origen a una variable con distribución normal estándar. Por lo tanto, para poder apalancarnos de una distribución tan conocida como la normal, nuestra n tiene que ser lo más grande posible. Esta afirmación es correcta cuando n es la cantidad de variables en lugar del tamaño de la muestra. Es por ello que este error es muy frecuente en las investigaciones precipitadas e incluso en las malintencionadas. Es importante conocer este argumento para evitar caer en errores conceptuales al momento de leer una investigación o incluso al momento de realizarla.
¿Entonces, cuáles son las ocasiones donde la muestra grande es lo ideal y cuándo no? Veamos unos ejemplos.
La muestra es un componente delicado en nuestro proceso de investigación y experimentación. Es por ello que debemos cuidar la calidad de los datos que recopilamos, así como la forma en que lo hacemos. Para este segundo objetivo nos apalancamos de los métodos de muestreo los cuales, como vimos, son variados y aportan o se desligan de subjetividades en función a las necesidades del optimizador.
Es importante no confundir el muestreo con el relevamiento, ya que una pregunta que podría surgir es ¿Por qué teniendo tantos datos disponibles, solo tomo algunos para obtener conclusiones de la población? La respuesta siempre es la misma: el costo. El muestreo nos permite reducir el costo de recoger información ya que solo tomamos una parte de los elementos disponibles. Si tuviéramos la capacidad y economicidad para evaluar todos los datos, posiblemente tampoco seleccionemos todos ya que como vimos, no necesariamente más es mejor. Siempre deberemos tener en cuenta el tipo de test que queremos correr y, en función a ello, definir el tamaño de muestra óptimo.