Documentos de Académico
Documentos de Profesional
Documentos de Cultura
de datos online
Aprende las bases de la recolección de datos online
© netquest 2017
Tabla de contenidos
Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Métodos de muestreo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
Datos de calidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Privacidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Reporting y visualización. . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
Introducción
Este Ebook pretende ser una guía para implementar
una recolección de datos online eficaz para la
investigación de mercados.
La recolección de datos es la actividad que empieza una vez se han definido el objetivo y el diseño
de la investigación, y acaba cuando se dispone de los datos recogidos para proceder a su análisis.
En este contexto, «efectivo» significa encontrar el equilibrio entre costes, tiempo y calidad.
Este Ebook te puede interesar si te identificas con alguno de los siguientes perfiles:
Con este libro quiero tender un puente importante entre la teoría y la práctica de forma sencilla,
breve y directa. Este libro es tan solo una guía; en él no se tratan todos los temas con gran
profundidad, pero te ayudará a descubrir aquellas incógnitas que todavía no conoces. Encontrarás
más información en nuestro blog en www.netquest.com.
Por último, permíteme una observación final acerca del objetivo de este libro: las
recomendaciones del libro son aplicables a prácticamente todas las metodologías de recolección
de datos online cualitativas y cuantitativas, pero nos centraremos en las encuestas por tratarse de
la metodología de investigación de mercados más habitual.
Las nuevas tecnologías han creado un nuevo comportamiento del consumidor y la necesidad
de estudiar este nuevo comportamiento en su contexto. Paralelamente, las nuevas tecnologías
han dado lugar a nuevas formas de recolectar información sobre el comportamiento de los
consumidores. Desde el auge de Internet a mediados de los 90, la investigación de mercados se ha
volcado en la recolección de datos online.
Cada día son más las investigaciones que se realizan a través de dispositivos con conexión a
Internet. Además, los nuevos dispositivos nos permiten recolectar nuevos tipos de datos. ¿Qué
razones nos empujan a recolectar datos a través de Internet? ¿Qué ventajas nos aportan? ¿Hay
límites?
La siguiente tabla recoge las ventajas y los inconvenientes de la recolección de datos online en
comparación con los métodos tradicionales.
Ventajas Inconvenientes
Gran parte de los métodos de muestreo que te han enseñado no son aplicables a la mayoría de
proyectos de investigación, independientemente de si recoges datos online u offline: ¿Cuántas
veces en la vida podrás utilizar un muestreo probabilístico puro? Esto es especialmente importante
cuando utilizamos Internet.
Mi primer consejo: olvídate de cómo te gustaría alcanzar tu muestra, piensa en cómo puedes
alcanzarla y alinea tu enfoque con la realidad. El muestreo online presenta ciertos retos: la
población en Internet no está censada y no puedes interceptar a personas al azar para pedirles
que participen, como a pie de calle. Intenta entender cómo funciona Internet y encuentra la
solución que mejor se adapte a tu proyecto de recolección de datos online; no lo hagas al revés.
Este libro te ayudará a conseguirlo.
Actualmente, los investigadores profesionales emplean cuatro fuentes distintas para conseguir
participantes.
Los paneles de acceso online son comunidades online formadas por personas predispuestas a
participar en proyectos de investigación de mercados (encuestas, en su mayoría) a cambio de una
recompensa, como dinero, obsequios, donaciones o sorteos.
Los paneles de acceso online reclutan a sus miembros por distintas vías. Algunos son paneles
abiertos en los que los participantes se registran simplemente entrando en su página web. Se
capta la atención de los visitantes a través de campañas de publicidad públicas y se convierten en
nuevos miembros.
Otros paneles son cerrados y solo se puede acceder a ellos con una invitación personal enviada a
los miembros registrados en páginas web asociadas. Pueden parecerse a los paneles abiertos, pero
2. River sampling
Es difícil crear un panel que sea totalmente representativo de la población reclutando a personas
online. En realidad, es imposible, principalmente por 2 razones: (1) en muchos países, una parte de
la población no utiliza Internet y (2) no hay un directorio que recoja todos los usuarios de Internet
a partir del cual se puedan elegir personas al azar. Tal y como veremos más adelante, estos límites
nos impiden utilizar el muestreo aleatorio.
Los paneles probabilísticos intentan superar estas dificultades reclutando a personas offline y
ofreciendo un dispositivo con conexión a Internet a aquellas que no utilizan Internet. De este
modo, es posible utilizar el método de muestreo probabilístico clásico para crear el panel online.
Una vez tenemos el panel, las muestras aleatorias que se extraen deberían ser muestras aleatorias
de todo el universo. Así, nos aseguramos de tener un panel representativo.
Por norma general, los paneles online probabilísticos son más pequeños y resultan más caros
que los paneles de acceso online y se suelen utilizar, fundamentalmente, para la investigación
académica.
Si disponemos de una base de datos con correos electrónicos o cualquier otra forma de
contactar a la gente por Internet cuando nos convenga, tenemos una buena oportunidad para la
recolección de datos online. En función del objetivo de la investigación, es probable que no sea
necesario representar a toda la población, sino únicamente a nuestro grupo objetivo, por ejemplo,
nuestros clientes o visitantes. La representatividad no siempre es un problema.
La tabla a continuación muestra las ventajas y los inconvenientes principales de las distintas
fuentes de datos.
Ventajas Inconvenientes
los individuos en la ciudad. El muestreo por conglomerados puede aumentar la varianza entre las
estimaciones muestrales, en especial, si los conglomerados no son homogéneos.
Muestreo sistemático: este método selecciona los individuos en períodos regulares a partir de
una lista ordenada de la población. Por ejemplo, elegimos a 1 visitante entre 50 en una tienda
para entrevistarle. Este método puede igualar o incluso mejorar los resultados obtenidos con el
muestreo aleatorio simple, pero si hay una correlación entre la lista ordenada de candidatos, las
estimaciones resultantes pueden ser sesgadas.
Por suerte, esto no significa que el muestreo no probabilístico no sirva para nada. No es perfecto,
no contempla la estimación de errores de medición y puede ser un método ligeramente o incluso
bastante sesgado, pero la información siempre es valiosa en tanto que sepamos cómo se ha
recogido y que, a pesar de sus limitaciones, nos sirve para alcanzar nuestros objetivos.
Una vez definido el tamaño de cada segmento o cuota, elegimos una muestra no aleatoria y
entrevistamos a los individuos hasta alcanzar el objetivo de cada cuota. Esto significa que una
vez he alcanzado los 500 varones, si el siguiente individuo en la muestra es un hombre, tenemos
que descartarlo. Los individuos descartados se denominan «quota fulls». En este sentido, el
muestreo por cuotas se parece al muestreo estratificado, pero en lugar de incluir a los individuos
aleatoriamente en cada segmento, de la muestra no aleatoria cabe esperar que sea lo más
representativa posible llenando las cuotas objetivo por segmento.
Muestreo por conveniencia: este nombre se utiliza habitualmente para describir cualquier otro
método que persiga obtener fácilmente una muestra no probabilística. Los individuos se registran
voluntariamente en un formulario web. Los seguidores de Facebook son un ejemplo de este tipo
de muestras. No podemos calcular hasta qué punto las muestras representan a nuestro universo
pero son una muestra y, por lo tanto, pueden servirnos para recolectar datos.
Esto también es aplicable al river sampling. En este caso, las cuotas son aún más importantes
debido a la varianza limitada de los participantes.
Pero las cosas son distintas cuando trabajamos con un panel online basado en la probabilidad,
porque se supone que este tipo de paneles conforman una muestra aleatoria/representativa
del universo. En teoría podríamos confiar en esto para extraer muestras aleatorias del panel. Sin
embargo, debemos recordar que un panel online probabilístico sigue siendo una comunidad de
personas encuestadas periódicamente a cambio de algo. Algunos miembros del panel pueden
responder más activamente que otros a las invitaciones. El nivel de actividad puede variar en
función de la edad, el sexo u otros factores sociodemográficos, de manera que, al final, la muestra
del panel puede ser sesgada. El muestreo por cuotas es nuestro mejor aliado para evitar estos
retos.
Por último, si tenemos acceso a una base de datos de propiedad, podremos utilizar varios
métodos de muestreo. Por ejemplo, pensemos en una lista exhaustiva de clientes de una empresa:
si queremos investigar este target específico, la lista es un marco muestral, de modo que podemos
aplicar métodos de muestreo probabilístico como el muestreo aleatorio simple o el muestreo
sistemático. Obviamente, también podemos recurrir al muestreo no probabilístico.
A veces, la base de datos de propiedad puede conformar un marco muestral o no, dependiendo
de cómo definamos nuestra población objetivo. Por ejemplo, supongamos que tenemos una
lista de clientes y clientes potenciales suscritos al boletín de noticias de una empresa. ¿Es este el
marco muestral? Si definimos nuestra población objetivo como «personas interesadas en recibir
información periódica de mi empresa», entonces sí. Si nuestra población objetivo es «cualquier
cliente real y potencial», entonces no. En el segundo caso, el muestreo por cuotas es siempre una
opción, pero cuando trabajamos con bases de datos internas, a veces es mejor aplicar el muestreo
aleatorio a toda la base de datos y analizar los resultados por segmentos, ya que no hay un coste
creciente por respuesta.
1. Fija cuotas para variables que (1) sean imprescindibles para tu proyecto y/o (2)
cuya distribución difiera claramente de tu población objetivo y la población de
Internet.
Las cuotas pretenden subsanar la posible falta de representatividad debido a las divergencias
entre nuestra fuente de datos y la población objetivo. Si hemos utiliza el muestreo por cuotas para
recolectar datos offline, deberíamos plantearnos si nos conviene reutilizar las mismas cuotas con
las mismas variables sociodemográficas. Aunque normalmente fijemos las cuotas por sexo, edad y
región, es probable que para la recolección de datos online no nos sirvan.
Veamos algunos ejemplos sobre cómo enfocar las cuotas para el muestreo online:
• En general, la edad es un factor clave en prácticamente todos los países. Los jóvenes
son más propicios a utilizar Internet que las personas mayores, salvo en los países más
desarrollados, como Noruega o Suecia, que registran una penetración de Internet del 95 %
aproximadamente.
Las cuotas hacen que el proceso de recolección de datos sea más complejo, afectan al timing del
proyecto e inciden en los costes de la recolección de datos. Se trata de un problema inherente al
muestreo por cuotas, pero que cobra importancia cuando recogemos información online.
Pensemos en las grandes diferencias entre la recolección de datos online y offline. Si hemos
definido una cuota por sexo en una encuesta presencial, una vez hemos alcanzado nuestro
objetivo de varones dejamos de interceptar a hombres en la calle. Y es fácil, ¡porque sabemos
diferenciar entre hombres y mujeres a simple vista!
En cambio, el proceso online es totalmente distinto: enviamos una serie de invitaciones por correo
electrónico a los candidatos y esperamos a que la gente reciba los correos, los abran, accedan
a la encuesta online y completen su participación. Cuando alcanzamos un target de hombres,
no podemos impedir que más candidatos varones accedan a la encuesta porque no podemos
eliminar las invitaciones enviadas por correo electrónico una vez recibidas. Tendremos que
descartar las participaciones que exceden nuestra cuota, ya que carecen de valor para nosotros y,
además, suponen un coste para el panel de acceso online.
Cuanto más complejas sean las cuotas, más costes y tiempo necesitaremos para llevar a cabo la
recolección de datos online. El gráfico siguiente muestra el número aproximado de personas que
tenemos que añadir al tamaño de la muestra debido al exceso de cuota para una muestra con
un tamaño de 1.000 y cuotas uniformes. Según este gráfico, fijar una cuota con un tamaño=2
(dividiendo el tamaño objetivo de 1.000 en dos grupos objetivo de 500 individuos) implica
tener un 2,5 % de encuestados más. Para una cuota con un tamaño=8 (8 grupos objetivo de 125
individuos), la muestra tiene que ser un 13,1 % más grande. Por último, si dividimos el tamaño
objetivo en 100 cuotas, tendremos que doblar el tamaño de la muestra (+96,6 %).
Hablamos de cuotas divergentes cuando los objetivos de cada cuota se definen de forma
independiente. Por ejemplo, para una muestra con un tamaño de 1.000 encuestados,
necesitaremos 500 (50 %) hombres y 500 (50 %) mujeres, y 500 (50 %) jóvenes y 500 (50 %)
personas mayores. De este modo, asumes el riesgo de que acabes con 500 jóvenes varones y 500
mujeres mayores. Este resultado es perfectamente compatible con tu definición de cuota, ¿pero te
gusta realmente esta distribución?
Para evitar este efecto, utilizaremos cuotas convergentes. Esto significa definir un tamaño objetivo
para cada combinación de variables: 250 (50 % x 50 %) hombres jóvenes, 250 (50 % x 50 %)
mujeres jóvenes, 250 (50 % x 50 %) hombres mayores y 250 (50 % x 50 %) mujeres mayores.
¿Utilizamos cuotas convergentes o divergentes para recolectar datos online? Pues depende de
nuestras prioridades. En teoría, las cuotas divergentes deberían simplificar la recolección de datos.
La definición de una cuota convergente siempre se corresponde a la definición equivalente de
cuota divergente, pero no al revés. Podemos comprobar este hecho fácilmente con el ejemplo
anterior.
En definitiva: las cuotas divergentes son, en principio, más económicas y rápidas, pero no
siempre es así. Siguiendo con el ejemplo anterior, si el panel de acceso online está claramente
distorsionado en favor de los jóvenes y los hombres, es probable que cuando tengamos 500
encuestas, la mayoría de ellas sean de hombres jóvenes. Esto significa que las 500 encuestas
restantes tendrán que proceder de nuestro target de difícil acceso: mujeres mayores. A veces es
mejor tener cuotas convergentes porque nos ofrecen un progreso equilibrado simultáneamente
en todos los targets.
¿Qué podemos hacer para superar este reto? Nuestro consejo es que (1) apuestes por cuotas
divergentes solo si el panel de acceso online presenta una distribución equilibrada entre los
targets (por ejemplo, en lugar de tener una distribución por sexo de 50 %-50 %, tiene un 45 %-55
% pero no 30 %-70 %) y (2) utiliza siempre cuotas convergentes si quieres analizar subtargets en
profundidad (por ejemplo, si quieres analizar las diferencias entre hombres mayores y mujeres
mayores).
Los campos de trabajo online suelen tardar entre 2 y 5 días, en función del tamaño de la muestra,
la población objetivo y, desde luego, el panel de acceso online que utilicemos. En principio, la
recolección de datos online se puede hacer en menos de dos días. Para ello, tendremos que invitar
a más candidatos para que participen en el mismo período de tiempo. Sin embargo, quizás no sea
buena idea para nuestros datos.
¿Quién tiene más probabilidades de participar en encuestas online si hay un período de tiempo
limitado para ello? La respuesta es usuarios asiduos de Internet, adictos a los smartphones o
empleados de oficina. Con frecuencia, la representatividad de las fuentes de participantes es un
tema que preocupa seriamente a los investigadores. Sin embargo, se infravaloran los efectos de un
proceso de recolección de datos inadecuado.
El gráfico siguiente, elaborado con datos de los 6 paneles Netquest más grandes, nos ayuda a
entender los efectos de limitar el tiempo de participación.
En conclusión, la recolección de datos online es más rápida que la recolección de datos offline,
y puede ser todavía más rápida, pero a expensas del sesgo de la muestra y de incurrir en unos
costes mayores.
Las mejores prácticas para diseñar cuestionarios offline efectivos también son aplicables online:
Sin embargo, hay una serie de recomendaciones para las encuestas online.
3. La entrevista debe tener una longitud moderada. La regla de oro son 20 minutos como
máximo y 5 minutos si los encuestados utilizan dispositivos móviles.
4. Utiliza encuestas online responsivas que se adapten correctamente a los distintos tamaños
de pantallas (ordenador, tableta, móvil).
5. Emplea un lenguaje específico. Los participantes online leen en diagonal para buscar
palabras y mensajes clave.
7. Insertar vídeos en una encuesta es una funcionalidad específica de las encuestas online y
que marca la diferencia respecto a las encuestas offline. Aprovéchala (por ejemplo, pruebas
creativas o comerciales), pero ten en cuenta que la participación se verá reducida por varios
factores: la compatibilidad de los vídeos con navegadores no actualizados, ancho de banda
limitado en los teléfonos móviles y, en algunos casos, las personas que no quieren subir el
volumen de los dispositivos (por ejemplo, si están en el transporte público).
8. Cumple los estándares de Internet y olvídate de reinventar la rueda. La gente espera que,
al pulsar un botón de radio, los demás botones de radio cercanos aparezcan como no
seleccionados. Todos los elementos de una página web (casillas de verificación, cuadros de
inserción de texto, botones para enviar, texto subrayado...) deben actuar tal y como la gente
espera.
(*)Melanie Revilla, Carlos Ochoa. Telematics and Informatics, abril 2016. “An experiment comparing
grids and item-by-item formats in web surveys completed through PCs and smartphones”
Ventajas Inconvenientes
• Ausencia de sesgos del entrevistador: las • Es difícil controlar estrictamente quién participa
respuestas no se ven distorsionadas por las (por ejemplo, en encuestas prfundamentos
diferencias del estilo social y la personalidad observamos visualmente la edad aproximada y el
de los entrevistadores o la forma de presentar sexo de los participantes, pero en Internet no es
determinadas preguntas. posible).
• Mayor fiabilidad ante preguntas sensibles • Mayor riesgo de querer satisfacer debido
(preferencias políticas, estado de salud, a la ausencia del entrevistador y el uso de
religión...) debido al anonimato del encuestado recompensas. La voluntad de satisfacer es una
(**) estrategia a la que recurren los encuestados para
responder a preguntas con el mínimo esfuerzo.
• Ausencia de errores de transcripción. Los
(***)
participantes envían sus preguntas de forma
digital y directa en el cuestionario. • La comparabilidad se puede ver afectada por la
gran diversidad de dispositivos que utilizan los
• Fácil recolección de metadatos para evaluar
participantes: navegadores distintos, versiones
la calidad, permitiéndonos así aplicar medidas
de los navegadores, dispositivos, tamaño de las
de corrección. Casi todos los softwares de
pantallas...
encuestas profesionales recogen datos como el
tiempo de participación, el tiempo por pregunta • Cuando se recompensa la participación, el
o el número de interrupciones del cuestionario. comportamiento del participante se puede ver
afectado. Por ejemplo, un panel que ofrece solo un
tipo de recompensa a cambio de la participación
puede sobrerepresentar una población objetivo
en concreto, o si el panel solo recompensa a los
participantes que forman parte de la población
objetivo (esto es, los que pasan las preguntas de
filtro), la gente se puede ver tentada a mentir.
(**) http://web.comhem.se/u22779327/16/k16docs081211.pdf
(***) http://www.businessdictionary.com/definition/satisficing.html
Si nos fijamos en el resumen anterior, es obvio que la recolección de datos online tiene ventajas
e inconvenientes. En este sentido, es parecida a cualquier otra metodología. Sin embargo, la
recolección de datos online tiene una ventaja esencial respecto a otras opciones: la mayoría de
inconvenientes se pueden minimizar (o incluso eliminar) seleccionando una fuente de datos fiable
y aplicando los controles de calidad adecuados en el cuestionario online.
1. Compara los datos de la encuesta con los datos del panel para detectar identidades
fraudulentas. Por ejemplo, cuando se pregunta la edad y el sexo, es fácil validar la respuesta
del panelista si esta persona se ha unido al panel.
2. Pon a prueba la atención que los panelistas prestan a la encuesta comparando las
respuestas dentro de la encuesta para evaluarlas. Puedes hacer la misma pregunta dos
veces (de forma ligeramente distinta) y en un momento distinto en el mismo cuestionario.
3. Aplica una Comprobación de manipulación de las instrucciones (IMC, por sus siglas en
inglés) si la duración de la encuesta es larga (>15 minutos). Las IMCs son preguntas cuyo
objetivo es verificar que el participante haya prestado atención al cuestionario, del tipo «Si
estás leyendo esta pregunta, selecciona la tercera opción».
5. Fija un tiempo mínimo necesario para realizar la encuesta y descarta a los participantes que
acaben antes. Se trata de una forma fácil de detectar a participantes que responden sin
prestar atención.
6. Comprueba las respuestas a preguntas abiertas para identificar respuestas inválidas (como
«---», «aaaaa») y elimina la participación integral de estos participantes, no solo la respuesta.
Si alguien responde así a una pregunta abierta, es probable que esta persona haya
respondido inadecuadamente a toda la encuesta.
7. Recoge tantos metadatos (datos relacionados con cómo y cuándo se recoge la información)
como puedas; te ayudará a identificar problemas. En las encuestas online es muy sencillo.
Por ejemplo, algunos encuestados pueden haber tenido problemas para ver una pregunta
en un navegador concreto. Si recopilamos estos metadatos tendrás más probabilidades de
entender el problema.
Si te estás planteando utilizar un panel de acceso online, merece la pena entender la información
siguiente para asegurarte de que eliges al adecuado para tu proyecto:
1. ¿Cómo se captan los nuevos miembros del panel? ¿Es un panel abierto o cerrado? ¿Dónde
se capta? ¿Recompensan el registro de los panelistas para eliminar la autoselección?
3. ¿Cuántas encuestas realizan los panelistas al mes? Algunos paneles envían entre una y dos
encuestas al día a los panelistas y los profesionalizan.
4. ¿Cuál es el tamaño real basándonos en el número máximo de resultados del panel? Este
número es fundamental porque nos da mucha información del panel. Salvo que el panel
se encuentre en fase de creación, cuando una empresa de paneles genera un volumen
importante de actividad con un panel pequeño probablemente estaremos ante una
empresa de river sampling y no un panel de verdad. Para asegurarte, pregunta cuál es el
número máximo de resultados, esto es, el tamaño máximo de la muestra que nos puede
ofrecer el panel en una encuesta de una toma. Esta respuesta nos aporta una información
más valiosa que preguntar por el tamaño del panel porque muchas empresas cuentan
como panelistas a personas que se han registrado hace mucho tiempo pero que no
participan activamente.
5. ¿El panel cuenta con una certificación con una norma de calidad como ISO26362? Las
normas ISO nos dan la seguridad de que el panel ha sido auditado y que quiere compartir
la información anterior con transparencia.
Como investigadores, esta es una cuestión importante. Los investigadores están obligados a
trabajar conforme al código de conducta del sector (las pautas ESOMAR) y deben cumplir todas
las obligaciones legales aplicables en el lugar donde recopilamos la información.
Por último, para ayudarte a evaluar hasta qué punto la gente está dispuesta a participar en
proyectos de recolección de datos no convencionales (algunos de ellos estrechamente vinculados
a la privacidad), los resultados de una encuesta experimental realizada en el panel de Netquest dio
los resultados siguientes:
Por descontado, estas soluciones extremadamente rápidas restringen el toque humano; el gran
valor que aporta un analista experto que profundiza en los datos para encontrar resultados
sorprendentes no es compatible con los resultados en tiempo real. Pero la velocidad es el mantra
de las empresas modernas y, como investigadores, no deberíamos ir a contracorriente.
Esto no significa que los análisis de resultados individualizados y exhaustivos carezcan de valor,
sino que debemos saber elegir entre ambos planteamientos en función del cliente y el problema
que se investiga, o combinarlos cuando fuere necesario. Por ejemplo, los clientes online (esto es,
de las páginas web de comercio online) están muy acostumbrados a trabajar con datos, de modo
que se sienten cómodos con un dashboard online, mientras que es probable que los clientes más
tradicionales no quieran prescindir de las recomendaciones personalizadas.
La mayoría de soluciones de software que se utilizan para recolectar datos online incluyen alguna
función de reporting online. Más allá de estos informes básicos, hay soluciones especializadas que
permiten implementar el reporting y la visualización avanzados. A modo de ejemplo, se enumeran
algunas de ellas a continuación:
• Tableau (www.tableau.com) ayuda a los investigadores a ver y entender los datos. Permite
conectar con casi todas las bases de datos, ofrece la función de arrastrar y soltar para crear
visualizaciones y compartir con un solo clic.
Portugal Brasil
portugal@netquest.com atendimento@netquest.com
netquest.com