Está en la página 1de 63

Diseño de Cuestionarios y

Análisis de Datos

Mg. Luis Alzamora de los Godos


Mg. Jully Pahola Calderón Saldaña
Formulación del cuestionario
 Cuestiones a considerar:
– Claridad: ¿los encuestados entienden correctamente la
formulación de las preguntas?
– Comprensión: ¿son las preguntas y las posibles
respuestas suficientemente comprensivas?
 Podría ser que algunas preguntas sean irrelevantes,
otras incompletas y finalmente, que no se hayan
incorporado preguntas que generen información
importante para la investigación.
– Aceptabilidad: ¿es el cuestionario aceptable? ¿No
contiene preguntas inaceptables?
2
Formulación del cuestionario

 Reglas básicas:
– Ser específico.
– Usar palabras simples.
– Armar preguntas cortas.
– No generar un diálogo con el entrevistado.
– No ser excesivamente específico.

3
Tipos de preguntas: De respuesta
abierta
 Estas preguntas no proveen respuestas
opcionales.

 Estas preguntas suelen ser las mas fáciles


de formular. Sin embargo, poseen claras
desventajas.
– son difíciles de responder,
– pueden generar respuestas de cualquier tipo y,
– son muy complicadas de codificar.
4
Tipos de preguntas: De respuesta abierta
 Estas preguntas pueden ser útiles cuando:
– El entrevistador no conoce el tema a fondo,
– Cuando queremos obtener mayor información sobre la respuesta
a una pregunta anterior. Por ejemplo, “si respondió sí en la
pregunta anterior, ¿podría explicar por qué?”
– Para evaluar comportamientos rutinarios, por ejemplo, “¿cuántas
horas mira TV por día?”
– Cuando se necesita información precisa, como la provincia de
nacimiento.
– Para darle una oportunidad al entrevistado de expresarse. Por
ejemplo, al final de la encuesta, “¿hay algo más que le gustaría
comentar respecto de este tema?

5
Tipos de preguntas: De opciones
ordenadas
El club necesita más canchas de tenis ¿Cuál es su edad?
completamente en desacuerdo Menos de 25
medianamente en desacuerdo entre 25 y 35
ni de acuerdo ni en desacuerdo entre 36 y 50
medianamente de acuerdo entre 51 y 65
completamente de acuerdo más de 65

 Las posibles respuestas son provistas en el cuestionario. El


entrevistado debe seleccionar entre una de ellas.
 Este tipo de preguntas es menos demandante para el encuestado
que las preguntas de respuesta abierta y son mas fáciles de
codificar.
6
Tipos de preguntas: De opciones
¿Cuál de las siguientes opciones describe mejor su vivienda
actual?
departamento
casa
pensión
casa rodante

 En este caso, a diferencia del anterior, no existe una


secuencia ordinal de opciones entre una respuesta y
otra.
 El encuestado debe elegir la respuesta que mejor
describe su situación. 7
Tipos de preguntas: De opciones,
parcialmente abierta
En que área prefiere que se realicen mejoras en su barrio
calles y veredas
red cloacal
parques y plazas
Otra (especificar):___________

 En este caso, si bien hay opciones, se deja la posibilidad de que


el encuestado pueda crear su propia respuesta.
 Generalmente, la opción de la respuesta abierta no se utiliza.
Sin embargo, tiene la ventaja de que si el encuestado no
considera ninguna respuesta apropiada a su situación, no esta
forzado a responder dentro de la opciones predefinidas y,
ocasionalmente, generan nueva información.
8
Estructura de una pregunta:
Comparaciones
 Respuesta abierta:
En su opinión, ¿qué problemas tuvo que afrontar
la agricultura durante los 90s?
 Es ideal para focus groups y para otro tipo de
entrevistas exploratorias.
 Sirve para identificar distintos tipos de
respuestas que pueden ser posteriormente
utilizadas en cuestionarios más estructurados.
 Raramente puede darnos alguna idea sobre que
porcentaje de personas poseen pensamientos o
características particulares.
9
Estructura de una pregunta:
Comparaciones
 Respuesta con opciones ordenadas:
Durante los 90s la agricultura sufrió algunos problemas.
En su opinión, ¿qué tan serio fue cada uno de ellos?
A- Problemas ambientales muy serio serio poco serio
B- Problemas económicos muy serio serio poco serio
C- Problemas políticos muy serio serio poco serio

 En este caso, cada entrevistado responde a cada problema


en forma independiente y se mide cuán serio considera a
cada uno de ellos.

10
Estructura de una pregunta:
Comparaciones
 Respuesta con opciones:
En su opinión, ¿cuál de los siguientes problemas
que afectaron a la agricultura durante los 90s es
el más serio?
A- Problemas ambientales
B- Problemas económicos
C- Problemas políticos
 El entrevistado debe elegir el problema que
considera más importante dentro de una lista
predefinida.
11
Estructura de una pregunta:
Comparaciones
 Respuesta con opciones, parcialmente abierta:
En su opinión, ¿cuál de los siguientes problemas
que afectaron a la agricultura durante los 90s fue el
más serio?
A- Problemas ambientales
B- Problemas económicos
C- Problemas políticos
D- Otro (especificar):___________________
 En este caso, la situación es similar a la anterior,
pero se permite que el encuestado tenga la libertad
de elegir algún otro problema que no ha sido
12
considerado.
Secuencia del cuestionario
 Preguntas introductorias: Las primeras preguntas
deben estar relacionadas al tema principal de
investigación y deben despertar el interés del
encuestado.
 Preguntas relacionadas: Deben agruparse en
secciones del cuestionario.
 Preguntas sensitivas: Se recomienda incluirlas hacia
el final del cuestionario.
 Preguntas importantes: Es deseable incorporar tests
sobre la calidad de las respuestas a estas preguntas.
 Secuencia lógica: Siempre debe respetarse. 13
Diseño de Cuestionario
 1) Con que frecuencia visita el shopping?  4) Cual de las promociones del shopping recuerda?
– Diaria – Pascuas
– 3 por semana – Día del padre
– 1 por semana – Día de la madre
– 1 por mes – Día del amigo
 2) Cual es el motivo de la visita? – Navidad
– Compras – Ninguna
– Entretenimientos  5) Y qué recuerda?
– Otros – Premios
 3) Es usted de participar en promociones? – Juegos
– No – Nada
• Por que?  6) Participó?
• No me interesan – Si
• No creo en ellas – No
• No me gustan los  Sigue el cuestionario con otras preguntas.

premios
• Otros
14
– Si
Resultados
Participa en promociones?

27%

No
73% Si
n = 200

15
Resultados
Figura 2

25%
No participa en las
promociones del
shopping
Participa en las
promociones del
shopping
75%

n = 200

16
Resultados
Participa en promociones y ademas...

70
63
60
50
37
40
%

30
20
10
0
No participa en las promociones Participa en las promociones
del shopping del shopping

n = 54 (El resto no participa en promociones)

17
Diseño de Cuestionario
 0) Presentación general y datos
personales.  4) Cual de las promociones del
 1) Con que frecuencia visita el shopping? shopping recuerda?
– Diaria – Pascuas
– 3 por semana – Día del padre
– 1 por semana – Día de la madre
– 1 por mes – Día del amigo
 2) Cual es el motivo de la visita?
– Navidad
– Compras
– Ninguna
– Entretenimientos  5) Y qué recuerda?
– Otros – Premios
 3) Es usted de participar en promociones?
– Juegos
– No
– Nada
• Distintas  6) Participó?
opciones de por 18
– Si
Resultados
Participa de promociones?

Shopping
17%

No
Si
73% 27%

Otras
10%

No Si y ademas shopping Si pero no shopping

19
Algunas consideraciones especiales
 Muchas veces los encuestados responden de
forma apresurada. Ello puede generar errores de
medición.

 Un diseño cognitivo puede ayudar para evitar


que ello ocurra.

 Si bien este diseño hace que los cuestionarios se


alarguen, es efectivo y se recomienda utilizarlo
en aquellas preguntas que requieren una 20
Diseño cognitivo: Ejemplo
 Queremos responder a la siguiente pregunta:
– ¿Utilizó el cinturón de seguridad la ultima vez que anduvo en
auto como acompañante?
 Bajo un diseño cognitivo, esta pregunta se divide en tres:
– ¿Cuándo fue la última vez que viajo en auto como
acompañante?
Hoy Ayer Anterior a ayer
– ¿Qué tan largo fue el viaje?
1 KM Entre 1 y 2 KM Mas de 2 KM
– ¿Usó cinturón de seguridad?
Todo el tiempo Parte del tiempo No lo utilizo

21
Tipos de Datos

Datos

Categóricos Cuantitativos

Ordinales Nominales

22
Variables discretas y
continuas
Una variable es discreta si toma solo un
número contable de valores. Una variable es
contínua si la misma toma un número
incontable de valores.
Variable discreta Variable continua

0 1 2 3 ... 0 1/16 1/4 1/2 1


Por lo tanto, el número de Por lo tanto, el número de
valores es contable valores es incontable

23
Estadística Descriptiva
 Abarca la agrupación, resumen y
presentación de los datos para permitir su
interpretación y poder tomar decisiones
basadas en dicha interpretación.

 La estadística descriptiva utiliza


– Técnicas gráficas
– Medidas de descripción numéricas

24
Variables Categóricas

Pie chart Gráfico de barras

 Estas son algunas de las representaciones


más utilizadas para variables categóricas.

25
Variables cuantitativas
 Las variables cuantitativas continuas toman un
número considerable de valores.

 Su representación gráfica resulta más clara si


se agrupan los valores próximos de la variable.

 El gráfico más común de la distribución de una


variable cuantitativa continua es un
histograma.
26
Histograma: distribución del salario horario en
el Gran200Buenos Aires

160

120 200

160

120

80

40

0
0 1 2 3 4

80

40

0
0 1 2 3 4

27
Medidas de Posición Central:
 Usualmente, nuestra atención se centra en
dos aspectos de las medidas de posición
central:

– Medición del punto central (promedio)

– Medición de la dispersión en torno al promedio

28
Medidas de Posición Central: la media

 Es la medida mas popular.


Suma de las observaciones
Media =
Número de observaciones

 Es decir, tenemos una muestra de n


observaciones: x1, x2,…,xn. Su media muestral
es: ( x1  x 2  ...  x n )
x
n
29
La mediana
 La mediana (M) es el “valor central” de un histograma.

 Para hallar la mediana de una distribución debemos:


1. Ordenar las observaciones en orden ascendente.
2. Si el número de observaciones n es impar, M es la
observación central de la lista ordenada. M se halla
contando (n+1)/2 observaciones desde el comienzo
de la lista.
3. Si el número de observaciones n es par, M es la
media de las dos observaciones centrales de la lista
ordenada.
30
La Moda
La Moda es el valor que ocurre con
mayor frecuencia en un grupo de
observaciones. Cuando la muestra
El modo es grande, los datos
se agrupan en intervalos
y obtenemos el
Intervalo modal

En un conjunto de observaciones puede haber más de un modo.

31
Media y Mediana
 La media es sensible a observaciones extremas y a outliers.

 La mediana solo es sensible a cambios en su entorno que la


cruzan. Por ello, se dice que la mediana es un estimador
robusto de la tendencia central.

 La media y la mediana de una distribución simétrica se


encuentran muy cerca. Si la distribución es exactamente
simétrica, la media y la mediana coinciden.

 Si la distribución es asimétrica, la media queda desplazada


hacia la cola más larga del histograma de la distribución.
32
Distribuciones simétricas y
asimétricas
 Una distribución es simétrica si el lado derecho e
izquierdo del histograma con respecto a la mediana
son aproximadamente iguales.
 Un distribución es asimétrica hacia la derecha si el
lado derecho del histograma se extiende sobre un
mayor número de valores (intervalos) que el lado
izquierdo.
 Una distribución es asimétrica hacia la izquierda si el
lado izquierdo del histograma se extiende sobre un
mayor número de valores (intervalos) que el lado
derecho.

33
Aspecto general de una
 La figura muestra la distribución de ventas de
distribución
libros por individuo en la feria del libro. Esta
distribución es asimétrica hacia la derecha. Es
decir hay muchas ventas de 3 o 4 libros y pocas
ventas de 10 libros.
25
20
15
10
5
0
1 2 3 4 5 6 7 8 9 10 11 12

34
Medidas de dispersión
 Caracterizar una distribución solamente a través de una
medida central no es apropiado.

 Las distribuciones del ingreso de dos provincias con el


mismo ingreso medio por hogar son muy distintas si
una de ellas tiene extremos de pobreza y de riqueza,
mientras que la otra tiene poca variación de ingresos
entre familias.

 Estamos interesados en la dispersión o variabilidad de


los ingresos, además de estarlo en sus centros.
35
Medidas de dispersión
 Rango

Una manera de medir la dispersión es calcular el


recorrido de la distribución empírica, es decir, la
diferencia entre las observaciones máxima y mínima.

Su mayor ventaja es que se puede calcular facilmente,


sin embargo, no brinda información sobre la dispersión
existente entre ambos valores extremos.

36
Medidas de dispersión
 El rango depende sólo de las observaciones
máxima y mínima, que podrían ser
observaciones atípicas.
 Podríamos mejorar nuestra descripción de la
dispersión fijándonos, por ejemplo, también
en la dispersión del 50% de los valores
centrales de nuestros datos.
 Un conjunto de estadísticos de utilidad son
los cuartiles de una distribución.
37
Cuartiles
Para calcular los cuartiles de una distribución
debemos:

1. Ordenar las observaciones en orden creciente y


localizar la mediana.
2. El primer cuartil Q1 es la mediana de las
observaciones situadas a la izquierda de la
mediana de la distribución.
3. El tercer cuartil Q3 es la mediana de las
observaciones situadas a la derecha de la mediana
de la distribución. 38
Cuartiles
 Los cuartiles son medidas de tendencia no central de una
distribución.

 Dividen los datos ordenados en 4 cuartos iguales:


25% 25% 25% 25%
Q1 Q2 Q3

 El segundo cuartil de una distribución es su mediana.

 El Rango Intercuartil es la diferencia entre el tercer y


el primer cuartil. 39
Percentiles
 Los percentiles son otro conjunto de
medidas de tendencia no central de una
distribución.

 Dividen los datos ordenados en 100


partes iguales.

 El percentil 25 es el primer cuartil ...

40
Diagrama de caja
 Los cinco números resumen de una
distribución son representados
gráficamente por un diagrama de caja.
L - Observación máxima
Q3 - Tercer cuartil
Q2 - Mediana
Q1 - Primer cuartil
S - Observación mínima 41
Diagrama de caja
 Los lados inferior y superior de la caja van del primer al
tercer cuartil. Por tanto, la altura de la caja es la
amplitud del 50% de los datos centrales.
 El segmento del interior de la caja indica la mediana.
Los extremos de los segmentos perpendiculares a los
lados superior e inferior indican, respectivamente, los
valores máximo y mínimo de la distribución.

S Q1 Q2 Q3 L

42
Una medida de dispersión: La varianza
 La varianza s2 de un conjunto de observaciones es el
promedio de los cuadrados de la desviaciones de las
observaciones respecto a su media. Formalmente:

( x1  x )  ( x 2  x )  ...  ( x n  x )
2 2 2
s 
2

 De forma compacta:
n  1

1
s 
2

n 1
 (x i  x) 2

43
El desvío estándar

 La desviación típica es la raíz cuadrada positiva


de la varianza s2:
1
s
n 1
 ( x i  x ) 2

44
Coeficiente de variación
 El coeficiente de variación es una medida de
dispersión relativa.
 Muestra la dispersión de una distribución en
relación a su media.
 Se utiliza para comparar distintas distribuciones.
 Su fórmula es:
s
CV 
x
 Por ejemplo, un desvio standard de 10, puede ser
grande si la media es 100, pero no lo es si la
media es 500. 45
Medidas de asociación en variables
cuantitativas
(x i  x)(y i  y)
Covarianza muestral  cov(X, Y) 
n -1

Coeficient e de correlacio n muestral


cov( X , Y )
r
sx s y

46
Coeficiente de Correlación
+1 Correlación lineal positiva fuerte
El valor se encuentra cerca de 1 COV(X,Y)>0

No hay correlación lineal


r o r = 0
Coeficiente cercano a cero COV(X,Y)=0

Correlación lineal negativa fuerte


-1 COV(X,Y)<0
El valor se encuentra cerca de -1

47
Medidas de Asociación en
Variables Categóricas
 Tablas de Contingencia
 El objetivo de la tabulación cruzada es identificar
la relación que existe entre dos variables. Con los
datos de una muestra podemos observar si existe
alguna relación entre dos variables y la pregunta
que surge naturalmente es si esta relación es
verdadera o es el resultado del error muestral.
 Las tablas de contingencia son tabulaciones
cruzadas entre dos variables X e Y con r y c
categorías respectivamente. Es decir que la tabla
de contingencia entre X e Y tendrá r filas y c
columnas. 48
Tablas de Contingencia y
Medidas de Asociación
 Para identificar si existe relación entre dos variables categóricas se
utiliza un test de hipótesis conocido como el test Chi-cuadrado de
Pearson. La hipótesis nula del test es que las dos variables
analizadas son independientes. La hipótesis alternativa es que las
variables no son independientes, es decir que existe una relación
entre las dos variables.
 Por ejemplo, la siguiente tabla de contingencia muestra la tabulación
cruzada de la variable ingreso anual (dividido en tres categorías) y la
última marca de coche comprada (dividida en tres marcas).

49
Tablas de Contingencia y
Medidas Marca
de Asociación
del último auto comprado
Ford Toyota Renault Total
Ingreso anual

Menos de 20,000 50 200 125 375


20,000 - 40,000 200 100 350 650
más de 40,000 100 25 50 175

Total 350 325 525 1200

Existe relación entre el ingreso anual y la marca del


último auto comprado?
50
Tablas de Contingencia y
Medidas de Asociación
 Las entradas de la tabla representan el número de
personas en la muestra con cada combinación de
ingreso y marca de auto. Por ejemplo, 50 personas
que ganan menos de 20,000 $ compraron un auto
marca Ford.
 El test Chi-cuadrado de Pearson se basa en
encontrar cual hubiera sido el valor de cada
entrada si las variables fueran independientes. Es
decir el valor esperado de cada celda de la tabla si
las variables ingreso y marca son independientes.
51
Tablas de Contingencia y
Medidas de Asociación
 Si ingreso y marca son independientes, la
probabilidad del evento conjunto "A1: ganar
menos de 20,000$" y "B1: comprar marca Ford" es
el producto de esas dos probabilidades:

 Pr(A1 y B1) = Pr(A1)*Pr(B1)

 Pr(A1) = A1/A = 375/1200,


 Pr(B1) = B1/B = 350/1200
 Donde A y B son las frecuencias totales de los
eventos. 52
Tablas de Contingencia y
Medidas de Asociación
 Por lo tanto:

 Pr(A1 y B1) = Pr(A1)*Pr(B1) =


375*350/(1200*1200) = 0.091

 El número esperado en la entrada A1B1 es


entonces:

 N* Pr(A1 y B1) = 1200*0.091 = 109.38


53
Tablas de Contingencia y Medidas
de Asociación
 En general la fórmula del valor esperado es:

 Eij = (NAi*NBj)/N.

– Eij = número esperado


– NAi= número de elementos en la categoría Ai
– NBi= número de elementos en la categoría Bi

 Para A1B1 el número esperado es:


– E11 = (375*350)/1200 = 109.38
54
Tablas de Contingencia y
Medidas de Asociación
 Este proceso se puede repetir para cada una de las entradas
de la tabla. Una vez hecho esto el estadístico Chi-cuadrado
se calcula con la siguiente fórmula: 2
 
2
r c Oij  Eij 
i 1 j 1 E ij

– r = número de categorías de la variable en las filas


– c = número de categorías de la variable en las columnas
– Oij = número observado en entrada ij
– Eij = número esperado en la entrada ij
 Este estadístico Chi-cuadrado tiene (r-1)*(c-1) grados de
libertad.
55
Tablas de Contingencia y
Medidas de Asociación
 En nuestro ejemplo hay (3-1)*(3-1) = 4 grados de
libertad. Realizando todas las cuentas con la tabla
del ejemplo, el estadístico da 252.2.
 Comparando este número con el valor crítico de la
distribución Chi-cuadrado con 4 grados de libertad
a un nivel de significatividad del 5% el valor
crítico correspondiente es 9.49.
 Como 252.2 > 9.49 se rechaza la hipótesis nula. Es
decir, las variables no son independientes.

56
Tablas de Contingencia y
Medidas de Asociación
 El estadístico de Pearson nos dice si dos variables
son independientes una de otra pero no nos dice
nada acerca de la naturaleza de la relación.

 Esto es, no sabemos cuan fuerte es la asociación


entre las variables analizadas.

 Para medir el grado de relación entre las variables


se utiliza el denominado Coeficiente de
Contingencia (C).
57
Tablas de Contingencia y
Medidas de Asociación
 El coeficiente de contingencia se calcula
fácilmente desde el estadístico de Pearson:


2

C 

2
n

 donde n es el tamaño muestral.


58
Tablas de Contingencia y
Medidas de Asociación
 El coeficiente de contingencia es una extensión del
coeficiente  al caso de que al menos una de las
variables presente más de dos categorías. Toma
valores entre 0 y Cmax, donde si r y c son el
número de categorías de cada una de las variables:

 Cuando no hay relación entre las variables el


coeficiente C = 0. El valor máximo de C está dado
por Cmax = [min(r-1,c-1)/(1+ min(r-1,c-1))]1/2

59
Medidas de Asociación para
Tablas de 2x2
 Cuando analizamos variables dicotómicas
(adoptan solo los valores 0, 1) el estadístico
de Pearson puede ser poco preciso. En esos
casos se suelen utilizar otras medidas de
asociación.

60
Medidas de Asociación para
Tablas de 2x2
 El Coeficiente Phi ()
 Es una medida del grado de asociación entre
dos variables dicotómicas basada en el
estadístico Chi-cuadrado de Pearson.
 Este coeficiente toma valores en el intervalo
cero-uno. Valores próximos a cero indican
poca asociación entre las variables y valores
cercanos a uno indican una fuerte
asociación.
61
Medidas de Asociación para
Tablas de 2x2
 Puede ser calculado utilizando el estadístico
Chi-cuadrado de Pearson con la siguiente
fórmula:

  = (2/N)1/2

 donde N es el número de datos.

62
GRACIAS

Consultores de Investigación
paholitacalderon@yahoo.es
alzamoradelosgodos@yahoo.es
63

También podría gustarte