Documentos de Académico
Documentos de Profesional
Documentos de Cultura
FUOC P01/71039/00748
Las distribuciones de frecuencias permiten obtener una primera aproximacin de la tendencia de los resultados, ya que indican el nmero de
individuos que tanto en valores absolutos como en valores porcentuales
han mencionado cada uno de los cdigos posibles (respuestas) que puede tomar una variable determinada.
1
2
3
4
5
6
7
Value Label
Value
Frequency
litro/semana
litros/semana
litros/semana
litros/semana
litros/semana
litros/semana
litros/semana
1
2
3
4
5
6
7
15
100
118
67
75
70
89
Percent
1.8
12.0
14.1
8.0
9.0
8.4
10.6
Valid
percent
1.9
12.5
14.7
8.4
9.4
8.7
11.1
Cum
percent
1.9
14.3
29.1
37.4
46.8
55.5
66.6
37
FUOC P01/71039/00748
Value
8
9
10
11
12
13
14
15
16
17
18
20
21
22
24
.
Total
Frequency
Percent
52
19
62
7
55
3
37
7
7
1
4
5
5
1
3
34
836
6.2
2.3
7.4
.8
6.6
.4
4.4
.8
.8
.1
.5
.6
.6
.1
.4
4.1
100.0
Valid
percent
6.5
2.4
7.7
.9
6.9
.4
4.6
.9
.9
.1
.5
.6
.6
.1
.4
Missing
100.0
Cum
percent
73.1
75.4
83.2
84.0
90.9
91.3
95.9
96.8
97.6
97.8
98.3
98.9
99.5
99.6
100.0
Missing cases 34
Distribucin de frecuencias.
Value Label: lista las etiquetas asignadas por el investigador a cada cdigo posible de la variable. Si la variable se ha medido en una escala de tipo mtrico,
como es el caso que nos ocupa, no es necesario etiquetar los cdigos, ya que
el valor del cdigo es suficiente para saber que corresponde a un consumo determinado de litros de leche a la semana.
Ejemplo
En nuestro ejemplo, 15 hogares consumen 1 litro de leche a la semana, 100 consumen 2
litros..., y 34 hogares no han contestado el nmero de litros de leche que consumen. Este
dato en SPSS est representado por un punto (missing value).
Percent: indica el porcentaje de individuos que, sobre el total de los entrevistados, han mencionado cada uno de los valores que toma la variable.
Ejemplo
En nuestro ejemplo, el 1,8% de los hogares consume 1 litro de leche a la semana, el 12%
consume 2 litros..., y el 4,1% de los hogares entrevistados no ha contestado a esta pregunta.
38
FUOC P01/71039/00748
Ejemplo
En nuestro ejemplo, la base de clculo seran los 802 hogares que han respondido el nmero de litros de leche que consumen (836 menos los 34 que no han respondido).
Cum percent: expresa el porcentaje acumulado, es decir, el porcentaje de individuos que han mencionado un valor determinado o alguno de los valores
anteriores a ste. Se calcula, igual que el valid percent, sobre el nmero de individuos que han contestado a la pregunta y no sobre la totalidad de los entrevistados.
Ejemplo
En nuestro ejemplo, en el 66,6% de los hogares que han respondido se consumen de 1 a
7 litros de leche a la semana.
En el cuadro siguiente se presenta el resultado de estos tres indicadores de tendencia central para la variable Nmero de litros de leche que consumen a la
semana.
Mean 6.685
Median 6.000
Mode 3.000
fc xc
= 1
X = c--------------------n
FUOC P01/71039/00748
39
donde:
C = nmero de categoras de la variable, c = 1, ..., C ;
x c = valor tomado por la categora c de la variable X;
f c = nmero de individuos que han mencionado la categora c de la variable X;
n = nmero total de individuos.
Ejemplo
En nuestro ejemplo, la media de litros de leche consumidos por hogar y semana es:
La tendencia central de una variable se mide con uno de estos tres tipos estadsticos descriptivos, segn la escala utilizada:
1) Si las variables estn medidas en escalas ordinales, el indicador apropiado
ser la mediana.
2) Si las variables estn medidas en escalas nominales, el indicador apropiado ser la moda.
3) Si las variables estn medidas en escalas cuantitativas, la medida de tendencia central adecuada ser la media.
En este ltimo caso, tambin hay que tener en cuenta que la media se calcula a
partir de todos los valores de la distribucin y, por lo tanto, es altamente sensible a los valores extremos, ya sean bajos o altos, los cuales suelen denominarse
outliers. Si hay outliers, la media no es una medida adecuada de la tendencia
central y hay que recurrir a la mediana o a la moda.
40
FUOC P01/71039/00748
Las medidas de dispersin permiten analizar la variabilidad de la distribucin, es decir, determinar si las respuestas que han dado las personas
entrevistadas se han concentrado slo en unos cuantos valores o si, por
el contrario, han sido muy variadas. La dispersin se mide respecto del
comportamiento medio de la variable, por lo que la eleccin de la medida de dispersin que hay que utilizar tambin depende de la escala en
que est medida la variable que se analiza.
Ejemplo
En la tabla siguiente, podemos apreciar que en la variable Situacin laboral del principal
responsable de las compras en el hogar las respuestas estn concentradas mayoritariamente en el valor modal; el 60,9% trabaja por cuenta ajena.
V152 Situacin laboral actual del responsable del hogar
Value
Frequency
Percent
Valid
percent
Cum
percent
216
25.8
25.8
25.8
509
60.9
60.9
86.7
111
13.3
13.3
100.0
Total
836
100.0
100.0
Value Label
Inactivo
Valid cases
836
Missing cases
41
FUOC P01/71039/00748
Ejemplo
En el cuadro se presenta el resultado de estos indicadores de dispersin para la variable
Nmero de litros de leche que consumen a la semana.
Variance
18.016
Std dev
4.245
Kurtosis
1.290
kewness
1.118
1) La varianza es la suma de las diferencias entre la media de la distribucin y un valor cualquiera de la distribucin. As pues, cuando los datos estn concentrados en torno a la media, la varianza es pequea, y cuando
estn repartidos, la varianza es elevada. El clculo de la varianza utiliza la
media al cuadrado de las desviaciones de todos los valores observados respecto de la media. Nunca puede ser negativa. En el caso de datos agrupados
en categoras, la frmula de la varianza es:
fc ( xc x )
=1
S = c-----------------------------------.
n1
Ejemplo
Si aplicamos esta frmula a nuestro ejemplo, tenemos que el resultado de la variable Nmero de litros de leche que consumen a la semana es 18,016:
2
2
( 1 6,685 ) + 100 ( 2 6,685 ) + ... + 3 ( 24 6,685 ) = 18,016
S = 15
--------------------------------------------------------------------------------------------------------------------------------------------------.
802 1
El valor de la varianza est en unidades al cuadrado y, por lo tanto, este resultado no es directamente comparable con el resto de la informacin. En cualquier
caso, lo que suele hacerse es efectuar la raz cuadrada de este valor y obtener as
la desviacin tpica de la variable, que ya estar expresada en la misma unidad
que los datos, y no en unidades al cuadrado. En nuestro ejemplo la desviacin
tpica (como muestra el cuadro anterior) es de 4,245 litros.
2) El coeficiente de simetra (skewness) indica el grado de simetra de la distribucin y permite ver rpidamente si es simtrica o asimtrica.
Una distribucin es simtrica cuando el nmero de observaciones que hay a
cada uno de los lados del centro de la distribucin son iguales y las desviaciones positivas y las correspondientes desviaciones negativas respecto de la media tambin son iguales; en consecuencia, la media, la moda y la mediana
coinciden en el mismo valor. En este caso, podemos afirmar que la distribucin es normal, por lo que el coeficiente de simetra es igual a cero.
Una distribucin es asimtrica cuando las desviaciones positivas y negativas respecto de la media no son iguales. Cuanto ms alejado de cero sea el
coeficiente de simetra, ms asimtricas son las respuestas a la izquierda
FUOC P01/71039/00748
42
Ejemplo
En nuestro ejemplo, el coeficiente de simetra es positivo, 1,118; eso significa que los individuos estn concentrados en valores bajos de la distribucin. Efectivamente, al representar la distribucin de la V6 grficamente, se aprecia este resultado:
FUOC P01/71039/00748
43
alejado de cero y negativo sea este coeficiente, ms repartidas estn las respuestas a lo largo de un gran nmero de valores de la distribucin, tal como
muestran los grficos siguientes:
Ejemplo
En nuestro ejemplo, el coeficiente de apuntamiento es positivo, 1,290, lo que indica que
los individuos estn concentrados en pocos valores de la distribucin. Efectivamente, el
73,5% de los hogares consume entre 2 y 9 litros de leche a la semana, y las respuestas van
desde 1 litro hasta 24 litros de leche a la semana.
Ejemplo
En el estudio sobre el mercado de productos lcteos se podra tener el propsito de verificar si es posible afirmar que el nmero medio de litros de leche consumidos por hogar
en la ciudad de Barcelona es de uno al da, es decir, siete a la semana, en lugar de los 6,685
litros a la semana que daba el resultado de la media.
El proceso que hay que seguir para validar los resultados se denomina
test de inferencia estadstica.
Las etapas que deben seguirse para llevar a cabo este proceso son las siguientes:
FUOC P01/71039/00748
44
3) Elegir el estadstico adecuado para contrastar H0 y calcularlo bajo la hiptesis nula H0.
4) Determinar el valor crtico a partir del cual rechazamos H0 (zona de rechazo).
5) Comparar el valor del estadstico con el valor terico para determinar si es
necesario o no rechazar H0 con el nivel de significacin especificado.
Etapa 1: establecer la hiptesis nula H0 y su alternativa H1
Para contrastar un resultado determinado, es necesario plantear a priori dos hiptesis:
1) Hiptesis nula (H0): la diferencia entre X e Y es estadsticamente nula y,
por lo tanto, puede afirmarse que se debe a las oscilaciones del azar.
2) Hiptesis alternativa (H1): la diferencia entre X e Y es estadsticamente significativa y, por lo tanto, puede afirmarse que no se debe a las oscilaciones del azar.
El test de inferencia estadstica consiste en contrastar estas dos hiptesis con
el fin de verificar cul de las dos es cierta. Segn un principio general de este
tipo de test, todas las diferencias se deben al azar mientras no se demuestre lo
contrario, por lo cual lo que siempre se somete a comprobacin es la hiptesis
nula H0. Rechazar la hiptesis nula H0 supone aceptar automticamente la hiptesis alternativa H1 y, por el contrario, aceptar la hiptesis nula H0 supone
rechazar automticamente la hiptesis alternativa H1.
Etapa 2: elegir un nivel de significacin
Tal como se muestra en el cuadro que hay a continuacin, la decisin a la cual
se llega despus de haber finalizado el test siempre lleva asociados dos tipos de
error:
1) El error de tipo I se comete cuando se rechaza la hiptesis nula y sta, en
realidad, es verdadera. La probabilidad de cometer un error de tipo I est representada por y se denomina nivel de significacin. El nivel de significacin lo fija a priori el investigador y es el riesgo de error que se est dispuesto
a asumir en caso de que rechace la hiptesis nula y sta sea verdadera. De forma convencional, suelen elegirse niveles de significacin 0,05 y 0,01. Es decir,
que se est dispuesto a asumir un error del 5% o del 1% en el momento de rechazar la hiptesis nula.
45
FUOC P01/71039/00748
riesgo . Este riesgo siempre es desconocido, ya que generalmente no se conocen los parmetros de la poblacin. Por lo tanto, es imposible saber si acertamos al aceptar la hiptesis nula.
Cuadro de decisin
Hiptesis nula H0
Verdadera
Falsa
Se acepta
Correcta
Error tipo II
(riesgo )
Se rechaza
Error tipo I
(riesgo )
Correcta
Decisin
( Oi Ti )
-,
----------------------T
i=1
donde:
O i = frecuencia observada de la categora i;
T i = frecuencia terica de la categora i;
k = nmero de categoras.
Segn esta frmula, cuanto mayor sea la distancia entre Oi y Ti, mayor ser el
valor de 2 y ms elevadas las posibilidades de rechazar H0.
2) Estadsticos Z y t:
a) En caso de que el valor que hay que analizar sea una media:
X
Z = ---------------- ;
S
------n
X
t = ---------------- ,
S
------n
46
FUOC P01/71039/00748
donde X es la media observada en la muestra, la media observada en la poblacin o norma, s la desviacin tpica de la muestra y n el tamao de la muestra.
b) En caso de que el valor que hay que analizar sea una proporcin:
p
Z = ------------------------ ;
p(1 p)
------------------n
p
t = -----------------------p(1 p)
------------------n
47
FUOC P01/71039/00748
Value
Porcentaje
muestra
Porcentaje
poblacin.
hasta primarios
20.1
56.0
secundarios
39.7
35.0
superiores
40.2
9.0
Total
100.0
100.0
Parece que el examen de las frecuencias indica que el nivel de estudios de los individuos
entrevistados difiere del nivel de estudios de la poblacin. El resultado de la prueba estadstica nos indicar si esta afirmacin es correcta. Con esta finalidad, seguimos cada una
de las etapas planteadas ms arriba.
1. La hiptesis nula H0 es que no hay diferencias entre la frecuencia observada y la frecuencia terica o de la poblacin. Slo intervienen las diferencias debidas al azar. La hiptesis alternativa H1 es que hay diferencias significativas entre la frecuencia observada
y la frecuencia terica o de la poblacin.
2. El nivel de significacin elegido (que corresponde al riesgo en que se incurrira si se
rechazara H0 por error) es de 0,05 ( = 5%).
3. La prueba estadstica adecuada para una variable ordinal es la prueba de la khi-cuadrado. El clculo del estadstico 2 aplicando la frmula es el siguiente:
2
2
( 20 1 56 )
( 39 7 35 )
( 40 2 9 )
= ---------------------------------- + ---------------------------------- + ------------------------------- = 131,81
56
35
9
4. El valor crtico c se obtiene a partir de la distribucin de la khi-cuadrado. La lectura de la distribucin se efecta para un nivel de significacin y para unos grados
de libertad determinados, en este caso k 1 grados de libertad, donde k es el nmero
2
de categoras de la variable analizada. En el ejemplo c (2 grados de libertad, = 5% )
= 5,99 .
2
48
FUOC P01/71039/00748
5. El valor del estadstico Z es superior al valor crtico, por tanto rechazamos H0. La conclusin de la prueba es que hay el 95% de posibilidades de que el consumo de leche medio por hogar y a la semana observado en la muestra sea inferior a 7 litros.
Las tablas de contingencia analizan la distribucin de frecuencia conjunta de dos variables de tipo cualitativo. Las categoras de una variable se
cruzan con las categoras de la otra, de modo que la distribucin de una
variable se subdivide de acuerdo con las categoras de la otra variable.
Las tablas de contingencia constituyen uno de los instrumentos ms utilizados en investigacin comercial porque los resultados son fcilmente interpretables y comprensibles para directivos con pocos conocimientos estadsticos,
lo que permite utilizar de una manera rpida los resultados de la investigacin
en acciones empresariales.
Ejemplo
Presentamos a continuacin un ejemplo de tabla de contingencia entre dos variables extradas del estudio sobre los hbitos de consumo de productos lcteos. Las variables analizadas son las siguientes:
a. Situacin laboral del principal responsable de las compras en el hogar (V152), codificada en tres grupos:
1. Trabaja por cuenta propia.
2. Trabaja por cuenta ajena.
3. Inactivo.
b. Su grado de instruccin (V149), codificado en dos grupos:
1. Sin estudios universitarios.
2. Con estudios universitarios.