Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadstica II
Prof. Alfonso Pitarque
Dpto. Metodologa (despacho M107)
Facultad de Psicologa
1. CONCEPTOS INTRODUCTORIOS.
Una poblacin es un conjunto de individuos que comparten determinada
caracterstica. Una muestra es un subconjunto de dicha poblacin. Las variables
que definen de forma numrica cualquier caracterstica de una poblacin
reciben el nombre de parmetros (p.e. media, mediana, desviacin tpica,
proporcin, correlacin,...), y suelen representarse en los manuales de
estadstica a travs de letras griegas (p.e. suele representar la media, la
desviacin tpica, 2 la varianza, la proporcin, y la correlacin,...). Por su
parte las variables que definen de forma numrica cualquier caracterstica de
una muestra reciben el nombre de estadsticos (p.e. media, mediana, desviacin
tpica, proporcin,...) y suelen representar con letras latinas (p.e. X suele
representar la media muestral, s la desviacin tpica, s2 la varianza, P la
proporcin, y r la correlacin,...).
Para conducir cualquier investigacin lo ideal sera poder medir a todos los
sujetos que componen una poblacin. De este modo tendramos certeza absoluta
de que nuestras conclusiones seran generalizables a dicha poblacin. Pero por
motivos obvios de economa de recursos y tiempo ello nunca suele ser posible
(imaginemos p.e. que tuviramos que medir a toda la poblacin espaola). Sin
embargo podemos trabajar con una muestra representativa de dicha poblacin e
intentar luego generalizar las conclusiones obtenidas en ella a toda la poblacin.
En el proceso de inferencia estadstica intentamos, previo conocimiento de
determinado estadstico, llegar a inferir o conocer determinado parmetro
poblacional, a priori desconocido. Inferir coincide pues con el significado
comn de inducir (pasar del conocimiento de lo particular a lo general) como
contrapuesto al de deduccin (o proceso por el cual pasamos del conocimiento
de lo general a lo particular). La caracterstica primordial para que una
inferencia sea vlida es que la muestra sea representativa, es decir, que sea
suficientemente grande y que haya sido obtenida por un tipo de muestreo
adecuado (ver ver punto 2 de este tema).
La estadstica inferencial cubre dos grandes reas de contenido: la estimacin de
parmetros y el contraste de hiptesis. En el primer caso (tema 2) nos valemos
del conocimiento de determinado estadstico para llegar a conocer determinado
parmetro (p.e. pinsese en los sondeos de opinin, encuestas, etc.). En el
contraste de hiptesis (temas 3 a 5) nos valemos de la estimacin de
determinados parmetros para comprobar si determinadas relaciones entre
Por ejemplo para realizar una encuesta dirigida a toda la poblacin espaola, para un nivel de
riesgo =.05, y un error de muestreo del 2%, necesitaramos una muestra de un tamao
mnimo de 2500 personas ( ver Len y Montero, 2002, pp. 111).
= xi pi = 4.5;
1
N
(xi
1
)2pi = 2.87
Tabla 1.
0,20
0,16
Frec.rel.
0,12
0,08
0,04
0,00
0,0
1,0
2,0
3,0
4,0
5,0
6,0
7,0
8,0
9,0
MEDIAS
Figura 1.
)
n
)
n , de tal modo que, con muestras grandes, el
Como queda dicho
X
z=
/ n se distribuir de acuerdo al modelo normal
estadstico tipificado
normalizado z = N(0, 1) (Ej. 1.3. Pardo y San Martn, pp 69; San Martn et al, pp
X = N (,
145).
!!!
!!! / !
= !
!!!
!/
!!!
Cuando n>30 t=N(0,1) (Ej. 1.4. Pardo y San Martn, pp 71; San Martn et al, pp
152).
4.3. VARIANZA.
Si n 100
s 2n = 2n 1 (
n1 2 2
n ,
2(n 1)
)
n
s 2n 1 = 2n 1 ( 2, 2
!
!"!
!!
2
n 1)
(n 1) s 2n 1
es una 2n 1
Cuando n>100
s 2n = s2n 1 = N ( 2, 2
2)
n
z=
s2 2
2 2/n
es N(0, 1)
(Ej. 1.5. Pardo y San Martn, pp 74; Ej. San Martn et al, pp 150).
4.4. PROPORCION.
La distribucin de muestras del estadstico proporcin (P), extradas de
poblaciones dicotmicas (donde la proporcin de casos asociados a uno de los
dos estados es ) y muestreo con reposicin, sigue el modelo binomial con
media y error tpico
(1 )
n
.
P
es
(1 )
n
N (0, 1)
(Ejs. 1.6. y 1.7, Pardo y San Martn, pp 76-77; San Martn et al, pp 153).
1. ESTIMACION PUNTUAL
Cuando un estadstico es utilizado para estimar un parmetro desconocido se
^
10
[(
p z1 / 2 s + z1 / 2 s
)] = (1 )
- Procedimiento de clculo:
1. Establecer el nivel de riesgo (generalmente =.05)
2. Hallar en tablas las probabilidades asociadas a los valores (/2)
y (1-/2) correspondientes a la distribucin muestral de
(z 1 / 2 ,
t 1 / 2 ,
21 / 2 , .. .) .
(s )
11
&
$% X + z 1/ 2
n'
&+
= (1 )
n ',
4.1.2. Desconocida 2:
p ()#$ X t ( n 1; 1 / 2)
*
s n 1 %
s n 1 % +
#X + t
= (1 )
$
(n 1; 1 / 2)
n&
n & ,-
(Ejs. 2.1. Pardo y San Martn, pp 105; Cuadras et al, pp. 488; San Martn et al,
pp. 192)
En el SPSS: Analizar > Explorar + Estadsticos
P(1 P) %
#
& $ P + z 1 / 2
n
P(1 P) % ,
& -. = (1 )
n
z
+
2
1 / 2
n
2n
4n 2 &
,$ n + z 1 / 2 & $
/
p,
/ = (1 )
2
2
#
%
z
z
P(1
P)
n
1
/
2
1
/
2
,, #
//
(
%' P +
+ z 1 / 2
+
2
2 &
n
$
2n
$
n
+
z
&
4n
0
1 / 2
(Ejs. 2.3. Pardo y San Martn, pp 111; Cuadras et al, pps. 495 y 498; San Martn
et al, pp. 196).
12
(
% 2
( 0 = (1 )
& (n 1;1 / 2) ) 1
.& ( n 1; / 2) )
2 % 2 # s2 + z
s2
$
n&
1 / 2
2 % ,- = (1 )
n &.
(Ejs. 2.2. Pardo y San Martn, pp 108; Cuadras et al, pp. 504; San Martn et al,
pp. 204).
13
14
2) Eleccin del nivel de riesgo (). Ya qued dicho que en Psicologa se trabaja
usualmente con niveles de riesgo de .05.
3) Eleccin del diseo de investigacin: La palabra diseo hace referencia al
modo en que el investigador decide asignar los sujetos a las condiciones o
tratamientos experimentales. Existen multitud de diseos de investigacin y se
explicarn en profundidad en el mdulo de Diseos de Investigacin en
Psicologa de 4 curso. En nuestro ejemplo ya dijimos que optamos por
asignar los sujetos al azar a las dos condiciones tratamentales.
4) Medicin de la VD: En asignaturas como Psicometra se explican cmo debe
llevarse a cabo una buena medicin psicolgica, caractersticas de la misma
(fiabilidad, validez,...), etc.
15
(X1 X2 ) (1 2 )
" n1s12 + n 2s22 %" 1
$
'$ + 1 %'
# n1 + n2 2 &# n1 n 2 &
es t n1 + n 2 2
16
17
D
E
C
I
S
I
O
N
Acepto Ho
Rechazo Ho
Ho verdadera
Ho falsa
Decisin
correcta (1 )
error tipo II
()
error tipo I
()
Ho verdadera
/2
Decisin
correcta (1 )
Ho falsa
Aceptar Ho
/2
Rechazar Ho
DECISION
18
19
X 0
/ n
es N (0, 1)
con muestras grandes. Con muestras pequeas (n<30) dicho estadstico seguir
una distribucin muestral t con n-1 g.l. (Ejs. 3.2, 3.3., 3.4 y 4.1 de Pardo y San
Martn, pps 142, 162, 169 y 187, respectivamente; San Martn et al, pp. 280).
a2) Desconocida 2 :
P 0
0 (1 0 )
n
es
N(0, 1)
20
Si n>100
z=
s2 2
2 2/n
es N(0, 1)
Supuestos: poblacin normal. (Ejs. San Martn et al, pp. 286; Glass y Stanley,
pp. 301; pp 88 deGotor; pp. 593 de Cuadras; Viasuata y Batall, pps. 178-180).
21
2
2
(a1) conocidas 1 y 2 )
z=
(X1 X 2 ) ( 1 2 )
21 22
n1 + n 2
es N (0, 1)
22
2
2
(a2) desconocidas 1 y 2 aunque supuestamente iguales1
t=
(X1 X 2 ) ( 1 2 )
" n 1s 21 + n 2 s22
#
$ n1 + n 2 2
es t n
%" 1
1
& $ n + n %'
' 1
2
+n 2
2
2
2
(a3) desconocidas 1 y 2 y diferentes2
es t con
Supuestos: poblaciones normales y muestras independientes de tamao ms o
menos similar. Si las muestras son grandes el anterior estadstico sigue un
modelo N(0,1). (Ejs. 4.5. Pardo y Sanmartn, pp. 200; San Martn et al, pp. 293;
Glass y Stanley, pp 295; Cuadras, pps. 606-610).
D
sd / n
es t n 1
Para poner a prueba este supuesto hay que aplicar previamente el estadstico referido en el
punto b1 de este mismo tema.
2 Para poner a prueba este supuesto hay que aplicar previamente el estadstico referido en el
punto b1 de este mismo tema.
23
(Ej. San Martn et al, pp. 290; Cuadras, pps.601; Gotor, pp. 91; Glass y Stanley,
pp. 306; Visauta y Batall, pps. 185, 186)
24
EL ANOVA
En el punto anterior hemos visto cmo a travs de un test t o z se puede poner a
prueba la hiptesis acerca de la diferencia entre dos medias. Pero en
investigacin experimental muy frecuentemente se ponen a prueba hiptesis
relativas a si existen diferencias en la eficacia de k distintos tratamientos (k>2),
es decir, hiptesis del tipo H 0 : 1 = 2 =.. .= k . Una posible solucin para el
caso de k muestras podra ser comparar por pares tales medias, hasta completar
todas las posibles (k(k-1)/2) combinaciones. Sin embargo no es sta una
solucin recomendable dado que crece exponencialmente a medida que k
aumenta: la probabilidad verdadera de cometer el error tipo I (p()) tras las
(n(n-1)/2) comparaciones viene dada por la llamada desigualdad de Bonferroni
(siendo el nivel de riesgo que a priori estamos dispuestos a asumir):
p() = 1 - (1-)k
Por ello se hace necesario desarrollar una nueva tcnica de anlisis estadstico
que permita verificar hiptesis de ese tipo manteniendo a niveles constantes .
Esta tcnica se conoce con el nombre de 'anlisis de la varianza' (o tambin
ANOVA, acrnimo de 'Analysis of variance'), y fue desarrollada por Fisher a
partir de 1930. Podemos afirmar que el ANOVA es la tcnica de anlisis
estadstico ms utilizada en la investigacin experimental y cuasi-experimental
en Psicologa (de hecho ms del 75% de las artculos revisados son analizados a
travs de ANOVA), de tal modo que hoy no se puede hablar de hacer
experimentacin en cualquier rama de la Ciencia sin conocer la tcnica bsica
de anlisis paramtrico que es el ANOVA.
Dado que no existe un nico tipo de ANOVA, daremos un breve esquema
clasificatorio de los distintos tipos de ANOVA. Como veremos ello conlleva
hablar de los distintos tipos de diseo experimental, hasta tal punto que
determinados autores (p.e. Winer, 1971) identifican el diseo con el modelo
matmatico de ANOVA que legitima su anlisis.
Podramos hablar de los siguientes tipos de ANOVA en base a estos criterios
clasificatorios:
a) Por el nmero de factores (o VIs): Si manipulamos una sola VI se habla
de ANOVA unifactorial. Cuando manipulamos ms de una VI se habla de
ANOVA factorial. En este ltimo caso si se habla de un ANOVA factorial
4 x 2, significa que manipulamos 2 Vis, la primera con 4 niveles y la
segunda con 2, lo que da un total de 8 condiciones o tratamientos
experimentales distintos. En esta asignatura slo analizaremos ANOVAS
25
26
(1)
27
ij
o lo que es lo mismo
X ij X T = (X j XT ) + (X ij X j )
(2)
Esta igualdad es cierta para todas y cada una de las puntuaciones de nuestra
investigacin. Si ahora se suman todas las puntuaciones de todos los sujetos y
elevamos cada miembro de la ecuacin al cuadrado (para que los signos
positivos y negativos no se anulen, dando un valor 0) llegamos a obtener:
k ni
1 1
k ni
k ni
1 1
1 1
(Xij XT )2 = (X j XT )2 + (X ij X j )2
(3)
28
no es debida al efecto de los tratamientos sobre los sujetos, siendo debida a otras
causas, generalemente desconocidas y espreas (diferencias individuales entre
los sujetos que configuran cada muestra, efectos incontrolados de variables
extraas, etc.).
As pues podemos escribir (3) como
SST = SSinter + SSe
quedando descompuesta la variabilidad total de un diseo como la suma de dos
componentes aditivos, uno que refleja la variabilidad debida al efecto 'puro' de
los tratamientos y el otro que refleja la variabilidad debida a efectos espreos.
Nuestro objetivo ser ahora relacionar estas sumas de cuadrados con el contraste
de la hiptesis H 0 : 1 = 2 =.. .= k . La misin del experimentador ser intentar
reducir la SSe tanto como le sea posible mediante tcnicas de control
experimental (aleatorizacin, eleccin de un diseo adecuado,...), as como
maximizar la SSinter (aplicando los tratamientos de forma ptima), pues de este
modo, como vamos a explicar ahora, maximizar las posibilidades de rechazar
la Ho, es decir, de demostrar que sus tratamientos producen efectos en la VD.
En el mdulo de Diseos de Investigacin en Psicologa (4 curso) se incidir
mucho en estos puntos.
Pero antes presentaremos un ejemplo que clarificar estas ideas.
EJEMPLO.
Imaginemos que un investigador est interesado en comprobrar si son
igualmente eficaces o no tres mtodos de enseanza del ingls (A1, A2, A3).
Para ello toma al azar una muestra de 15 sujetos, y los asigna al azar a los 3
mtodos y tras un curso de docencia mide a dichos grupos en la misma VD (p.e.
notas en un examen de ingls). Por tanto la hiptesis que ponemos a prueba es
H 0 : A1 = A 2 = A3 frente a H1 que especifica que al menos una de esas
igualdades no es cierta.
29
Las puntuaciones con sus respectivas medias grupales y media total fueron
suj 2=2
A3
3.2
4.8
A2
5.26
7.8
de
dinter
dT
Podemos apreciar como la igualdad (2) es cierta para el segundo sujeto del
grupo A1 (as como tambin es cierto para todos y cada uno de los 15 sujetos de
la investigacin)
X ij X T = (X j X T ) + (X ij X j )
30
Xj =
A1
3.2
3.2
3.2
3.2
3.2
A2
7.8
7.8
7.8
7.8
7.8
A3
4.8
4.8
4.8
4.8
4.8
3.2
7.8
4.8
X T = 5.26
31
LA TABLA DE ANOVA.
Entendido el concepto de SS se hace necesario presentar un nuevo trmino
conocido como grados de libertad (gl). En nuestro ejemplo las SS inter e intra
(54.5 y 12.4) no son directamente comparables dado que el valor 12.4 viene de
hallar las diferencias cuadrticas de 15 datos respecto a sus medias grupales,
mientras que 54.5 viene de hallar las diferencias de tan slo 3 datos (las medias
grupales) respecto a la media total (si bien tales diferencias cuadrticas aparecen
repetidas 5 veces cada una de ellas). El concepto de gl viene de las ciencias
fsicas en relacin a caractersticas del movimiento de los objetos: un objeto que
se mueve en lnea recta tiene 1 gl; si se mueve en un plano tiene 2 gl; en el
espacio, 3 gl,... En ANOVA los gl se refieren a criterios de ponderacin de las
SS. En concreto los gl asociados a las tres SS vistas son
glT = N-1
gl inter = k-1
gle = N-k
siendo k el nmero de tratamientos o condiciones experimentales y N el nmero
K
gle.
Si ponderamos la SSinter por sus respectivos gl obtenemos la llamada media
cuadrtica inter (MSinter), mientras que si ponderamos la SSe por sus
respectivos gl obtenemos la llamada media cuadrtica de error (MSe).
Tales MS representan varianzas1 y ya son directamente contrastables. Se
comprende ahora el porqu del nombre anlisis de la varianza?.
En nuestro ejemplo la MSinter = 27.25 y la MSe=1.03, luego podemos decir
que en nuestros datos el efecto de los tratamientos es 26.46 (27.25/1.03) veces
mayor que el efecto de factores espreos. Podemos empezar pues a sospechar
seriamente que Ho va a ser rechazada.
Sin embargo para confirmar tal sospecha se requiere aplicar un test estadstico.
1
s =
(X
X)
n 1
32
FV
inter
error
Total
SS
54.5
12.4
66.9
GL
2
12
14
MS
27.25
1.03
F
26.46
p
<.05
PRUEBAS A POSTERIORI
Si tras un ANOVA hemos aceptado Ho (es decir la razn F no ha alcanzado la
significacin estadstica) la interpretacin de los datos es clara en el sentido que
se confirma la idea de que los tratamientos no son eficaces sobre la VD (y ah
acaba el anlisis estadstico).
Pero cuando hemos rechazado Ho lo que significa es que al menos una de las
diferencias entre pares de medias es significativamente. En nuestro ejemplo el
haber obtenido una F significativa nos lleva a concluir que los distintos mtodos
del ingls producen resultados distintos pero no podemos decir todava qu
mtodo es el ms eficaz. Es decir rechazar Ho puede significar que sea cierta
una de estas tres alternativas:
(a) A1 A 2 = A3
(b) A1 = A 2 A3
o (c) A1 A 2 A3
33
34
35
36
37
38
La prueba ji-cuadrado fue sugerida por Karl Pearson como una forma
de valorar la bondad del ajuste de unos datos a una distribucin de
probabilidad conocida. Desde entonces la prueba ji-cuadrado se ha
convertido en una prueba muy aceptada y aplicable a mltiples usos cuando
se dispone de datos independientes de tipo nominal. P.e. esta prueba es
equivalente a hacer un contraste de hiptesis sobre una proporcin (ver tema
10) cuando la VD es dicotmica.
La prueba ji-cuadrado ofrece un test general sobre la existencia de
diferencias entre las categoras que agrupan a los datos de la variable
dependiente. La H0 indicara que la proporcin de elementos
correspondiente a cada categora de la variable independiente es consistente
con una prediccin especfica. Por el contrario, la H1 representa una clara
inconsistencia de los elementos observados en una categora con respecto a
la prediccin especfica.
Para su clculo como primer paso se requiere conocer las frecuencias
empricas (fe) que corresponden a cada una de las k categoras. Una vez
obtenidas estas frecuencias en las distintas categoras o casillas,
comparamos el valor de cada una de ellas con el valor esperado o frecuencia
terica (ft) que es de esperar cuando Ho es cierta. El valor esperado puede
depender de una distribucin terica determinada con la que queremos
comparar nuestros datos, o bien, sencillamente, reflejar que los datos se
repartan por igual entre las distintas k categoras. A continuacin calculamos
k
(f e f t)
=
ft
1
2
39
k1. Luego el
que se distribuye segn un modelo de probabilidad
centil 95 de dicha distribucin nos dar el punto que delimita la regin de
rechazo de Ho (en ji-cuadrado los contrastes son siempre unilaterales
derechos).
Prueba de Kolmogorov
Al igual que el test chi-cuadrado es una prueba de bondad de ajuste que se
aplica sobre cualquier tipo de datos (cualitativos agrupados en k categoras,
semicuantitativos o cuantitativos). La ventaja que tiene sobre el test chicuadrado es que no requiere de la satisfacin de supuesto terico alguno por lo
que es ms utilizada que aquella.
Su significado radica en comparar en todas las categoras la proporcin de
frecuencias acumuladas tericas (pfat) que se da cuando Ho es cierta, contra la
proporcin de frecuencias acumuladas empricas (pfae) y analizar si el punto de
mxima discrepancia entre ambas proporciones hace rechazar Ho o no.
La prueba de Kolmogorov (as como la de Shapiro-Wilk) es condicin
suficiente y necesaria para demostrar la normalidad de una distribucin de
datos. Ejemplos en San Martn y Pardo pps. 87 y 88.
Para realizarla en el SPSS: Analizar > Pruebas no paramtricas > Cuadros
de dialogo antiguos > K-S de una muestra
40
41
PRUEBAS
NO
PARAMTRICAS
INDEPENDIENTES
PARA
MUESTRAS
Prueba de Mann-Whitney
La prueba de Mann-Whitney es adecuada cuando se quiere analizar dos
muestras en un diseo entre sujetos cuya variable dependiente est representada
por un modelo al menos ordinal. La prueba de Mann-Whitney es una alternativa
poderosa a la paramtrica t para grupos independientes.
La prueba de Mann-Whitney analiza las diferencias globales de los
grupos, para lo cual atribuye rangos a la puntuacin de cada sujeto como si se
tratase de un solo conjunto de datos. En esta situacin, si se cumple la H0 las
diferencias entre las dos condiciones sern aleatorias y las puntuaciones
mayores y menores, y por lo mismo los rangos, se repartirn en la misma
medida en ambas condiciones experimentales. Por el contrario, si existe una
clara preponderancia de rangos bajos o altos en una condicin frente a la otra se
supone que indica la eficacia del tratamiento y el rechazo de la H0.
Ejemplos 9.3, pp 429, Pardo y San Martn; San Martn y Pardo pp. 128 y
132, Cuadras, 680, Siegel, 151.
Para realizarla en el SPSS: Analizar > Pruebas no paramtricas > Cuadros
de dialogo antiguos > 2 muestras independientes
Prueba de Chi-Cuadrado
Si comparamos si dos muestras independientes difieren en las k categoras
nominales de una VD la informacin resumida se presenta en una tabla de
contingencia 2 (grupos) x k categoras. La prueba de ji-cuadrado compara las
frecuencias empricas (fe) en cada celdilla de la tabla con las frecuencias
tericas (ft) esperadas bajo Ho. Las ft se calculan as:
ftij = (total de la fila i) x (total de la columna j) / n total de casos
Obtenidas las ft para cada celdilla de la tabla de contigencia, calculamos el
estadstico ji-cuadrado as:
42
2 = i j ((feij-ftij)2 / ftij)
que sigue una distribucin de probabilidad
gl = (filas-1)(columnas-1) de la tabla de contigencia.
ji
cuadrado
con
Para poder aplicar este estadstico las ft < 5 no deben de aparecer en ms del
20% de las celdillas de la tabla de contingencia (en caso de que esto ocurriera lo
mejor sera aplicar otra prueba como la de Kolmogorov).
La prueba de ji-ciadrado tambin se utiliza para analizar si existen diferencias
entre las proporciones (de una variable dicotmica o dicotomizada) entre dos o
ms muestras independientes.
El programa SPSS nos permite el clculo de dicho estadsitico as: Analizar >
Estadsticos descriptivos > Tablas de contingencia. En Estadsticos
seleccionaremos Chi-cuadrado. Si la sig del chi-cuadrado .05 querr decir que
hay diferencias entre ambas muestras, si sig es >.05 querr decir que no hay
diferencias. Hay que comprobar (en la nota a que aparace bajo la tabla de chicuadrado) que no ms del 20% de las casillas tengan ft < 5. Por defecto el SPSS
asigna valores esperados iguales para todas las categoras, pero podemos
modificarlos asignando porcentajes distintos a cada categora (p.e. si
quisiramos asignar un 70% a la categoria 1 y un 30% a la 2 pondramos en
aadir valores 70 y 30, respectivamente)
Ejs 12.7 P&SM pp554; fichero GSS93: Se reparte por igual el sexo? Y las
preferencias religiosas?
Prueba de Kolmogorov
Se puede utilizar en los mismos casos que ji-cuadrado sin estar pendientes de
que no ms del 20% de las casillas tengan ft < 5.
Para realizarla en el SPSS: Analizar > Pruebas no paramtricas > Cuadros
de dialogo antiguos > K-S de una muestra
43
PRUEBAS
NO
RELACIONADAS
PARAMETRICAS
PARA
CONDICIONES
Prueba de Wilcoxon
La prueba de Wilcoxon es apropiada cuando se tiene observaciones en
pares y cuando el tipo de medicin responde al menos al modelo ordinal. La
prueba de Wilcoxon es una alternativa poderosa a la paramtrica t para grupos
relacionados.
Para realizarla en el SPSS: Analizar > Pruebas no paramtricas > Cuadros
de dialogo antiguos > 2 muestras relacionadas
Ejemplos 9.4, pp 432, Pardo y San Martn; San Martn y Pardo pp. 116,
Cuadras, 693, Siegel, 101 y 104.
Prueba de McNemar
La prueba de McNemar analiza si existen cambios en una muestra medida dos
veces en el tiempo (p.e. en diseos pre-post o antes-despus) en una variable
categorial dicotmica, es decir, compara dos proporciones relacionadas. En el
SPSS bien a) selecionaremos Analizar > Estadsticos descriptivos > Tablas de
contingencia y en Estadsticos seleccionaremos McNemar, o b) Pruebas no
paramtricas > Cuadros de dialogo antiguos > 2 muestras relacionadas >
McNemar
Si la sig de McNemar es .05 querr decir que hay un cambio significativo en
entre ambos momentos temporales, mientras que si sig >.05 indicar que no ha
habido un cambio significativo.
44
Prueba de Kruskall-Wallis.
La prueba de Kruskal-Wallis es adecuada para analizar los datos derivados
de ms de dos (k) muestras o condiciones experimentales ejecutadas por grupos
de sujetos diferentes y cuya VD soporta, al menos, un modelo ordinal. Es decir,
esta prueba es adecuada para el anlisis de un diseo entre sujetos con ms de
dos grupos medido al menos ordinalmente. La prueba de Kruskal-Wallis, puede
considerarse, por tanto como una alternativa no-paramtrica al Anlisis de la
Varianza para grupos completamente aleatorizados.
La estructura de esta prueba es similar a la de Mann-Whitney y el
razonamiento, por tanto, se debe apoyar en los mismos postulados.
Para realizarla en el SPSS: Analizar > Pruebas no paramtricas > Cuadros
de dialogo antiguos > K muestras independientes
Si hemos rechazado Ho y quisiramos hacer pruebas a posteriori lo ms
correcto sera aplicar k(k-1)/2 pruebas de Mann-Whitney pero aplicando la
correccin de Bonferroni, es decir, rechazando en cada una de ellas Ho con
niveles de riesgo menores o iguales a /(k(k-1)/2).
Ejemplos 9.5, pp 436, Pardo y San Martn; San Martn y Pardo pp. 229 y
234, Siegel, 217, 220.
Prueba de Ji-Cuadrado
Es la generalizacin de la prueba de ji-cuadrado de dos muestras
independientes a tres o ms muestras independientes. En el programa SPSS
Analizar > Estadsticos descriptivos > Tablas de contingencia. En Estadsticos
seleccionaremos Chi-cuadrado.
Ejs pps 535, 539 Pardo y San Martn.
45
Prueba de Friedman
Puede considerarse como una extensin de la prueba de Wilcoxon. La
prueba de Friedman es una alternativa poderosa al anlisis de varianza para un
grupo de sujetos que reciben una variable intra.
Para realizarla en el SPSS: Analizar > Pruebas no paramtricas > Cuadros
de dialogo antiguos > K muestras relacionadas
Si hemos rechazado Ho y quisiramos hacer pruebas a posteriori lo ms
correcto sera aplicar k(k-1)/2 pruebas de Wilcoxon pero aplicando la
correccin de Bonferroni, es decir, rechazando en cada una de ellas Ho con
niveles de riesgo menores o iguales a /(k(k-1)/2).
Ejemplos 9.7, pp 445, o 9.16, pp 452, Pardo y San Martn. San Martn y
Pardo pp. 251, Siegel, 119.
Prueba de Cochran
Se utiliza cuando comparamos ms de 2 muestras relacionadas y la
variable dependiente es dicotmica.
Para realizarla en el SPSS: Analizar > Pruebas no paramtricas > Cuadros
de dialogo antiguos > K muestras relacionadas.
Si hemos rechazado Ho y quisiramos hacer pruebas a posteriori lo ms
correcto sera aplicar k(k-1)/2 pruebas de McNemar pero aplicando la
correccin de Bonferroni, es decir, rechazando en cada una de ellas Ho con
niveles de riesgo menores o iguales a /(k(k-1)/2).
46
TEMA 6. CONTRASTES
PREDICCION
EN
ASOCIACION
ji
cuadrado
con
Para poder aplicar este estadstico las fe < 5 no deben de aparecer en ms del
20% de las celdillas de la tabla de contingencia.
La prueba de ji-cuadrado tambin se utiliza para analizar si existen diferencias
entre las proporciones (de una variable dicotmica o dicotomizada) entre dos o
ms muestras independientes: si transformamos dichas proporciones en
frecuencias observadas fo y configuramos una tabla de contingencia 2 (niveles
de la variable dicotmica) x k muestras, la prueba de ji-cuadardo nos dir si
existen o no diferencias significativas entre dichas muestras en dicha variable
dicotmica.
El programa SPSS nos permite el clculo de dicho estadsitico as: Analizar >
Estadsticos descriptivos > Tablas de contingencia. En Estadsticos
seleccionaremos Chi-cuadrado y la Phi y V de Cramer para calcular el grado de
relacin entre las dos variables en una escala de 0 a 1. Si la sig de la Phi o de la
47
V de Cramer .05 querr decir que los datos no son independientes, es decir
que estn relacionadas, mientras que si sig > .05 es que son independientes, es
decir que no hay relacin entre ambas variables categoriales. Hay que
comprobar (en la nota a que aparace bajo la tabla de chi-cuadrado) que no ms
del 20% de las casillas tengan fe < 5
Ejs pps 535, 539 Pardo y San Martn.
2. Inferencia sobre los coeficientes de regresin.
Un modelo de regresin lineal es una ecuacin de primer orden que asocia una
variable dependiente (tambin llamada criterio), cuantitativa o semicuantitativa,
a una o varias (k) variables independientes (tambin llamados predictores),
cuantitativas, semicuantitativas, o cualitativas dicotmicas de acuerdo a una
funcin lineal del tipo:
VD = a + b1VI1 + b2VI2 + ... + bkVIk
donde a es la constante de la recta (o punto donde dicha recta corta al eje de
ordenadas cuando la VI vale 0) y las b representan la proporcin de cambio que
se observa en la VD por cada unidad de cambio de cada VI.
Dado que cada VI viene medida en una escala distinta las b no son directamente
comparables entre s. Para ello el SPPS calcula tambin las betas de los
modelos de regresin (o coeficientes tipificados o estandarizados, es decir,
previa tipificacin de las VIs) y que nos sirven adems para analizar si la
aportacin de cada VI es significativa o no para nuestro modelo de regresin (si
la sig asociada a una beta es .05 entonces es significativa, si es sig > .05 no lo
es).
Estimar un modelo de regresin lineal nos permite pues analizar tres objetivos
principales: 1) analizar si el modelo en su conjunto (es decir con todas las VIs
seleccionadas) es predictivo o no, viendo la R2 (que nos dice el porcentaje de
varianza de la VD que explican las VIs) y la sig del ANOVA (si sig .05
entonces el modelo es predictivo); 2) analizar el papel relativo que cada VI
juega en el modelo (viendo las betas y su significacin: si la sig de una beta
.05 entonces dicha VI debe de ser incluida en el modelo, en caso contrario
puede ser eliminada); 3) una vez comprobado que el modelo es predictivo,
utilizarlo para pronosticar las puntuaciones en la VD de nuevos sujetos de los
que disponemos sus puntuaciones en las VIs, sustituyendo sus valores en la
48
ecuacin de regresin.
Para hacer un modelo de regresin lineal en el SPSS seleccionaremos Analizar
> Regresin > Lineales, eligiendo la variable criterio (VD) y la(s) variables
predictoras (VIs). En Estadsticos elegiremos Durbin-Watson, Diagnstico de
Colinealidad. En Guardar: residuos no tipificados. En Opciones: Valores
perdidos: reemplazar por la media.
Por ejemplo imaginemos que en el fichero GSS93 queremos predecir los
ingresos del encuestado en funcin de estas 5 VIs: aos de escolarizacin, edad
del encuestado, ttulo escolar del padre, ttulo escolar de la madre y horas diarias
viendo TV. Obtendremos los siguientes resultados:
Resumen del modelob
Modelo
1
R
,459a
R cuadrado
,210
R cuadrado
Error tp. de la
corregida
estimacin
Durbin-Watson
,205
4,754
1,887
ANOVAb
Modelo
1
Regresin
Residual
Total
Suma de
cuadrados
4451,974
16703,911
21155,885
gl
5
739
744
Media
cuadrtica
890,395
22,603
F
39,392
Sig.
,000a
Coeficientesa
Modelo
1
(Constante)
Aos de escolarizacin
Ttulo escolar del padre
Ttulo escolar de la madre
Edad del encuestado
Horas diarias viendo TV
Coeficientes no estandarizados
B
Error tp.
,655
1,191
,643
,068
,044
,178
,043
,229
,097
,015
-,433
,095
Coeficientes
tipificados
Beta
,344
,010
,008
,225
-,154
t
,550
9,395
,249
,190
6,564
-4,554
49
Sig.
,582
,000
,804
,850
,000
,000
Nos indicaran que el ajuste global del modelo es significativo (sig=.0001), que
dicho modelo explica el 21% de la varianza de la VD (a su vez R=.459 es la
correlacin r entre Y e Y', es decir, entre los valores reales en Y y los
pronosticados por el modelo de regresin, respectivamente), y que las variables
ttulo escolar del padre y de la madre no aportan nada al mismo, por lo que
podramos eliminarlas. La beta de aos de escolarizacin indica que por cada
ao de escolarizacin los ingresos aumentan en 0.344 unidades; la beta de edad
indica que cada ao aumenta los ingresos e .225 unidades y la beta de horas
viendo TV indica que por cada hora de promedio diaria que se ve la TV los
ingresos disminuyen en .154 unidades.
Este mismo procedimiento de anlisis es aplicable a otros modelos de regresin
no lineal.
50
darnos valores comprendidos entre 1.5 y 2.5 para que se cumpla dicho
supuesto. En nuestro ejemplo dicho estadstico vale 1.887 luego hay
independiencia en los residuos.
51
Para comprender mejor el papel que juega la colinealidad entre las VIs es til
pedirle tambin al SPPS en la opcin Estadsticos que calcule las correlaciones
parciales y semiparciales. En nuestro ejemplo:
Coeficientesa
Modelo
1
(Constante)
Aos de escolarizacin
Ttulo escolar del padre
Ttulo escolar de la madre
Edad del encuestado
Horas diarias viendo TV
Correlaciones
Orden cero
Parcial
Semiparcial
,368
,087
,096
,194
-,252
,327
,009
,007
,235
-,165
,307
,008
,006
,215
-,149
52
53
TEMA 7. INTRODUCCION
MULTIVARIADA.
LA
ESTADISTICA
54
55
Se puede apreciar como si tales 6 variables en realidad midiesen slo dos cosas
tal y como muestran los dos grupos de correlaciones significativas. El resultado
de aplicar un AF (de componentes principales) sobre tal matriz es la siguiente
matriz factorial o de componentes (en SPSS > Analizar > Reduccin de
dimensiones > Factor):
2
Pruebas F1
F2
h
__________________________
V
.83
.01
.70
L
.79
.10
.63
I
.70
.10
.50
A
.10
.70
.50
F
.10
.79
.63
Q
.01
.83
.70
__________________________
1.8231 1.8231
% var
30.385 30.385
__________________________
en negrita p<.01
Dicha tabla nos muestra cmo las 6 pruebas en realidad estn midiendo dos
factores o componentes (F1 y F2). Los nmeros que aparecen en las columas F1
y F2 reciben el nombre de saturaciones o cargas factoriales y representan la
correlacin existente entre cada variable Xi con cada componente o factor Fn
(desde ahora ain).
ain = corr (Xi, Fn)
Si las elevamos al cuadrado obtendremos la proporcin de varianza del factor
explicada por cada variable.
Las h2 reciben el nombre de comunalidades y representan la proporcin de
varianza de la variable Xi explicada por los factores F1, ..., Fm . Observando las
comunalidades podemos analizar qu variable es mejor o peor explicada por
nuestro modelo factorial.
Por ltimo, el autovalor de un factor Fi es la varianza de la matriz de
correlaciones (R) explicada por dicho factor y se define como
i = a21i + ...+a2ni
Dividiendo i entre el nmero total de variables (n) obtendremos la proporcin
56
57
F1
F1
1
V
.80
L
I
L
I
.60
.40
.20
A F
0
.20
.40
.60
.80
F2
A F
1
F2
NO ROTADA
2
Pruebas F1
F2
h
F1
F2
________________________________________
V
.83
.01
.70
.60
-.58
L
.79
.10
.63
.63
-.49
I
.70
.10
.50
.56
-.43
A
.10
.70
.50
.56
.43
F
.10
.79
.63
.63
.49
Q
.01
.83
.70
.60
.58
_________________________________________
58
En las rotaciones oblicuas (menos utilizadas) se permite que los factores dejen
de ser ortogonales, es decir que sean correlacionados. Los factores oblicuos son
entonces variables correlacionadas entre s.
Para orientar al investigador en sus tcnicas de rotacin Thurstone desarroll
cinco principios aplicables tanto a rotaciones ortogonales como oblicuas
conocidos como el 'Principio de Estructura Simple' y que definen la solucin
factorial ptima:
1) Cada fila de la matriz factorial debe de tener al menos una carga cercana
a 0.
2) En cada columna debe de haber, por lo menos, tantas cargas cercanas a
0 como factores haya.
3) Entre cada par de columnas debe de haber cargas altas en un factor y
bajas en el otro (o a la inversa).
4) Ante 4 o ms factores es interesante que una gran proporcin de
variables tengan cargas cercanas a 0 ante cada par de factores
5) En cualquier par de columnas de la matriz factorial debe de haber un
nmero pequeo de variables con cargas altas en ambas.
Estos criterios buscan encontrar variables 'puras', es decir, que saturen mucho en
algunos factores y muy poco en otros en aras de facilitar la interpretacin de los
resultados.
AF de segundo orden.
Si correlacionamos las cargas factoriales de la matriz factorial A obtenidas tras
haber llevado a cabo un AF, y a su vez factorizamos dicha matriz de
correlaciones habremos llevado a cabo un AF de segundo orden. En l
utilizamos los factores de primer orden como si fueran variables empricas en
aras de encontrar "factores detrs de los factores". El factor G de Spearman o el
rasgo introversin-extroversin de Cattel han sido hallados de este modo.
AF exploratorio y AF confirmatorio.
Como acabamos de ver, generalmente el objetivo del AF es explorar la
dimensionalidad subyacente a un cierto nmero de variables empricas del
modo ms sencillo posible (AF exploratorio o simplemente AF). Sin embargo
59
otras veces el anlisis se realiza con un conocimiento previo del nmero y/o
estructura de los factores denominndose AF confirmatorio, pues pone a prueba
si la hiptesis formulada a priori es cierta o no. Dicha hiptesis se plantea bien
sobre el nmero de factores, su naturaleza (oblicuos, ortogonales, mixtos) o
sobre las saturaciones de la matriz factorial. Un test chi2 permite confirmar la
estructura formulada.
60
Sujetos
Crit.
Predictores
Y
X1, X2, ...
Xp
23, 24 , ...
112
2
.
1
.
78
.
6
.
3
.
12
.
56, 87,...
32
61
Contraste de las
funciones
1
Lambda de Wilks
Lambda de
Wilks
Chi-cuadrado
,944
36,116
gl
6
Sig.
,000
62
63
Resultados de la clasificacina
Grupo de pertenencia
pronosticado
Oposicin a los
permisos de armas
A Favor
En Contra
Original Recuento A Favor
811
En Contra
173
Casos desagrupados
516
%
A Favor
100,0
En Contra
100,0
Casos desagrupados
100,0
a. Clasificados correctamente el 82,4% de los casos agrupados originales.
0
0
0
,0
,0
,0
Total
811
173
516
100,0
100,0
100,0
Esta tabla nos indica que el modelo clasifica correctamente el 82.4% de los
datos originales.
64
9,372
1,183
6
3588,923
,312
65
Efecto
vi
Traza de Pillai
Lambda de Wilks
Traza de
Hotelling
Raz mayor de
Roy
Contrastes multivariadosc
Gl de la
Valor
F
hiptesis
Gl del error
1,192
5,907
6,000
24,000
a
,007
41,648
6,000
22,000
121,334
202,223
6,000
20,000
121,083
484,332b
3,000
12,000
Sig.
,001
,000
,000
,000
F
108,108
322,471
108,108
322,471
Sig.
,000
,000
,000
,000
66
a,b,c
vi
1
2
3
Sig.
N
5
5
5
Subconjunto
1
2
24,8000
44,2000
46,8000
1,000
,892
vd2
Scheffea,b,c
vi
1
2
3
Sig.
N
5
5
5
1
2,8000
Subconjunto
2
6,4000
1,000
1,000
7,8000
1,000
67
TABLAS ESTADISTICAS
68
69
70
71
72
73