Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Apuntes Estadistica Ii PDF
Apuntes Estadistica Ii PDF
Estadstica II
Prof. Alfonso Pitarque
Dpto. Metodologa (despacho M107)
Facultad de Psicologa
TEMA 1. CONCEPTOS BSICOS DE INFERENCIA ESTADISTICA.
1. CONCEPTOS INTRODUCTORIOS.
Para conducir cualquier investigacin lo ideal sera poder medir a todos los
sujetos que componen una poblacin. De este modo tendramos certeza absoluta
de que nuestras conclusiones seran generalizables a dicha poblacin. Pero por
motivos obvios de economa de recursos y tiempo ello nunca suele ser posible
(imaginemos p.e. que tuviramos que medir a toda la poblacin espaola). Sin
embargo podemos trabajar con una muestra representativa de dicha poblacin e
intentar luego generalizar las conclusiones obtenidas en ella a toda la poblacin.
En el proceso de inferencia estadstica intentamos, previo conocimiento de
determinado estadstico, llegar a inferir o conocer determinado parmetro
poblacional, a priori desconocido. Inferir coincide pues con el significado
comn de inducir (pasar del conocimiento de lo particular a lo general) como
contrapuesto al de deduccin (o proceso por el cual pasamos del conocimiento
de lo general a lo particular). La caracterstica primordial para que una
inferencia sea vlida es que la muestra sea representativa, es decir, que sea
suficientemente grande y que haya sido obtenida por un tipo de muestreo
adecuado (ver ver punto 2 de este tema).
1
variables son ciertas o falsas. Por ejemplo imaginemos que un laboratorio
farmacetico quiere comprobar si dos medicamentos (A y B) son igualmente
eficaces o no para reducir el insomnio. Para ello toma dos muestras de personas
insomnes y las medica a una con el medicamento A y a la otra con el B
(variable independiente). Finalizada la medicacin mide a ambas muestras en la
variable (dependiente) 'grado de insomnio manifiesto'. Si ambos medicamentos
= B B
son igualmente eficaces se verificar que A , en caso contrario A .
Dada la relevancia de la estadstica aplicada al contraste de hiptesis en todas
las disciplinas cientficas incidiremos prioritariamente en este curso en esta
segunda lnea de anlisis.
2
nacionalidades, tipo de colegios, edades, niveles educativos, etc.). Se extrae
entonces una muestra aleatoria de sujetos de todos y cada uno de los estratos.
Destaca aqu el llamado muestreo estratificado proporcional que consiste en
conseguir que el tamao de las muestras extraidas de cada estrato sea
proporcional al nmero de sujetos que componen cada estrato a nivel
poblacional.
3
Por ejemplo para realizar una encuesta dirigida a toda la poblacin espaola, para un nivel de
riesgo =.05, y un error de muestreo del 2%, necesitaramos una muestra de un tamao
mnimo de 2500 personas ( ver Len y Montero, 2002, pp. 111).
4
3. CONCEPTO DE DISTRIBUCION MUESTRAL DE UN ESTADISTICO.
DISTRIBUCION MUESTRAL DE LA MEDIA. TEOREMA DEL LIMITE
CENTRAL.
Expliquemos por ejemplo la distribucin muestral de la media. Sea p.e. una urna
de 1000 bolas (poblacin), 100 de ellas etiquetadas con el n 0, 100 con el 1, ...
y 100 con el 9. En este caso
N N
= xi pi = 4.5; = (xi )2pi = 2.87
1 1
p( X > ) 0 cuando n
5
Tabla 1.
0,20
0,16
0,12
Frec.rel.
0,08
0,04
0,00
0,0 1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0 9,0
MEDIAS
Figura 1.
6
Para conocer las distribuciones muestrales de los distintos estadsticos no es
necesario recurrir a procedimientos empricos (como el llevado a cabo arriba)
sino que se han desarrollado distintos teoremas matemticos que demuestran las
distribuciones de probabilidad en que aquellas se basan. As el Teorema
Central del Lmite (De Moivre) fundamenta matemticamente la distribucin
muestral de la media, sin duda la distribucin muestral ms importante. Segn
tal teorema si de una poblacin grande (con media y varianza 2), distribuida
normalmente o no, extraemos muestras al azar de tamao grande (n>30) y
calculamos en cada una de ellas su media entonces (1) la distribucin muestral
de las medias muestrales sigue un modelo normal; (2) la media de tal
distribucin de medias coincide con (X X = ) y (3) la desviacin tpica tal
distribucin (tambin llamada error tpico o estndar de la media) coincide
con / n (s X = / n ) .
7
4. PRINCIPALES DISTRIBUCIONES MUESTRALES.
4.3. VARIANZA.
Si n 100
n1 2 2 2(n 1) 2
s 2n = 2n 1 ( n , ) s 2n 1 = 2n 1 ( 2, 2
n n 1)
(n 1) s 2n 1
!
!"! es una 2n 1
Con fines prcticos es til saber que el estadstico =
!!
2
Cuando n>100
s 2n = s2n 1 = N ( 2, 2 2)
n
s2 2
z= es N(0, 1)
por lo que el estadstico tipificado 2 2/n
(Ej. 1.5. Pardo y San Martn, pp 74; Ej. San Martn et al, pp 150).
8
4.4. PROPORCION.
(Ejs. 1.6. y 1.7, Pardo y San Martn, pp 76-77; San Martn et al, pp 153).
9
TEMA 2. ESTIMACION DE PARAMETROS.
1. ESTIMACION PUNTUAL
10
de 0.95. Por tanto en la distribucin muestral de ^ debe verificarse con E( ) =
que la probabilidad de que un valor de dicho estadstico se aleje de ms de
1.96 errores tpicos vale 0.05. En otras palabras,
[( ) (
p z1 / 2 s + z1 / 2 s )] = (1 )
- Procedimiento de clculo:
1. Establecer el nivel de riesgo (generalmente =.05)
2. Hallar en tablas las probabilidades asociadas a los valores (/2)
^
y (1-/2) correspondientes a la distribucin muestral de
(z 1 / 2 , t 1 / 2 , 21 / 2 , .. .) .
(s )
3. Hallar el error tpico del estadstico ^
4. Calcular los lmites confidenciales (si ^ se distribuye de forma
normal):
^ z s^
1 / 2
11
3. PRINCIPALES INTERVALOS CONFIDENCIALES.
4.1.1. Conocida 2:
& &+
p )$% X z 1/ 2 $% X + z 1/ 2 = (1 )
* n' n ',
4.1.2. Desconocida 2:
s n 1 % s n 1 % +
p ()#$ X t ( n 1; 1 / 2) #X + t = (1 )
* n& $ (n 1; 1 / 2) n & ,-
(Ejs. 2.1. Pardo y San Martn, pp 105; Cuadras et al, pp. 488; San Martn et al,
pp. 192)
+ n # z 21 / 2 P(1 P) z 21 / 2 % .
,# % ' P + z + ( /
n
,$ n + z 1 / 2 & $ 2n 4n 2 &
2 1 / 2
/
p, / = (1 )
n # z 2
P(1 P) z 2 %
,, # %' P + 1 / 2
+ z 1 / 2 +
1 / 2
( //
$ n + z 2
& $ 2n n 4n 2 &
- 1 / 2 0
(Ejs. 2.3. Pardo y San Martn, pp 111; Cuadras et al, pps. 495 y 498; San Martn
et al, pp. 196).
12
3.3. Intervalo confidencial para la varianza:
p )*+#$ s 2 z 1 / 2 s 2 2 % 2 # s2 + z s2 2 % ,- = (1 )
n& $ 1 / 2 n &.
(Ejs. 2.2. Pardo y San Martn, pp 108; Cuadras et al, pp. 504; San Martn et al,
pp. 204).
13
TEMA 3. CONTRASTE DE HIPOTESIS.
1. INTRODUCCION
14
A su vez H0 puede ser de dos tipos:
(a) bilateral o de dos colas, cuando Ho se rechace tanto en el caso de que
A > B como en el caso de que A < B . En este caso H se planteara as:
0
H o : A = B o tambien A B = 0
(b) unilateral o de una cola, cuando Ho se rechace slo en el caso de que por
ejemplo A > B , hablndose de una H0 unilateral derecha ; cuando Ho se rechace
en el caso de que A < B entonces hablaremos de una H0 unilateral izquierda.
2) Eleccin del nivel de riesgo (). Ya qued dicho que en Psicologa se trabaja
usualmente con niveles de riesgo de .05.
15
5) Seleccin de la prueba estadstica a aplicar (o estadstico de contraste) y
anlisis de datos: Una vez llevada a cabo la medicin se hace necesario
seleccionar la prueba estadstica a aplicar en funcin del tipo de VI elegida, y de
la naturaleza de la VD (cuantitativa, semicuantitativa o cualitativa).
16
En los manuales clsicos de Estadstica la regla de decisin se suele formular
as: "rechazaremos Ho si el valor del estadstico de contraste cae dentro de la
llamada regin crtica o de rechazo de Ho. La regin crtica se define como el
conjunto de valores del estadstico de contraste que por estar muy alejados de
Ho es muy poco probable ( ) que ocurran si Ho es verdadera. Es decir si mi
estadstico de contraste cae dentro de la regin de rechazo de Ho (zonas de /2
en la siguiente figura) entonces rechazar Ho, caso contrario la aceptar. Para
contrastes unilaterales la regin crtica quedar toda ella bien a la derecha o a la
izquierda de la distribucin de Ho.
17
2. TIPOS DE ERROR Y FACTORES QUE LOS AFECTAN
Ho verdadera Ho falsa
D
E Decisin error tipo II
C Acepto Ho
correcta (1 ) ()
I
S
I error tipo I Decisin
O Rechazo Ho correcta (1 )
()
N
Ho verdadera Ho falsa
/2 /2
Aceptar Ho Rechazar Ho
DECISION
18
Observemos que en este ejemplo H1 est planteada en trminos bilaterales; el
razonamiento sera similar si hubiera sido planteada unilateralmente, slo que
entonces toda la regin de rechazo se hubiese situado bien a la derecha, bien a la
izquierda de Ho.
Dado que suele tomar valores constantes iguales o inferiores a .05 lo que
interesa es pues aumentar la potencia de la prueba (1-). Las dos formas tiene el
investigador de reducir es o bien aumentar el tamao de las muestras con las
que trabaja, o bien aumentar el llamado tamao del efecto que en una escala de
0 a 1 describe el grado en que la manipulacin experimental que hago es o no
efectiva, puesto que aumentando el tamao del efecto conseguimos reducir el
grado de solapamiento de las distribuciones de Ho verdadera y Ho falsa sea
menor (ver figura anterior). El programa SPSS tambin permite calcular el
tamao del efecto (pidindoselo en opciones) a travs del clculo del estadstico
eta cuadrado parcial (2p en una escala de 0 a 1).
Por ltimo no hay que confundir la significacin estadstica con el tamao del
efecto. Muchas veces se piensa incorrectamente que una sig o p muy pequea es
indicativa de que la manipulacin de la VI sobre la VD ha sido muy efectiva, es
decir, de un tamao del efecto muy alto. Y eso no siempre es as pues p depende
del tamao muestral: una p=0.03 podr tender relevancia psicolgica ante un
n=30 p.e., pero la misma p ante un n=3000 no tiene ninguna relevancia. Por ello
la relevancia de un contraste hay que verificarla observando el tamao del
efecto.
19
3. CONTRASTES DE HIPOTESIS PARA UNA MUESTRA.
a1) Conocida 2 :
X 0
z= es N (0, 1)
/ n
con muestras grandes. Con muestras pequeas (n<30) dicho estadstico seguir
una distribucin muestral t con n-1 g.l. (Ejs. 3.2, 3.3., 3.4 y 4.1 de Pardo y San
Martn, pps 142, 162, 169 y 187, respectivamente; San Martn et al, pp. 280).
a2) Desconocida 2 :
20
c) Contraste sobre la varianza:
Si n 100
Si n>100
s2 2
z= es N(0, 1)
2 2/n
Supuestos: poblacin normal. (Ejs. San Martn et al, pp. 286; Glass y Stanley,
pp. 301; pp 88 deGotor; pp. 593 de Cuadras; Viasuata y Batall, pps. 178-180).
21
TEMA 4. CONTRASTE DE HIPTESIS PARAMTRICO
Vamos a ver en este tema las principales pruebas estadsticas utilizadas para
contrastar hiptesis relativas a dos o ms muestras o condiciones (bien sean
stas independientes o relacionadas). Por muestras independientes entendemos
muestras formadas por sujetos que no guardan ninguna relacin entre s, como
ocurre por ejemplo, cuando asignamos al azar los participantes a las distintas
condiciones (es decir, cuando la VI es inter). Por muestras relacionadas
entendemos aquellas entre las que haya sospecha de no ser realmente
independientes, como ocurre p.e. cuando la VI es intra (es decir, ante
mediciones repetidas de los mismos sujetos), o muestras formadas por
familiares, etc.
Para aplicar este tipo de pruebas (llamadas parmetricas) los datos han de
satisfacer algunos supuestos generales (la VD ha de ser cuantitativa, distribuirse
normalmente, tamao muestral suficiente no menos de 15 sujetos por
condicin-) y otros supuestos especficos de cada prueba. Cuando algunos de
estos supuestos no se cumplen los datos deben de ser analizadas mediante
pruebas no paramtricas (tema 5).
2 2
(a1) conocidas 1 y 2 )
(X1 X 2 ) ( 1 2 )
z= es N (0, 1)
21 22
n1 + n 2
22
2 2
(a2) desconocidas 1 y 2 aunque supuestamente iguales1
(X1 X 2 ) ( 1 2 )
t= es t n +n 2
" n 1s 21 + n 2 s22 %" 1 1
1 2
# & $ n + n %'
$ n1 + n 2 2 ' 1 2
2 2
(a3) desconocidas 1 y 2 y diferentes2
es t con
1 Para poner a prueba este supuesto hay que aplicar previamente el estadstico referido en el
punto b1 de este mismo tema.
2 Para poner a prueba este supuesto hay que aplicar previamente el estadstico referido en el
23
b) Contraste sobre el cociente entre dos varianzas:
(Ej. San Martn et al, pp. 290; Cuadras, pps.601; Gotor, pp. 91; Glass y Stanley,
pp. 306; Visauta y Batall, pps. 185, 186)
24
EL ANOVA
p() = 1 - (1-)k
Por ello se hace necesario desarrollar una nueva tcnica de anlisis estadstico
que permita verificar hiptesis de ese tipo manteniendo a niveles constantes .
Esta tcnica se conoce con el nombre de 'anlisis de la varianza' (o tambin
ANOVA, acrnimo de 'Analysis of variance'), y fue desarrollada por Fisher a
partir de 1930. Podemos afirmar que el ANOVA es la tcnica de anlisis
estadstico ms utilizada en la investigacin experimental y cuasi-experimental
en Psicologa (de hecho ms del 75% de las artculos revisados son analizados a
travs de ANOVA), de tal modo que hoy no se puede hablar de hacer
experimentacin en cualquier rama de la Ciencia sin conocer la tcnica bsica
de anlisis paramtrico que es el ANOVA.
25
unifactoriales, los ANOVAS factoriales se vern en el mdulo de Diseos
de investigacin en Psicologa (4 curso).
26
EL ANOVA UNIFACTORIAL INTER
27
j representa el efecto puro del tratamiento j en el sujeto i, y
Eij es el error experimental y representa todas las fuentes incontroladas de
variacin que afectan a la medida del sujeto i en el tratamiento j.
Se puede demostrar (ver p.e. Glass y Stanley, 1974; pp 343) que los respectivos
estimadores insesgados de , j y Eij son
= XT
j = Xj XT
E = X X
ij ij j
K
siendo XT la media general de todos los N sujetos (N = n j ) adscritos a todos los
1
X ij = X T + (X j XT ) + (X ij X j )
o lo que es lo mismo
X ij X T = (X j XT ) + (X ij X j ) (2)
Esta igualdad es cierta para todas y cada una de las puntuaciones de nuestra
investigacin. Si ahora se suman todas las puntuaciones de todos los sujetos y
elevamos cada miembro de la ecuacin al cuadrado (para que los signos
positivos y negativos no se anulen, dando un valor 0) llegamos a obtener:
k ni k ni k ni
(Xij XT )2 = (X j XT )2 + (X ij X j )2 (3)
1 1 1 1 1 1
28
no es debida al efecto de los tratamientos sobre los sujetos, siendo debida a otras
causas, generalemente desconocidas y espreas (diferencias individuales entre
los sujetos que configuran cada muestra, efectos incontrolados de variables
extraas, etc.).
Nuestro objetivo ser ahora relacionar estas sumas de cuadrados con el contraste
de la hiptesis H 0 : 1 = 2 =.. .= k . La misin del experimentador ser intentar
reducir la SSe tanto como le sea posible mediante tcnicas de control
experimental (aleatorizacin, eleccin de un diseo adecuado,...), as como
maximizar la SSinter (aplicando los tratamientos de forma ptima), pues de este
modo, como vamos a explicar ahora, maximizar las posibilidades de rechazar
la Ho, es decir, de demostrar que sus tratamientos producen efectos en la VD.
En el mdulo de Diseos de Investigacin en Psicologa (4 curso) se incidir
mucho en estos puntos.
EJEMPLO.
29
Las puntuaciones con sus respectivas medias grupales y media total fueron
A1 A3 A2
de
dinter
dT
Podemos apreciar como la igualdad (2) es cierta para el segundo sujeto del
grupo A1 (as como tambin es cierto para todos y cada uno de los 15 sujetos de
la investigacin)
X ij X T = (X j X T ) + (X ij X j )
(2 - 5.26) = (3.2 - 5.26) + (2 - 3.2)
dT = dinter + de
distancia Total = distancia inter + distancia de error
30
ms posibilidades habr de rechazar Ho. Si esto no se ve claro pinsese por
ejemplo qu ocurrira si en nuestro ejemplo los 15 sujetos hubiesen
A1 A2 A3
3.2 7.8 4.8
3.2 7.8 4.8
3.2 7.8 4.8
3.2 7.8 4.8
3.2 7.8 4.8
Xj = X T = 5.26
3.2 7.8 4.8
lo que quiere decir que de las 66.9 unidades de variabilidad que hay en nuestros
datos 54.5 son debidas a los efectos 'puros' de los tratamientos y 12.4 a otras
causas espreas desconocidas.
31
LA TABLA DE ANOVA.
glT = N-1
gl inter = k-1
gle = N-k
s = 2
(X i
X)
n 1
32
Si como hemos dicho MSinter y MSe representan varianzas, en el tema 11
vimos cmo para contrastar hiptesis acerca del cociente de dos varianzas
utilizbamos un test F. En nuestro ejemplo pues F=26.46 que contrastado contra
el centil 95 de una distribucin F con 2 gl inter asociados al numerador y 12 gle
asociados al denominador permitir rechazar Ho para un nivel de riesgo de 0.05.
FV SS GL MS F p
inter 54.5 2 27.25 26.46 <.05
error 12.4 12 1.03
Total 66.9 14
PRUEBAS A POSTERIORI
(a) A1 A 2 = A3
(b) A1 = A 2 A3
o (c) A1 A 2 A3
33
Ls pruebas estadsticas a posteriori, llamadas as por que se aplican tras haber
hallado una F significativa, nos ayudarn a elegir cul de estas tres alternativas
es la cierta. Todas ellas comparan las diferencias entre los pares de medias
muestrales.
Una primera solucin podra ser aplicar k(k-1)/2 pruebas t sobre tales pares de
medias si bien ya dijimos que no es sta una solucin recomendable dado que
crece exponencialmente a medida que k aumenta. En este caso Bonferroni
recomend rechazar Ho con niveles de riesgo menores o iguales a /(k(k-1)/2).
De este modo estas pruebas t a posteriori se denominan t de Bonferroni.
Existen otras muchas pruebas a posteriori entre las que destacan las de
Newman-Keuls, Scheff, Tukey, etc. Ms o menos todas llevan a resultado
similares. El programa SPSS realiza todas ellas (seleccionndolas en opciones
del ANOVA de un factor).
34
EL ANOVA UNIFACTORIAL INTRA
Los ANOVAS intrasujeto son aquellos en los que una sola muestra de sujetos
pasa por todas las condiciones experimentales (por lo que se llaman diseos de
medidas repetidas). Presentan una gran ventaja de economa pues al trabajar
con una nica muestra los esfuerzos materiales y humanos que se involucran en
la investigacin son menores que los utilizados en un diseo de grupos al azar.
Sin embargo presentan algunos desventajas que hay que conocer:
En primer lugar no todas las VI admiten una manipulacin intra. Slo aquellas
VI que son susceptibles de manipulacin directa y que no producen efectos
persistentes en el organismo de los participantes (es decir, que desaparecen
entre una medicin y otra) pueden manipularse intrasujeto, mientras que las
manipuladas por seleccin (p.e. el sexo, la edad, el lugar de nacimiento, etc)
slo admiten manipulacin inter.
En segundo lugar, siempre que medidos a los sujetos varias veces en el tiempo
se involucra el llamado efecto de la prctica: Cuando medimos a una muestra
varias veces, su rendimiento en la segunda medicin no slo refleja el efecto de
tal tratamiento si no la experiencia que han obtenido los sujetos en la primera
medicin, etc. Para hacer que el efecto de la prctica se reparta por igual entre
todos los tratamientos podemos hacer principalmente dos cosas: (a) aleatorizar
para cada sujeto el orden de administracin de los tratamientos o (b) emplear
procedimientos de contrabalenceo, es decir, hallar todas las posible formas de
combinar el orden de presentacin de las k condiciones experimentales (habr
k! formas posibles) y asignar cada una de ellas a uno o varios sujetos distintos
(aunque de este modo nuestra muestra tendr que ser de tamao k! o un
mltiplo de este nmero).
Por ltimo, las mediciones han de estar poco espaciadas en el tiempo dado que
en caso contrario efectos madurativos de los sujetos pueden afectar a su
rendimiento en la VD.
35
darnos no significativo, sig >. 05). Si no se cumple el programa nos da otros
estadsticos alternativos (p.e. Greenhouse-Geisser), o bien podemos recurrir a
un anlisis no paramtrico (ver tema 12).
- Analizar > Modelo general lineal > medidas repetidas (ponemos nombre
al factor y n de niveles)
- Comprobar si se cumple el supuesto de esfericidad (test de Mauchly)
- Para hacer las pruebas a posteriori de Bonferroni ir a Opciones y meter
nuestro factor en Mostrar las medias para, seleccionar Comparar los
efectos principales+ Ajuste del intervalo de confianza +Bonferroni
36
TEMA 5. CONTRASTE DE HIPTESIS
NO-PARAMTRICO
37
si los datos se distribuyen uniformemente entre las distintas categoras
nominales; si se distribuyen de formal normal, etc).
b) Pruebas de posicin (prueba de los signos o binomial): sirven para
verificar si el nmero de puntuaciones que quedan por debajo de determinada
posicin o criterio (p.e. la mediana) se adeca o no a lo predicho por Ho.
c) Pruebas de independencia (Ji-cuadrado): analizan mediante tablas de
contingencia y pruebas ji-cuadrado si existe relacin entre dos variables
categoriales relativas a una misma muestra de sujetos o no (es decir que si son
variables relacionadas o independientes). Este punto se desarrollar en el tema
13.
38
PRUEBAS NO PARAMTRICAS PARA UNA CONDICIN O
MUESTRA
2
Prueba Chi-cuadrado ( ) .
La prueba ji-cuadrado fue sugerida por Karl Pearson como una forma
de valorar la bondad del ajuste de unos datos a una distribucin de
probabilidad conocida. Desde entonces la prueba ji-cuadrado se ha
convertido en una prueba muy aceptada y aplicable a mltiples usos cuando
se dispone de datos independientes de tipo nominal. P.e. esta prueba es
equivalente a hacer un contraste de hiptesis sobre una proporcin (ver tema
10) cuando la VD es dicotmica.
39
2
que se distribuye segn un modelo de probabilidad k1. Luego el
centil 95 de dicha distribucin nos dar el punto que delimita la regin de
rechazo de Ho (en ji-cuadrado los contrastes son siempre unilaterales
derechos).
Prueba de Kolmogorov
40
Prueba binomial o de los signos.
Ejemplos 9.1, pp 419, Pardo y San Martn. Ej. 3.9 pp. 105 y pp. 92 de San
Martn y Pardo
41
PRUEBAS NO PARAMTRICAS PARA 2 MUESTRAS
INDEPENDIENTES
Prueba de Mann-Whitney
Ejemplos 9.3, pp 429, Pardo y San Martn; San Martn y Pardo pp. 128 y
132, Cuadras, 680, Siegel, 151.
Prueba de Chi-Cuadrado
42
2 = i j ((feij-ftij)2 / ftij)
Para poder aplicar este estadstico las ft < 5 no deben de aparecer en ms del
20% de las celdillas de la tabla de contingencia (en caso de que esto ocurriera lo
mejor sera aplicar otra prueba como la de Kolmogorov).
El programa SPSS nos permite el clculo de dicho estadsitico as: Analizar >
Estadsticos descriptivos > Tablas de contingencia. En Estadsticos
seleccionaremos Chi-cuadrado. Si la sig del chi-cuadrado .05 querr decir que
hay diferencias entre ambas muestras, si sig es >.05 querr decir que no hay
diferencias. Hay que comprobar (en la nota a que aparace bajo la tabla de chi-
cuadrado) que no ms del 20% de las casillas tengan ft < 5. Por defecto el SPSS
asigna valores esperados iguales para todas las categoras, pero podemos
modificarlos asignando porcentajes distintos a cada categora (p.e. si
quisiramos asignar un 70% a la categoria 1 y un 30% a la 2 pondramos en
aadir valores 70 y 30, respectivamente)
Ejs 12.7 P&SM pp554; fichero GSS93: Se reparte por igual el sexo? Y las
preferencias religiosas?
Prueba de Kolmogorov
Se puede utilizar en los mismos casos que ji-cuadrado sin estar pendientes de
que no ms del 20% de las casillas tengan ft < 5.
43
PRUEBAS NO PARAMETRICAS PARA 2 CONDICIONES
RELACIONADAS
Prueba de Wilcoxon
Ejemplos 9.4, pp 432, Pardo y San Martn; San Martn y Pardo pp. 116,
Cuadras, 693, Siegel, 101 y 104.
Prueba de McNemar
44
PRUEBAS PARA MAS DE 2 MUESTRAS INDEPENDIENTES.
Prueba de Kruskall-Wallis.
Ejemplos 9.5, pp 436, Pardo y San Martn; San Martn y Pardo pp. 229 y
234, Siegel, 217, 220.
Prueba de Ji-Cuadrado
45
PRUEBAS NO PARAMETRICAS PARA MAS DE 2 CONDICIONES
RELACIONADAS.
Prueba de Friedman
Ejemplos 9.7, pp 445, o 9.16, pp 452, Pardo y San Martn. San Martn y
Pardo pp. 251, Siegel, 119.
Prueba de Cochran
46
TEMA 6. CONTRASTES EN ASOCIACION Y
PREDICCION
Para poder aplicar este estadstico las fe < 5 no deben de aparecer en ms del
20% de las celdillas de la tabla de contingencia.
El programa SPSS nos permite el clculo de dicho estadsitico as: Analizar >
Estadsticos descriptivos > Tablas de contingencia. En Estadsticos
seleccionaremos Chi-cuadrado y la Phi y V de Cramer para calcular el grado de
relacin entre las dos variables en una escala de 0 a 1. Si la sig de la Phi o de la
47
V de Cramer .05 querr decir que los datos no son independientes, es decir
que estn relacionadas, mientras que si sig > .05 es que son independientes, es
decir que no hay relacin entre ambas variables categoriales. Hay que
comprobar (en la nota a que aparace bajo la tabla de chi-cuadrado) que no ms
del 20% de las casillas tengan fe < 5
Un modelo de regresin lineal es una ecuacin de primer orden que asocia una
variable dependiente (tambin llamada criterio), cuantitativa o semicuantitativa,
a una o varias (k) variables independientes (tambin llamados predictores),
cuantitativas, semicuantitativas, o cualitativas dicotmicas de acuerdo a una
funcin lineal del tipo:
Dado que cada VI viene medida en una escala distinta las b no son directamente
comparables entre s. Para ello el SPPS calcula tambin las betas de los
modelos de regresin (o coeficientes tipificados o estandarizados, es decir,
previa tipificacin de las VIs) y que nos sirven adems para analizar si la
aportacin de cada VI es significativa o no para nuestro modelo de regresin (si
la sig asociada a una beta es .05 entonces es significativa, si es sig > .05 no lo
es).
Estimar un modelo de regresin lineal nos permite pues analizar tres objetivos
principales: 1) analizar si el modelo en su conjunto (es decir con todas las VIs
seleccionadas) es predictivo o no, viendo la R2 (que nos dice el porcentaje de
varianza de la VD que explican las VIs) y la sig del ANOVA (si sig .05
entonces el modelo es predictivo); 2) analizar el papel relativo que cada VI
juega en el modelo (viendo las betas y su significacin: si la sig de una beta
.05 entonces dicha VI debe de ser incluida en el modelo, en caso contrario
puede ser eliminada); 3) una vez comprobado que el modelo es predictivo,
utilizarlo para pronosticar las puntuaciones en la VD de nuevos sujetos de los
que disponemos sus puntuaciones en las VIs, sustituyendo sus valores en la
48
ecuacin de regresin.
ANOVAb
Suma de Media
Modelo cuadrados gl cuadrtica F Sig.
1 Regresin 4451,974 5 890,395 39,392 ,000a
Residual 16703,911 739 22,603
Total 21155,885 744
Coeficientesa
Coeficientes
Coeficientes no estandarizados tipificados
Modelo B Error tp. Beta t Sig.
1 (Constante) ,655 1,191 ,550 ,582
Aos de escolarizacin ,643 ,068 ,344 9,395 ,000
Ttulo escolar del padre ,044 ,178 ,010 ,249 ,804
Ttulo escolar de la madre ,043 ,229 ,008 ,190 ,850
Edad del encuestado ,097 ,015 ,225 6,564 ,000
Horas diarias viendo TV -,433 ,095 -,154 -4,554 ,000
49
Nos indicaran que el ajuste global del modelo es significativo (sig=.0001), que
dicho modelo explica el 21% de la varianza de la VD (a su vez R=.459 es la
correlacin r entre Y e Y', es decir, entre los valores reales en Y y los
pronosticados por el modelo de regresin, respectivamente), y que las variables
ttulo escolar del padre y de la madre no aportan nada al mismo, por lo que
podramos eliminarlas. La beta de aos de escolarizacin indica que por cada
ao de escolarizacin los ingresos aumentan en 0.344 unidades; la beta de edad
indica que cada ao aumenta los ingresos e .225 unidades y la beta de horas
viendo TV indica que por cada hora de promedio diaria que se ve la TV los
ingresos disminuyen en .154 unidades.
Este mismo procedimiento de anlisis es aplicable a otros modelos de regresin
no lineal.
a2) los residuos (Yi-Yi') han de ser independientes unos de otros, es decir
50
darnos valores comprendidos entre 1.5 y 2.5 para que se cumpla dicho
supuesto. En nuestro ejemplo dicho estadstico vale 1.887 luego hay
independiencia en los residuos.
a4) No debe de haber colinealidad entre las distintas VI, es decir, no deben
de estar muy correlacionadas entre s. En el SPSS este supuesto lo
podemos comprobar mediante Analizar > Regresin Lineales >
Estadsticos > Diagnsticos de la colinealidad. En la tabla de Resultados
etiquetada como "Diagnsticos de colinealidad" ningn "ndice de
condicin" debera superar el valor 15 para que se cumpla de forma ptima
el supuesto de no colinealidad (de 15 a 30 puntos indica colinealidad
creciente, pero en ningn caso podremos aceptar un modelo con ndices de
condicin superiores a 30 puntos). Adems en "proporciones de varianza"
debera de haber slo una correlacin alta por columna, siendo el resto
bajas. Si se incumple este supuesto podramos: 1) aumentar el tamao de la
muestra; 2) eliminar las VI redundantes o 3) promediar dichas VIs. En
51
nuestro ejemplo, slo el ndice de condicin igual a 18.29 parece indicar
cierta colinealidad entre las variables (aunque est alejado del valor crtico
30), pero las proporciones de varianza parecen correctas, por lo que en
general podemos decir que no hay colinealidad en nuestros datos:
Para comprender mejor el papel que juega la colinealidad entre las VIs es til
pedirle tambin al SPPS en la opcin Estadsticos que calcule las correlaciones
parciales y semiparciales. En nuestro ejemplo:
Coeficientesa
Correlaciones
Modelo Orden cero Parcial Semiparcial
1 (Constante)
Aos de escolarizacin ,368 ,327 ,307
Ttulo escolar del padre ,087 ,009 ,008
Ttulo escolar de la madre ,096 ,007 ,006
Edad del encuestado ,194 ,235 ,215
Horas diarias viendo TV -,252 -,165 -,149
52
en la transcripcin, un sujeto anmalo o muy excepcional, etc. Es muy
importante antes de calcular el modelo de regresin identificar y decidir qu
hacer con dichos datos anmalos (eliminarlos, retenerlos,...).
d.3. Por ltimo hay que decir que a igualdad de condiciones es preferible
un modelo con pocas variables predictoras que con muchas (Stevens, pp
99).
53
TEMA 7. INTRODUCCION A LA ESTADISTICA
MULTIVARIADA.
54
TCNICAS DE AGRUPACIN DE DATOS: EL ANALISIS
FACTORIAL (AF) O DE COMPONENTES PRINCIPALES (ACP)
V L I A F Q
________________________________________________
V 1 .72 .63 .09 .09 .00
L 1 .57 .15 .16 .09
I 1 .14 .15 .09
A 1 .57 .63
F 1 .72
Q 1
_________________________________________________
55
Se puede apreciar como si tales 6 variables en realidad midiesen slo dos cosas
tal y como muestran los dos grupos de correlaciones significativas. El resultado
de aplicar un AF (de componentes principales) sobre tal matriz es la siguiente
matriz factorial o de componentes (en SPSS > Analizar > Reduccin de
dimensiones > Factor):
2
Pruebas F1 F2 h
__________________________
V .83 .01 .70
L .79 .10 .63
I .70 .10 .50
A .10 .70 .50
F .10 .79 .63
Q .01 .83 .70
__________________________
1.8231 1.8231
% var 30.385 30.385
__________________________
en negrita p<.01
Dicha tabla nos muestra cmo las 6 pruebas en realidad estn midiendo dos
factores o componentes (F1 y F2). Los nmeros que aparecen en las columas F1
y F2 reciben el nombre de saturaciones o cargas factoriales y representan la
correlacin existente entre cada variable Xi con cada componente o factor Fn
(desde ahora ain).
i = a21i + ...+a2ni
56
de varianza de R expresada por Fi .
57
F1
F1
1
V
.80 V
L
L
I
I
.60
.40
.20
A F
Q F2 A F
Q
0
.20 .40 .60 .80 1
F2
ROTADA NO ROTADA
2
Pruebas F1 F2 h F1 F2
________________________________________
V .83 .01 .70 .60 -.58
L .79 .10 .63 .63 -.49
I .70 .10 .50 .56 -.43
A .10 .70 .50 .56 .43
F .10 .79 .63 .63 .49
Q .01 .83 .70 .60 .58
_________________________________________
58
En las rotaciones oblicuas (menos utilizadas) se permite que los factores dejen
de ser ortogonales, es decir que sean correlacionados. Los factores oblicuos son
entonces variables correlacionadas entre s.
1) Cada fila de la matriz factorial debe de tener al menos una carga cercana
a 0.
2) En cada columna debe de haber, por lo menos, tantas cargas cercanas a
0 como factores haya.
3) Entre cada par de columnas debe de haber cargas altas en un factor y
bajas en el otro (o a la inversa).
4) Ante 4 o ms factores es interesante que una gran proporcin de
variables tengan cargas cercanas a 0 ante cada par de factores
5) En cualquier par de columnas de la matriz factorial debe de haber un
nmero pequeo de variables con cargas altas en ambas.
Estos criterios buscan encontrar variables 'puras', es decir, que saturen mucho en
algunos factores y muy poco en otros en aras de facilitar la interpretacin de los
resultados.
AF de segundo orden.
AF exploratorio y AF confirmatorio.
59
otras veces el anlisis se realiza con un conocimiento previo del nmero y/o
estructura de los factores denominndose AF confirmatorio, pues pone a prueba
si la hiptesis formulada a priori es cierta o no. Dicha hiptesis se plantea bien
sobre el nmero de factores, su naturaleza (oblicuos, ortogonales, mixtos) o
sobre las saturaciones de la matriz factorial. Un test chi2 permite confirmar la
estructura formulada.
60
TCNICAS DE CLASIFICACIN DE DATOS: EL ANALISIS
DISCRIMINANTE (AD)
. . . . .
6 3 34, 45, ... 12
. . . . ... .
N k 56, 87,... 32
(a) Dar con las funciones discriminantes que mejor discriminen a los k grupos
en las p variables predictoras. (b) Valernos de ellas para predecir la asignacin
61
de los nuevos sujetos a los distintos grupos.
Resultados de la prueba
M de Box 15,930
F Aprox. ,743
gl1 21
gl2 132650,922
Sig. ,792
Lambda de Wilks
Contraste de las Lambda de
funciones Wilks Chi-cuadrado gl Sig.
1 ,944 36,116 6 ,000
62
pronstico de nuevos casos.
63
Estos son los coeficientes discriminantes brutos (sin tipificar). Es decir si
quisiramos pronosticar el comportamiento de un nuevo sujeto en la VD
entonces sustituiramos sus puntuaciones en los predictores de la siguiente
ecuacin y as sabramos si estara a favor (1) o en contra (2) de tener armas en
casa (le asignaramos a 1 o 2 en funcin del valor pronosticado ms prximo a
uno u otro):
Resultados de la clasificacina
Grupo de pertenencia
Oposicin a los pronosticado
permisos de armas A Favor En Contra Total
Original Recuento A Favor 811 0 811
En Contra 173 0 173
Casos desagrupados 516 0 516
% A Favor 100,0 ,0 100,0
En Contra 100,0 ,0 100,0
Casos desagrupados 100,0 ,0 100,0
a. Clasificados correctamente el 82,4% de los casos agrupados originales.
Esta tabla nos indica que el modelo clasifica correctamente el 82.4% de los
datos originales.
64
TCNICAS MULTIVARIADAS DE CONTRASTE DE HIPTESIS:
EL MANOVA
65
Contrastes multivariadosc
Gl de la
Efecto Valor F hiptesis Gl del error Sig.
vi Traza de Pillai 1,192 5,907 6,000 24,000 ,001
a
Lambda de Wilks ,007 41,648 6,000 22,000 ,000
Traza de 121,334 202,223 6,000 20,000 ,000
Hotelling
Raz mayor de 121,083 484,332b 3,000 12,000 ,000
Roy
66
Pruebas post hoc
vd1
a,b,c
Scheffe
Subconjunto
vi N 1 2
1 5 24,8000
2 5 44,2000
3 5 46,8000
Sig. 1,000 ,892
vd2
Scheffea,b,c
Subconjunto
vi N 1 2 3
1 5 2,8000
2 5 6,4000
3 5 7,8000
Sig. 1,000 1,000 1,000
67
TABLAS ESTADISTICAS
68
69
70
71
72
73