Está en la página 1de 20

FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II 1

FORMULAS DE UTILIDAD (Segunda parte)

1. Contrastes acerca de la Diferencia de Medias

1.1 Contexto General


Tenemos dos variables Y1 e Y2 , (medidas en escala de intervalo, por lo menos), cuyo comportamiento
probabilístico es caracterizado apropiadamente por las medidas de centralidad µ1 y µ 2 . Se quiere contrastar o
someter a prueba la hipótesis H 0 : µ1 = µ 2 contra una H 1 que puede ser uni o bilateral.

Supondremos que el Nivel de Significación α es predeterminado y que de las poblaciones tomaremos muestras de
tamaños conocidos n1 y n2 , respectivamente asumiendo normalidad de datos, i.e. Yi ~ N ( µi , σ i2 ) i = 1,2 , para
simplificar el análisis.

1.2 Caso de Muestras Relacionadas (Antes-Después)


Este caso se presenta cuando por cuestiones de control, es necesario trabajar con los mismos sujetos en ambas
muestras (por ejemplo, en estudios con Test-Retest, o Antes-Después) o con sujetos "emparejados" (como en el
caso de estudios con Gemelos). Cada sujeto proporciona dos valores: uno para Y1 ("Antes" o "Test") y otro para
Y2 ("Después" o "Retest").
n1 = n2 = n , donde n es el número de casos válidos en el estudio y la hipótesis nula H0 es la de no diferencia
entre el "antes" y el "después", esto es H 0 : µ1 = µ 2
D
El estadístico de contraste para H0 es t = , donde D = Y1 − Y2 es la diferencia "antes"-"después",
SD
n
D =Y1 −Y 2 es la media de esta diferencia y S D es su correspondiente desviación estándar. S D puede ser
calculada directamente a partir de las n diferencias D = Y1 − Y2 o con S D2 = S12 + S 22 − 2rY1Y2 S1 S 2

• En realidad esta prueba es una adaptación de la prueba sobre la media de una población, pues si
D = (Y1 − Y2 ) , entonces ya sabemos que µ D = ( µ1 − µ 2 ) y por tanto H 0 : µ1 = µ 2 equivale a H 0 : µ D = 0 .
D
• Si H 0 es verdadera, el estadístico t = tiene distribución t-Student con k=(n-1) grados de libertad.
SD
n
• La ventaja de esta prueba es que elimina otras fuentes de diferencias entre casos, ajenas al Factor bajo estudio.
La región crítica o zona de rechazo de H 0 , depende de cómo sea H 1

Hipótesis Nula Hipótesis Alterna Rechazar H 0 si Tipo de contraste


H 1 : µ1 > µ 2 t > t1−α Unilateral derecho
H 0 : µ1 = µ 2 H 1 : µ1 < µ 2 t < −t1−α Unilateral izquierdo
H 1 : µ1 ≠ µ 2 | t |> t1−α / 2 Bilateral
t1−α y t1−α / 2 percentiles 1 − α y 1 − α / 2 de la tabla t(k=n-1)

1.3 Caso de Muestras Independientes


El análisis depende de si σ 12 = σ 22 o si σ 12 ≠ σ 22 . Se hace un contraste previo

Contraste Manual de Homogeneidad de Varianzas H 0 : σ 12 = σ 22 vs H 1 : σ 12 ≠ σ 22


S12
• Estadístico de contraste F = 2
, donde S i2 es la varianza de la muestra tomada de la población
S2
N ( µi , σ i2 ) i = 1,2

FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II


FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II 2
2
S
H 0 : σ 12 = σ 22 verdadera ⇒ F = ~ F ( n1 − 1, n 2 − 1)
1
2
S 2

Hipótesis Nula Hipótesis Alterna Rechazar H 0 si Tipo de contraste

H 0 : σ 12 = σ 22 H 1 : σ 12 ≠ σ 22 F > F1−α / 2 o F < Fα / 2 Bilateral

F1−α / 2 y Fα / 2 percentiles de la tabla F (n1 − 1, n2 − 1) en donde


Fα / 2 ( n1 − 1, n 2 − 1) = 1 / F1−α / 2 ( n2 − 1, n1 − 1)

Contraste de homogeneidad con SPSS


• Primero SPSS hace el Contraste de Levene para que decidamos si las varianzas poblacionales son iguales o no.
No es una hipótesis de investigación, pero se necesita para determinar luego la metodología para el contraste
de medias.
• La hipótesis a contrastar es H0:σ12=σ22 vs H0:σ12≠σ22 que figura debajo del encabezamiento Levene's Test
for Equality of Variantes. Se nos muestra el estadístico F de esta prueba y su significación. La regla es
rechazar H0:σσ12=σ22 si esta significación es menor que el nivel α con que deseamos trabajar.

1.3.1 Caso de Varianzas Homogéneas ( σ 12 = σ 12 = σ 2 )

La hipótesis nula es H 0 : µ1 = µ 2 y si podemos asumir σ 12 = σ 12 = σ 2


(Y 1 − Y 2 ) (n1 − 1) S12 + (n 2 − 1) S 22
• El estadístico de contraste es t = donde S =2
.
(n1 + n 2 − 2)
p
S 2p S p2
+
n1 n2
Si H 0 : µ1 = µ 2 es verdadera, t tiene distribución t-Student con k =(n1+n2-2) grados de libertad.

• En el contexto anterior, la regla de decisión depende de H 1

Hipótesis Nula Hipótesis Alterna Rechazar H 0 si Tipo de contraste


H 1 : µ1 > µ 2 t > t1−α Unilateral derecho
H 0 : µ1 = µ 2 H 1 : µ1 < µ 2 t < −t1−α Unilateral izquierdo
H 1 : µ1 ≠ µ 2 | t |> t1−α / 2 Bilateral
t1−α y t1−α / 2 percentiles 1 − α y 1 − α / 2 de la tabla t ( k = n1 + n2 − 2)

Solución con SPSS:


• Dependiendo del resultado del contraste previo sobre varianzas, debemos usar la línea Equal variances
assumed (si σ12=σ22) o Equal variances not assumed (si σ12≠σ22).
• SPSS presenta el valor del estadístico t-Student, los grados de libertad correspondientes y la Significación a
dos colas o bilateral

1.3.2 Caso de Varianzas Heterogéneas ( σ 12 ≠ σ 22 )


La hipótesis nula es H 0 : µ1 = µ 2 y sabemos que σ 12 ≠ σ 22

• Para este caso no existe una solución o Test óptimo exacto. Hay varias propuestas pero programas
computacionales como SPSS suelen usar una metodología (Test de Welch) donde se ponderan los grados de
libertad de las varianzas muestrales

FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II


FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II 3
2 2
• Como las varianzas poblacionales son diferentes, no podemos combinar las varianzas muestrales S1 y S en 2
una varianza ponderada y debemos mantenerlas separadas por lo que el estadístico de contrastes es de la forma
(Y 1 − Y 2 )
t=
S12 S 22
+
n1 n2
• El problema es que la distribución de este estadístico t no es exactamente la t de Student y hay dos valores para
los grados de libertad: ( n1 − 1) y ( n2 − 1) , de modo que se necesita una solución de compromiso

En la metodología de Welch que usa SPSS, se calcula un promedio ponderado k de los grados de
libertad ( n1 − 1) y ( n2 − 1) , usando la fórmula
2
 S12 S 22 
 + 
 n1 n 2 
k= 2 2
 S12   S 22 
   
 n1  +  n2 
n1 − 1 n2 − 1

Con este valor de k (redondeado) se va a la tabla t-Student de acuerdo al nivel de significación α y el tipo de
hipótesis alterna H 1 uni o bilateral

Hipótesis Nula Hipótesis Alterna Rechazar H 0 si Tipo de contraste


H 1 : µ1 > µ 2 t > t1−α Unilateral derecho
H 0 : µ1 = µ 2 H 1 : µ1 < µ 2 t < −t1−α Unilateral izquierdo
H 1 : µ1 ≠ µ 2 | t |> t1−α / 2 Bilateral
t1−α y t1−α / 2 percentiles 1 − α y 1 − α / 2 de la tabla t (k ) con k grados de libertad

Solución con SPSS:


• En SPSS el análisis es similar al anterior pero usando la t de la línea de correspondiente al caso donde no
podemos asumir varianzas iguales.
• SPSS presenta el valor del estadístico t-Student, los grados de libertad ponderados correspondientes y la
Significación a dos colas. Si deseamos usar una tabla t-student, debemos comparar el t obtenido con el valor
tabular con grados de libertad más cercanos a los mostrados por SPSS. Pero como se nos da la significación,
basta con este dato

1.3.4 Criterio de Cohen para medir el Tamaño del Efecto.


( µ1 − µ 2 )
El índice d de Cohen es d = y se llama "Tamaño del Efecto".
σ
Si 0.2 ≤ d < 0.5 el efecto es "pequeño" (diferencia pequeña)
Si 0.5 ≤ d < 0.8 el efecto es "mediano" (diferencia mediana)
Si 0.8 ≤ d el efecto es "grande" (diferencia grande)
En el caso que resulte d < 0.2, el efecto puede ser considerado irrelevante, dependiendo mucho del contexto de la
investigación.

Observaciones:
• Los test anteriores se pueden aplicar al caso más general H0:µ1-µ2=d0, donde d0 es un valor predeterminado.
Sólo cambia el numerador del estadístico t que es ahora igual a [ (Y 1 − Y 2 ) − d 0 ]
• Es recomendable tener tamaños de muestra iguales. Esta precaución es importante sobre todo en el caso de
heterogeneidad de varianzas.

FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II


FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II 4
• Hemos asumido normalidad de datos. Pero se ha probado que las pruebas t-Student pueden aplicarse incluso si
no hay normalidad; basta con que las distribuciones de las respuestas sean simétricas. En este caso, es de suma
importancia que n1 = n2.

2. Contrastes acerca de la Diferencia de Proporciones

2.1 Contexto General


Tenemos una característica cualitativa A que se presenta en una Población 1 en proporción P1 y en otra Población
2 en proporción P2. Deseamos contrastar la hipótesis H0:P1=P2 a partir de respectivas muestras de tamaños n1 y n2,
apropiadamente grandes y a un nivel de significación α predeterminado.

2.2 Caso de Muestras Independientes


Este caso se presenta cuando tenemos dos poblaciones diferentes e independientes y queremos ver si son
equivalentes (u homogéneas) en relación a una característica cualitativa A. Para ello tomamos muestras grandes e
independientes una de la otra, de las respectivas poblaciones. La hipótesis de equivalencia equivale a H 0 : P1 = P2
( p1 − p 2 ) n1 p 1 + n 2 p 2
El estadístico de contraste es Z = donde p = y q = 1 − p , siendo p j la proporción
pq pq n1 + n 2
+
n1 n2
de sujetos que tienen la característica cualitativa A en la muestra de la Población j.

Hipótesis Nula Hipótesis Alterna Rechazar H 0 si Tipo de contraste


H 1 : P1 > P2 Z > Z1−α Unilateral derecho
H 0 : P1 = P2 H 1 : P1 < P2 Z < − Z 1−α Unilateral izquierdo
H 1 : P1 ≠ P2 | Z |> Z1−α / 2 Bilateral
Z1−α y Z1−α / 2 percentiles 1 − α y 1 − α / 2 de la tabla N ( 0,1)
Este test se usa con tamaños de muestra de 20 casos como mínimo, por población.

El contraste puede modificarse para cubrir la hipótesis general H 0 : P1 − P2 = D0 , donde D0 es una cantidad
( p 1 − p 2 ) − D0
predeterminada. El estadístico Z cambia a Z = donde en el denominador ya no se incluye una
p1 q 1 p2 q2
+
n1 n2
proporción promedio, pues ésta no tiene sentido en este caso.

Solución con SPSS:


SPSS le muestra una tabla de frecuencias de casos con A y sin A dentro de cada grupos y añade los porcentajes
por grupo.
Lo que hace SPSS es elevar al cuadrado el estadístico Z de contraste, con lo que lo convierte en un χ 2 con
k = 1 grado de libertad o df como lo llama SPSS. Esto figura en el cuadro Chi Square tests, donde SPSS
muestra la significación (a dos colas) en la línea que llama Pearson Chi-Square y bajo el encabezamiento
Asymp. Sig. (2-sided) o Exact Sig. si se ha pedido. La significación exacta es más precisa pero no siempre se
puede calcular. El resto del output no interesa para este test.

2.3 Caso de Muestras Relacionadas (Prueba de McNemar)


En este caso, tenemos n sujetos, en los cuales se observa si tienen una característica cualitativa A , Antes y
Después de una intervención.

• La hipótesis de no cambio o no efecto de la intervención es H 0 : P1 = P2 y deseamos contrastarla con los


datos.
• Para contrastar H 0 : P1 = P2 se distribuyen los n casos en una tabla de frecuencias de doble entrada de la
forma:

FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II


FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II 5

Antes
Después Sin A Con A Total
Con A a b (a+b)
Sin A c d (c+d)
Total (a+c) (b+d) n

(d − a)
• Se calcula el estadístico de contraste Z = y la Regla de Decisión depende de la forma de H 1 , según:
(d + a)
Hipótesis Nula Hipótesis Alterna Rechazar H 0 si Tipo de contraste
H 1 : P1 > P2 Z > Z1−α Unilateral derecho
H 0 : P1 = P2 H 1 : P1 < P2 Z < − Z 1−α Unilateral izquierdo
H 1 : P1 ≠ P2 | Z |> Z1−α / 2 Bilateral
Z1−α y Z1−α / 2 percentiles 1 − α y 1 − α / 2 de la tabla N ( 0,1)
Este test se usa si (a+d) > 10, en caso contrario no es fiable y hay que aplicar otra prueba, llamada Prueba
Exacta de Fisher.

Esta prueba también permite comparar proporciones de dos características cualitativas diferentes pero medidas
en los mismos sujetos.

Solución con SPSS:


SPSS le muestra una tabla de frecuencias simples y luego un cuadro llamado Chi Square tests donde figura la
significación (a dos colas) del test de McNemar y como en el caso de muestras independientes, eleva el estadístico
de contraste Z al cuadrado y muestra la significación asintótica y si se pide y la memoria lo permite, la
significación exacta.

2.4 Tamaño del Efecto en el caso de Proporciones


Cohen sugiere usar un índice que involucra la función trigonométrica "arco seno". El índice propuesto por Cohen,
denotado h, es h=|2arcsen( P1 )-2arcsen( P2 ) y para medir el Tamaño del Efecto se aplica a h el mismo
criterio usado en el caso de diferencia de medias, esto es:

Si 0.2 ≤ h < 0.5 el efecto es "pequeño"


Si 0.5 ≤ h < 0.8 el efecto es "mediano"
Si 0.8 ≤ h el efecto es "grande"
En el caso que resulte h < 0.2, el efecto puede ser considerado irrelevante, dependiendo mucho del contexto
de la investigación.

Recordemos finalmente, la definición de la función "arcoseno": Arcsen(x)=El ángulo (medido en radianes) cuyo
seno vale x, i.e. α=Arcsen(x)⇔Sen(x)= α.

3. Prueba χ 2 de Igualdad de k Proporciones

Contraste General de H 0 : P1 = P2 = ... = Pk vs H 1 : ∃Pi ≠ Pj


(O − E ) 2
El estadístico de contraste es χ 2 = ∑ E ,que mide la discrepancia entre H 0 y los datos observados.
(O − E ) 2
Se rechazará H 0 : P1 = P2 = ... = Pk si χ 2 = ∑ E
> χ12−α donde χ12−α es el percentil 1−α de la Tabla

χ 2 con (k-1)grados de libertad. Si se rechaza H 0 , luego se aplica contrastes por pares para identificar las

FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II


FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II 6
poblaciones diferentes. En este caso hay que tener cuidado de la “capitalización del azar”: haciendo muchos
contrastes aumenta la probabilidad de cometer al menos un error entre estos contrastes.

Con SPSS la metodología es exactamente igual a la aplicada en la comparación de dos proporciones para muestras
independientes.

• Esta prueba asume muestras grandes pues se apoya en la aproximación de la distribución de p usando la
distribución normal. Una regla es que no debe aplicarse el contraste χ 2 si más del 20% de las celdas o casillas
tienen una frecuencia esperada Eij menor que 5. En el caso de k = 2 poblaciones, no se debe usar si n.. < 20
o si siendo n.. < 40 , alguna Eij es menor que 5.
• SPSS calcula el % de celdas con frecuencia esperada pequeña (Eij<5) y nos los proporciona, como precaución
por si este porcentaje pasa del 20% del total de celdas. En este caso hay que usar la significación exacta.

4. Analisis de Varianza para una Clasificacion Simple (One Way Anova)

Tenemos k poblaciones debidamente representadas por sus medias µ1 , µ 2 ,..., µ k y deseamos contrastar la
hipótesis de nulidad o de no diferencias H 0 : µ1 = µ 2 =,..., = µ k a partir de los datos de k muestras aleatorias
independientes y de tamaños n1 , n 2 ,..., n k respectivamente.
Plan de análisis
Primero se evalúa una Hipótesis global H0 de no diferencias, mediante un “Test Ómnibus”. Si no se rechaza H0,
ahí termina todo.
Segundo, si en el paso anterior se llega a rechazar H0, hay que ubicar cuáles poblaciones son diferentes mediante
contrastes específicos.
Modelo Lineal del Análisis de Varianza
Si Y ij representa el valor de la variable respuesta Y en el elemento # j de la muestra aleatoria de la Población #i,
podemos escribir Yij = µi + ε ij para i = 1,2,..., k ; j = 1,2,..., n (o ni en el caso llamado “no balanceado”, donde
las muestras son de tamaño desigual).
Aquí µi denota la media de la población #i y ε ij representa la variabilidad natural dentro de cada población, que
es variabilidad debida al azar y/o a otros factores no considerados o controlados en el modelo.

Supuestos del modelo lineal


Asumimos que:
Los ε ij son independientes y con distribución normal
Los ε ij tienen media cero E (ε ij ) = 0
Los ε ij tienen varianza común V (ε ij ) = σ 2

4.1 Contraste Global de H 0 : µ1 = µ 2 = ... = µ k


Corresponde a una primera etapa, en donde se trata de ver si alguna población difiere de las otras, en la variable
respuesta Y . Dados los datos

Población Datos Total ni Media Varianza


1 Y11 Y12 ... Y 1 j ... Y 1 n 1 Y1. n1 Y1 S12
2 Y21 Y 22 ... Y 2 j ... Y2n 2 Y2. n2 Y2 S 22
: : : : : :
i Yi1 Y i 2 ... Y ij ... Yin1 Yi. ni Yi S i2
: : : : : :
k Yk1 Yk 2 ... Y kj ... Yknk Yk . nk Yk S k2
Total Y.. N Y .. S2

FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II


FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II 7

Donde:
ni
Yi . = ∑ Yij = Suma de valores en la muestra #i, Yi = Media de la muestra #i
j =1
k ni
S i2 = Varianza de la muestra #i, Y.. = ∑∑ Yij = Suma de valores en todas las muestras ,
i =1 j =1
k
N = ∑ ni = Tamaño global de muestra, Y.. = Media global y S 2 = Varianza global. En este contexto:
i =1

La variabilidad total en la muestra es medida por ∑ (Y ij − Y.. ) 2 y se puede demostrar que

∑ (Y ij − Y.. ) 2 = ∑ (Yi − Y.. ) 2 + ∑ (Yij − Yi ) 2

La cantidad ∑ (Y i − Y.. ) 2 se conoce como la Variabilidad entre sujetos o Entre muestras (Between groups

en SPSS) o también como la Suma de Cuadrados entre de muestras. Mide las diferencias entre sujetos que
se deben a que provienen de poblaciones distintas o de tratamientos/niveles distintos en el factor bajo
estudio. Se denotará SCTR

La cantidad ∑ (Y ij − Yi ) 2 se conoce como la Variabilidad intra sujetos o Dentro de muestras (Within groups

en SPSS) o también Suma de Cuadrados dentro de muestras. Mide las diferencias entre casos dentro de
cada muestra o sea es la variabilidad debida al azar y no al factor bajo estudio. Se denotará SCE.

Si H 0 : µ1 = µ 2 = ... = µ k es cierta, las diferencias entre medias Yi se deben sólo al azar y ambas sumas de
cuadrados medirían lo mismo: el efecto del azar.

La varianza por tratamiento o Cuadrado medio entre tratamientos (Between groups) denotada CMTR se define
como CMTR = SCTR /( k − 1)
La varianza del azar o Cuadrado Medio Dentro de Muestras o Residual (Within Groups) denotada CME se
define como CME = SCE /( N − k ) y en verdad es un promedio ponderado de las varianza muestrales S i2 pues
k

∑ (n i − 1) S i2
SCE
CME = i =1
=
k
N −k
∑ (ni =1
i − 1)

Si H 0 : µ1 = µ 2 = ... = µ k es cierta, las diferencias entre medias Yi se deben sólo al azar y ambos cuadrados
medios medirían lo mismo: la varianza del azar σ 2
Y debieran ser iguales.

Por lo anterior, un estadístico apropiado para contrastar H 0 : µ1 = µ 2 = ... = µ k es la variable F de Fisher, dada
por F = CMTR / CME : Para ver si se rechaza H 0 o no, se compara F con el percentil F1−α de la distribución F
de Fisher con ( k − 1) y ( N − k ) grados de libertad:
Si F > F1−α se rechaza H 0 : µ1 = µ 2 = ... = µ k y se admite que al menos dos medias poblacionales son diferentes.

Los pasos anteriores se presentan en una Tabla de Análisis de Varianza de la forma:

FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II


FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II 8
Análisis de Varianza de un Factor (One Way ANOVA)
Suma de Grados de Sig.
Variabilidad Media cuadrática F de Fisher (o F1−α )
Cuadrados libertad
Del Factor o
SCTR k −1 CMTR = SCTR /( k − 1) F = CMTR / CME
Entre Grupos
Del Error o
Dentro de SCE N −k CME = SCE /( N − k )
Grupos
Total SCT N −1

4.2 Contrastes Específicos.

• Comparaciones Planeadas o Ad Hoc.


En este caso, antes de tomar las muestras había hipótesis específicas que indicaban las poblaciones que eran
diferentes, esto es, no había intención de comparar todos los pares posibles, sino algunos casos específicos. Esto se
puede hacer con la Prueba t-Student modificada.

Para comparar las Poblaciones #s y #m ( H 0 : µ s = µ m ):


Y s −Y m
Se calcula t = que se compara con un valor tabular de la distribución t de Student, según sea H1
CME CME
+
ns nm

Hipótesis Hipótesis Rechazar H 0


Tipo de contraste
Nula Alterna si
H1 : µs > µm t > t1−α Unilateral derecho
H1 : µ s < µm t < − t1−α Unilateral
H 0 : µs = µm
izquierdo
H1 : µ s ≠ µm t > t1−α / 2 Bilateral
t1−α y t1−α / 2 percentiles 1 − α y 1 − α / 2 de la tabla t ( N − k )
Aquí t1−α ó t1−α / 2 son los respectivos percentiles 1 − α ó 1 − α / 2 de la tabla t-Student con (N-k) grados de
libertad (o sea con los grados de libertad del CME).

• Comparaciones No Planeadas o Post Hoc.


En este caso, antes de tomar las muestras no se tenía hipótesis sobre cuáles poblaciones diferían, y se deben com-
parar todos los pares posibles, porque previamente no había idea de dónde se encontraría la diferencia de resultar
significativa la Prueba F del Análisis de Varianza. Para situaciones como esta, hay varias alternativas, pero la más
conservadora y estricta es la Prueba de Scheffe que consiste en:
(Y s − Y m ) 2 nn
a) Para cada par H 0 : µ s = µ m , formar el estadístico Fsm = × s m
CME n s + nm
b) Si Fsm > ( k − 1) F1−α ( k − 1, N − k ) , se rechaza H 0 : µ s = µ m

Solución con SPSS


SPSS trata esta metodología dentro del procedimiento Compare Means, en el comando One-Way ANOVA.
Básicamente hay que indicar la variable dependiente Y, que SPSS ubica en el cuadro Dependent List, y el Factor.

El output básico es:

Primero SPSS nos muestra los estadísticos de Y según muestras


Luego se presenta el Cuadro de ANOVA, donde se muestran las sumas de cuadrados (que SPSS llama Sum of
Squares): La Suma de Cuadrados de Tratamientos SCTR es llamada Between Groups Sum of Squares en
SPSS, y la Suma de Cuadrados del Error SCE es llamada Within Groups Sum of Squares en SPSS. Los
Cuadrados medios son denominados Mean Square. SPSS muestra el estadístico F y la significación que

FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II


FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II 9
denomina Sig.que es la base para rechazar o aceptar H0, donde el sistema es el de siempre, comparar Sig.
con el nivel α predeterminado
Finalmente SPSS muestra el Contraste de Scheffe o contrastes t-Student según sea el caso y se haya pedido,
para hacer los contrastes específicos de haber lugar para ello.
Si se solicita, SPSS muestra el Test de Levene de homogeneidad de varianzas que sirve para verificar si este
supuesto clave se cumple o no y gráficos de medias para inspeccionar visualmente las diferencias.

Sobre los Supuestos. Ya se mencionó que estamos asumiendo normalidad, independencia y homogeneidad de
varianzas. Estos supuestos no siempre se cumplen y es necesario informarse de las consecuencias:

• La Normalidad no es imprescindible. Investigaciones mediante simulaciones han probado que el ANOVA es


bastante robusto a la falta de normalidad si se puede asegurar simetría en las distribuciones (o al menos
asimetría moderada).
• La falta de independencia no es usual en experimentos, a menos que sea parte del diseño, pero este caso ya
tiene una metodología desarrollada, que se trata en textos como el de Ferguson.
• La falta de homogeneidad de varianzas, puede traer problemas, si es
severa y los tamaños de muestra son desbalanceados. No hay una regla infalible de cuándo las varianzas son
muy heterogéneas, pero una regla práctica muy usada es sospechar de heterogeneidad si la mayor varianza
muestral es más de 4 veces la menor de la varianza. En todo caso, hay pruebas de Homogeneidad de Varianzas
como la de Bartlet o la de Levene (figuran en SPSS). Deben usarse con cuidado, pues estudios teóricos han
demostrado que son sensibles no sólo a la falta de homogeneidad, sino también a la falta de normalidad, que
como ya vimos, no necesariamente es un problema serio.
• Anova One-Way y el Modelo Lineal. El modelo subyacente al Anova de un Factor puede escribirse también
como Yij = µ + τ i + ε ij i = 1,2,..., k ; j = 1,2,..., n (o ni en el caso no balanceado, donde las muestras son de
tamaño desigual). Aquí µ denota la media general y τ i denota el “efecto” del Nivel #i del Factor bajo
estudio. El error aleatorio ε ij representa la variabilidad natural debida al azar (y a otros factores no consi-
derados o controlados).
• Por lo general, los niveles del factor son escogidos y predeterminados por el experimentador. En este caso los
coeficientes τ i son parámetros “fijos” que miden los diferentes efectos. Pero existen casos donde los Niveles
posibles son tan numerosos, que el experimentador los selecciona al azar, como una muestra representativa de
los distintos niveles que se podría aplicar y se llama un modelo de efectos aleatorios.

4.3 ANOVA One Way cuando no hay Homogeneidad de varianzas

Cuando la prueba de Levéne o la de Bartlett indican heterogeneidad de varianzas, la prueba F del test global para
contrastar H 0 : µ1 = µ 2 = K = µ k no es eficiente y entonces hay que hacer algunos ajustes:

• Para contrastar H 0 : µ1 = µ 2 = K = µ k SPSS ofrece en el subcomando Options → Statistics los tests de


Welch y de Brown-Forsythe, como alternativas a la prueba F de la tabla ANOVA. El test de Welch es el más
recomendable en este caso.

Para los contrastes específicos:


Si se trata de contrastes Ad Hoc para hipótesis previas, se aplica el subcomando Contrasts que ya conocemos,
pero se usa la segunda línea (“Does not assume equal variances”) que aplica el Test de Welch, con grados de
libertad fraccionarios

Si se trata de contrastes Post Hoc por que no hay hipótesis previas, se usa el subcomando Post Hoc → Equal
Variances Not Assumed y se selecciona alguno de los contrastes ofrecidos por SPSS. El Test de Games- Howell
es el más recomendable.

4.3 Tamaño del efecto: Coeficiente Eta ζ


La magnitud de las diferencias generadas por el factor bajo estudio o equivalentemente, el grado de diferencias
entre las medias poblacionales, se estima con el “Coeficiente Eta” ζ que es el equivalente al coeficiente de
correlación múltiple R del análisis de regresión. Así tenemos:

FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II


FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II 10
ζ 2)
Coeficiente Eta2 (ζ
SCTR
Se define como ζ 2
= y es la proporción de varianza total generada por las poblaciones. Se interpreta
SCT
análogamente a como se interpreta el R 2 , por ejemplo un R2 >0.25 se considera “grande”

ζ)
Coeficiente Eta (ζ
SCTR
Se define como ζ = ζ 2
= y es la correlación tipo Pearson entre la variable respuesta Y y la
SCT
variable cualitativa “X=Población”, con k categorías o “valores”. Se le aplica el Criterio de Cohen para
correlaciones. Así, por ejemplo, un ζ > 0.5 se considera “grande”.

5. Análisis de Varianza con Dos Factores o ANOVA TWO WAY

5.1 Utilidad.
Permite estudiar el efecto de dos factores a la vez: Factor A (filas) con i = 1,2,...,a niveles, y Factor B (columnas)
con j = 1,2,...,b niveles, que son aplicados simultáneamente a las unidades experimentales. Cada combinación AiBj
de niveles o tratamientos se aplica a n unidades. El tamaño global de muestra es N=n× ×a××b. Esta estrategia permite
estudiar los efectos de A, de B y sobre todo la “interacción” entre A y B, es decir un efecto especial que se
presenta debido a la combinación de los factores. Esta es la utilidad básica de este diseño.

Si hacemos una tabla con a filas y b columnas, cada “celdilla” representa una combinación de tratamientos de A y
de B que al ser aplicada, genera una población cuya media podemos denotar mediante µij = Media de la población
cuando se aplica el nivel #i del Factor A y el Nivel #j del Factor B.

Por ejemplo, para un factorial con a=2 y b=4, podríamos representar las 2x4=8 subpoblaciones mediante 8 medias:

Factor B
Factor A Nivel B1 Nivel B2 Nivel B3 Nivel B4 Efecto de A
Nivel A1 µ11 µ12 µ13 µ14 µ1•
Nivel A2 µ 21 µ 22 µ 23 µ 24 µ 2•
Efecto de B µ •1 µ •2 µ•3 µ •4 µ••

Aquí podemos plantearnos los siguientes “efectos”:

El Efecto de A, medido u obtenido promediando a través de los niveles del Factor B. Este efecto es representado
por los promedios de las filas 1 y 2, que denotamos µ1• y µ 2• . Una prueba para este efecto consiste en contrastar
si las medias de las filas son iguales, o sea contrastar H0: µ1• = µ 2• Este efecto se llama Efecto principal de A.

El Efecto de B, obtenido promediando a través de los niveles del Factor A, y que es representado por los
promedios de las columnas µ •1 , µ•2 , µ•3 y µ•4 . Una prueba para este efecto consiste en ver si las medias de las
columnas son iguales, o sea contrastar H0: µ •1 = µ•2 = µ•3 = µ•4 Este efecto se llama Efecto principal de B.

La Interacción de A y B ocurre cuando el efecto de un factor no es el mismo a todos los niveles del otro
factor. Es el efecto especial que se presenta debido a la combinación de los factores, por ejemplo, si tenemos
que las diferencias ( µ11 - µ 21 ), ( µ12 - µ 22 ), ( µ13 - µ 23 ), etc. no son todas iguales, diremos que hay interacción entre
A y B.

5.2 Elementos y Metodología.


Sea Yijk el puntaje de obtenido al aplicar el i-ésimo nivel de A y el j-ésimo nivel de B en la unidad experimental k
(i=1,2,...,a; j=1,2,...,b y k=1,2,.. ..,n).

FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II


FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II 11
Los supuestos son los mismos del análisis con un factor, esto es, asumimos normalidad de datos, independencia y
varianzas homogéneas.

En este diseño, al igual que en el caso de un Factor, hay casos de Efectos Fijos, de Efectos Aleatorios y modelos
Mixtos. El caso más frecuente es el de Efectos Fijos y es el que desarrollaremos primero.

Modelo de Efectos Fijos


El modelo lineal es Yijk= µ + αi + β j + (α
αβ )ij + εijk para i=1, 2,...,a; j=1,2,...,b; k=1,2,...,n.

• µ es una media general;


• αi es efecto del Nivel i del Factor A;
• β j es el efecto del Nivel j del Factor B;
• (αβ)ij es el efecto de la Interacción entre los niveles;
• εijk es un residuo o error aleatorio
Como en el caso de un solo factor, la suma de cuadrados total SCT se divide ahora en cuatro componentes : Suma
de Cuadrados de A (SCA), Suma de Cuadrados de B (SCB), Suma de Cuadrados de la Interacción (SCAB) y
Suma de Cuadrados del Error (SCE), de modo que SCT = SCA + SCB + SCAB + SCE

Como en el caso ONE-WAY, se calculan los Cuadrados Medios dividiendo las respectivas Sumas de Cuadrados
entre los respectivos Grados de Libertad. Y también los resultados se presentan en una Tabla de Análisis de
Varianza de Dos Factores (Two Way ANOVA).

ANALISIS DE VARIANZA (DOS FACTORES o TWO WAY ANOVA)


Sig.
Fuente de Grados de Suma de Cuadrado F de de F
variación Libertad Cuadrados Medio Fisher
Factor A a-1 SCA CMA=SCA/(a-1) FA=CMA/CME
Factor B b-1 SCB CMB=SCB/(b-1) FB=CMB/CME
Interacción A*B (a-1)(b-1) SCAB CMAB=SCAB/(a-1)(b-1) FAB=CMAB/CME
Error ab(n-1) SCE CME=SCE/ab(n-1)
Total abn-1 SCT

• Para las hipótesis globales de no efecto

Para la Hipótesis: Usar: Rechazar H0 si:


H0: αi = 0 ∀ i FA FA > F1-α[a-1,ab(n-1)]
H0: β j = 0 ∀ j FB FB > F1-α[b-1,ab(n-1)]
H0: (αβ)ij = 0 ∀ ij FAB FAB > F1-α[(a-1)(b-1),ab(n-1)]
Esta es la presentación estándar en reportes, aunque SPSS muestra más detalles

• Para comparar las combinaciones Ai B j y Ai ' B j ' de los factores A y B


Si se desea comparar dos combinaciones específicas de niveles de A y B, digamos la combinación AiBj con la
combinación Ai’j’, aplicamos la Prueba t-Student modificada para dos muestras independientes:

La hipótesis nula es que las dos combinaciones tienen similar efecto, esto es que sus respectivas medias son
iguales H 0 : µij = µ i ' j '
Y ij − Y i ' j '
Se calcula t = , donde CME es el Cuadrado Medio del Error (que SPSS llama Error Mean
CME CME
+
nij ni ' j '
Square). El valor de t se compara con un valor tabular de la distribución t de Student con los grados de libertad
del Error (que SPSS llama Error df), según sea H1:

FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II


FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II 12
Hipótesis Nula Hipótesis Alterna Rechazar H 0 si Tipo de contraste
H 1 : µ ij > µ i ' j ' t > t1−α Unilateral derecho
H 0 : µ ij = µ i ' j ' H 1 : µij < µi ' j ' t < −t1−α Unilateral izquierdo
H 1 : µij ≠ µi ' j ' | t |> t1−α / 2 Bilateral
t1−α y t1−α / 2 percentiles 1 − α y 1 − α / 2 de la tabla t ( df del Error )

Aquí t1−α ó t1−α / 2 son los respectivos percentiles 1 − α ó 1 − α / 2 de la tabla t-Student con los grados de libertad
del CME ab(n-1).

Solución con SPSS


Aplicando el procedimiento General Linear Model Univariate de SPSS e indicando la variable dependiente y los
factores SPSS muestra un cuadro llamado Tests of Between-Subjects Effects, donde presenta los diferentes Fs y
su significación. Se evalúa la significación de cada factor por separado y también la interacción. Además se reporta
el coeficiente R2 (Squared) que está entre 0 y 1, cuanto más cercano a 1 es, más fuerte es el efecto de los factores.

Para interpretar cómo se dan los efectos, hay que mirar el cuadro adjunto de estadísticas (medias) y algún gráfico
de medias que aclare los resultados.

Observaciones:
• Los Supuestos son los mismos del ANOVA ONE WAY y las recomendaciones son idénticas.
• Si los tamaños de muestra son distintos, no es posible separar los Efectos Principales de la Interacción de modo
único. Este caso requiere técnicas especiales y la ayuda de un especialista.

Modelo de Efectos Aleatorios


Aunque la ecuación es la misma del modelo de efectos fijos, en el Modelo de Efectos Aleatorios: αi , β j y (αβ)ij
son variables aleatorias. Las Sumas de Cuadrados y los Cuadrados Medios son iguales

Modelo de Mixto
En el Modelo de Mixto: A es Fijo y B es Aleatorio. Las Sumas de Cuadrados y los Cuadrados Medios son iguales

Tanto en el modelo de efectos aleatorios como en el mixto, el procedimiento con SPSS no cambia, basta
indicar al programa cuál factor es fijo o aletorio.

5.3 Tamaño del efecto: Coeficiente Eta ζ


ζ 2)
El tamaño del efecto se mide análogamente a como se hace en el ANOVA One way con el Coeficiente Eta2 (ζ
SCTR
ζ2 = y es la proporción de varianza total generada por los factore. Se interpreta análogamente a como se
SCT
interpreta el R 2 , por ejemplo un R2 >0.25 se considera “grande”

ζ)
Coeficiente Eta (ζ
SCTR
Se define como ζ = ζ 2
= y es la correlación tipo Pearson entre la variable respuesta Y y los
SCT
factores. Se le aplica el Criterio de Cohen para correlaciones. Así, por ejemplo, un ζ > 0.5 se considera “grande”.

6. Contrastes no paramétricos

6.1 Uso
Cuando no se puede asumir normalidad de datos por asimetría extrema o por ser las variables respuesta no
cuantitativas.

Por lo general para cada contraste paramétrico de los estudiados hasta ahora, hay un equivalente no paramétrico
que es alternativo pero menos potente: Para un mismo tamaño de muestra n y un mismo nivel α, el contraste no
paramétrico tiene menor probabilidad de detectar una H1 verdadera.

FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II


FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II 13
6.2 Prueba T De Wilcoxon.

• Uso
Alternativa a la prueba t-Student para dos muestras relacionadas
• Fundamento
Si X e Y denotan las dos variables relacionadas, la hipótesis a probar es H0: P( X < Y ) = P( X > Y ). Esta hipótesis
equivale a la de similar posición central de las respectivas distribuciones y por comodidad, la representaremos
como H0: MeX = MeY donde Me representa la Mediana de la respectiva distribución.
Si H0 es verdadera y formamos las diferencias di=Xi-Yi, al ordenarlas esperamos que el número de diferencias
positivas sea igual al número de diferencias negativas y que el número de diferencias grandes y negativas sea igual
al número de diferencias grandes y positivas. Por tanto, si encontramos que existen pocas diferencias de un signo
dado y que la suma de los rangos de estas diferencias es pequeña, entonces tenemos evidencia de que H0 no se
cumple y podemos rechazarla. El estadístico de contraste se llama T de Wilcoxon.

• Metodología con SPSS


Para someter a prueba H0, examinar la significación verdadera en el cuadro Test statistics (SPSS hace contraste a
dos colas) y de resultar rechazada H0, examinar el cuadro Descriptive Statistics para ver si se cumple su H1
Si n es grande ( n > 27 en este test) probablemente SPSS muestre la significación aproximada para n grande, que
llama Asymptotic (asintótica), pues muchas veces la significación exacta supera la memoria del computador.

6.3 Prueba U De Mann-Whitney.

• Uso
Alternativa a la prueba t-Student para muestras independientes
• Fundamento
Si X e Y denotan la variable respuesta en las respectivas muestras, la hipótesis a probar es H0:P(X < Y) =
P(X >Y). Esta hipótesis equivale a la de similar posición central de las distribuciones y por comodidad, la
representaremos como H0: MeX = MeY.
Si H0 es cierta, al “juntar” muestras es de esperar que las puntuaciones X e Y se intercalen. Si una de las muestras
ocupa consistentemente lugares bajos, pensaremos que H0 no es cierta. Como no tiene sentido usar directamente
las puntuaciones originales, las pasamos a rangos para el análisis. El estadístico de contraste se llama U de Man
Whitney
• Metodología con SPSS
Para someter a prueba H0 hay que examinar la significación verdadera en el cuadro Test statistics (SPSS hace
contraste a dos colas) y de resultar rechazada H0, examinar el cuadro Descriptive Statistics para ver si se
cumple su H1. Si n es grande (n > 40 en este test) probablemente SPSS muestre la significación aproximada
para n grande, que él llama Asymptotic (asintótica), pues muchas veces la significación exacta supera la
memoria del computador.

6.4 Prueba H de Kruskal-Wallis (Anova No Parametrico).

• Uso
Equivalente no paramétrico del ANOVA One Way por falta de normalidad por asimetría extrema o varianzas
heterogéneas. La hipótesis es la de igual tendencia central en k poblaciones, y se quiere contrastar H0 a partir de k
muestras independientes.
• Fundamento
Al juntar muestras y ordenar por rangos, si H0 es cierta se espera que las muestras se intercalen o se distribuyan
homogéneamente en los rangos. Si alguna muestra ocupa rangos extremos, hay indicios de la falsedad de la
hipótesis. Por comodidad escribiremos H0 como H0:Me1 = Me2 = ... =Mek
• Metodología en SPSS
Para contrastar H0:Me1 = Me2 = ... =Mek basta examinar la significación en el cuadro Test statistics (SPSS presenta
significación exacta y asintótica si el tamaño global de muestra es grande y en este caso usar la exacta) para ver si
se rechaza H0 o no.

Este contraste se apoya en la aproximación de la distribución binomial a la normal, por lo que sólo debe usarse si
ni ≥ 5. En caso contrario hay que usar “pruebas exactas”.

FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II


FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II 14
Como en el ANOVA One-Way, se trata de una prueba de descarte. De ser significativa, hay que ubicar las
diferencias usando Mann-Whitney.

6.5 Contraste de Normalidad

• Uso
Para ver si una muestra de datos proviene de una distribución normal

• Fundamento
El contraste más aplicado es el Test de Kolmogorov y Smirnov, que se apoya en la comparación de la distribución
acumulativa de la variable de la muestra versus la distribución acumulativa de una distribución normal que tenga la
misma media y varianza que la muestra. Este contraste asume muestras grandes (n > 50 y de preferencia alrededor
de 100 casos), en caso contrario, se aplica la variante de Saphiro y Wilk.
En todos los casos H0 es H0:La distribución en Normal.

• El contraste de Normalidad en SPSS


Se encuentra en dos módulos de SPSS: en el Nonparametric Test, como procedimiento One Sample Kolmogorov
Smirnov y en el módulo Descriptive Statistics, como opción del procedimiento Explore, que además proporciona
pruebas gráficas de normalidad. Este segundo módulo es preferible por ser más completo. Si se rechaza H0 se
concluye que no hay normalidad. Esta prueba es bastante sensible y compara contra una distribución exac-
tamente normal, algo ideal. Por eso, con muestras grandes de todos modos saldrá significativo.

• Pruebas gráficas de normalidad


Se usan para chequear a ojo si habría falta de normalidad extrema, pues los procedimientos paramétricos como
pruebas t-Student o ANOVA pueden aplicarse cuando la falta de normalidad no sea extrema.

Histograma de frecuencias: Si es marcadamente asimétrico hay razón para sospechar falta de normalidad.
Diagrama de Percentiles (Q-Q Plot en SPSS) donde en el eje horizontal van los percentiles de la muestra y en el
eje vertical van los percentiles de la distribución normal Z obtenida una normal de misma media y desviación
estándar que la muestra. Si hay normalidad los puntos deben caer en línea recta o siguiendo la recta, con
algunos puntos arriba y otros debajo de la recta. En caso contrario no hay normalidad.

• Pruebas descriptivas de normalidad


Usan los coeficientes de asimetría y de curtosis, y sirven más bien para ver si la falta de normalidad es severa:
Si la asimetría (en valor absoluto) pasa de 3, hay asimetría severa (y por tanto no hay normalidad)
Si la curtosis (en valor absoluto) pasa de 10, hay curtosis severa (y por tanto no hay normalidad).

• Si se compara dos o más grupos, lo mejor es hacer pruebas de normalidad dentro de cada grupo por
separado y no en global.

7. Análisis Factorial

Se usa en Psicometría como una herramienta para verificar la validez conceptual o validez de “constructo” de una
prueba psicométrica, entendiendo “constructo” como un concepto no observable pero sí inferible a través de de la
conducta, se trata de una definición teórica de determinado rasgo psicológico. Para registrar el grado de presencia
del constructo en una persona podemos hacer preguntas a la persona e inferir de sus respuestas la magnitud del
constructo en ella. Esta última alternativa es lo que se llama “definición operacional” del constructo y que se usa
en Psicometría.
Una “Prueba psicométrica” o Test es un conjunto de preguntas organizadas y con opciones de respuesta
predefinidas, construida a partir de un análisis teórico y también de contenido. Las preguntas o ítems son
manifestaciones del constructo

En Estadística:
El constructo se llama “Variable latente”: una variable que es no observable directamente.
Las preguntas o Items que usamos para registrar el constructo, se llaman “Variables Manifiestas”: variables
observables o registrables que se asumen como manifestaciones de la variable latente

FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II


FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II 15
Con varias preguntas, para tener una sola medida del constructo se suele sumar o promediar las puntuaciones de
las respuestas y en este caso se dice que el test es “de ítems sumables”. Lo anterior sólo tiene sentido o validez si,
en efecto, las preguntas miden fundamentalmente el mismo constructo o rasgo. En caso contrario no tiene sentido
la suma.

7.1 Modelo de Análisis Factorial

Variables:
Los “rasgos psicológicos” que forman el constructo son las Dimensiones o Factores del Test y los Ítems asociados
a estos rasgos.
Los Ítems del test, que sí son observables, son manifestaciones de los factores o dimensiones del test. Los Ítems
son variables dependientes o causadas por los Factores

Ecuaciones:
• Tenemos un test con p preguntas o ítems, cuyas respuestas se codifican generando p variables cuantitativas:
X 1 , X 2 ,..., X p
• En el test hay m dimensiones o factores F1 , F2 ,..., Fm (pueden ser m áreas o aspectos de un mismo rasgo o m
rasgos distintos) que generan las respuestas a las preguntas de modo que hay “proporcionalidad” entre la
magnitud de la dimensión y el valor de la variable (la magnitud de la respuesta).
• Cada ítem o variable X i responde proporcional y principalmente a alguno de los m factores F j
X i = li1 F1 + li 2 F2 + ... + lij F j + ... + lim Fm + ε i donde lij es la constante de proporcionalidad de X i a F j y
la variable (no observable) ε i representa la variación fortuita o de azar. Se trata entonces de un modelo de
regresión, pero con la salvedad que las v.i. F j son no observables.
En forma compacta podemos escribir las ecuaciones que definen la relación de proporcionalidad mediante
m
X i = ∑ lij F j + ε i i = 1,2,..., p
j =1
Las ecuaciones representan matemáticamente las relaciones teóricas entre rasgos (las dimensiones o áreas
del test) y respuestas o conductas asociadas

Supuestos (Axiomas):
(1) F j es variable estandarizada (puntuación Zeta) con media 0 y varianza 1
(2) ε i , el efecto del azar en X i , tiene media 0 pero su porpia varianza V (ε i ) = σ ε2i i = 1,2,..., p . Esto quiere
decir que el efecto de azar es específico para cada variable, el azar no afecta a todas las respuestas del test por
igual. La varianza del azar se llama “varianza específica” y se denota V (ε i ) = ψ i2
(3) Hay independencia entre ε i y cualquier factor F j , de modo que ρ ε i F j = 0
(4) Los factores son independientes {F j } ( ρ F j F j ' = 0 ). Este supuesto no es obligatorio y muchas veces se
levanta. Cuando se asume (4) el modelo se llama Modelo Factorial Ortogonal, en caso contrario, cuando los
factores tienen correlaciones, se llama Modelo Factorial Oblícuo

7.2 Consecuencias del modelo factorial

• En las varianzas:
m m m
V ( X i ) = ∑ (lij ) + V (ε i ) = ∑ (lij ) 2 + ψ i2
2
i = 1,2,..., p . La cantidad ∑ (l ij ) 2 es la varianza del ítem X i
j =1 j =1 j =1

asociada o explicada por los factores comunes a los p ítems y por eso se llama “comunalidad” del ítem X i y se
denota hi2 . Es frecuente que los ítems se estandaricen o pasen a puntuaciones Z de modo que V ( X i ) = 1 y en este
contexto se tiene la ecuación:
m
1 = ∑ (lij ) 2 + ψ i2 = hi2 + ψ i2 = Comunalidad + Varianza específica
j =1

FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II


FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II 16
Por analogía con el análisis de regresión se define:
Comunalidad = hi2 =Proporción de varianza de X i asociada a los factores comunes = Proporción de diferencias
observadas en las respuestas de las personas en el ítem i, que se deben a la diferente intensidad con que se
presentan los factores en ellas
Varianza específica =ψ i2 = Varianza residual (o del azar y/o otros factores no previstos) en X i = Proporción de
diferencias observadas en las respuestas que no se deben al constructo sino que se deben al azar o a otros factores
no previstos y específicos a la conducta registrada en la pregunta o ítem i del test.

• En las correlaciones Item-Factor:


Bajo el supuesto (4) se cumple ρ X i F j = lij : La constante de propocionalidad lij (“carga factorial” en la jerga
estadística) es precisamente la correlación entre el Factor F j y el ítem X i . En este contexto para ver si un ítem
dado corresponde a un factor, basta identificar la carga lij más grande (en valor absoluto). Si se cumple el supuesto
(4) bastaría aplicar el criterio de Cohen para correlaciones a la carga factorial del item con el factor. Los puntos de
corte clásicos son: carga lij en valor absoluto mayor o igual que 0.3 o carga lij mayor o igual que 0.5

• En las correlaciones entre ítems


m
La correlación entre el ítem X i y el ítem X i ' es rX X = ∑ lij li ' j = Suma de productos de las correspondientes
i i'
j =1

cargas factoriales.

7.3 Estimación de las cargas factoriales

El proceso tiene dos etapas:

(1) Determinar el número “m” de factores. Esto puede ser identificando o hallando el valor de m (Análisis
exploratorio) o confirmando un valor de m ya conocido o predeterminado (Análisis confirmatorio).
(2) Estimar cada carga factorial lij . Esto implica hallar la correlación entre cada ítem y cada uno de los m
factores, interpretando cada factor a partir de los ítems que correlacionan más con él y midiendo el efecto
factorial tanto en cada ítem (vía la comunalidad) como en el total de ítems de la prueba (vía la suma de
comunalidades)

7.3.1 Métodos para determinar “m= # de factores”:

• Método de Kaiser. Es el default de SPSS: m= # de factores con varianza (eigenvalues) > 1


• Método de Catell. Es un método alternativo al de Kaiser y SPSS lo llama “scree plot” (o “gráfico de
sedimentación”). La idea es comparar las varianzas de los factores, desde el que tiene la menor (y por tanto no
es factor real) hasta el que tiene la mayor varianza. Debemos detenernos cuando veamos un cambio súbito en
una varianza, cuando encontremos el primero de los factores con varianza relativamente “grande” comparada
con las de varianza menor.
• Método de % mínimo de varianza total. Según este método o criterio, m debe ser lo suficientemente grande
como para que el % acumulado de varianza total asociada a los factores pase de 50% o algún %
predeterminado. Los puntos de corte clásicos son 50% y 80%. No siempre se cumple el criterio de 50% de
varianza total como mínimo. Pero este caso es peligroso porque los resultados del A.F. pueden ser inestables.

Nota: Existe otro método más moderno que SPSS no usa, aunque se puede programar para aplicarlo y es el
Análisis paralelo de Horn, que consiste en comparar sucesivamente la varianza de cada factor de la muestra real
con la correspondiente varianza de factores calculados sobre una muestra de números al azar del mismo tamaño y
cantidad de variables de la base de datos: Si un factor de la muestra real tiene varianza mayor que el equivalente de
la muestra de números al azar, entonces es significativo y se toma en cuenta. El proceso se detiene cuando un
factor de la muestra real no supera a su equivalente de la muestra de números al azar.

FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II


FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II 17
7.3.2 Identificación de Factores

“Identificar” un factor es averiguar qué es o qué representa; cuál es su sentido.


Para cada variable o ítem X i observamos el factor F j con el cual está más asociado (el que “satura más” a
X i ), viendo las correspondientes cargas factoriales lij más grandes en valor absoluto y luego asignamos cada
ítem X i a uno de los m factores F j : aquél con mayor carga factorial absoluta lij
Luego observamos el conjunto o “cluster” de variables más asociadas a cada factor F j y a continuación le damos
a cada factor F j el significado o sentido “promedio” de las variables X i del cluster.

Cuando hay más de un factor, se aplica la técnica de las “rotaciones”: un recálculo de las cargas factoriales,
que partiendo de las estimaciones iniciales de lij , redistribuye la varianza de cada factor o componente, aunque no
cambia la varianza total. Sabremos que la rotación ha sido exitosa cuando veamos que los ítems asignados a un
factor (por sus cargas factoriales más grandes) conforman un factor fácilmente explicable, o sea, identifican bien a
su respectivo “constructo”

Las rotaciones son de dos tipos:


• Ortogonales (Perpendiculares): Mantienen factores Fj que no correlacionan entre sí. Los métodos
ortogonales en SPSS son:
Varimax: El más usado de todos. Maximiza la varianza de las cargas factoriales dentro de cada factor y así obliga
a las variables a asociarse a un solo factor.
Quartimax: Maximiza la varianza de las cargas factoriales dentro de cada variable y obliga a los factores a
asociarse a una sola variable. Tiende a dar variables con más de un factor
Equamax: Es una combinación de los dos anteriores

• Oblicuas (no ortogonales):Al girar los ejes, éstos pueden formar un ángulo más o menos cerrado, los factores
resultantes son correlacionados, no son independientes. Los métodos oblicuos de SPSS son:
Oblimin: El más usado dentro de los oblicuos, tiende a formar factores con la mayor correlación pero con
estructura lo más simple (ítems cargados con la menor cantidad de factores).
Promax: Es una combinación de oblimín y varimax de modo que los factores son lo menos correlacionados dentro
de lo posible. Es un método de auge reciente.

Con rotaciones oblícuas, las cargas factoriales lij no coindicen con las correlaciones Item-Factor y se
reportan dos cuadros de resultados:
Las cargas factoriales están en la matriz “Pattern matrix” o “de configuración”. Estos son los coeficientes de
los factores en las variables: se asigna cada variable al factor con mayor carga en valor absoluto.
La matriz de correlaciones ítem-factor llama “Structure matrix” o “Estructura”. Ayuda a interpretar los
factores a partir de los ítems que correlacionan más con él, pero debe tenerse en cuenta que ahora es posible que un
ítem correlacione con más de un factor.

Además se obtiene la “Matriz de correlaciones de componentes o de correlaciones entre factores”, llamada


también “Component correlations matrix”. Si las correlaciones entre factores son bajas o irrelevantes, se prefiere
usar la rotación Varimax.

Debemos recordar que los factores siempre se interpretan de modo indirecto, vía las variables más asociadas a
cada factor (aquellas con mayores cargas factoriales) y se suele bautizarlos atribuyéndoles un significado
“promedio” de los significados de dichas variables. Por regla, se considera como asociada a un factor a toda
variable cuya correlación (en valor absoluto) con el factor, pase de un cierto límite o punto de corte. Lo mínimo es
0.3, aunque con este sistema es posible que una variable quede asociada a dos o más factores, por lo que se
recomienda usar un límite más alto, por ejemplo 0.5.
Naturalmente las cargas o correlaciones que uno examina son las obtenidas después de una rotación, si es que
hubo necesidad de hacerla. Si la rotación es oblicua, hay que analizar tanto la matriz de cargas o patrones
(“pattern matrix”) como la de correlaciones o configuración (“structure matrix”).

FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II


FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II 18
7.4 Estimación de factores
Interpretados los factores, puede ser que se necesite estimar la "cantidad" de cada factor que tiene cada unidad o
sujeto. En principio no es posible obtener estimaciones exactas, pues por definición los factores no son
medibles directamente; pero sí es posible obtener "medidas indirectas". Hay dos sistemas:

• De Cálculo agregado, donde los factores se miden promediando o sumando directamente las variables que
están asociadas a él, ya sea como promedio simple o como promedio ponderado (donde la ponderación está
asociada a la carga factorial o es la carga factorial misma). Esto no siempre es posible, si es que las variables
tienen unidades de medida distintas. Se usa mucho en construcción de pruebas o Psicometría.

• Métodos Análíticos, donde los factores se estiman apelando a algún sistema estadístico de regresión, siendo
las estimaciones iniciales de los factores, las componentes principales o cantidades análogas. Los métodos del
SPSS producen factores (factor scores) con media 0 y son:

(a) Regression: Produce factor scores con media cero, que pueden estar correlacionadas.
(b) Anderson: Produce factor scores independientes con media cero y varianza 1 siempre.
(c) Bartlett: Produce factor scores con media cero.

En el caso de pruebas psicométricas no es recomendable dejar que SPSS calcule los factores con alguno
de sus métodos, pues son más bien “ciegos”, pegados a la comodidad estadística y menos a la teoría
psicológica.

7.5 Otros métodos de Extracción de Factores


Aunque Componentes Principales (A.C.P) es el método default de SPSS porque es general y recomendado, hay
otros métodos para estimar las cargas factoriales. Todos se apoyan Componentes Principales en el sentido que
toman la solución de este método como base.
Unweighted Least Squares: Mínimos cuadrados no ponderados. Se caracteriza porque obtiene los factores de
modo que se minimice la diferencia global entre las correlaciones observadas y las reproducidas, esto es, se centra
más en las correlaciones que en las varianzas (como lo hace Componentes Principales). Es preferible usarlo
cuando el número m de factores es conocido o se puede conjeturar. También hace una prueba Chi2 de bondad de
ajuste, donde H0: El modelo usado es el adecuado

Generalized Least Squares: Mínimos cuadrados generalizados. Se caracteriza porque obtiene los factores de
modo que se minimice la diferencia global entre las correlaciones observadas y las reproducidas, privilegiando
aquellas parejas de variables con mayor "efecto factorial". Análogamente al método anterior, se aplica cuando se
conoce el número m de factores y se sabe que hay variables con "efecto" factorial muy disparejo en relación al
resto. Es uno de los que mejor funciona con ítems dicotómicos. También hace una prueba Chi2 de bondad de
ajuste, donde H0: El modelo usado es el adecuado

Maximun Likelihood: Asume normalidad de variables. Adicionalmente permite contrastar la hipótesis de que el
número de factores es una cierta cantidad m predeterminada, mediante un estadístico Chi2 (Chi-square), cuyo
Nivel de Significación debe ser MAYOR que 0.05 para aceptar que hay m factores.

Principal-Axis Factoring: Es una variante de A.C.P., que consiste en aplicar C.P. tomando como varianza inicial
de cada variable, no 1 sino un número menor, para amortiguar la tendencia de C.P. de dar un primer factor con
mucha varianza. Es el segundo método más usado, y también es de tipo exploratorio

Alpha factoring: Calcula los factores de modo que tengan máxima confiabilidad, considerando que las variables
son una muestra de un universo mayor de variables.

En general, el orden de métodos es: 1ero. Componentes ; 2do. Principal-Axis y 3ero. Otros ( Maximun
Likelihood, Unweighted Least Squares, etc ).

FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II


FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II 19
8. Análisis de medidas repetidas

8.1 Uso
Cuando tenemos una variable Y cuya evolución queremos seguir en un grupo de participantes, en diversas oca-
siones, cada una de las cuales suele estar en un contexto específico o tratamiento (este conjunto de contextos o
repeticiones se llama “factor intrasujetos”). También puede ser cuando tenemos k variables respuesta Y1, Y2,…,Yk
medidas en los mismos participantes y que son comparables entre ellas (o sea están en la misma escala).
Se desea ver si las medias o las medianas (según el caso) de las k variables son iguales o si difieren, quizá con un
patrón de evolución o “tendencia” característica.
Además hay algunos otros factores cuyo efecto en esa evolución o “tendencia” se quiere identificar. El análisis se
llama de “análisis de medidas repetidas” porque cada individuo es medido sucesivas veces, o sea se repite la
medición de Y en cada participante k veces y por tanto los datos están correlacionados.

Si la variable Y es ordinal o no tiene distribución normal, la prueba más usada es el Test o Prueba de
Friedman, que compara las k medianas de las muestras relacionadas. Es una prueba o test “ómnibus” y de ser
significativa, los contrastes específicos siguientes son sucesivas pruebas T de Wilcoxon por pares o pruebas U de
Mann-Whitney

Si la variable Y es cuantitativa con distribución normal y se satisfacen ciertos supuestos, la prueba de


elección es el ANOVA para medidas repetidas, donde, como en el ANOVA One Way o Two Way, se contrasta
la existencia de un efecto de diferencia entre “repeticiones”, tomando en cuenta el efecto de los factores si los hay
y las posibles interacciones. Análogamente al ANOVA, también habrá contrastes Post Hoc o contrastes Ad Hoc
según sea el caso.

8.2 Caso No paramétrico


Con una variable Y ordinal o con distribución no normal, cuya evolución se sigue en un grupo de participantes, en
k ocasiones, que generan las mediciones o repeticiones Y1, Y2, …,Yk. O también cuando hay k atributos medidos
ordinalmente o con falta de normalidad Y1, Y2, …,Yk que se quieren comparar. Asumimos independencia entre
casos distintos pero no entre mediciones repetidas en cada caso o sujeto.

El plan de análisis estadístico comprende:


• Un Test ómnibus para la hipótesis global H0:Me1=Me2=…=Mek
• Contrastes específicos según las hipótesis previas por contrastar o las comparaciones múltiples que haya que
hacer para detectar los pares diferentes.
• Si además hay factores cuyo efecto se desea estudiar, no hay una prueba no paramétrica que haga este trabajo,
pero se pueden aplicar contrastes separados por los niveles de los factores y estudiar el conjunto de resultados.

8.2.1 Test ómnibus (Prueba de Friedman para k muestras relacionadas)


Contrasta H0:Me1=Me2=…=Mek vs H1:Al menos dos medianas son diferentes. Su lógica es similar a la de otras
pruebas basadas en rangos o puestos, esto es, se ordenan las puntuaciones dentro de cada sujeto y si H0 es cierta,
las k mediciones debieran intercalarse y por tanto sus rangos o puestos correspondientes debieran ser similares. Lo
mismo debiera ocurrir con las mediciones de los otros sujetos. Comparando los rangos promedio se calcula la
probabilidad de que siendo cierta H0 se obtenga rangos promedio como los que aparecen en nuestros datos. Si esta
probabilidad o significación es muy pequeña, sabemos que podemos rechazar H0.

Metodología en SPSS
Para contrastar H0:Me1=Me2=…=Mek
• Digitar la base con los datos de cada participante en cada variable del grupo Y1, Y2, …,Yk de mediciones, en
un columnas diferentes. Si hubiera otras variables como factores, éstas van como identificadoras de cada grupo
en una columna por factor.
• Aplicar la secuencia de comandos:
Analizar⇒ ⇒Pruebas no paramétricas ⇒ Cuadros de diálogo antiguos→ → k muestras relacionadas→ →
Variables de prueba: Pasar las variables Y1, Y2,…, Yk → →Opciones: Estadísticos: check en Descriptivos
y en Cuartiles → Continuar→ →Exact→ →check en Exact→ →Continuar→ →Aceptar.
• Examinar la significación en el cuadro Estadísticos de contraste (de preferencia la significación exacta, la
asintótica sólo si el tamaño global de muestra es grande e impide obtener la exacta) para ver si se rechaza H0 o

FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II


FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II 20
no. Si se rechaza H0, usar las estadísticas descriptivas (medianas) del cuadro Estadísticas descriptivas de SPSS
para tener idea de cuáles mediciones difieren más.

8.2.2 Contrastes específicos


Si se llega a rechazar H0:Me1=Me2=…=Mek, se pasa a comparar las variables Y1 , Y2 ,..., Yk , ya sea en ciertos pares,
si es que hay hipótesis previas, o todos los pares, si no se tiene hipótesis previas. En el último caso, hay que tener
cuidado con la “capitalización del azar” y para ello, hay que trabajar con un nivel α más exigente, por ejemplo, no
0.05, sino 0.01; Dado que se trata de muestras relacionadas, se usan sucesivas pruebas T de Wilcoxon para pares
relacionados. Otra alternativa es trabajar sólo a nivel descriptivo. Si hubiera factores cuyos niveles deseamos
comparar, se aplican pruebas U de Mann Whitney.

8.3 Caso paramétrico: Análisis de varianza de medidas repetidas con distribución normal
Bajo el supuesto de normalidad, con este modelo podemos analizar el efecto (los cambios) del factor repeticiones o
“intra-sujetos” asociado a las k mediciones Y1, Y2,…,Yk de una variable Y observada en k situaciones distintas (o
de k variables Y1, Y2,…,Yk comparables) en los mismos n casos. Adicionalmente se estudia el efecto de los niveles
de otros factores inter-sujetos A, B, etc., es decir que las correspondientes combinaciones AiBj se aplican a grupos
distintos e independientes de casos.

Este diseño requiere menos casos que un diseño de ANOVA factorial y controla mejor la variación al azar entre
sujetos pero al precio de tener que controlar el efecto de posible “contaminación” por repeticiones, esto es que
como son los mismos participantes, además de las diferencias ocasionadas por los contextos hay una diferencia
generada por el aprendizaje o el efecto residual de la medición anterior, entre dos mediciones consecutivas.

Supuestos
Además de los supuestos del ANOVA se asumirá que las varianzas de las diferencias entre las mediciones intra-
sujetos son iguales y que lo mismo sucede con sus correlaciones (“esfericidad”). SPSS verifica este supuesto con
el Test W de Mauchly: Si se rechaza la hipótesis de esfericidad, SPSS hace una corrección en el estadístico F del
análisis al presentar el Análisis de varianza del contraste de diferencias entre repeticiones Y1, Y2,…,Yk. Presenta
dos correcciones de F: la de Greenhouse-Geisser y la de Huynh-Feldt, junto con los correspondientes contrastes.
La de Greenhouse-Geisser es más conservadora y es la que usaremos.

Metodología en SPSS

• Digitar la base con los datos de cada participante en cada variable del grupo Y1, Y2, …,Yk de mediciones, en
un columnas diferentes. Si hubiera otras variables como factores, éstas van como identificadoras de cada grupo
en una columna por factor.
• Aplicar la secuencia básica de comandos es:
Analizar⇒ ⇒Modelo lineal general⇒ ⇒Medidas repetidas→ →Nombre del factor intra-sujetos: reemplazar el
nombre factor1 por uno más específico si se desea→ →Número de niveles: poner el número k de
repeticiones→→Añadir→ →Definir→ → Variables intra-sujetos: Pasar las sucesivas mediciones Y1,…,Yk→
Factores inter-sujetos: Pasar los factores inter-sujetos→ →Opciones: check en Estadísticos descriptivos→ →
Continuar→ → Gráficos: Eje horizontal axis: poner el factor intra-sujetos; Líneas separadas: poner un
factor inter-sujetos → Añadir→ → Continuar→ → Aceptar.
• Examinar la significación en la tabla Prueba de esfericidad de Mauchlyb para ver si se cumple el supuesto de
homogeneidad de varianzas y correlaciones (“esfericidad”). La hipótesis nula H0 es que sí se cumple el supues-
to:
Si no se rechaza H0 (la esfericidad) pasar a la tabla Pruebas de efectos intra-sujetos y ver las significación del
factor intra-sujetos (y la de interacciones con factor inter-sujeto si lo hubiera) asumiendo esfericidad
Si se rechaza la hipótesis H0 de esfericidad, ver las significación del factor intra-sujetos (y la de interacciones
con factor inter-sujeto si lo hubiera) usando la prueba de Greenhouse-Geisser.
• Si hubiera hipótesis de tendencias lineal, cuadrática o cúbica en la evolución de los sujetos, examinar la tabla
Pruebas de contrastes intra-sujetos (factor intra-sujeto) y ver las significaciones para saber cuáles tendencias se
presentan y si cambian con los niveles del factor inter-sujeto. Apoyarse en las estadísticas y gráfico para
interpretar mejor, de ser necesario.
• Para evaluar el o los factores inter-sujetos examinar las significaciones tabla Pruebas de los efectos inter-
sujetos. Pero si ha habido interacción con el factor inter-sujeto, esto último es lo importante.

FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II

También podría gustarte