Está en la página 1de 32

Tema 6.

Análisis descriptivo bivariable:


Análisis de la relación entre una variable
categórica y una variable cuantitativa

José Carmona Márquez


Dpto. de Psicología, Universidad de Huelva
OBJETIVOS TEMA 6
OBJETIVO GENERAL: Conocer diferentes procedimientos
para analizar la relación entre una variable categórica y una
variable cuantitativa

OBJETIVOS ESPECÍFICOS: Los alumnos deberán:


1. Saber interpretar las representaciones gráficas más
usuales para describir este tipo de relaciones: diagramas
de cajas, diagramas de barras y diagramas de líneas.
2. Saber elegir una técnica de análisis adecuada al tipo de
datos analizados: diseños bicondicionales vs. diseños
multicondicionales, diseños transversales vs. diseños
longitudinales
3. Saber calcular e interpretar los estadísticos de tamaño del
efecto : d de Cohen y eta cuadrado
4. Comprender la lógica del análisis de la varianza
MATERIALES TEMA 6

Material en sitio MOODLE de la asignatura


Estrés y personalidad en los profesores de EE
Center, D.B., y Callaway, J.M. (1999). Self-reported job stress and personality in teachers of students
with emotional or behavioral disorders. Behavioral Disorders, 25(1), 41-51.

El principal objetivo de este estudio era analizar la relación entre el estrés del
profesorado de Educación Especial (EE) y su personalidad. Para ello se administró un
cuestionario a 149 profesores de EE. Para seleccionar a los participantes se envió una
invitación a los 300 asistentes un congreso sobre EE. Aunque inicialmente hubo 151
profesores que se mostraron dispuestos a participar en la investigación, finalmente sólo
se consiguió la respuesta de 149 de ellos. La edad media de los participantes en esta
investigación fue de 39 años (SX = 10,1), siendo mayoritariamente mujeres (85%).
Entre otras preguntas el cuestionario incluía los ítems del EPQ-R para evaluar la
personalidad y del TSQ (Teacher Stressors Questionnaire) para evaluar el nivel de
stress del profesorado. El TSQ consta de 31 ítems que describen situaciones
potencialmente estresantes de la práctica docente. Cada ítem tiene tres opciones de
respuesta (No he vivido esa situación, Esa situación no me estresa, Esa situación me
estresa), puntuadas respectivamente como 0, 1 y 2. La puntuación total en el TSQ se
calcula como la suma de las puntuaciones a los ítems. Un objetivo secundario de la
investigación fue estudiar si las agresiones sufridas en el último año estaban
relacionadas con el nivel de estrés del profesorado y sus características de
personalidad
Análisis de la relación entre una variable categórica y una
variable cuantitativa (Diseños bicondicionales transversales)
.
Agresión
¿Existe relación entre las agresiones y la extraversión? NO SI
EPQ-R
Extraversión fi fi
La estrategia de análisis más común para responder a 1 1 0
2 0 0
esta pregunta es comparar las distribuciones 3 1 0
condicionales de la variable cuantitativa (extraversión) 4 2 0
para cada uno de los valores de la variable cualitativa 5 3 0
6 5 1
(agresiones)
7 5 2
8 4 0
9 5 3
A la derecha se presentan las distribuciones 10 7 1
condicionales de las puntuaciones en Extraversión 11 4 3
para los profesores que fueron agredidos en el 12 8 1
13 8 1
último año y para los que no.
14 9 2
15 8 3
16 11 2
Puesto que la comparación de las frecuencias de 17 7 2
todos y cada uno de los valores en las distintas 18 4 2
19 3 2
distribuciones condicionales suele resultar bastante
20 9 1
compleja, el análisis habitual se circunscribe a la 21 7 2
comparación de estadísticos resumen de estas 22 4 1
distribuciones condicionales 23 5 0
Total 120 29
Explorando la simetría de las distribuciones condicionales
¿Existe relación entre las agresiones y
Siempre que la distribución no sea claramente la extraversión?
asimétrica, el análisis de este tipo de relaciones
suele realizarse mediante técnicas basadas en la
comparación de las medias de las distribuciones
condicionales

Para explorar las distribuciones


condicionales –asimetría, existencia de outliers- es
conveniente usar un diagrama de cajas múltiple, como
el que se muestra a la derecha

En este caso parece que las distribuciones


son aproximadamente simétricas –lo cual se confirma
con los estadísticos de asimetría también mostrados-,
por lo que podremos usar la estrategia basada en la
comparación de medias.
Agresión Asimetría Error típ.
No -,20 ,22
Si -,09 ,43

Cuando las distribuciones son claramente asimétricas las estrategias de análisis más habituales son:

1. Modificar las distribuciones originales (transformaciones, eliminación de outliers) para


conseguir distribuciones más simétricas que son analizadas mediante la estrategia habitual

2. Usar una estrategia diferente basada en el análisis de la posición que ocupan los valores de la
variable cuantitativa más que en la magnitud de los mismos–estadísticos no paramétricos-
Comparando las medias de las distribuciones condicionales
¿Existe relación entre las agresiones
Aunque aparentemente puedan existir ciertas y la extraversión?
diferencias –mostradas en los gráficos de la derecha-,
es conveniente cuantificar esas diferencias mediante Gráfico de líneas
algún estadístico. Estos estadísticos son conocidos
como estadísticos del tamaño del efecto
Estadístico de tamaño del efecto
En el caso de la comparación de dos medias, el
estadístico de tamaño de efecto más usual es la
diferencia estandarizada de las medias conocida
como d de Cohen

X  X2 S12  S22
d 1 donde SC 
SC 2
Gráfico de barras
Sc = desviación típica conjunta

Extraversión 28,04  21,17


SC   4,96
Agresión Media Varianza 2
No 14,03 28,04
Si 14,31 21,17 14,03  14,31
d  0,06
4,96
Interpretación de la d de Cohen
La d de Cohen indica el número de desviaciones típicas a las que se encuentra la media de un grupo
respecto a la media del otro.

En el ejemplo que venimos usando indicaría que la extraversión media de los sujetos que no han sufrido
agresiones es 0,06 desviaciones típicas inferior a la extraversión media de los sujetos agredidos .

Asumiendo que las distribuciones condicionales se distribuyen normalmente, es posible conocer el %


de casos de un grupo que se encuentra por debajo o por encima de la media del otro. Si ese
porcentaje es muy alto se puede afirmar que existe poco solapamiento de las distribuciones
condicionales y por tanto las puntuaciones de un grupo son claramente superiores a las puntuaciones
del otro grupo. Si ese porcentaje es cercano al 50% el solapamiento es casi completo y por tanto las
puntuaciones en ambos grupos son similares.

Buscando en la tabla de una distribución normal estandarizada, obtenemos que una puntuación típica de
-0,06 deja por debajo al 47,61% de los casos. Esto indicaría que las distribuciones se encuentran casi
solapadas y, por tanto, existe poca diferencia entre las puntuaciones de ambos grupos

Cohen (1988)

d de Cohen Tamaño de efecto


0,2 Pequeño
47,61% 0,5 Medio
0,8 Alto
X1 X 2
Más allá de las muestras: inferencias sobre las poblaciones
¿Existe relación entre las variables en la población?
Es posible que las diferencias observadas en las muestras sean debidas a
lo que se denomina error muestral, esto es, los estadísticos muestrales no
NOTA: La lógica y el detalle de las
suelen coincidir con los parámetros poblacionales.
inferencias estadísticas serán
abordadas en profundidad en el
Por ello, existen unos procedimientos estadísticos que pretenden Análisis de datos en Psicología II
cuantificar el grado de certidumbre con el que podemos afirmar que la
relación observada en la muestra existe en la población. Estos
procedimientos se conocen como Contrastes de Hipótesis Estadísticas.

Lógica de los Contrastes de Hipótesis


1º Se parte del supuesto de que en la población no existe relación, esto es, 1º H0 Si hubiéramos encuestado a todos
no existen diferencias entre las medias de ambos grupos (este supuesto se los profesores de EE agredidos y no
denomina Hipótesis Nula –H0-). agredidos de la población la extraversión
media de ambos grupos sería la misma.
2º Se calcula un Estadístico de Contraste. Para el tipo de relación que
estamos analizando el estadísticos sería una t de Student para muestras 2º
independientes.
14,03 - 14,21
t  0,17
X1  X 2 = Error típico de la diferencia de
1,07
t SX1 X2 medias
S X1  X 2
3º Se determina la probabilidad de obtener un valor del estadístico de 3º
contraste como el obtenido o más extremo si la H0 fuera cierta. p = 0,87

4º Se concluye 4º Se concluye
Rechazando la H0 si esa probabilidad es muy baja
No rechazando la H0 en caso contrario A un nivel de significación de 0,05, no
existen evidencias suficientes para
Habitualmente el estándar para considerar esta probabilidad como muy rechazar la hipótesis nula
baja es que sea inferior a 0.05 (α o nivel de significación)
Más allá de las muestras: inferencias sobre las poblaciones
¿Cuál es la relación entre las variables en la población?
Otra cuestión importante a la hora de generalizar los resultados muestrales
a la población de referencia es cuáles son los parámetros de la relación en
NOTA: La lógica y el detalle de las
la población estudiada.
inferencias estadísticas serán
abordadas en profundidad en el
Por ello, existen unos procedimientos estadísticos que pretenden Análisis de datos en Psicología II
determinar el valor aproximado de los parámetros poblacionales de interés.
Estos procedimientos se conocen como procedimientos de Estimación de
Parámetros.

Lógica de la Estimación de Parámetros


1º Se parte del supuesto de que en la población no existe relación, esto es, 1º H0 Si hubiéramos encuestado a todos
no existen diferencias entre las medias de ambos grupos (este supuesto se los profesores de EE agredidos y no
denomina Hipótesis Nula –H0-). agredidos de la población la extraversión
media de ambos grupos sería la misma.
2º Se calcula el Error Típico del estadístico en el caso de que la H0 sea
cierta. Para el tipo de relación que estamos analizando calcularíamos el 2º
error típico de la diferencia de medias

(n1  1) S12  (n2  1) S 22 1 1 SX1 X2  1,07


S X1  X 2  
n1  n2  2 n1 n2

3º Se establece un Intervalo de Confianza alrededor del estadístico
(diferencia de medias) sumando y restando un número de veces el error
 0,18  1,97 1,07
típico. Este número variará dependiendo del nivel de significación y otras  2,30  μ1  μ 2  1,93
características de los datos.

X1 - X 2  t  SX1 X2 4º Se concluye
2
4º Se concluye Con una probabilidad de 0,95, la diferencia
Con una probabilidad igual al nivel de confianza (complementario al nivel de medias en la población se encuentra
de significación) el parámetro se encuentra en el intervalo establecido entre los valores -2,30 y 1,93
Análisis de la relación entre una variable cualitativa y una
variable cuantitativa (Diseños bicondicionales longitudinales)
.
Supongamos que las puntuaciones en el TSQ indicaban un Agresión
nivel de estrés elevado de los profesores de EE. Que los Antes Después
investigadores decidieron probar la eficacia de un programa TSQ TSQ
de control de estrés en un grupo de 20 profesores de EE. Para 23 20
ello administran el TSQ antes del programa, implementan el 25 28
programa y posteriormente vuelven a administrar el TSQ. Se 29 30
trata de un diseño longitudinal para el estudio de la relación 32 24
entre una variable cualitativa (programa –no/si, 32 25
35 32
antes/después-) y una variable cuantitativa (puntuaciones en
36 30
el TSQ).
36 33
37 33
La estrategia de análisis más habitual se basa igualmente en 37 35
la comparación de las dos distribuciones condicionales de la 37 38
variable cuantitativa. 37 40
38 30
A un nivel descriptivo los pasos son idénticos a los seguidos 39 40
en el caso de los diseños transversales: 40 38
1º Explorar las distribuciones condicionales para 41 32
determinar los estadísticos más adecuados 44 35
2º En caso de que las distribuciones sean 46 35
46 40
aproximadamente simétricas, comparar las medias mediante
46 42
la d de Cohen
Explorando la simetría de las distribuciones condicionales
¿Es eficaz el programa de control del
estrés?

Tal como se puede observar en el gráfico de


cajas de la derecha, las distribuciones parecen
aproximadamente simétricas –lo cual se
confirma con los estadísticos de asimetría
también mostrados-, por lo que podremos usar
la estrategia basada en la comparación de
medias.

Programa Asimetría Error típ.


Antes -,48 ,51
Después -,46 ,51
Comparando las medias de las distribuciones condicionales
¿Existe relación entre las agresiones
y la extraversión?
Para evaluar la intensidad de la relación, el tamaño
del efecto, calculamos la d de Cohen Gráfico de barras

Puntuaciones TSQ 41,12  34,63


SC   6,15
Programa Media Varianza 2
Antes 36,80 41,12
Después 33,00 34,63 36,80  33,00
d  0,62
6,15

Usando el criterio establecido por Cohen (1988) se


puede afirmar que el programa tiene un efecto de un
tamaño medio en el estrés de los profesores de EE.
Más allá de las muestras: inferencias sobre las poblaciones
Las inferencias estadísticas relativas a la comparación de dos
medias obtenidas en muestras relacionadas (diseños NOTA: La lógica y el detalle de las
longitudinales bicondicionales), tienen la misma lógica y se inferencias estadísticas serán
abordadas en profundidad en el
realizan de la misma forma que en el caso anterior. La única Análisis de datos en Psicología II
diferencia reside en la forma de calcular el error típico

SD
S X1  X 2  donde SD = desviación típica de las
puntuaciones diferencia
n
Contraste de hipótesis Estimación de parámetros
1º H0 Si hubiéramos administrado el programa de 1º H0 Si hubiéramos administrado el programa de
control de estrés a todos los profesores de EE de la control de estrés a todos los profesores de EE de la
población, el estrés medio antes y después del población, el estrés medio antes y después del
tratamiento sería el mismo. tratamiento sería el mismo.

2º 2º

t
36,80 - 33,00
 4,09 SX1 X2  0,93
0,93

3º 3,8  2,09  0,93
p = 0,001
1,86  μ1  μ 2  5,74
4º Se concluye
4º Se concluye
A un nivel de significación de 0,05, se rechaza la
hipótesis nula, esto es, existe una disminución Con una probabilidad de 0,95, la diferencia de medias
estadísticamente significativa del nivel de estrés tras la en la población se encuentra entre los valores 1,86 y
administración del programa 5,74
Diseños bicondicionales. Ejercicios
1.- Un investigador realizó una investigación para averiguar si la presencia de dibujos facilitaba o
interfería el aprendizaje de palabras. Se seleccionaron dos grupos de 6 niños de Educación Infantil.
En uno de los grupos la enseñanza de palabras fue implementada con materiales que contenían
dibujos, mientras en el otro grupo los materiales no tenían los dibujos. Después de 20 ensayos de
aprendizaje fue evaluado el recuerdo de palabras en los 12 niños. Los resultados se muestran a
continuación

Sin dibujos 10 11 9 11 13 12
Con dibujos 9 14 18 12 11 14

Determina si existen diferencias entre ambas formas de enseñar las palabras y cuál es el tamaño de
esas diferencias

2.-Un grupo de seis estudiantes universitarios realizaron un test proyectivo que medía predisposición
a la agresión antes de haber fumado un cigarrillo de marihuana. Dos horas después de fumarse el
cigarrillo realizaron el test de nuevo. Las puntuaciones en el test antes y después se presentan a
continuación.
Antes 25 24 36 22 33 40
Después 18 16 22 19 28 29

Determina si el consumo de marihuana tiene algún efecto sobre la agresividad, y cuál es el tamaño
de ese efecto
Análisis de la relación entre una variable cualitativa y una variable
cuantitativa (Diseños multicondicionales transversales)
.
Nivel de estrés
Bajo Medo Alto
¿Existe relación entre el nivel de estrés y el EPQ-R
neuroticismo? Neuroticismo fi fi fi
0 1 3 0
Cuando la variable cualitativa tiene más de dos 1 1 3 0
2 2 3 0
valores (nivel de estrés: bajo, medio, alto), la 3 2 2 1
estrategia de análisis más usual también consiste en 4 2 3 1
la comparación de las medias de las distribuciones 5 0 8 0
6 1 8 2
condicionales de la variable cuantitativa 7 1 6 2
(neuroticismo). 8 2 5 0
9 0 6 3
10 2 7 0
A la derecha se presentan las distribuciones 11 1 4 1
condicionales de las puntuaciones en Neuroticismo 12 0 6 0
para los profesores con un nivel de estrés bajo, 13 1 4 0
medio y alto 14 1 9 0
15 1 8 3
16 0 5 2
Cuando existen más de dos medias a comparar la 17 0 7 0
comparación de medias se suele realizar con unas 18 0 3 4
19 0 2 3
técnicas de análisis conocidas como técnicas de 20 0 2 0
análisis de la varianza 21 0 1 1
22 0 1 0
23 0 0 1
24 0 0 1
Total 18 106 25
Explorando la simetría de las distribuciones condicionales
¿Existe relación entre el nivel de estrés
En un principio, sin embargo, y al igual que y el neuroticismo?
hicimos en el caso de dos medias, debemos
explorar las distribuciones condicionales para
comprobar que las medias son buenos
indicadores de la tendencia central de las
mismas.

Para explorar las distribuciones


condicionales –asimetría, existencia de outliers- es
conveniente usar un diagrama de cajas múltiple, como
el que se muestra a la derecha

En este caso parece que las distribuciones


son aproximadamente simétricas –lo cual se confirma
con los estadísticos de asimetría también mostrados-,
Estrés Asimetría Error típ.
por lo que podremos usar la estrategia basada en la
comparación de medias. Bajo ,33 ,54
Medio -,05 ,23
Alto -,24 ,46

Cuando las distribuciones son claramente asimétricas las estrategias de análisis más habituales son:

1. Modificar las distribuciones originales (transformaciones, eliminación de outliers) para


conseguir distribuciones más simétricas que son analizadas mediante la estrategia habitual

2. Usar una estrategia diferente basada en el análisis de la posición que ocupan los valores de la
variable cuantitativa más que en la magnitud de los mismos–estadísticos no paramétricos-
Comparando las medias de las distribuciones condicionales
¿Existe relación entre el nivel de estrés y el neuroticismo?

A un nivel gráfico podemos evaluar la diferencia entre las medias mediante el mismo
tipo de gráficos usados en el caso de los diseños bicondicionales.

Gráfico de líneas Gráfico de barras

Sin embargo, también en este caso es necesario cuantificar esas diferencias de


medias, cuantificar la intensidad de la relación mediante algún estadístico del
tamaño del efecto.
Antes de introducir el estadístico vamos a explicar la lógica del análisis de la
varianza
Lógica del análisis de la varianza
Uno de los objetivos básicos de la ciencia es la predicción. En su quehacer diario el psicólogo, por
ejemplo, tendrá que predecir el comportamiento: ¿tendrá una recaída el paciente X en su
depresión?, ¿se producirá una mejora en el rendimiento del alumno X si usamos un programa de
economía de fichas?,… Para realizar estas predicciones necesita evidencias, datos que avalen su
pronóstico.

Dos ideas importantes para el análisis de esas evidencias, si la variable a analizar es cuantitativa.
son las siguientes:

1. Cuando no se tiene información adicional, la media es el mejor predictor de los datos, esto es, la
media es el valor que genera menos errores de predicción.

2. La varianza es una medida de los errores de predicción. Conceptualmente el error de predicción


puede entenderse como la distancia desde la predicción al dato real. En principio, parecería
lógico usar la suma o el promedio de las diferencias desde cada dato a la media como una
medidan de la cantidad de error cometido al usar la media como predictor. Sin embargo, puesto
que  (X i  X)  0 , la medida del error de predicción suele ser la suma o el promedio de las
i 1
diferencias al cuadrado desde cada dato a la media.

Suma de Cuadrados Total (SCT) Media Cuadrática Total (MCT)

n
n

 (X i  XT ) 2  i T
(X
i 1
 X ) 2
NOTA: En inferencia
estadística se suele
usar la cuasivarianza en
i 1 lugar de la varianza
n
Lógica del análisis de la varianza
El análisis de la varianza es una técnica de comparación de medias cuyo fundamento
es la descomposición de la varianza en partes atribuibles a los diferentes factores
explicativos. Para entender el concepto de descomposición de la varianza vamos a
ejemplificarlo a partir de un ejemplo numérico simple

Supongamos que tras la administración de algunos fármacos hemos evaluado el dolor


percibido por un grupo de 12 pacientes en una escala de 5 puntos (1 “un dolor
insoportable” hasta 5 “ningún dolor”)1. Los resultados se muestran a continuación:

3 2 2
5 2 1
3 4 3
5 4 2

Supongamos que no sabemos qué fármacos han sido


administrados a los pacientes. ¿Cuál sería la mejor
predicción que podemos hacer del dolor percibido? Sin
duda, la media total de las 12 puntuaciones

36
XT  3
12
1 Ejemplo tomado de Hyperstat online
Lógica del análisis de la varianza
Veamos la cantidad de error que cometeríamos usando la media y cualquier otro valor

Media como predictor Otro valor (2) como predictor


Xi (X i  X) (X i  X) 2 Xi (X i  2) (X i  2) 2
3 0 0 3 1 1
5 2 4 5 3 9
3 0 0 3 1 1
5 2 4 5 3 9
2 -1 1 2 0 0
2 -1 1 2 0 0
4 1 1 4 2 4
4 1 1 4 2 4
2 -1 1 2 0 0
1 -2 4 1 -1 1
3 0 0 3 1 1
2 -1 1 2 0 0
Suma 0 18 Suma 12 30
n n

n  (X i  XT )2  (X i  2) 2
SCT   (X i  X T ) 2  18
n
MC T   1,5 SC   (X i  2) 2  30
i 1
MC  i 1
 2,5
i 1 n i 1 n

Como hemos comprobado en este caso, el error cometido, evaluado a través de la SC o la MC, es
menor en el caso de que se use la media como predictor. Podéis hacer el ejercicio con cualquier
otro valor y en todos los casos se obtendrá una mayor SC o MC
Lógica del análisis de la varianza
Supongamos ahora que conocemos qué medicamento ha sido administrado a cada
paciente.

Aspirina Tylenol Placebo

3 2 2
5 2 1
3 4 3
5 4 2

¿Podemos predecir mejor el dolor de los pacientes?


¿Cometeríamos un menor error de predicción si usamos la media de cada grupo
como predictor?
Esto es lo que evalúa el análisis de la varianza
Lógica del análisis de la varianza
Evaluemos el error que cometeríamos usando la media de cada grupo como predictor

Grupo A (Aspirina) Grupo B (Tylenol)

Xi (X i  X A ) (X i  XA ) 2 Xi (X i  X B ) (X i  X B ) 2
3 -1 1 2 -1 1
5 1 1 2 -1 1
3 -1 1 4 1 1
5 1 1 4 1 1
Suma 0 4 Suma 0 4

nB

 (X  XB )2
nA

nA  (X i  XA ) 2 nB
SCB   (X i  XB ) 2  4 MC B  i 1
i
1
SCA   (X i  XA ) 2  4 MC A  i 1
1 nB
nA i 1
i 1

Grupo C (Placebo)
Xi (X i  X C ) (X i  X C ) 2
2 0 0
1 -1 1
3 1 1
2 0 0
Suma 0 2

nC

nC  (X i  XC ) 2
SCC   (X i  XC ) 2  2 MC C  i 1
 0,5
i 1
nC
Lógica del análisis de la varianza
La suma de las SC anteriores -o la media ponderada de las MC anteriores- será un
indicador de la cantidad de error que se comete usando las medias de los grupos
como predictores. A esta suma se la denomina Suma Cuadrática Intragrupos (SCI) -
o Media Cuadrática Intragrupos (MCI)-

En el ejemplo anterior la Suma Cuadrática Intragrupos será

SCI = 4 +4 +2 =10

Hasta ahora hemos visto dos indicadores del error de predicción:

SCT Indicador del error de predicción cuando sólo se conoce la media total
SCI Indicador del error de predicción cuando se conoce la media de cada grupo

La diferencia entre ambas sumas cuadráticas es un indicador de la ganancia predictiva, y


se denomina Suma Cuadrática Entregrupos (SCE).

En el ejemplo anterior la Suma Cuadrática Entregrupos será

SCE = SCT – SCI = 18 - 10 = 8


Lógica del análisis de la varianza
Se puede demostrar que la SCE es la suma ponderada de las diferencias al
cuadrado desde las medias de los grupos a la media total
m
SC E   n k (X K  X T ) 2
k 1
En el ejemplo anterior la Suma Cuadrática Entregrupos será

SCE = 4*(4-3)2 + 4*(3-3)2 + 4*(2-3)2 = 4+0+4 = 8

En definitiva, el análisis de varianza descompone las distancias cuadráticas desde las


puntuaciones a la media total en dos partes

1. Las distancias cuadráticas desde las puntuaciones a la media del grupo, y

2. Las distancias cuadráticas desde las medias de los grupos a la media total.

Xi Xk XT
(X i  XT ) 2

(X i  X k ) 2 (X k  X T ) 2
Lógica del análisis de la varianza
Cuanto mayor sea la SCE y menor la SCI mayor será la variabilidad entre grupos y
menor la variabilidad dentro de los grupos. Esto querrá decir que las diferencias
entre las puntuaciones se deberán fundamentalmente a las diferencias entre los
grupos. Y que, por tanto, la variable de agrupación nos permitirá predecir bastante
acertadamente las puntuaciones de los sujetos en la variable cuantitativa, o dicho de
otra forma, ambas variables tendrán una relación muy intensa.
Estadístico de tamaño del efecto
Un estadístico del tamaño del efecto derivado del análisis de la varianza
es la eta al cuadrado1 (η2)
SC E
η 2

SC T
La eta al cuadrado se interpreta como proporción de la varianza de la variable
cuantitativa que puede ser explicada o atribuida a la variable de agrupación.
En el ejemplo anterior la eta cuadrado será
lo cual se interpreta como que el 44% de
SC E 8 la variabilidad observada en las
η2    0,44 respuestas a la pregunta acerca del
SCT 18 dolor puede ser explicado por, es
atribuible a, el tipo de medicamento
usado
1 NOTA: Algunos programas como SPSS proporcionan la eta parcial al cuadrado. En cualquier caso cuando sólo existe una variable de
agrupación ambos estadísticos son equivalentes
Lógica del análisis de la varianza
Interpretación de Eta cuadrado
Se puede establecer una correspondencia entre los valores de Eta cuadrado y los valores de la
d de Cohen, que facilita la interpretación en términos de intensidad de la relación entre ambas
variables

d de Cohen Eta cuadrado Tamaño de efecto


0,2 0,01 Pequeño
0,5 0,06 Medio
0,8 0,14 Alto

Comparaciones múltiples
Aunque eta cuadrado nos informe de la intensidad de la relación, del tamaño de las diferencias
entre las medias, no nos informa acerca de dónde se producen esas diferencias, ¿cuáles son
las medias más diferentes?
Para responder a esta cuestión debemos realizar múltiples comparaciones entre medias, una
por cada par de grupos. Para evaluar la diferencia de medias en cada par podemos usar la d
de Cohen.
43
Grupo A XA  4 S  1
2
Comparación A-B d A-B  1 Lo cual mostraría
A 1 que las mayores
42 diferencias de dolor
Grupo B XB  3 S  1
2
Comparación A-C d A -C   2,30 percibido se dan
B 0,87
entre la aspirina y el
placebo
3 2
Grupo C X C  2 SC2  0,5 Comparación B-C d B-C   1,15
0,87
Lógica del análisis de la varianza
Análisis de tendencias
Cuando la variable de agrupación es ordinal es posible analizar la tendencia de los valores de la
variable cuantitativa cuando aumentan o disminuyen los valores de la variable de agrupación. Así,
podremos distinguir dos tipos de tendencia:

Tendencia creciente: cuando al aumentar los valores de la variable de agrupación


aumentan los valores de la variable cuantitativa, evaluado a través de las medias

Tendencia decreciente: cuando al aumentar los valores de la variable de agrupación,


disminuyen los valores de la variable cuantitativa, evaluado a través de las medias

Por ejemplo, la relación entre nivel de


estrés y neuroticismo de un ejemplo
anterior mostraba una clara tendencia
creciente
Más allá de las muestras: inferencias sobre las poblaciones
ANOVA: Contraste de Hipótesis
1º Se parte del supuesto de que en la población no existe relación, esto es,
NOTA: La lógica y el detalle de las
no existen diferencias entre las medias de los grupos (este supuesto se
inferencias estadísticas serán
denomina Hipótesis Nula –H0-). abordadas en profundidad en el
Análisis de datos en Psicología II
2º Se calcula un Estadístico de Contraste. Para el tipo de relación que
estamos analizando el estadísticos sería una F de Snedecor.

MC E donde 1º H0 Si hubiéramos estudiado a todos los


F MCE es la media cuadrática entregrupos sujetos con migraña en la población las
MC I MCI es la media cuadrática intragrupos medias de dolor percibido serían las
mismas en los tres grupos

SC E 2º
MC E  siendo m el número de grupos MC E 
SC E 8
 4
m -1 m -1 2
SC I SC I 10
MC I  siendo n el número de sujetos MC I    1,11
n-m n - m 12 - 3
MC E 4
3º Se determina la probabilidad de obtener un valor del estadístico de F   3,60
contraste como el obtenido o más extremo si la H0 fuera cierta. MC I 1,11

4º Se concluye 3º
Rechazando la H0 si esa probabilidad es muy baja p = 0,07
No rechazando la H0 en caso contrario
4º Se concluye
Habitualmente el estándar para considerar esta probabilidad como muy
baja es que sea inferior a 0.05 (α o nivel de significación) A un nivel de significación de 0,05, no
existen evidencias suficientes para
rechazar la hipótesis nula (pequeños
tamaños muestrales)
Ejercicios sobre análisis de la varianza
1. Volvamos al ejemplo del estudio de la relación entre nivel de estrés y neuroticismo. Sabiendo
que la varianza de las puntuaciones en neuroticismo es 32,78 y que la suma de cuadrados
intragrupos es 4355,96, determina la proporción de varianza de la variable neuroticismo
atribuible a las diferencias en nivel de estrés. ¿Existe una relación intensa entre ambas
variables?

2. Sabiendo las medias y las varianzas de los tres grupos, determina entre qué grupos se
producen las mayores diferencias de neuroticismo.

XBajo  6,72 S2Bajo  20,53

X medio  10,46 S2medio  29,02

X alto  13,80 Salto


2
 36,40
Ejercicios sobre análisis de la varianza
1. Volvamos al ejemplo del estudio de la relación entre nivel de estrés y neuroticismo. Sabiendo
que la varianza de las puntuaciones en neuroticismo es 32,78 y que la suma de cuadrados
intragrupos es 4355,96, determina la proporción de varianza de la variable neuroticismo
atribuible a las diferencias en nivel de estrés. ¿Existe una relación intensa entre ambas
variables?

SCT = MCT * n = 32,78 * 149 = 4884,22 La proporción de varianza explicada


es 0,11
SCE = SCT – SCI = 4884,22 – 4355,96 = 528,26
Según los criterios habituales esto
implica que la relación entre ambas
SC E 528,26
η2    0,11 variables tiene una intensidad media
SCT 4884,22

2. Sabiendo las medias y las varianzas de los tres grupos, determina entre qué grupos se
producen las mayores diferencias de neuroticismo.
6,72  10,46
XBajo  6,72 S 2
 20,53 d bajo-medio   0,75
Bajo 4,98
Entre el grupo de nivel
6,72  13,80 bajo y el grupo de nivel
X medio  10,46 S2medio  29,02 d bajo-alto   1,33 alto
5,34

10,46  13,80
X alto  13,80 Salto
2
 36,40 d medio -alto   0,58
5,72
Más sobre el Análisis de la varianza

En próximos cursos

También podría gustarte