Está en la página 1de 52

Estadstica I I

Monica Gerber
Facultad de Sociologa - Universidad de Chile
I nferencia de la asociacin entre variables
Prueba t y ANOVA
a. Asociacin entre variables
b. Tablas de contingencia y Prueba Chi cuadrado
c. Prueba T para diferencia de medias entre dos grupos
d. ANOVA T para diferencia de medias entre dos o ms grupos
e. Prueba Z para diferencia de proporciones entre dos grupos

Mdulo 4. I nferencia estadstica de la asociacin entre
variables
Asociacin entre variables
Anlisis Tipo de Anlisis Tipos de variables Ejemplo de Pregunta
Tablas de
contingencia
Asociacin entre dos o
ms variables
nominales/ordinales
2 variables nominales/
ordinales
Existe una asociacin entre el
sexo de una persona y el tipo
deporte que esta practica?
Prueba T
Comparacin de medias
entre dos grupos
1 variable nominal de dos
categoras y 1 variable de
intervalo/razn
Existen diferencias en las
medias de ingreso entre
hombres y mujeres?
ANOVA
Comparacin de medias
entre dos o ms grupos
1 variable nominal/ordinal
de 2 o ms categoras y 1
variable de intervalo/razn
Existen diferencias en las
medias de puntajes en la PSU
entre estudiantes de colegios
privados, subvencionados y
pblicos?
Prueba Z
Comparacin de
proporciones entre dos
grupos
2 variables nominales de
dos categoras de
respuesta
Existen diferencias
significativas en la proporcin
de personas que se sanan de
la polio segn si recibieron una
vacuna o no?
a. Asociacin entre variables
b. Tablas de contingencia y Prueba Chi cuadrado
c. Prueba T para diferencia de medias entre dos grupos
d. ANOVA T para diferencia de medias entre dos o ms grupos
e. Prueba Z para diferencia de proporciones entre dos grupos

Mdulo 4. I nferencia estadstica de la asociacin entre
variables
Pruebas de diferencia de medias
Para analizar la relacin entre una variable dependiente de intervalo/ razn y
una variable dependiente nominal u ordinal
Por ejemplo: existen diferencias significativas en el ingreso promedio entre
hombres y mujeres?
Una prueba de diferencia de medias compara las medias de una variable
intervalo/ razn para dos o ms grupos o categoras de una variable
nominal/ ordinal
El estadstico de inters es la diferencia entre las medias de dos o ms
grupos
Diferencia: X
1
-X
2

Si X
1
> X
2
la diferencia ser positiva
Si X
1
< X
2
la diferencia ser negativa
Si X
1
= X
2
la diferencia ser cero

Pruebas de diferencia de medias
Los grupos de comparacin pueden referirse a:
Diferentes poblaciones (por ejemplo, comparacin entre Chile y Per)
Ser 2 categoras de una variable en una sola poblacin (por ejemplo,
comparacin entre hombres y mujeres)

En ambos casos la variable nominal/ ordinal es considerada como la variable
independiente y la variable de intervalo/ razn es considerada como la
variable dependiente








Pruebas de diferencia de medias
Por ejemplo, si observamos que los hombres ganan en promedio 350 mil
pesos y las mujeres ganan 300 mil pesos, observamos una diferencia entre
las medias de 50 mil pesos
En este caso podramos concluir que existe una asociacin entre sexo e
ingreso en la muestra: los hombres ganan ms que las mujeres


350
300
0
50
100
150
200
250
300
350
400
Hombres Mujeres
Ingreso promedio en miles (datos ficticios)
Pruebas de diferencia de medias
En cambio, si ambos grupos ganaran en promedio 300 mil pesos podramos
concluir que las variables no estn asociadas en la muestra: los hombres y
las mujeres ganan lo mismo (diferencia entre medias = 0)




300 300
0
50
100
150
200
250
300
350
Hombres Mujeres
Ingreso promedio en miles (datos ficticios)
Actividad 1
Trabajando en grupos de 2 personas:
Plantea 2 preguntas de investigacin de diferencia de medias














Pruebas de diferencia de medias
Sin embargo, observar diferencias en las medias de una muestra no nos
dice nada acerca de si podemos inferir esta asociacin a la poblacin

Para evaluar si las diferencias que observamos pueden ser inferidas a la
poblacin, utilizamos pruebas de significacin estadstica que nos indiquen
qu tan probable sera que hubiramos encontrado una diferencia entre las
medias tan o ms grande en una poblacin en la que no existe diferencia en
las medias

En otras palabras: podemos concluir que la diferencia que observamos
entre las medias muestrales reflejan una diferencia real en la poblacin? O
se debe esta diferencia a errores de muestreo? Existe una diferencia
significativa?





Pruebas de diferencia de medias
Existen dos pruebas utilizadas para evaluar diferencia de medias: la Prueba t
y la Prueba ANOVA

La eleccin de una u otra depender del nmero de grupos que queremos
comparar

Prueba t: para comparar medias de 2 grupos

ANOVA: para comparar medias de 3 o ms grupos







Prueba T
Dos tipos de Pruebas t para comparar medias:

Prueba t para muestras independientes: comparacin de dos grupos de
casos distintos (por ejemplo, hombres y mujeres)

Prueba t para muestras relacionadas: comparacin de un mismo grupo
de personas en dos variables o tiempos distintos (por ejemplo, antes y
despus para una misma persona)

En este curso vamos a ver solamente la Prueba t para muestras
independientes





Prueba T para muestras independientes:
pasos en la prueba de hiptesis
Pasos (Ritchey, 2008)

1. Considerar los datos y si se cumplen los supuestos
2. Enunciar pregunta de investigacin
3. Formular hiptesis nula e hiptesis alternativa
4. Describir la distribucin muestral
5. Definir el nivel de significacin y el valor crtico de la prueba
6. Observar los resultados, calcular los efectos de la prueba y el estadstico de
la prueba
7. Tomar la decisin de rechazo
8. I nterpretar los resultados en lenguaje comn






Prueba T para muestras independientes
1. Considerar los datos y si se cumplen los supuestos

Para evaluar la asociacin entre una variable independiente nominal/ ordinal
dicotmica y una variable dependiente de intervalo/ razn
Las muestras son seleccionadas por medio de mtodos aleatorios
Los dos grupos son independientes entre s (no corresponden a los mismos
individuos)
Las varianzas (o desviacin estndar) de la variable de intervalo/ razn son
iguales en los dos grupos considerados. Si las varianzas son muy distintas,
es necesario utilizar frmulas distintas






Prueba T para muestras independientes
2. Enunciar pregunta de investigacin

Existen diferencias significativas en el promedio de horas de deporte que
practican estudiantes y las que practican personas que trabajan?

3. Formular hiptesis nula e hiptesis alternativa

H
0
:
x1
=
x2
: Las medias de los dos grupos son iguales en la poblacin

H
1
de dos colas (sin especificar direccin):
x1

x2
: Las medias de los dos
grupos son distintas

H
1
de una cola (especificando direccin):
x1
>
x2
: La media del grupo 1 es
mayor a la media del grupo 2



Prueba T para muestras independientes
4. Describir la distribucin muestral
Diferencia de medias se distribuyen segn la distribucin t
La distribucin t es distinta dependiendo de los grados de libertad
GL=(n1+n2-2)
A medida que la muestra crece, la distribucin t se acerca ms y ms a una
distribucin normal
Distribucin t centrada en torno a una diferencia de X
1
-X
2
=0
Cuando la muestra es grande (n>121) podemos utilizar valores crticos de la
curva normal








Prueba T para muestras independientes:
pasos en la prueba de hiptesis
5. Definir el nivel de significacin y el valor crtico de la prueba


=0,05 (u otro nivel de significacin)

t
u
-> buscar en tabla








Valor crtico para
distribucin t con 18
grados de libertad,
prueba de dos colas,
y nivel de
significacin de 0,05
t
u
=2,10
Prueba T para muestras independientes
6. Observar los resultados, calcular los efectos de la prueba y el estadstico de
la prueba

Para calcular la Prueba t se obtiene primero el error estndar de la
diferencia entre las medias

s
x1-x2
=
(n
1
1)s
x1
2
+(n
2
1)s
x2
2
n
1
+n
2
2
n
1
+n
2
n
1
n
2


Dnde:
s
x1-x2
: estimacin con varianzas agrupadas del error estndar de la diferencia entre
dos medias
n
1
: tamao de la muestra del grupo 1
n
2
: tamao de la muestra del grupo 2
s
x1
2
: varianza del grupo 1
s
x2
2
: varianza del grupo 2

Prueba T para muestras independientes
6. Observar los resultados, calcular los efectos de la prueba y el
estadstico de la prueba

Luego calculamos la prueba t de diferencia de medias:

t
x1-x2
=
X

1
X

2
s
x1-x2



Donde:
t
x1-x2
: nmero de errores estndares que la diferencia entre dos medias
muestrales se desva de la diferencia hipottica de cero
s
x1-x2
: estimacin del error estndar de la diferencia entre dos medias

X
1
: media muestral del grupo 1
X
2
: media muestral del grupo 2


Prueba T para muestras independientes:
pasos en la prueba de hiptesis
7. Tomar la decisin de rechazo

Si el valor t se encuentra en la zona de rechazo..
O el valor p es menor a 0,05:
Rechazamos la hiptesis nula y concluimos que existen diferencias
significativas entre los dos grupos


8. I nterpretar los resultados en lenguaje comn

Describir los resultados en relacin a las variables consideradas
Hacer referencia a la diferencia entre grupos en la poblacin
Hacer referencia al nivel de significacin




Prueba T para muestras independientes
Ejemplo: justificacin de la homosexualidad (en escala de 1=nunca se
justifica a 10=siempre se justifica) en Chile y Argentina Datos del
Latinobarmetro 2009

1. Considerar los datos y si se cumplen los supuestos

Dado que la variable independiente (pas) es nominal y la variable
dependiente (justificacin de la homosexualidad) es de intervalo/ razn,
podemos utilizar una Prueba T para evaluar si existen diferencias
significativas
Las muestras fueron seleccionadas por medio de mtodos aleatorios
Los dos grupos son independientes entre s (no corresponden a los mismos
individuos)
Vamos a asumir por ahora que las varianzas son iguales entre los dos
grupos



Prueba T para muestras independientes
2. Formular la pregunta: Existen diferencias significativas en la justificacin
de la homosexualidad (en una escala de 1=nunca se justifica a 10=siempre
se justifica) entre Argentinos y Chilenos?











Prueba T para muestras independientes
Ejemplo

3. Formular hiptesis nula y alternativa (definir la direccin de la prueba):
H
0
:
x1
=
x2
(las medias son iguales)
H
1
:
x1

x2
(las medias son distintas)
Prueba de dos colas

4. Describir la distribucin muestral: distribucin t con gl=(2118-2)=2116,
centrada en torno a una diferencia de 0 Podemos utilizar la distribucin
normal

5. Determinar nivel de significacin y valor crtico de la prueba: = 0.05 y
valor crtico para GL=2116 es igual a t
u
=1,96



Prueba T para muestras independientes
Ejemplo

6. Observar resultados de la prueba

s
x1-x2
=
(n
1
-1)s
x1
2
+(n
2
-1)s
x2
2
n
1
+n
2
-2
n
1
+n
2
n
1
n
2

=
(1061-1)3,38
2
+(1057-1)2,71
2
1061+1057-2
1061+1057
10611057
= 0,13316

t
x1-x2
=
X1-X2
s
x1-x2
=
5,83-5,25
0,13316
=4,36



Prueba T para muestras independientes
6. Observar resultados de la prueba









SPSS empieza por realizar una prueba de igualdad de varianzas (Prueba de Levene).
Si el valor p de esta prueba es menor a 0,05
Asumimos que las varianzas son significativamente distintas a 0 a un 95% de
confianza
I nterpertamos los resultados de la prueba T que no asume igualdad de varianzas
En este caso las varianzas son significativamente distitnas


Prueba T para muestras independientes
6. Observar resultados de la prueba









Diferencia de medias= 5,83-5,25= 0,580
t=4,35 y p<0,05


Prueba T para muestras independientes
7. Tomar la decisin de rechazo:
Dado que p<0,05: Rechazamos la hiptesis nula de igualdad de medias a
un 95% de confianza.

8. I nterpretar resultados:
En la poblacin existe una diferencia significativa en la justificacin de la
homosexualidad (en una escala de 1=nunca se justifica a 10=siempre se
justifica) entre Argentinos y Chilenos a un 95% de confianza (p>.05).
Los argentinos opinan en promedio que la homosexualidad se justifica en
mayor medida (5,83) que los chilenos (5,25).






Actividad 2
Considerando los siguientes datos:
1. Plantea la pregunta de
investigacin
2. Plantea las hiptesis nulas y
alternativas de la prueba t
3. Toma la decisin de rechazo
4. I nterpreta los resultados










a. Asociacin entre variables
b. Tablas de contingencia y Prueba Chi cuadrado
c. Prueba T para diferencia de medias entre dos grupos
d. ANOVA T para diferencia de medias entre dos o ms grupos
e. Prueba Z para diferencia de proporciones entre dos grupos

Mdulo 4. I nferencia estadstica de la asociacin entre
variables
Anlisis de Varianza (ANOVA)
Permite evaluar diferencias en las medias de 2 o ms grupos

El enfoque es distinto al de la Prueba T: no se comparan medias grupales entre
s, sino medias grupales con respecto a la media total

Las diferencias entre cada media grupal y la media total son los efectos de la
prueba (efecto principal)

Por ejemplo: Existen diferencias significativas en el ingreso de las personas
segn su rango etreo?

Considerando un promedio de 250 mil pesos:

1839 oos

totol = 220 mil pesos 250 mil pesos = - 30 mil pesos


4064 oos

totol = 350 mil pesos 250 mil pesos = + 100 mil pesos

65 oos y ms

totol = 200 mil pesos 250 mil pesos = - 50 mil pesos




Anlisis de Varianza (ANOVA)














18-34 35-64 65 y ms
aos aos aos
X

1
= 220
X

2
=350
X

3
=200
X

Tutal
=250
Varianza dentro del grupo
Varianza entre grupos
Varianza total
ANOVA descompone la varianza total (desviacin de cada persona hacia la
media total) en varianza dentro del grupo (varianza no explicada) y entre
grupos (varianza explicada)
Anlisis de Varianza (ANOVA)














18-34 35-64 65 y ms
aos aos aos
X

1
= 220
X

2
=350
X

3
=200
X

Tutal
=250
Varianza dentro del grupo
Varianza entre grupos
Varianza total
Ingrcso
cudu cuso
= Ingrcso
totuI
+ efecto explicado de X (grupo etreo) + error
no explicado (otras variables)
Actividad 3
Trabajando en grupos de a 2 personas..
Persona 1: explica a tu compaero/ a los conceptos de varianza dentro
del grupo y varianza entre los grupos
Persona 2: explica a tu compaero/ a los conceptos de varianza explicada
y varianza no explicada
Cul es la relacin entre varianza dentro/ entre grupos y varianza
explicada/ no explicada?








Anlisis de Varianza (ANOVA)
Pruebas de significacin:

Cmo determinamos si una diferencia en ingresos de 50 mil pesos entre
dos grupos etreos es significativa?

Podemos inferir que en la poblacin desde la cual sacamos la muestra
existe una diferencia en ingreso segn rango etreo?

O se debe esta diferencia solamente a un error muestral?

Diferencias grandes cuando existe mayor dispersin entre grupos que
dispersin dentro del grupo




Anlisis de Varianza (ANOVA)
Pasos de la inferencia estadstica para un anlisis de varianza

1. Considerar los datos y si se cumplen los supuestos
2. Formular la pregunta
3. Formular hiptesis nula y alternativa
4. Describir la distribucin muestral
5. Determinar nivel de significacin () y el valor crtico de la prueba
6. Observar resultados de la prueba (estadstico F y valor p)
7. Tomar la decisin de rechazo
8. I nterpretar resultados





Anlisis de Varianza (ANOVA)
1. Considerar los datos y si se cumplen los supuestos
La variable independiente es nominal/ ordinal con dos o ms categoras
de respuesta
La variable dependiente es de intervalo/ razn
Datos provienen de una muestra aleatoria
Tamao de muestra: no existen requisitos, pero a medida que aumenta
el tamao de la muestra ser ms fcil encontrar diferencias
significativas
Las varianzas de los grupos se asume que son iguales.








Anlisis de Varianza (ANOVA)
2. Formular la pregunta
Existen diferencias significativas en el promedio de ingreso entre distintos
grupos etreos?
Existe una relacin significativa entre el ingreso y el grupo etreo de las
personas?
3. Formular hiptesis nula y alternativa
H
0
: Las medias de los tres grupos son iguales a la media total; no existen
diferencias entre las medias grupales
H
0
:
x1
=
x2
=
x3
=
x total
o H
0
:
x cualquier grupo
-
x total
= 0
En el caso de ANOVA, la hiptesis alternativa es que alguno o todos los
efectos principales son significativamente diferentes de cero.
H
1
:
x1

x2

x3

x total



Anlisis de Varianza (ANOVA)
4. Describir la distribucin muestral
Distribucin F con:
gl
entregrupos
= K 1
gl
dentrogrupos
= n K
Donde:
K=Nmero de grupos
n= Tamao de la muestra










Anlisis de Varianza (ANOVA)
5. Determinar nivel de significacin () y el valor crtico de la prueba
Nivel de significacin: 0,05 (u otro)
Valor crtico se puede obtener de tablas (segn gl entre grupos y dentro
de grupos)

6. Observar resultados de la prueba
Clculo de estadstico F como la razn entre varianza entre grupos y
varianza dentro de grupos
A mayor varianza entre los grupos y menor varianza dentro del grupo..
Mayor valor F
Mayor evidencia en contra de la hiptesis nula de igualdad entre
medias de grupos




Baja varianza dentro del
grupo

Alta varianza entre grupos
Alta varianza dentro del
grupo

Baja varianza entre grupos
Anlisis de Varianza (ANOVA)
Tipos de variacin o sumas de cuadrados

SC
T
= variacin total = Suma total de cuadrados
(coJo coso)

(totol)
2


SC
E
= suma de cuadrados entre grupos = variacin explicada

(grupo)

(totol)
2


SC
D
= suma de cuadrados dentro de los grupos = variacin no
explicada
(coJo coso)

(grupo)
2


SC
T
= SC
E
+ SC
D



Anlisis de Varianza (ANOVA)
Varianza del cuadrado medio
Entre grupos: CH
L
=
SC
E
K-1


Dentro de los grupos : CH

=
SC
D
n-K


Donde K=nmero de grupos y n=Tamao total de la muestra

Estadstico de prueba de la razn F (para determinar significancia)

F =
CM
E
CM
D


Valores de F mayores presentan mayor evidencia en contra de la hiptesis
nula de no diferencia entre grupos

Anlisis de Varianza (ANOVA)
7. Tomar la decisin de rechazo
Valores F mayores a un F crtico:
Valores p < 0,05
Evidencia para rechazar la hiptesis nula
Existen diferencias significativas entre los grupos a un 95% de confianza

Valores F menores a un F crtico:
Valores p > 0,05
No proveen evidencia para rechazar la hiptesis nula
No existen diferencias significativas entre los grupos a un 95% de
confianza






Anlisis de Varianza (ANOVA)
8. I nterpretar resultados
I nferencia de la existencia de asociacin
Podemos concluir que en la poblacin existen (o no existen)
diferencias significativas en el promedio de ingreso segn grupos
etreos, a un 95% de confianza.
Descripcin de la direccin del efecto
Describir promedios para distintos grupos (qu grupos presentan
promedios ms altos o bajos?








Anlisis de Varianza (ANOVA)
Ejemplo: diferencias en justificacin de la evasin de impuestos entre
pases latinoamericanos Datos del Latinobarmetro

1. Considerar los datos y si se cumplen los supuestos
Variable independiente es nominal (pases)
Variable dependiente es de intervalo razn (evasin de impuestos de 1 a
10)
Datos provinene de una muestra aleatoria
Asumimos varianzas iguales en cada pas

2. Formular la pregunta

Existen diferencias significativas entre pases latinoamericanos (Argentina,
Bolivia, Brasil y Chile; n total=4545) en qu tan justificable se considera la
evasin de impuestos (escala de 1=nada justificable a totalmente justificable)?



Anlisis de Varianza (ANOVA)

3. Formular hiptesis nula y alternativa

H
0
:
xargentina
=
xbolivia
=
xbrasil
=
xchile
=
x total


H
1
:
xargentina

xbolivia

xbrasil

xchile

x total











Anlisis de Varianza (ANOVA)
4. Describir la distribucin muestral:
Distribucin F con
gl
entregrupos
= K 1 = 4 1 = 3
gl
dentrogrupos
= n K = 4545 - 4 = 4541

5. Determinar nivel de significacin () y el valor crtico de la prueba: = 0,05
y valor crtico F = 2,60








Anlisis de Varianza (ANOVA)
6. Observar resultados de la prueba (estadstico F y valor p)












I nterpretacin: En una escala de 1 (para nada justificable) a 10 (totalmente
justificable) las personas en Argentina le asignan un 2,5 a la evasin de
impuestos. Este valor es superior en los casos de Brasil y Chile (2,9 en ambos
casos). De estos cuatro pases es Bolivia el pas en que las personas consideran
que la evasin de impuestos es ms justificable (3,3).
Anlisis de Varianza (ANOVA)
6. Observar resultados de la prueba (estadstico F y valor p)













I nterpretacin: Esta tabla presenta la suma de cuadrados inter e intra-grupos.
El F calculado es de 26,8 , el cual es significativo a un 95% de confianza
(p<0.05). Es decir, existen diferencias significativas entre los pases a un 95%
de confianza.
Anlisis de Varianza (ANOVA)
7. Tomar la decisin de rechazo:
Dado que p<0.05, rechazamos la hiptesis nula de igualdad de medias a un
95% de confianza.

8. I nterpretar resultados:
Existe una asociacin significativa en la poblacin a un 95% de confianza
entre el pas de una persona y su creencia acerca de qu tan justificable es
evadir impuestos (en una escala de 1=nada justificable a 10=totalmente
justificable).
Los pases muestran medias significativamente distintas. Si bien en todos
los pases las personas tienden a considerar la evasin de impuestos como
no justificable, Bolivia es el pas donde las personas justifican en mayor
medida la evasin de impuestos (3,3), mientras que en Argentina es donde
la consideran menos justificable (2,5)



Actividad 4
Considerando los siguientes datos:
1. Plantea la pregunta de
investigacin
2. Plantea las hiptesis nulas y
alternativas de la prueba ANOVA
3. Toma la decisin de rechazo
4. I nterpreta los resultados

También podría gustarte