Profesora: Laura Ramaciotti Morales
Inferencia Estadı́stica
Tarea 1
Fecha de entrega: 13 de octubre de 2021 a las 11.59 PM
1 Consideraciones generales
• Escriba su tarea en Word, Latex o PDF.
• Su Word debe ser autocontenido, quiere decir que no puede dejar las conclusiones escritas
sólamente en el Excel. Leyendo el Word, el ayudante y yo deberı́amos ser capaces de entender
perfectamente su procedimiento. No obstante, la entrega del Excel es indispensable para que su
tarea sea revisada.
• Cada vez que haga un desarrollo matemático, use los sı́mbolos matemáticos de Word o Latex.
Sea cuidadoso con el uso de gorros y subı́ndices. Si no tiene este formato no se le dará puntaje
por su respuesta.
• Su excel debe ser impecable:
– Cada pregunta debe ser desarrollada en una hoja distinta.
– En la primera hoja debe mostrar la base de datos trabajada
– Cada vez que haga un cálculo use fórmulas, pues no se dará puntaje por números sencillos.
Además, escriba siempre en palabras qué representa el cálculo. Por ejemplo, si en una celda
calcula el promedio, debe mostrar la fórmula y no sólo el número. En la celda aledaña debe
escribir ”Promedio de la variable X”
– Si un ejercicio tiene más de una letra, debe desarrollarlo ordenadamente en el Excel, indi-
cando qué letra está calculando.
• Muestre siempre en su PDF la fórmula matemática que usó para llegar a la respuesta, y muestre
también los valores en su excel.
2 La base de datos
En este ejercicio, usarán la base de datos ”Young People Survey”, respondida por una muestra estudi-
antes ingleses en 2013. Contiene datos para una muestra de 1050 alumnos. Se pide que baje el archivo
Excel adjunto. Este archivo tiene dos hojas. En la primera está la base de datos que debe usar. La
descripción de cada una de las variables está en este link.
En esta tarea se le pedirá que usted elija las variables con las que trabajar. Note que todas las
variables numéricas son escalas que van del 1 al 5 (a menos que diga lo contrario en el link donde se
explica cada variable).
3 Ejercicios (14 puntos)
En esta tarea debe trabajar con 3 muestras independientes. Haremos esto separando las respuestas
a una veriable X de la siguiente forma. Considerar por ejemplo si X fuera la variable ”Me gusta
comer papas fritas” (con valores del 1 al 5 donde 1 es ”muy en desacuerdo” y 5 es ”muy de acuerdo”,
crearemos 1 variable nueva Z que puede tomar 3 valores:
• Z = 1. ”Poco”, si la persona responde a X con un 1 o un 2
• Z = 2 ”Medio”, si la persona responde a X con un 3
• Z = 3 ”Mucho”, si la persona responde a X con un 4 o 5
1. (2 puntos) Elija una variable X, que tiene que ser de la categorı́a HOBBIES INTERESTS,
PHOBIAS o SPENDING HABITS. Use est variable para crear la variable Z haciendo uso de la
función SI de excel. Debe mostrar su resultado en Excel, pero tambien describir en palabras
cómo lo hizo en su word.
En esta tarea, la variable X es ”Active sport”, que indica del 1 al 5 si a la persona le gusta hacer
deportes en nivel competitivo (Sport at competitive level).
Se crea una nueva variable Z que se llama ”SPORT CAT”, que toma el valor Z = 1 si
la persona responde a X con un 1 o un 2 (poco interés); Z = 2 si la persona responde a X con
un 3 (interés medio) y Z = 3 si la persona responde X con un 4 o 5 (harto interés).
Se usó la fórmula IF o SI para crear la variable. Se hace con IF anidados (o un IF den-
tro de otro IF).
=IF(BC3¿3;3;IF(BC3=3;2;IF(BC3¡3;1;0)))
Este IF inicia con la evaluación de la variable X (la celda BC3):
• Si la variable X es mayor que 3, la función arroja un 3, si no, mira nuevamente la variable
X (celda BC3)
• En la segunda iteración, si la variable X es igual a 3, la función arroja un 2, si no entonces
mira nuevamente la variable X (celda BC3)
• Si la variable X no era mayor que 3 ni tampoco era 3, ahora evalúa si es menor que 3, En
caso de que sı́, la función arroja un 1. En caso de que no, arroja un cero.
2. (9 puntos) Elija una variable Y de la base de datos que usted tenga relación con X (y por lo
tanto, con Z). La variable que elija debe ser numérica, es decir, debe tener valores entre 1 y 5, y
debe ser de la categorı́a PERSONALITY TRAITS, VIEWS ON LIFE OPINIONS.
Se elige como variable Y la variable ”Healthy eating”, donde la persona indica del 1 al 5 qué
tan de acuerdo está con la frase ”tengo un estilo de vida saludable” (I live a very healthy
lifestyle).
(a) (2 puntos) Explique con sus propias palabras por qué cree que hay relación, justificando
sus juicios con información de internet (debe adjuntar el Link), o con experiencias de la
vida real.
Creo que existe una relación: las personas que están más interesadas en el deporte compet-
itivo deberı́an ser más sanas. Esto, porque es necesario alimentarse bien para poder rendir
deportivamente.
En este link, hablan de que la alimentación influye en el deporte: la gente que come sana
suele rendir mejor deportivamente. Luego, yo esperarı́a ver que la gente que hace deporte
competitivo se alimenta mejor que la que no, porque le preocupa más el tema.
(b) (3 puntos) Demuestre que hay una relación entre X y Z mediante un test de ANOVA (es
decir, usted tiene que elegir Y de forma tal que se rechace el test de ANOVA). Para
tomar la decisión, use un valor crı́tico con α = 0, 05, pero tambien tiene que analizar el
valor p del test.
El procedimiento: Como hicimos en clases, las y los alumnos deben primero construir la
muestra con la que van a trabajar. En una hoja de excel, deberán poner todos los valores
de Y obtenidos para los tres grupos de Z (poco interés, interés medio y mucho interés).
En el caso especı́fico de la variable Z que yo elegı́, hay 324 personas que dijeron que
les interesaba poco; 191 personas que dijeron les interesaba mas o menos, y 492 que dijeron
que les interesaba mucho. Dado que necesito trabajar con tres grupos iguales, se eligió al
grupo ”medio” entero, y se eligieron 191 al azar en el grupo ”poco” y 191 al azar en el
grupo ”Mucho”.
Notar que no pueden haber observaciones en ningún grupo para las cuales la vari-
able Y esté en blanco. Tienen que necesariamente elegir personas que hayan respondido a
ambas preguntas (si les interesan los deportes competitivos, y si tienen un estilo de vida
sano).
ANOVA:
• Plantear hipótesis:
H0 : µpoco = µmedio = µalto
Ha : al menos una de las medias es distinta del resto
• Calcular estadı́stico de prueba:
Se debe revisar en excel que el procedimiento de ANOVA sea adecuado. Deben calcular
SCE y SCTratamiento, aplicando correctamente las fórmulas. Deben de forma ordenada
poner los principales resultados:
Número de grupos (I) 3
Observaciones por grupo (J) 191
Tamaño total de muestra 573
Suma de Cuadrados Tratamiento (SCTr) 12,12
Suma de Cuadrados del Error (SCE) 472,38
Grados de libertad numerador (I − 1) 2
Grados de libertad denominador I(J − 1) 570
Media de SCTr 6,06
Media de SCE 0,83
Estadı́stico de prueba ANOVA 7,31
• Calcular el valor crı́tico: Para α = 0, 05
F20,95 , 570 = 3, 01
• Tomar decisión
De acuerdo a estos valores, se debe rechazar la hipótesis nula, concluyendo que la media
en ”vida sana” no es igual en todos los grupos (por lo que podemos pensar que existe
alguna relación).
Respecto del valor p, estamos pensando el el área hacia de derecha del estadı́stico de ANOVA
(f = 6, 06):
pr(F > 6, 06)
, dado que H0 es real.
Esto se calcula con la función FDIST de excel, donde tenemos que poner en el primer
argumento el valor del estadı́stico de ANOVA calculado, en el segundo debemos poner
los grados de libertad del numerador, y en el tercero los grados de libertad del denominador.
p = 0, 000732267
Con el valor p se toma la misma decisión de rechazar la hipótesis nula, desde que p < α.
(c) (3 puntos) Explore con 3 test de diferencia de medias cuáles son los grupos distintos entre
sı́, usando α = 0, 05. Grafique los resultados.
Hipótesis 1)
H0 : µpoco = µmedio
Ha : µpoco ̸= µmedio
Hipótesis 2)
H0 : µpoco = µmucho
Ha : µpoco ̸= µmucho
Hipótesis 3)
H0 : µmedio = µmucho
Ha : µmedio ̸= µmucho
En primer lugar, tenemos que ver qué test de comparación de medias se puede usar. En
ningún caso conocemos las varianzas poblacionales, por lo que tenemos que hacer un test
de razón de varianzas para evaluar si las varianzas son iguales o no. Se va a mostrar el
procedimiento para los tres tests juntos, por temas de orden.
• plantear hipótesis
– Test 1
2
σpoco
H0 : 2
=1
σmedio
2
σpoco
H1 : 2
̸= 1
σmedio
– Test 2
2
σpoco
H0 : 2 =1
σmucho
2
σpoco
H1 : 2 ̸= 1
σmucho
– Test 3
2
σmedio
H0 : 2
=1
σmucho
2
σmedio
H1 : 2
̸= 1
σmucho
• Calcular estadı́stico de prueba. La fórmula es:
S12
F =
S22
• Valores crı́ticos: Para todos los tests el valor es el mismo:
α
F190,190
2
= 0, 79
1− α
F190,190
2
= 1, 27
Los valores principales y los resultados se muestran abajo:
• Decisión: En el caso del test 1 y 3, se usan test de diferencias de medias con varianza
desconocidas y distintas. Para el test 2, se usa un test de diferencia de medias con
varianzas desconocidas e iguales.
H0 : µpoco = µmedio H0 : µmedio = µmucho H0 : µpoco = µmucho
F 1,35 F 1,37 F 1,02
n1 191 n1 191 n1 191
n2 191 n2 191 n2 191
F crı́tico inf 0,79 F crı́tico inf 0,79 F crı́tico inf 0,79
F crı́tico sup 1,27 F crı́tico sup 1,27 F crı́tico sup 1,27
Decisión Rechazar H0 Decisión Rechazar H0 Decisión No rechazar H0
Ahora haremos los tres tests de diferencia de medias:
• Test 1, donde Ha : µpoco ̸= µmedio :
– Estadı́stico de prueba:
Ȳpoco − Ȳmedio
Z=q 2 =3
Spoco s2medio
npoco
+ nmedio
– Valor crı́tico (como es un test de dos colas, se tienen dos valores crı́ticos)
Z α2 = −1, 96
Z1− α2 = 1, 96
– Decisión: Se rechaza la hipóitesis nula, lo que significa que le grupo con poca
apreciación por el deporte competitivo tiene un nivel de vida saludable distinto del
grupo con mediano interés por el deporte competitivo.
• Test 2, donde Ha : µpoco ̸= µmucho :
– Estadı́stico de prueba: Como vimos recién, este es un test con varianzas descono-
cidas e iguales.
Ȳpoco − Ȳmucho
t= q = 3, 44
1 1
sp npoco + nmucho
– Valores crı́ticos (como es un test de dos colas, se tienen dos valores crı́ticos):
n +nmucho −2
t αpoco = −1, 97
2
n +nmucho −2
t1−poco
α = −1, 97
2
– Decisión: También se rechaza la hipótesis nula, indicando que se encontró una
diferencia entre los hábitos de salud de las personas que les gusta poco el deporte
competitivo y los de las personas que les gusta mucho.
• Test 3, con Ha : µmedio ̸= µmucho :
∗ Estadı́stico de prueba:
Ȳpoco − Ȳmedio
Z=q 2 = 0, 06
Spoco s2medio
npoco
+ nmedio
∗ Valor crı́tico (como es un test de dos colas, se tienen dos valores crı́ticos)
Z α2 = −1, 96
Z1− α2 = 1, 96
∗ Decisión: No se rechaza la hipótesis nula, es decir no pudimos demostrar que el
grupo ”medio” y ”mucho” tengan hábitos alimenticios muy distintos.
Los Valores se sacaron de la siguiente tabla:
Test 1 Test 2 Test 3
H0 : µpoco < µmedio H0 : µpoco < µmucho H0 : µmedio < µmucho
Ȳpoco 2,83 Ȳpoco 2,83 Ȳmedio 3,10
Ȳmedio 3,10 Ȳmucho 3,16 Ȳmucho 3,16
2 2 2
Spoco 0,90 Spoco 0,90 Smedio 0,67
2 2 2
Smedio 0,67 Smucho 0,92 Smucho 0,92
npoco 191 npoco 191 nmedio 191
nmedio 191 nmucho 191 nmucho 191
Z 3,00 t 3,44 Z 0,06
Z crı́tico inf -1,96 t critico inf -1,97 Z crı́tico inf -1,96
Z crı́tico sup 1,96 t crı́tico sup 1,97 Z crı́tico sup 1,96
Como conclusión, encontramos que el grupo con poca valoración es distito del grupo de
valoración media. A su vez, el grupo de poca valoración es distinto del grupo de alta
valoración. Sin embargo, no se pudo demostrar que el grupio de valoracion alta sea distinto
del grupo de valoración media.
El gráfico se muestra a continuación:
En el gráfico tienen que estar OK las dimensiones X e Y, tienen que señalar la media de
los grupos y alguna medida de variabilidad (se tiene que notar que el grupo del medio tiene
menos variabilidad que el resto).
(d) (1 puntos) ¿Por qué es necesario hacer test de comparaciones de medias una vez hecho el
test de ANOVA?
El test de ANOVA sólo nos dice con un 95% de confianza que existe (al menos) alguno de
estos grupos que es distinto del resto, pero no nos dice nada respecto de cuál.
Sabemos a partir del test de ANOVA que existe alguna relación entre Z e Y, pero tenemos
que explorar con mayor detalle si queremos entender el tipo de relación que hay.
Nota: si es necesario, elija muestras aleatorias en cada categorı́a de Z para que los tamaños de
muestra k sean iguales en todos los grupos.
3. (3 puntos) Ahora elija una variable W que tenga 5 categorı́as (o valores del 1 al 5). Sin embargo,
tiene que elegir una variable W que crea que no se relaciona para nada con Y. Evalúe con un
test de ANOVA si es verdad que no se relacionan. Para tomar la decisión, use un valor crı́tico
con α = 0, 05, pero tambien analice el valor p del test.
Nota: si es necesario, elija muestras aleatorias en cada categorı́a de W para que los tamaños de
muestra k sean iguales en todos los grupos.
Se eligió como variable W el nivel de preferencia por perros grandes o chicos, donde 1 es perros
chicos, 5 es perros grandes (un número 3 serı́a perros medianos).
El procedimiento: Como hicimos en clases, las y los alumnos deben primero construir la
muestra con la que van a trabajar. En una hoja de excel, deberán poner todos los valores de Y
obtenidos para los 5 grupos de W.
Deben hacer el mismo procedimiento descrito arriba para lograr grupos de igual tamaño.
Notar que no pueden haber observaciones en ningún grupo para las cuales la variable Y
esté en blanco. Tienen que necesariamente elegir personas que hayan respondido a ambas
preguntas (si les interesan los deportes competitivos, y prefieren perros chicos o grandes).
ANOVA:
• Plantear hipótesis:
H0 : µ1 = µ2 = µ3 = µ4 = µ5
Ha : al menos una de las medias es distinta del resto
• Calcular estadı́stico de prueba:
Se debe revisar en excel que el procedimiento de ANOVA sea adecuado. Deben calcular
SCE y SCTratamiento, aplicando correctamente las fórmulas. Deben de forma ordenada
poner los principales resultados:
Número de grupos (I) 5
Observaciones por grupo (J) 40
Tamaño total de muestra 200
Suma de Cuadrados Tratamiento (SCTr) 5,37
Suma de Cuadrados del Error (SCE) 178,55
Grados de libertad numerador (I − 1) 4
Grados de libertad denominador I(J − 1) 195
Media de SCTr 1,34
Media de SCE 0,92
Estadı́stico de prueba ANOVA 1,47
• Calcular el valor crı́tico:
0,95
F4,195 = 2, 42
• Tomar decisión
De acuerdo a estos valores, no se puede rechazar la hipótesis nula, lo que es consistente con
lo que pensamos inicialmente: no existe diferencia entre los grupos, lo que es equivalente a
pensar que no existe relación entre estas dos variables.
Respecto del valor p, estamos pensando el el área hacia de derecha del estadı́stico
de ANOVA (f = 1, 47):
pr(F > 1, 47)
, dado que H0 es real.
Esto se calcula con la función FDIST de excel, donde tenemos que poner en el primer
argumento el valor del estadı́stico de ANOVA calculado, en el segundo debemos poner
los grados de libertad del numerador, y en el tercero los grados de libertad del denominador.
p = 0, 21
Con el valor p se toma la misma decisión de rechazar la hipótesis nula, desde que p < α.