Está en la página 1de 6

UNIVERSIDAD NACIONAL DE COLOMBIA SEDE MEDELLÍN

ESCUELA DE ESTADÍSTICA

SEGUNDO TRABAJO Pruebas de Hipótesis (15%) SEM. 01 – 2015 Grupo

La base de datos con la que le corresponde trabajar, se obtiene como una muestra aleatoria de
una gran base de datos. La base original corresponde a la información de 200 estudiantes de la
Universidad Nacional Sede Medellín. Dicha base contiene las variables: GENERO (HOMBRE o
MUJER), ESTATURA (en cm. del estudiante), EDAD (en años), PAPA (obtenido en el semestre
anterior), ESTRATO y TRAB (trabaja SI o NO).

Cada pareja debe generar una base de datos, que corresponderá a una muestra de tamaño 60 de
la base original. Los datos originales están en el archivo: “base.txt”, el cual está disponible en
Moodle. Para hacerlo debe seguir los siguientes pasos:

# Procedimiento para generar archivo de datos para el trabajo


# Primero leer el archivo de datos.

uno <- read.table(file.choose(), header=T)

# Copiar el siguiente código en R

genera <- function(cedula){


set.seed(cedula)
data <- uno[sample(1:200,60),]
data
}

# Para crear la base de datos con la cual trabajara, debe ejecutar la siguiente línea:

datos <- genera(1020474299)

# cedula representa el número de cedula de uno de los dos integrantes. En el trabajo debe indicar
cuál número de cédula usó.
Con la base ya creada debe resolver las siguientes preguntas:

1. Se tiene la creencia de que la Estatura media de los estudiantes es inferior a 170 cms. ¿Es
esto cierto? Justifique su respuesta.

2. ¿Puede afirmarse que el PAPA promedio de las mujeres es superior al de los Hombres?
Justifique su respuesta

3. ¿Se puede afirmar que el porcentaje de personas que trabajan es inferior al 30%? Justifique
su respuesta.

4. ¿Puede afirmarse que la distribución de estudiantes por estrato es la que se muestra en la


siguiente tabla?

Estrato 1 2 3 4 5 6
Proporción 0.05 0.15 0.38 0.28 0.08 0.06

Consideraciones sobre el trabajo.

1. Para la solución de cada pregunta se deben plantear todas las hipótesis de interés, definir
claramente los parámetros a ser utilizados y probar los supuestos que se requieran.
Finalmente la conclusión debe hacerse SOLO usando el valor P.
2. El trabajo debe contener máximo 7 páginas incluyendo estas dos páginas de instrucciones.
3. El trabajo debe ser entregado impreso al profesor el día 26 de mayo hasta las 5:00 p.m.
4. La solución a las preguntas deben hacerse SOLO en R (con comando o usando
R-Commander).

Solución:

NOTA: Se usó el número de cédula 1020474299 de Ricardo Marulanda Grisales.

1. Con respecto a la estatura, primero se realizó una prueba de normalidad con el test de
Shapiro-Wilk para comprobar que la muestra se distribuye normalmente,

Debido a que el valor p es mucho mayor que la significancia que tomamos de 0.05,
concluimos que la muestra tomada se distribuye normalmente (Pues tal afirmación es la
hipótesis nula) y procedemos a utilizar el estadístico t para la siguiente prueba de hipótesis.
De donde podemos hallar el valor p y posteriormente concluir.

H 0 :µ ≥ 170
H a :µ ≤ 170

Con un valor p de 0.4028 mayor que el alfa de 0.05,


tenemos evidencia suficiente para no rechazar Ho, por lo cual la hipótesis alterna no es
verdadera. Por lo tanto, la estatura media de los estudiantes no es menor a 170.

2. Se verificó por medio del test de Shapiro-Wilk que las distribuciones fueran normales

Para el papa de los hombres, dado que el valor p de 0.05811 es mayor al alfa de 0.05, se
concluye que es normal. De igual manera, para el papa de las mujeres con un valor p de
0.283, se verifica que también es normal. Dada que ambas son normales y no se conocen las
desviaciones estándar poblacionales de ninguna de las dos categorías, procedemos a realizar
una prueba de hipótesis para comprobar si las dos varianzas de las muestras son iguales o
diferentes para saber qué estadígrafo de prueba usar.
Teniendo un valor P de 0.4339 mayor que el nivel de significancia de 0.05, se acepta la
hipótesis nula, por lo que hay evidencia muestral suficiente para sugerir que las varianzas son
iguales.
Sabiendo esto, podemos usar el estadígrafo de prueba T

H 0 :μ muj er ≤ μ h ombre
H a : μmujer > μh ombre

Dado un valor P para esta prueba de hipótesis de diferencia de medias de 1, mucho mayor
que el valor de significancia de 0.05, no rechazamos la hipótesis nula, por lo cual no hay
evidencia suficiente para decir que la media del PAPA de las mujeres es mayor que la de los
hombres.

3. Sea P la probabilidad de que un estudiante sacado aleatoriamente de la muestra trabaje.

H 0 :P ≥ 0.3
H a : P<0.3
Ṕ− p0
Z 0=
p 0 (1− p0 )
√ n

Dado que tenemos un valor P de 1, muy superior a la significancia de 0.05, hay evidencia
suficiente para no rechazar Ho, por lo tanto no hay evidencia suficiente para afirmar que el
porcentaje de personas que trabajan es inferior al 30%.

4.
H 0 :P 1=0.05 , P 2=0.15 , P 3=0.38 , P4=0.28 , P5 =0.08 , P 6=0.06
H 0 :P 1 ≠ 0.05 , P 2 ≠ 0.15 , P3 ≠ 0.38 , P 4 ≠ 0.28 , P5 ≠ 0.08 , P6 ≠0.06

Para hallar los valores esperados y el valor P, se recodifica la variable ESTRATO a una nueva
variable llamada prerestrato y se procede a realizar la distribución chi cuadrado.
Como el valor P es mayor a 0.05, no se rechaza Ho, pero como el valor observado de los
estratos 1 y 6 es menor que 5, se procede a juntar tales categorías con la más cercana a
cada una de ellas (la 1 con la 2 y la 6 con la 5).

2 (Oi−Ei )2
k
X =∑
i=1 Ei
Estrato 1 2 3 4 5 6

Esperado 3 9 22.8 16.8 4.8 3.6

Observado 3 6 19 25 5 2

Ahora se recodificó la variable prerestrato a una nueva variable llamada restrato uniendo las
categorías anteriormente mencionadas. Y se procedió a calcular la distribución chi cuadrado
hallando así los valores observados de las nuevas categorías y el valor P con el que se
concluye.

Estrato 1-2 3 4 5-6

Esperado 12 22.8 16.8 8.4

Observado 9 19 25 7

Como el nuevo valor P es mayor que 0.05, no se rechaza Ho y hay evidencias suficientes para
decir que la distribución de estudiantes por estrato es la que se muestra en la tabla.

También podría gustarte