Está en la página 1de 8

UNIVERSIDAD INDUSTRIAL DE SANTANDER.

ESCUELA DE MATEMÁTICAS. BUCARAMANGA


Profesor: Andrés Ríos-Gutiérrez
ESTADÍSTICA II

Nombre: __________________________________________ Identificación: ________________

TALLER DE DIFERENCIA DE MEDIAS:

Los datos de la tabla Estructura CHC_2017.csv corresponden a los datos de Censo de Habitantes
de Calle (CHC) aplicado en el 2017 en la ciudad de Bogotá. La columna P8 corresponde a los años
cumplidos por cada habitante entrevistado en el 2017.

En el siguiente código en lenguaje R, el elemento edad_2017 corresponde al vector con los


correspondientes datos previamente eliminados los datos faltantes (NA).

> library(readr)
> Estructura_CHC_2017 <- read_delim("C:/Users/User/Downloads/Estructura
CHC_2017.csv", ";", escape_double = FALSE, trim_ws = TRUE)
> View(Estructura_CHC_2017)
> edad_2017 <- Estructura_CHC_2017$P8
> edad_2017 <- na.omit(edad_2017) # Para eliminar valores NA

Los datos de la tabla CHC_2019.csv corresponden a los datos de Censo de Habitantes de Calle
(CHC) aplicado en el 2019 en la ciudad de Bogotá. La columna P8R corresponde a los años
cumplidos por cada habitante entrevistado en el 2019.

En el siguiente código en lenguaje R, el elemento edad_2019 corresponde al vector con los


correspondientes datos previamente eliminados los datos faltantes (NA).

> library(readr)
> CHC_2019 <- read_delim("C:/Users/User/Downloads/CHC_2019.csv",
";", escape_double = FALSE, trim_ws = TRUE)
> View(CHC_2019)
> edad_2019 <- CHC_2019$P8R
> edad_2019 <- na.omit(edad_2019) # Para eliminar valores NA
Asumiendo el supuesto de normalidad,
Ejercicio 1: El intervalo de confianza para la varianza de la variable con datos dados por el elemento
edad_2019, corresponde a __________________________________________
(186.7056,197.2617)
2
y se interpreta por ________________________________________________
Con una confianza del 95% se estima que la varianza está entre 186.7056 edad
__________________________________________________________
y 197.2617 edad
2

Algunos supuestos para realizar el intervalo de confianza o la prueba de hipótesis para la diferencia
de dos poblaciones independientes son:

(1) Mismas poblaciones: 𝑋 , … , 𝑋 , 𝑋 ∼ Distribución (Parámetros ) y 𝑌 , … , 𝑌 , 𝑌 ∼


Distribución (Parámetros )
(2) Independencia entre: 𝑋 , … , 𝑋 son independientes de 𝑌 , … , 𝑌 , y viceversa.
(3) Independencia dentro: 𝑋 , … , 𝑋 son independientes entre sí y 𝑌 , … , 𝑌 son independientes
entre sí.
(4) Normalidad: 𝑋 , … , 𝑋 , 𝑋 ∼ Normal(𝜇 , 𝜎 ) y 𝑌 , … , 𝑌 , 𝑌 ∼ Normal(𝜇 , 𝜎 )
(5) Varianzas conocidas: los valores de 𝜎 y 𝜎 son conocidos.

Se toma 𝑋, 𝑌 ≔“Variable aleatoria de los datos de edad_2017 y edad_2019, respectivamente”.

Ejercicio 2: Al usar el siguiente código en lenguaje R se concluye respecto al supuesto (4) que:

> library(nortest)
> ad.test(edad_2019)

Anderson-Darling normality test


data: edad_2019
A = 93.094, p-value < 2.2e-16
__________________________________________________________
Con una confianza del 95% se rechaza el supuesto de normalidad de la variable aleatoria
__________________________________________________________
edad de un habitante de calle en el año 2019

Ejercicio 3: Asumiendo el supuesto (4), al tener las varianzas dadas por 𝜎 = 182 y 𝜎 =
192, se concluye que: no se rechaza con una confianza del 95% que __________________
__________________________________________________________
__________________________________________________________
Ejercicio 4: De acuerdo con el ejercicio 3 se tiene que la diferencia entre el 2019 y el 2017
corresponde a (marcar una opción con una X):

❑ Diferencia de medias con varianzas conocidas


❑ Diferencia de medias con varianzas desconocidas pero iguales a nivel poblacional
❑ Diferencia de medias con varianzas desconocidas y no se asume igualdad de varianzas a nivel
poblacional

Ejercicio 5: Asumiendo el supuesto (4) y (5) con 𝜎 = 182 y 𝜎 = 192 determine e interprete
el intervalo de confianza para la diferencia de medias entre el 2019 y el 2017 _____________
__________________________________________________________
__________________________________________________________
Ejercicio 6: Asumiendo el supuesto (4) y (5) con 𝜎 = 182 y 𝜎 = 192 pruebe que la
diferencia de edad de un habitante de calle en Bogotá en el 2019 es a lo sumo 2.2 años con respecto
a la misma edad en el 2017.
Ejercicio 7: Descriptivamente se realizan los diagramas de barras para los elementos edad_2017 y
edad_2019 para establecer si la varianza de las correspondientes variables aleatorias es la misma o
no.

> par(mfrow = c(1, 2)) # Dividir la ventana gráfica en 1 fila y 2 columnas


> boxplot(edad_2017, ylim = c(14, 90), pch = 20, ylab = "2017")
> boxplot(edad_2019, ylim = c(14, 90), pch = 20, ylab = "2019")

De acuerdo con los diagramas ¿la varianza de ambas variables aleatorias se puede considerar igual o
no? Justifique su respuesta: __________________________________________
__________________________________________________________
Ejercicio 8: ¿Para la encuesta del año 2019 se podía tomar como varianza conocida el valor dado si
se utiliza como prueba piloto los datos del elemento edad_2017? Para ello use el siguiente código y
sus resultados:

> var(edad_2017)
[1] 180.8725
> var(edad_2019)
[1] 191.8743
> length(edad_2019)
[1] 10162
__________________________________________________________
__________________________________________________________
Asumiendo los supuestos (1), (2), (3) y (4) se puede probar la hipótesis nula versus alternativa dada
por
𝜎
⎧𝐻 : =1
𝐻 : 𝜎 =𝜎 𝜎
equivalente a probar ,
𝐻𝑎: 𝜎 ≠ 𝜎 ⎨𝐻𝑎: 𝜎 ≠1
⎩ 𝜎
utilizando la siguiente tabla

𝜎 Valor p:
⎧𝐻 : =1
Estadístico 𝑆 Tipo de 𝜎 2𝑃 𝐹 ≥ 𝐹𝑐 si 𝐹 > 1
𝐹 = 𝑆
,
de prueba prueba: ⎨ 𝜎
𝐻𝑎: ≠1 2𝑃 𝐹 ≤ 𝐹𝑐 si 𝐹 ≤ 1
⎩ 𝜎 ,
Región crítica:

La hipótesis 𝐻 : 𝜎 = 𝜎 corresponde al supuesto (5) dado por:

(6) Igualdad de varianzas a nivel poblacional: 𝜎 = 𝜎

Ejercicio 9: Al asumir los supuestos (1), (2), (3) y (4), y, con base en el siguiente código y sus
resultados, se concluye sobre el supuesto (6) que:
> F_c = var(edad_2017)/var(edad_2019)
> F_c
[1] 0.9426613
> c(qf(0.05/2, length(edad_2017) - 1, length(edad_2019) - 1),
qf(1-0.05/2, length(edad_2017) - 1, length(edad_2019) - 1))
[1] 0.9576748 1.0440104
__________________________________________________________
__________________________________________________________

Ejercicio 10: Siguiendo el ejercicio 9, el valor p corresponde a _____________________

Ejercicio 11: De acuerdo con los resultados en el ejercicio 9 se tiene que la diferencia entre el 2019
y el 2017 corresponde a (marcar una opción con una X):

❑ Diferencia de medias con varianzas conocidas


❑ Diferencia de medias con varianzas desconocidas pero iguales a nivel poblacional
❑ Diferencia de medias con varianzas desconocidas y no se asume igualdad de varianzas a nivel
poblacional

Ejercicio 12: El intervalo de confianza para el cociente de varianzas está dado por
𝑆 𝑆
(qf(1 − 𝛼/2, 𝑛 − 1, 𝑛 − 1)) , (qf(𝛼/2, 𝑛 − 1, 𝑛 − 1))
𝑆 𝑆
el correspondiente intervalo de confianza al 95% se interpreta por: ____________________
__________________________________________________________
Ejercicio 13: Asumiendo los supuestos (1), (2),( 3) Y (4), y el resultado de la prueba de hipótesis
para ver la igualdad de varianzas a nivel poblacional (supuesto (6)), se tiene que el intervalo de
confianza al 95% para la diferencia de medias, 𝜇 −𝜇 , donde 𝜇 corresponde a la media
de la variable aleatoria de los datos de edad_2019 y donde 𝜇 corresponde a la media de la
variable aleatoria de los datos de edad_2017; está dado por:

Línea 1: > error_estandar = sqrt((192/length(edad_2019)) +


(182/length(edad_2017)))
Línea 2: > error_estandar
[1] 0.2123583
Línea 3: > dif_medias <- mean(edad_2019) - mean(edad_2017)
Línea 4: > c(dif_medias - qnorm(1-0.05/2)*error_estandar,
dif_medias + qnorm(1-0.05/2)*error_estandar) # Varianzas conocidas
[1] 1.600989 2.433418

Línea 5: > t.test(x = edad_2019, y = edad_2017, conf.level = 0.95,


var.equal = T)
# Igualdad de varianzas a nivel poblacional

Two Sample t-test


data: edad_2019 and edad_2017
t = 9.4648, df = 17106, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
1.599455 2.434952
sample estimates:
mean of x mean of y
41.07292 39.05572

Línea 6: > t.test(x = edad_2019, y = edad_2017, conf.level = 0.95)


# No se asume igualdad de varianzas a nivel poblacional

Welch Two Sample t-test


data: edad_2019 and edad_2017
t = 9.5175, df = 15204, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
1.601762 2.432644
sample estimates:
mean of x mean of y
41.07292 39.05572

❑ Al resultado (1.600989, 2.433418) de la Línea 4 del código.


❑ Al resultado (1.599455, 2.434952) de la Línea 5 del código.
❑ Al resultado (1.601762, 2.432644) de la Línea 6 del código.

Ejercicio 14: Se interpreta el resultado del intervalo de confianza del ejercicio 12 por ________
__________________________________________________________
__________________________________________________________
Ejercicio 15: La hipótesis nula versus alternativa para probar que la diferencia de edad de un
habitante de calle de Bogotá entre el año 2019 y el año 2017 es superior a 2 años corresponde a:
Ejercicio 16: Al asumir los supuestos (1), (2), (3) y (4) únicamente (es decir, no se asumen los
supuestos (5) y (6)), para probar con una confianza del 98% la hipótesis del ejercicio 14; se debe
utilizar el siguiente código en lenguaje R:

❑ t.test(x = edad_2019, y = edad_2017, conf.level = 0.98, mu = 2,


var.equal = T, alternative = "greater")
❑ t.test(x = edad_2019, y = edad_2017, conf.level = 0.98, mu = 2,
alternative = "greater")
❑ t.test(x = edad_2019, y = edad_2017, conf.level = 0.98, mu = 2,
paired = T, alternative = "greater")

Ejercicio 17: Siguiendo el ejercicio 15, se tiene como resultado el siguiente:

Welch Two Sample t-test (o) Two Sample t-test


data: edad_2019 and edad_2017
t = 0.081168, df = 15204, p-value = 0.4677
alternative hypothesis: true difference in means is greater than 2
98 percent confidence interval:
1.581881 Inf
sample estimates:
mean of x mean of y
41.07292 39.05572
De acuerdo con el valor p se concluye que __________________________________
__________________________________________________________
Ejercicio 18: Siguiendo el ejercicio 16, se tiene que los valores de 𝑑 para los cuáles no se rechaza la
hipótesis nula corresponde a __________________________________________

Ejercicio 19: Siguiendo el ejercicio 16, se tiene que el valor de


𝑆 𝑆
+
𝑛 𝑛
𝜑= ≈ ________________
𝑆 𝑆
𝑛 𝑛
+
𝑛 −1 𝑛 −1
Ejercicio 20: Asumiendo los supuestos (1), (2), (3) y (4), pero no asumiendo los supuestos (5) y (6),
se tiene que el intervalo de confianza al 95% para la diferencia de medias, 𝜇 −𝜇 , donde 𝜇
corresponde a la media de la variable aleatoria de los datos de edad_2019 y donde 𝜇 corresponde
a la media de la variable aleatoria de los datos de edad_2017; corresponde a _____________
y se interpreta por ________________________________________________
__________________________________________________________
Ejercicio 21: Asumiendo los supuestos (1), (2) y (3) únicamente, es decir, no se asumen los supuestos
(4), (5) y (6) se tiene que el intervalo de confianza al 96% para la diferencia de _____________
(❑ medias ❑ medianas), 𝜃 −𝜃 , donde 𝜃 corresponde a la medida de tendencia central
(entre media y mediana) de la variable aleatoria de los datos de edad_2019 y donde 𝜃
corresponde a la medida de tendencia central de la variable aleatoria de los datos de edad_2017; está
dado por:
❑ t.test(x = edad_2019, y = edad_2017, conf.level = 0.96)
❑ wilcox.test(x = edad_2019, y = edad_2017, conf.level = 0.98,
conf.int = T)
Ejercicio 22: El siguiente corresponde resultado al realizar el intervalo de confianza de 𝜃 −𝜃
con 𝜃 = Mediana(𝑋).

Wilcoxon rank sum test with continuity correction


data: edad_2019 and edad_2017
W = 38335727, p-value < 2.2e-16
alternative hypothesis: true location shift is not equal to 0
96 percent confidence interval:
1.999954 2.000008
sample estimates:
difference in location
2.000067
Se interpreta el intervalo de confianza de la siguiente forma: ________________________
__________________________________________________________
Ejercicio 23: En el siguiente código en lenguaje R se está probando la hipótesis nula versus
alternativa:

> wilcox.test(x = edad_2019, y = edad_2017, conf.level = 0.98, mu = 2,


alternative = "greater")

Wilcoxon rank sum test with continuity correction


data: edad_2019 and edad_2017
W = 35339189, p-value = 0.4416
alternative hypothesis: true location shift is greater than 2

𝐻 : 𝜇 −𝜇 ≤2 𝐻 : Mediana − Mediana ≤2
❑ ❑
𝐻𝑎: 𝜇 −𝜇 >2 𝐻𝑎: Mediana − Mediana >2
Ejercicio 24: Siguiendo el ejercicio 23, De acuerdo con el valor p se concluye que ___________
__________________________________________________________
Ejercicio 25: Se desea determinar la primera edad de consumo de una sustancia psicoactiva A y una
sustancia psicoactiva B en los habitantes de calle de Bogotá en el 2019. Por la misma razón, se les
aplica las dos preguntas a los mismos sujetos entrevistados. En este caso, se debe realizar una prueba
❑ Para la diferencia de medias de dos poblaciones independientes
❑ Para la diferencia de medias pareada.

Los datos del data.frame primera_edad_cig_mar corresponden a los datos sin valores faltantes
(NA) de la primera edad de consumo de consumo tanto de cigarrillo
(primera_edad_cig_mar$cigarrillo) como de marihuana
(primera_edad_cig_mar$marihuana) por parte de un habitante de calle en Bogotá para el año
2019. Para la obtención de este elemento se utilizó el siguiente código en lenguaje R:

> primera_edad_cig_mar = data.frame(CHC_2019$P30S2A1, CHC_2019$P30S3A1)


> primera_edad_cig_mar = na.omit(primera_edad_cig_mar) # Eliminar NA
> names(primera_edad_cig_mar) <- c("cigarrillo", "marihuana") # Nombres

Ejercicio 26: Asumiendo los supuestos (1), (3) y (4), se tiene que el intervalo de confianza al 95%
está dado por:

❑ t.test(primera_edad_cig_mar$cigarrillo, primera_edad_cig_mar$marihuana,
paired = T)
❑ wilcox.test(primera_edad_cig_mar$cigarrillo,
primera_edad_cig_mar$marihuana, paired = T, conf.int = T)

Ejercicio 27: Los siguientes son los resultados al ejecutar los códigos del ejercicio 26. Asumiendo
los supuestos (1) y (3), se tiene que el intervalo de confianza al 95% se interpreta por:

Paired t-test
data: primera_edad_cig_mar$cigarrillo and primera_edad_cig_mar$marihuana
t = 9.1272, df = 2135, p-value < 2.2e-16
alternative hypothesis: true mean difference is not equal to 0
95 percent confidence interval:
1.002008 1.550427
sample estimates:
mean difference
1.276217

Wilcoxon signed rank test with continuity correction


data: primera_edad_cig_mar$cigarrillo and primera_edad_cig_mar$marihuana
V = 507221, p-value < 2.2e-16
alternative hypothesis: true location shift is not equal to 0
95 percent confidence interval:
1.499973 1.999943
sample estimates:
(pseudo)median
1.500093
__________________________________________________________
__________________________________________________________
Ejercicio 28: Para probar que la primera edad de consumo de cigarrillo es a lo sumo 1 año mayor
que la primera edad de consumo de marihuana de un habitante de calle de Bogotá, asumiendo los
supuestos (1) y (3) únicamente se debe probar la hipótesis

𝐻 : 𝜇 −𝜇 ≤1 𝐻 : Mediana − Mediana ≤1
❑ ❑
𝐻𝑎: 𝜇 −𝜇 >1 𝐻𝑎: Mediana − Mediana >1

Ejercicio 29: Al hacer la prueba del ejercicio 30, se obtiene el siguiente resultado. Por tanto, se
concluye que __________________________________________________
__________________________________________________________
W = 2222718, p-value = 0.9274
alternative hypothesis: true location shift is greater than 1

Ejercicio 30: Si en el ejercicio 28 se asume adicionalmente el supuesto (4) se debe utilizar ______

También podría gustarte