Está en la página 1de 9

Universidad Nacional del Centro del Perú

Facultad de ingeniería química


Escuela Profesional: gas natural y energía

TEMA: EJERCICIOS DE CHI


CUADRADO Y
T-STUDENT

 Docente: Ms. Ochoa León, Henrry Raúl

 Alumno: Poma Alfaro, José Felipe

 Catedra: Estadística y Diseño de Experimentos

El Tambo - Huancayo
2020

CHI CUADRADO

Problema 1:

Supongamos que se quiere estudiar la posible asociación entre el hecho de que una gestante
fume durante el embarazo y que el niño presente bajo peso al nacer. Por lo tanto, se trata de
ver si la probabilidad de tener bajo peso es diferente en gestantes que fumen o en gestantes
que no fumen durante la gestación. Para responder a esta pregunta se realiza un estudio de
seguimiento sobre una cohorte de 2000 gestantes, a las que se interroga sobre su habito
durante la gestación y se determina además el peso del recién nacido.

Programación en Rstudio
> #H0: No hay asociación entre las variables (en el ejemplo, el bajo
peso del niño y el hecho de fumar durante la gestacion son
independientes o no estan asociados).
> #H1: Si hay asociación entre las variables, es decir, el bajo peso
y el fumar durante la gestacion estan asociados.
> si<-c(43,105)
> no<-c(207,1645)
> cuadro1<-data.frame(si,no)
> rownames(cuadro1)<-c("fumadores","no fumadores")
> cuadro1
si no
fumadores 43 207
no fumadores 105 1645
> chisq.test(cuadro1)

Pearson's Chi-squared test with Yates' continuity correction

data: cuadro1
X-squared = 38.427, df = 1, p-value = 5.685e-10

> fisher.test(cuadro1)

Fisher's Exact Test for Count Data

data: cuadro1
p-value = 1.687e-08
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
2.161142 4.830833
sample estimates:
odds ratio
3.25158

> #forma de no aplicar correccion de yates


> chisq.test(cuadro1,correct = F)

Pearson's Chi-squared test

data: cuadro1
X-squared = 40.044, df = 1, p-value = 2.483e-10

> prop.table(cuadro1)
si no
fumadores 0.0215 0.1035
no fumadores 0.0525 0.8225
> mosaicplot(cuadro1,color = TRUE,main = "plot de mosaico")
> #valores esperados
> valor_E<-chisq.test(cuadro1)$expected;E
Error: objeto 'E' no encontrado
> valor_E<-chisq.test(cuadro1)$expected
> valor_E
si no
fumadores 18.5 231.5
no fumadores 129.5 1620.5
> valor_E<-chisq.test(cuadro1)$expected;valor_E
si no
fumadores 18.5 231.5
no fumadores 129.5 1620.5
># Sí existe una asociación entre las variables, es decir, el bajo peso y el fumar durante
la gestacion estan asociados de manera significativa (Chi2=38.42, gl = 1, p-value <0.05).

Problema 2
Se sabe que en un cruce T x T de palma, la descendencia de duras, teneras y pisiferas
esta en una proporción de 1:2:1. En una muestra de 104 palmas se obtuvieron 28 duras,
49 teneras y 27 pisiferas. ¿Se ajustan estos datos a la proporción esperada?

Programación en Rstudio
> #Ho: Los datos corresponden a una proporción de 1:2:1
> #H1: Los datos no corresponden a una proporción de 1:2:1
> chisq.test(c(28,49,27),p=c(1/4,2/4,1/4))

Chi-squared test for given probabilities

data: c(28, 49, 27)


X-squared = 0.36538, df = 2, p-value = 0.833

> #observamos valores esperados


> prob<-chisq.test(c(28,49,27),p=c(1/4,2/4,1/4))
> prob

Chi-squared test for given probabilities


data: c(28, 49, 27)
X-squared = 0.36538, df = 2, p-value = 0.833

> prob$expected
[1] 26 52 26

> #Los datos corresponden a una proporción de 1:2:1 de manera no


significativa (Chi2=0.36, gl = 2, p-value >0.05)

Problema 3
Se quiere demostrar bajo un experimento genetico, si nuestros datos se ajustan a la
proporción Mendeliana 9:3:3:1 Valores observados: . 318 semillas redondas, color amarillo
. 103 semillas redondas, color verde . 99 semillas arrugadas, color amarillo . 30 semillas
arrugadas, color verde.

Programación en Rstudio
> #Ho: los datos se ajustan a la proporción Mendeliana 9:3:3:1
> #H1: los datos no se ajustan a la proporción Mendeliana 9:3:3:1.
> chisq.test(c(318,103,99,30),p=c(9/16,3/16,3/16,1/16))

Chi-squared test for given probabilities

data: c(318, 103, 99, 30)


X-squared = 0.96242, df = 3, p-value = 0.8103

> #observamos valores esperados


> pro_e<-chisq.test(c(318,103,99,30),p=c(9/16,3/16,3/16,1/16))
> pro_e$expected
[1] 309.375 103.125 103.125 34.375

Problema 4
Se sabe que en un cruce A x A de palma, la descendencia de duras, teneras y pisiferas
esta en una proporción de 3:2:2. En una muestra de 104 palmas se obtuvieron 38 duras,
69 teneras y 47 pisiferas. ¿Se ajustan estos datos a la proporción esperada?

Programación en Rstudio
> #Ho:los datos corresponden a una proporcion de 3:2:2
> #H1:los datos no corresponden a una proporcion de 3:2:2
> chisq.test(c(38,69,47),p=c(3/7,2/7,2/7))

Chi-squared test for given probabilities

data: c(38, 69, 47)


X-squared = 26.288, df = 2, p-value = 1.957e-06

> pro<-chisq.test(c(38,69,47),p=c(3/7,2/7,2/7))
> pro$expected
[1] 66 44 44
> # Los datos corresponden a una proporción de 1:2:1 de manera
significativa (Chi2=26.28, gl = 2, p-value < 0.05)

Problema 5
Se quiere demostrar bajo un experimento genético, si nuestros datos se ajustan a la
proporción 9:3:3:1 Valores observados: .418 semillas ovaladas, color naranja. 203 semillas
ovaladas, color marrón. 199 semillas arrugadas, color naranja. 130 semillas arrugadas,
color marrón.

Programación en Rstudio
> ##Ho: los datos se ajustan a la proporción 9:3:3:1
> ##H1: los datos no se ajustan a la proporción Mendeliana 9:3:3:1
> chisq.test(c(418,203,199,130),p=c(9/16,3/16,3/16,1/16))

Chi-squared test for given probabilities

data: c(418, 203, 199, 130)


X-squared = 115.27, df = 3, p-value < 2.2e-16

> pra<-chisq.test(c(418,203,199,130),p=c(9/16,3/16,3/16,1/16))
> pra$expected
[1] 534.375 178.125 178.125 59.375
T - STUDENT
PROBLEMA 1

Programación en r studio
> library(openintro)
> library(knitr)
> data(births)
> kable(head(births, 4), align = "c")

| f_age | m_age | weeks | premature | visits | gained | weight | sex_baby | smoke |


|:-----:|:-----:|:-----:|:---------:|:------:|:------:|:------:|:--------:|:---------:|
| 31 | 30 | 39 | full term | 13 | 1 | 6.88 | male | smoker |
| 34 | 36 | 39 | full term | 5 | 35 | 7.69 | male | nonsmoker |
| 36 | 35 | 40 | full term | 12 | 29 | 8.88 | male | nonsmoker |
| 41 | 40 | 40 | full term | 13 | 30 | 9.00 | female | nonsmoker |
> #H0: no hay diferencia entre las medias poblacionales: μ(nf)−μ(f)=0
> #Ha: si hay diferencia entre las medias poblacionales: μ(nf)−μ(f)≠0
> #diferencia entre medias muestrales
> mean(births[births$smoke == "nonsmoker", "weight"])-(mean(births[births$smoke ==
"smoker", "weight"]))
> [1] 0.4005
#normalidad
> library(ggplot2)
> ggplot(births,aes(x = weight)) +
+ geom_histogram(aes(y = ..density.., colour = smoke)) +
+ facet_grid(.~ smoke) +
+ theme_bw() + theme(legend.position = "none")
> par(mfrow = c(1, 2))
> qqnorm(births[births$smoke == "nonsmoker","weight"], xlab = "", ylab = "",main =
"nonsmoker", col = "firebrick")
> qqline(births[births$smoke == "nonsmoker","weight"])
> qqnorm(births[births$smoke == "smoker","weight"], xlab = "", ylab = "",main =
"smoker", col = "springgreen4")
> qqline(births[births$smoke == "smoker","weight"])

> shapiro.test(births[births$smoke == "smoker","weight"])


Shapiro-Wilk normality test

data: births[births$smoke == "smoker", "weight"]


W = 0.89491, p-value = 0.0003276
>#Los gráficos qqnorm muestran asimetría hacia la izquierda y los test encuentran
evidencias significativas de que los datos no proceden de poblaciones con distribución
normal. Sin embargo, dado que el tamaño de cada grupo es mayor que 30 se puede
considerar que el t-test sigue siendo suficientemente robusto, aunque es necesario
mencionarlo en las conclusiones.

El datset births del paquete openintro contiene información sobre 150 nacimientos junto
con información de las madres. Se quiere determinar si existen evidencias significativas de
que el peso de los recién nacidos cuyas madres fuman (f) difiere de aquellos cuyas
madres no fuman (nf)

Problema 2

Un equipo de atletismo ha decidido contratar a un nuevo entrenador. Para


decidir si al cabo de un año mantienen su contrato se selecciona
aleatoriamente a 10 miembros del equipo y se cronometran sus tiempos en 100
metros lisos al inicio del año, al final del año se volverá a cronometrar a esos
mismos 10 corredores. En vista de los datos obtenidos ¿Hay diferencia
significativa entre el rendimiento de los corredores tras un año de entrenar con
el nuevo instructor?
Programación en Rstudio
> #H0: no hay diferencia entre el tiempo medio de los
corredores al inicio y al final del año. El promedio de
las diferencias es cero (μd=0).
> #Ha: sí hay diferencia entre el tiempo medio de los
corredores al inicio y al final del año. El promedio de
las diferencias no es cero (μd≠0).

> datos <- data.frame(corredor = c(1:10),


+ antes = c(12.9, 13.5, 12.8, 15.6,
17.2, 19.2, 12.6, 15.3,
+ 14.4, 11.3),
+ despues = c(12.7, 13.6, 12.0, 15.2,
16.8, 20.0, 12.0, 15.9,
+ 16.0, 11.1))
> kable(head(datos, 4), align = "c")

| corredor | antes | despues |


|:--------:|:-----:|:-------:|
| 1 | 12.9 | 12.7 |
| 2 | 13.5 | 13.6 |
| 3 | 12.8 | 12.0 |
| 4 | 15.6 | 15.2 |
> #Al tratarse de datos pareados, interesa conocer la
diferencia en cada par de observaciones.
> diferencia <- datos$antes - datos$despues
> datos <- cbind(datos, diferencia)
> kable(head(datos,4), align = "c")

| corredor | antes | despues | diferencia |


|:--------:|:-----:|:-------:|:----------:|
| 1 | 12.9 | 12.7 | 0.2 |
| 2 | 13.5 | 13.6 | -0.1 |
| 3 | 12.8 | 12.0 | 0.8 |
| 4 | 15.6 | 15.2 | 0.4 |
> colMeans(datos[,-1])
antes despues diferencia
14.48 14.53 -0.05

Problema 3
Tenemos dos muestras, en la cual la primera se toma de forma aleatoria con
una media de 10, la segunda también se toma deuna muestra aleatoria con
una media de 10.5. comparar los dos tipos demuestras
Programación en Rstudio
> x1 <- rnorm(100,10) # Variable aleatoria de
media 10
> x2 <- rnorm(100,10.5) # Variable aleatoria
de media 10.5
> test <- t.test(x1,x2) # Prueba t de
Student
> print(test)

Welch Two Sample t-test


data: x1 and x2
t = -4.0081, df = 197.83, p-value = 8.665e-05
alternative hypothesis: true difference in means is not
equal to 0
95 percent confidence interval:
-0.8080508 -0.2751220
sample estimates:
mean of x mean of y
9.863451 10.405037

> #Como el p-value es < 0.05 podemos afirmar que las


muestras difieren en su media, es decir, los dos
variables son diferentes
#gráfico de cajas ayuda a interpretar este resultado. Las
medias se indicaran mediante un punto rojo.
> boxplot(x1,x2,names=c("X1","X2"))#Muestra las diagramas
> medias <- c(mean(x1),mean(x2))#Muestra la Media
mediante un punto
> points(medias,pch=18,col="red")#Resalta la media de un
color

Problema 4
Del problema anterior se nos pide hacer una comparación muestral con la
media, utilizando los primero datos aleatorios.
Programación en Rstudio
> x <- rnorm(100,10) # Creación de una variable aleatoria
de media 10
> Media <- 10
> test <- t.test(x, mu=Media) # Comparación de la media
muestral con la media
> print(test)
One Sample t-test

data: x
t = -1.4507, df = 99, p-value = 0.15
alternative hypothesis: true mean is not equal to 10
95 percent confidence interval:
9.676689 10.050213
sample estimates:
mean of x
9.863451

> #Como p-value > 0.05 no podemos rechazar la hipótesis


de que la muestra tiene media 10.

Problema 5
Queremos saber con un nivel de significanza de 0,05 si existe diferencia entre la
media de los dos grupos. Nuestras hipótesis nula y alternativa son entonces:

H0: μA=μBH0:μA=μB,
H1: μA≠μBH1:μA≠μB.
Los datos son:

Grupo A: {15, 12, 11, 18, 15, 15, 9, 19, 14, 13, 11, 12, 18, 15, 16, 14, 16, 17, 15, 17,
13, 14, 13, 15, 17, 19, 17, 18, 16, 14} y

Grupo B: {11, 16, 14, 18, 6, 8, 9, 14, 12, 12, 10, 15, 12, 9, 13, 16, 17, 12, 8, 7, 15, 5,
14, 13, 13, 12, 11, 13, 11, 7}.

Programación en Rstudio
> Grupo.A = c(15, 12, 11, 18, 15, 15, 9, 19, 14, 13, 11, 12, 18, 15,
16, 14, 16, 17, 15, 17, 13, 14, 13, 15, 17, 19, 17, 18, 16, 14)
> Grupo.B = c(11, 16, 14, 18, 6, 8, 9, 14, 12, 12, 10, 15, 12, 9,
13, 16, 17, 12, 8, 7, 15, 5, 14, 13, 13, 12, 11, 13, 11, 7)
> t.test(Grupo.A,Grupo.B)

Welch Two Sample t-test

data: Grupo.A and Grupo.B


t = 4.1887, df = 53.88, p-value =
0.0001046
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
1.650905 4.682428
sample estimates:
mean of x mean of y
14.93333 11.76667

También podría gustarte