Clase 11 - Estadística Inferencial - Contraste de Hipótesis

Análisis estadístico para ingeniería
Clase 11 - Estadistica inferencial
Manuel Villalobos Cid
Junio de 2019
Unidad 3 - Estadística inferencial
En clase anterior. . .
I Estadísitca descriptiva
I Estadística inferencial
I Definición
I Teorema del límite central
I Intervalos de confianza
Estadística inferencial
I Se encarga de:
0.04
0.03
Densidad
 0.02
Inferir 

 0.01
Preveer



0.00


0 50 60 100
Predecir Muestra Dist. normal


Apoyar estadísticos 


 I Medidas de:
I Tendencia media

Apoyar probablidades

I Dispersión
I Por medio de:
I Medición de error
I Contraste de hipótesis
Unidad 3 - Estadística inferencial: error
Error I - Falso positivo

Ocurre cuando se rechaza una hipótesis nula
cuando esta es verdadera.
I H0: Mi novia no está embarazada
I H1: Mi novia está embarazada
Al hacer un test de embarazo este dice que
ella SI está embarazada, cuando ella NO lo
está (<0 %)
Error II - Falso negativo

Ocurre cuando se acepta una hipótesis nula
cuando esta es falsa.
I H0: Mi novia no está embarazada
I H1: Mi novia está embarazada
Al hacer un test de embarazo este dice que
ella NO está embarazada, cuando ella SI lo
está (<2 %)
Unidad 3 - Estadística inferencial: error
Esto puede ser resumido como:

Selección H0 es cierta H1 es cierta
H0 No hay error (VN) Error tipo II (β, FN)
H1 Error de tipo I (α, FP) No hay error (VP)
O su equivalente:
Selección H0 NO embarazada H1 embarazada
No embarazada No hay error (VN) Error tipo II (β, FN)
Si embarazada Error de tipo I (α, FP) No hay error (VP)
Unidad 3 - Estadística inferencial: valor p (significancia)
Muestra la probabilidad de haber tenido un

resultado si la hipótesis nula es cierta.
I Se define un intervalo de significacia
(0.1,0.05,0.01. . . )
I Oscila entre 0 y 1
Se relaciona con la probabilidad de

cometer error tipo 1.
I Si p ≤ α, se acepta H1
I Si p > α, se acepta H0
Unidad 3 - Estadística inferencial: Estadística inferencial
Unidad 3 - Estadística inferencial: prueba de normalidad
Asumen como H0 que los datos tienen una

distribución normal. library("nortest")
I Shapiro-Wilk shapiro.test(datos$x)$p.value
I Lillie (Kolmogorov-Smirnov)
## [1] 3.447568e-17
I Anderson-Darling
I Cramer-von Mises lillie.test(datos$x)$p.value
I Pearson chi-square test ## [1] 1.598125e-29
I Shapiro-Francia test
Histograma
ad.test(datos$x)$p.value
Media ## [1] 3.7e-24
90
cvm.test(datos$x)$p.value
## [1] 7.37e-10
Frecuencia absoluta
60
pearson.test(datos$x)$p.value
## [1] 1.536205e-295
30
sf.test(datos$x)$p.value
0
## [1] 2.041176e-15
4 5 6
Magnitud de terremotos en Fiji desde 1964 (Richter Magnitude)
7 ¿Realmente sigue una distribución normal?
Unidad 3 - Estadística inferencial: prueba de normalidad
Asumen como H0 que los datos tienen una

distribución normal. library("nortest")
I Shapiro-Wilk datos$x=rnorm(1000, mean = mean, sd = sd)
I Lillie (Kolmogorov-Smirnov) shapiro.test(datos$x)$p.value
I Anderson-Darling
## [1] 0.8703673
I Cramer-von Mises
I Pearson chi-square test lillie.test(datos$x)$p.value
I Shapiro-Francia test ## [1] 0.6936244
Histograma
ad.test(datos$x)$p.value
Media
90 ## [1] 0.6699376
cvm.test(datos$x)$p.value
Frecuencia absoluta
60
## [1] 0.7038757
pearson.test(datos$x)$p.value
## [1] 0.1899551
30
sf.test(datos$x)$p.value
0
4 5 6
Magnitud de terremotos en Fiji desde 1964 (Richter Magnitude)
7 ## [1] 0.7782661
¿Realmente sigue una distribución normal?
Unidad 3 - Estadística inferencial: homocedasticidad
Revisión de homogenetidad de varianzas I Ejemplo

library("knitr")
library(olsrr)
##
## Attaching package: 'olsrr'
ols_test_bartlett(hsb, read, group_var = female)
## The following object is masked from 'package:datasets':
## ##
## rivers ## Bartlett's Test of Homogenity of Variances
kable(head(hsb)[,c(1:7)]) ## ------------------------------------------------
## Ho: Variances are equal across groups
## Ha: Variances are unequal for atleast two groups
##
id female race ses schtyp prog read
## Test Summary
70 0 4 1 1 1 57 ## ----------------------------
121 1 4 2 1 3 68 ## DF = 1
86 0 4 3 1 1 44 ## Chi2 = 0.1866579
141 0 4 3 1 3 63 ## Prob > Chi2 = 0.6657129
172 0 4 2 1 2 47 prob=ols_test_bartlett(hsb, read, group_var = female)
113 0 4 2 1 2 44 print(prob$pval)
## [1] 0.6657129
I Bartlett Test
I Breusch Pagan Test
I Score Test
I F Test
Estadística inferencial
I Se encarga de:
0.04
0.03
Densidad
 0.02
Inferir 

 0.01
Preveer



0.00


0 50 60 100
Predecir Muestra Dist. normal


Apoyar estadísticos 


 I Medidas de:
I Tendencia media

Apoyar probablidades

I Dispersión
I Por medio de:
I Medición de error
I Contraste de hipótesis
Unidad 3 - Estadística inferencial: pruebas para contraste
Unidad 3 - Estadística inferencial: conjunto de prueba
airquality: daily air quality measurements in New York, May to September 1973.
A data frame with 154 observations on 6 variables.
I [,1] Ozone numeric Ozone (ppb)

I [,2] Solar.R numeric Solar R (lang)
I [,3] Wind numeric Wind (mph)
I [,4] Temp numeric Temperature (degrees F)
I [,5] Month numeric Month (1–12)
I [,6] D
I Prueba de normalidad I Prueba de homocedasticidad
lillie.test(subset.data.frame(airquality, bartlett.test(Temp ~ Month, data = airquality)
airquality$Month==5)[,4])$p.value
##
## [1] 0.3443842 ## Bartlett test of homogeneity of variances
lillie.test(subset.data.frame(airquality, ##
airquality$Month==6)[,4])$p.value ## data: Temp by Month
## Bartlett's K-squared = 12.023, df = 4, p-value = 0.0
## [1] 0.4319933
pvalue=bartlett.test(Temp ~ Month, data = airquality)
lillie.test(subset.data.frame(airquality, pvalue$p.value
## [1] 0.01718466
## [1] 0.05976935 I Las clases son relacionadas
lillie.test(subset.data.frame(airquality, I ¿Conclusión?
## [1] 0.1704603
lillie.test(subset.data.frame(airquality,
## [1] 0.4053414
Unidad 3 - Estadística inferencial: prueba de T-student
I Es una prueba paramétrica.
I Fue creada por William S. Gosset (Sr. Student) #Aplicación de t student
en 1899. t.test(Temp ~ Month, data = datos, paired=T)
I Se basa en la distribución t-student (parecida a
la normal). ##
I Su hipótesis nula se basa en la comparación de ## Paired t-test
medias. ##
## data: Temp by Month
#Comparar mayo y julio
## t = -12.247, df = 30, p-value = 3.351e-13
datos=subset(airquality,Month==5 | Month==7)
## alternative hypothesis: true difference in means is
kable(head(datos))
## 95 percent confidence interval:
## -21.41576 -15.29392
## sample estimates:
Ozone Solar.R Wind Temp Month Day ## mean of the differences
## -18.35484
41 190 7.4 67 5 1 Tasa
36 118 8.0 72 5 2
90
12 149 12.6 74 5 3
18 313 11.5 62 5 4
NA NA 14.3 56 5 5
28 NA 14.9 66 5 6 80
Ozono
70
60
5 7
Meses
Unidad 3 - Estadística inferencial: prueba de ANOVA
I Es una prueba paramétrica.
I Permite comparar medias #Realización de ANOVA
anova=aov(Temp ~ as.factor(Month),
data = airquality,)
summary(anova)
## Df Sum Sq Mean Sq F value Pr(>F)
## as.factor(Month) 4 7061 1765.3 39.85 <2e-16 *
## Residuals 148 6557 44.3
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.'
#Análisis Post hoc
#Comparar todos los meses TukeyHSD(anova)
kable(head(airquality)) ## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
Ozone Solar.R Wind Temp Month Day ## Fit: aov(formula = Temp ~ as.factor(Month), data = a
##
41 190 7.4 67 5 1 ## $`as.factor(Month)`
36 118 8.0 72 5 2 ## diff lwr upr p adj
12 149 12.6 74 5 3 ## 6-5 13.55161290 8.84386422 18.259362 0.0000000
18 313 11.5 62 5 4 ## 7-5 18.35483871 13.68583759 23.023840 0.0000000
NA NA 14.3 56 5 5 ## 8-5 18.41935484 13.75035372 23.088356 0.0000000
28 NA 14.9 66 5 6 ## 9-5 11.35161290 6.64386422 16.059362 0.0000000
## 7-6 4.80322581 0.09547713 9.510974 0.0430674
## 8-6 4.86774194 0.15999325 9.575491 0.0388654
## 9-6 -2.20000000 -6.94617992 2.546180 0.7038121
## 8-7 0.06451613 -4.60448499 4.733517 0.9999995
## 9-7 -7.00322581 -11.71097449 -2.295477 0.0006215
## 9-8 -7.06774194 -11.77549062 -2.359993 0.0005376
Unidad 3 - Estadística inferencial: prueba de ANOVA
Tasa
#Análisis Post hoc

TukeyHSD(anova)
90
## Tukey multiple comparisons of means

## 95% family-wise confidence level
##
## Fit: aov(formula = Temp ~ as.factor(Month), data = a
80
Ozono
##
## $`as.factor(Month)`
70
## diff lwr upr p adj
## 6-5 13.55161290 8.84386422 18.259362 0.0000000
## 7-5 18.35483871 13.68583759 23.023840 0.0000000
60
## 8-5 18.41935484 13.75035372 23.088356 0.0000000
## 9-5 11.35161290 6.64386422 16.059362 0.0000000
## 7-6 4.80322581 0.09547713 9.510974 0.0430674
5 6 7 8 9
Meses
## 8-6 4.86774194 0.15999325 9.575491 0.0388654

## 9-6 -2.20000000 -6.94617992 2.546180 0.7038121
## 8-7 0.06451613 -4.60448499 4.733517 0.9999995
## 9-7 -7.00322581 -11.71097449 -2.295477 0.0006215
## 9-8 -7.06774194 -11.77549062 -2.359993 0.0005376
Unidad 3 - Estadística inferencial: prueba de Wilcoxon
I Es una prueba NO paramétrica.

I Análoga a la prueba de t-student #Aplicación de Wilcoxon
I Hipotesis nula compara las medianas, no las wilcox.test(Temp ~ Month,
medias data = datos,exact = F)
##
## Wilcoxon rank sum test with continuity correction
##
## data: Temp by Month
#Comparar mayo y julio ## W = 11, p-value = 5.163e-09
datos=subset(airquality,Month==5 | Month==7) ## alternative hypothesis: true location shift is not e
kable(head(datos)) Tasa
90
Ozone Solar.R Wind Temp Month Day
1 41 190 7.4 67 5 1 80
2 36 118 8.0 72 5 2
3 12 149 12.6 74 5 3
Ozono
4 18 313 11.5 62 5 4
7 23 299 8.6 65 5 7 70
8 19 99 13.8 59 5 8
60
5 7
Meses
Unidad 3 - Estadística inferencial: prueba de KW
I Es una prueba NO paramétrica.

I Permite comparar medianas. #Realización de KW
I Es equivalente a ANOVA kruskal.test(Temp ~ as.factor(Month),
data=airquality)
##
## Kruskal-Wallis rank sum test
##
## data: Temp by as.factor(Month)
## Kruskal-Wallis chi-squared = 51.972, df = 4, p-value
kwallis=kruskal.test(Temp ~ as.factor(Month),
data=airquality)
kwallis$p.value
¡Distribuciones NO normales! ## [1] 1.39799e-10
#Comparar todos los meses
kable(head(airquality))
Ozone Solar.R Wind Temp Month Day
1 41 190 7.4 67 5 1
2 36 118 8.0 72 5 2
3 12 149 12.6 74 5 3
4 18 313 11.5 62 5 4
7 23 299 8.6 65 5 7
8 19 99 13.8 59 5 8
Unidad 3 - Estadística inferencial: prueba de KW
Tasa
#Análisis Post hoc

library("PMCMR")
90 library("PMCMRplus")
posthoc.kruskal.dunn.test(Temp ~ as.factor(Month),
80 data=airquality,
p.adjust.method="holm")
Ozono
## 5 6 7 8
## 6 0.0185 - - -
70
## 7 7.4e-10 0.3028 - -
## 8 5.8e-08 0.5165 1.0000 -
60
## 9 0.0037 1.0000 0.0082 0.0462
5 6 7 8 9
Meses
Unidad 3 - Estadística inferencial: comparación
Estadística paramétrica y No paramétrica
Característica Paramétrico No paramétrico

Distribución Normal Cualquiera
Datos Numérico, intervalos Nominal o ordinal
Medición media mediana
Valores atípicos Afectan conclusiones No es afectadada
Potencia Alta Disminuye con valores altos de n
Unidad 3 - Estadística inferencial: prueba de Chi-cuadrado
Efectúa un análisis de relación entre dos variables

Tabla de contingencia
Prueba de Chi-cuadrado
I Es una prueba no paramétrica
I Estudia la relación entre dos variables
I Estudia variables cuantitativas
I Sus hipótesis son:
I H0 : Las variables en estudio son independientes.
I H1 : Las variables están relacionadas.
¿Cómo se contrasta H0 ?
Se calculan las frecuencias f2 que se pueden esperar si las dos
variables fueran independientes y se compara con las frecuencias
observadas.
I Dos variables son independientes cuando el comportamiento de
una de ellas no se ve afectado por los valores que toma la otra.
I Dis variables son estadísticamnetes independientes, si se
cumple que:
ni,j ni nj
=
N NN
fi fj
feij =
N
¿Cómo medir la discrepancia?

Se calcula la diferencia entre ambas magnitudes (foij − feij ), para
todas y cada una de las casillas de la tabla, acorde al estadístico
de contraste, calculado:
X (foij − feij )2
χ2 =
ij
feij
Donde:
I foij : frecuencia observada para la ij-ésima casilla
I feij : frecuencia esperada para la ij-ésima casilla
Si:
I La hipótesis nula es cierta χ2 sigue una distribución chi
cuadrado con (i − 1)(j − 1) grados de libertad.
I Se rechazará H0 si χ2 experimental > χ2 crítico.
En nuestro ejemplo. . .
Fórmula:
X (foij − feij )2
χ2 =
ij
feij
Donde:
I foij : frecuencia observada para la ij-ésima casilla
I feij : frecuencia esperada para la ij-ésima casilla
Aplicación
(7 − 9,91)2 (115 − 115,71)2

χ2 = + ... + = 13,87
9,921 115,71
I Como condición de esta prueba se requiere que el 80 % de las
celdas de la tabla de contingencia sea mayor 5.
I Los grados de libertad son:
gl = (i −1)(j −1) = (2−1)(3−1) = 6
I Podemos asumir un nivel de

confianza del 95 %.
I En este caso χ2exp = 13,87 > 12,59
I ¡Entonces se rechaza H0!
#Datos #Frecuencia observada
filas=c("TMT1","TMT2","TMT3","TMT4") Resultado$observed
peor = c(7,15,10,5)
## peor igual mejor
igual= c(28,20,30,40)
## TMT1 7 28 115
mejor= c(115,85,90,115)
## TMT2 15 20 85
## TMT3 10 30 90
#Creación de tabla
## TMT4 5 40 115
tabla=data.matrix(data.frame(peor,igual,mejor))
rownames(tabla)=filas #Frecuencia esperada
Resultado$expected
#Prueba de Chi cuadrado ## peor igual mejor
Resultado = chisq.test(tabla) ## TMT1 9.910714 31.60714 108.48214
print(Resultado) ## TMT2 7.928571 25.28571 86.78571
## ## TMT3 8.589286 27.39286 94.01786
## Pearson's Chi-squared test ## TMT4 10.571429 33.71429 115.71429
##
## data: tabla
## X-squared = 13.871, df = 6, p-value = 0.03111
Ejemplo con datos de la literatura. . .

Waisman I, Núñez J, Sánchez J: Epidemiología de los accidentes en
la infancia en la Región Centro Cuyo. Rev Chil Pediatr 2002; 73:
404-14.
Objetivo
Determinar si existe asociación entre la cantidad de consultas por
accidentes Infantiles (tasa de incidencia) y la época del año.
Consulta Invierno Verano Total

Accidentes 1418 2221 3639
No accidentes 20133 14269 34402
Total 21551 1649 38041
Ejemplo con datos de la literatura. . .

#Datos #Frecuencia observada
filas=c("Accidentes","No accidentes") resultado$observed
invierno = c(1418,20133)
## invierno verano
verano= c(2221,14269)
## Accidentes 1418 2221
## No accidentes 20133 14269
#Creación de tabla #Frecuencia esperada
tabla=data.matrix(data.frame(invierno,verano)) resultado$expected
rownames(tabla)=filas ## invierno verano
## Accidentes 2061.567 1577.433
## No accidentes 19489.433 14912.567
#Prueba de Chi cuadrado #Residuos
resultado=chisq.test(tabla) resultado$residuals
print(resultado)
## invierno verano
## ## Accidentes -14.174094 16.203868
## Pearson's Chi-squared test with Yates' continuity correction
## No accidentes 4.609932 -5.270088
##
## data: tabla
## X-squared = 511.7, df = 1, p-value < 2.2e-16

Clase 11 - Estadística Inferencial - Contraste de Hipótesis

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Clase 11 - Estadística Inferencial - Contraste de Hipótesis

Cargado por

Copyright:

Formatos disponibles

Análisis estadístico para ingeniería

Clase 11 - Estadistica inferencial

Manuel Villalobos Cid

Error I - Falso positivo

Error II - Falso negativo

Esto puede ser resumido como:

Muestra la probabilidad de haber tenido un

Se relaciona con la probabilidad de

Asumen como H0 que los datos tienen una

Asumen como H0 que los datos tienen una

Revisión de homogenetidad de varianzas I Ejemplo

A data frame with 154 observations on 6 variables.

I [,1] Ozone numeric Ozone (ppb)

#Análisis Post hoc

## Tukey multiple comparisons of means

## 8-6 4.86774194 0.15999325 9.575491 0.0388654

I Es una prueba NO paramétrica.

Ozone Solar.R Wind Temp Month Day

I Es una prueba NO paramétrica.

Ozone Solar.R Wind Temp Month Day

#Análisis Post hoc

Estadística paramétrica y No paramétrica

Característica Paramétrico No paramétrico

Efectúa un análisis de relación entre dos variables

¿Cómo medir la discrepancia?

(7 − 9,91)2 (115 − 115,71)2

gl = (i −1)(j −1) = (2−1)(3−1) = 6

I Podemos asumir un nivel de

Ejemplo con datos de la literatura. . .

Consulta Invierno Verano Total

Ejemplo con datos de la literatura. . .

También podría gustarte