Está en la página 1de 35

Análisis estadístico para ingeniería

Clase 11 - Estadistica inferencial

Manuel Villalobos Cid

Junio de 2019
Unidad 3 - Estadística inferencial

En clase anterior. . .
I Estadísitca descriptiva
I Estadística inferencial
I Definición
I Teorema del límite central
I Intervalos de confianza
Unidad 3 - Estadística inferencial

Estadística inferencial
I Se encarga de:
0.04

0.03

Densidad
 0.02
Inferir 

 0.01
Preveer



0.00


0 50 60 100
Predecir Muestra Dist. normal


Apoyar estadísticos 


 I Medidas de:
I Tendencia media

Apoyar probablidades

I Dispersión
I Por medio de:
I Teorema del límite central
I Intervalos de confianza
I Medición de error
I Contraste de hipótesis
Unidad 3 - Estadística inferencial: error

Error I - Falso positivo


Ocurre cuando se rechaza una hipótesis nula
cuando esta es verdadera.
I H0: Mi novia no está embarazada
I H1: Mi novia está embarazada
Al hacer un test de embarazo este dice que
ella SI está embarazada, cuando ella NO lo
está (<0 %)

Error II - Falso negativo


Ocurre cuando se acepta una hipótesis nula
cuando esta es falsa.
I H0: Mi novia no está embarazada
I H1: Mi novia está embarazada
Al hacer un test de embarazo este dice que
ella NO está embarazada, cuando ella SI lo
está (<2 %)
Unidad 3 - Estadística inferencial: error

Esto puede ser resumido como:


Selección H0 es cierta H1 es cierta
H0 No hay error (VN) Error tipo II (β, FN)
H1 Error de tipo I (α, FP) No hay error (VP)

O su equivalente:
Selección H0 NO embarazada H1 embarazada
No embarazada No hay error (VN) Error tipo II (β, FN)
Si embarazada Error de tipo I (α, FP) No hay error (VP)
Unidad 3 - Estadística inferencial: valor p (significancia)

Muestra la probabilidad de haber tenido un


resultado si la hipótesis nula es cierta.
I Se define un intervalo de significacia
(0.1,0.05,0.01. . . )
I Oscila entre 0 y 1

Se relaciona con la probabilidad de


cometer error tipo 1.
I Si p ≤ α, se acepta H1
I Si p > α, se acepta H0
Unidad 3 - Estadística inferencial: Estadística inferencial
Unidad 3 - Estadística inferencial: prueba de normalidad

Asumen como H0 que los datos tienen una


distribución normal. library("nortest")
I Shapiro-Wilk shapiro.test(datos$x)$p.value
I Lillie (Kolmogorov-Smirnov)
## [1] 3.447568e-17
I Anderson-Darling
I Cramer-von Mises lillie.test(datos$x)$p.value
I Pearson chi-square test ## [1] 1.598125e-29
I Shapiro-Francia test
Histograma
ad.test(datos$x)$p.value
Media ## [1] 3.7e-24
90
cvm.test(datos$x)$p.value
## [1] 7.37e-10
Frecuencia absoluta

60

pearson.test(datos$x)$p.value
## [1] 1.536205e-295
30

sf.test(datos$x)$p.value

0
## [1] 2.041176e-15
4 5 6
Magnitud de terremotos en Fiji desde 1964 (Richter Magnitude)
7 ¿Realmente sigue una distribución normal?
Unidad 3 - Estadística inferencial: prueba de normalidad

Asumen como H0 que los datos tienen una


distribución normal. library("nortest")
I Shapiro-Wilk datos$x=rnorm(1000, mean = mean, sd = sd)
I Lillie (Kolmogorov-Smirnov) shapiro.test(datos$x)$p.value
I Anderson-Darling
## [1] 0.8703673
I Cramer-von Mises
I Pearson chi-square test lillie.test(datos$x)$p.value
I Shapiro-Francia test ## [1] 0.6936244
Histograma

ad.test(datos$x)$p.value
Media

90 ## [1] 0.6699376
cvm.test(datos$x)$p.value
Frecuencia absoluta

60
## [1] 0.7038757
pearson.test(datos$x)$p.value
## [1] 0.1899551
30

sf.test(datos$x)$p.value
0

4 5 6
Magnitud de terremotos en Fiji desde 1964 (Richter Magnitude)
7 ## [1] 0.7782661
¿Realmente sigue una distribución normal?
Unidad 3 - Estadística inferencial: homocedasticidad

Revisión de homogenetidad de varianzas I Ejemplo


library("knitr")
library(olsrr)
##
## Attaching package: 'olsrr'
ols_test_bartlett(hsb, read, group_var = female)
## The following object is masked from 'package:datasets':
## ##
## rivers ## Bartlett's Test of Homogenity of Variances
kable(head(hsb)[,c(1:7)]) ## ------------------------------------------------
## Ho: Variances are equal across groups
## Ha: Variances are unequal for atleast two groups
##
id female race ses schtyp prog read
## Test Summary
70 0 4 1 1 1 57 ## ----------------------------
121 1 4 2 1 3 68 ## DF = 1
86 0 4 3 1 1 44 ## Chi2 = 0.1866579
141 0 4 3 1 3 63 ## Prob > Chi2 = 0.6657129
172 0 4 2 1 2 47 prob=ols_test_bartlett(hsb, read, group_var = female)
113 0 4 2 1 2 44 print(prob$pval)
## [1] 0.6657129

I Bartlett Test
I Breusch Pagan Test
I Score Test
I F Test
Unidad 3 - Estadística inferencial

Estadística inferencial
I Se encarga de:
0.04

0.03

Densidad
 0.02
Inferir 

 0.01
Preveer



0.00


0 50 60 100
Predecir Muestra Dist. normal


Apoyar estadísticos 


 I Medidas de:
I Tendencia media

Apoyar probablidades

I Dispersión
I Por medio de:
I Teorema del límite central
I Intervalos de confianza
I Medición de error
I Contraste de hipótesis
Unidad 3 - Estadística inferencial: pruebas para contraste
Unidad 3 - Estadística inferencial: conjunto de prueba
airquality: daily air quality measurements in New York, May to September 1973.

A data frame with 154 observations on 6 variables.

I [,1] Ozone numeric Ozone (ppb)


I [,2] Solar.R numeric Solar R (lang)
I [,3] Wind numeric Wind (mph)
I [,4] Temp numeric Temperature (degrees F)
I [,5] Month numeric Month (1–12)
I [,6] D
I Prueba de normalidad I Prueba de homocedasticidad
lillie.test(subset.data.frame(airquality, bartlett.test(Temp ~ Month, data = airquality)
airquality$Month==5)[,4])$p.value
##
## [1] 0.3443842 ## Bartlett test of homogeneity of variances
lillie.test(subset.data.frame(airquality, ##
airquality$Month==6)[,4])$p.value ## data: Temp by Month
## Bartlett's K-squared = 12.023, df = 4, p-value = 0.0
## [1] 0.4319933
pvalue=bartlett.test(Temp ~ Month, data = airquality)
lillie.test(subset.data.frame(airquality, pvalue$p.value
airquality$Month==7)[,4])$p.value
## [1] 0.01718466
## [1] 0.05976935 I Las clases son relacionadas
lillie.test(subset.data.frame(airquality, I ¿Conclusión?
airquality$Month==8)[,4])$p.value
## [1] 0.1704603
lillie.test(subset.data.frame(airquality,
airquality$Month==9)[,4])$p.value
## [1] 0.4053414
Unidad 3 - Estadística inferencial: prueba de T-student
I Es una prueba paramétrica.
I Fue creada por William S. Gosset (Sr. Student) #Aplicación de t student
en 1899. t.test(Temp ~ Month, data = datos, paired=T)
I Se basa en la distribución t-student (parecida a
la normal). ##
I Su hipótesis nula se basa en la comparación de ## Paired t-test
medias. ##
## data: Temp by Month
#Comparar mayo y julio
## t = -12.247, df = 30, p-value = 3.351e-13
datos=subset(airquality,Month==5 | Month==7)
## alternative hypothesis: true difference in means is
kable(head(datos))
## 95 percent confidence interval:
## -21.41576 -15.29392
## sample estimates:
Ozone Solar.R Wind Temp Month Day ## mean of the differences
## -18.35484
41 190 7.4 67 5 1 Tasa

36 118 8.0 72 5 2
90

12 149 12.6 74 5 3
18 313 11.5 62 5 4
NA NA 14.3 56 5 5
28 NA 14.9 66 5 6 80

Ozono

70

60

5 7
Meses
Unidad 3 - Estadística inferencial: prueba de ANOVA
I Es una prueba paramétrica.
I Permite comparar medias #Realización de ANOVA
anova=aov(Temp ~ as.factor(Month),
data = airquality,)
summary(anova)
## Df Sum Sq Mean Sq F value Pr(>F)
## as.factor(Month) 4 7061 1765.3 39.85 <2e-16 *
## Residuals 148 6557 44.3
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.'
#Análisis Post hoc
#Comparar todos los meses TukeyHSD(anova)
kable(head(airquality)) ## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
Ozone Solar.R Wind Temp Month Day ## Fit: aov(formula = Temp ~ as.factor(Month), data = a
##
41 190 7.4 67 5 1 ## $`as.factor(Month)`
36 118 8.0 72 5 2 ## diff lwr upr p adj
12 149 12.6 74 5 3 ## 6-5 13.55161290 8.84386422 18.259362 0.0000000
18 313 11.5 62 5 4 ## 7-5 18.35483871 13.68583759 23.023840 0.0000000
NA NA 14.3 56 5 5 ## 8-5 18.41935484 13.75035372 23.088356 0.0000000
28 NA 14.9 66 5 6 ## 9-5 11.35161290 6.64386422 16.059362 0.0000000
## 7-6 4.80322581 0.09547713 9.510974 0.0430674
## 8-6 4.86774194 0.15999325 9.575491 0.0388654
## 9-6 -2.20000000 -6.94617992 2.546180 0.7038121
## 8-7 0.06451613 -4.60448499 4.733517 0.9999995
## 9-7 -7.00322581 -11.71097449 -2.295477 0.0006215
## 9-8 -7.06774194 -11.77549062 -2.359993 0.0005376
Unidad 3 - Estadística inferencial: prueba de ANOVA

Tasa

#Análisis Post hoc


TukeyHSD(anova)
90

## Tukey multiple comparisons of means


## 95% family-wise confidence level
##
## Fit: aov(formula = Temp ~ as.factor(Month), data = a
80
Ozono

##
## $`as.factor(Month)`
70
## diff lwr upr p adj
## 6-5 13.55161290 8.84386422 18.259362 0.0000000
## 7-5 18.35483871 13.68583759 23.023840 0.0000000
60
## 8-5 18.41935484 13.75035372 23.088356 0.0000000
## 9-5 11.35161290 6.64386422 16.059362 0.0000000
## 7-6 4.80322581 0.09547713 9.510974 0.0430674
5 6 7 8 9
Meses

## 8-6 4.86774194 0.15999325 9.575491 0.0388654


## 9-6 -2.20000000 -6.94617992 2.546180 0.7038121
## 8-7 0.06451613 -4.60448499 4.733517 0.9999995
## 9-7 -7.00322581 -11.71097449 -2.295477 0.0006215
## 9-8 -7.06774194 -11.77549062 -2.359993 0.0005376
Unidad 3 - Estadística inferencial: prueba de Wilcoxon

I Es una prueba NO paramétrica.


I Análoga a la prueba de t-student #Aplicación de Wilcoxon
I Hipotesis nula compara las medianas, no las wilcox.test(Temp ~ Month,
medias data = datos,exact = F)
##
## Wilcoxon rank sum test with continuity correction
##
## data: Temp by Month
#Comparar mayo y julio ## W = 11, p-value = 5.163e-09
datos=subset(airquality,Month==5 | Month==7) ## alternative hypothesis: true location shift is not e
kable(head(datos)) Tasa

90

Ozone Solar.R Wind Temp Month Day

1 41 190 7.4 67 5 1 80

2 36 118 8.0 72 5 2
3 12 149 12.6 74 5 3

Ozono
4 18 313 11.5 62 5 4
7 23 299 8.6 65 5 7 70

8 19 99 13.8 59 5 8

60

5 7
Meses
Unidad 3 - Estadística inferencial: prueba de KW

I Es una prueba NO paramétrica.


I Permite comparar medianas. #Realización de KW
I Es equivalente a ANOVA kruskal.test(Temp ~ as.factor(Month),
data=airquality)
##
## Kruskal-Wallis rank sum test
##
## data: Temp by as.factor(Month)
## Kruskal-Wallis chi-squared = 51.972, df = 4, p-value
kwallis=kruskal.test(Temp ~ as.factor(Month),
data=airquality)
kwallis$p.value
¡Distribuciones NO normales! ## [1] 1.39799e-10
#Comparar todos los meses
kable(head(airquality))

Ozone Solar.R Wind Temp Month Day

1 41 190 7.4 67 5 1
2 36 118 8.0 72 5 2
3 12 149 12.6 74 5 3
4 18 313 11.5 62 5 4
7 23 299 8.6 65 5 7
8 19 99 13.8 59 5 8
Unidad 3 - Estadística inferencial: prueba de KW

Tasa

#Análisis Post hoc


library("PMCMR")
90 library("PMCMRplus")

posthoc.kruskal.dunn.test(Temp ~ as.factor(Month),
80 data=airquality,
p.adjust.method="holm")
Ozono

## 5 6 7 8
## 6 0.0185 - - -
70

## 7 7.4e-10 0.3028 - -
## 8 5.8e-08 0.5165 1.0000 -
60
## 9 0.0037 1.0000 0.0082 0.0462
5 6 7 8 9
Meses
Unidad 3 - Estadística inferencial: comparación

Estadística paramétrica y No paramétrica

Característica Paramétrico No paramétrico


Distribución Normal Cualquiera
Datos Numérico, intervalos Nominal o ordinal
Medición media mediana
Valores atípicos Afectan conclusiones No es afectadada
Potencia Alta Disminuye con valores altos de n
Unidad 3 - Estadística inferencial: prueba de Chi-cuadrado

Efectúa un análisis de relación entre dos variables


Tabla de contingencia
Unidad 3 - Estadística inferencial: prueba de Chi-cuadrado

Prueba de Chi-cuadrado
I Es una prueba no paramétrica
I Estudia la relación entre dos variables
I Estudia variables cuantitativas
I Sus hipótesis son:
I H0 : Las variables en estudio son independientes.
I H1 : Las variables están relacionadas.
Unidad 3 - Estadística inferencial: prueba de Chi-cuadrado

Tabla de contingencia
Unidad 3 - Estadística inferencial: prueba de Chi-cuadrado

Tabla de contingencia
Unidad 3 - Estadística inferencial: prueba de Chi-cuadrado

Tabla de contingencia
Unidad 3 - Estadística inferencial: prueba de Chi-cuadrado

Tabla de contingencia
Unidad 3 - Estadística inferencial: prueba de Chi-cuadrado

¿Cómo se contrasta H0 ?
Se calculan las frecuencias f2 que se pueden esperar si las dos
variables fueran independientes y se compara con las frecuencias
observadas.
I Dos variables son independientes cuando el comportamiento de
una de ellas no se ve afectado por los valores que toma la otra.
I Dis variables son estadísticamnetes independientes, si se
cumple que:
ni,j ni nj
=
N NN
fi fj
feij =
N
Unidad 3 - Estadística inferencial: prueba de Chi-cuadrado

Tabla de contingencia
Unidad 3 - Estadística inferencial: prueba de Chi-cuadrado

Tabla de contingencia
Unidad 3 - Estadística inferencial: prueba de Chi-cuadrado

¿Cómo medir la discrepancia?


Se calcula la diferencia entre ambas magnitudes (foij − feij ), para
todas y cada una de las casillas de la tabla, acorde al estadístico
de contraste, calculado:
X (foij − feij )2
χ2 =
ij
feij

Donde:
I foij : frecuencia observada para la ij-ésima casilla
I feij : frecuencia esperada para la ij-ésima casilla
Si:
I La hipótesis nula es cierta χ2 sigue una distribución chi
cuadrado con (i − 1)(j − 1) grados de libertad.
I Se rechazará H0 si χ2 experimental > χ2 crítico.
Unidad 3 - Estadística inferencial: prueba de Chi-cuadrado

En nuestro ejemplo. . .
Fórmula:
X (foij − feij )2
χ2 =
ij
feij

Donde:
I foij : frecuencia observada para la ij-ésima casilla
I feij : frecuencia esperada para la ij-ésima casilla
Aplicación

(7 − 9,91)2 (115 − 115,71)2


χ2 = + ... + = 13,87
9,921 115,71
I Como condición de esta prueba se requiere que el 80 % de las
celdas de la tabla de contingencia sea mayor 5.
Unidad 3 - Estadística inferencial: prueba de Chi-cuadrado

En nuestro ejemplo. . .
I Los grados de libertad son:

gl = (i −1)(j −1) = (2−1)(3−1) = 6

I Podemos asumir un nivel de


confianza del 95 %.
I En este caso χ2exp = 13,87 > 12,59
I ¡Entonces se rechaza H0!
Unidad 3 - Estadística inferencial: prueba de Chi-cuadrado

En nuestro ejemplo. . .
#Datos #Frecuencia observada
filas=c("TMT1","TMT2","TMT3","TMT4") Resultado$observed
peor = c(7,15,10,5)
## peor igual mejor
igual= c(28,20,30,40)
## TMT1 7 28 115
mejor= c(115,85,90,115)
## TMT2 15 20 85
## TMT3 10 30 90
#Creación de tabla
## TMT4 5 40 115
tabla=data.matrix(data.frame(peor,igual,mejor))
rownames(tabla)=filas #Frecuencia esperada
Resultado$expected
#Prueba de Chi cuadrado ## peor igual mejor
Resultado = chisq.test(tabla) ## TMT1 9.910714 31.60714 108.48214
print(Resultado) ## TMT2 7.928571 25.28571 86.78571
## ## TMT3 8.589286 27.39286 94.01786
## Pearson's Chi-squared test ## TMT4 10.571429 33.71429 115.71429
##
## data: tabla
## X-squared = 13.871, df = 6, p-value = 0.03111
Unidad 3 - Estadística inferencial: prueba de Chi-cuadrado

Ejemplo con datos de la literatura. . .


Waisman I, Núñez J, Sánchez J: Epidemiología de los accidentes en
la infancia en la Región Centro Cuyo. Rev Chil Pediatr 2002; 73:
404-14.

Objetivo
Determinar si existe asociación entre la cantidad de consultas por
accidentes Infantiles (tasa de incidencia) y la época del año.

Consulta Invierno Verano Total


Accidentes 1418 2221 3639
No accidentes 20133 14269 34402
Total 21551 1649 38041
Unidad 3 - Estadística inferencial: prueba de Chi-cuadrado

Ejemplo con datos de la literatura. . .


#Datos #Frecuencia observada
filas=c("Accidentes","No accidentes") resultado$observed
invierno = c(1418,20133)
## invierno verano
verano= c(2221,14269)
## Accidentes 1418 2221
## No accidentes 20133 14269
#Creación de tabla #Frecuencia esperada
tabla=data.matrix(data.frame(invierno,verano)) resultado$expected
rownames(tabla)=filas ## invierno verano
## Accidentes 2061.567 1577.433
## No accidentes 19489.433 14912.567
#Prueba de Chi cuadrado #Residuos
resultado=chisq.test(tabla) resultado$residuals
print(resultado)
## invierno verano
## ## Accidentes -14.174094 16.203868
## Pearson's Chi-squared test with Yates' continuity correction
## No accidentes 4.609932 -5.270088
##
## data: tabla
## X-squared = 511.7, df = 1, p-value < 2.2e-16

También podría gustarte