Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Los datos recopilados de Kelly Blue Book para varios cientos de automó viles de General
Motors (GM) usados en 2005
setwd("~/")
datos<-read.csv("./KUIPER.csv",header = T,dec = ",",sep = ";")
head(datos)
suppressMessages(attach(datos))
En el aná lisis de normalidad, el objetivo es analizar cuá nto difiere la distribució n de los
datos observados respecto a lo esperado si procediesen de una distribució n normal con la
misma media y desviació n típica. Pueden diferenciarse tres estrategias: las basadas en
representaciones gráficas, en métodos analíticos y en test de hipótesis.
VARIABLE Price
Métodos analíticos
Asimetría y curtosis
La curtosis y el sesgo son medidas de forma de una serie de datos a los cuales se les ajusta
una distribució n de probabilidad.
Sesgo o asimetría en una distribució n de datos, es una medida de que los datos no son
simétricos respecto a la media.
library(psych)
## [1] 1.569919
## [1] 3.247665
El valor de la curtosis es positivo, es decir, que los datos son bastante concentrados hacia la
media y tenemos una curva elevada al centro y se llama leptocúrtica
Métodos gráficos
Histograma y curva normal
Representamos los datos mediante un histograma y superponemos la curva de una
distribució n normal con la misma media y desviació n está ndar que muestran los datos.
library(ggplot2)
##
## Attaching package: 'ggplot2'
ggplot(data=datos,aes(x=Price))
+geom_histogram(aes(y=..density..,fill=..count..))+
scale_fill_gradient(low = "#DCDCDC",high = "#7C7C7C")+
stat_function(fun = dnorm,colour="firebrick",args =
list(mean(Price),sd=sd(Price)))+
ggtitle("Histograma+curva normal teórica")+theme_bw()
Si p ≥ α No se rechaza H o
Test de Shapiro-Wilk
Este test se emplea para contrastar normalidad cuando el tamañ o de la muestra es menor
de 50. Para muestras grandes es equivalente al test de kolmogorov-Smirnov.
shapiro.test(Price)
##
## Shapiro-Wilk normality test
##
## data: Price
## W = 0.8615, p-value < 2.2e-16
##
## One-sample Kolmogorov-Smirnov test
##
## data: Price
## D = 0.13979, p-value = 4.508e-14
## alternative hypothesis: two-sided
## [1] -0.1307573
## [1] 0.1674203
El valor de la curtosis es positivo, es decir, que los datos son bastante concentrados hacia la
media y tenemos una curva elevada al centro y se llama leptocúrtica
Métodos gráficos
Histograma y curva normal
Representamos los datos mediante un histograma y superponemos la curva de una
distribució n normal con la misma media y desviació n está ndar que muestran los datos.
library(ggplot2)
ggplot(data=datos,aes(x=Millaje))
+geom_histogram(aes(y=..density..,fill=..count..))+
scale_fill_gradient(low = "#DCDCDC",high = "#7C7C7C")+
stat_function(fun = dnorm,colour="firebrick",args =
list(mean(Millaje),sd=sd(Millaje)))+
ggtitle("Histograma+curva normal teórica")+theme_bw()
Se observa que la curva no se ajusta muy bien a los datos, es decir, la variable Millaje no es
aproximadamente normal.
Gráfico de cuantiles teóricos (Q-Q)
Comparamos los cuantiles de la distribució n observada con los cuantiles teó ricos de una
distribució n normal con la misma media y desviació n está ndar que los datos.
qqnorm(Millaje,pch=19,col="gray50")
qqline(Millaje)
vemos que los puntos no todos estan alineados, es decir que la variable Millaje tiene
algunos valores extremos que afecta la normalidad
Contraste de hipótesis
Planteamos las hipó tesis
H 0: La variable Millaje proviene de una distribució n normal. H 1: La variable Millaje no
proviene de una distribució n normal.
Nivel de Significancia
El nivel de significancia que se trabajará es de α =0.05.
Criterio de Decisión
Si P<α Se rechaza H o
Si p ≥ α No se rechaza H o
Test de Shapiro-Wilk
Este test se emplea para contrastar normalidad cuando el tamañ o de la muestra es menor
de 50. Para muestras grandes es equivalente al test de kolmogorov-Smirnov.
shapiro.test(Millaje)
##
## Shapiro-Wilk normality test
##
## data: Millaje
## W = 0.98418, p-value = 1.25e-07
##
## One-sample Kolmogorov-Smirnov test
##
## data: Millaje
## D = 0.063749, p-value = 0.002904
## alternative hypothesis: two-sided
z 2 . p .(1 − p)
e2
n=
z 2 . p .(1− p)
1+
N e2
N=tamañ o de la població n e=margen de error z=puntuació n z cuando no se conoce la
desviació n está ndar de la població n, suele utilizarse un valor constante de p=0.5
Entonces
N<-nrow(datos)
p<-0.5
z<-1.96
e<-0.05
n<-ceiling((((z^2)*p*(1-p))/(e^2))/(1+((z^2*p*(1-p))/(e^2*N))));n
## [1] 260
Así que, n=260, recuerde que mientras má s grande sea el tamañ o de la muestra, má s
estadísticamente significativo será , lo que significa que hay menos probabilidades de que
los resultados sean una coincidencia.
Muestreo aleatorio simple sin remplazo
#Fija una semilla para obtener los mismos resultados
millaje<-datos$Millaje
set.seed(7654321)
muestra<-sample(N,n,replace = FALSE);muestra
## [1] 177 667 450 242 202 200 150 592 483 613 143 587 104 366 541 155 750
468
## [19] 727 249 510 182 23 444 687 331 426 525 568 546 782 474 95 706 284
665
## [37] 758 262 548 101 608 386 342 481 507 38 170 463 44 436 248 686 298
257
## [55] 684 471 379 428 505 109 134 256 306 405 322 547 397 33 710 611 133
76
## [73] 264 605 349 520 270 596 662 388 169 272 486 689 408 129 593 280 289
674
## [91] 115 651 125 308 204 7 14 173 131 703 239 98 574 288 400 619 730
282
## [109] 693 145 663 26 291 375 126 600 259 676 690 522 713 583 723 517 497
697
## [127] 761 353 258 229 729 446 211 570 755 419 276 316 338 398 237 369 533
707
## [145] 683 565 320 85 305 668 378 733 130 207 702 185 455 159 252 802 524
255
## [163] 152 749 266 655 571 636 732 194 544 553 803 681 68 617 460 735 300
536
## [181] 499 251 253 47 87 105 370 775 512 799 796 628 290 178 36 356 122
67
## [199] 330 538 315 186 414 190 523 614 429 579 197 362 741 635 597 407 721
72
## [217] 127 205 70 563 223 748 653 154 767 456 140 318 715 625 672 168 35
519
## [235] 233 113 40 401 421 86 243 376 516 742 601 12 423 464 671 412 84
642
## [253] 783 395 666 786 465 117 337 757
datos2<-datos[muestra,]
millaje<-datos2$Millaje
5. x es la media muestral
6. s es la desviació n está ndar muestral
##
## One Sample t-test
##
## data: millaje
## t = 38.22, df = 259, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 18216.68 20195.79
## sample estimates:
## mean of x
## 19206.23
## [1] 0.7636816
x<-length(datos2$Puertas[datos2$Puertas==4]);x
## [1] 192
p<-x/n;p
## [1] 0.7384615
vs
H 1 : π > 0.7636816
prop.test(x=x,n=n,p=0.7636816,alternative="greater",conf.level = 0.95)
##
## 1-sample proportions test with continuity correction
##
## data: x out of n, null probability 0.7636816
## X-squared = 0.78192, df = 1, p-value = 0.8117
## alternative hypothesis: true p is greater than 0.7636816
## 95 percent confidence interval:
## 0.6893318 1.0000000
## sample estimates:
## p
## 0.7384615
Si x 1, x 2, s21 y s22 son las medias y las varianzas de dos muestras aleatorias de tamañ os n1 y n2
respectivamente.
s 21 s22 s2 s2
( x 1 − x2 )− t (α / 2 ,v)
√ n 1 n2 √
+ ≤ μ 1 − μ 2 ≤(x 1 − x 2)+t (α / 2 ,v) 1 + 2
n1 n2
se muestran las primeras 6 filas, donde los autos son fabricados por Cadillac
d3<-datos2[which(datos2$Fabricante=="Cadillac"),];head(d3)
se muestran las primeras 6 filas, donde los autos son fabricados por Chevrolet
d4<-datos2[which(datos2$Fabricante=="Chevrolet"),];head(d4)
##
## Welch Two Sample t-test
##
## data: mi.cad and mi.che
## t = -0.40227, df = 31.472, p-value = 0.6902
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -5086.495 3409.685
## sample estimates:
## mean of x mean of y
## 19152.35 19990.75
Luego
−5086.495 ≤ μ 1 − μ 2 ≤ 3409.685
Como el intervalo de confianza contiene a cero, se concluye que el millaje recorrido por los
autos fabricados por Cadillac y Chevrolet es el mismo.
Prueba de Hipótesis
Verificamos lo anterior con una prueba de hipó tesis para la diferencia de medias del millaje
recorrido por los autos fabricados por Cadillac y Chevrolet.
H 0 :μ 1 − μ 2=0
vs
H 1 : μ 1 − μ2 ≠ 0
t.test(mi.cad,mi.che,alternative = "two.sided",mu = 0,conf.level = 0.95)
##
## Welch Two Sample t-test
##
## data: mi.cad and mi.che
## t = -0.40227, df = 31.472, p-value = 0.6902
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -5086.495 3409.685
## sample estimates:
## mean of x mean of y
## 19152.35 19990.75