Analisis 1

Análisis de Normalidad: gráficos y contrastes de hipótesis
Los datos recopilados de Kelly Blue Book para varios cientos de automó viles de General
Motors (GM) usados en 2005
setwd("~/")
datos<-read.csv("./KUIPER.csv",header = T,dec = ",",sep = ";")
head(datos)
## Price Millaje Fabricante Modelo Trim..configuración.específica.

Tipo
## 1 8639 25216 Chevrolet AVEO SVM Sedan 4D
Sedan
Sedan
Sedan
Sedan
## 5 9221 29992 Chevrolet AVEO SVM Hatchback 4D
Hatchback
Sedan
## Cilindros Litros Puertas Crucero Sonido Cuero
## 1 4 1.6 4 0 0 0
## 2 4 1.6 4 0 0 0
## 3 4 1.6 4 1 1 0
## 4 4 1.6 4 0 0 1
## 5 4 1.6 4 1 0 1
## 6 4 1.6 4 1 0 0
suppressMessages(attach(datos))
En el aná lisis de normalidad, el objetivo es analizar cuá nto difiere la distribució n de los
datos observados respecto a lo esperado si procediesen de una distribució n normal con la
misma media y desviació n típica. Pueden diferenciarse tres estrategias: las basadas en
representaciones gráficas, en métodos analíticos y en test de hipótesis.
VARIABLE Price
Métodos analíticos
Asimetría y curtosis
La curtosis y el sesgo son medidas de forma de una serie de datos a los cuales se les ajusta
una distribució n de probabilidad.
Sesgo o asimetría en una distribució n de datos, es una medida de que los datos no son
simétricos respecto a la media.
library(psych)
skew(datos$Price)#coefiente de asimetría o sesgo
## [1] 1.569919
Como asimetría es positiva, indica que existe un sesgo hacia la derecha

kurtosi(datos$Price)#curtosis
## [1] 3.247665
El valor de la curtosis es positivo, es decir, que los datos son bastante concentrados hacia la
media y tenemos una curva elevada al centro y se llama leptocúrtica
Métodos gráficos
Histograma y curva normal
Representamos los datos mediante un histograma y superponemos la curva de una
distribució n normal con la misma media y desviació n está ndar que muestran los datos.
library(ggplot2)
##
## Attaching package: 'ggplot2'
## The following objects are masked from 'package:psych':

##
## %+%, alpha
ggplot(data=datos,aes(x=Price))
+geom_histogram(aes(y=..density..,fill=..count..))+
scale_fill_gradient(low = "#DCDCDC",high = "#7C7C7C")+
stat_function(fun = dnorm,colour="firebrick",args =
list(mean(Price),sd=sd(Price)))+
ggtitle("Histograma+curva normal teórica")+theme_bw()
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Se observa que la curva no se ajusta muy bien a los datos, es decir, la variable Price se aleja
de la normal.
Gráfico de cuantiles teóricos (Q-Q)
Comparamos los cuantiles de la distribució n observada con los cuantiles teó ricos de una
distribució n normal con la misma media y desviació n está ndar que los datos.
qqnorm(Price,pch=19,col="gray50")
qqline(Price)
vemos que los puntos no estan muy alineados, es decir que la variable Price presenta
problemas de normalidad
Contraste de hipótesis
Planteamos las hipó tesis
H 0: La variable Price proviene de una distribució n normal. H 1: La variable Price no
proviene de una distribució n normal.
Nivel de Significancia
El nivel de significancia que se trabajará es de α =0.05.
Criterio de Decisión
Si P<α Se rechaza H o
Si p ≥ α No se rechaza H o
Test de Shapiro-Wilk
Este test se emplea para contrastar normalidad cuando el tamañ o de la muestra es menor
de 50. Para muestras grandes es equivalente al test de kolmogorov-Smirnov.
shapiro.test(Price)
##
## Shapiro-Wilk normality test
##
## data: Price
## W = 0.8615, p-value < 2.2e-16
Test de Kolmogorov-Smirnov y modificación de Lillefors

ks.test(Price,"pnorm",mean(Price),sd(Price))
##
## One-sample Kolmogorov-Smirnov test
##
## data: Price
## D = 0.13979, p-value = 4.508e-14
## alternative hypothesis: two-sided
Como el p − v a l u e< α=0.05 se rechaza H 0 Es decir, la variable Price no proviene de una

distribució n normal
VARIABLE MILLAJE
Métodos analíticos
Asimetría y curtosis
La curtosis y el sesgo son medidas de forma de una serie de datos a los cuales se les ajusta
una distribució n de probabilidad.
Sesgo o asimetría en una distribució n de datos, es una medida de que los datos no son
simétricos respecto a la media.
library(psych)
skew(datos$Millaje)#coefiente de asimetría o sesgo
## [1] -0.1307573
Como asimetría es negativa, indica que existe un sesgo hacia la izquierda

kurtosi(datos$Millaje)#curtosis
## [1] 0.1674203
El valor de la curtosis es positivo, es decir, que los datos son bastante concentrados hacia la
media y tenemos una curva elevada al centro y se llama leptocúrtica
Métodos gráficos
Histograma y curva normal
Representamos los datos mediante un histograma y superponemos la curva de una
distribució n normal con la misma media y desviació n está ndar que muestran los datos.
library(ggplot2)
ggplot(data=datos,aes(x=Millaje))
+geom_histogram(aes(y=..density..,fill=..count..))+
scale_fill_gradient(low = "#DCDCDC",high = "#7C7C7C")+
stat_function(fun = dnorm,colour="firebrick",args =
list(mean(Millaje),sd=sd(Millaje)))+
ggtitle("Histograma+curva normal teórica")+theme_bw()
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
Se observa que la curva no se ajusta muy bien a los datos, es decir, la variable Millaje no es
aproximadamente normal.
Gráfico de cuantiles teóricos (Q-Q)
Comparamos los cuantiles de la distribució n observada con los cuantiles teó ricos de una
distribució n normal con la misma media y desviació n está ndar que los datos.
qqnorm(Millaje,pch=19,col="gray50")
qqline(Millaje)
vemos que los puntos no todos estan alineados, es decir que la variable Millaje tiene
algunos valores extremos que afecta la normalidad
Contraste de hipótesis
Planteamos las hipó tesis
H 0: La variable Millaje proviene de una distribució n normal. H 1: La variable Millaje no
proviene de una distribució n normal.
Nivel de Significancia
El nivel de significancia que se trabajará es de α =0.05.
Criterio de Decisión
Si P<α Se rechaza H o
Si p ≥ α No se rechaza H o
Test de Shapiro-Wilk
Este test se emplea para contrastar normalidad cuando el tamañ o de la muestra es menor
de 50. Para muestras grandes es equivalente al test de kolmogorov-Smirnov.
shapiro.test(Millaje)
##
## Shapiro-Wilk normality test
##
## data: Millaje
## W = 0.98418, p-value = 1.25e-07
Test de Kolmogorov-Smirnov y modificación de Lillefors

ks.test(Millaje,"pnorm",mean(Millaje),sd(Millaje))
##
## One-sample Kolmogorov-Smirnov test
##
## data: Millaje
## D = 0.063749, p-value = 0.002904
## alternative hypothesis: two-sided
Como el p − v a l u e=0.002904< α=0.05 se rechaza H 0 Es decir, la variable Millaje no

proviene de una distribució n normal
TAMAÑO DE MUESTRA
El tamañ o de la muestra normalmente es representado por “n” y siempre es un nú mero
entero positivo. No se puede hablar de ningú n tamañ o exacto de la muestra, ya que puede
variar dependiendiendo de los diferentes marcos de investigació n. Sin embargo, si todo lo
demá s es igual, una muestra de tamañ o grande brinda mayor precisió n en las estimaciones
de las diversas propiedades de la població n.
Para este aná lisis utilizamos la siguiente formula
z 2 . p .(1 − p)
e2
n=
z 2 . p .(1− p)
1+
N e2
N=tamañ o de la població n e=margen de error z=puntuació n z cuando no se conoce la
desviació n está ndar de la població n, suele utilizarse un valor constante de p=0.5
Entonces
N<-nrow(datos)
p<-0.5
z<-1.96
e<-0.05
n<-ceiling((((z^2)*p*(1-p))/(e^2))/(1+((z^2*p*(1-p))/(e^2*N))));n
## [1] 260
Así que, n=260, recuerde que mientras má s grande sea el tamañ o de la muestra, má s
estadísticamente significativo será , lo que significa que hay menos probabilidades de que
los resultados sean una coincidencia.
Muestreo aleatorio simple sin remplazo
#Fija una semilla para obtener los mismos resultados
millaje<-datos$Millaje
set.seed(7654321)
muestra<-sample(N,n,replace = FALSE);muestra
## [1] 177 667 450 242 202 200 150 592 483 613 143 587 104 366 541 155 750
468
## [19] 727 249 510 182 23 444 687 331 426 525 568 546 782 474 95 706 284
665
## [37] 758 262 548 101 608 386 342 481 507 38 170 463 44 436 248 686 298
257
## [55] 684 471 379 428 505 109 134 256 306 405 322 547 397 33 710 611 133
76
## [73] 264 605 349 520 270 596 662 388 169 272 486 689 408 129 593 280 289
674
## [91] 115 651 125 308 204 7 14 173 131 703 239 98 574 288 400 619 730
282
## [109] 693 145 663 26 291 375 126 600 259 676 690 522 713 583 723 517 497
697
## [127] 761 353 258 229 729 446 211 570 755 419 276 316 338 398 237 369 533
707
## [145] 683 565 320 85 305 668 378 733 130 207 702 185 455 159 252 802 524
255
## [163] 152 749 266 655 571 636 732 194 544 553 803 681 68 617 460 735 300
536
## [181] 499 251 253 47 87 105 370 775 512 799 796 628 290 178 36 356 122
67
## [199] 330 538 315 186 414 190 523 614 429 579 197 362 741 635 597 407 721
72
## [217] 127 205 70 563 223 748 653 154 767 456 140 318 715 625 672 168 35
519
## [235] 233 113 40 401 421 86 243 376 516 742 601 12 423 464 671 412 84
642
## [253] 783 395 666 786 465 117 337 757
datos2<-datos[muestra,]
millaje<-datos2$Millaje
Intervalo para la media de Millaje: varianza desconocida

1. Supongamos que se tiene una població n con distribució n normal, media desconocida μ
y varianza desconocida σ 2
2. Se desea estimar μ con un intervalo de confianza al (1 −α ) 100%
3. Se toma una muestra aleatoria de tamañ o n de la població n.
4. Las observaciones de la muestra son x 1; x 2; ··· ; x n.
5. x es la media muestral
6. s es la desviació n está ndar muestral
Un intervalo de confianza del (1 −α ) 100% para μ está dado por

s s
x − t (α / 2 ,n −1) ≤ μ ≤ x+ t (α / 2, n −1)
√n √n
donde t (α / 2 ,n −1 ) es el punto de la distribució n t, con n −1 grados de libertad, que deja a su
derecha un á rea de α /2
Con α =0.05 en R se obtiene el siguiente intervalo
t.test(millaje,conf.level=0.95)
##
## One Sample t-test
##
## data: millaje
## t = 38.22, df = 259, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 18216.68 20195.79
## sample estimates:
## mean of x
## 19206.23
Entonces 18216.68 ≤ μ ≤ 20195.79 con un nivel de confianza del 95%

Prueba de hipótesis sobre la proporción de autos que tienen cuatro puertas
p1<-(length(datos$Puertas[datos$Puertas==4]))/N;p1#poblacional
## [1] 0.7636816
x<-length(datos2$Puertas[datos2$Puertas==4]);x
## [1] 192
p<-x/n;p
## [1] 0.7384615
El juego de hipó tesis es

H 0 :π ≤ 0.7636816
vs
H 1 : π > 0.7636816
prop.test(x=x,n=n,p=0.7636816,alternative="greater",conf.level = 0.95)
##
## 1-sample proportions test with continuity correction
##
## data: x out of n, null probability 0.7636816
## X-squared = 0.78192, df = 1, p-value = 0.8117
## alternative hypothesis: true p is greater than 0.7636816
## 0.6893318 1.0000000
## p
## 0.7384615
como el p − v a l o r=0.7384615 es mayor que el nivel de significancia α =0.05 no se rechaza

H 0.
Note que la conclusió n es correcta.

Intervalo para para la diferencia de dos medias
Se construye un intervalo de confianza para determinar si el millaje recorrido por los
autos fabricados por Cadillac y Chevrolet es el mismo o es diferente. Asumiendo varianzas
diferentes y desconocidas
Si x 1, x 2, s21 y s22 son las medias y las varianzas de dos muestras aleatorias de tamañ os n1 y n2
respectivamente.
s 21 s22 s2 s2
( x 1 − x2 )− t (α / 2 ,v)
√ n 1 n2 √
+ ≤ μ 1 − μ 2 ≤(x 1 − x 2)+t (α / 2 ,v) 1 + 2
n1 n2
se muestran las primeras 6 filas, donde los autos son fabricados por Cadillac
d3<-datos2[which(datos2$Fabricante=="Cadillac"),];head(d3)
## Price Millaje Fabricante Modelo Trim..configuración.específica. Tipo

## 667 30646 17094 Cadillac CTS Sedan 4D Sedan
## 782 44085 21367 Cadillac CST-V Sedan 4D Sedan
## 758 39307 16041 Cadillac Deville DHS Sedan 4D Sedan
## 684 31431 11013 Cadillac CTS Sedan 4D Sedan
## 689 32038 35326 Cadillac STS-V6 Sedan 4D Sedan
## 730 35716 6447 Cadillac Deville Sedan 4D Sedan
## 667 6 2.8 4 1 1 1
## 782 8 5.7 4 1 1 1
## 758 8 4.6 4 1 0 1
## 684 6 2.8 4 1 1 1
## 689 6 3.6 4 1 1 1
## 730 8 4.6 4 1 0 1
mi.cad<-d3$Millaje#millaje para los autos fabricados por Cadillac
se muestran las primeras 6 filas, donde los autos son fabricados por Chevrolet
d4<-datos2[which(datos2$Fabricante=="Chevrolet"),];head(d4)
## Price Millaje Fabricante Modelo Trim..configuración.específica.

Tipo
## 450 19447 932 Chevrolet Malibu LT Sedan 4D
Sedan
## 202 14275 18533 Chevrolet Cavalier LS Sport Sedan 4D
Sedan
Sedan
## 150 13168 14630 Chevrolet Cavalier LS Sedan 4D
Sedan
## 541 22384 14788 Chevrolet Monte Carlo LT Coupe 2D
Coupe
Sedan
## 450 6 3.5 4 0 1 1
## 202 4 2.2 4 1 1 1
## 200 4 2.2 4 0 1 1
## 150 4 2.2 4 0 1 1
## 541 6 3.8 2 1 1 1
## 155 4 2.2 4 0 1 1
mi.che<-d4$Millaje#Millaje para los autos fabricados por Chevrolet
Entonces para obtener el intervalo de confianza en R es

t.test(mi.cad,mi.che,var.equal=FALSE,conf.level=0.95)
##
## Welch Two Sample t-test
##
## data: mi.cad and mi.che
## t = -0.40227, df = 31.472, p-value = 0.6902
## alternative hypothesis: true difference in means is not equal to 0
## -5086.495 3409.685
## mean of x mean of y
## 19152.35 19990.75
Luego
−5086.495 ≤ μ 1 − μ 2 ≤ 3409.685
Como el intervalo de confianza contiene a cero, se concluye que el millaje recorrido por los
autos fabricados por Cadillac y Chevrolet es el mismo.
Prueba de Hipótesis
Verificamos lo anterior con una prueba de hipó tesis para la diferencia de medias del millaje
recorrido por los autos fabricados por Cadillac y Chevrolet.
H 0 :μ 1 − μ 2=0
vs
H 1 : μ 1 − μ2 ≠ 0
t.test(mi.cad,mi.che,alternative = "two.sided",mu = 0,conf.level = 0.95)
##
## Welch Two Sample t-test
##
## data: mi.cad and mi.che
## t = -0.40227, df = 31.472, p-value = 0.6902
## alternative hypothesis: true difference in means is not equal to 0
## -5086.495 3409.685
## mean of x mean of y
## 19152.35 19990.75
Como el p − v a l u e=0.6902>α=0.05 no se rechaza H 0 Es decir, el millaje recorrido por los

autos fabricados por Cadillac y Chevrolet es el mismo.

Analisis 1

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Analisis 1

Cargado por

Copyright:

Formatos disponibles

Análisis de Normalidad: gráficos y contrastes de hipótesis

## Price Millaje Fabricante Modelo Trim..configuración.específica.

skew(datos$Price)#coefiente de asimetría o sesgo

Como asimetría es positiva, indica que existe un sesgo hacia la derecha

## The following objects are masked from 'package:psych':

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Test de Kolmogorov-Smirnov y modificación de Lillefors

Como el p − v a l u e< α=0.05 se rechaza H 0 Es decir, la variable Price no proviene de una

skew(datos$Millaje)#coefiente de asimetría o sesgo

Como asimetría es negativa, indica que existe un sesgo hacia la izquierda

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Test de Kolmogorov-Smirnov y modificación de Lillefors

Como el p − v a l u e=0.002904< α=0.05 se rechaza H 0 Es decir, la variable Millaje no

Intervalo para la media de Millaje: varianza desconocida

2. Se desea estimar μ con un intervalo de confianza al (1 −α ) 100%

3. Se toma una muestra aleatoria de tamañ o n de la població n.

4. Las observaciones de la muestra son x 1; x 2; ··· ; x n.

Un intervalo de confianza del (1 −α ) 100% para μ está dado por

Entonces 18216.68 ≤ μ ≤ 20195.79 con un nivel de confianza del 95%

El juego de hipó tesis es

como el p − v a l o r=0.7384615 es mayor que el nivel de significancia α =0.05 no se rechaza

Note que la conclusió n es correcta.

## Price Millaje Fabricante Modelo Trim..configuración.específica. Tipo

mi.cad<-d3$Millaje#millaje para los autos fabricados por Cadillac

## Price Millaje Fabricante Modelo Trim..configuración.específica.

mi.che<-d4$Millaje#Millaje para los autos fabricados por Chevrolet

Entonces para obtener el intervalo de confianza en R es

Como el p − v a l u e=0.6902>α=0.05 no se rechaza H 0 Es decir, el millaje recorrido por los

También podría gustarte