Está en la página 1de 13

Análisis de Normalidad: gráficos y contrastes de hipótesis

Los datos recopilados de Kelly Blue Book para varios cientos de automó viles de General
Motors (GM) usados en 2005
setwd("~/")
datos<-read.csv("./KUIPER.csv",header = T,dec = ",",sep = ";")
head(datos)

## Price Millaje Fabricante Modelo Trim..configuración.específica.


Tipo
## 1 8639 25216 Chevrolet AVEO SVM Sedan 4D
Sedan
## 2 8769 35299 Chevrolet AVEO SVM Sedan 4D
Sedan
## 3 8871 32914 Chevrolet AVEO SVM Sedan 4D
Sedan
## 4 9042 26191 Chevrolet AVEO SVM Sedan 4D
Sedan
## 5 9221 29992 Chevrolet AVEO SVM Hatchback 4D
Hatchback
## 6 9482 24842 Chevrolet AVEO SVM Sedan 4D
Sedan
## Cilindros Litros Puertas Crucero Sonido Cuero
## 1 4 1.6 4 0 0 0
## 2 4 1.6 4 0 0 0
## 3 4 1.6 4 1 1 0
## 4 4 1.6 4 0 0 1
## 5 4 1.6 4 1 0 1
## 6 4 1.6 4 1 0 0

suppressMessages(attach(datos))

En el aná lisis de normalidad, el objetivo es analizar cuá nto difiere la distribució n de los
datos observados respecto a lo esperado si procediesen de una distribució n normal con la
misma media y desviació n típica. Pueden diferenciarse tres estrategias: las basadas en
representaciones gráficas, en métodos analíticos y en test de hipótesis.
VARIABLE Price
Métodos analíticos
Asimetría y curtosis
La curtosis y el sesgo son medidas de forma de una serie de datos a los cuales se les ajusta
una distribució n de probabilidad.
Sesgo o asimetría en una distribució n de datos, es una medida de que los datos no son
simétricos respecto a la media.
library(psych)

skew(datos$Price)#coefiente de asimetría o sesgo

## [1] 1.569919

Como asimetría es positiva, indica que existe un sesgo hacia la derecha


kurtosi(datos$Price)#curtosis

## [1] 3.247665

El valor de la curtosis es positivo, es decir, que los datos son bastante concentrados hacia la
media y tenemos una curva elevada al centro y se llama leptocúrtica
Métodos gráficos
Histograma y curva normal
Representamos los datos mediante un histograma y superponemos la curva de una
distribució n normal con la misma media y desviació n está ndar que muestran los datos.
library(ggplot2)

##
## Attaching package: 'ggplot2'

## The following objects are masked from 'package:psych':


##
## %+%, alpha

ggplot(data=datos,aes(x=Price))
+geom_histogram(aes(y=..density..,fill=..count..))+
scale_fill_gradient(low = "#DCDCDC",high = "#7C7C7C")+
stat_function(fun = dnorm,colour="firebrick",args =
list(mean(Price),sd=sd(Price)))+
ggtitle("Histograma+curva normal teórica")+theme_bw()

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.


Se observa que la curva no se ajusta muy bien a los datos, es decir, la variable Price se aleja
de la normal.
Gráfico de cuantiles teóricos (Q-Q)
Comparamos los cuantiles de la distribució n observada con los cuantiles teó ricos de una
distribució n normal con la misma media y desviació n está ndar que los datos.
qqnorm(Price,pch=19,col="gray50")
qqline(Price)
vemos que los puntos no estan muy alineados, es decir que la variable Price presenta
problemas de normalidad
Contraste de hipótesis
Planteamos las hipó tesis
H 0: La variable Price proviene de una distribució n normal. H 1: La variable Price no
proviene de una distribució n normal.
Nivel de Significancia
El nivel de significancia que se trabajará es de α =0.05.
Criterio de Decisión
Si P<α Se rechaza H o

Si p ≥ α No se rechaza H o
Test de Shapiro-Wilk
Este test se emplea para contrastar normalidad cuando el tamañ o de la muestra es menor
de 50. Para muestras grandes es equivalente al test de kolmogorov-Smirnov.
shapiro.test(Price)

##
## Shapiro-Wilk normality test
##
## data: Price
## W = 0.8615, p-value < 2.2e-16

Test de Kolmogorov-Smirnov y modificación de Lillefors


ks.test(Price,"pnorm",mean(Price),sd(Price))

##
## One-sample Kolmogorov-Smirnov test
##
## data: Price
## D = 0.13979, p-value = 4.508e-14
## alternative hypothesis: two-sided

Como el p − v a l u e< α=0.05 se rechaza H 0 Es decir, la variable Price no proviene de una


distribució n normal
VARIABLE MILLAJE
Métodos analíticos
Asimetría y curtosis
La curtosis y el sesgo son medidas de forma de una serie de datos a los cuales se les ajusta
una distribució n de probabilidad.
Sesgo o asimetría en una distribució n de datos, es una medida de que los datos no son
simétricos respecto a la media.
library(psych)

skew(datos$Millaje)#coefiente de asimetría o sesgo

## [1] -0.1307573

Como asimetría es negativa, indica que existe un sesgo hacia la izquierda


kurtosi(datos$Millaje)#curtosis

## [1] 0.1674203

El valor de la curtosis es positivo, es decir, que los datos son bastante concentrados hacia la
media y tenemos una curva elevada al centro y se llama leptocúrtica
Métodos gráficos
Histograma y curva normal
Representamos los datos mediante un histograma y superponemos la curva de una
distribució n normal con la misma media y desviació n está ndar que muestran los datos.
library(ggplot2)
ggplot(data=datos,aes(x=Millaje))
+geom_histogram(aes(y=..density..,fill=..count..))+
scale_fill_gradient(low = "#DCDCDC",high = "#7C7C7C")+
stat_function(fun = dnorm,colour="firebrick",args =
list(mean(Millaje),sd=sd(Millaje)))+
ggtitle("Histograma+curva normal teórica")+theme_bw()

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Se observa que la curva no se ajusta muy bien a los datos, es decir, la variable Millaje no es
aproximadamente normal.
Gráfico de cuantiles teóricos (Q-Q)
Comparamos los cuantiles de la distribució n observada con los cuantiles teó ricos de una
distribució n normal con la misma media y desviació n está ndar que los datos.
qqnorm(Millaje,pch=19,col="gray50")
qqline(Millaje)
vemos que los puntos no todos estan alineados, es decir que la variable Millaje tiene
algunos valores extremos que afecta la normalidad
Contraste de hipótesis
Planteamos las hipó tesis
H 0: La variable Millaje proviene de una distribució n normal. H 1: La variable Millaje no
proviene de una distribució n normal.
Nivel de Significancia
El nivel de significancia que se trabajará es de α =0.05.
Criterio de Decisión
Si P<α Se rechaza H o

Si p ≥ α No se rechaza H o
Test de Shapiro-Wilk
Este test se emplea para contrastar normalidad cuando el tamañ o de la muestra es menor
de 50. Para muestras grandes es equivalente al test de kolmogorov-Smirnov.
shapiro.test(Millaje)

##
## Shapiro-Wilk normality test
##
## data: Millaje
## W = 0.98418, p-value = 1.25e-07

Test de Kolmogorov-Smirnov y modificación de Lillefors


ks.test(Millaje,"pnorm",mean(Millaje),sd(Millaje))

##
## One-sample Kolmogorov-Smirnov test
##
## data: Millaje
## D = 0.063749, p-value = 0.002904
## alternative hypothesis: two-sided

Como el p − v a l u e=0.002904< α=0.05 se rechaza H 0 Es decir, la variable Millaje no


proviene de una distribució n normal
TAMAÑO DE MUESTRA
El tamañ o de la muestra normalmente es representado por “n” y siempre es un nú mero
entero positivo. No se puede hablar de ningú n tamañ o exacto de la muestra, ya que puede
variar dependiendiendo de los diferentes marcos de investigació n. Sin embargo, si todo lo
demá s es igual, una muestra de tamañ o grande brinda mayor precisió n en las estimaciones
de las diversas propiedades de la població n.
Para este aná lisis utilizamos la siguiente formula

z 2 . p .(1 − p)
e2
n=
z 2 . p .(1− p)
1+
N e2
N=tamañ o de la població n e=margen de error z=puntuació n z cuando no se conoce la
desviació n está ndar de la població n, suele utilizarse un valor constante de p=0.5
Entonces
N<-nrow(datos)
p<-0.5
z<-1.96
e<-0.05
n<-ceiling((((z^2)*p*(1-p))/(e^2))/(1+((z^2*p*(1-p))/(e^2*N))));n

## [1] 260

Así que, n=260, recuerde que mientras má s grande sea el tamañ o de la muestra, má s
estadísticamente significativo será , lo que significa que hay menos probabilidades de que
los resultados sean una coincidencia.
Muestreo aleatorio simple sin remplazo
#Fija una semilla para obtener los mismos resultados

millaje<-datos$Millaje
set.seed(7654321)
muestra<-sample(N,n,replace = FALSE);muestra

## [1] 177 667 450 242 202 200 150 592 483 613 143 587 104 366 541 155 750
468
## [19] 727 249 510 182 23 444 687 331 426 525 568 546 782 474 95 706 284
665
## [37] 758 262 548 101 608 386 342 481 507 38 170 463 44 436 248 686 298
257
## [55] 684 471 379 428 505 109 134 256 306 405 322 547 397 33 710 611 133
76
## [73] 264 605 349 520 270 596 662 388 169 272 486 689 408 129 593 280 289
674
## [91] 115 651 125 308 204 7 14 173 131 703 239 98 574 288 400 619 730
282
## [109] 693 145 663 26 291 375 126 600 259 676 690 522 713 583 723 517 497
697
## [127] 761 353 258 229 729 446 211 570 755 419 276 316 338 398 237 369 533
707
## [145] 683 565 320 85 305 668 378 733 130 207 702 185 455 159 252 802 524
255
## [163] 152 749 266 655 571 636 732 194 544 553 803 681 68 617 460 735 300
536
## [181] 499 251 253 47 87 105 370 775 512 799 796 628 290 178 36 356 122
67
## [199] 330 538 315 186 414 190 523 614 429 579 197 362 741 635 597 407 721
72
## [217] 127 205 70 563 223 748 653 154 767 456 140 318 715 625 672 168 35
519
## [235] 233 113 40 401 421 86 243 376 516 742 601 12 423 464 671 412 84
642
## [253] 783 395 666 786 465 117 337 757

datos2<-datos[muestra,]
millaje<-datos2$Millaje

Intervalo para la media de Millaje: varianza desconocida


1. Supongamos que se tiene una població n con distribució n normal, media desconocida μ
y varianza desconocida σ 2

2. Se desea estimar μ con un intervalo de confianza al (1 −α ) 100%

3. Se toma una muestra aleatoria de tamañ o n de la població n.

4. Las observaciones de la muestra son x 1; x 2; ··· ; x n.

5. x es la media muestral
6. s es la desviació n está ndar muestral

Un intervalo de confianza del (1 −α ) 100% para μ está dado por


s s
x − t (α / 2 ,n −1) ≤ μ ≤ x+ t (α / 2, n −1)
√n √n
donde t (α / 2 ,n −1 ) es el punto de la distribució n t, con n −1 grados de libertad, que deja a su
derecha un á rea de α /2
Con α =0.05 en R se obtiene el siguiente intervalo
t.test(millaje,conf.level=0.95)

##
## One Sample t-test
##
## data: millaje
## t = 38.22, df = 259, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 18216.68 20195.79
## sample estimates:
## mean of x
## 19206.23

Entonces 18216.68 ≤ μ ≤ 20195.79 con un nivel de confianza del 95%


Prueba de hipótesis sobre la proporción de autos que tienen cuatro puertas
p1<-(length(datos$Puertas[datos$Puertas==4]))/N;p1#poblacional

## [1] 0.7636816

x<-length(datos2$Puertas[datos2$Puertas==4]);x

## [1] 192

p<-x/n;p

## [1] 0.7384615

El juego de hipó tesis es


H 0 :π ≤ 0.7636816

vs
H 1 : π > 0.7636816
prop.test(x=x,n=n,p=0.7636816,alternative="greater",conf.level = 0.95)
##
## 1-sample proportions test with continuity correction
##
## data: x out of n, null probability 0.7636816
## X-squared = 0.78192, df = 1, p-value = 0.8117
## alternative hypothesis: true p is greater than 0.7636816
## 95 percent confidence interval:
## 0.6893318 1.0000000
## sample estimates:
## p
## 0.7384615

como el p − v a l o r=0.7384615 es mayor que el nivel de significancia α =0.05 no se rechaza


H 0.

Note que la conclusió n es correcta.


Intervalo para para la diferencia de dos medias
Se construye un intervalo de confianza para determinar si el millaje recorrido por los
autos fabricados por Cadillac y Chevrolet es el mismo o es diferente. Asumiendo varianzas
diferentes y desconocidas

Si x 1, x 2, s21 y s22 son las medias y las varianzas de dos muestras aleatorias de tamañ os n1 y n2
respectivamente.

s 21 s22 s2 s2
( x 1 − x2 )− t (α / 2 ,v)
√ n 1 n2 √
+ ≤ μ 1 − μ 2 ≤(x 1 − x 2)+t (α / 2 ,v) 1 + 2
n1 n2

se muestran las primeras 6 filas, donde los autos son fabricados por Cadillac
d3<-datos2[which(datos2$Fabricante=="Cadillac"),];head(d3)

## Price Millaje Fabricante Modelo Trim..configuración.específica. Tipo


## 667 30646 17094 Cadillac CTS Sedan 4D Sedan
## 782 44085 21367 Cadillac CST-V Sedan 4D Sedan
## 758 39307 16041 Cadillac Deville DHS Sedan 4D Sedan
## 684 31431 11013 Cadillac CTS Sedan 4D Sedan
## 689 32038 35326 Cadillac STS-V6 Sedan 4D Sedan
## 730 35716 6447 Cadillac Deville Sedan 4D Sedan
## Cilindros Litros Puertas Crucero Sonido Cuero
## 667 6 2.8 4 1 1 1
## 782 8 5.7 4 1 1 1
## 758 8 4.6 4 1 0 1
## 684 6 2.8 4 1 1 1
## 689 6 3.6 4 1 1 1
## 730 8 4.6 4 1 0 1

mi.cad<-d3$Millaje#millaje para los autos fabricados por Cadillac

se muestran las primeras 6 filas, donde los autos son fabricados por Chevrolet
d4<-datos2[which(datos2$Fabricante=="Chevrolet"),];head(d4)

## Price Millaje Fabricante Modelo Trim..configuración.específica.


Tipo
## 450 19447 932 Chevrolet Malibu LT Sedan 4D
Sedan
## 202 14275 18533 Chevrolet Cavalier LS Sport Sedan 4D
Sedan
## 200 14256 16958 Chevrolet Cavalier LS Sport Sedan 4D
Sedan
## 150 13168 14630 Chevrolet Cavalier LS Sedan 4D
Sedan
## 541 22384 14788 Chevrolet Monte Carlo LT Coupe 2D
Coupe
## 155 13309 20043 Chevrolet Cavalier LS Sport Sedan 4D
Sedan
## Cilindros Litros Puertas Crucero Sonido Cuero
## 450 6 3.5 4 0 1 1
## 202 4 2.2 4 1 1 1
## 200 4 2.2 4 0 1 1
## 150 4 2.2 4 0 1 1
## 541 6 3.8 2 1 1 1
## 155 4 2.2 4 0 1 1

mi.che<-d4$Millaje#Millaje para los autos fabricados por Chevrolet

Entonces para obtener el intervalo de confianza en R es


t.test(mi.cad,mi.che,var.equal=FALSE,conf.level=0.95)

##
## Welch Two Sample t-test
##
## data: mi.cad and mi.che
## t = -0.40227, df = 31.472, p-value = 0.6902
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -5086.495 3409.685
## sample estimates:
## mean of x mean of y
## 19152.35 19990.75

Luego
−5086.495 ≤ μ 1 − μ 2 ≤ 3409.685

Como el intervalo de confianza contiene a cero, se concluye que el millaje recorrido por los
autos fabricados por Cadillac y Chevrolet es el mismo.
Prueba de Hipótesis
Verificamos lo anterior con una prueba de hipó tesis para la diferencia de medias del millaje
recorrido por los autos fabricados por Cadillac y Chevrolet.
H 0 :μ 1 − μ 2=0

vs
H 1 : μ 1 − μ2 ≠ 0
t.test(mi.cad,mi.che,alternative = "two.sided",mu = 0,conf.level = 0.95)

##
## Welch Two Sample t-test
##
## data: mi.cad and mi.che
## t = -0.40227, df = 31.472, p-value = 0.6902
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -5086.495 3409.685
## sample estimates:
## mean of x mean of y
## 19152.35 19990.75

Como el p − v a l u e=0.6902>α=0.05 no se rechaza H 0 Es decir, el millaje recorrido por los


autos fabricados por Cadillac y Chevrolet es el mismo.

También podría gustarte