Morozov Estadística Avanzada

Actividad 1: Preprocesamiento de los datos
Kyrylo Morozov
19 de noviembre, 2020
Índice
Introducción 1
1. Estadística descriptiva y visualización 2
2. Intervalo de confianza de la media porlacional 3

2.1. Cálculo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2. Interpretación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.3. Intervalo de confianza de la media poblacional de Sales en USA y fuera de USA . . . . . . . . 4
3. Ventas del producto en USA y fuera de USA 4

3.1. Hipótesis nula y alternativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.2. Test a aplicar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.3. Cálculos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.4. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
4. Ventas en zonas urbanas y rurales 5

4.2. Test a aplicar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
4.3. Cálculos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
4.4. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
5. Estrategia de precios 7
5.2. Test a aplicar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
5.3. Cálculos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
5.4. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
6. Diferencias en la estrategia de precios 7

6.2. Test a aplicar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
6.3. Cálculos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
6.4. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
7. Resumen ejecutivo 8
Introducción
1
Master Data Science Kyrylo Morozov
1. Estadística descriptiva y visualización

Cargamos el fichero con el siguiente código:
archivo <- "ChildCarSeats_clean.csv"
datos <- read.csv(archivo)
Y representamos una serie de gráficos para analizar la forma que tienen nuestras distribuciones.
p1 <- qplot(Sales, data = datos,binwidth=1)+ ggtitle("Sales")
p2 <- qplot(CompPrice, data = datos,binwidth=1) + ggtitle("CompPrice")
p3 <- qplot(Income, data = datos,binwidth=1) + ggtitle("Income")
p4 <- qplot(Advertising, data = datos,binwidth=1) + ggtitle("Advertising")
p5 <- qplot(Population, data = datos,binwidth=5) + ggtitle("Population")
p6 <- qplot(Price, data = datos,binwidth=1) + ggtitle("Price")
p7 <- qplot(Age, data = datos,binwidth=1) + ggtitle("Age")
p8 <- qplot(Education, data = datos,binwidth=1) + ggtitle("Education")
grid.arrange(p1, p2,p3,p4,p5,p6,p7,p8, nrow = 2,
top = "VIsualización Datos",
bottom = textGrob(
"Distribuciones gaussianas en Sales ,Price, Income",))
VIsualización Datos
Sales CompPrice Income Advertising
60 150
15
9
40 100
10
6
20 5 50
3
0 0 0 0
0 5 10 15 75 100 125 150 175 25 50 75 100 125 0 10 20 30
Sales CompPrice Income Advertising
Population Price Age Education

10.0 12.5 50
10.0 40
7.5 10
7.5 30
5.0
5.0 20
5
2.5 2.5 10
0.0 0.0 0 0
0 100200300400500 50 100 150 40 60 80 11 13 15 17
Population Price Age Education
Distribuciones gaussianas en Sales ,Price, Income
Se puede observar una distribución normal (Gaussiana), en las variables Sales, CompPrice y Price. Por ende
es lícito y justificado a partir de ahora usar las herramientas pertinentes con éstas variables.
p1 <- ggplot(datos, aes(x=ShelveLoc))
p2 <- p1 + geom_histogram(binwidth = 0.1, col='black', fill='green', alpha=0.4,stat="count")
p3 <- ggplot(datos, aes(x=Urban))

p5 <- ggplot(datos, aes(x=US))
grid.arrange(p2,p4,p6, nrow = 1,
top = "VIsualización Datos Categóricos")
VIsualización Datos Categóricos
200
200
200
150
count
count
count
100
100
100
50
0 0 0
Bad Good Medium No Yes No Yes

ShelveLoc Urban US
Se han generado también las visualizaciones de los datgos categóricos de nuestro dataset.
2. Intervalo de confianza de la media porlacional

Calcularemos el intervalo de confianza por medio de una función
2.1. Cálculo
Escribimos función que calculará el intervalo de confianza
InC <- function(datos , alfa){
err = qnorm( 1-alfa/2 )*(sd(datos)/sqrt((length(datos))))
I1=mean(datos) - err
I2=mean(datos) + err
return (c(I1,I2))
}
interconfsales = InC(datos$Sales,0.05)
interconfsales
## [1] 7.142187 7.677763
2.2. Interpretación
El intervalo de confianza nos proporciona un rango entre el cual podrémos encontrar nuestra variable
poblacional con un nivel de confianza 1-alfa, en este caso, en 95 de cada 100 muestras.
2.3. Intervalo de confianza de la media poblacional de Sales en USA y fuera de

USA
interconfsales = InC(datos$Sales[datos$US =="Yes"],0.05)
interconfsales
## [1] 7.515826 8.217973

t.test(datos$Sales[datos$US =="Yes"], conf.level=0.95)$conf.int
## [1] 7.514165 8.219634

## attr(,"conf.level")
## [1] 0.95
Podemos comprobar que la función escrita efectivamente devuelve los resultados correctos.
interconfsales = InC(datos$Sales[datos$US =="No"],0.05)
interconfsales
## [1] 6.213267 6.946310

Se puede concluir que no se tienen los mismos intervalos de confianza para la media.
3. Ventas del producto en USA y fuera de USA

Para evaluar si las ventas del producto son superiores en las tiendas de USA que fuera de USA, podemos
aplicar un test de hipótesis de dos muestras. Seguid los pasos que se indican a continuación.
3.1. Hipótesis nula y alternativa

H0 : µ1 = µ2
H1 : µ1 < µ2
3.2. Test a aplicar

Comprobaremos la normalidad de los datos y realizaremos contrastes de dos muestras independientes sobre
la media con varianzas conocidas. Se aplica para el cumplimiento de condiciiones de normalidad el test de
Shapiro-Wilk. Cumpliéndose en ámbos casos.
shapiro.test(datos$Sales[datos$US =="No"])
##
## Shapiro-Wilk normality test
##
## data: datos$Sales[datos$US == "No"]
## W = 0.98729, p-value = 0.2181
shapiro.test(datos$Sales[datos$US =="Yes"])
##
## Shapiro-Wilk normality test
##
## data: datos$Sales[datos$US == "Yes"]
## W = 0.99545, p-value = 0.6499
3.3. Cálculos
ventausa <- datos$Sales[datos$US =="No"]
ventafuerausa <- datos$Sales[datos$US =="Yes"]
var1 = var(ventausa)
var2 = var(ventafuerausa)
mean1 = mean(ventausa)
mean2 = mean(ventafuerausa)
n1 = length(ventausa)
n2 = length(ventafuerausa)
zobs <- (mean1-mean2)/sqrt(var1/n1 + var2/n2)
alfa <- 0.05
zcrit <- qnorm(1-alfa)
pvalue <- pnorm(zobs, lower.tail=FALSE)
print("zobs, zcrit, pvalue")
## [1] "zobs, zcrit, pvalue"

c( zobs, zcrit, pvalue )
## [1] -4.9704860 1.6448536 0.9999997

t.test(datos$Sales[datos$US =="No"],datos$Sales[datos$US =="Yes"],alternative="greater",
var.equal=FALSE)
##
## Welch Two Sample t-test
##
## data: datos$Sales[datos$US == "No"] and datos$Sales[datos$US == "Yes"]
## t = -4.9705, df = 354.64, p-value = 1
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
## -1.714162 Inf
## sample estimates:
## mean of x mean of y
## 6.579789 7.866899
3.4. Conclusión
En este caso no podemos rechazar la hipótesis nula puesto que la zobs cae dentro del intervalo de aceptación.
El valor de pvalue tampoco permite rechazar ésta hipótesis puesto que no es menor que el valor de aceptación.
4. Ventas en zonas urbanas y rurales

Nos preguntamos ahora si las ventas en zonas urbanas son diferentes de las ventas en zonas rurales. Realizad
un test de hipótesis de dos muestras para responder esta pregunta. Seguid los mismos pasos que en la sección
anterior.

H0 : µ1 = µ2
H1 : µ1 6= µ2
4.2. Test a aplicar

Constraste de dos medias independientes sobre la media. Asumiendo de nuevo la validez del teorema de límite
central.
“Bilateral en este caso”
4.3. Cálculos
ventaurban <- datos$Sales[datos$Urban =="No"]
ventarural <- datos$Sales[datos$Urban =="Yes"]
var1 = var(ventaurban)
var2 = var(ventarural)
mean1 = mean(ventaurban)
mean2 = mean(ventarural)
n1 = length(ventaurban)
n2 = length(ventarural)
ztest <- (mean1-mean2)/sqrt(var1/n1 + var2/n2)
alfa <- 0.05
zcrit <- qnorm((1-alfa)/2,lower.tail=FALSE)
pvalue <- pnorm(abs(ztest), lower.tail=FALSE)*2

c( ztest, zcrit, pvalue )
## [1] 0.47068015 0.06270678 0.63786916

t.test(datos$Sales[datos$Urban =="No"],datos$Sales[datos$Urban =="Yes"],alternative="two.sided",
var.equal=FALSE)
##
## Welch Two Sample t-test
##
## data: datos$Sales[datos$Urban == "No"] and datos$Sales[datos$Urban == "Yes"]
## t = 0.47068, df = 220.63, p-value = 0.6383
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -0.4487328 0.7303280
## sample estimates:
## mean of x mean of y
## 7.509237 7.368440
4.4. Conclusión
De nuevo en este caso no podemos rechazar la hipótesis nula puesto que la zobs cae dentro del intervalo de
aceptación. El valor de pvalue tampoco permite rechazar ésta hipótesis puesto que no es menor que el valor
de aceptación.
5. Estrategia de precios
Nos preguntamos si la proporción de tiendas que venden el producto por debajo del precio de la competencia
es mayor que las que venden por encima del precio de la competencia. Para responder esta pregunta, se
recomienda plantear un test sobre la proporción. Seguid los pasos que se indican a continuación.

H0 : p1 = p2
H1 : p1 > p2
5.2. Test a aplicar

Constraste de proporción de dos muestras sobre muestras grandes.
5.3. Cálculos
x1 <- datos$Price[datos$CompPrice <= datos$Price]
x2 <- datos$Price[datos$CompPrice >= datos$Price]
p1 <- sum(x1,na.rm = TRUE)/length(x1)
n1 <- length(x1)
n2 <- length(x2)
p <-(n1*p1 + n2*p2)/(n1+n2)
d <- sqrt(abs(p*(1-p)*(1/n1+1/n2)))
zobs <- (p1-p2)/d
zcrit <- qnorm(0.02, lower.tail=FALSE)

c(zobs, zcrit, pvalue)
## [1] 2.29348783 2.05374891 0.01090997
5.4. Conclusión
En esta ocasión si podemos rechazar la hipótesis nula ya que zobs cae fuera del intervalo de aceptación y
además p es menor que alfa. Se puede concluir pues que la proporción de las tiendas que venden por debajo
es mayor.
6. Diferencias en la estrategia de precios

Se cree que las tiendas de USA usan una estrategia de precios más agresiva en relación con las tiendas de
fuera de USA. Para investigar esta hipótesis, calculamos en cuantas ocasiones el precio de la tienda es inferior
al precio de la competencia. A partir de este cálculo, nos preguntamos: ¿la proporción de casos en los que el
precio de la tienda es más bajo que la competencia (estrategia de precios bajos) es diferente en las tiendas de
USA que en las tiendas fuera de USA?

H0 : p1 = p2
H1 : p1 > p2
6.2. Test a aplicar

Constraste de proporción de dos muestras sobre muestras grandes.
6.3. Cálculos
x1 <- datos$Price[datos$US == "Yes" & datos$Price < datos$CompPrice]
x2 <- datos$Price[datos$US == "No" & datos$Price < datos$CompPrice]
n1 <- length(x1)
n2 <- length(x2)
p <-(n1*p1 + n2*p2)/(n1+n2)
d <- sqrt(abs(p*(1-p)*(1/n1+1/n2)))
zobs <- (p1-p2)/d
zcrit <- qnorm(0.05, lower.tail=FALSE)

c(zobs, zcrit, pvalue)
## [1] 0.2873025 1.6448536 0.3869404
6.4. Conclusión
En este último cálculo no podemos rechazar la hipótesis nula porque alfa no está por debajo de pvalue.
7. Resumen ejecutivo
Con el estudio terminado de las ventas podemos sacar las siguientes conclusiones respaldadas sobre parámetros
estadísticos:
Las ventas en USA y fuera de USA no se pueden considerar distintas con un nivel de confianza del 95 %
Tampoco se puede aseverar que las ventas difieren en zonas urbanas y rurales con nivel de confianza del
95 %
Se puede asegurar que las tiendas que venden por debajo de los precios de las competencias están en
mayor proporción con un nivel de confianza del 95 %
Por último no podemos admitir que las estrategias de precios sean distintas fuera de USA y dentro de
USA con nivel de confianza del 95 %.

Morozov Estadística Avanzada

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Morozov Estadística Avanzada

Cargado por

Copyright:

Formatos disponibles

Actividad 1: Preprocesamiento de los datos

1. Estadística descriptiva y visualización 2

2. Intervalo de confianza de la media porlacional 3

3. Ventas del producto en USA y fuera de USA 4

4. Ventas en zonas urbanas y rurales 5

6. Diferencias en la estrategia de precios 7

1. Estadística descriptiva y visualización

Population Price Age Education

p4 <- p3 + geom_histogram(binwidth = 0.1, col='black', fill='green', alpha=0.4,stat="count")

VIsualización Datos Categóricos

Bad Good Medium No Yes No Yes

2. Intervalo de confianza de la media porlacional

## [1] 7.142187 7.677763

2.3. Intervalo de confianza de la media poblacional de Sales en USA y fuera de

## [1] 7.515826 8.217973

## [1] 7.514165 8.219634

## [1] 6.213267 6.946310

3. Ventas del producto en USA y fuera de USA

3.1. Hipótesis nula y alternativa

3.2. Test a aplicar

## [1] "zobs, zcrit, pvalue"

## [1] -4.9704860 1.6448536 0.9999997

4. Ventas en zonas urbanas y rurales

4.1. Hipótesis nula y alternativa

4.2. Test a aplicar

## [1] "zobs, zcrit, pvalue"

## [1] 0.47068015 0.06270678 0.63786916

5.1. Hipótesis nula y alternativa

5.2. Test a aplicar

## [1] "zobs, zcrit, pvalue"

## [1] 2.29348783 2.05374891 0.01090997

6. Diferencias en la estrategia de precios

6.1. Hipótesis nula y alternativa

6.2. Test a aplicar

## [1] "zobs, zcrit, pvalue"

## [1] 0.2873025 1.6448536 0.3869404

También podría gustarte