Está en la página 1de 8

Actividad 1: Preprocesamiento de los datos

Kyrylo Morozov

19 de noviembre, 2020

Índice
Introducción 1

1. Estadística descriptiva y visualización 2

2. Intervalo de confianza de la media porlacional 3


2.1. Cálculo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2. Interpretación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.3. Intervalo de confianza de la media poblacional de Sales en USA y fuera de USA . . . . . . . . 4

3. Ventas del producto en USA y fuera de USA 4


3.1. Hipótesis nula y alternativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.2. Test a aplicar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.3. Cálculos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.4. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

4. Ventas en zonas urbanas y rurales 5


4.1. Hipótesis nula y alternativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
4.2. Test a aplicar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
4.3. Cálculos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
4.4. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

5. Estrategia de precios 7
5.1. Hipótesis nula y alternativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
5.2. Test a aplicar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
5.3. Cálculos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
5.4. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

6. Diferencias en la estrategia de precios 7


6.1. Hipótesis nula y alternativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
6.2. Test a aplicar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
6.3. Cálculos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
6.4. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

7. Resumen ejecutivo 8

Introducción

1
Master Data Science Kyrylo Morozov

1. Estadística descriptiva y visualización


Cargamos el fichero con el siguiente código:
archivo <- "ChildCarSeats_clean.csv"
datos <- read.csv(archivo)

Y representamos una serie de gráficos para analizar la forma que tienen nuestras distribuciones.
p1 <- qplot(Sales, data = datos,binwidth=1)+ ggtitle("Sales")
p2 <- qplot(CompPrice, data = datos,binwidth=1) + ggtitle("CompPrice")
p3 <- qplot(Income, data = datos,binwidth=1) + ggtitle("Income")
p4 <- qplot(Advertising, data = datos,binwidth=1) + ggtitle("Advertising")
p5 <- qplot(Population, data = datos,binwidth=5) + ggtitle("Population")
p6 <- qplot(Price, data = datos,binwidth=1) + ggtitle("Price")
p7 <- qplot(Age, data = datos,binwidth=1) + ggtitle("Age")
p8 <- qplot(Education, data = datos,binwidth=1) + ggtitle("Education")
grid.arrange(p1, p2,p3,p4,p5,p6,p7,p8, nrow = 2,
top = "VIsualización Datos",

bottom = textGrob(
"Distribuciones gaussianas en Sales ,Price, Income",))

VIsualización Datos
Sales CompPrice Income Advertising
60 150
15
9
40 100
10
6
20 5 50
3

0 0 0 0
0 5 10 15 75 100 125 150 175 25 50 75 100 125 0 10 20 30
Sales CompPrice Income Advertising

Population Price Age Education


10.0 12.5 50
10.0 40
7.5 10
7.5 30
5.0
5.0 20
5
2.5 2.5 10
0.0 0.0 0 0
0 100200300400500 50 100 150 40 60 80 11 13 15 17
Population Price Age Education
Distribuciones gaussianas en Sales ,Price, Income
Se puede observar una distribución normal (Gaussiana), en las variables Sales, CompPrice y Price. Por ende
es lícito y justificado a partir de ahora usar las herramientas pertinentes con éstas variables.
p1 <- ggplot(datos, aes(x=ShelveLoc))
p2 <- p1 + geom_histogram(binwidth = 0.1, col='black', fill='green', alpha=0.4,stat="count")
p3 <- ggplot(datos, aes(x=Urban))
Master Data Science Kyrylo Morozov

p4 <- p3 + geom_histogram(binwidth = 0.1, col='black', fill='green', alpha=0.4,stat="count")


p5 <- ggplot(datos, aes(x=US))
p6 <- p5 + geom_histogram(binwidth = 0.1, col='black', fill='green', alpha=0.4,stat="count")
grid.arrange(p2,p4,p6, nrow = 1,
top = "VIsualización Datos Categóricos")

VIsualización Datos Categóricos

200

200
200
150
count

count

count
100
100
100

50

0 0 0

Bad Good Medium No Yes No Yes


ShelveLoc Urban US
Se han generado también las visualizaciones de los datgos categóricos de nuestro dataset.

2. Intervalo de confianza de la media porlacional


Calcularemos el intervalo de confianza por medio de una función

2.1. Cálculo
Escribimos función que calculará el intervalo de confianza
InC <- function(datos , alfa){
err = qnorm( 1-alfa/2 )*(sd(datos)/sqrt((length(datos))))
I1=mean(datos) - err
I2=mean(datos) + err

return (c(I1,I2))
}
interconfsales = InC(datos$Sales,0.05)
interconfsales
Master Data Science Kyrylo Morozov

## [1] 7.142187 7.677763

2.2. Interpretación
El intervalo de confianza nos proporciona un rango entre el cual podrémos encontrar nuestra variable
poblacional con un nivel de confianza 1-alfa, en este caso, en 95 de cada 100 muestras.

2.3. Intervalo de confianza de la media poblacional de Sales en USA y fuera de


USA
interconfsales = InC(datos$Sales[datos$US =="Yes"],0.05)
interconfsales

## [1] 7.515826 8.217973


t.test(datos$Sales[datos$US =="Yes"], conf.level=0.95)$conf.int

## [1] 7.514165 8.219634


## attr(,"conf.level")
## [1] 0.95
Podemos comprobar que la función escrita efectivamente devuelve los resultados correctos.
interconfsales = InC(datos$Sales[datos$US =="No"],0.05)
interconfsales

## [1] 6.213267 6.946310


Se puede concluir que no se tienen los mismos intervalos de confianza para la media.

3. Ventas del producto en USA y fuera de USA


Para evaluar si las ventas del producto son superiores en las tiendas de USA que fuera de USA, podemos
aplicar un test de hipótesis de dos muestras. Seguid los pasos que se indican a continuación.

3.1. Hipótesis nula y alternativa


H0 : µ1 = µ2
H1 : µ1 < µ2

3.2. Test a aplicar


Comprobaremos la normalidad de los datos y realizaremos contrastes de dos muestras independientes sobre
la media con varianzas conocidas. Se aplica para el cumplimiento de condiciiones de normalidad el test de
Shapiro-Wilk. Cumpliéndose en ámbos casos.
shapiro.test(datos$Sales[datos$US =="No"])

##
## Shapiro-Wilk normality test
##
## data: datos$Sales[datos$US == "No"]
## W = 0.98729, p-value = 0.2181
shapiro.test(datos$Sales[datos$US =="Yes"])
Master Data Science Kyrylo Morozov

##
## Shapiro-Wilk normality test
##
## data: datos$Sales[datos$US == "Yes"]
## W = 0.99545, p-value = 0.6499

3.3. Cálculos
ventausa <- datos$Sales[datos$US =="No"]
ventafuerausa <- datos$Sales[datos$US =="Yes"]
var1 = var(ventausa)
var2 = var(ventafuerausa)
mean1 = mean(ventausa)
mean2 = mean(ventafuerausa)
n1 = length(ventausa)
n2 = length(ventafuerausa)
zobs <- (mean1-mean2)/sqrt(var1/n1 + var2/n2)
alfa <- 0.05
zcrit <- qnorm(1-alfa)
pvalue <- pnorm(zobs, lower.tail=FALSE)
print("zobs, zcrit, pvalue")

## [1] "zobs, zcrit, pvalue"


c( zobs, zcrit, pvalue )

## [1] -4.9704860 1.6448536 0.9999997


t.test(datos$Sales[datos$US =="No"],datos$Sales[datos$US =="Yes"],alternative="greater",
var.equal=FALSE)

##
## Welch Two Sample t-test
##
## data: datos$Sales[datos$US == "No"] and datos$Sales[datos$US == "Yes"]
## t = -4.9705, df = 354.64, p-value = 1
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
## -1.714162 Inf
## sample estimates:
## mean of x mean of y
## 6.579789 7.866899

3.4. Conclusión
En este caso no podemos rechazar la hipótesis nula puesto que la zobs cae dentro del intervalo de aceptación.
El valor de pvalue tampoco permite rechazar ésta hipótesis puesto que no es menor que el valor de aceptación.

4. Ventas en zonas urbanas y rurales


Nos preguntamos ahora si las ventas en zonas urbanas son diferentes de las ventas en zonas rurales. Realizad
un test de hipótesis de dos muestras para responder esta pregunta. Seguid los mismos pasos que en la sección
anterior.
Master Data Science Kyrylo Morozov

4.1. Hipótesis nula y alternativa


H0 : µ1 = µ2
H1 : µ1 6= µ2

4.2. Test a aplicar


Constraste de dos medias independientes sobre la media. Asumiendo de nuevo la validez del teorema de límite
central.
“Bilateral en este caso”

4.3. Cálculos
ventaurban <- datos$Sales[datos$Urban =="No"]
ventarural <- datos$Sales[datos$Urban =="Yes"]
var1 = var(ventaurban)
var2 = var(ventarural)
mean1 = mean(ventaurban)
mean2 = mean(ventarural)
n1 = length(ventaurban)
n2 = length(ventarural)
ztest <- (mean1-mean2)/sqrt(var1/n1 + var2/n2)
alfa <- 0.05
zcrit <- qnorm((1-alfa)/2,lower.tail=FALSE)
pvalue <- pnorm(abs(ztest), lower.tail=FALSE)*2
print("zobs, zcrit, pvalue")

## [1] "zobs, zcrit, pvalue"


c( ztest, zcrit, pvalue )

## [1] 0.47068015 0.06270678 0.63786916


t.test(datos$Sales[datos$Urban =="No"],datos$Sales[datos$Urban =="Yes"],alternative="two.sided",
var.equal=FALSE)

##
## Welch Two Sample t-test
##
## data: datos$Sales[datos$Urban == "No"] and datos$Sales[datos$Urban == "Yes"]
## t = 0.47068, df = 220.63, p-value = 0.6383
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -0.4487328 0.7303280
## sample estimates:
## mean of x mean of y
## 7.509237 7.368440

4.4. Conclusión
De nuevo en este caso no podemos rechazar la hipótesis nula puesto que la zobs cae dentro del intervalo de
aceptación. El valor de pvalue tampoco permite rechazar ésta hipótesis puesto que no es menor que el valor
de aceptación.
Master Data Science Kyrylo Morozov

5. Estrategia de precios
Nos preguntamos si la proporción de tiendas que venden el producto por debajo del precio de la competencia
es mayor que las que venden por encima del precio de la competencia. Para responder esta pregunta, se
recomienda plantear un test sobre la proporción. Seguid los pasos que se indican a continuación.

5.1. Hipótesis nula y alternativa


H0 : p1 = p2
H1 : p1 > p2

5.2. Test a aplicar


Constraste de proporción de dos muestras sobre muestras grandes.

5.3. Cálculos
x1 <- datos$Price[datos$CompPrice <= datos$Price]
x2 <- datos$Price[datos$CompPrice >= datos$Price]
p1 <- sum(x1,na.rm = TRUE)/length(x1)
p2 <- sum(x2,na.rm = TRUE)/length(x2)
n1 <- length(x1)
n2 <- length(x2)
p <-(n1*p1 + n2*p2)/(n1+n2)
d <- sqrt(abs(p*(1-p)*(1/n1+1/n2)))
zobs <- (p1-p2)/d
zcrit <- qnorm(0.02, lower.tail=FALSE)
pvalue <- pnorm(zobs, lower.tail=FALSE)
print("zobs, zcrit, pvalue")

## [1] "zobs, zcrit, pvalue"


c(zobs, zcrit, pvalue)

## [1] 2.29348783 2.05374891 0.01090997

5.4. Conclusión
En esta ocasión si podemos rechazar la hipótesis nula ya que zobs cae fuera del intervalo de aceptación y
además p es menor que alfa. Se puede concluir pues que la proporción de las tiendas que venden por debajo
es mayor.

6. Diferencias en la estrategia de precios


Se cree que las tiendas de USA usan una estrategia de precios más agresiva en relación con las tiendas de
fuera de USA. Para investigar esta hipótesis, calculamos en cuantas ocasiones el precio de la tienda es inferior
al precio de la competencia. A partir de este cálculo, nos preguntamos: ¿la proporción de casos en los que el
precio de la tienda es más bajo que la competencia (estrategia de precios bajos) es diferente en las tiendas de
USA que en las tiendas fuera de USA?

6.1. Hipótesis nula y alternativa


H0 : p1 = p2
H1 : p1 > p2
Master Data Science Kyrylo Morozov

6.2. Test a aplicar


Constraste de proporción de dos muestras sobre muestras grandes.

6.3. Cálculos
x1 <- datos$Price[datos$US == "Yes" & datos$Price < datos$CompPrice]
x2 <- datos$Price[datos$US == "No" & datos$Price < datos$CompPrice]
p1 <- sum(x1,na.rm = TRUE)/length(x1)
p2 <- sum(x2,na.rm = TRUE)/length(x2)
n1 <- length(x1)
n2 <- length(x2)
p <-(n1*p1 + n2*p2)/(n1+n2)
d <- sqrt(abs(p*(1-p)*(1/n1+1/n2)))
zobs <- (p1-p2)/d
zcrit <- qnorm(0.05, lower.tail=FALSE)
pvalue <- pnorm(zobs, lower.tail=FALSE)
print("zobs, zcrit, pvalue")

## [1] "zobs, zcrit, pvalue"


c(zobs, zcrit, pvalue)

## [1] 0.2873025 1.6448536 0.3869404

6.4. Conclusión
En este último cálculo no podemos rechazar la hipótesis nula porque alfa no está por debajo de pvalue.

7. Resumen ejecutivo
Con el estudio terminado de las ventas podemos sacar las siguientes conclusiones respaldadas sobre parámetros
estadísticos:
Las ventas en USA y fuera de USA no se pueden considerar distintas con un nivel de confianza del 95 %
Tampoco se puede aseverar que las ventas difieren en zonas urbanas y rurales con nivel de confianza del
95 %
Se puede asegurar que las tiendas que venden por debajo de los precios de las competencias están en
mayor proporción con un nivel de confianza del 95 %
Por último no podemos admitir que las estrategias de precios sean distintas fuera de USA y dentro de
USA con nivel de confianza del 95 %.

También podría gustarte