Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Kyrylo Morozov
19 de noviembre, 2020
Índice
Introducción 1
5. Estrategia de precios 7
5.1. Hipótesis nula y alternativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
5.2. Test a aplicar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
5.3. Cálculos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
5.4. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
7. Resumen ejecutivo 8
Introducción
1
Master Data Science Kyrylo Morozov
Y representamos una serie de gráficos para analizar la forma que tienen nuestras distribuciones.
p1 <- qplot(Sales, data = datos,binwidth=1)+ ggtitle("Sales")
p2 <- qplot(CompPrice, data = datos,binwidth=1) + ggtitle("CompPrice")
p3 <- qplot(Income, data = datos,binwidth=1) + ggtitle("Income")
p4 <- qplot(Advertising, data = datos,binwidth=1) + ggtitle("Advertising")
p5 <- qplot(Population, data = datos,binwidth=5) + ggtitle("Population")
p6 <- qplot(Price, data = datos,binwidth=1) + ggtitle("Price")
p7 <- qplot(Age, data = datos,binwidth=1) + ggtitle("Age")
p8 <- qplot(Education, data = datos,binwidth=1) + ggtitle("Education")
grid.arrange(p1, p2,p3,p4,p5,p6,p7,p8, nrow = 2,
top = "VIsualización Datos",
bottom = textGrob(
"Distribuciones gaussianas en Sales ,Price, Income",))
VIsualización Datos
Sales CompPrice Income Advertising
60 150
15
9
40 100
10
6
20 5 50
3
0 0 0 0
0 5 10 15 75 100 125 150 175 25 50 75 100 125 0 10 20 30
Sales CompPrice Income Advertising
200
200
200
150
count
count
count
100
100
100
50
0 0 0
2.1. Cálculo
Escribimos función que calculará el intervalo de confianza
InC <- function(datos , alfa){
err = qnorm( 1-alfa/2 )*(sd(datos)/sqrt((length(datos))))
I1=mean(datos) - err
I2=mean(datos) + err
return (c(I1,I2))
}
interconfsales = InC(datos$Sales,0.05)
interconfsales
Master Data Science Kyrylo Morozov
2.2. Interpretación
El intervalo de confianza nos proporciona un rango entre el cual podrémos encontrar nuestra variable
poblacional con un nivel de confianza 1-alfa, en este caso, en 95 de cada 100 muestras.
##
## Shapiro-Wilk normality test
##
## data: datos$Sales[datos$US == "No"]
## W = 0.98729, p-value = 0.2181
shapiro.test(datos$Sales[datos$US =="Yes"])
Master Data Science Kyrylo Morozov
##
## Shapiro-Wilk normality test
##
## data: datos$Sales[datos$US == "Yes"]
## W = 0.99545, p-value = 0.6499
3.3. Cálculos
ventausa <- datos$Sales[datos$US =="No"]
ventafuerausa <- datos$Sales[datos$US =="Yes"]
var1 = var(ventausa)
var2 = var(ventafuerausa)
mean1 = mean(ventausa)
mean2 = mean(ventafuerausa)
n1 = length(ventausa)
n2 = length(ventafuerausa)
zobs <- (mean1-mean2)/sqrt(var1/n1 + var2/n2)
alfa <- 0.05
zcrit <- qnorm(1-alfa)
pvalue <- pnorm(zobs, lower.tail=FALSE)
print("zobs, zcrit, pvalue")
##
## Welch Two Sample t-test
##
## data: datos$Sales[datos$US == "No"] and datos$Sales[datos$US == "Yes"]
## t = -4.9705, df = 354.64, p-value = 1
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
## -1.714162 Inf
## sample estimates:
## mean of x mean of y
## 6.579789 7.866899
3.4. Conclusión
En este caso no podemos rechazar la hipótesis nula puesto que la zobs cae dentro del intervalo de aceptación.
El valor de pvalue tampoco permite rechazar ésta hipótesis puesto que no es menor que el valor de aceptación.
4.3. Cálculos
ventaurban <- datos$Sales[datos$Urban =="No"]
ventarural <- datos$Sales[datos$Urban =="Yes"]
var1 = var(ventaurban)
var2 = var(ventarural)
mean1 = mean(ventaurban)
mean2 = mean(ventarural)
n1 = length(ventaurban)
n2 = length(ventarural)
ztest <- (mean1-mean2)/sqrt(var1/n1 + var2/n2)
alfa <- 0.05
zcrit <- qnorm((1-alfa)/2,lower.tail=FALSE)
pvalue <- pnorm(abs(ztest), lower.tail=FALSE)*2
print("zobs, zcrit, pvalue")
##
## Welch Two Sample t-test
##
## data: datos$Sales[datos$Urban == "No"] and datos$Sales[datos$Urban == "Yes"]
## t = 0.47068, df = 220.63, p-value = 0.6383
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -0.4487328 0.7303280
## sample estimates:
## mean of x mean of y
## 7.509237 7.368440
4.4. Conclusión
De nuevo en este caso no podemos rechazar la hipótesis nula puesto que la zobs cae dentro del intervalo de
aceptación. El valor de pvalue tampoco permite rechazar ésta hipótesis puesto que no es menor que el valor
de aceptación.
Master Data Science Kyrylo Morozov
5. Estrategia de precios
Nos preguntamos si la proporción de tiendas que venden el producto por debajo del precio de la competencia
es mayor que las que venden por encima del precio de la competencia. Para responder esta pregunta, se
recomienda plantear un test sobre la proporción. Seguid los pasos que se indican a continuación.
5.3. Cálculos
x1 <- datos$Price[datos$CompPrice <= datos$Price]
x2 <- datos$Price[datos$CompPrice >= datos$Price]
p1 <- sum(x1,na.rm = TRUE)/length(x1)
p2 <- sum(x2,na.rm = TRUE)/length(x2)
n1 <- length(x1)
n2 <- length(x2)
p <-(n1*p1 + n2*p2)/(n1+n2)
d <- sqrt(abs(p*(1-p)*(1/n1+1/n2)))
zobs <- (p1-p2)/d
zcrit <- qnorm(0.02, lower.tail=FALSE)
pvalue <- pnorm(zobs, lower.tail=FALSE)
print("zobs, zcrit, pvalue")
5.4. Conclusión
En esta ocasión si podemos rechazar la hipótesis nula ya que zobs cae fuera del intervalo de aceptación y
además p es menor que alfa. Se puede concluir pues que la proporción de las tiendas que venden por debajo
es mayor.
6.3. Cálculos
x1 <- datos$Price[datos$US == "Yes" & datos$Price < datos$CompPrice]
x2 <- datos$Price[datos$US == "No" & datos$Price < datos$CompPrice]
p1 <- sum(x1,na.rm = TRUE)/length(x1)
p2 <- sum(x2,na.rm = TRUE)/length(x2)
n1 <- length(x1)
n2 <- length(x2)
p <-(n1*p1 + n2*p2)/(n1+n2)
d <- sqrt(abs(p*(1-p)*(1/n1+1/n2)))
zobs <- (p1-p2)/d
zcrit <- qnorm(0.05, lower.tail=FALSE)
pvalue <- pnorm(zobs, lower.tail=FALSE)
print("zobs, zcrit, pvalue")
6.4. Conclusión
En este último cálculo no podemos rechazar la hipótesis nula porque alfa no está por debajo de pvalue.
7. Resumen ejecutivo
Con el estudio terminado de las ventas podemos sacar las siguientes conclusiones respaldadas sobre parámetros
estadísticos:
Las ventas en USA y fuera de USA no se pueden considerar distintas con un nivel de confianza del 95 %
Tampoco se puede aseverar que las ventas difieren en zonas urbanas y rurales con nivel de confianza del
95 %
Se puede asegurar que las tiendas que venden por debajo de los precios de las competencias están en
mayor proporción con un nivel de confianza del 95 %
Por último no podemos admitir que las estrategias de precios sean distintas fuera de USA y dentro de
USA con nivel de confianza del 95 %.