Está en la página 1de 10

TRABAJO COLABORATIVO ESTADÍSTICA INFERENCIAL

ESTADÍSTICA INFERENCIAL

JENNIFER PÉREZ PALACIO


JENNIFFER ANDREA PINZÓN LÓPEZ

INSTITUCIÓN UNIVERSITARIA POLITÉCNICO GRANCOLOMBIANO

28/09/2019
NOTAS DEL AUTOR

Jennifer Pérez Palacio

Jenniffer Andrea Pinzón López, subgrupo 9

TUTOR:

Henry Bacca

Facultad de Ciencias Administrativas, Económicas y Contables

INTRODUCCIÓN

La Estadística Inferencial es una parte de la estadística que se encarga de mostrar métodos

y técnicas para hacer estimaciones y predicciones para transformar los datos en

conocimiento, busca implementar los procesos estadísticos y probabilísticos para analizar o

interpretar datos de un conjunto de características o elementos.

OBJETIVO

Comprender el procedimiento para construir intervalo de confianza para estimar la diferencia

de dos promedios poblacionales e interpretarlo.

DESCRIPCIÓN

El conjunto de datos en el archivo “black-friday” (Dagdoug, 2019) es una muestra de las

transacciones realizadas en una tienda minorista. La tienda quiere conocer mejor el

comportamiento de compra del cliente frente a diferentes productos. Específicamente, el


problema que estamos tratando de predecir la variable dependiente (el monto de la compra)

con la ayuda de la información contenida en las otras variables.

Las variables del archivo adjunto son las siguientes:

User_ID Identificador único del comprador

Product_ID Identificador único del producto.

Gender Sexo del comprador

Age Edad del comprador dividida en contenedores

Occupation Ocupación del comprador.

City_Category Lugar de residencia del comprador.

Stay_In_Current_City_Years Número de años en la ciudad actual.

Marital_Status Estado civil del comprador

Product_Category_1 Categoría de producto de compra

Product_Category_2 El producto puede pertenecer a otra categoría

Product_Category_3 El producto puede pertenecer a otra categoría

Purchase Valor de la compra en dólares

1. Realice un histograma y explique la forma y la curtosis según el contexto.

2. Calcular: la media, mediana, moda, desviación estándar, coeficiente de variación e

interprete los resultados.

3. En relación a las variables dadas en la tabla anterior, responda y justifique los

resultados:

3.1. ¿Cuál es la categoría de edades que más realiza compras en el black-friday?

3.2. ¿Cuál es promedio de gatos de la categoría de la edad que más compra?

3.3. ¿La proporción de hombres que compran es mayor que la de mujeres?


3.4. ¿Cuánto es el promedio de gasto de los hombres y las mujeres?

4. Intervalos de confianza

4.1. ¿Cuál es el tamaño de la muestra que se requiere? Si se exige un error relativo

del 2% y un nivel de confianza del 95%

4.2. Asumiendo que los datos son normales, calcule un Intervalo de confianza al

95% para la diferencia de los gastos para los hombres y mujeres e interprete

el resultado obtenido.

DESARROLLO Y RESULTADOS

1. Realice un histograma y explique la forma y la curtosis según el contexto.

Paso 1: Definir y obtener las variables necesarias para realizar el histograma

Variables a tener en cuenta con su nomenclatura

- # de datos: 𝑛
- Valor máximo: 𝑋𝑚𝑎𝑥
- Valor mínimo: 𝑋𝑚𝑖𝑛
- Rango (𝑅) = 𝑋𝑚𝑎𝑥 − 𝑋𝑚𝑖𝑛
- # de intervalos (𝑘): se obtiene a partir de la regla de Sturges 𝑘 = 1 + 3.322 𝐿𝑜𝑔(𝑛)
𝑅
- Amplitud (𝐴) 𝐴 = 𝐾

Con ayuda de las funciones de Excel se obtiene:


𝒏 537577

𝑿𝒎𝒂𝒙 23961

𝑿𝒎𝒊𝒏 185

𝑹 23766

𝒌 20
𝑨 1189

Tabla 1. Cálculo de variables


Paso 2. Obtener los intervalos y marca de clase para trabajar la tabla de frecuencias

Teniendo los datos de las variables, se procede con la organización de la tabla de intervalos,

el primero sería de 185 a 1374:

Límite inferior: 185


Límite superior: 185 + 1189 = 1374
El siguiente intervalo partiría del siguiente número del límite superior, y sumando el valor

de la amplitud para obtener el límite superior.

Intervalo Lim inf Lim sup


1 185 1374
2 1375 2564
3 2565 3754
4 3755 4944
5 4945 6134
6 6135 7324
7 7325 8514
8 8515 9704
9 9705 10894
Intervalo Lim inf Lim sup
10 10895 12084
11 12085 13274
12 13275 14464
13 14465 15654
14 15655 16844
15 16845 18034
16 18035 19224
17 19225 20414
18 20415 21604
19 21605 22794
20 22795 23984

Tabla 2. Tabla de intervalos

Teniendo los 20 intervalos, se calcula la marca de clase a partir de los límites inferiores y

superiores de cada intervalo.

𝐿𝑖𝑚 𝑠𝑢𝑝 𝑠𝑢𝑝 + 𝐿𝑖𝑚 𝐼𝑛𝑓


𝑀𝑎𝑟𝑐𝑎 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒 =
2
Paso 3. Generar la tabla de frecuencias y el respectivo histograma
Para hallar la frecuencia absoluta de cada intervalo nos apoyamos de las funciones de Excel

y se obtiene:

Límite inferior Límite Superior Marca de Frecuencia


clase absoluta
185 1374 780 8149
1375 2564 1970 24026
2565 3754 3160 29080
3755 4944 4350 28159
4945 6134 5540 68929
6135 7324 6730 61179
7325 8514 7920 69613
8515 9704 9110 35606
9705 10894 10300 39256
10895 12084 11490 39804
12085 13274 12680 18620
13275 14464 13870 5720
14465 15654 15060 30973
15655 16844 16250 33087
16845 18034 17440 1949
18035 19224 18630 12055
19225 20414 19820 23038
20415 21604 21010 6018
21605 22794 22200 11
22795 23984 23390 2305

Tabla 3. Tabla de frecuencias

Histograma
80000
70000
60000
Frecuencia absoluta

50000
40000
30000
20000
10000
0

Marca de clase

Gráfico 1. Histograma

Según el histograma elaborado y luego de calcular la curtosis con Excel (herramientas de

análisis) la cual da como resultado −0.343, se puede decir que la distribución es

platicúrtica, indicando que existe una baja concentración de los valores entorno a la media.
2. Calcular: la media, mediana, moda, desviación estándar, coeficiente de variación e

interprete los resultados.

Con ayuda de la herramienta análisis de datos de Excel, estadística descriptiva, se

obtuvieron los siguientes resultados:

Media 9334
Mediana 8062
Moda 6855
Desviación estándar 4981
Coeficiente de Variación 0,53
Tabla 4. Estadística descriptiva
Puede observarse como los valores obtenidos son dispersos (no giran en torno a la media)

lo que explica la curtosis obtenida y la diferencia entre la desviación estándar y la media.

3. En relación a las variables dadas en la tabla anterior, responda y justifique los

resultados:

3.1 ¿Cuál es la categoría de edades que más realiza compras en el black-friday?

3.2 ¿Cuál es promedio de gatos de la categoría de la edad que más compra?

En Excel, se filtra por rangos la categoría edades y se halla la frecuencia para cada uno,

completando la siguiente tabla:

Rango de edades Compradores Valor en dólares Promedio


0-17 14707 $ 132.659.006 $ 9.020
18-25 97634 $ 901.669.280 $ 9.235
26-35 214690 $ 1.999.749.106 $ 9.315
36-45 107499 $ 1.010.649.565 $ 9.401
46-50 44526 $ 413.418.223 $ 9.285
51-55 37618 $ 361.908.356 $ 9.621
55+ 20903 $ 197.614.842 $ 9.454
TOTAL 537577 $ 5.017.668.378
Tabla 5. Categoría edades

La categoría de 26 a 35 años es la que más realiza compras en el black friday con un gasto

promedio de $9.315 por compra. En total 214.690 personas conforman la categoría

con un total en compras de $1.999.749.106.

3.3 ¿La proporción de hombres que compran es mayor que la de mujeres?

3.4 ¿Cuánto es el promedio de gasto de los hombres y las mujeres?

En Excel, se filtra por rangos la categoría género y se halla la frecuencia para cada uno,

completando la siguiente tabla:

Frecuencia Proporción Total compras Promedio


Hombres 405380 76.79% $ 3.853.044.357 $8.810
Mujeres 132197 23.21% $ 1.164.624.021 $9.505
537577 100% $ 5.017.668.378 $9.334

Tabla 6. Hombres Vs Mujeres


Se puede ver que la proporción de hombres compradores es mayor que la proporción de

mujeres, 53.51% por encima, con un promedio en compras de $8.810, mientras que el de

compras de las mujeres es $9.505.

Intervalos de confianza

4.1 ¿Cuál es el tamaño de la muestra que se requiere? Si se exige un error relativo del 2% y

un nivel de confianza del 95%?

Si se tiene en cuenta el margen de error y la proporción muestral se puede tomar 𝑃 =

0.5 ya que no se conoce la proporción, aplicando la formula se obtiene que el tamaño de la

muestra que se requiere es:


𝑍 2 𝑃(1−𝑃)
𝑛= , donde:
𝑒2

𝑍 = 1.96 (Desviación del valor medio para lograr el nivel de confianza deseado 95%)
𝑒 = 0.2 (Margen de error 2%)
Reemplazando las variables en la ecuación se obtiene que el tamaño de la muestra es 2.401.

4.2 Asumiendo que los datos son normales, calcule un Intervalo de confianza al 95%

para la diferencia de los gastos para los hombres y mujeres e interprete el resultado

obtenido.

Género Tamaño muestral Cantidad de Compras Participación muestral


F $ 1.164.624.021 0,23
M $ 5.017.668.378 $ 3.853.044.357 0,77

P1 Compras hombres
P2 Compras mujeres
Z: 1,96

𝑝1 𝑞1 𝑝2 𝑞2
𝑝1− 𝑝2 = (𝑝1 − 𝑝2 ) ± 𝑧√ +
𝑛1 𝑛2

(0.77)(0.23) (0.23)(0.77)
𝑝1− 𝑝2 = (0.77 − 0.23) ± 1.96√ +
5017668378 5017668378

𝑝1− 𝑝2 = (0.54) ± 1.96√2(3,52 × 10−11 )

𝑝1− 𝑝2 = (0.54) ± 1.64 × 10−5


0.53 < 𝑝1− 𝑝2 < 0.54