Está en la página 1de 20

Trabajo Colaborativo de Estadística Inferencial

Yeimy L. Londoño cod. 1821026820, Jhon J. Escobar Rojas cod. 1821025586, Jhon W.

Villaraga y Jorge A. Carabalí cod. 1811982373

Institución Universitaria Politécnico Gran Colombiano

Facultad de Ingeniería, Diseño e Innovación

Estadística Inferencial Grupo 7

21 de Abril del 2020.


2

Tabla de contenido
1. Introducción ................................................................................................................ 5

2. Objetivos ..................................................................................................................... 6

3. Desarrollo de la Actividad y Resultados. .................................................................... 7

3.1. Pregunta 1. Realice un histograma y explique la forma y la curtosis según el

contexto. 7

3.2. Pregunta 2. Calcular: la media, mediana, moda, desviación estándar, coeficiente

de variación e interprete los resultados. ............................................................................... 11

3.3. Pregunta 3. En relación a las variables dadas en la tabla anterior, responda y

justifique los resultados: ...................................................................................................... 13

3.3.1. Pregunta 3.1 ¿Cuál es la categoría de edades que más realiza compras en el

black-friday? .................................................................................................................... 13

3.3.2. Pregunta 3.2 ¿Cuál es promedio de gatos de la categoría de la edad que más

compra? ………………………………………………………………………………14

3.3.3. Pregunta 3.3 ¿La proporción de hombres que compran es mayor que la de

mujeres? ………………………………………………………………………………15

3.3.4. Pregunta 3.4 ¿Cuánto es el promedio de gasto de los hombres y las mujeres?

………………………………………………………………………………16

3.4. Pregunta 4. Intervalos de confianza ................................................................... 16

3.4.1. Pregunta 4.1 Proponga una alternativa para determinar el tamaño de una

muestra para la variable compra (Purchase). ................................................................... 16


3

3.4.2. Pregunta 4.2 Asumiendo que los datos son normales, calcule un Intervalo de

confianza al 95% para la diferencia de los gastos para los hombres y mujeres e interprete

el resultado obtenido. ....................................................................................................... 18

4. Bibliografía y Referencias ......................................................................................... 20


4

TABLA DE ILUSTRACIONES

Ilustración 1. Histograma de la variable Purchase ................................................................ 9

Ilustración 2. Histograma con datos no agrupados. .............................................................. 9

Ilustración 3. Histograma con datos agrupados y 20 clases. ............................................... 10

Ilustración 4. Valores de medidas de tendencia central y de dispersión. ............................ 11

Ilustración 5. Tabla de medidas de tendencia central y medidas de dispersión con fórmulas

Excel. ....................................................................................................................................... 12

Ilustración 6. Tabla Rangos de Edades vs Cantidad Compra Black Friday........................ 13

Ilustración 7. Gráfico de rangos de edades con mayores compras en el Black Friday ....... 14

Ilustración 8. Tabla de compras por rango de edades y género. ......................................... 15

Ilustración 9. Porcentaje de compras por género. ............................................................... 15

Ilustración 10. Gráfica de Pastel de compras por Género. .................................................. 15

Ilustración 11. Promedio de Gastos por Género. ................................................................ 16

Ilustración 12. Propuesta 1 pregunta 4.1. ............................................................................ 16


5

1. Introducción

El presente trabajo tiene como premisa, el que los estudiantes que integran el grupo 7, logren

una comprensión integral del procedimiento para que puedan construir, ya sea en su vida

laboral o académica, intervalos de confianza que les permitan estimar la diferencia de dos

promedios poblacionales e interpretarlo.

Cabe anotar, que se hará uso de un caso de estudio, el cual les permitirá afianzar varias

habilidades necesarias en su vida post universidad, en la cual será un hecho que deberán

desenvolverse con un amplio dominio del trabajo colaborativo; por otro lado, para nadie es un

secreto que el manejo de la estadística inferencial, es un requisito fundamental básicamente en

cualquier empresa en la actualidad.


6

2. Objetivos

● Identificar las variables, constantes y parámetros, y las relaciones que pueden existir
entre ellos y su representación matemática.
● Desarrollar la estimación de parámetros mediante el uso de intervalos de confianza.
7

3. Desarrollo de la Actividad y Resultados.

Utilizando la variable del valor de la compra (Purchase), realice lo siguiente:

3.1. Pregunta 1. Realice un histograma y explique la forma y la curtosis según el

contexto.

Desarrollo de la tabla de distribución de frecuencias, con el objetivo de usarlo como

insumo para desarrollar de forma más organizada y metódica el histograma relacionado con

la variable "Purchase".

Tabla 1 Datos obtenidos a partir de los valores de la columna purchase.

NOTA. Cabe aclarar, que la estadística sugiere que cuando hay una gran cantidad de

datos, como es el caso del presente ejercicio, se agrupen los datos en clases y se realice una

distribución de frecuencias, como la siguiente, pero sugieren que la cantidad de intervalos no

sea inferior a 5 ni superior a 12, y por términos generales la cantidad de intervalos se puede

determinar por condiciones propias del problema a estudiar o en su defecto por la fórmula de
8

"Sturges" el cuál es un método Empírico para determinar el número de clases que deben

existir en un histograma de frecuencias.

En el presente problema se aplicó la regla de Sturges de la siguiente manera.

𝑖 = 1 + 3,22 ∗ 𝑙𝑜𝑔 (𝑛) = 1 + 3.22 ∗ 𝑙𝑜𝑔 (537577) = 19,45

Redondeándolo al entero más próximo, tengo que i es igual a 19.

Aunque la sugerencia diga que no debe superar las 12 clases.

INTERVALO
INTERVALO FRECUENCIA
DE CLASE FRECUENCIA
MARCA DE CLASE FRECUENCIA RELATIVA
ABSOLUTA
ABSOLUTA RELATIVA
i LimInf LimSup ACUMULADA ACUMULADA
x ni hi Ni Hi
1 179 1430 804,5 9903 1,84% 9903 1,84%
2 1431 2682 2056,5 22355 4,16% 32258 6,00%
3 2683 3934 3308,5 33686 6,27% 65944 12,27%
4 3935 5186 4560,5 29078 5,41% 95022 17,68%
5 5187 6438 5812,5 69668 12,96% 164690 30,64%
6 6439 7690 7064,5 60750 11,30% 225440 41,94%
7 7691 8942 8316,5 96138 17,88% 321578 59,82%
8 8943 10194 9568,5 37442 6,96% 359020 66,78%
9 10195 11446 10820,5 11773 2,19% 370793 68,97%
10 11447 12698 12072,5 41540 7,73% 412333 76,70%
11 12699 13950 13324,5 15321 2,85% 427654 79,55%
12 13951 15202 14576,5 3905 0,73% 431559 80,28%
13 15203 16454 15828,5 54921 10,22% 486480 90,49%
14 16455 17706 17080,5 7670 1,43% 494150 91,92%
15 17707 18958 18332,5 1739 0,32% 495889 92,25%
16 18959 20210 19584,5 30914 5,75% 526803 98,00%
17 20211 21462 20836,5 8238 1,53% 535041 99,53%
18 21463 22714 22088,5 227 0,04% 535268 99,57%
19 22715 23966 23340,5 2309 0,43% 537577 100,00%
537577 100%

Tabla 2 Tabla de Frecuencias de acuerdo a la variable Purchase.

A partir de esta tabla de distribución de frecuencias, si puedo obtener el histograma

solicitado, haciendo uso del comando insertar Gráfico de Excel y graficando las columnas de

marca de clase y de frecuencia absoluta.


9

Ilustración 1. Histograma de la variable Purchase

Es importante precisar que dicha gráfica representa marca de clase contra frecuencia

absoluta.

Usando un método diferente, se puede desarrollar el histograma usando una herramienta

que se llama análisis de datos de Excel, que sirve para hacer histogramas y calcular valores

estadísticos como, desviación estándar, varianza, etc.

Ilustración 2. Histograma con datos no agrupados.


10

Y un último histograma realizado con 20 clases, cuyo histograma es el siguiente:

Ilustración 3. Histograma con datos agrupados y 20 clases.

Es claro que el histograma 1 y 3, manejan procedimientos y variables parecidos, en tanto que

la ilustración 2, maneja otra disposición de las variables.


11

EXPLICACIÓN DE LA CURTOSIS DE ACUERDO AL CONTEXTO.

HISTOGRAMA FIGURA 2 CON DATOS NO AGRUPADOS.

La curtosis es un parámetro que nos dice que tan alargada o achatada esta una distribución

comparada respecto a la distribución normal. Para este caso del gráfico se puede ver que la

curtosis está más achatada que la distribución normal y esto concuerda con el valor obtenido

para esta gráfica el cual es de (curtosis= -0.34) y es menor a 0. Una curtosis de este tipo nos

indica que los datos están muy dispersos.

La curtosis la determine con Excel mediante la función [=CURTOSIS ()]

HISTOGRAMA FIGURA 1 Y 3 CON DATOS AGRUPADOS.

Podemos decir que el comportamiento de la curva tiene una distribución PLATICURTICA,

lo cual nos indica que la CURTOSIS DE LOS DATOS AGRUPADOS < 0 (-0.322) con

una asimetría positiva, en donde los datos tienen mayor concentración a la izquierda del

plano, como lo indica el coeficiente de asimetría.

Cabe resaltar que la Curtosis es resultados de datos agrupados (Tabla de Frecuencias).

3.2. Pregunta 2. Calcular: la media, mediana, moda, desviación estándar,

coeficiente de variación e interprete los resultados.

Con ayuda de la herramienta de Excel determiné los valores que pedían representados en

la siguiente tabla.

Media 9333,85
Mediana 8062
Moda 6855
Desviación
4981,02
estándar
Coeficiente de
0,62
asimetría

Ilustración 4. Valores de medidas de tendencia central y de dispersión.


12

Complementando el desarrollo anterior, en donde se pide calcular: la media, mediana,

moda, desviación estándar, coeficiente de variación e interprete los resultados

Con ayuda de la herramienta de Excel, pero haciendo uso de fórmulas diferentes,

determiné los valores que pedían representados en la siguiente tabla.

MEDIA ARITMETICA 9333,86


MEDIANA 8062,00
MODA 6855,00
DESVIACIÓN_POBLACIONAL 4981,02
COEFICIENTE DE VARIACIÓN POBLACIONAL 0,534

Ilustración 5. Tabla de medidas de tendencia central y medidas de dispersión con fórmulas Excel.

Como se puede observar, se obtuvo un valor diferente en el coeficiente de asimetría, en

donde lo que se buscó realmente fue el coeficiente de varianza, obteniendo otro valor

En donde se puede notar la diferencia entre los valores obtenidos de 0.62 a 0,534.

INTERPRETACIÓN DE RESULTADOS.

Media (US$ 9333,85): Este dato significa que la compra promedio dólares de los clientes

fue de US$9333,85, en otras palabras es como si el total de las compras de todos los clientes

se repartiera de forma equitativa para cada uno y le correspondiera esa cantidad.

Mediana (US$ 8062): El valor de la compra que se encuentra en el centro de los datos

organizados de mayor a menor, fue de US$ 8062, que corresponde al valor de la mediana,

siendo está otra medida de tendencia central, al igual que la media o el promedio.

Moda(US$ 6855): Podemos interpretar con el valor de la moda, que el valor de la compra

que mayor frecuencia absoluta o en otras palabras, el valor de la compra que más se repitió,

fue el de US$ 6855.


13

Desviación Estándar (US$4981,02): Puedo interpretar con el valor de la desviación de

US$4981,02, siendo una medida de dispersión que significa que tanto se aleja del valor

promedio del valor de la compra, que en este caso fue de US$ 9333,85; dicho de forma más

exacta la desviación estándar de US$4981,02, es el promedio de las desviaciones de cada

compra con respecto a la compra promedio.

Coeficiente de Variación (0,534): El coeficiente de variación también es una medida de

dispersión y también habla de lo alejado o disperso que son las compras con respecto a la

compra promedio, hay una tabla que indica que ese coeficiente va de cero a 1 y en el caso que

el coeficiente de varianza sea mayor que 0,5, Indica que hay una variabilidad muy alta en los

datos de compra. En relación a las variables dadas en la tabla anterior, responda y justifique

los resultados:

3.3. Pregunta 3. En relación a las variables dadas en la tabla anterior, responda y

justifique los resultados:

3.3.1. Pregunta 3.1 ¿Cuál es la categoría de edades que más realiza compras en

el black-friday?

Haciendo uso de las tablas dinámicas de Excel.

Ilustración 6. Tabla Rangos de Edades vs Cantidad Compra Black Friday


14

Ilustración 7. Gráfico de rangos de edades con mayores compras en el Black Friday

Según los resultados se puede evidenciar que la categoría de edades que más gasto en el

BlackFriday fue la de 26-35 años con un valor de 214690 compras.

3.3.2. Pregunta 3.2 ¿Cuál es promedio de gatos de la categoría de la edad que

más compra?

La categoría de edad que más compra es la de 26-35 años y su promedio de gastos fue de

9314,5889701 dólares.
15

3.3.3. Pregunta 3.3 ¿La proporción de hombres que compran es mayor que la de

mujeres?

Ilustración 8. Tabla de compras por rango de edades y género.

Ilustración 9. Porcentaje de compras por género.

Ilustración 10. Gráfica de Pastel de compras por Género.

Con estos resultados se puede concluir que la proporción de hombres respecto a los gastos

es mayor que la de las mujeres.

MUJERES: 132197

HOMBRE: 405380
16

3.3.4. Pregunta 3.4 ¿Cuánto es el promedio de gasto de los hombres y las

mujeres?

Con los datos de hombres y mujeres se determinó el promedio de gastos de cada uno es

decir el promedio de los datos de Purchase, dando como resultado

Ilustración 11. Promedio de Gastos por Género.

3.4. Pregunta 4. Intervalos de confianza

3.4.1. Pregunta 4.1 Proponga una alternativa para determinar el tamaño de una

muestra para la variable compra (Purchase).

PROPUESTA 1.

Para determinar el tamaño de muestra se determina que el interés se centra en la estimación

de la media para la variable (Purchase).

Datos.

Ilustración 12. Propuesta 1 pregunta 4.1.


17

PROPUESTA 2.

Para determinar el tamaño de una muestra esta se puede hacer a partir de dos ecuaciones

una en la que no se conoce el tamo de la población es decir es infinita o un numero muy

grande y otra donde es conocido el tamaño de la población, en este caso tendremos en cuenta

la segunda opción, esta ecuación es:

Mi propuesta es determinar el valor del tamaño de la muestra con un nivel de confianza

del 95% ya que este valor es usualmente tomado o usado y con un error del 5%. En la

siguiente tabla se enuncian los datos requeridos

En este caso para un nivel de confianza del 95% el valor de Z es Z=1.96, y los valores de p

y que son usualmente tomados como el 50% cada uno

Al remplazar los valores en la ecuación da un resultado para el tamaño de la muestra de

383,8 es decir aproximadamente 384.


18

3.4.2. Pregunta 4.2 Asumiendo que los datos son normales, calcule un Intervalo

de confianza al 95% para la diferencia de los gastos para los hombres y

mujeres e interprete el resultado obtenido.

PROPUESTA 1. Se calcula el intervalo de confianza para al 95% para establecer diferencia

de los gastos tanto para los hombres y las mujeres.

Se establece los tamaños de las muestras heterogéneas.

Se ubica el valor de la distribución normal con nivel del 95%, Z = 1.96

El intervalo queda en la forma:


19

Pues bien, la diferencia de medias está entre 654.01 y 736.01 con una confiabilidad

del 95%. Es decir, que en promedio de compras por hombres es superior a las compras

por las mujeres. Esto es porque los dos límites del intervalo son positivos.

PROPUESTA 2. Para determinar el intervalo de confianza existe una ecuación típica, pero en

este caso es diferente ya que se quiere determinar el intervalo de confianza para la diferencia

de dos cantidades, y por eso la fórmula que utilizamos es la siguiente

Los valores de desviación estándar y valores promedios tanto para hombres como mujeres

se determinaron con ayuda de Excel y sus funciones = promedio() y =desvest(). Al remplazar

los valores nos da un resultado de

Intervalo inferior: 665,1 ~ 665

Intervalo superior: 724,8 ~ 725

Estos son los valores entre los cuales se va a encontrar la diferencia de lo que gastan los

hombres y las mujeres en el Black Friday.


20

4. Bibliografía y Referencias

 Dagdoug, M. (10 de Julio de 2019). Black Friday Sales: Analysis and Prediction.

Obtenido de Kaggle: https://www.kaggle.com/mehdidag/black-friday

También podría gustarte