Está en la página 1de 10

PORTADA

Objetivos
 Reconocer los elementos y conceptos de una tabla de frecuencia.
 Organizar los datos en tablas de frecuencias.
 Interpretar tablas de frecuencias.
 Elaborar graficas a partir de las tablas de frecuencia.
 Desarrollar destrezas para calcular medidas de dispersión como el coeficiente de
variación.
 Utilizar los conceptos aprendidos en la materia de Estadística II en un caso de la
vida real.
 El estudiante debe aprender a construir un intervalo de confianza y entender este
que significa.
 El estudiante debe aprender a manejar datos, construir graficas y tabular datos por
medio de Excel.

Desarrollo de la actividad

Utilizando la variable del valor de la compra (Purchase), realice lo siguiente:

1. Realice un histograma y explique la forma y la curtosis según el contexto.

Lo primero que se debe hacer para realizar el histograma es construir la tabla de


frecuencias, para ello se mira cual es el valor máximo, el valor mínimo, el numero de datos
y el rango de la variable Purchase por intermedio de Excel y se obtuvo:

Numero de datos 537.577

Valor máximo 23.961

Valor mínimo 185

Rango 23.776

Luego se utilizo la regla de Sturges para determinar el número de clases, para esto
utilizamos la fórmula:
K = (1 + 3,3 * log10 n)
Y la amplitud se obtiene dividiendo el rango en la amplitud, los valores que se obtuvieron
en Excel fueron:

Numero de datos 537.577


Valor máximo
23.961

Valor mínimo 185

Rango 23.776

Numero de intervalos 20 19,91

Amplitud 1188 1.188,80

Con esto y por medio de Excel se procedió a realizar la tabla de frecuencia, esta tabla se
presenta a continuación:

Intervalo No Límite inferior Límite superior Intervalos Marca de clase Frecuencia absoluta Frecuencia relativa
1 185 1.374 185 - 1374 780 8.149 1,52%
2 1.375 2.564 1375 - 2564 1.970 24.026 4,47%
3 2.565 3.754 2565 - 3754 3.160 29.080 5,41%
4 3.755 4.944 3755 - 4944 4.350 28.159 5,24%
5 4.945 6.134 4945 - 5134 5.540 68.929 12,82%
6 6.135 7.324 6135 - 6324 6.730 61.179 11,38%
7 7.325 8.514 7325 - 7514 7.920 69.613 12,95%
8 8.515 9.704 8515 - 8704 9.110 35.606 6,62%
9 9.705 10.894 9705 - 9894 10.300 39.256 7,30%
10 10.895 12.084 10895 - 10084 11.490 39.804 7,40%
11 12.085 13.274 12085 - 11274 12.680 18.620 3,46%
12 13.275 14.464 13275 - 12464 13.870 5.720 1,06%
13 14.465 15.654 14465 - 13654 15.060 30.973 5,76%
14 15.655 16.844 15655 - 14844 16.250 33.087 6,15%
15 16.845 18.034 16845 - 15034 17.440 1.949 0,36%
16 18.035 19.224 18035 - 16224 18.630 12.055 2,24%
17 19.225 20.414 19225 - 17414 19.820 23.038 4,29%
18 20.415 21.604 20415 - 18604 21.010 6018 1,12%
19 21.605 22.794 21605 - 19794 22.200 11 0,00%
20 22.795 23.984 22795 - 20984 23.390 2305 0,43%
TOTAL 537.577 100,00%
Con esto se procedió a graficar el histograma por medio de Excel, el cual es mostrado a
continuación:

Histograma
80,000
70,000
60,000
FRECUENCIA

50,000
40,000
30,000
20,000
10,000
-

CLASE

Series1

Para este caso se tiene asimetría positiva, esto significa que la cola de la distribución se
alarga (a la derecha) para valores superiores a la media. Para la curtosis no es muy claro
gráficamente como podemos ver a continuación que tipo de curtosis se presenta, por ello se
calculo la curtosis por medio de Excel y se obtuvo:

Curtosis -0,343121373

Curtosis
80,000
70,000
60,000
FRECUENCIA

50,000
40,000
30,000
20,000
10,000
-
0 5 10 15 20 25
CLASE

Series1
Al ser este valor menor que cero, se puede afirmar que la distribución es Platicúrtica.
2. Calcular: la media, mediana, moda, desviación estándar, coeficiente de variación e
interprete los resultados.

Todos estos datos fueron calculados por medio de las funciones que ofrece Excel y se
obtuvo los siguientes valores:

Media 9333,86
Mediana 8062
Moda 6855
Desviación estándar 4981,02
Coeficiente de
variación 53,37%

La media es el valor promedio de los datos, para este caso podemos ver que esta mas a la
derecha en el histograma de los valores de mayor recurrencia. La mediana representa el
valor de la variable de posición central, para este caso podemos ver que es algo menor que
la media. La moda es el valor que mas se repite en los datos, como podemos ver este valor
se encuentra en la barra de mayor tamaño del histograma. La desviación estándar, nos
indica qué tan dispersos están los datos con respecto a la media, para este caso se puede
decir que la desviación estándar es aproximadamente la mitad de la media. El coeficiente
de variación se obtiene dividiendo la desviación estándar en la media, se obtuvo un valor de
53,37%, este valor es algo elevado y por ello se puede afirmar que los datos de la variable
Purchase se encuentran bastante dispersos.
3. En relación a la variables dadas en la tabla anterior, responda y justifique los
resultados:

3.1 ¿Cuál es la categoría de edades que más realiza compras en el black-friday?

Para esta parte calculamos una tabla de frecuencias pero esta vez con las edades y se
obtuvo:

Rango Frecuencia

0-17 14.707

18-25 97.634

26-35 214.690

36-45 107.499
46-50
44.526

51-55 37.618

55+ 20.903

TOTAL 537.577

Como podemos ver las edades que más compran en el Black Friday son las ubicados en el
rango de 26 a 35 años.

3.2 ¿Cuál es promedio de gastos de la categoría de la edad que más compra?

Filtramos la edad de 26 a 35 años por medio de Excel y calculamos el promedio, para este
caso toca utilizar la función subtotal y la opción uno, para que nos devuleva el promedio de
los datos filtrados y se obtuvo:

Gastos promedio de 26 -
35 9.314,59

3.3 ¿La proporción de hombres que compran es mayor que la de mujeres?

De nuevo calculamos una nueva tabla de frecuencias, pero esta vez teniendo en cuenta el
genero de los compradores y se obtuvo:
Rango Frecuencia

M 405.380

F 132.197

TOTAL 537.577

Podemos ver claramente como la cantidad de hombres que compran es superior a la de


mujeres.

3.4 ¿Cuánto es el promedio de gasto de los hombres y las mujeres?

De forma similar a la realizada en el punto 3.2 calculamos el promedio de los gastos de los
hombres y de las mujeres, con esto se tienen los siguientes valores:

Gastos promedio
hombres 9.504,77

Gastos promedio mujeres 8.809,76


Podemos ver como los hombres gastan más que las mujeres.

Intervalos de confianza

4.1 ¿Cuál es el tamaño de la muestra que se requiere?. Si se exige un error relativo


del 2% y un nivel de confianza del 95%

Se va a utilizar la formula para calcular la muestra de una población finita, la cual


es:

Estimación de la proporción de mujeres

La estimación de la proporción de mujeres es igual a p, que lo vamos a tomar como


la cantidad de hombres que compraron en el brack friday, dividido entre N.

N = 537577

Cantidad de mujeres = 132197

Cantidad de hombres = 405380

𝐶𝑎𝑛𝑡𝑖𝑑𝑎𝑑 𝑑𝑒 ℎ𝑜𝑚𝑏𝑟𝑒 405380


𝑝= = = 0.75
𝑁 537577

Ahora se realiza el mismo calculo, para los hombres:


𝐶𝑎𝑛𝑡𝑖𝑑𝑎𝑑 𝑑𝑒 𝑚𝑢𝑗𝑒𝑟𝑒𝑠 132197
𝑞= = = 0.25
𝑁 537577

Nivel de confiabilidad

Los valores de confianza en la tabla Z son:

Para este caso se va a utilizar un nivel de confiabilidad del 95%, esto significa que
Z=1,96

Error de estimación

Se va a utilizar un error de estimación del 2%, esto equivale a que e=0,02.

Cálculo del tamaño de la muestra

Se reemplazan todos los valores en la formula anterior y se obtiene:

(537.577) (1,96)2 (0,75)(0,25)


𝑛= = 1794,74
(0,02)2 (537.576) + ((1,96)2 (0,75)(0,25))

Por ello se dice que nuestra muestra debe tener un total de 1795 datos.

4.2 Asumiendo que los datos son normales, calcule un Intervalo de confianza al 95%
para la diferencia de los gastos para los hombres y mujeres e interprete el resultado
obtenido.

Para esta parte se debe utilizar la formula para calcular un intervalo de confianza para
diferencias la cual es:
Z sabemos que es de 1.96 por que el intervalo de confianza se mantiene al 95%, n depende
del tamaño si es de los hombres o de las mujeres.

𝑋1 = 9.504,77 Media de gastos de hombres

𝑋2 = 8.809,76 Media de gastos de mujeres

𝑛1 = 405.380 Cantidad de hombres

𝑛2 = 132.197 Cantidad de mujeres

Ahora nos falta calcular la desviación estándar de hombres y mujeres, esto se realiza por
medio de Excel y se obtiene:

𝑆1 = 4.721,44 Desviación estándar de hombres

𝑆2 =5.051,05 Desviación estándar de hombres de mujeres

Ahora reemplazamos valores

4.721,442 5.051,052
9.504,77 − 8.809,76 ± 1.96 √ +
9.504,77 8.809,76

695.01 ± 141.89
Este intervalo de confianza tendría su límite inferior en 553.12 y el superior en 836.9

Conclusiones

 Las tablas de frecuencias son herramientas muy útiles en la vida cotidiana puesto
que nos ayudan a las personas que las utilizan a darse cuenta de la situación que
guarda los datos que la componen.
 Una tabla de frecuencia nos permite analizar con mayor facilidad un grupo de datos
sin que se tenga que considerar individualmente cada dato.
 Por medio de la estadística se puede analizar un conjunto de datos y predecir lo que
pueda pasar en un futuro como con el precio de las acciones.
 Cuando los datos son muy grandes es bastante complicado analizarlos, por ello se
hace conveniente tomar una muestra, pero toca tener en cuenta el tamaño de la
muestra, no se puede tomar de cualquier tamaño.
 El manejo de base de datos grandes es mucho más sencillo por medio de Excel, ya
que sus funciones nos permiten analizar los datos.
 Las gráficas de Excel son una herramienta muy útil, ya que nos permite desde otra
perspectiva analizar valores numéricos
 La estadística descriptiva tiene muchas aplicaciones en la vida real, como en este
caso el análisis de los datos obtenidos en las ventas del Black Friday.

También podría gustarte