Está en la página 1de 17

Universidad Tecnológica de México

Maestría: Analítica e inteligencia de negocios

Entregable 2: Caso Cereales

Víctor Fonseca Rodríguez

Profesora: Blanca Isabel Torres Arenas

Campus: Marina Nacional

Fecha de entrega: domingo 13 de diciembre de 2020


UNIVERSIDAD TECNOLÓGICA DE MÉXICO

Índice
Introducción…………………………………………………………………………………………………………………………………………………….3
Contenido………………………………………………………………………………………………………………………………………………………..5
Análisis Estadístico…………………………………………………………………………………………………………………………………………..5
Variables Cuantitativas…………………………………………………………………………………………………………………………………….6
Variable Ingresos………………………………………………………………………………………………………………………………………………8
Variables categóricas………………………………………………………………………………………………………………………………………..9
Variable Desayuno Preferido……………………………………………………………………………………………………………………………9
Variable Región de residencia………………………………………………………………………………………………………………………..11
Elementos de Análisis por Variable…………………………………………………………………………………………………………………11
Genero y desayuno preferido…………………………………………………………………………………………………………………………11
Probabilidad por escenario……………………………………………………………………………………………………………………………..12
Árbol de decisión…………………………………………………………………………………………………………………………………………….13
Variable Estado civil y antigüedad ………………………………………………………………………………………………………………….13
Tabla de Contingencias……………………………………………………………………………………………………………………………………13
Probabilidad por escenarios…………………………………………………………………………………………………………………………….14
Histograma para la variable ingresos……………………………………………………………………………………………………………….14
La variable años de residencia y género…………………………………………………………………………………………………………..14
Tablas de contingencia…………………………………………………………………………………………………………………………………….15
Probabilidad por escenario………………………………………………………………………………………………………………………………16
Conclusiones…………………………………………………………………………………………………………………………………………………..16
Bibliografía………………………………………………………………………………………………………………………………………………………17

CASO CEREALES 2
UNIVERSIDAD TECNOLÓGICA DE MÉXICO

Introducción
Como la información está desordenada, es necesario hacer una comprobación entre las variables y la base de
datos que sean iguales con una tabla en las que las categorías de las variables, correspondan con las de la base
de datos. De esta forma se comprobó que no hubiera valores y/o elementos faltantes en la base de datos, la
diferencia tiene que ser igual a cero.
El siguiente paso que se hizo es definir la medida y la variable para cada una de las variables, se obtuvieron los
elementos diferentes a cada variable, se obtuvieron los elementos diferentes a cada variable y después se
contabilizaron el número de elementos presentes en cada categoría. Se cruzó la información para encontrar la
medida (definición) perteneciente a cada variable. Esto se realizó para comprobar la equivalencia de datos entre
las variables y las medidas, se comprobó que los datos estaban completos.
Después se analizaron las variables cuantitativas de años de residencia e ingresos, estudiando sus características
de posición, forma, distribución y dispersión. Además, se realizó la construcción de una tabla de frecuencias y
la presentación de las gráficas para detallar la información presentada descrita a continuación.
Después se hizo un análisis descriptivo, donde se describieron las características de posición, centralización y
dispersión. La posición se determinó el primer cuartil, segundo cuartil, percentil 10 y percentil 90, la
centralización: se determinó la media, la mediana y la moda. Las medidas de dispersión: el máximo, el mínimo,
la desviación estándar y la varianza y la forma.
se creó la tabla de frecuencia y la gráfica para ingresos con la misma metodología que la anterior de años de
residencia y también se hizo el mismo análisis descriptivo que el anterior: medidas de posición, centralización y
forma, con el mismo procedimiento que para los años de residencia.
Después para la variable categórica para el desayuno preferido, se realizaron las tablas de frecuencia y las
gráficas, también para años de residencia, los elementos que se analizaron fueron el género y el desayuno
preferido.
Se realizó una tabla de contingencia para el análisis y para los consecutivos, construyendo una tabla de
frecuencias absoluta. Después se determinó el total de la frecuencia relativa en toda la muestra, que se obtuvo
al calcular la razón de la frecuencia absoluta de la combinación de las dos variables sobre el total de la muestra.
Se construyeron de manera similar una tabla con la frecuencia de cada una de las variables, la variable dada fue
género, de esta forma se calculó la razón de la frecuencia de la combinación de dos variables sobre la frecuencia
dada a una variable se totalizó para validar igual a 1(total muestra).
Se determinó con base a tablas de frecuencia relativas las probabilidades de escoger algún tipo de desayuno
con la variable género.
Se realizó un árbol de decisión para las variables de género y desayuno preferido, se realizó colocando las
variables de género seguido de las posibles combinaciones con el desayuno preferido.
Para estado civil y actividad, se realizó con tabla de contingencia, similar a la de género y desayuno. Después de
determinó la probabilidad por escenario: probabilidad que sea activo y casado y la probabilidad que no tenga
actividad dado que sea soltero.
Se realizó la tabla de frecuencia e histograma, fue con la misma metodología a la empleada en años de residencia
y para el histograma se siguió un proceso similar a la que se mencionó antes.
Y la última probabilidad por escenario para determinar la probabilidad de cada planteamiento, por ejemplo, de
la probabilidad de ser hombre dado que se tiene entre 16 y 30 años de residencia.

CASO CEREALES 3
UNIVERSIDAD TECNOLÓGICA DE MÉXICO

Considero que los aspectos más relevantes para resolver estos planteamientos y que les ayuda a tomar mejores
decisiones es analizando las probabilidades; como por ejemplo cual es la probabilidad de que sea mujer y
selecciones cierto tipo de desayuno, o que sea hombre, o si es hombre o mujer y realiza actividad física, o si
cuida o no su alimentación y de que rangos de edad. Esto puede servir para saber qué tipo de productos van
dirigidos a cierto tipo de personas.
Los objetivos del análisis:
 La empresa Kellogg’s requiere hacer evaluaciones constantes de las tendencias del mercado.
 Hábitos de consumo de su mercado meta.
 Conocer más acerca de las personas que cuidan su alimentación y realizan cierto tipo de actividad física,
para darles más opciones de productos.
 Y poder crear una estrategia para motivar al otro tipo de grupo, al que no cuida su alimentación y no
realiza ningún tipo de actividad física para persuadirlo a que se sumen a tener cambiar de hábitos para
una vida más sana.
hipótesis que estarán bajo demostración:
 Considero que las mujeres de cualquier edad son las que buscan cuidar más la alimentación, y hacen
algún tipo de actividad física.
 La probabilidad de que sean hombres, solteros y sin ningún tipo de actividad física es alta; debido a que
no sienten la necesidad de cuidar su salud, porque su nivel de responsabilidad se los permite o no están
conscientes de que deben de cuidar su salud.
 Los hombres mayores o en edad productiva, se adentran en sus actividades y no se dan el tiempo o no
muestran interés en cuidar su alimentación y hacer algún tipo de actividad física en proporción mayor
que las mujeres.

CASO CEREALES 4
UNIVERSIDAD TECNOLÓGICA DE MÉXICO

Contenido
Antecedentes: La empresa Kellogg’s requiere de la evaluación de las tendencias de mercado y sobre todo de los
hábitos de consumo de su mercado meta, se sabe que en la actualidad hay dos corrientes claramente definidas:
por un lado todas aquellas personas que buscan en su alimentación diaria alimentos saludables bajos en grasa
y nutritivos que mantienen además un gusto por practicar alguna actividad física en beneficio de su salud; en
cambio la otra tendencia claramente identificada es un grupo que tiene sobrepeso y no práctica alguna actividad
física, además de malos hábitos en su alimentación lo que conlleva a posibles complicaciones de salud y calidad
de vida.
Para ello la empresa se ha dedicado a recabar información de diversas fuentes de datos, pero se debe de
organizar de forma lógica para efectos de analizar y concentrarlas en una sola, ya que en este momento es un
desorden en relación a las variables utilizadas y posibles categorías utilizadas, la recomendación es ordenar el
caos de categorías en las variables para vincularlas con la base de datos.
En estos momentos no es posible responder a diversos cuestionamientos de la gerencia de mercadotécnica
relacionado con el desayuno, por lo tanto, se ha solicitado de acuerdo a los lineamientos del entregable final
puede responder a estos cuestionamientos y dar una recomendación sobre los hallazgos más relevantes que
puedes encontrar, en tus conclusiones.

3. Análisis estadístico.

3.1. Demostrar que no hay valores ausentes para la base de datos. Se demostró que no hay valores ausentes
para la base de datos; validando el número de elementos diferentes tanto en la tabla de variable, como en la
tabla de la base de datos, utilizando la fórmula “=COUTIF” combinado con “=SUM”, para poder obtener el
número de elementos diferentes en cada set de datos, diferenciados por la columna donde se encontró el set
de datos. La equidad se calcula con la diferencia entre las variables y la base de datos. Si nos da como resultado
0 en cada una de las variables, es que no hay elementos faltantes.
Tabla 1. Igualdad de elementos diferentes entre variables y base de datos (Anexo 1 y Anexo2).

Categoría Estado Ejercicio Desayuno Región de Años de


ID Género Ingresos
de edad Civil regular preferido residencia residencia

Variables 100 4 2 2 2 3 3 34 71
Base de
Datos 100 4 2 2 2 3 3 34 71
Equidad 0 0 0 0 0 0 0 0 0
Tabla 2. Conteo por variable y medida; edad.
Menor de
Edad 31 46-60 Más de 60 31-45 Conteo por medida
Cont. 29 26 25 20 29 20 26 25
Definición 1 3 4 2 1 2 3 4

CASO CEREALES 5
UNIVERSIDAD TECNOLÓGICA DE MÉXICO

Tabla 3. Conteo por variable y medida; género.


Género Hombre Mujer Conteo por medida
Cont. 51 49 51 49
Definición 0 1 0 1
Tabla 4. Conteo por variable y medida; estado civil.
Estado
Civil Casado Soltero Conteo por medida
Cont. 67 33 33 67
Definición 1 0 0 1
Tabla 5. Conteo por variable y medida; tipo de actividad.
Ejercicio Sin
regular Activo actividad Conteo por medida
Cont. 38 62 62 38
Definición 1 0 0 1
Tabla 6. Conteo por variable y medida; desayuno preferido.
Desayuno Barrita de
preferido Cereales desayuno Avena Conteo por medida
Cont. 33 27 40 27 40 33
Definición 3 1 2 1 2 3
Tabla 7. Conteo por variable y medida; región de residencia.

Región de
residencia Norte Sur Este Conteo por medida
Cont. 32 37 31 32 37 31
Definición 1 2 3 1 2 3

Lo anterior se realizó para comprobar la equivalencia de datos entre las dos variables y las medidas, se demostró
que los datos estaban completos.

3.1.1. Variables cuantitativas


Desarrollar una tabla de frecuencia y dos gráficas (diferentes). Con la variable años de residencia e ingresos,
se estudian sus características de posición, forma, distribución y dispersión. Se construye una tabla de
frecuencias y la presentación de dos gráficas para detallar la información presentada que se describe a
continuación.
3.1.1.1. Años de residencia
Tablas de frecuencias y gráficas:

CASO CEREALES 6
UNIVERSIDAD TECNOLÓGICA DE MÉXICO

Tabla 8. Tabla de frecuencias, años de residencia.


Frecuencia Frecuencia
Años de residencia Absoluta Relativa

8 o menos 46 46%
9 a 16 27 27%
9 a 16 12 12%
25 a 32 10 10%
33 a 40 4 4%
41 o mayor 1 1%
Total 100 100%

Desarrolla el análisis descriptivo de cada variable que abarque análisis de posición, centralización, dispersión
y de forma. Se describen las características de posición, centralización, dispersión y forma de la variable
anterior. Para las características de forma se empleó la función KURT para el set de datos (resultó negativo que
equivaldría a una distribución plana, resultados positivos distribución más punteada), la característica de
simetría fue determinada de acuerdo con las descripciones de Gorgas, Cardiel y Zambrano (2011). Este análisis
fue para la variable años de residencia.

Posición Centralización
Primer cuartil: 4 Media: 12.22
Segundo cuartil: 9 Mediana: 9
Percentil 10: 2 Moda: 3
Percentil 90: 27

CASO CEREALES 7
UNIVERSIDAD TECNOLÓGICA DE MÉXICO

Dispersión Forma
Máximo: 44 Curtosis: 0.85
Mínimo: 0 Leptocúrtica
Desviación estándar: 10.21 Asimétrica hacia la derecha,
Varianza: 104.27 sesgo positivo (media > mediana
> moda).

3.1.1.2. Ingresos
Interpreta los resultados obtenidos para cada una de las variables y análisis.
Tablas de frecuencias y gráficas
Tabla 9. Tabla de frecuencias, ingresos.
Frecuencia Frecuencia
Ingresos Absoluta Relativa

82 o menos 72 72%
83 a 154 16 16%
154 a 226 9 9%
226 a 298 1 1%
299 a 370 1 1%
371 o mayor 1 1%
Total 100 100%

CASO CEREALES 8
UNIVERSIDAD TECNOLÓGICA DE MÉXICO

Análisis descriptivo:

Posición Centralización
Primer cuartil: 30 Media 74.55

Segundo cuartil: 52 Mediana 51.5


Percentil 10: 21 Moda 30
Percentil 90: 161
Percentil 98: 246
Percentil 5: 19

Dispersión Forma
Máximo: 438 Curtosis: 4.99
Mínimo: 10 Leptocúrtica
Desviación Asimétrica hacia la derecha,
estándar: 68.51 sesgo positivo (media > mediana
Varianza: 4,693.81 > moda).

3.1.2. Variables categóricas


3.1.2.1. Desayuno preferido
Tablas de frecuencias y gráficas
Desarrolla el análisis descriptivo de cada variable que abarque análisis de posición, centralización, dispersión y
de forma (si existieran).
Interpreta los resultados obtenidos para cada una de las variables y análisis.
Tabla 10. Tabla de frecuencias, desayuno preferido.
Frecuencia Frecuencia
Desayuno preferido Absoluta Relativa Desayuno Preferido.
Cereales 33 33% 60
Barrita de desayuno 27 27% 33
40
40 27
Avena 40 40%
Total 100 100% 20

0
1 2 3

Cereales Barrita de desayuno Avena

CASO CEREALES 9
UNIVERSIDAD TECNOLÓGICA DE MÉXICO

3.1.2.2. Región de Residencia


Tabla de Frecuencia y gráficas
Tabla 11. Tabla de frecuencias, región de residencia.
Frecuencia Frecuencia
Región de Residencia Absoluta Relativa
Norte 32 32%
Sur 37 37%
Este 31 31%
Total 100 100%

CASO CEREALES 10
UNIVERSIDAD TECNOLÓGICA DE MÉXICO

3.2. Elementos de análisis por variable


3.2.1. Género y desayuno preferido
Tabla de contingencia
Variables: Género y Desayuno preferido
Tabla 12. Tabla de frecuencias absolutas, variables desayuno preferido y género.
Desayuno preferido
Barrita de
Cereales desayuno Avena Total
Hombre 17 15 19 51
Género Mujer 16 12 21 49
Total 33 27 40 100

Tabla 13. Tabla de frecuencias relativas (probabilidad), variables desayuno preferido y género.
Desayuno preferido
Barrita de
Género Cereales desayuno Avena Total
Hombre 0.17 0.15 0.19 0.51
Género Mujer 0.16 0.12 0.21 0.49
Total 0.33 0.27 0.4 1

Tabla 14. Tabla de frecuencias relativas (probabilidad), dada la variable género.


Desayuno preferido
Barrita de
Cereales desayuno Avena Total

Género
Hombre 0.33 0.29 0.37 1.00

Mujer 0.33 0.24 0.43 1.00

Probabilidad por escenario


Para determinar la probabilidad de ocurrencia en cada planteamiento se recurrió a la consulta de la tabla 13 o
tabla 14, de acuerdo a la cual fuera el caso:
9. ¿Cuál es la probabilidad de seleccionar al azar a una mujer y cuyo desayuno preferido sea avena? 21%
10. ¿Probabilidad de seleccionar a un hombre y su desayuno preferido sea una barrita de desayuno? 15%
11. ¿Probabilidad de seleccionar a una mujer y su desayuno preferido sea cereal? 16%
12. ¿Probabilidad de que desayune cereal dado que es hombre? 33%

CASO CEREALES 11
UNIVERSIDAD TECNOLÓGICA DE MÉXICO

13. ¿Probabilidad de que desayune avena dado que es mujer? 43%


14. Desarrolla el árbol de decisión completo indicando sus probabilidades por rama, para determinar la
condicional y la conjunta.
Se muestra el árbol de decisión para las variables de género y desayuno preferido. Se construye colocando la
variable de género y sus posibles combinaciones con el desayuno preferido. Las probabilidades condicionales
(por ser de un determinado género), se colocan a la izquierda y las probabilidades conjuntas se colocó a la
derecha del árbol. La probabilidad condicional se estableció partiendo de las tablas de contingencia (tabla 14) y
la probabilidad conjunta se calculó como el producto de la probabilidad condicional por la probabilidad de
probabilidad condicional por la probabilidad de género (equivale a la descripción de la tabla 13).
Árbol de Decisión:

Árbol de decisiones para las variables género y desayuno preferido

Probabilidad Probabilidad
condicional conjunta

0.33 Cereales 0.17

0.51 Hombre 0.29 Barrita de desayuno 0.15

0.37 Avena 0.19

Selección

0.33 Cereales 0.16

0.49 Mujer 0.24 Barrita de desayuno 0.12

0.43 Avena 0.21

3.2.2. Estado civil y actividad


Tabla de contingencia
La tabla de contingencia, se construyó con la misma metodología que se construyó la de género y desayuno
preferido.

CASO CEREALES 12
UNIVERSIDAD TECNOLÓGICA DE MÉXICO

Tabla 15. Tabla de frecuencias absolutas, variables estado civil y actividad.


Actividad
Activo Sin Actividad Total
Casado 25 42 67
Estado civil Soltero 13 20 33
Total 38 62 100

Tabla 16. Tabla de frecuencias relativas (probabilidad), variables estado civil y actividad.
Actividad
Activo Sin Actividad Total
Casado 0.25 0.42 0.67
Estado civil Soltero 0.13 0.2 0.33
Total 0.38 0.62 1

Tabla 17. Tabla de frecuencias relativas (probabilidad), dada la variable estado civil.
Actividad
Estado
Civil Activo Sin Actividad Total

Estado civil
Casado 0.37 0.63 1.00

Soltero 0.39 0.61 1.00

Probabilidad por escenario


Para determinar la probabilidad por escenario de cada planteamiento, se consultó las tablas: 16 y 1, según sea
el caso:
¿Probabilidad de que se es activo dado que es casado? 37%
¿Probabilidad de que no tenga actividad (sin actividad) dado que es soltero? 61%

Interpreta los resultados obtenidos.


3.2.3. Para la variable: Ingreso.
Tabla de frecuencia e histograma:
Para la construcción de las tablas de frecuencia el método fue igual a las descritas antes en años de residencia.
El histograma también se siguió un proceso igual a la sección anterior, con la variación de que las clases se
presentan de manera continua en el gráfico.

CASO CEREALES 13
UNIVERSIDAD TECNOLÓGICA DE MÉXICO

Tabla de frecuencias absolutas y relativas, variable ingresos.

Marca Frecuencia Frecuencia


Ingresos de clase Absoluta Relativa
82 o
menos 71 72 72%
83 a 154 118.5 16 16%
154 a 226 190 9 9%
226 a 298 262 1 1%
299 a 370 334.5 1 1%
371 o
mayor 435.5 1 1%
Total 100 100%

No se comporta como una curva normal, primero la mayor parte de los datos se encuentra en los menores de
82 de ingresos, después entre 83 y 154 y de ahí va disminuyendo.
3.2.4. años de residencia y Género
Tabla de contingencia y género

Tabla de contingencia
Tabla 19. Tabla de frecuencias variable categórica años de residencia.
Frecuencia Frecuencia
Años de residencia Absoluta Relativa

15 o menos 70 70%
16 a 30 25 25%
31 a 45 5 5%
Total 100 100%

Elaborar una tabla de contingencia para género (hombres y mujeres) y para años de residencia (0-15, 16-
30,31-45 como límites de clase)
Tabla 20. Tabla de frecuencias absolutas, variables género y categorías de años de residencia.
Años de residencia

15 o menos 16 a 30 31 a 45 Total
Hombre 37 11 3 51
Género Mujer 33 14 2 49
Total 70 25 5 100

CASO CEREALES 14
UNIVERSIDAD TECNOLÓGICA DE MÉXICO

Tabla 21. Tabla de frecuencias relativas (probabilidad), variables género y de años de residencia.
Años de residencia

Género 15 o menos 16 a 30 31 a 45 Total


Hombre 0.37 0.11 0.03 0.51
Género Mujer 0.33 0.14 0.02 0.49
Total 0.7 0.25 0.05 1

Tabla 22. Tabla de frecuencias relativas (probabilidad), dada la variable categórica años de residencia.
Años de residencia

Género 15 o menos 16 a 30 31 a 45

Hombre 0.53 0.44 0.60


Género
Mujer 0.47 0.56 0.40

Total 1.00 1.00 1.00

Probabilidad por escenario


Para determinar la probabilidad de ocurrencia en cada planteamiento se recurrió a consultar la tabla 22.

Determine la probabilidad de ser hombre dado que se tienen entre 16 y 30 años de residencia. 44%
Interpreta los resultados: Vemos en la tabla las contingencias y nos queda claro que la probabilidad que sea
hombre y esté entre los 16 y 30 años de residencia es del 44 %.

CASO CEREALES 15
UNIVERSIDAD TECNOLÓGICA DE MÉXICO

Conclusiones:
La importancia de la estadística en la analítica de empresas, su importancia radica en que permite realizar
proyectos de mejoras con las ventajas de: comprobar afirmaciones o ideas fundamentarlas, tomar mejores
decisiones basándolas en evidencias concretas y datos objetivos y por último mejorar los métodos de trabajo
sistemático.
Básicamente la estadística con las herramientas de análisis de datos les ayuda a las empresas a conocer mejor
a su mercado meta, analizar las tendencias y diseñar estrategias para fidelizar a los clientes, crear tendencias,
buscar nuevas oportunidades de negocio para asegurar su permanencia y crecimiento, logrando así más valor a
la marca.
También ayuda a las empresas a tener una buena planeación y control apoyándose en estudios de pronósticos,
presupuestos, etc. Logran una adecuada estructura, determinan responsabilidades y autoridad de sus diferentes
colaboradores.
Mis conclusiones personales de este caso de estudio es que en general pienso que las mujeres cuidan más su
alimentación y tienden más a tener una vida más sana ya que incorporan a sus actividades algún tipo de
actividad física y cuidan más su salud. Un buen porcentaje de los que son casados ya sean hombres y mujeres
tienden a hacer algún tipo de actividad física y cuidan su salud.

CASO CEREALES 16
UNIVERSIDAD TECNOLÓGICA DE MÉXICO

Bibliografía:
Beltrán, W. 15. Junio. 2016. Tabla de frecuencia en Excel (insertar gráfica). Recuperado de:
https://www.youtube.com/watch?v=j-O49mBIDDQ
Cáceres, R. 15. Mayo. 2020. Crear Histograma en Microsoft Excel | Polígono de Frecuencias. Recuperado de:
https://www.youtube.com/watch?v=ryVPpMeSbBU
Velázquez, R. 19. Agosto. 2018. Marca de Clase, Frecuencia Absoluta, Frecuencia Acumulada (Súper Fácil).
Recuperado de: https://www.youtube.com/watch?v=SII56mXw4QQ
Gorjas, J. Cardiel, N. y Zamorano, J. (2011) Estadística básica para estudiantes de ciencias. Recuperado de:
http://webs.ucm.es/info/Astrof/Users/Jaz/Estadística /libro_GC72009.pdf

CASO CEREALES 17

También podría gustarte