Trabajo Final Analitica Descriptiva

Ing.
Alejandra Zubieta Jemio
DIPLOMADO EN BIG DATA APLICADO

& ANALITICA DE DATOS AVANZADA
TRABAJO FINAL
MÓDULO 6: ESTADÍSTICA PARA ANÁLISIS

DE DATOS
COMPONENTES DEL GRUPO:
Nombre Completo Datos de Contacto

Alejandra Zubieta Jemio. 72455074
1
Ing. Alejandra Zubieta Jemio
Módulo:
Estadística para Análisis de Datos
Trabajo Final
1. Fuente y procedencia del dataset:
La fuente de mi dataset es Kaggle, una plataforma conocida por

albergar una amplia variedad de datasets en diferentes áreas. El
dataset en cuestión se centra en características fisicoquímicas de
diversos vinos y las calificaciones asociadas a su calidad.
En cuanto al contenido del dataset, incluye información detallada

sobre propiedades fisicoquímicas como la acidez, el contenido de
azúcar, la densidad, entre otras, de varios tipos de vinos. Además,
proporciona la calificación de calidad asignada a cada uno de estos
vinos por expertos o consumidores. Este conjunto de datos es útil para
realizar análisis estadísticos y exploratorios con el fin de comprender
mejor las relaciones entre las características fisicoquímicas y la
percepción de calidad de los vinos.
2. Motivación para el análisis del dataset:
La motivación para analizar este dataset radica en varios factores

clave. En primer lugar, el dataset proviene de una fuente confiable y
bien establecida, como Kaggle, lo que garantiza su calidad y
confiabilidad. Además, el contenido del dataset, que se centra en
características fisicoquímicas de vinos junto con calificaciones de
calidad, es altamente relevante y puede proporcionar información
valiosa sobre la relación entre estas variables.
El dataset cumple con los parámetros exigidos para el proyecto, ya

que aborda directamente el objetivo de analizar características
fisicoquímicas de vinos y su relación con la calidad percibida. Además,
la disponibilidad de datos bien estructurados y aparentemente
amigables sugiere que será útil para aplicar los conocimientos
adquiridos durante el módulo. Esto puede facilitar el análisis
exploratorio y estadístico, así como la visualización de los datos para
comprender mejor las relaciones subyacentes entre las variables.
2
En resumen, la combinación de la relevancia del tema, la confiabilidad

de la fuente y la aparente facilidad de uso del dataset proporciona una
sólida motivación para analizarlo en el contexto del proyecto.
3. Dimensiones del dataset:
3
4. Cálculo de las medidas estadísticas:
4
5
6
Este código calculará y mostrará un resumen estadístico del

DataFrame, que incluirá información sobre los cuartiles. Los cuartiles
son los valores que dividen a un conjunto de datos ordenado en cuatro
partes iguales. El primer cuartil (Q1) corresponde al percentil 25, el
segundo cuartil (Q2) corresponde al percentil 50 (también conocido
como la mediana) y el tercer cuartil (Q3) corresponde al percentil 75.
7
5. ¿El dataset tiene valores perdidos/(Missing Values)?, ¿a qué

piensas que se atribuyen los valores perdidos?
El dataset no presenta Missing Values. A mi parecer debido a que son

datos tomados en un laboratorio sistemáticamente.
6. Grafica la distribución de las columnas numéricas y describe

la distribución con relación a la media y la desviación
estándar.
8
La base de datos tiene varias columnas numéricas, para el análisis

consideraremos tres columnas la columna de ‘pH’, ‘densidad’ y
‘calidad’ , los resultados de la distribución de los demás datos se
pueden visualizar en el notebook.
Para ‘pH’:
Para ‘densidad’:
9
Para ‘calidad’:
10
Graficar la distribución de las columnas numéricas y describir la

distribución con relación a la media y la desviación estándar es una
práctica común en el análisis de datos que proporciona varias
ventajas:
Visualización de la distribución de los datos: Las gráficas de

distribución, como los histogramas o gráficos de densidad, permiten
visualizar cómo están distribuidos los datos en cada columna
numérica. Esto proporciona información sobre la forma de la
distribución y la concentración de valores en diferentes rangos.
Identificación de patrones y tendencias: Al observar la forma de la

distribución, se pueden identificar patrones y tendencias en los datos.
Por ejemplo, una distribución normal sugiere que los datos están
equilibrados y simétricos, mientras que una distribución sesgada hacia
la derecha o hacia la izquierda indica una concentración de valores en
un extremo del rango.
Comprensión de la centralidad y dispersión de los datos: Describir la

distribución con relación a la media y la desviación estándar
proporciona información sobre la centralidad y la dispersión de los
datos. La media da una idea del valor promedio, mientras que la
desviación estándar indica cuánto se desvían los valores individuales
de la media. Esto ayuda a comprender la variabilidad de los datos y la
dispersión alrededor de la media.
Detección de valores atípicos: Al observar la distribución y la

dispersión de los datos, se pueden identificar valores atípicos o
extremos que pueden afectar los análisis. Los valores atípicos pueden
influir en la media y la desviación estándar, por lo que es importante
identificarlos y comprender su impacto en los resultados.
En resumen, graficar la distribución de las columnas numéricas y

describir la distribución con relación a la media y la desviación
estándar es una práctica fundamental en el análisis de datos que
proporciona información valiosa sobre la estructura, tendencias y
variabilidad de los datos. Esto ayuda a comprender mejor los datos y
a tomar decisiones informadas en los análisis y modelado de datos.
11
7. Analiza los outliers de las columnas numéricas.
Los gráficos univariados son útiles para identificar outliers

principalmente porque te permiten visualizar la distribución de una sola
variable en un conjunto de datos, lo que facilita la detección de valores
atípicos.
En los gráficos obtenidos se pueden observar con facilidad los datos

que se encuentran alejados del rango de datos general de cada una
de nuestras columnas numéricas.
12
8. Calcula, analiza y grafica la correlación
1. Cuáles son las variables que están altamente correlacionadas?
Las variables que están altamente correlacionadas son ‘fixed acidity’

y ‘citric acid’, y la correlación entre ‘density’ y ‘fixed acidity’ son las
únicas variables que al correlacionarse presentan un valor
considerablemente cercano a 1 en relación a la correlación que existe
entre las demás variables.
13
9. Compara las variables del dataset y genera scatterplots.

Describe los hallazgos.
14
Los gráficos obtenidos de las relaciones de las diferentes columnas

con la columna ‘quality’ tienen un comportamiento diferente a los
demás gráficos obtenidos de las relaciones entre otras columnas,
considero que esto es debido a que los demás parámetros son
parámetros físicos y químicos del vino pero calidad es la calificación
que le dieron al vino. Por lo que podemos observar una relación
interesante.
10. Normaliza el dataset y grafica la distribución de al menos

una columna.
15
11. Explicar las conclusiones y hallazgos importantes

detectados.
Conclusiones:
Conclusiones:
Influencia de los valores químicos en la calidad del vino:
El análisis reveló que ciertos valores químicos del vino tienen una
influencia significativa en su calidad. Se observó una correlación
positiva entre el contenido de alcohol y la calidad del vino, sugiriendo
que vinos con un mayor contenido de alcohol tienden a ser percibidos
como de mayor calidad. Del mismo modo, se encontró una
correlación negativa entre la acidez volátil y la calidad del vino,
indicando que niveles más altos de acidez volátil pueden asociarse
con una percepción de menor calidad.
Utilidad del análisis de datos y visualización:
Este análisis destaca la utilidad del análisis de datos y las

herramientas de visualización para comprender mejor las relaciones
y patrones dentro de un conjunto de datos. Gracias a técnicas como
la exploración de datos, la visualización de gráficos y el cálculo de
correlaciones, se pudo identificar factores clave que influyen en la
calidad del vino. Estas conclusiones son valiosas tanto para los
productores de vino, que pueden ajustar sus procesos de producción
para mejorar la calidad, como para los consumidores, que pueden
tomar decisiones más informadas al elegir un vino.
Aplicación de análisis de datos para la toma de decisiones:
El análisis resalta la importancia de aplicar técnicas de análisis de

datos para la toma de decisiones fundamentadas. Al comprender las
16
relaciones entre los diferentes atributos químicos y la calidad del vino,

los productores pueden optimizar sus procesos de producción y
marketing para satisfacer las preferencias del consumidor. Asimismo,
los consumidores pueden utilizar esta información para seleccionar
vinos que se alineen con sus gustos y preferencias individuales,
mejorando así su experiencia de consumo.
En resumen, el análisis de datos proporciona información valiosa
sobre la relación entre los valores químicos del vino y su calidad,
destacando la utilidad del análisis de datos y la visualización para
comprender y utilizar estos datos de manera efectiva tanto en la
industria vinícola como en la toma de decisiones del consumidor.
LINK DEL NOTEBOOK:

https://colab.research.google.com/drive/1khxro9UI0N6YHTcGOVqU
KXsG_mq7peDN?usp=sharing
17

Trabajo Final Analitica Descriptiva

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Trabajo Final Analitica Descriptiva

Cargado por

Copyright:

Formatos disponibles

Ing.

Alejandra Zubieta Jemio

DIPLOMADO EN BIG DATA APLICADO

MÓDULO 6: ESTADÍSTICA PARA ANÁLISIS

COMPONENTES DEL GRUPO:

Nombre Completo Datos de Contacto

1. Fuente y procedencia del dataset:

La fuente de mi dataset es Kaggle, una plataforma conocida por

En cuanto al contenido del dataset, incluye información detallada

2. Motivación para el análisis del dataset:

La motivación para analizar este dataset radica en varios factores

El dataset cumple con los parámetros exigidos para el proyecto, ya

En resumen, la combinación de la relevancia del tema, la confiabilidad

3. Dimensiones del dataset:

4. Cálculo de las medidas estadísticas:

Este código calculará y mostrará un resumen estadístico del

5. ¿El dataset tiene valores perdidos/(Missing Values)?, ¿a qué

El dataset no presenta Missing Values. A mi parecer debido a que son

6. Grafica la distribución de las columnas numéricas y describe

La base de datos tiene varias columnas numéricas, para el análisis

Graficar la distribución de las columnas numéricas y describir la

Visualización de la distribución de los datos: Las gráficas de

Identificación de patrones y tendencias: Al observar la forma de la

Comprensión de la centralidad y dispersión de los datos: Describir la

Detección de valores atípicos: Al observar la distribución y la

En resumen, graficar la distribución de las columnas numéricas y

7. Analiza los outliers de las columnas numéricas.

Los gráficos univariados son útiles para identificar outliers

En los gráficos obtenidos se pueden observar con facilidad los datos

8. Calcula, analiza y grafica la correlación

1. Cuáles son las variables que están altamente correlacionadas?

Las variables que están altamente correlacionadas son ‘fixed acidity’

9. Compara las variables del dataset y genera scatterplots.

Los gráficos obtenidos de las relaciones de las diferentes columnas

10. Normaliza el dataset y grafica la distribución de al menos

11. Explicar las conclusiones y hallazgos importantes

Influencia de los valores químicos en la calidad del vino:

Este análisis destaca la utilidad del análisis de datos y las

El análisis resalta la importancia de aplicar técnicas de análisis de

relaciones entre los diferentes atributos químicos y la calidad del vino,

LINK DEL NOTEBOOK:

También podría gustarte