Está en la página 1de 17

Ing.

Alejandra Zubieta Jemio

DIPLOMADO EN BIG DATA APLICADO


& ANALITICA DE DATOS AVANZADA

TRABAJO FINAL

MÓDULO 6: ESTADÍSTICA PARA ANÁLISIS


DE DATOS

COMPONENTES DEL GRUPO:

Nombre Completo Datos de Contacto


Alejandra Zubieta Jemio. 72455074

1
Ing. Alejandra Zubieta Jemio

Módulo:
Estadística para Análisis de Datos
Trabajo Final

1. Fuente y procedencia del dataset:

La fuente de mi dataset es Kaggle, una plataforma conocida por


albergar una amplia variedad de datasets en diferentes áreas. El
dataset en cuestión se centra en características fisicoquímicas de
diversos vinos y las calificaciones asociadas a su calidad.

En cuanto al contenido del dataset, incluye información detallada


sobre propiedades fisicoquímicas como la acidez, el contenido de
azúcar, la densidad, entre otras, de varios tipos de vinos. Además,
proporciona la calificación de calidad asignada a cada uno de estos
vinos por expertos o consumidores. Este conjunto de datos es útil para
realizar análisis estadísticos y exploratorios con el fin de comprender
mejor las relaciones entre las características fisicoquímicas y la
percepción de calidad de los vinos.

2. Motivación para el análisis del dataset:

La motivación para analizar este dataset radica en varios factores


clave. En primer lugar, el dataset proviene de una fuente confiable y
bien establecida, como Kaggle, lo que garantiza su calidad y
confiabilidad. Además, el contenido del dataset, que se centra en
características fisicoquímicas de vinos junto con calificaciones de
calidad, es altamente relevante y puede proporcionar información
valiosa sobre la relación entre estas variables.

El dataset cumple con los parámetros exigidos para el proyecto, ya


que aborda directamente el objetivo de analizar características
fisicoquímicas de vinos y su relación con la calidad percibida. Además,
la disponibilidad de datos bien estructurados y aparentemente
amigables sugiere que será útil para aplicar los conocimientos
adquiridos durante el módulo. Esto puede facilitar el análisis
exploratorio y estadístico, así como la visualización de los datos para
comprender mejor las relaciones subyacentes entre las variables.

2
Ing. Alejandra Zubieta Jemio

En resumen, la combinación de la relevancia del tema, la confiabilidad


de la fuente y la aparente facilidad de uso del dataset proporciona una
sólida motivación para analizarlo en el contexto del proyecto.

3. Dimensiones del dataset:

3
Ing. Alejandra Zubieta Jemio

4. Cálculo de las medidas estadísticas:

4
Ing. Alejandra Zubieta Jemio

5
Ing. Alejandra Zubieta Jemio

6
Ing. Alejandra Zubieta Jemio

Este código calculará y mostrará un resumen estadístico del


DataFrame, que incluirá información sobre los cuartiles. Los cuartiles
son los valores que dividen a un conjunto de datos ordenado en cuatro
partes iguales. El primer cuartil (Q1) corresponde al percentil 25, el
segundo cuartil (Q2) corresponde al percentil 50 (también conocido
como la mediana) y el tercer cuartil (Q3) corresponde al percentil 75.

7
Ing. Alejandra Zubieta Jemio

5. ¿El dataset tiene valores perdidos/(Missing Values)?, ¿a qué


piensas que se atribuyen los valores perdidos?

El dataset no presenta Missing Values. A mi parecer debido a que son


datos tomados en un laboratorio sistemáticamente.

6. Grafica la distribución de las columnas numéricas y describe


la distribución con relación a la media y la desviación
estándar.

8
Ing. Alejandra Zubieta Jemio

La base de datos tiene varias columnas numéricas, para el análisis


consideraremos tres columnas la columna de ‘pH’, ‘densidad’ y
‘calidad’ , los resultados de la distribución de los demás datos se
pueden visualizar en el notebook.
Para ‘pH’:

Para ‘densidad’:

9
Ing. Alejandra Zubieta Jemio

Para ‘calidad’:

10
Ing. Alejandra Zubieta Jemio

Graficar la distribución de las columnas numéricas y describir la


distribución con relación a la media y la desviación estándar es una
práctica común en el análisis de datos que proporciona varias
ventajas:

Visualización de la distribución de los datos: Las gráficas de


distribución, como los histogramas o gráficos de densidad, permiten
visualizar cómo están distribuidos los datos en cada columna
numérica. Esto proporciona información sobre la forma de la
distribución y la concentración de valores en diferentes rangos.

Identificación de patrones y tendencias: Al observar la forma de la


distribución, se pueden identificar patrones y tendencias en los datos.
Por ejemplo, una distribución normal sugiere que los datos están
equilibrados y simétricos, mientras que una distribución sesgada hacia
la derecha o hacia la izquierda indica una concentración de valores en
un extremo del rango.

Comprensión de la centralidad y dispersión de los datos: Describir la


distribución con relación a la media y la desviación estándar
proporciona información sobre la centralidad y la dispersión de los
datos. La media da una idea del valor promedio, mientras que la
desviación estándar indica cuánto se desvían los valores individuales
de la media. Esto ayuda a comprender la variabilidad de los datos y la
dispersión alrededor de la media.

Detección de valores atípicos: Al observar la distribución y la


dispersión de los datos, se pueden identificar valores atípicos o
extremos que pueden afectar los análisis. Los valores atípicos pueden
influir en la media y la desviación estándar, por lo que es importante
identificarlos y comprender su impacto en los resultados.

En resumen, graficar la distribución de las columnas numéricas y


describir la distribución con relación a la media y la desviación
estándar es una práctica fundamental en el análisis de datos que
proporciona información valiosa sobre la estructura, tendencias y
variabilidad de los datos. Esto ayuda a comprender mejor los datos y
a tomar decisiones informadas en los análisis y modelado de datos.

11
Ing. Alejandra Zubieta Jemio

7. Analiza los outliers de las columnas numéricas.

Los gráficos univariados son útiles para identificar outliers


principalmente porque te permiten visualizar la distribución de una sola
variable en un conjunto de datos, lo que facilita la detección de valores
atípicos.

En los gráficos obtenidos se pueden observar con facilidad los datos


que se encuentran alejados del rango de datos general de cada una
de nuestras columnas numéricas.

12
Ing. Alejandra Zubieta Jemio

8. Calcula, analiza y grafica la correlación

1. Cuáles son las variables que están altamente correlacionadas?

Las variables que están altamente correlacionadas son ‘fixed acidity’


y ‘citric acid’, y la correlación entre ‘density’ y ‘fixed acidity’ son las
únicas variables que al correlacionarse presentan un valor
considerablemente cercano a 1 en relación a la correlación que existe
entre las demás variables.

13
Ing. Alejandra Zubieta Jemio

9. Compara las variables del dataset y genera scatterplots.


Describe los hallazgos.

14
Ing. Alejandra Zubieta Jemio

Los gráficos obtenidos de las relaciones de las diferentes columnas


con la columna ‘quality’ tienen un comportamiento diferente a los
demás gráficos obtenidos de las relaciones entre otras columnas,
considero que esto es debido a que los demás parámetros son
parámetros físicos y químicos del vino pero calidad es la calificación
que le dieron al vino. Por lo que podemos observar una relación
interesante.

10. Normaliza el dataset y grafica la distribución de al menos


una columna.

15
Ing. Alejandra Zubieta Jemio

11. Explicar las conclusiones y hallazgos importantes


detectados.

Conclusiones:
Conclusiones:

Influencia de los valores químicos en la calidad del vino:

El análisis reveló que ciertos valores químicos del vino tienen una
influencia significativa en su calidad. Se observó una correlación
positiva entre el contenido de alcohol y la calidad del vino, sugiriendo
que vinos con un mayor contenido de alcohol tienden a ser percibidos
como de mayor calidad. Del mismo modo, se encontró una
correlación negativa entre la acidez volátil y la calidad del vino,
indicando que niveles más altos de acidez volátil pueden asociarse
con una percepción de menor calidad.
Utilidad del análisis de datos y visualización:

Este análisis destaca la utilidad del análisis de datos y las


herramientas de visualización para comprender mejor las relaciones
y patrones dentro de un conjunto de datos. Gracias a técnicas como
la exploración de datos, la visualización de gráficos y el cálculo de
correlaciones, se pudo identificar factores clave que influyen en la
calidad del vino. Estas conclusiones son valiosas tanto para los
productores de vino, que pueden ajustar sus procesos de producción
para mejorar la calidad, como para los consumidores, que pueden
tomar decisiones más informadas al elegir un vino.
Aplicación de análisis de datos para la toma de decisiones:

El análisis resalta la importancia de aplicar técnicas de análisis de


datos para la toma de decisiones fundamentadas. Al comprender las
16
Ing. Alejandra Zubieta Jemio

relaciones entre los diferentes atributos químicos y la calidad del vino,


los productores pueden optimizar sus procesos de producción y
marketing para satisfacer las preferencias del consumidor. Asimismo,
los consumidores pueden utilizar esta información para seleccionar
vinos que se alineen con sus gustos y preferencias individuales,
mejorando así su experiencia de consumo.
En resumen, el análisis de datos proporciona información valiosa
sobre la relación entre los valores químicos del vino y su calidad,
destacando la utilidad del análisis de datos y la visualización para
comprender y utilizar estos datos de manera efectiva tanto en la
industria vinícola como en la toma de decisiones del consumidor.

LINK DEL NOTEBOOK:


https://colab.research.google.com/drive/1khxro9UI0N6YHTcGOVqU
KXsG_mq7peDN?usp=sharing

17

También podría gustarte