Documentos de Académico
Documentos de Profesional
Documentos de Cultura
GRUPO: S8A
Hermosillo, Son.
INTRODUCCIÓN
IMPLEMENTACIÓN
Para dar inicio a la presente práctica es necesario tener instalado Jupyter Notebook
o bien utilizar la herramienta Google Colab la cual se ejecuta en la nube, ya que
este tipo de entornos permiten trabajar específicamente con Python y sus librerías
para ciencia de datos y aprendizaje automático.
Una vez ya abierto el Notebook de python, es necesario cargar el set de datos con
el que se trabajara, el cual lleva por nombre “datos1.xlsx”.
Para importar estos datos y trabajar con ellos es necesario utilizar la librería Pandas
de python la cual está especializada en la manipulación y el análisis de datos.
Ofrece estructuras de datos y operaciones para manipular tablas numéricas y series
temporales.
Ahora bien, una vez que los datos ya están cargados, se realizará una exploración
para ver cómo se distribuyen estos mismos. Con la función groupby() agrupamos
los datos de la columna Momento y con count() los contamos para obtener
subtotales:
Se crea una nueva variable la cual lleva por nombre “dataset” y se le asigna el valor
de la variable datos_seleccionados pero aplicando la función dropna() la cual
permite, de una forma muy conveniente, filtrar los valores de una estructura de
datos pandas para dejar solo aquellos no nulos.
Esta validación permite observar que no se tienen valores nulos en cada una de las
columnas del dataset, utilizando la función isnull() y sum() se puede visualizar este
resultado:
PREPARANDO LOS DATOS
Vemos los coeficientes de cada variable; en este caso notamos como el Sodio tiene
un impacto no significativo en la cantidad de calorías al tener un coeficiente
sumamente pequeño.
Una vez que el modelo ya ha sido entrenado, es momento de ponerlo a prueba, y
esto es utilizando la función predict() con la cual se pueden predecir nuevas
observaciones.
Lo siguiente será revisar la diferencia entre los valores actuales y los valores de
predicción en la comparación, y se puede observar la diferencia en cantidad de
calorías calculadas por el modelo.
Ahora toca realizar los gráficos para la visualización de los datos para hacer la
comparación de valores actuales y de predicción y estimar de manera visual que tan
preciso o no es el modelo para calcular calorías.
Para realizar estos gráficos se hará uso de matplotlib la cual es una biblioteca para
la generación de gráficos en dos dimensiones, a partir de datos contenidos en listas
o arrays.
CONCLUSIÓN
Visto lo anterior y el trabajo realizado, puedo deducir que se cumplió con el objetivo
principal de la práctica, ya que al poner en acción los conocimientos adquiridos en
clase se obtuvo experiencia trabajando con la regresión lineal múltiple y ver cómo
este tipo de algoritmo puede dar soluciones efectivas.