Está en la página 1de 4

Fase 3: Preparación de los

datos
Matemáticas y ciencia de datos para la toma de decisiones
(Gpo 800)

Guillermo Najera Lobo


A01722738
21/05/23

TEMA 1
Parte 1.

TEMA 2
El código funciona con los siguientes pasos:
1. Crea una libreta en Google Colab y carga un archivo Excel con los datos de mi proyecto.
2. Importa Pandas, carga los datos en un DataFrame llamado "df" y muestra los primeros 5
registros para asegurarte de que todo esté bien.
3. Selecciona las columnas que necesitamos usar en este caso desde costo a numero de personas
usando "iloc[]" y luego veri ca que haya seleccionado lo correcto.
4. Limpia los datos buscando valores nulos y elimina las que los contengan también veri ca que
no haya valores nulos en el DataFrame.
5. Prepara los datos asignando atributos de entrada y salida a variables "x" e "y" respectivamente.
Utiliza la función "train_test_split()" para dividir los datos en conjuntos de entrenamiento y
prueba.

Parte 2.

En la Fase 3 de la ciencia de datos, lo más importante es preparar los datos para poder
estudiarlos bien. Esta fase puede llevar mucho tiempo, hasta el 70% del total del proyecto. Hay
cinco cosas que se tienen que hacer: elegir los datos importantes, arreglar los datos que tienen
errores, crear datos nuevos si es necesario, juntar datos de diferentes fuentes y poner los datos en
el formato adecuado para poder analizarlos. Elegir los datos importantes signi ca escoger solo lo
que es relevante para el estudio. Arreglar los datos implica corregir problemas y errores que
puedan afectar al análisis. Si los datos no son su cientes, se pueden crear datos nuevos para
completarlos. Si hay datos de diferentes fuentes, se pueden juntar usando un identi cador único,
como un número de seguridad social. Por último, es importante poner los datos en el formato
adecuado para poder analizarlos mejor. En resumen, la Fase 3 es muy importante en la ciencia de
datos porque ayuda a preparar los datos para que se puedan analizar bien.

¿Qué datos hay que seleccionar? Por qué.


Deberíamos seleccionar los datos relevantes para el análisis. Esto puede incluir información sobre
los gastos diarios, como la fecha, el tipo de gasto, el monto gastado y cualquier otra información
relevante. La selección de estos datos depende de los objetivos de el proyecto.
¿Hay que eliminar o reemplazar valores en blanco? Sí / No / Por qué.
Si encuentras valores en blanco en tus datos de gastos diarios, yo creo que se deben de borrar.
Los valores en blanco pueden afectar la calidad de tu análisis y la precisión de tus resultados. La
eliminación de registros con valores en blanco.

TEMA 3
fi
fi
fi
fi
fi
fi
¿Es posible agregar más datos? Sí / No / Por qué.
Puedes considerar agregar más datos si consideras que pueden aportar información adicional o
mejorar tus análisis. Por ejemplo, podrías recopilar datos adicionales sobre tus gastos diarios,
como la ubicación o cualquier otro atributo relevante que te ayude a obtener una visión más
completa y detallada de tus patrones de gasto.
¿Hay qué integrar o fusionar datos de varias fuentes? Sí / No / Por qué.
No creo que sea necesario en este aso ya que todos los gastos son míos por lo cual no seria
necesario agregar ninguna ente. Si tienes datos de gastos diarios provenientes de diferentes
fuentes, como recibos de compras, registros bancarios es posible que se pueda considerar la
integración de estos datos para obtener una imagen más completa pero no es el caso.
¿Es necesario ordenar los datos para el análisis? Sí / No / Por qué.
Depende de los objetivos especí cos de tu proyecto y de las preguntas que desees responder. Si
deseas analizar tus gastos diarios en función de la fecha o de cualquier otro atributo temporal, es
recomendable ordenar los datos cronológicamente. Si el orden no es relevante para tu análisis no
sería necesario ordenar los datos.
¿Tengo que hacer conjuntos de datos para entrenamiento y prueba? Sí / No / Por qué.
Depende de lo que estés haciendo con los datos. Si estás tratando de crear un modelo para
predecir cosas como los gastos del día siguiente, es recomendable separarlos en un grupo de
entrenamiento y otro de prueba. De esta manera, puedes ver qué tan bien funciona tu modelo
para predecir cosas nuevas que no ha visto antes. Pero si solo estás analizando los datos para ver
qué onda con tus gastos del día a día, no necesitas separarlos en grupos de entrenamiento y
prueba.
¿Qué ajustes se tuvieron que hacer a los datos (agregar, integrar, modi car registros ( las),
cambiar atributos (columnas)?
Yo creo que si, depende de qué estés haciendo con los datos y de cuán chuecos estén, pero
algunas chambas que podrías hacer son: borrar datos repetidos, corregir errores evidentes o crear
nuevas columnas que te ayuden a analizar mejor los datos.

Liga Google Colab: https://colab.research.google.com/drive/10JIojPp-


ASMoVqIfIu7TWPc6T9n1iZqU?usp=sharing

TEMA 4
fi
fi
fi
fi

También podría gustarte