Documentos de Académico
Documentos de Profesional
Documentos de Cultura
A01722738 Evidencia2 Proyecto
A01722738 Evidencia2 Proyecto
EVIDENCIA 2. 1
Introducción
El objetivo del proyecto es aplicar la ciencia de datos para lograr objetivos de nanzas
personales saludables. El problema que se quiere resolver en este proyecto es la falta de control y
entendimiento de los gastos personales, lo que puede provocar una mala gestión del dinero y
di cultades para cumplir los sueños y metas nancieras.
La metodología utilizada en el proyecto se compone de cuatro fases:
Entendimiento del negocio: Se elaboró un archivo de Excel para registrar los gastos
diarios durante un semestre. Esta información incluye detalles como la fecha, la descripción del
gasto y el monto gastado. Registrar los gastos de forma diaria y detallada ofrece una visión
precisa de los patrones de gasto y los hábitos nancieros.
Entendimiento de los datos: Una vez recopilados los datos, se realiza un proceso de
limpieza y organización de la información en el archivo de Excel. Esto implica eliminar
duplicados, corregir errores y asegurarse de que los datos estén en un formato adecuado para el
análisis. Luego, se utilizan técnicas de análisis de datos para identi car tendencias, patrones y
áreas de mejora en los hábitos de gasto.
Preparación de los datos: La visualización de datos juega un papel fundamental en la
comprensión de los patrones de gasto y la toma de decisiones nancieras. Se utilizan grá cos y
tablas para representar de manera clara y concisa la información recopilada. Esto permite
identi car rápidamente áreas en las que se está gastando demasiado y áreas en las que se puede
ahorrar.
Plani cación nanciera: Con base en los resultados del análisis y la visualización de datos,
se elabora un plan nanciero para alcanzar las metas establecidas. Esto puede incluir la creación
de un presupuesto, la identi cación de áreas de recorte de gastos, la asignación de ahorros para
inversiones o el establecimiento de metas de ahorro especí cas. La ciencia de datos proporciona
información precisa y accionable que ayuda en la toma de decisiones nancieras informadas.
En resumen, el proyecto utiliza la ciencia de datos para abordar el problema de la mala
administración de las nanzas personales. Mediante la recopilación, procesamiento, análisis y
visualización de los datos de gastos personales, se pueden identi car patrones y áreas de mejora.
Con esta información, se puede elaborar un plan nanciero sólido que permita cumplir las metas
y sueños nancieros establecidos.
EVIDENCIA 2. 2
fi
fi
fi
fi
fi
fi
fi
fi
fi
fi
fi
fi
fi
fi
fi
fi
fi
fi
Fase 1. Entendimiento del negocio
¿Quién es el cliente?
El cliente soy yo, una persona que está interesada en alcanzar sus sueños utilizando nanzas
personales saludables y la ciencia de datos como herramienta para lograrlo.
EVIDENCIA 2. 3
fi
fi
fi
fi
fi
fi
fi
fi
¿Qué necesitas aprender para poder desarrollar la solución o soluciones?
Para poder llegar a la solución, voy a necesitar habilidades en análisis de datos al cual que una
buena programación de el sistema y aprender sobre el modelado estadístico. También siento que
es necesario entender los fundamentos y en que consiste las nanzas personales y las
herramientas que tengo como excel para analizar mis nanzas personales al igual que es
importante el conocimiento de las tecnologías de almacenamiento de datos como mencione.
Otra cosa que considero de suma importancia es aprender el por que estamos haciendo este
proyecto y como me va ayudar en m vida para de esa manera hacer las cosas bien siguiendo
todos los pasos como el que vimos en la fase 1.
EVIDENCIA 2. 4
fi
fi
fi
Fase 2. Entendimiento de los datos
¿Cuáles son tus datos existentes (registrados), datos adquiridos (datos externos) y
datos adicionales (datos generados)?
Mis datos existentes son los gastos diarios que he registrado en mi hoja de Excel, los datos
adquiridos son aquellos que podría obtener de fuentes externas, como las tasas de in ación o de
cambio de moneda, y los datos adicionales son aquellos que genero a partir de los datos
existentes, como el promedio de gastos por día o por semana.
¿Qué tipos de datos se analizarán?
Los tipos de datos que se analizarán son los gastos diarios con su costo, el tiempo invertido en
cada actividad, el presupuesto, el tiempo de el día y cual es la actividad.
¿Qué atributos (columnas) de la base de datos parecen más prometedores?
Los atributos que parecen más prometedores son los gastos, ya que son el enfoque principal de
mi proyecto. También considero importante el tiempo invertido en cada actividad, ya que puede
darme información valiosa sobre cómo estoy utilizando mi tiempo.
¿Qué atributos parecen irrelevantes y pueden ser excluidos?
Puede que el número de personas no tenga un impacto signi cativo en mis gastos, por lo que
podría considerarse irrelevante.
EVIDENCIA 2. 5
fi
fi
fl
fi
¿Hay datos su cientes ( las) para sacar conclusiones generalizables o hacer
predicciones precisas?
Si tengo su cientes datos registrados y podría sacar conclusiones generales pero como solo he
estado registrando mis gastos durante un corto período de tiempo lo mas segur es que no tenga
su cientes datos para hacer predicciones precisas.
¿Hay demasiados atributos para realizar un modelo que sea fácil de interpretar?
Si tengo demasiados atributos seria difícil crear un modelo fácil de interpretar. En este caso solo
estoy registrando algunos datos diarios, por lo que no debería haber demasiados.
¿De dónde se obtuvieron los datos?
Los datos son de mi propia recopilación.
¿Se están fusionando varias fuentes de datos?Si es así, ¿hay áreas que podrían
plantear un problema al fusionar?
No hay varias fuentes de datos para fusionar ya que son mis propias datos.
¿Hay algún plan para manejar los valores faltantes en cada una de las fuentes de
datos?
En caso de que encuentre valores faltantes yo creo que podría asignarles un valor promedio para
que no afecten tanto los resultados.
¿Cuántos datos están accesibles o disponibles y cómo está la calidad de los
mismos?
La cantidad de datos depende de cuánto tiempo haya estado registrando mis gastos y la calidad
depende de qué tan precisamente los haya registrado.
¿Cuál es la relación de los datos y la hipótesis del proyecto?
La relación entre los datos y la hipótesis del proyecto es que los datos me permiten entender
mejor cómo estoy gastando mi dinero. La hipótesis del proyecto creo que es que al registrar y
analizar mis gastos, puedo ver áreas donde puedo ahorrar y de seta manera mejorar mi gestión
nanciera y cumplir mis metas.
EVIDENCIA 2. 6
fi
fi
fi
fi
fi
Fase 3. Preparación de los datos
En la Fase 3 de la ciencia de datos, lo más importante es preparar los datos para poder
estudiarlos bien. Esta fase puede llevar mucho tiempo, hasta el 70% del total del proyecto. Hay
cinco cosas que se tienen que hacer: elegir los datos importantes, arreglar los datos que tienen
errores, crear datos nuevos si es necesario, juntar datos de diferentes fuentes y poner los datos en
el formato adecuado para poder analizarlos. Elegir los datos importantes signi ca escoger solo lo
que es relevante para el estudio. Arreglar los datos implica corregir problemas y errores que
puedan afectar al análisis. Si los datos no son su cientes, se pueden crear datos nuevos para
completarlos. Si hay datos de diferentes fuentes, se pueden juntar usando un identi cador único,
como un número de seguridad social. Por último, es importante poner los datos en el formato
adecuado para poder analizarlos mejor. En resumen, la Fase 3 es muy importante en la ciencia de
datos porque ayuda a preparar los datos para que se puedan analizar bien.
EVIDENCIA 2. 7
fi
fi
fi
¿Es necesario ordenar los datos para el análisis?
Depende de los objetivos especí cos de tu proyecto y de las preguntas que desees responder. Si
deseas analizar tus gastos diarios en función de la fecha o de cualquier otro atributo temporal, es
recomendable ordenar los datos cronológicamente. Si el orden no es relevante para tu análisis no
sería necesario ordenar los datos.
¿Qué ajustes se tuvieron que hacer a los datos (agregar, integrar, modi car
registros ( las), cambiar atributos (columnas)?
Pienso que sí, depende de qué estés haciendo con los datos y de cuán limpios estén, pero algunas
tareas que podrías hacer son: borrar datos repetidos, corregir errores evidentes o crear nuevas
columnas que te ayuden a analizar mejor los datos.
EVIDENCIA 2. 8
fi
fi
fi
Fase 4. Modelación de los datos
El programa que hice se basa en usar la librería Pandas para manejar y analizar datos
tabulares. Para construir un modelo de predicción, usé el algoritmo de regresión lineal múltiple
de la librería scikit-learn. En el proceso de programación, primero importé la librería Pandas y la
asigné a la variable pd. Luego, cree un objeto DataFrame llamado df para cargar los datos de un
archivo Excel usando la función read_excel() de Pandas. Después, seleccioné los datos que
necesitaba usando la función iloc[] para agarrar las y columnas especí cas del DataFrame.
Después de eso, limpié los datos descartando los valores nulos con la función dropna(). Después
de eso, preparé los datos dividiendo el conjunto en atributos de entrada (x) y la variable de salida
(y) usando la función train_test_split() de scikit-learn.Después, creé un objeto de la clase
LinearRegression de scikit-learn para modelar los datos y usé la función t() para ajustar los datos
al modelo de regresión lineal múltiple.Una vez que el modelo fue entrenado, utilicé la función
predict() para hacer predicciones basadas en los datos de prueba. También calculé el coe ciente
de determinación R2 para evaluar la precisión del modelo usando la función r2_score() de scikit-
learn. Finalmente, hice un grá co de dispersión para ver la comparación entre los valores reales y
las predicciones del modelo.
EVIDENCIA 2. 9
fi
fi
fi
fi
fi
La Fase 4 es muy importante en la ciencia de datos, ya que es donde se trabajan los datos
brutos para convertirlos en un formato adecuado para su análisis y modelado. El objetivo es crear
modelos que puedan ayudar a entender el problema y responder a las preguntas planteadas.
Durante esta fase, se seleccionan y preparan los datos, se identi can las variables de entrada y
salida, se eligen los algoritmos y modelos adecuados y se construyen y evalúan los modelos.
También se exploran y transforman los datos para asegurarse de que sean coherentes y
representativos. La idea es encontrar el modelo que mejor se ajuste a los datos y sea capaz de
proporcionar predicciones precisas o descripciones signi cativas. Es importante documentar todo
el proceso para poder comunicarlo y reproducirlo en el futuro. En resumen, la Fase 4 es
fundamental para obtener información útil de los datos y constituye un paso crucial en el análisis
de datos.
¿Tuviste problemas para generar el modelo con tus datos? ¿Cómo los resolviste?
No, no tuve ningún problema para generar el modelo de los datos ya que seguí paso a paso las
instrucciones en parte 1 por lo cual de manera simple aprendi como se hacia y pude modelar los
datos. Lo resolví de manera en que siguiendo el paso a paso me fue dando los resultados deseados
y avanzó a el siguiente paso.
EVIDENCIA 2. 10
fi
fi
fi
fi
fi
Valores actuales, de predicción y residuales:
Los valores reales se obtienen de "y_test", los valores de predicción se
obtienen mediante la función "predict()" aplicada al modelo de regresión
lineal ("y_pred"), y los residuales se calculan restando los valores reales de
los valores de predicción ("y_test- y_pred"). Luego, se selecciona una
muestra de 30 datos y se ordenan por los valores reales para su
visualización.
Grá ca de barras:
En este fragmento se pide a el código que haga una
gra ca para comparar visualmente la predicción de
el costo con el valor real y por lo visto es muy preciso.
EVIDENCIA 2. 11
fi
fi
fi
fi
fi
fi
fi
fi
Evaluando mis finanzas personales
¿Cuántas actividades diarias registraste en total en este semestre?
Registre un total de 259 actividades diarias.
¿Cuál fue el Tipo de actividad dónde más gastas tu dinero y cuál fue el Tipo de
actividad en dónde gastas menos?
EVIDENCIA 2. 12
¿Por cuántos días registraste tus gastos en este semestre?
Fueron 84 días de registros.
¿Cuánto tiempo (en días) tendrías que seguir ahorrando para comprar tu
siguiente autoregalo?
Dependiendo de el regalo pero no tanto tiempo.
Liga: https://colab.research.google.com/drive/1va1KyCRAVAlZjcTJY9HYbRazClR73UZG?
usp=sharing
EVIDENCIA 2. 13
¿Qué decisiones informadas puedes tomar para mejorar tus nanzas personales
considerando los resultados de tu análisis?
Para optimizar las nanzas personales, basándonos en los resultados del análisis, se pueden
adoptar varias decisiones fundamentadas. Algunas recomendaciones incluyen:
Crear un presupuesto realista: Utiliza la información obtenida para elaborar un presupuesto
pormenorizado que re eje tus ingresos y gastos. Esto te permitirá tener un manejo más exacto
sobre tus nanzas y evitar gastos innecesarios.
Detectar áreas de ahorro: Examina los datos para detectar patrones de gastos super uos o
excesivos. Puedes utilizar esta información para modi car tus hábitos de consumo y disminuir
costos en áreas especí cas.
Fijar metas nancieras: Utiliza los resultados del análisis para jar metas nancieras a corto y
largo plazo. Por ejemplo, puedes establecer una cantidad especí ca de ahorro cada mes o planear
inversiones basadas en tus objetivos nancieros.
Hacer un seguimiento regular: Utiliza herramientas de seguimiento nanciero para veri car tus
avances y asegurarte de que estás cumpliendo tus planes. Puedes utilizar aplicaciones móviles,
hojas de cálculo u otras herramientas para mantener un registro actualizado de tus ingresos,
gastos y ahorros.
¿Cuál fue tu mayor aprendizaje y cuál fue tu mayor reto en este Proyecto de
Ciencia de Datos?
Respecto a mi aprendizaje y mayor desafío en este proyecto de Ciencia de Datos, puedo a rmar
que uno de los mayores aprendizajes fue la relevancia de contar con datos de calidad y su cientes
para obtener resultados exactos y valiosos. Asimismo, fue un reto manejar la complejidad de los
datos nancieros y asegurar la abilidad de los análisis efectuados. Fue imprescindible utilizar
técnicas de depuración de datos y elección de variables pertinentes para obtener inferencias
signi cativas. También fue fundamental considerar la interpretación correcta de los resultados y
comunicarlos de forma sencilla y comprensible para los usuarios nales
EVIDENCIA 2. 14
fi
fi
fi
fi
fi
fi
fi
fl
fi
fi
fi
fi
fi
fi
fi
fi
fi
fi
fi
fi
fi
fl
fi
fi
fi
fi
Reflexión final
Excel Python
EVIDENCIA 2. 15
Me pareció mejor la de Python ya que es mucho mas precisa también por que tengo
muchos mas datos registrados y porque me permite visualizar los resultados de forma más clara y
atractiva. La hipótesis inicial sugiere la capacidad de anticipar el gasto de las acciones según
varios factores, como el dinero disponible, la clase de acción, el tiempo de ejecución y el número
de participantes. También, se pretende calcular cómo este gasto cambiará con el tiempo y cuál
será su efecto. El modelo sugerido busca ofrecer una aproximación exacta en relación a la
anticipación de gastos, teniendo en cuenta múltiples variables. No obstante, la exactitud del
modelo estará condicionada por la calidad y cantidad de datos disponibles, la metodología
empleada y la complejidad propia de cada acción. Es esencial hacer valoraciones y
modi caciones regulares para optimizar la exactitud del modelo y adecuarlo a las situaciones
variables.
Bibliografia
EVIDENCIA 2. 16
fi
fi
fi
fi
fi