Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Para la Toma de
Decisiones de la
Industria.
Informe Final: “Aumento de
niveles de pobreza a nivel país durante Integrantes:
Franco Arratia
el año 2011-2021 y su relación con las
variables económicas y sociales” Leonardo Cofré
Lucas Campos
Profesora:
Claudia Durán S.
Sección : 761
Metodologia de aplicacion KDD: Consiste en 6 pasos en los que se identificarán los alcances y
objetivos del problema:
● En la etapa de selección, una vez identificada la información relevante y los objetivos del
KDD, se crea un conjunto de datos objetivo, seleccionando todo el conjunto de datos o solo
una muestra representativa de este, con el cual será ingresado a los Softwares
● En la etapa de preprocesamiento/limpieza (data cleaning) se analiza la calidad de los datos,
se borran datos ruidosos, se rellenan los datos faltantes, datos nulos, datos duplicados. Se
usan métricas de tipo estadístico como media, moda, mínimo y máximo para reemplazarlo.
Metodología de trabajo:
Por medio de los 6 pasos de KDD, Inicia con la recopilación de datos a través distintas páginas web
obteniendo las bases de datos de variables relevantes para este caso, como el PIB o los Niveles de
Pobreza, se Integrarán y se relacionarán aquellas que se afectan entre sí con el programa SQL
Server, luego se pasa a un proceso ETL usando el programa KNIME en donde se eliminarán aquellas
que son atípicas e irrelevantes, se limpian los datos y se preparan para el análisis.
Estos datos ya transformados y limpios se ingresan a KNIME, en un proceso llamado Minería de
Datos, aquí se utilizarán y se comparan dos algoritmos distintos, probando en cada uno la
efectividad y precisión respecto al resultado que entregan, seleccionando el mejor para este caso ,
los algoritmos a comparar son el de Linear Regresion y Decision Tree, también se utiliza la interfaz
Power BI para interpretar a detalle los hallazgos descubiertos.
Luego de obtener los resultados y hacer todos los análisis correspondientes tanto para KNIME y
Power BI, se buscan recomendaciones y conclusiones para apoyar la toma de decisiones de una
forma efectiva y viable, y se da la utilización o aplicación del conocimiento aprendido.
Según la página del Banco Mundial, en las últimas décadas,la Economía de Chile se encuentra entre
las de más rápido crecimiento en Latinoamérica, siendo su PIB de 11,7% en el año 2021, entrega
información respecto al escenario post-pandemia en Chile, como la de una tasa de vacunación
mayor para la activación de la economía.
A nivel macroeconómico se tiene un aumento mayor del gastos y deudas públicas, elevada inflación
de 7,8 % interanual a febrero de 2022 y un mercado laboral que se recupera muy lentamente (Solo
el 60% de los empleos perdidos se ha recuperado en 2021).
Este escenario futuro nos ayuda a comprender de mejor manera como se involucran las variables
económicas, sociales y demográficas, las estrategias realizadas por el gobierno para lograr la
implementación de mejoras para generar mejores alcances y resultados posibles
Influencia del Escenario Pandemia 2020: En este periodo considerado la recesión más grande de
Chile desde la sufrida en la década del 1980, este evento desestabiliza directamente la economía por
los siguientes factores:
Se utilizaron diferentes bases de datos para obtener información, específicamente de las encuesta
CASEN, se determinó obtener información de las bases de datos que comprenden los siguientes
años en específico (2011-2020). Se logra apreciar una extensa y variada cantidad de información, de
tipo estadística, económica, detallada, pero generalmente desordenada, valores y porcentajes que
permiten sacar conclusiones y hacer proyecciones en tiempos determinados.
Para juntar todas las bases de datos recolectadas, se utiliza el software SQL Server, también se
enlazan aquellas que están relacionadas, la mayoría se encuentra expresada en función de los años
(2011-2020) siendo Inflación, Tasa de Interés Interbancario y PIB Per Cápita variables mensuales.
Además dichas bases de datos contienen información que no serán tomadas en cuenta dado que no
están dentro de los criterios a evaluar, por lo que pasarán por un posterior proceso de limpieza.
Para juntar todas las bases de datos recolectadas, se utiliza el software SQL Server. Se adjunta en el
correo de entrega del trabajo un archivo .txt con las sentencias utilizadas para ingresar en el
software todas las bases de datos junto con las relaciones entre ellas.
El Software SQL Server entrega un diagrama de relaciones entre las distintas tablas que se muestran
a continuación:
● Media completa.
● Superior incompleto.
● Superior completa.
6. Debido a que la Inflación, Tasa de Interés Interbancario y PIB Per Cápita, se encuentran de
carácter mensual, se utiliza el nodo “Group By” para dejar en cada año el promedio en cada
variable.
7. Se utiliza el nodo “Joiner” para juntar cada una de las bases de datos por su atributo en
común “año”.
8. Se utiliza el nodo “Excel writer” para generar un reporte de salida.
HAY QUE AGREGAR partición de datos previa a la aplicación de la regresión lineal para poder
evaluar resultado del scorer
ρ=Sxy/(Sx Sy )
es por esto que se aplicarán dos nodos para procesar la información obtenida
En primer lugar usaremos el nodo “Math Formula” para aplicar valor absoluto a la columna que
contiene el coeficiente de correlación, para luego aplicar “Row Filter” y así dejar solo las relaciones
fuertes. Dentro de las relaciones fuertes, existen 2 en las que se encuentra presente el porcentaje de
población pobre:
a)Población pobre/ Población no pobre: Esta categoría, por obvias razones no puede ser
considerada para estudio, ya que no aporta información útil para la toma de decisiones ya que la
población pobre es el complemento de la población no pobre obteniendo así un índice de
correlación aproximado de -1, que no aporta información relevante
b)Población pobre/ Población con educación media o superior completa: por otra parte esta
relación si puede ser objeto de estudio, ya que posee un índice de correlación aproximado de -0.86
dando como resultado una relación inversa fuerte, por lo que una buena acción a tomar para
disminuir los niveles de pobreza en la población sería poner énfasis en fomentar la educación como
factor social para el desarrollo económico.
Este algoritmo nos proporciona a la vez la información de que los otros factores económicos y
sociales como pueden ser el valor de la UF, la inflación, o la tasa de desempleo nos son factores que
se relacionen por si solos con la pobreza en el país.
El segundo algoritmo utilizado es el “Decision Tree” para predecir el comportamiento del nivel de
pobreza en base a otras variables (tasa de desempleo para el ejemplo particular mostrado en la
figura),utilizando las bases de datos del ministerio de desarrollo social y familia podemos utilizar
knime para entrenar el “decision tree” con el 70% de los datos usando el nodo “partitioning” para
luego compararlo con el 30% restante y evaluar el desempeño del algoritmo .
El Software Knime evalúa la eficiencia del algoritmo con un 66,667% para el caso de la estimación de
la pobreza a partir de la Tasa de Desempleo.
Es cierto que las bases de datos son recientes y que aún no cuentan con un gran volumen de datos,
pero esta puede ser una buena herramienta para poder establecer un método de predecir el
comportamiento de la pobreza a partir de diferentes variables.
Si bien ambos algoritmos pueden aportarnos distinto tipo de información, es mucho más útil el
algoritmo de “Decision Tree” ya que puede ser aplicado a más variables, al contrario del “Linear
Correlation” que mostró ser representativo solo para una de todas las variables estudiadas.
Mejorar argumento de por qué elegimos ese que el otro (respaldo datos programa)
Al analizar los dos gráficos en conjunto, se puede evidenciar que cada uno de los factores negativos
por separado, no son significativos para el estudio, sino que al tomar todos estos factores de manera
colectiva se puede encontrar un patrón de correlatividad.
Análisis KNIME
MOSTRAR VALORES COMPARATIVOS, GRADOS DE AFECTACIÓN, COMPOSICIÓN
DE LA PREDICCIÓN Y EL COMPORTAMIENTO