Está en la página 1de 14

Analítica de Datos

Para la Toma de
Decisiones de la
Industria.
Informe Final: “Aumento de
niveles de pobreza a nivel país durante Integrantes: 
Franco Arratia
el año 2011-2021 y su relación con las
variables económicas y sociales” Leonardo Cofré

Lucas Campos

Profesora:
     
Claudia Durán S.

Sección : 761
Metodologia de aplicacion KDD: Consiste en 6 pasos en los que se identificarán los alcances y
objetivos del problema:

● En la etapa de selección, una vez identificada la información relevante y los objetivos del
KDD, se crea un conjunto de datos objetivo, seleccionando todo el conjunto de datos o solo
una muestra representativa de este, con el cual será ingresado a los Softwares
● En la etapa de preprocesamiento/limpieza (data cleaning) se analiza la calidad de los datos,
se borran datos ruidosos, se rellenan los datos faltantes, datos nulos, datos duplicados. Se
usan métricas de tipo estadístico como media, moda, mínimo y máximo para reemplazarlo.

Paso 1: Comprensión del dominio del estudio y establecimiento de objetivos.

Definición del objetivo del KDD:

● Extracción de conocimientos y patrones de una base de datos de las distintas variables


socioeconómicas y demográficas relacionadas a la pobreza en Chile durante los años 2011-
2020 a través de la metodología KDD y estudiar las relaciones existentes entre ellas.
● Desarrollar e implementar soluciones que ayuden a la toma de decisiones para así lograr
disminuir la línea de pobreza en el país en el futuro
● En base a los resultados de KDD buscar mejoras las estrategias surgidas en la pandemia y
hacer recomendaciones respaldadas por la información adquirida al final del proceso
● El objetivo de la etapa minería de datos es la búsqueda y descubrimiento de patrones
insospechados y de interés, aplicando tareas de descubrimiento como clasificación (Quinlan,
1986) (Wang, Iyer y Scott, 1998), clustering (Ng y Han, 1994), (Zhang, Ramakrishnan, Livny,
1996), patrones secuenciales (Agrawal y Srikant, 1995) y asociaciones (Agrawal y Srikant,
1994), (Srikant y Agrawal, 1996), entre otras. Las técnicas de minería de datos crean
modelos que son predictivos o descriptivos. Los modelos predictivos pretenden estimar
valores futuros o desconocidos El proceso de descubrimiento de conocimiento en bases de
datos 67 de variables de interés, que se denominan variables objetivo, dependientes o
clases, usando otras variables denominadas independientes o predictivas, como por ejemplo
predecir para nuevos clientes si son buenos o malos basados en su estado civil, edad, género
y profesión, o determinar para nuevos estudiantes si desertan o no en función de su zona de
procedencia, facultad, estrato, género, edad y promedio de notas. Entre las tareas
predictivas están la clasificación y la regresión. Los modelos descriptivos identifican patrones
que explican o resumen los datos; sirven para explorar las propiedades de los datos
examinados, no para predecir nuevos datos, cómo identificar grupos de personas con gustos
similares o identificar patrones de compra de clientes en una determinada zona de la ciudad.
Entre las tareas descriptivas se cuentan las reglas de asociación, los patrones secuenciales,
los clustering y las correlaciones. Por lo tanto, la escogencia de un algoritmo de minería de
datos i
● En la etapa de interpretación/evaluación, se interpretan los patrones descubiertos y
posiblemente se retorna a las anteriores etapas para posteriores iteraciones. Esta etapa
puede incluir la visualización de los patrones extraídos, la remoción de los patrones
redundantes o irrelevantes y la traducción de los patrones útiles en términos que sean
entendibles para el usuario. Por otra parte, se consolida el conocimiento descubierto para
incorporarlo en otro sistema para posteriores acciones o, simplemente, para documentarlo y
reportarlo a las partes interesadas; también para verificar y resolver conflictos potenciales
con el conocimiento previamente descubierto.

Identificación del dominio y problemática a resolver del caso:

Chile se ha caracterizado por ser un país exitoso en la búsqueda de la reducción de la pobreza


durante las últimas décadas, reduciendo así este índice en un 38,6% en 1990 a un 13,7%, a pesar de
esto, la economía se vio muy afectada cuando ocurrió la pandemia a nivel mundial del Covid-19,
creando situaciones de decrecimiento y endeudamiento financiero en las empresas y el gobierno, con
externalidades negativas, aquellos métodos tradicionales de detección de la pobreza quedarían
obsoletos frente a este nuevo escenario, como la utilización de mapas de pobreza, si bien entregan
información espacial de la distribución de la pobreza en distintas zonas del país, no son lo
suficientemente representativos para hacer estudios correspondientes por lo tanto, se propone la
predicción, el uso de algoritmos, softwares de análisis de datos, para hallar patrones en los datos de
distintas viviendas en Chile, de nivel socioeconómico, demográficos y macroeconómicos para así
encontrar alternativas o estrategias para mejorar la situación post pandemia en chile junto con la
gestión en ella, realizar un estudio adecuado y lo más representativo posible para tomar mejores
decisiones que disminuyan la brecha de pobreza, con las que se puedan implementar para futuras
investigaciones.

Metodología de trabajo:
Por medio de los 6 pasos de KDD, Inicia con la recopilación de datos a través distintas páginas web
obteniendo las bases de datos de variables relevantes para este caso, como el PIB o los Niveles de
Pobreza, se Integrarán y se relacionarán aquellas que se afectan entre sí con el programa SQL
Server, luego se pasa a un proceso ETL usando el programa KNIME en donde se eliminarán aquellas
que son atípicas e irrelevantes, se limpian los datos y se preparan para el análisis.
Estos datos ya transformados y limpios se ingresan a KNIME, en un proceso llamado Minería de
Datos, aquí se utilizarán y se comparan dos algoritmos distintos, probando en cada uno la
efectividad y precisión respecto al resultado que entregan, seleccionando el mejor para este caso ,
los algoritmos a comparar son el de Linear Regresion y Decision Tree, también se utiliza la interfaz
Power BI para interpretar a detalle los hallazgos descubiertos.
Luego de obtener los resultados y hacer todos los análisis correspondientes tanto para KNIME y
Power BI, se buscan recomendaciones y conclusiones para apoyar la toma de decisiones de una
forma efectiva y viable, y se da la utilización o aplicación del conocimiento aprendido.

Criterios y segmentación de datos:


Nos basaremos en las bases de datos CASEN desde el año 2011 hasta el año 2020 y la información
obtenida de páginas del Gobierno de Chile, Statista y Banco Central, se analizará a nivel país las
diferentes curvas crecientes y decrecientes en cuanto a los niveles de pobreza.
Entre los criterios a utilizar se encuentran los diferentes grupos que abarcan a la población que
integra la situación de pobreza, empleo y desempleo, tasas de promedio del banco central, inflación,
ingresos y distribución de los mismos. Se determina hacer un cruce de las bases de datos de los años
previamente mencionados para así obtener datos más acotados y poder realizar un análisis más
concluyente.

Gráfico n°1: Incidencia de la Pobreza y de la Pobreza Extrema en la población

Descubrimiento de conocimiento previo que sea relevante:

Según la página del Banco Mundial, en las últimas décadas,la Economía de Chile se encuentra entre
las de más rápido crecimiento en Latinoamérica, siendo su PIB de 11,7% en el año 2021, entrega
información respecto al escenario post-pandemia en Chile, como la de una tasa de vacunación
mayor para la activación de la economía.
A nivel macroeconómico se tiene un aumento mayor del gastos y deudas públicas, elevada inflación
de 7,8 % interanual a febrero de 2022 y un mercado laboral que se recupera muy lentamente (Solo
el 60% de los empleos perdidos se ha recuperado en 2021).
Este escenario futuro nos ayuda a comprender de mejor manera como se involucran las variables
económicas, sociales y demográficas, las estrategias realizadas por el gobierno para lograr la
implementación de mejoras para generar mejores alcances y resultados posibles

Influencia del Escenario Pandemia 2020: En este periodo considerado la recesión más grande de
Chile desde la sufrida en la década del 1980, este evento desestabiliza directamente la economía por
los siguientes factores:

● El aislamiento social produjo una disminución general de la actividad económica,


disminuyendo la tasa de empleo del mercado laboral y los flujos de comercio, es decir el
intercambio de bienes y servicios que posee el país para el resto del mundo.
● Aumento de precio de las materias primas, demanda, la interrupción de los suministros.
● Aumento de incertidumbre del mercado para las empresas, afectando las decisiones de
inversión y consumo, las empresas y organismos del estado deterioran sus condiciones
financieras y financiamientos externos, existen quiebras.
Gráfico n°2: Inflación en Chile 1987-2027 Gráfico n°3: Tasa de Desempleo 1999-2020

Paso 2: Creación de un set de datos (dataset) objetivo:

Selección e integración de los datos objetivo proveniente de fuentes múltiples y


heterogéneas:

Se utilizaron diferentes bases de datos para obtener información, específicamente de las encuesta
CASEN, se determinó obtener información de las bases de datos que comprenden los siguientes
años en específico (2011-2020). Se logra apreciar una extensa y variada cantidad de información, de
tipo estadística, económica, detallada, pero generalmente desordenada, valores y porcentajes que
permiten sacar conclusiones y hacer proyecciones en tiempos determinados.

Para juntar todas las bases de datos recolectadas, se utiliza el software SQL Server, también se
enlazan aquellas que están relacionadas, la mayoría se encuentra expresada en función de los años
(2011-2020) siendo Inflación, Tasa de Interés Interbancario y PIB Per Cápita variables mensuales.

Los datos recolectados corresponden a:


1) Tasa de Desempleo
2) Tasa de Inflación
3) Niveles Educacionales
4) Niveles de Pobreza
5) Unidad de Fomento
6) Tasa de Interés Interbancario

Además dichas bases de datos contienen información que no serán tomadas en cuenta dado que no
están dentro de los criterios a evaluar, por lo que pasarán por un posterior proceso de limpieza.

Las bases de datos a utilizar son las siguientes:

● Encuestas Casen http://observatorio.ministeriodesarrollosocial.gob.cl/encuesta-casen


● Tasas de Interés, Colocación y Captación, UF, IVM, UTM, PIB
https://si3.bcentral.cl/Siete/ES/Siete/Cuadro/CAP_TASA_INTERES/
MN_TASA_INTERES_09/TSF_23/T51
https://si3.bcentral.cl/siete
● Tasa de Inflación
https://es.statista.com/estadisticas/1189953/tasa-de-inflacion-chile/
● Estadísticas Sociales y Económicas
https://www.ine.cl/estadisticas
● Educación
https://es.datachile.io/geo/chile#education

Integración de los datos:

Para juntar todas las bases de datos recolectadas, se utiliza el software SQL Server. Se adjunta en el
correo de entrega del trabajo un archivo .txt con las sentencias utilizadas para ingresar en el
software todas las bases de datos junto con las relaciones entre ellas.
El Software SQL Server entrega un diagrama de relaciones entre las distintas tablas que se muestran
a continuación:

Paso 3: Limpieza y Procesamiento de datos


En general los datos recopilados no presentan demasiadas inconsistencias, ya que la mayoría de
ellos ya estaban acotados y ordenados, tampoco existen duplicados, aun así, se eliminarán datos de
características que no aportan información significativa, y de los años que no corresponden a los de
la investigación, es decir que se escapan del rango definido anteriormente de 2011-2020, a
continuación en el ETL se detalla todo el procedimiento de Extraer, Transformar y Cargar de la base
de datos, en donde se muestra la eliminación, agrupación y modificaciones de ellos.

El ETL realizado en Knime se realizó de la siguiente manera:

1. Se eliminan columnas que no se utilizaran, como por ejemplo errores de estimación.


2. Se filtran los años que se utilizaran (2011, 2013, 2015, 2017, 2020), que son los años en que
se realiza la encuesta Casen.
3. Se agrupan los datos relacionados a la pobreza (se juntan los datos de pobreza extrema y
pobreza no extrema).
4. Se eliminan los datos de las personas asociadas al apartado “no sabe/no responde” de la
encuesta de nivel de educación.
5. Se agrupan los datos relacionados a la educación de la población en dos grupos, en el primer
grupo se encuentra:

● Sin educación formal


● Básica incompleta
● Básica completa.
● Media incompleta.

Y en el segundo grupo se encuentran:

● Media completa.
● Superior incompleto.
● Superior completa.

6. Debido a que la Inflación, Tasa de Interés Interbancario y PIB Per Cápita, se encuentran de
carácter mensual, se utiliza el nodo “Group By” para dejar en cada año el promedio en cada
variable.
7. Se utiliza el nodo “Joiner” para juntar cada una de las bases de datos por su atributo en
común “año”.
8. Se utiliza el nodo “Excel writer” para generar un reporte de salida.

Paso 4: Minería de Datos:


Luego de haber sido reordenados y agrupados los datos con la herramienta de datos de SQL Server,
se da inicio a la búsqueda de diferentes algoritmos que ayuden a lograr los objetivos propuestos del
KDD, que es la identificación de patrones y comportamientos de datos que aporten efectivamente
en la toma de decisiones de empresas o entidades gubernamentales destinadas a la lucha contra la
pobreza, por lo que se utilizará KNIME y posteriormente el sistema Power BI para obtener una
mejor visualización de las variables escogidas.
Se describe el proceso de este programa seleccionando para cada caso los dos algoritmos con los
que se va a trabajar, que son “Linear Correlation” y “Decision Tree”, se procesan los datos a través
de los nodos y se obtienen resultados con los que se podrá además elegir cuál de los dos algoritmos
es el más acertado y que interprete mejor la situación evaluada.

HAY QUE AGREGAR partición de datos previa a la aplicación de la regresión lineal para poder
evaluar resultado del scorer

Algoritmo Linear Correlation


Este Algoritmo como dice su nombre, consiste en un ajuste lineal calculado para cada par ordenado
de columnas en donde se obtiene un coeficiente de correlación para medir la influencia entre
variables distintas x e y

el coeficiente de correlación se clasifica de la siguiente manera:

ρ=Sxy/(Sx Sy )

si |ρ|≥0.96 la relación es perfecta.

si 0.96>|ρ|≥0.85 la relación es fuerte.

si 0.85>|ρ|≥0.70 la relación es significativa.

si 0.70>|ρ|≥0.50 la relación es moderada.

si 0.50>|ρ|≥0.20 la relación es débil.

si 0.20>|ρ|≥0.10 la relación es muy débil.


si 0.10>|ρ|≥0.00 la relación es nula.

es por esto que se aplicarán dos nodos para procesar la información obtenida

En primer lugar usaremos el nodo “Math Formula” para aplicar valor absoluto a la columna que
contiene el coeficiente de correlación, para luego aplicar “Row Filter” y así dejar solo las relaciones
fuertes. Dentro de las relaciones fuertes, existen 2 en las que se encuentra presente el porcentaje de
población pobre:

a)Población pobre/ Población no pobre: Esta categoría, por obvias razones no puede ser
considerada para estudio, ya que no aporta información útil para la toma de decisiones ya que la
población pobre es el complemento de la población no pobre obteniendo así un índice de
correlación aproximado de -1, que no aporta información relevante

b)Población pobre/ Población con educación media o superior completa: por otra parte esta
relación si puede ser objeto de estudio, ya que posee un índice de correlación aproximado de -0.86
dando como resultado una relación inversa fuerte, por lo que una buena acción a tomar para
disminuir los niveles de pobreza en la población sería poner énfasis en fomentar la educación como
factor social para el desarrollo económico.

Este algoritmo nos proporciona a la vez la información de que los otros factores económicos y
sociales como pueden ser el valor de la UF, la inflación, o la tasa de desempleo nos son factores que
se relacionen por si solos con la pobreza en el país.

Algoritmo Decision Tree:

El segundo algoritmo utilizado es el “Decision Tree” para predecir el comportamiento del nivel de
pobreza en base a otras variables (tasa de desempleo para el ejemplo particular mostrado en la
figura),utilizando las bases de datos del ministerio de desarrollo social y familia podemos utilizar
knime para entrenar el “decision tree” con el 70% de los datos usando el nodo “partitioning” para
luego compararlo con el 30% restante y evaluar el desempeño del algoritmo .

El Software Knime evalúa la eficiencia del algoritmo con un 66,667% para el caso de la estimación de
la pobreza a partir de la Tasa de Desempleo.

Es cierto que las bases de datos son recientes y que aún no cuentan con un gran volumen de datos,
pero esta puede ser una buena herramienta para poder establecer un método de predecir el
comportamiento de la pobreza a partir de diferentes variables.

Mejorar algunos detalles algoritmo 2

Si bien ambos algoritmos pueden aportarnos distinto tipo de información, es mucho más útil el
algoritmo de “Decision Tree” ya que puede ser aplicado a más variables, al contrario del “Linear
Correlation” que mostró ser representativo solo para una de todas las variables estudiadas.

Mejorar argumento de por qué elegimos ese que el otro (respaldo datos programa)

Análisis y Gráficos de Power BI:


En este gráfico podemos ver los factores negativos estudiados (inflación, desempleo, porcentaje de
población pobre, porcentaje de población que no ha completado la enseñanza media y la tasa de
interés interbancaria).
En la parte superior del gráfico se ve que en conjunto, el comportamiento de la suma de estos
factores es decreciente, pero en la parte inferior podemos ver que el comportamiento de las
variables por separado no son constantes, ya que en alguna ocasiones aumentan y en otras
disminuyen.
Se puede observar que los niveles de educación están estrechamente relacionados a la pobreza,
específicamente el no haber terminado la enseñanza media, esto probablemente se comporte como
un elemento que dificulte y segregue en gran manera a las personas al momento de buscar algún
trabajo, por las exigencias mínimas de tener un Certificado de Licenciatura de Enseñanza Media que
exigen en muchos trabajos del país, aparte el haber estudiado puede relacionarse directamente con
las habilidades de la gente para poder desenvolverse adecuadamente, mejorando las oportunidades
y evitando que caiga en una situación de pobreza
En este segundo gráfico se ve el comportamiento de los factores favorables (porcentaje de la
población objetivo que asiste a la educación media, porcentaje de la población pobre y porcentaje
de la población total que ha completado la educación media o superior).
Este gráfico es muy esperanzador ya que el comportamiento tanto individual como colectivo es
favorable ya que durante todos los años estudiados se ha evidenciado un cambio favorable.

Al analizar los dos gráficos en conjunto, se puede evidenciar que cada uno de los factores negativos
por separado, no son significativos para el estudio, sino que al tomar todos estos factores de manera
colectiva se puede encontrar un patrón de correlatividad.

Paso 5. Interpretación de los patrones minados


Análisis BI

Análisis KNIME
MOSTRAR VALORES COMPARATIVOS, GRADOS DE AFECTACIÓN, COMPOSICIÓN
DE LA PREDICCIÓN Y EL COMPORTAMIENTO

Paso 6. Utilización del conocimiento.


Explique cómo se podría usar para la toma de decisiones.

También podría gustarte