Está en la página 1de 17

UNIVERSIDAD DE LAS FUERZAS ARMADAS

ESPE
Maestra en Gestin de Sistemas de Informacin e
Inteligencia de Negocios

Mdulo: Internacional- Universidad Nacional de la Plata

Tema: Proyecto Integrador

Wladimir Lpez
Juan Mafla

Paralelo A

26 de septiembre de 2015

Tabla de contenidos
Enunciado ....................................................................................................................................3
Anlisis de datos...........................................................................................................................4
Estandarizacin columna sexo .....................................................................................................4
Completitud de datos. ..................................................................................................................5
Completar datos de la columna INGRESOS ..............................................................................6
Completar datos de la columna POB_URBANA. .......................................................................6
Completar datos de la columna CONDACT. ..............................................................................7
Completar datos de la columna BIAC01. ..................................................................................8
Completar datos de la columna AGL_URBANA. .......................................................................8
Anlisis de variables ...................................................................................................................11
Tcnicas utilizadas en base a los objetivos .................................................................................11

Enunciado
El Instituto Nacional de Estadstica y Censos llev a cabo la Encuesta Nacional sobre
Prevalencias de Consumo de Sustancias Psicoactivas (ENPreCoSP), mediante un convenio
suscripto conjuntamente con el Ministerio de Justicia, Seguridad y Derechos Humanos, a
travs del Comit Cientfico Asesor en Materia de Represin del Narcotrfico y Criminalidad
Compleja, y el Ministerio de Salud, con la participacin de las Direcciones de Estadstica en
cada una de las 24 jurisdicciones del pas (24 DE).
El objetivo general de esta Encuesta fue contribuir a actualizar el sistema de informacin sobre
el consumo de sustancias psicoactivas a nivel nacional y, de esa manera, al diseo de polticas
pblicas ms eficaces, orientadas a mejorar las condiciones de salud de la poblacin.
Con el fin de lograr dicho objetivo general, se requiere la realizacin de un reporte sobre los
siguientes objetivos especficos:
1) Se desea analizar en base a las encuestas realizadas, qu factores determinan que una
persona consuma o no marihuana. Para lograr dicho objetivo se han establecido las
siguientes necesidades:
a) Determinar el comportamiento que define el consumo (o no) de la droga
(marihuana), en base a las caractersticas socioeconmicas y demogrficas.
b) A partir del comportamiento definido en el punto anterior, determinar cul/es de
las caractersticas tiene un mayor nivel de incidencia en el consumo (o no) de la
droga.
2) Se desea establecer distintos grupos entre las personas adictas, que permitan identificar
sectores vulnerables, con el fin de fortalecer la ayuda a dichos sectores. Para ello, se
establecen las siguientes necesidades:
a) identificar y caracterizar grupos entre las personas adictas, para comprender con
mayor detalle indicadores que definan a dichas personas.
b) Identificar los factores predominantes en cada grupo identificado.
3) Dada la magnitud de casos identificados en la provincia de Buenos Aires, se desea realizar
un anlisis detallado en dicha regin. Se establecen las siguientes necesidades:
a) identificar y caracterizar grupos entre las personas adictas de dicha regin, para
comprender con mayor detalle indicadores que definan a dichas personas.
b) Identificar los factores predominantes en cada grupo identificado.
Con el fin de lograr dichos objetivos especficos se adjunta la descripcin de los datos de la
encuesta y la base de datos correspondiente.
Archivos:
-

Data Mining 2015 - Trabajo Integrador.pdf


encuesta.xls

Anlisis de datos
Haciendo un breve profiling de datos con la ayuda de RapidMiner, se puede identificar que en
la mayora de columnas existen datos incompletos y en la columna SEXO, los datos no tienen
un formato definido; ya que se tiene los siguientes valores: Mujer, Masculino, F, Varn,
Femenino; para resolver este problema se aplicar tcnicas de unificacin de datos. La siguiente
imagen muestra los problemas de completitud de datos que tiene la base de datos a ser
analizada.

Estandarizacin columna sexo


Para que la columna sexo tengo nicamente dos valores, se procede cambiar los valores F por
Femenino y M por Masculino, tal como muestra la siguiente imagen.

De esta forma se logra depurar la columna SEXO para los datos tengan un formato nico
(Femenino y Masculino)

Completitud de datos.
La siguiente imagen muestra el profiling de la base de datos e indica que las columnas:
AGL_URB, BIAC01, CONDACT, POB_URB e INGRESOS, tienen miles de datos sin completar, lo
cual puede generar inconvenientes a la hora de realizar el anlisis y arrojar resultados poco
confiables e imprecisos.

Para corregir los valores incompletos, se evita hacer uso del componente Replace Missing
Values de RapidMiner, ya que al utilizar este elemento nos vemos obligados a reemplazar los
valores faltantes por un valor promedio, lo cual afecta considerablemente al resto de
columnas y los resultados obtenidos seguramente serian errneos. Para reemplazar los datos
faltantes correctamente, se hace uso de arboles de decisin y de tcnicas de discretizacin
dependiendo del tipo de dato que tenga la columna con datos faltantes.

Completar datos de la columna INGRESOS


Para completar estos datos, se hace procede a discretizar los datos, en tres grupos de valores:
BAJO, MEDIO, ALTO; tal como se muestra en la siguiente figura.

Luego se hace uso del operador W-J48 para predecir los valores faltantes y de esta forma
lograr completarlos en base al resto de columnas. La siguiente figura, muestra el proceso
completo para completar los datos.

Completar datos de la columna POB_URBANA.


Para completar estos datos, se procede a discretizar los datos haciendo uso del operador
Map y lograr obtener cuatro grupos de valores: BAJA POBLACION, MEDIA POBLACION, ALTA
POBLACION y SUPERPOBLACION; tal como se muestra en la siguiente figura.

Luego se hace uso del operador W-J48 para predecir los valores faltantes y de esta forma
lograr completarlos en base al resto de columnas. La siguiente figura, muestra el proceso
completo para completar los datos.

Completar datos de la columna CONDACT.


Para completar estos datos, nicamente se hace uso del operador W-J48 ya que los datos
estn discretizados en los siguientes grupos: OCUPADO, DESOCUPADO, INACTIVO; tal como se
muestra en la siguiente figura.

La siguiente figura, muestra el proceso completo para completar los datos haciendo uso del
operador W-J48

Completar datos de la columna BIAC01.


Para completar estos datos, nicamente se hace uso del operador W-J48 ya que los datos
estn discretizados en los siguientes grupos: SI, NO; tal como se muestra en la siguiente figura.

La siguiente figura, muestra el proceso completo para completar los datos haciendo uso del
operador W-J48

Completar datos de la columna AGL_URBANA.


Para completar estos datos, nicamente se hace uso del operador W-J48 ya que los datos
estn discretizados en los siguientes grupos: RESTO DE AGLOMERADOS, GRAN BUENOS AIRES;
tal como se muestra en la siguiente figura.

La siguiente figura, muestra el proceso completo para completar los datos haciendo uso del
operador W-J48

Finalmente se procede a renombrar las columnas de la encuesta con el fin de facilitar las
tareas de anlisis:

La siguiente imagen muestra el proceso completa para obtener la base de datos depurara
almacenada en el archivo de Excel: encuestaDepurda.xls

Anlisis de variables
Para poder elaborar el informe final en base a los objetivos planteados, se ha elaborado la
siguiente clasificacin de variables:
1. Demogrficas
a. Agrupamiento_Urbano (ordinal)
b. Aglomerado_Urbano (ordinal)
c. Genero (nominal)
d. Edad (numrico)
e. Situacion_Conyugal (nominal)
f. Nivel_Instruccion (nominal)
g. Personas_Cercanas_Consumidoras (nominal)
2. Geogrficas
a. Region_Estadistica (nominal)
b. Jurisdiccion_Pais (nominal)
3. Econmicas
a. Ingresos_mensuales (numrico)
4. Socioeconmicas
a. Condicion_Laboral (nominal)

Tcnicas utilizadas en base a los objetivos


Para responder a las preguntas planteadas en los objetivos, se hace uso de la base de datos
depurada, la cual se la consigue exportando los datos desde RapidMiner, tal como se muestra
en la siguiente imagen.

La base de datos depurada, se encuentra en el archivo encuestaDepurda.xls y a partir de la


misma se realiza el anlisis detallado en los objetivos del problema.
A continuacin se detalla las tcnicas utilizadas para el cumplimiento de los objetivos que se
necesita en el reporte.
1) Se desea analizar en base a las encuestas realizadas, qu factores determinan que una
persona consuma o no marihuana. Para lograr dicho objetivo se han establecido las
siguientes necesidades:
a) Determinar el comportamiento que define el consumo (o no) de la droga
(marihuana), en base a las caractersticas socioeconmicas y demogrficas.

Para realizar este anlisis se seleccionaron las siguientes caractersticas socioeconmicas y


demogrficas:

Socioeconmicas
Condicin Laboral

Demogrficas
Aglomerado_Urbano
Agrupamiento_Urbano
Condicion_Laboral
Consumo_Marihuana
Edad
Genero
Nivel_Instruccion
Personas_Cercanas_Consumidoras
Situacion_Conyugal

Con este conjunto de variables y se hice pruebas con un rbol ID3 y un rbol J48 para definir el
perfil de las personas que consumen marihuana, tal como se muestra en la siguiente figura.

Entre los dos algoritmos, se decidi elegir los resultados del rbol J48, debido al porcentaje de
certeza entre las dos matrices de confusin tal como se muestra en la siguiente tabla:
ID3

J48

Los resultados obtenidos y que definen el perfil de los consumidores son:


Perfiles obtenidos
- Personas que tengas conocidos consumidoras
- Con edad menor a 24 aos
- Gnero masculino
- Nivel de instruccin: Primario completo
- Casado, separado, viudo, soltero o divorciado
-

Personas que tengas conocidos consumidoras


Con edad menor a 24 aos
Gnero masculino
Nivel de instruccin: Terciario o universitario completo y mas
Que vivan en un agrupamiento urbano: con media, baja o alta poblacin

Personas que tengas conocidos consumidoras


Con edad menor a 24 aos
Gnero masculino
Nivel de instruccin: Primario incompleto
Que vivan en un agrupamiento urbano: con media poblacin
Solteros
Edad menor o igual a 20 aos

Personas que tengas conocidos consumidoras


Con edad menor a 24 aos
Gnero masculino
Nivel de instruccin: Primario incompleto
Que vivan en un agrupamiento urbano: con baja poblacin

Personas que tengas conocidos consumidoras


Con edad mayor a 24 aos

b) A partir del comportamiento definido en el punto anterior, determinar cul/es de


las caractersticas tiene un mayor nivel de incidencia en el consumo (o no) de la
droga.
En base a los resultados obtenidos del rbol, se puede determinar que las
caractersticas que tienen mayor nivel de incidencia sobre el consumo de
marihuana son:
Edad
Nivel de instruccin
Agrupamiento urbano
Estado civil

2) Se desea establecer distintos grupos entre las personas adictas, que permitan identificar
sectores vulnerables, con el fin de fortalecer la ayuda a dichos sectores. Para ello, se
establecen las siguientes necesidades:
a) identificar y caracterizar grupos entre las personas adictas, para comprender con
mayor detalle indicadores que definan a dichas personas.
b) Identificar los factores predominantes en cada grupo identificado.

Para realizar este anlisis se seleccionaron las siguientes caractersticas econmicas y


demogrficas:

Econmicas
Ingresos mensuales

Demogrficas
Aglomerado_Urbano
Agrupamiento_Urbano
Condicion_Laboral

Con este conjunto de variables se procede a crear tres agrupaciones, para obtener las
caractersticas de las personas consumidoras, tal como se muestra en la siguiente imagen:

La siguiente imagen muestra la tabla de centroides, la cual define las caractersticas de las
personas consumidoras

En base a la tabla anterior se obtienen las siguientes caractersticas para las personas que
consumen marihuana:

Cluster 1

Cluster 2

Perfiles obtenidos
- Personas que viven en el aglomerado urbano de
GRAN BUENOS AIRES
- Con un agrupamiento urbano de SUPER POBLACION
- Ingresos mensuales MEDIOS
-

Cluster 3

Personas que viven en el RESTO de aglomerados


urbanos
Con un agrupamiento urbano de BAJA POBLACION
Ingresos mensuales BAJOS
Personas que viven en el RESTO de aglomerados
urbanos
Con un agrupamiento urbano de MEDIA POBLACION
Ingresos mensuales MEDIOS

3) Dada la magnitud de casos identificados en la provincia de Buenos Aires, se desea realizar


un anlisis detallado en dicha regin. Se establecen las siguientes necesidades:
a) identificar y caracterizar grupos entre las personas adictas de dicha regin, para
comprender con mayor detalle indicadores que definan a dichas personas.
b) Identificar los factores predominantes en cada grupo identificado.

Para resolver este problema, se filtra la informacin para obtener los datos levantados en la
ciudad de Buenos Aires, y se divide la informacin en cinco clsteres, tal como se muestra en
la siguiente imagen:

La distribucin de los clsteres en la siguiente:

Las caractersticas obtenidas de los consumidores en la ciudad de Buenos Aires son las
siguientes:

Cluster 1

Perfiles obtenidos
- Edad 47 aos
- Cercanos consumidores: Si
- Condicin Laboral: Ocupado
- Consume Cigarrillos: Si
- Ingresos Mensuales: Medio o alto
- Genero: Indistinto
- Situacin conyugal: casado, unido, soltero,
divorciado
- Nivel de instruccin: Universitario Completo,
Universitario
Incompleto,
Secundario

Completo, , Secundario Incompleto


Cluster 2

Edad 30 aos
Cercanos consumidores: Si
Condicin Laboral: Ocupado
Consume Cigarrillos: Si
Ingresos Mensuales: Medio
Genero: Indistinto
Situacin conyugal: unido, soltero
Nivel de instruccin: Universitario Completo,
Universitario
Incompleto,
Secundario
Incompleto

Cluster 3

Edad 39 aos
Cercanos consumidores: Si
Condicin Laboral: Ocupado
Consume Cigarrillos: Si
Ingresos Mensuales: Medio, Alto
Genero: Indistinto
Situacin conyugal: unido, casado, soltero
Nivel de instruccin: Universitario Completo,
Universitario
Incompleto,
Secundario
Completo, Secundario Incompleto

Cluster 4

Edad 20 aos
Cercanos consumidores: Si
Condicin Laboral: Ocupado, Inactivo
Consume Cigarrillos: Indistinto
Ingresos Mensuales: bajo, Alto
Genero: Indistinto
Situacin conyugal: unido, casado, soltero
Nivel de instruccin: Universitario Completo,
Secundario Completo

Cluster 5

Edad 60 aos
Cercanos consumidores: Si
Condicin Laboral: Ocupado
Consume Cigarrillos: si
Ingresos Mensuales: medio, alto
Genero: Indistinto
Situacin conyugal: casado, divorciado,
viudo, soltero
Nivel de instruccin: Universitario Completo,
Secundario Completo

También podría gustarte