Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ESPE
Maestra en Gestin de Sistemas de Informacin e
Inteligencia de Negocios
Wladimir Lpez
Juan Mafla
Paralelo A
26 de septiembre de 2015
Tabla de contenidos
Enunciado ....................................................................................................................................3
Anlisis de datos...........................................................................................................................4
Estandarizacin columna sexo .....................................................................................................4
Completitud de datos. ..................................................................................................................5
Completar datos de la columna INGRESOS ..............................................................................6
Completar datos de la columna POB_URBANA. .......................................................................6
Completar datos de la columna CONDACT. ..............................................................................7
Completar datos de la columna BIAC01. ..................................................................................8
Completar datos de la columna AGL_URBANA. .......................................................................8
Anlisis de variables ...................................................................................................................11
Tcnicas utilizadas en base a los objetivos .................................................................................11
Enunciado
El Instituto Nacional de Estadstica y Censos llev a cabo la Encuesta Nacional sobre
Prevalencias de Consumo de Sustancias Psicoactivas (ENPreCoSP), mediante un convenio
suscripto conjuntamente con el Ministerio de Justicia, Seguridad y Derechos Humanos, a
travs del Comit Cientfico Asesor en Materia de Represin del Narcotrfico y Criminalidad
Compleja, y el Ministerio de Salud, con la participacin de las Direcciones de Estadstica en
cada una de las 24 jurisdicciones del pas (24 DE).
El objetivo general de esta Encuesta fue contribuir a actualizar el sistema de informacin sobre
el consumo de sustancias psicoactivas a nivel nacional y, de esa manera, al diseo de polticas
pblicas ms eficaces, orientadas a mejorar las condiciones de salud de la poblacin.
Con el fin de lograr dicho objetivo general, se requiere la realizacin de un reporte sobre los
siguientes objetivos especficos:
1) Se desea analizar en base a las encuestas realizadas, qu factores determinan que una
persona consuma o no marihuana. Para lograr dicho objetivo se han establecido las
siguientes necesidades:
a) Determinar el comportamiento que define el consumo (o no) de la droga
(marihuana), en base a las caractersticas socioeconmicas y demogrficas.
b) A partir del comportamiento definido en el punto anterior, determinar cul/es de
las caractersticas tiene un mayor nivel de incidencia en el consumo (o no) de la
droga.
2) Se desea establecer distintos grupos entre las personas adictas, que permitan identificar
sectores vulnerables, con el fin de fortalecer la ayuda a dichos sectores. Para ello, se
establecen las siguientes necesidades:
a) identificar y caracterizar grupos entre las personas adictas, para comprender con
mayor detalle indicadores que definan a dichas personas.
b) Identificar los factores predominantes en cada grupo identificado.
3) Dada la magnitud de casos identificados en la provincia de Buenos Aires, se desea realizar
un anlisis detallado en dicha regin. Se establecen las siguientes necesidades:
a) identificar y caracterizar grupos entre las personas adictas de dicha regin, para
comprender con mayor detalle indicadores que definan a dichas personas.
b) Identificar los factores predominantes en cada grupo identificado.
Con el fin de lograr dichos objetivos especficos se adjunta la descripcin de los datos de la
encuesta y la base de datos correspondiente.
Archivos:
-
Anlisis de datos
Haciendo un breve profiling de datos con la ayuda de RapidMiner, se puede identificar que en
la mayora de columnas existen datos incompletos y en la columna SEXO, los datos no tienen
un formato definido; ya que se tiene los siguientes valores: Mujer, Masculino, F, Varn,
Femenino; para resolver este problema se aplicar tcnicas de unificacin de datos. La siguiente
imagen muestra los problemas de completitud de datos que tiene la base de datos a ser
analizada.
De esta forma se logra depurar la columna SEXO para los datos tengan un formato nico
(Femenino y Masculino)
Completitud de datos.
La siguiente imagen muestra el profiling de la base de datos e indica que las columnas:
AGL_URB, BIAC01, CONDACT, POB_URB e INGRESOS, tienen miles de datos sin completar, lo
cual puede generar inconvenientes a la hora de realizar el anlisis y arrojar resultados poco
confiables e imprecisos.
Para corregir los valores incompletos, se evita hacer uso del componente Replace Missing
Values de RapidMiner, ya que al utilizar este elemento nos vemos obligados a reemplazar los
valores faltantes por un valor promedio, lo cual afecta considerablemente al resto de
columnas y los resultados obtenidos seguramente serian errneos. Para reemplazar los datos
faltantes correctamente, se hace uso de arboles de decisin y de tcnicas de discretizacin
dependiendo del tipo de dato que tenga la columna con datos faltantes.
Luego se hace uso del operador W-J48 para predecir los valores faltantes y de esta forma
lograr completarlos en base al resto de columnas. La siguiente figura, muestra el proceso
completo para completar los datos.
Luego se hace uso del operador W-J48 para predecir los valores faltantes y de esta forma
lograr completarlos en base al resto de columnas. La siguiente figura, muestra el proceso
completo para completar los datos.
La siguiente figura, muestra el proceso completo para completar los datos haciendo uso del
operador W-J48
La siguiente figura, muestra el proceso completo para completar los datos haciendo uso del
operador W-J48
La siguiente figura, muestra el proceso completo para completar los datos haciendo uso del
operador W-J48
Finalmente se procede a renombrar las columnas de la encuesta con el fin de facilitar las
tareas de anlisis:
La siguiente imagen muestra el proceso completa para obtener la base de datos depurara
almacenada en el archivo de Excel: encuestaDepurda.xls
Anlisis de variables
Para poder elaborar el informe final en base a los objetivos planteados, se ha elaborado la
siguiente clasificacin de variables:
1. Demogrficas
a. Agrupamiento_Urbano (ordinal)
b. Aglomerado_Urbano (ordinal)
c. Genero (nominal)
d. Edad (numrico)
e. Situacion_Conyugal (nominal)
f. Nivel_Instruccion (nominal)
g. Personas_Cercanas_Consumidoras (nominal)
2. Geogrficas
a. Region_Estadistica (nominal)
b. Jurisdiccion_Pais (nominal)
3. Econmicas
a. Ingresos_mensuales (numrico)
4. Socioeconmicas
a. Condicion_Laboral (nominal)
Socioeconmicas
Condicin Laboral
Demogrficas
Aglomerado_Urbano
Agrupamiento_Urbano
Condicion_Laboral
Consumo_Marihuana
Edad
Genero
Nivel_Instruccion
Personas_Cercanas_Consumidoras
Situacion_Conyugal
Con este conjunto de variables y se hice pruebas con un rbol ID3 y un rbol J48 para definir el
perfil de las personas que consumen marihuana, tal como se muestra en la siguiente figura.
Entre los dos algoritmos, se decidi elegir los resultados del rbol J48, debido al porcentaje de
certeza entre las dos matrices de confusin tal como se muestra en la siguiente tabla:
ID3
J48
2) Se desea establecer distintos grupos entre las personas adictas, que permitan identificar
sectores vulnerables, con el fin de fortalecer la ayuda a dichos sectores. Para ello, se
establecen las siguientes necesidades:
a) identificar y caracterizar grupos entre las personas adictas, para comprender con
mayor detalle indicadores que definan a dichas personas.
b) Identificar los factores predominantes en cada grupo identificado.
Econmicas
Ingresos mensuales
Demogrficas
Aglomerado_Urbano
Agrupamiento_Urbano
Condicion_Laboral
Con este conjunto de variables se procede a crear tres agrupaciones, para obtener las
caractersticas de las personas consumidoras, tal como se muestra en la siguiente imagen:
La siguiente imagen muestra la tabla de centroides, la cual define las caractersticas de las
personas consumidoras
En base a la tabla anterior se obtienen las siguientes caractersticas para las personas que
consumen marihuana:
Cluster 1
Cluster 2
Perfiles obtenidos
- Personas que viven en el aglomerado urbano de
GRAN BUENOS AIRES
- Con un agrupamiento urbano de SUPER POBLACION
- Ingresos mensuales MEDIOS
-
Cluster 3
Para resolver este problema, se filtra la informacin para obtener los datos levantados en la
ciudad de Buenos Aires, y se divide la informacin en cinco clsteres, tal como se muestra en
la siguiente imagen:
Las caractersticas obtenidas de los consumidores en la ciudad de Buenos Aires son las
siguientes:
Cluster 1
Perfiles obtenidos
- Edad 47 aos
- Cercanos consumidores: Si
- Condicin Laboral: Ocupado
- Consume Cigarrillos: Si
- Ingresos Mensuales: Medio o alto
- Genero: Indistinto
- Situacin conyugal: casado, unido, soltero,
divorciado
- Nivel de instruccin: Universitario Completo,
Universitario
Incompleto,
Secundario
Edad 30 aos
Cercanos consumidores: Si
Condicin Laboral: Ocupado
Consume Cigarrillos: Si
Ingresos Mensuales: Medio
Genero: Indistinto
Situacin conyugal: unido, soltero
Nivel de instruccin: Universitario Completo,
Universitario
Incompleto,
Secundario
Incompleto
Cluster 3
Edad 39 aos
Cercanos consumidores: Si
Condicin Laboral: Ocupado
Consume Cigarrillos: Si
Ingresos Mensuales: Medio, Alto
Genero: Indistinto
Situacin conyugal: unido, casado, soltero
Nivel de instruccin: Universitario Completo,
Universitario
Incompleto,
Secundario
Completo, Secundario Incompleto
Cluster 4
Edad 20 aos
Cercanos consumidores: Si
Condicin Laboral: Ocupado, Inactivo
Consume Cigarrillos: Indistinto
Ingresos Mensuales: bajo, Alto
Genero: Indistinto
Situacin conyugal: unido, casado, soltero
Nivel de instruccin: Universitario Completo,
Secundario Completo
Cluster 5
Edad 60 aos
Cercanos consumidores: Si
Condicin Laboral: Ocupado
Consume Cigarrillos: si
Ingresos Mensuales: medio, alto
Genero: Indistinto
Situacin conyugal: casado, divorciado,
viudo, soltero
Nivel de instruccin: Universitario Completo,
Secundario Completo