Está en la página 1de 110

.

UNIVERSIDAD MAYOR DE SAN ANDRÉS


FACULTAD DE CIENCIAS PURAS Y NATURALES
CARRERA DE INFORMÁTICA

“PROYECTO DE GRADO”
TEMA:

“MINERIA DE DATOS EN EL SISTEMA DE INFORMACIÓN

EDUCATIVA CASO: EDUCACIÓN FORMAL”

POSTULANTE: GLIZETH ROJAS FERNÁNDEZ

DOCENTE TUTOR: Msc. MARIO LOAYZA MOLINA

DOCENTE REVISOR: Lic. MENFY MORALES RIOS

La Paz - Bolivia

1
.

AGRADECIMIENTOS
A Dios por guiar mi camino para alcanzar esta etapa de mi vida.

Al Dr. Ing. Ramiro Aguilar Quispe, por su gran apoyo en el desarrollo del proyecto, por sus
contribuciones y su generosa disposición para realizar las correcciones que han permitido
concluir el presente proyecto.

A la Lic. Menfy Morales Ríos, por su disponibilidad en el proceso de revisión del proyecto, por
sus sugerencias y su valiosas recomendaciones.

Al Lic. Mario Loayza Molina, por la confianza depositada y por haberme guiado en el
desarrollo del proyecto.

Al Ministerio de Educación y Culturas por brindarme la información necesaria y al personal


por la colaboración brindada.

A la Lic. Wendy Sotomayor Segales, por sus sugerencias, sus recomendaciones y el incentivo
para la realización de este proyecto.

A todos los docentes de la carrera por haberme transmitido sus enseñanzas y paciencia a lo largo
de la carrera.

A mis padres por su gran apoyo, su constante aliento y la confianza depositada .

A mis amigos por su gran cariño y amistad en especial a mis amigos: Aleida, Mirian, Zulma,
Yolanda, Verónica, Grober, Jheny, Karen, María, Waldir.

2
.

RESUMEN

En el presente proyecto se describe la aplicación de Minería de datos sobre los datos de


Educación Formal del Sistema de Información Educativa (SIE) del Ministerio de Educación
y Culturas para descubrir patrones de comportamiento acerca del sector educativo, para tal
efecto se lleva a cabo el proceso de descubrimiento de conocimiento en bases de datos (de
las palabras en inglés Knowledge Discovery in Databases - KDD)

Las etapas del proceso incluyen la selección, el preprocesamiento, la transformación, la


minería de datos y la interpretación de resultados. En la fase de selección se extraen los
atributos de las tablas más relevantes relacionados con la matriculación del SIE para
unificar en una sola tabla denominada data set, en la etapa de preprocesamiento se utilizan
métodos estadísticos y descriptivos para conocer mejor los datos seleccionados y en la etapa
de transformación se modifica la forma de los datos.

En la etapa de minería de datos se utiliza la herramienta Weka para aplicar Clustering con
el objeto de agrupar los datos para detectar similitudes entre las unidades educativas y
también se aplican Árboles de Decisión para tratar de conocer los atributos relevantes en el
clustering.

Se desarrolla una herramienta de minería de datos que incluye la visualización de datos de


forma multidimensional que constituye una herramienta visual de análisis exploratorio y
el algoritmo k-means de Clustering.

Palabras Clave: Minería de Datos, Sistema de Información Educativa, Visualización


multidimensional, Weka, Clustering, Árboles de Decisión.

3
.

INDICE GENERAL

Dedicatoria
Agradecimientos
Resumen

CAPITULO I

1.1 Introducción ........................................................................................................... 1


1.2 Antecedentes ........................................................................................................... 2
1.3 Planteamiento del problema..................................................................................... 3
1.4 Objetivos.................................................................................................................. 4
1.4.1 Objetivo general.................................................................................................... 4
1.4.2 Objetivos específicos..................................................................... ...................... 4
1.5 Límites y Alcances.................................................................................................. 5
1.6 Justificación ............................................................................................................ 5
1.6.1 Justificación Técnica.................................. ............................................ 5
1.6.2 Justificación Social ................................................................................. 5
1.7 Aspectos Metodológicos.......................................................................................... 6

CAPITULO II MARCO TEÓRICO

2.1 Aprendizaje Automático........................................................................................... 8


2.2 Minería de Datos....................................................................................................... 9
2.3 Proceso de Extracción de Conocimiento................................................................... 9
2.3.1 Preparación de Datos.................................................................................. 12
2.3.1.1 Fase de Selección......................................................................... 12
2.3.1.2 Fase de Preprocesamiento............................................................ 13
2.3.2 Transformación .......................................................................................... 14
2.3.3 Exploración de Datos. .............................................................................. 16

4
.
2.3.3.1 Exploración mediante visualización........................................... 17
2.4 Técnicas de Minería de Datos................................................................................. 18
2.5 Agrupamiento (Clustering)..................................................................................... 19
2.5.1 Algoritmo k-means................................................................................... 20
2.5.1.1 Medida de distancias ................................................................ 22
2.6 Árboles de decisión............................................................................................... 23
2.6.1 Algoritmo ID3.......................................................................................... 24
2.6.2 Algoritmo C4.5......................................................................................... 25
2.7 La Educación Formal en Bolivia........................................................................... 27
2.7.1 Sistema de Información Educativa (SIE)................................................ 28
2.7.2 Distritos Educativos................................................................................. 29
2.7.3 Población Escolar ................................................................................... 29
2.7.4 Indicadores.............................................................................................. 31
2.7.4.1 Tasa de Culminación por Niveles............................................ 31
2.7.4.2 Tasa de Aprobación por Niveles............................................. 32
2.7.4.3 Tasa de Abandono por Niveles............................................... 33
2.7.4.4 Rezago Escolar........................................................................ 33
2.8 Herramientas de Minería de Datos........................................................................ 34
2.8.1 WEKA..................................................................................................... 34
2.8.1.1 Formatos de entrada.................................................................. 35
2.8.1.2 Tareas........................................................................................ 36
2.8.1.3 Formas de acceso...................................................................... 37
2.9 Conclusiones del capítulo....................................................................................... 38

CAPITULO III DESARROLLO

3.1 Análisis de la Fuente de datos del Sistema de Información Educativa............. 39


3.2 Preparación de datos.......................................................................................... 43
3.2.1 Fase de Selección......................................................................... 43
3.2.1.1 Consolidación de la Información en un data set.......... 47
3.2.2 Fase de Preprocesamiento....................................................... 50
3.2.2.1 Tratamiento de valores faltantes.............................. 56

5
.
3.2.2.2 Tratamiento de valores erróneos.............................. 56
3.3 Proceso de Transformación ................................................................................ 57
3.4 Minería de Datos.................................................................................................. 60
3.4.1 Análisis mediante la herramienta de Minería de Datos WEKA.................. 61
3.4.1.1 Aplicación de Clustering......................................................... 66
3.4.1.2 Análisis de distancias para determinar el número de clusters.... 65
3.4.1.3 Análisis de los grupos............................................................ 67
3.4.1.2 Aplicación de árboles de decisión........................................................ 73
3.5 Implementación de la herramienta de minería de datos........................................... 76
3.5.1 Visualización Multidimensional............................................................. 79
3.5.2 Algoritmo k-means.............................................................................. 83
3.5.3 Criterios de calidad de la herramienta........................................................ 86
3.5.4 Análisis de los grupos obtenidos por la herramienta. ............................... 86
3.6 Conclusiones del capítulo............................................................................................. 87

CAPITULO IV ANÁLISIS DE RESULTADOS

4.1 Análisis de la Fuente de datos del Sistema de Información Educativa................... 87


4.2 Realización del proceso de forma iterativa para reforzar y complementar los ......90
resultados
3.6 Conclusiones del capítulo.............................................................................................100

CAPITULO V CONCLUSIONES Y RECOMENDACIONES

5.1 Conclusiones.................................................................................................................101
5.2 Recomendaciones ........................................................................................................102
REFERENCIAS
ANEXOS

6
.
CAPÍTULO I

1.1 INTRODUCCIÓN
La educación en Bolivia es uno de los pilares fundamentales para el desarrollo de nuestro
País, es por ello que uno de los objetivos que persigue el Ministerio de Educación y
Culturas es brindar una educación con calidad y pertinencia para todos mediante políticas
educativas.

Para diseñar políticas educativas es necesario conocer la situación educativa. Una manera
de conocer la situación educativa es analizar minuciosamente los datos estadísticos que nos
servirán para encontrar indicadores educativos, índices, frecuencias y otros componentes
del estado situacional de la educación.

Para proveer información para la gestión educativa, se ha desarrollado el Sistema de


Información Educativa (SIE) que integra sistemas informáticos con instrumentos de
recopilación, procesamiento y difusión de datos educativos. Para el proceso de recopilación,
las Unidades Educativas llenan sus datos en formularios y reportan a sus Direcciones
Distritales que a su vez, transcriben y validan estos datos, para luego remitirlos al Servicio
Departamental de Educación (SEDUCA) que realiza el control de calidad, posteriormente
el Ministerio de Educación consolida los datos en el SIE de todos los departamentos a nivel
nacional para proporcionar información confiable y oportuna para brindar los insumos y
realizar el seguimiento a la ejecución de las políticas educativas. Para todo este proceso se
utilizan sistemas informáticos como el Sistema de Información Estadística (SIESTA),

7
.
Registro de Unidades Educativas (RUE), Registro Único de Estudiantes (RUDE), Sistema de
Infraestructura Educativa (INFRAEDU); todas ellas conforman el SIE.

El SIE comenzó su operación en 1998 y hasta el momento cuenta con una inmensa
cantidad de información que debería ser aprovechada en la toma de decisiones. En los
últimos años ha surgido una serie de técnicas que facilitan el procesamiento avanzado de los
datos y permiten realizar un análisis en profundidad de forma semiautomática , una de ellas
es la Minería de Datos para extraer conocimiento útil y comprensible en grandes cantidades
de datos.

En este sentido aplicar técnicas de Minería de datos en el SIE resulta un gran avance para
la toma de decisiones y coadyuvará a la formulación de nuevos programas en el área
educativa.

1.2 ANTECEDENTES
Las necesidades organizacionales en cuanto a requerimientos de información esta creciendo, por
lo que surge el concepto de información estratégica que corresponde a la información con una
visión global.

El aumento del volumen y variedad de información que se encuentra informatizada en bases de


datos ha crecido espectacularmente en las últimas décadas, gran parte de esta información es
histórica. Sin embargo, contrariamente a lo que pudiera esperarse, esta explosión de datos no
supone un aumento de nuestro conocimiento, puesto que resulta difícil procesarlos con los
métodos clásicos.

Para superar este problema, en los últimos años ha surgido una serie de técnicas que facilitan
el procesamiento avanzado de los datos y permiten realizar un análisis en profundidad de los
mismos de forma automática. La Minería de Datos se define como el proceso no trivial de
extraer conocimiento de forma automática o semiautomática desde grandes cantidades de
datos[Witten].

8
.
En el Ministerio de Educación y Culturas la primera publicación sobre indicadores
educativos se desarrolló en la gestión 2004 con el libro titulado “La Educación en
Bolivia, indicadores, cifras y resultados” desarrollado por la Dirección de Análisis de la
Dirección General de Estrategia Educativa. Esta publicación contiene información y datos
estadísticos sobre la población en edad escolar, analfabetismo, características
demográficas, económicas y sociales, educación superior y alternativa. Actualmente está
publicada en la página web del Ministerio de Educación , en la sección de estadísticas
educativas. A partir de esta publicación se han realizado varios informes e indicadores
estadísticos de cada gestión.

Otro de los reportes de la situación educativa es el Generador de Reportes a través


de cubos dinámicos mediante un programa Informático, con el que el usuario puede
realizar un análisis Multidimensional eligiendo y combinando las variables de interés.

Los informes Estadísticos y los Cubos dinámicos están publicados en la página del Ministerio
de Educación para que la población pueda adquirir información sobre la situación educativa.

1. 3 PLANTEAMIENTO DEL PROBLEMA


Actualmente el SIE cuenta con información de los nueve departamentos desde las
gestiones 1999 hasta el 2007, el tamaño de esta base de datos esta creciendo enormemente,
por ejemplo en el departamento de La Paz se han registrado 4028, 4053, 4079,
4078, 4137, 4168 y 4159 Unidades Educativas tanto del área rural como urbana,
durante las gestiones 2000, 2001, 2002, 2003, 2004, 2005 y 2006 respectivamente. Se
puede observar que se va incrementando las Unidades Educativas, este comportamiento
también se da en el resto de los departamentos por tanto la cantidad de registros
almacenados resulta ser demasiado grande. El análisis de esta enorme cantidad de
datos resulta dificultoso y supera el alcance de la estadística.

Este problema limita el conocimiento de los datos y puede generar incongruencias en la


toma adecuada de decisiones, en las proyecciones y en las nuevas políticas que se
requieren para mejorar el sector educativo.

9
.
Actualmente, el Ministerio cuenta con cuadros estadísticos y cubos dinámicos como
herramientas para el análisis de los datos del Sistema de Información Educativa. El
problema de esta información es que resulta más descriptiva que cuando se trata de
gran cantidad de datos. Por otra parte, a pesar de que los cubos dinámicos y
herramientas OLAP soportan cierto análisis descriptivo y de "sumarización" que
permite transformar los datos en otros datos agregados o cruzados de manera sofisticada,
no generan reglas, patrones, pautas, es decir conocimiento que pueda ser entendido a más
alto nivel. Por tanto, se hace necesario alguna metodología que nos ayude a comprender
mejor los datos.
Estos problemas y limitaciones han dado lugar al surgimiento de la Minería de Datos, que
constituye una herramienta de análisis que permite obtener patrones de conocimiento útil
a partir de grandes volúmenes de datos.

1. 4. OBJETIVOS

1.4.1 OBJETIVO GENERAL


Aplicar Minería de Datos sobre la base de datos SIE del Ministerio de Educación y
Culturas descubriendo patrones de comportamiento y características de la población
estudiantil de las Unidades Educativas del área rural y urbana para conocer mejor el sector
educativo y apoyar a la toma de decisiones.

1.4.2 OBJETIVOS ESPECÍFICOS

9 Identificar la información a detalle proveniente del sistema de información


educativa SIE.

9 Aplicar el proceso de descubrimiento de conocimiento en bases de datos


KDD para la selección, preparación y transformación de los datos.

9 Utilizar una herramienta ya implementada y gratuita de Minería de Datos


denominada WEKA para la aplicación de técnicas de preprocesado,
agrupamiento y visualización.

10
.
9 Aplicar árboles de decisión para identificar modelos de predicción
mediante reglas con la herramienta WEKA

9 Desarrollar una herramienta de minería de datos programado en Delphi


utilizando librerías OpenGL para la visualización multidimensional de los
datos y para aplicar el algoritmo k-means con el objeto de agrupar las
unidades educativas según similitud y características en grupos o clusters
distintos

9 Analizar e interpretar los resultados obtenidos.

1. 5 LIMITES Y ALCANCES
Este proyecto se delimitará en analizar los datos sobre la matriculación de la
Educación Formal proporcionada por el Sistema de Información Educativa (SIE)
entre las gestiones 2000 al 2006 y no así sobre la Educación Alternativa ni
la Educación Superior. La Educación Formal o Educación Regular se refiere al proceso
educativo que consiste los niveles Inicial ( Preescolar), Primaria y Secundaria para la población
de, más o menos, 4 a 17 años de edad .

1. 6. JUSTIFICACIÓN

1.6.1 JUSTIFICACIÓN TÉCNICA


Las nuevas necesidades , en particular, las nuevas características de los datos en cuanto
al volumen y tipología hacen que la Minería de Datos sea una herramienta importante para un
análisis minusioso y útil para la toma de decisiones.
Gracias al avance de la tecnología se puede implementar los algoritmos de Minería de
Datos en Sistemas Informáticos que son capaces de procesar la enorme cantidad de
datos. En este proyecto se realizará la implementación de técnicas de Minería de Datos y
de visualización para que pueda ser utilizada en el área de análisis.
Además se propone aplicar técnicas y herramientas de Minería de Datos mediante un
software gratuito WEKA por contar con distribución libre, interfaz gráfica amigable y su
fácil manejo, que será útil para comparar los resultados obtenidos con el programa diseñado.

11
.
1.6.2 JUSTIFICACIÓN SOCIAL
El Equipo de Indicadores e Investigación Sectorial del Ministerio de Educación busca aplicar
tecnologías Matemáticas e Informáticas para entender mejor los datos del Sistema de Información
Educativa, de esta manera aplicar Minería de datos resulta adecuado para coadyuvar a la toma
de decisiones.
La Minería de Datos no obtiene información extensional o descriptiva, sino intencional es decir
conocimiento que por lo general no es una parametrización de ningún modelo preestablecido o
intuido por el usuario, sino que es un modelo novedoso y original.
Por otro lado, el análisis visual de los datos aprovecha la gran capacidad humana para facilitar la
compresión de los datos a partir de imágenes, es por ello que en el proyecto se realizará una
herramienta de visualización y exploración de datos para su mejor comprensión y sugerir
posibles patrones.

1.7 ASPECTOS METODOLÓGICOS


Para el desarrollo del proyecto se utilizará el proceso de extracción de conocimiento en
base de datos KDD que tiene las siguientes etapas:

¾ Preparación de datos
ƒ Selección de datos
ƒ Preprocesamiento
¾ Transformación de datos
¾ Minería de datos
¾ Interpretación y Evaluación.

Preparación de Datos: En esta etapa se crea el conjunto de datos , seleccionando y


preparando el subconjunto de variables sobre los que se realizará el descubrimiento. El
procesamiento de datos incluye las fases de Selección y Preprocesamiento.

Selección de Datos: En esta fase se realiza la extracción de los datos relevantes para el
análisis siguiendo los objetivos trazados a un principio.

12
.
Preprocesamiento: El objetivo del preprocesamiento es asegurar la calidad de los datos
seleccionados, para ello se utiliza una combinación de métodos estadísticos y técnicas de
visualización de datos como Distribución de frecuencia, histogramas, gráficos de dispersión,
Con la ayuda de los resúmenes y características de los valores nominales se puede
determinar fácilmente valores faltantes y valores erróneos.

Transformación de datos: La transformación de datos engloba cualquier proceso que


modifique la forma de los datos para que se refinen y ajusten a los requisitos de entrada del
algoritmo de minería de datos. Las operaciones que transforman los datos son: Reducción de
dimensionalidad por transformación, el aumento de dimensionalidad mediante núcleos, la
discretización y la numeración.

Minería de datos: La fase de Minería de Datos es la más característica del KDD. El objetivo de
esta fase es producir nuevo conocimiento que pueda utilizar el usuario. Esto ser realiza
construyendo un modelo basado en los datos recopilados para este efecto. El modelo de
descripción de los patrones y relaciones entre los datos que pueden usarse para hacer
predicciones , para entender los datos o para explicar situaciones pasadas.

Interpretación y Evaluación: Idealmente, los patrones descubiertos deben tener tres cualidades:
ser precisos, comprensibles e interesantes.

13
.
CAPÍTULO II
MARCO TEORICO

2.1 APRENDIZAJE AUTOMÁTICO


El Aprendizaje Automático (Machine Learning) es el campo dedicado al desarrollo de
métodos computacionales para los procesos de aprendizaje. Estos programas
computacionales son sistemas de aprendizaje capaces de adquirir conocimientos,
estrategias para la resolución de problemas mediante ejemplos, hechos o descripciones
[Michalski, 1998].

Los sistemas de Aprendizaje Automático tienen la intención de construir un modelo a partir


de los datos de entrada y cambian su comportamiento de manera tal que son capaces de
clasificar nuevos datos y desarrollarse mejor en antiguas situaciones, es decir los sistemas
son capaces de aprender. Aún no sabemos, sin embargo, cómo hacer para que los sistemas
aprendan en el mismo grado que los humanos [Mitchell, 1997]. Por lo que, debemos
preguntarnos cómo aprenden los seres humanos y analizar si los si los sistemas son capaces
de aprender de la misma manera. Los humanos aprendemos mediante tres mecanismos
distinguibles: inducción, deducción y abducción. Podemos afirmar que los sistemas aprenden
cuando son capaces de generar nuevos conocimientos, por cualquiera de los tres métodos
anteriores [Monter, 2001]. En un sistema de Aprendizaje Automático, dicha generación de
conocimientos se realiza cuando los datos se transforman a un nivel superior que nos es más
útil.

Pero, ¿por qué y para qué lograr este aprendizaje?. Algunas razones ingenieriles son
[Aguilar, 2003]:

14
.
• Algunas tareas no pueden ser definidas excepto por ejemplos; esto es, se pueden
disponer de pares de entrada y salida pero no se puede explicar una relación concisa
entre ellas. Entonces, se necesitan máquinas que ajusten sus estructuras internas
aprendiendo enormes cantidades de ejemplos y posteriormente emitan una salida
coherente a la vez que generen una función aproximada con la relación implícita de
los ejemplos.

• Es posible la existencia de enormes cantidades de estructuras de datos con


importantes relaciones y correlaciones. Los métodos del Aprendizaje Automático se
usan para extraer esas relaciones.

• Típicamente, el diseñador humano produce máquinas que deben trabajar en los


entornos en los cuales son usados. Sería interesante que la mejora de estas máquinas
se haga de forma automática en base a la experiencia.

• Generalmente, la cantidad disponible de conocimiento sobre ciertas tareas es difícil


de codificar explícitamente por los humanos. Las máquinas pueden aprender
gradualmente ese conocimiento.

• Los entornos cambian en el tiempo. Las máquinas pueden adaptarse a estos cambios
reduciendo la constante necesidad de rediseño.

2.2 MINERIA DE DATOS


Se define a la Minería de Datos como el proceso no trivial de extraer conocimiento útil y
comprensible de forma automática o semiautomática, previamente desconocido, desde
grandes cantidades de datos. Es decir, la tarea fundamental de la Minería de Datos es
encontrar modelos inteligibles a partir de los datos. Para que este proceso sea efectivo
debería ser automático o semi-automático y el uso de los patrones descubiertos debería
ayudar a la toma de decisiones [Witten, 2000] .

La Minería de Datos como parte del proceso de descubrimiento de conocimiento y como la


aplicación de los algoritmos para obtener patrones proclives a ser traducidos en

15
.
conocimiento, elementalmente busca predecir y descubrir. La predicción involucra el uso de
algunas variables o atributos en el conjunto de datos para predecir otras variables de interés o
características desconocidas. La descripción se enfoca en busca de patrones humanamente
interpretables que divulguen a los datos. En este entendido, la Minería de Datos puede
entenderse como un proceso dual de síntesis ( predicción) y análisis (descripción) sobre los
datos [Aguilar, 2003].

Según algunos autores [Fayyad, 1996], la Minería de Datos como análisis de información
sólo es un paso en todo el proceso de descubrimiento de conocimiento, pero actualmente se
considera la Minería de Datos como todo el proceso de descubrimiento de conocimiento
como el núcleo fundamental dentro del contexto de la ingeniería del conocimiento [Aguilar,
2003].

Por lo tanto, se considera a la Minería de Datos como el proceso de extracción de


conocimiento de forma automática o semiautomática, desde grandes cantidades de datos y
representa el núcleo fundamental dentro del proceso de descubrimiento de conocimiento en
bases de datos.

2.3 PROCESO DE DESCUBRIMIENTO DE CONOCIMIENTO


El descubrimiento de conocimiento en bases de datos que proviene del inglés "Knowledge
Discovery in Databases" (KDD), se define como el proceso no trivial de identificar patrones
válidos, novedosos, potencialmente útiles y en última instancia, comprensibles a partir de los
datos [Fayyad, 1996].

El proceso de descubrimiento de conocimiento se organiza entorno a cinco fases como se


ilustra en la Figura II.1. Se muestra además que es un proceso iterativo e interactivo. Es
iterativo ya que la salida de alguna de las fases puede hacer volver a pasos anteriores y
porque a menudo son necesarias varias iteraciones para descubrir conocimiento de alta
calidad. Es interactivo porque el usuario o un experto en el dominio del problema debe
ayudar en la preparación de los datos, validación del conocimiento, etc [Fayyad 1996].

16
.
El proceso de descubrimiento de conocimiento se divide en las siguientes etapas [Fayyad
1996]:

• Determinación de objetivos: generales y específicos.


• Preparación de datos:
o Selección
o Preprocesamiento .
• Transformación: conversión de datos a un modelo analítico
• Minería de datos : tratamiento automatizado de los datos seleccionados con una
combinación apropiada de técnicas y algoritmos.
• Análisis de resultados : interpretación de los resultados obtenidos en la etapa anterior
generalmente con la ayuda de una técnica de visualización.
• Asimilación del conocimiento: aplicación del conocimiento descubierto a los
negocios, investigaciones, etc.

Interpretación
y evaluación

Minería de
datos

Transfor-
mación

Preprocesa-
miento

Selección Conocimiento
de datos

Patrones

Datos
Datos transformados
Preprocesados
Datos
seleccionados

Datos

Figura II.1. Etapas del Proceso KDD [Fayyad, 1996 ]

Además de las fases descritas en la Figura II.1 frecuentemente se incluye una fase previa de
análisis de las necesidades de la organización y definición del problema en la que se
establecen los objetivos de minería de datos [Hernández, 2000].

17
.
2.3.1 PREPARACIÓN DE DATOS
En algunos casos, y dependiendo de la aplicación, los datos necesarios para poder llevar a
cabo un proceso de KDD pertenecen a diferentes organizaciones, a distintos departamentos
de una misma entidad. Esto representa un reto, ya que cada fuente de datos usa diferentes
formatos de registro, diferentes claves primarias, diferentes tipos de error, etc. Lo primero
por lo tanto, es integrar todos estos datos mediante la tecnología de almacenes de datos (
Data Warehousing) [Hernández, 2004].

Un almacén de datos es un repositorio de información coleccionada desde varias fuentes,


almacenadas bajo un esquema unificado que normalmente reside en un único emplazamiento
[John Wang, 2005].

Esencialmente, los almacenes de datos se utilizan para poder agregar y cruzar eficientemente
la información de maneras sofisticadas. Por ello, los datos se modelan con una estructura de
base de datos multidimensional. Esta visión multidimensional hace a los almacenes de datos
adecuados para el procesamiento analítico en línea ( on-line analytical processing, OLAP).

Los almacenes de datos no son imprescindibles para hacer extracción de conocimiento a


partir de datos. En realidad, se puede hacer minería de datos sobre un simple archivo de datos
[John Wang, 2005].

Un aspecto muy importante a la hora de realizar los procesos de integración limpieza,


selección y transformación es que se debe conocer el dominio de donde provienen los datos
[Cabena, 1998].

El proceso de preparación de datos incluye las fases de Selección y Preprocesamiento. A


continuación se desarrollan estas fases.

2.3.1.1 FASE DE SELECCIÓN


En esta fase se realiza la extracción de los datos relevantes para el análisis siguiendo los
objetivos trazados a un principio. La calidad del conocimiento descubierto no sólo depende
del algoritmo de minería utilizado, sino también de la calidad de los datos. Por lo tanto,

18
.
después de la recopilación, el siguiente paso en el proceso es seleccionar y preparar el
subconjunto de datos sobre los que se realizará el descubrimiento [Hernández, 2004].
Se selecciona los datos con variables de tipo [Aguilar, 2003]:
Clasificatorias: que toman valores finitos y difieren en el tipo.
Nominales: nombran el tipo de objeto sin establecer un orden
Ordinales: sus valores posibles tienen un orden.

Cuantitativas: existe una diferencia medible entre los valores posibles.


Continuas: sus valores son números reales
Discretas: sus valores son números enteros.

Las variables seleccionadas para minería de datos se llaman variables activas. En esta etapa
hay que determinar la estabilidad de las variables y tener en cuenta los algoritmos posibles de
minería para tratar esos datos [Aguilar, 2003].

2.3.1.2 FASE DE PREPROCESAMIENTO


Cuando los datos se encuentran integrados lo primero que se debe realizar es un resumen de
las características de atributos, con la ayuda de éstos resúmenes y características de los
valores nominales se puede determinar fácilmente valores faltantes y valores erróneos. En el
resumen se muestran las características generales de los atributos (medias, mínimos,
máximos, posibles valores) [Han, 2006].

Valores Faltantes: es importante detectar valores faltantes porque muchas tareas de


minería de datos requieren datos completos para llevar a cabo un algoritmo. Para los
valores faltantes se debe seguir las fases de detección y tratamiento. Tanto para la
detección, como para su tratamiento posterior, es importante saber el porqué de los valores
faltantes. Algunos valores faltantes expresan características relevantes, otros valores no
existen o simplemente son datos incompletos [Hernández, 2004].

Si se han conseguido establecer los datos faltantes e, idealmente, sus causas, se procederá a
su tratamiento. Un método es reemplazar la información faltante por la media o la moda del
atributo [Ochoa, 2004]. Pero existen otras acciones que se mencionan a continuación:

19
.

• Ignorar, algunos algoritmos son robustos a datos faltantes

• Eliminar, filtrar o reemplazar toda la columna

• Filtrar la fila, claramente sesga los datos.

• Reemplazar el valor, se puede reemplazar por un valor que preserve la media o la


varianza.
• Segmentar, se segmentan las tuplas por los valores que tienen disponibles.

Valores erróneos: son valores en la que una o más variables tienen valores que están
significativamente fuera de la línea del valor promedio que es espera para esas variables. Del
mismo modo que para los campos faltantes, se debe distinguir entre la detección y el
tratamiento de los mismos, los tratamientos sobre datos erróneos son [Hernández, 2004]. :
• Ignorar, algunos algoritmos son robustos a datos anómalos

• Filtrar la columna, solución extrema

• Filtrar la fila, puede sesgar los datos

• Reemplazar el valor, por el valor 'nulo' o predecir a partir de otros datos.

• Discretizar, transformar un valor continuo en uno discreto.

2.3.2 TRANSFORMACIÓN
La transformación de datos engloba cualquier proceso que modifique la forma de los datos
para que se refinen y ajusten a los requisitos de entrada del algoritmo de minería de datos
[Pyle, 1999] Las operaciones que transforman los datos son: Reducción de dimensionalidad,
aumento de dimensionalidad, discretización, numeración y normalización [Hernández,
2004].

Discretización
La discretización o cuantización es la conversión de un valor numérico a un valor nominal
ordenado. No obstante, el orden del atributo nominal puede ser preservado y utilizado por los
pasos subsiguientes o bien puede olvidarse y tratarse el atributo como un valor nominal sin
orden [Hernández, 2004].

20
.
Numerización
Es el proceso inverso a la discretización. Aunque es menos común que la discretización,
también existen casos donde puede ser extremadamente útil, especialmente cuando el
método de Minería de Datos que se vamos a utilizar no admite datos nominales por ejemplo
regresión lineal [Hernández, 2004].

Normalización
Las variables tienden a tener rangos que varían mucho de unos a otros. Por ejemplo, si en las
Ligas de Béisbol, los jugadores promedios de bateo que van desde cero a menos de 0.4,
mientras que el número de cuadrangulares éxito en una temporada que van desde cero a
alrededor de 70. Para algunos algoritmos de minería de datos, tales diferencias en los rangos
dan lugar a una tendencia a que la variable con mayor rango va ha tener una influencia
indebida sobre los resultados. Por lo tanto, antes de aplicar un algoritmo los datos, se deben
normalizar sus variables numéricas, para normalizar la magnitud del efecto que cada variable
tiene sobre los resultados. Existen varias técnicas. Existen varias técnicas para la
normalización, y vamos a examinar dos de los métodos más frecuentes: Normalización Min-
Max y la Estandarización Z-Score [Larose, 2005].

Normalización Min-Max

X − min( X ) X − min ( X )
X* = =
range ( X ) max( X ) − min ( X )

Donde X es la variable original y X*, el valor normalizado. min(X) es el valor mínimo y


max(X) es el valor máximo de todas las variables [Larose, 2005].

Estandarización Z-Score, es muy utilizado en el área del análisis estadístico, se basa en la


diferencia entre el valor del campo y el valor medio, dividido entre la desviación estándar
de los valores de campo, la fórmula es la siguiente [Larose 2005]:

X − mean ( X )
X* =
SD( X )

21
.
2.3.3 EXPLORACIÓN DE DATOS
La Minería de Datos abarca un terreno muy amplio, no es solamente aplicar un algoritmo
existente a un conjunto de datos. Las herramientas existentes actualmente incluyen
mecanismos para la preparación de los datos, su visualización y la interpretación de los
resultados. Muchas de las herramientas funcionan bien en espacios de pocas dimensiones
con datos numéricos, pero sus limitaciones comienzan a aparecer en espacios de mayores
dimensiones o con datos no numéricos, por lo tanto es necesario realizar un análisis
exploratorio [Thrun et al, 1998].

Una vez los datos están recopilados, integrados y limpios, todavía no están listos para aplicar
una tarea de minería de datos. Es necesario, además, realizar un reconocimiento o análisis
exploratorio de los datos con el objetivo de conocerlos con detalle, para tal efecto se cuenta
con técnicas diversas : algunas técnicas simples del análisis exploratorio de datos, técnicas de
visualización previa, de agrupamiento exploratorio, técnicas de selección, ya sea, eliminando
filas o eliminando atributos, interfaces gráficas y técnicas de consulta y agregación
[Hernández, 2004].

CONOCIENTO
PREVIO
Dominio

Desnormaliza-
ción,
agregaciones, VISTA
generalizaciones,
selección de MINABLE
Datos atributos
muestreo.....

TAREA Y CRITERIOS
NECESIDADES Y DE EVALUACIÓN
EXPECTATIVAS

PRESENTACIÓN DEL
CONOCIMIENTO

Figura II.2 De los datos, dominio y usuarios a la vista minable [Hernández, 2004].

22
.
La figura II.2 esquematiza el proceso que lleva de los datos, del conocimiento del dominio y
de los usuarios a cuatro aspectos que son necesarios para llevar a cabo la fase propia de
minería de datos. Estos cuatro aspectos se explican a continuación [Hernández 2004]:

Vista minable : consiste en una vista en el sentido más clásico de base de datos: una tabla.
La mayoría de métodos de minería de datos son sólo capaces de tratar una tabla en cada
tarea.

Tarea, método y presentación: Se trata de decidir qué tarea (clasificación, regresión,


agrupamiento, reglas de asociación, etc) cuáles son las entradas y las salidas, qué método se
va aplicar y de qué manera se van a presentar los resultados.

Criterios de calidad: se debe establecer criterios de compresibilidad de los modelos,


criterios de fiabilidad, criterios de utilidad y criterios de novedad o interés.

Conocimiento previo: para ayudar al propio algoritmo de minería de datos puede ser
necesario establecer e incluso expresar de una manera formal cierto conocimiento previo.

2.3.3.1 EXPLORACIÓN MEDIANTE VISUALIZACIÓN


Las tecnologías de la visualización son buenas para ubicar patrones en un conjunto de datos
y pueden ser usadas al comienzo de un proceso de Data Mining, para observar la calidad del
conjunto de datos. Los modelos de visualización pueden ser bidimensionales,
tridimensionales o incluso multidimensionales. Se han desarrollado varias herramientas de
visualización para integrarse con las bases de datos ofreciendo una visualización de forma
interactiva a la Minería de Datos [Marcano 2007].

Según algunos autores [Wong, 1999], el término "minería de datos visual" realiza minería
de datos manejando e interactuando con gráficos, pero según otros autores [Cleveland, 1993]
no se puede hacer minería de datos sólo con gráficas porque lo que caracteriza la minería de
datos de técnicas del análisis de datos es que los modelos son extraídos por algoritmos y por
tanto no son vistos o descubiertos visualmente por el usuario ,éste último es el enfoque
adoptado para la realización del presente proyecto.

23
.
Las técnicas de visualización de datos se utilizan fundamentalmente con dos objetivos
[Hernández, 2004]:

• Aprovechar la gran capacidad humana de ver patrones, anomalías y tendencias a


partir de imágenes y facilitar la comprensión de datos

• Ayudar al usuario a comprender rápidamente patrones descubiertos automáticamente


por un sistema de KDD.

2.4 TÉCNICAS DE MINERÍA DE DATOS


La minería de datos ha dado lugar a una paulatina sustitución del análisis de datos
dirigido a la verificación por un enfoque de análisis de datos dirigido al descubrimiento del
conocimiento. La principal diferencia entre ambos se encuentra en que en el último se
descubre información sin necesidad de formular previamente una hipótesis. La aplicación
automatizada de algoritmos de minería de datos permite detectar fácilmente patrones en los
datos, razón por la cual esta técnica es mucho más eficiente que el análisis dirigido a la
verificación cuando se intenta explorar datos procedentes de repositorios de gran tamaño y
complejidad elevada. Dichas técnicas emergentes se encuentran en continua evolución como
resultado de la colaboración entre campos de investigación tales como bases de datos,
reconocimiento de patrones, inteligencia artificial, sistemas expertos, estadística,
visualización, recuperación de información, y computación de altas prestaciones [Moreno,
2001].

Los algoritmos de minería de datos se clasifican en dos grandes categorías: supervisados o


predictivos y no supervisados [Weiss, 1998].

Los algoritmos supervisados o predictivos predicen el valor de un atributo (etiqueta) de un


conjunto de datos, conocidos otros atributos (atributos descriptivos). A partir de datos cuya
etiqueta se conoce se induce una relación entre dicha etiqueta y otra serie de atributos. Esas
relaciones sirven para realizar la predicción en datos cuya etiqueta es desconocida. Esta
forma de trabajar se conoce como aprendizaje supervisado y se desarrolla en dos fases:

24
.
Entrenamiento (construcción de un modelo usando un subconjunto de datos con etiqueta
conocida) y prueba (prueba del modelo sobre el resto de los datos) [Moreno, 2001].

Cuando una aplicación no es lo suficientemente madura no tiene el potencial necesario para


una solución predictiva, en ese caso hay que recurrir a los métodos no supervisados que
descubren patrones y tendencias en los datos actuales. El descubrimiento de esa información
sirve para llevar a cabo acciones y obtener un beneficio (científico o de negocio) de ellas
[Moreno, 2001].

2.5 AGRUPAMIENTO (CLUSTERING)

El agrupamiento o clustering representa la división de datos en grupos de objetos similares


llamados clusters. De esta manera se busca maximizar la similitud de las instancias en cada
cluster y minimizar la similitud entre clusters [Han, 2006].

Clustering es un conjunto de datos con similares entidades encontrado por un algoritmo de


clustering [Mirkin, 2005].

Dos de los algoritmos de clustering más utilizados son Self Organizing Maps (SOM) y K-
means [Mirkin, 2005].

K-means es un método de agrupamiento por vecindad en el que se parte de un número


determinado de prototipos y de un conjunto de ejemplos a agrupar, sin etiquetar. La idea de
K-means es situar a los centros en el espacio, de forma que los datos pertenecientes a
mismo prototipo tengan características similares [Hernández, 2004].

SOM, también denominado redes de Kohonen, fue creado por Teuvo Kohonen en 1982. Se
trata de un modelo de red neuronal con capacidad para formar mapas de características de
manera similar a como ocurre en el cerebro. SOM está basado en el aprendizaje no
supervisado y competitivo, lo cual quiere decir que no se necesita intervención humana
durante el mismo y que se necesita saber muy poco sobre las características de la información
de entrada. SOM provee un mapa topológico de datos, que se representan en varias
dimensiones, utilizando unidades de mapa (las neuronas) para simplificar la representación

25
.
[Kohonen, 1995]. Las neuronas usualmente forman un mapa bidimensional, por lo que el
mapeo transforma un problema de muchas dimensiones en el espacio, a un plano. La
propiedad de preservar la topología significa que el mapeo preserva las distancias relativas
entre puntos. Los puntos que están cerca unos de los otros en el espacio original de entrada
son mapeados a neuronas cercanas en SOM. Por esta razón, SOM es muy útil como
herramienta de análisis de clases de datos de muchas dimensiones [Vesanto, 2000], y además
tiene la capacidad de generalizar [Essenreiter, 1999], lo que implica que la red puede
reconocer o caracterizar entradas que nunca antes ha encontrado.

Otros algoritmos de clustering son: PAM (Partition around medoids) y CLARA (Clustering
Large Applications) [Kaufman, 1990]. Este último permite manejar conjuntos de datos más
grandes que el primero. CLARANS [Han, 1994] integra los algoritmos PAM y CLARA en uno.

2.5.1 ALGORITMO K-MEANS


Uno de los algoritmos más utilizados para hacer clustering es el k-medias (kmeans)
[MacQueen, 1967]. La idea de K-means es situar a los prototipos o centros en el espacio, de
forma que los datos pertenecientes al mismo prototipo tenga características similares
[Moody & Darken 1989, MacQueen, 1967].

En primer lugar se debe especificar por adelantado cuantos clusters se van a crear, éste es el
parámetro k, para lo cual se seleccionan k elementos aleatoriamente, que representarán el
centro o media de cada cluster. A continuación cada una de las instancias, ejemplos, es
asignada al centro del cluster más cercano de acuerdo con la distancia que le separa de él.
Para cada uno de los clusters así construidos se calcula el centroide(representante de clase)
de todas sus instancias. Estos centroides son tomados como los nuevos centros de sus
respectivos clusters. Finalmente se repite el proceso completo con los nuevos centros de los
clusters. La iteración continúa hasta que se repite la asignación de los mismos ejemplos a los
mismos clusters, ya que los puntos centrales de los clusters se han estabilizado y
permanecerán invariables después de cada iteración. El algoritmo de k-means es el
siguiente[Molina, 2006]:

26
.
1. Elegir k ejemplos que actúan como semillas(k número de clusters).

2. Para cada ejemplo, añadir ejemplo a la clase más similar

3. Calcular el centroide de cada clase, que pasan a ser las nuevas semillas.

4. Si no se llega a un criterio de convergencia (por ejemplo, dos iteraciones no cambian


las clasificaciones de los ejemplos), volver al paso 2.

Para obtener los centroides, se calcula la media o la moda según se trate de atributos
numéricos o simbólicos. A continuación, en la Figura II.4, se muestra un ejemplo de
clustering con el algoritmo kmeans.

En este caso se parte de un total de nueve ejemplos o instancias, se configura el algoritmo


para que obtenga 3 clusters, y se inicializan aleatoriamente los centroides de los clusters a un
ejemplo determinado. Una vez inicializados los datos, se comienza el bucle del algoritmo.
En cada una de las gráficas inferiores se muestra un paso por el algoritmo. Cada uno de los
ejemplos se representa con un tono de color diferente que indica la pertenencia del ejemplo a
un cluster determinado, mientras que los centroides siguen mostrándose como círculos de
mayor tamaño y sin relleno. Por ultimo el proceso de clustering finaliza en el paso 3, ya que
en la siguiente pasada del algoritmo ningún ejemplo cambiaría de cluster [Molina, 2006].

Figura II.4 Pasos del Algoritmo K-means [Molina, 2006].

27
.
El algoritmo puede seguir dos enfoques distintos: kmeans por lotes y kmeans en línea. El
primero se aplica cuando todos los datos de entrada están disponibles desde un principio,
mientras que el segundo se aplica cuando no se dispone de todos los datos desde el primer
momento, sino que pueden añadirse ejemplos adicionales más tarde. Cuando se aplica la
versión por lotes, se debe seleccionar arbitrariamente una partición inicial de forma que cada
clase disponga de, al menos, un ejemplo. Como la totalidad de los datos están disponibles,
los centros de cada partición se calculan como la media de los ejemplos pertenecientes a esa
clase [Hernández, 2004].

2.5.1.1 MEDIDA DE DISTANCIAS.


Dados dos objetos O1, O2, cada uno definido por un conjunto de atributos, una función de
distancia es aquella métrica que el clasificador emplea para determinar el parecido existente
entre O1 y O2 de acuerdo al valor de los atributos. También suele decirse que la función de
distancia calcula la similitud entre dos objetos (función de similitud). Mientras más parecidos
sean dos objetos, la distancia entre estos es menor y de manera contraria sucede para objetos
lejanos. Una función de distancia comúnmente empleada es la distancia euclidiana, la cual se
define como [Olvera 2005] :

n
d( O 1 , O 2 ) = ∑ (x
i =1
1 ( O1 ) − x 1 ( O 2 )) 2

Donde O1 , O2 son los objetos de los cuales se calculará la distancia, n es el número de


atributos y xi(O1), xi(O2) es el valor de la variable x para el atributo i en los objetos O1, O2.
Otras funciones empleadas para el cálculo de distancias son [Olvera 2005]:

Manhattan :
n
D ( O1 , O 2 ) = ∑ x 1 ( O1 ) − x 2 ( O 2 )
i =1

Chebychev:
n
D ( O1 , O 2 ) = max x 1 (O1 ) − x 2 (O 2 )
i =1

28
.
Minkowsky :

1
⎛ n r ⎞r
D ( O1 , O 2 ) = ⎜⎜ ∑ x 1 (O1 ) − x 2 (O 2 ) ⎟⎟
⎝ i =1 ⎠

La distancia euclidiana, al igual que las distancias anteriores se emplea en el caso en que
todos los atributos del objeto son valores numéricos [Olvera 2005].

2.6 ÁRBOLES DE DECISIÓN


Un árbol de decisión es un conjunto de condiciones organizadas en una estructura jerárquica,
de tal manera que la decisión final a tomar se puede determinar siguiendo las condiciones
que se cumplen desde la raíz del árbol hasta alguna de sus hojas. La tarea de aprendizaje para
la cual los árboles de decisión se adecuan mejor es la clasificación. De hecho, clasificar es
determinar de entre varias clases a qué clase pertenece un objeto; la estructura de condición y
ramificación de un árbol de decisión es idónea para este problema. Debido al hecho de que la
clasificación trata con clases o etiquetas disjuntas, un árbol de decisión conducirá un ejemplo
hasta una sola hoja, asignando, por tanto, una única clase al ejemplo. Esta propiedad dio
lugar al esquema básico de los primeros algoritmos de aprendizaje de árboles de decisión de
partición o algoritmos de "divide y vencerás". [Hernández, 2004].

Esto es lo que diferencia fundamentalmente los distintos algoritmos de "partición"


existentes hasta la fecha, como CART [Breiman, 1984], ID3 [Quinlan, 1983], C4.5[Quinlan,
1993],etc.

Una de las primeras técnicas asociadas a la inducción por medio de árboles de decisión fue la
presentada por Ross Quinlan y fue denominada ID3 . Ésta fue una gran influencia para gran
número de investigaciones efectuadas sobre árboles de decisión. En este método se
seleccionan atributos en cada uno de los nodos del arbol y se trata de minimizar la cantidad
de atributos a analizar para determinar a qué clase corresponde una muestra. El criterio es el
de ubicar lo más alto posible en el arbol a aquellos atributos cuyos valores se corresponden
consistentemente con instancias que tienen valores particulares para el atributo
objetivo[Cartagenova, 2005].

29
.
Pero, ¿ cómo puede cuantificarse la relación entre el valor y el atributo objetivo ? Una
medida utilizada de la Teoría de la Información en el algoritmo ID3 y en muchos otros
árboles de decisión es la “Entropía”. Podemos decir que la entropía de un conjunto de datos
puede ser vista como cuán desordenados se encuentran dichos datos. De alguna manera se ha
demostrado que cuanto mayor es el valor de la entropía o la incertidumbre de algunos datos,
se requiere más información para describir de manera completa a los datos.

Cuando se construye un árbol de decisión, se apunta a decrementar la entropía del conjunto


de datos hasta que se haya llegado a los nodos hoja, en cuyo nivel el subconjunto asociado es
puro, o tiene entropía cero, y representa instancias de alguna clase [Cartagenova, 2005].

2.6.1 ALGORITMO ID3


El algoritmo ID3 fue desarrollado por Quinlan, es un algoritmo simple y, sin embargo,
potente, cuya misión es la elaboración de un árbol de decisión. El procedimiento para
generar un árbol de decisión consiste, como se comentó anteriormente en seleccionar un
atributo como raíz del árbol y crear una rama con cada uno de los posibles valores de dicho
atributo. Con cada rama resultante (nuevo nodo del árbol), se realiza el mismo proceso, esto
es, se selecciona otro atributo y se genera una nueva rama para cada posible valor del
atributo. Este procedimiento continúa hasta que los ejemplos se clasifiquen a través de uno de
los caminos del árbol. El nodo final de cada camino será un nodo hoja, al que se le asignará la
clase correspondiente. Así, el objetivo de los árboles de decisión es obtener reglas o
relaciones que permitan clasificar a partir de los atributos[Molina, 2006].

En cada nodo del árbol de decisión se debe seleccionar un atributo para seguir dividiendo, y
el criterio que se toma para elegirlo es: se selecciona el atributo que mejor separe (ordene) los
ejemplos de acuerdo a las clases. Para ello se emplea la entropía, que es una medida de cómo
está ordenado el universo. La teoría de la información (basada en la entropía) calcula el
número de bits (información, preguntas sobre atributos) que hace falta suministrar para
conocer la clase a la que pertenece un ejemplo. Cuanto menor sea el valor de la entropía,
menor será la incertidumbre y más útil será el atributo para la clasificación. La definición de
entropía que da Shannon en su Teoría de la Información (1948) es: Dado un conjunto de
eventos A={A1, A2,..., An}, con probabilidades {p1, p2,..., pn}, la información en el

30
.
conocimiento de un suceso Ai (bits) y A(bits) se define las siguientes ecuaciones [Molina,
2006]:
⎛1⎞
I( A1 ) = log 2 ⎜⎜ ⎟⎟ = − log 2 ( p1 )
⎝ p1 ⎠
n n
I( A ) = ∑ p1 I( A 1 ) = − ∑ p1 log 2 ( p1 )
i =1 i =1

Si aplicamos la entropía a los problemas de clasificación se puede medir lo que se discrimina


un atributo Ai . Una vez explicada la heurística empleada para seleccionar el mejor atributo
en un nodo del árbol de decisión, se muestra el algoritmo ID3 [Molina, 2006]:

1. Seleccionar el atributo Ai que maximice la ganancia G(Ai)

2. Crear un nodo para este atributo con tantos sucesores como valores tenga.

3. Introducir los ejemplos en los sucesores según el valore que tenga el atributo Ai.

4. Por cada sucesor:

a. Si sólo hay ejemplos de una clase, Ck, entonces etiquetarlo con Ck.
b. Si no, llamar a ID3 con una tabla formada por los ejemplos de ese nodo,
eliminando la columna del atributo Ai.

El inconveniente que tiene este Algoritmo, es que favorece indirectamente a aquellos


atributos con muchos valores, los cuales no tienen que ser, precisamente, los más útiles
[Aguilar, 2003].

2.6.2 ALGORITMO C4.5

El algoritmo C4.5 desarrollado por Quinlan es la extensión del algoritmo ID3 para generar
árboles de decisión. El algoritmo utiliza el concepto de ganancia de información o de
reducción de la entropía para seleccionar la óptima división.[Larose, 2005].

El C4.5 se basa en el ID3, por lo tanto, la estructura principal de ambos métodos es la misma.
El C4.5 construye un árbol de decisión y evalúa la información en cada caso utilizando los

31
.
criterios de entropía y ganancia o proporción de ganancia, según sea el caso [Servente,
2002].

El algoritmo ID3, toma objetos de una clase conocida y los describe en términos de una
colección fija de propiedades o de variables, produciendo un árbol de decisión sobre estas
variables que clasifica correctamente todos los objetos [Quinlan, 1993]. Hay ciertas
cualidades que diferencian a este algoritmo de otros sistemas generales de inferencia. La
primera se basa en la forma en que el esfuerzo requerido para realizar una tarea de inducción
crece con la dificultad de la tarea. El ID3 fue diseñado específicamente para trabajar con
masas de objetos, y el tiempo requerido para procesar los datos crece sólo linealmente con
dificultad [Servente, 2002].

En cada nodo, el sistema debe decidir cuál prueba escoge para dividir los datos. Los tres tipos
de pruebas posibles propuestas por C4.5 son [Quinlan, 1993]:

i. La prueba "estándar" para las variables discretas, con un resultado y una


rama para cada valor posible de la variable

ii. Una prueba más compleja, basada en una variable discreta, en donde los
valores posibles son asignados a un número variable de grupos con un
resultado posible para cada grupo, en lugar de para cada valor

iii. Si una variable A tiene valores numéricos continuos, se realiza una prueba
binaria con resultados A <= Z y A > Z, para lo cual debe determinarse el
valor límite Z.

Todas estas pruebas se evalúan de la misma manera, mirando el resultado de la proporción de


ganancia, o alternativamente, el de la ganancia resultante de la división que producen. Ha
sido útil agregar una restricción adicional: para cualquier división, al menos dos de los
subconjuntos Ti deben contener un número razonable de casos. Esta restricción, que evita las
subdivisiones casi triviales, es tenida en cuenta solamente cuando el conjunto T es
pequeño[Servente, 2002].

32
.
Pseudo-código del algoritmo C4.5
El algoritmo del método C4.5 para la construcción de árboles de decisión a grandes
rasgos es muy similar al del ID3. Varía en la manera en que realiza las pruebas sobre las
variables. A continuación se muestra el Pseudo-código [Servente, 2002] :

Función C4.5
(R: conjunto de atributos no clasificadores,
C: atributo clasificador,
S: conjunto de entrenamiento) devuelve un árbol de decisión;
Comienzo
Si S está vacío,
Devolver un único nodo con Valor Falla;
Si todos los registros de S tienen el mismo valor para el atributo clasificador,
Devolver un único nodo con dicho valor;
Si R está vacío,
Devolver un único nodo con el valor más frecuente del atributo clasificador en los
registros de S [Nota: habrá errores, es decir, registros que no estarán bien
clasificados en este caso];
Si R no está vacío,
D Å atributo con mayor Proporción de Ganancia(D,S) entre los atributos de R;
Sean {dj | j=1,2,...., m} los valores del atributo D;
Sean {dj | j=1,2,...., m} los subconjuntos de S correspondientes a los valores de dj
respectivamente;
Devolver un árbol con la raíz nombrada como D y con los arcos nombrados d1,
d2,....,dm, que van respectivamente a los árboles
C4.5(R-{D}, C, Sl), C4.5(R-{D}, C, S2), C4.5(R-{D}, C, Sm);
Fin

2.7 LA EDUCACIÓN FORMAL EN BOLIVIA


La Ley de Reforma Educativa promulgada en 1994 priorizó su accionar solo en el nivel
primario; El plan Nacional de Desarrollo actual prioriza una transformación de la educación
en todos los niveles.

33
.
La educación en Bolivia engloba la educación formal, alternativa y superior. La educación
formal se refiere a la educación de niveles Inicial, Primaria y Secundaria sin tomar en
cuenta la educación de adultos o educación especial .

La educación alternativa está orientada a completar la formación de las personas y posibilitar


el acceso a la educación a quienes, por razones de edad, condiciones físicas y mentales
excepcionales, no hubieran iniciado o concluido sus estudios en la educación formal. La
educación alternativa se divide en tres grandes áreas: educación de adultos, educación
especial y educación permanente.

La educación superior comprende la formación técnico-profesional de tercer nivel, la


tecnológica, humanístico- artística y la científica, incluyendo la capacitación y la
especialización de postgrado.

2.7.1 SISTEMA DE INFORMACIÓN EDUCATIVA (SIE)


El SIE se creo en 1997, cuyo objetivo es consolidar la información para facilitar la toma
de decisiones para las políticas educativas en el País. Engloba información de unidades
educativas, infraestructura escolar, alumnos y docentes como se muestra en el siguiente
esquema:

Figura II.5 Mapa conceptual SIE


[Fuente: Ministerio de Educación ]

El SIE tiene la visión de lograr la provisión de un soporte tecnológico y de información para


la gestión educativa en Bolivia. También tiene la misión de ofrecer servicios de información

34
.
y tecnología a todo el Sistema Nacional de Educación en Bolivia y a todas las entidades
relacionadas con el Sector. En la Figura II.6 se muestra la descripción general del SIE.

Figura II.6 Descripción del SIE


[Fuente: Ministerio de Educación ]

2.7.2 DISTRITOS EDUCATIVOS


Hasta finales del año 2006, el país estaba estructurado política y administrativamente en 9
departamentos, 112 provincias, 327 municipios y 275 distritos educativos tal como se
observa en la Tabla II.1

Tabla II.1 División política y administrativa de Bolivia.


[Fuente: Ministerio de Educación]

2.7.3 POBLACIÓN ESCOLAR


La evolución de la población en edad escolar (de 4 a 18 años) del año 2000 al 2006 tuvo un
incremento de 11,1%; la población en edad escolar pasó de 3.062.076 (49,2% mujeres y
50,8% hombres) a 3.402.628 (49,1% mujeres y 50,9% hombres). Si bien en la población total

35
.
la relación de mujeres frente a hombres es 50,2% frente a 49,8% respectivamente, se deduce
que la población total de mujeres es considerablemente baja frente a la población de mujeres
en edad escolar (de 4 a 18 años), es decir 1,1% de diferencia.

La cobertura neta se define como el número de alumnos inscritos en un determinado nivel de


educación que tienen la edad oficial para asistir a ese nivel, expresada como porcentaje de la
población total en edad correspondiente. Por su parte, la cobertura bruta (o tasa bruta de
matrícula) se define como el número de los alumnos inscritos en un determinado nivel de
educación, sin distinción de edad, expresado como porcentaje de la población en edad
escolar, en un año dado.

En la Tabla II.2 se muestra la evolución de la cobertura neta en los niveles primario y


secundario desagregados por género, en el periodo 2000 - 2006. La cobertura neta en
primaria sufrió un leve descenso de los años 2000 al 2006, bajó de 94,1% a 92,8% en las
niñas y pasó de 95,4% a 92,5% en los niños. La cobertura neta en secundaria en todos los
datos del período de tiempo 2000 al 2006 no supera siquiera el 60% lo que representa un bajo
acceso a la educación secundaria.

Tabla II.2 Cobertura neta en el nivel primaria y secundaria


[Fuente: Ministerio de Educación]

Similarmente, la cobertura bruta (Tabla II.3) en primaria sufrió descensos en el mismo


periodo de tiempo, bajó de 104,4% a 102,1% en niñas y bajó de 107,3% a 103,1% en niños.
Los valores de la cobertura bruta superan el 100% debido a que el indicador no considera los
grupos etáreos lo que significa que los niños o niñas pueden estar inscritos en un nivel de
educación pero pueden tener edades mayores a las establecidas para esos niveles. En el nivel
secundario en ninguno de los años de estudio superan el 80%.

36
.

Tabla II.3 Cobertura bruta en el nivel primaria y secundaria


[Fuente: Ministerio de Educación]

2.7.4 INDICADORES

2.7.4.1 TASA DE CULMINACIÓN POR NIVELES

La tasa de término neta o tasa de culminación neta de un determinado curso es el porcentaje


de alumnos promovidos, considerando la edad en dicho curso, respecto de la población en
edad de ingresar en dicho curso (por ejemplo 13 años en 8° de primaria). La tasa de término
bruta (tasa de culminación bruta) de un determinado curso es el número de alumnos
promovidos de dicho curso, sin distinción de edad, respecto a la población total en edad de
cursar dicho curso.

La Figura II.7 muestra la evolución de las tasas de término neta y bruta en el periodo de
tiempo de los años 2000 al 2006 en dos grados: 8° de primaria y 4° de secundaria. En 8° de
primaria, las tasas de término tuvieron un ascenso leve en dicho periodo; pasaron de 26,1% a
32,2% en niñas y de 25% a 29,8% en niños. Pero esos valores no son alentadores ya que la
tasa de término neta no supera en ningún caso el 33%, eso significa que apenas uno de cada
tres adolescentes de la población escolarizada de 13 años de edad permanece y culmina 8° de
primaria. Peor aún, la tasa de término neta en cuarto de secundaria en todo el periodo de
tiempo no supera el 25% (aunque haya ascendido levemente de 17,7% a 23,1% en mujeres y
de 15,9% a 20,4% en varones) lo que significa que apenas uno de cuatro estudiantes de 17
años de último grado de secundaria permanece y culmina dicho grado.

37
.

Figura II.7: Evolución de la tasa de término neta y tasa de término bruta.


[Fuente: Ministerio de Educación]

2.7.4.2 TASA DE APROBACIÓN POR NIVELES.


La evolución de la tasa de aprobación en los niveles primaria y secundaria mostró un
comportamiento diferente de los años 2000 al 2006 (Figura II.8). Del año 2000 al año 2005,
la tasa de aprobación en primaria experimentó un leve ascenso de 88,5% a 92,1% en el área
rural y variando de 90,6% a 93,3%. Si embargo, esa tasa de aprobación en primaria
experimentó una caída importante en el año 2006, tanto para el área Rural como para el área
Urbana. Eso se debió a que con la finalización de la modalidad de año de extensión por
condición de reprobación la tasa de aprobación en el área Rural de las niñas baje de 92,5% a
87% y de los niños baje de 91,8% a 85,6%. De manera similar, en ese mismo año, en el área
Urbana, del 2005 al 2006 ocurrió un descenso significativo, de 94% a 90,7% en las mujeres y
de 92,7% a 88,3% en los hombres.

Figura II.8 Evolución de la tasa de aprobación por niveles y género.


[Fuente: Ministerio de Educación]

38
.
2.7.4.3 TASA DE ABANDONO POR NIVELES
La evolución de la tasa de abandono de los años 2000 al 2006 no experimentó grandes
cambios y tanto para el área Rural como para el área Urbana. Pero hay diferencias
significativas en el nivel secundaria sobretodo en el área Urbana, ya que la tasa de abandono
de las mujeres ronda el 7% mientras que la tasa de abandono de los hombres es del 9%. En
general, la mayor tasa de abandono se presenta en nivel secundario del área Rural, con un
valor de 10% tanto en hombres como en mujeres. Por su parte, la tasa de abandono del nivel
primaria del área Urbana es la que presenta tasas no muy alarmantes pero significativas
rondando el 5%. Observe esos comportamientos en la Figura II.9.

Figura II. 9. Evolución de la tasa de abandono por niveles


[Fuente: Ministerio de Educación]

2.7.4.4 REZAGO ESCOLAR


Por rezago escolar se entiende a la proporción de niños que tiene una edad superior a la edad
oficial (o razonablemente adecuada) para asistir a un determinado curso respecto al total de
niños inscritos en ese curso. La tasa de sobreedad calcula la proporción de alumnos de la
matrícula inicial con edad mayor a la teórica más uno para el grado correspondiente.

La tasa de sobreedad por grado en el año 2006 mejoró respecto del año 2000 (Ver Figura
II.10). En el año 2000 se observaba una mayor tasa de sobreedad en las unidades educativas
rurales públicas y en las unidades educativas urbanas públicas.

39
.

Figura II.10. Tasa de sobre edad por área geográfica y por dependencia
[Fuente: Ministerio de Educación]

En las unidades educativas rurales públicas, en quinto de primaria se tenía un 38,7% y los
grados posteriores 36%, 37% y 38%; en las unidades educativas urbanas públicas el mayor
rezago se presentaba en secundaria con porcentajes cercanos al 30%. Pero en el año 2006, las
unidades educativas públicas rurales tenían menor tasa de sobreedad que en el año 2000, por
ejemplo en el nivel secundaria, los valores porcentuales bajaron del 38% al 33%, y el rezago
en 5° de primaria se convirtió en de 38,7% a 26,5% .

2.8 HERRAMIENTAS DE MINERÍA DE DATOS


Se pueden encontrar tanto en ámbitos comerciales como académicos una serie de entornos
software diseñados para dar soporte al ejercicio de minería de datos, como por ejemplo SPSS
Clementine, WEKA, ODMS (Oracle Data Mining Suite), Kepler, DBMiner y otros. En este
proyecto se ha elegido la herramienta WEKA por su fácil manejo, interfaz de visualización
y la libre distribución por la licencia GPL [Hernández, 2004].

2.8.1 WEKA
Weka (Waikato Envioronment for Knowledge Análisis), es una herramienta desarrollada por
un equipo de investigadores de la universidad de Waikato ( Nueva Zelanda),esta
implementada en Java con arquitectura independientes, ya que funciona en cualquier
plataforma. La licencia de Weka es GPL lo que significa que este programa es de libre
distribución y de difusión [Garcia, 2005].

40
.
WEKA está constituido por una serie de paquetes de código abierto con diferentes técnicas
de preprocesado, clasificación, agrupamiento, asociación, y visualización, así como
facilidades para su aplicación y análisis de prestaciones cuando son aplicadas a los datos de
entrada seleccionados. Estos paquetes pueden ser integrados en cualquier proyecto de
análisis de datos, e incluso pueden extenderse con contribuciones de los usuarios que
desarrollen nuevos algoritmos. Con objeto de facilitar su uso por un mayor número de
usuarios, WEKA además incluye una interfaz gráfica de usuario para acceder y configurar
las diferentes herramientas integradas [Garcia, 2005].

Figura II.11: Interfaz visual Explorer (WEKA)

2.8.1.1 FORMATOS DE ENTRADA


Los formatos de los datos de entrada a la herramienta pueden ser de tipo [Garcia,
2005]:

1. ARFF que corresponde a un fichero de texto con un encabezado de identificación


de cada atributo y los datos separados por comas. Este formato está compuesto por una
estructura claramente diferenciada en tres partes:

Cabecera. Se define el nombre de la relación. Su formato es el siguiente:

41
.
@relation <nombre-de-la-relación> Donde <nombre-de-la-relación> es de tipo
String*. Si dicho nombre contiene algún espacio será necesario expresarlo
entrecomillado.

Declaraciones de atributos. En esta sección se declaran los atributos que compondrán


el archivo junto a su tipo. La sintaxis es la siguiente: @attribute <nombre-del-
atributo> <tipo> Donde <nombre-del-atributo> es de tipo String teniendo las mismas
restricciones que el caso anterior. Weka acepta diversos tipos, estos son:

a) NUMERIC Expresa números reales.


b) INTEGER Expresa números enteros.
c) DATE Expresa fechas, para ello este tipo debe ir precedido de una etiqueta
de formato entrecomillada.
d) STRING Expresa cadenas de texto, con las restricciones del tipo String
e )ENUMERADO El identificador de este tipo consiste en expresar entre
llaves y separados por comas los posibles valores (caracteres o cadenas de
caracteres).

Sección de datos. Declaramos los datos que componen la relación separando entre
comas los atributos y con saltos de línea las relaciones.

Aunque éste es el modo “completo" es posible definir los datos de una forma abreviada
(sparse data). Si tenemos una muestra en la que hay muchos datos que sean 0 podemos
expresar los datos prescindiendo de los elementos que son nulos, rodeando cada una de
las filas entre llaves y situando delante de cada uno de los datos el número de atributo.

2. CSV, corresponde a un formato de Excel en la que los datos están separados por
comas. La primera línea contiene los atributos.

3. C4.5, corresponde a archivos según el formato C4.5. Unos datos codificados según
este formato estarían agrupados de tal manera que en un fichero .names estarían los
nombres de los atributos y en un fichero .data estarían los datos en sí.

42
.
2.8.1.2 TAREAS
Weka permite tareas de Preprocesado, Clasificación, Clustering, Asociaciones,
Selección y Visualización [Molina, 2006].

1. Preprocesado de los datos y aplicación de filtros, se elige el conjunto de datos el


cual se modifica de diversas maneras.

2. Clasificación. En este modo se puede clasificar por varios métodos los datos ya
cargados como por ejemplo bayes, function, trees, rules y otros.

3. Clustering. Su funcionamiento es similar al de clasificación: se elije un método de


clustering (Cobweb, EM, SimpleKMeans, FarthestFirst) y se selecciona las opciones
pertinentes.

4. Búsqueda de Asociaciones, permite aplicar métodos orientados a buscar


asociaciones entre datos. Es importante señalar que éstos métodos sólo funcionan
con datos nominales.

5. Selección de atributos, permite acceder al área de selección de atributos. El


objetivo es identificar aquellos atributos que tienen más peso a la hora de determinar
si los datos son de una clase u otra.

6. Visualización de datos, es un modo que muestra gráficamente la distribución de


todos los atributos mostrando gráficas en dos dimensiones, en las que va
representando en los ejes todos los posibles pares de combinaciones de los atributos.

2.8.1.3 FORMAS DE ACCESO


WEKA se puede utilizar de 3 formas distintas [Garcia, 2005] :

1. Desde la línea de comandos : cada uno de los algoritmos incluidos en WEKA se pueden
invocar desde la línea de comandos de MS-DOS como programas individuales. Los
resultados se muestran únicamente en modo texto.

43
.
2. Desde uno de los interfaces de usuario WEKA dispone de 4 interfaces de usuario
distintos, que se pueden elegir después de lanzar la aplicación completa. Los interfaces son:
• Simple CLI (command line interface): interfaz en modo texto.

• Explorer: interfaz gráfico básico. (Figura II.11)

• Experimenter: interfaz gráfico con posibilidad de comparar el


funcionamiento de diversos algoritmos de aprendizaje.

• KnowledgeFlow: interfaz gráfico que permite interconectar distintos


algoritmos de aprendizaje en cascada, creando una red.

3. Creando un programa Java : la forma en la que se puede utilizar el programa WEKA es


mediante la creación de un programa Java que llame a las funciones que se desee. El código
fuente de WEKA está disponible, con lo que se puede utilizar para crear un programa propio.

2.9 CONCLUSIONES DEL CAPÍTULO


La minería de datos es útil para la extracción de conocimiento en grandes cantidades de
datos, para descubrir este conocimiento se debe llevar a cabo las etapas de planteamiento de
objetivos, selección, preprocesamiento y transformación antes de aplicar una técnica de
minería de datos.

Para elegir una técnica de Minería de datos depende de los resultados que se quiera
obtener, se puede elegir entre técnicas supervisadas y no supervisadas. Un ejemplo de una
técnica no supervisada es el agrupamiento o clustering que busca segmentar o agrupar un
conjunto de datos en subconjuntos o grupos según sus similitudes, un algoritmo de
clustering comúnmente utilizado es el algoritmo k-means Para tratar de conocer los
atributos relevantes después de aplicar clustering se puede aplicar árboles de decisión.

Por la continua evolución de la minería de datos se puede encontrar varias herramientas,


una de ellas es Weka que es conocida por contar con licencia GPL, por la variedad de
algoritmos incorporados, la interfase gráfica y su fácil manejo.

44
.
Para analizar los datos proporcionados por el Sistema de Información Educativa (SIE), se
tiene varios indicadores como la población escolar, la tasa de aprobación por niveles, la tasa
de abandono y el rezago escolar, en los que se concluye que los resultados son críticos más
que todo en el área rural.

Por lo tanto, en este capítulo se ha desarrollado los conceptos más importantes que son
útiles para el siguiente capítulo, en el que se llevará a cabo las etapas del descubrimiento de
conocimiento aplicando el algoritmo k-means y reglas de asociación para finalmente
interpretar los resultados obtenidos.

45
.
CAPÍTULO III
DESARROLLO

3.1 ANÁLISIS DE LA FUENTE DE DATOS DEL SISTEMA DE INFORMACIÓN


EDUCATIVA
Como el Sistema de Información Educativa (SIE) es la consolidación de la información
Educativa a nivel Nacional y con información desde el año 2000 se considera como un
Almacén de Datos.

Toda la información con la que cuenta el SIE esta almacenada en tablas de una base de
datos estructurada en SQL Server de Microsoft y engloba una amplia gama de información,
que incluye varios temas como:

• Infraestructura
• Matrícula
• Formación Docente
• Recursos Humanos
• Materiales

Para el desarrollo del Proyecto se analiza específicamente la información acerca de la


Matriculación que incluye a la vez variedad de información respecto a la descripción de las
Unidades Educativas (UE) como su ubicación, características, cantidad de alumnos
(matriculación) en cada nivel y grado, cantidad de paralelos y otros aspectos que se
detallarán más adelante. Es cierto que los temas de Infraestructura, la formación de
Docentes, la distribución de aulas y la asignación de Items influye en la matriculación de

46
.
las UE pero dicha información no será considerada por el momento.

A partir del SIE se procede a realizar las fases de Selección, Preprocesamiento y


Transformación para conformar el Data set que se procesará por una técnica de Minería de
Datos, como se muestra en la siguiente Figura:

Interpretación
Minería
De Datos

Transformación
Conocimiento

Preprocesamiento
Patrones

4
Selección 3
2 Datos
1
Transformados
Datos
Datos Preprocesados
Seleccionados
SIE

Datos

Figura III.1. Etapas del Proceso KDD

Este proceso puede realizarse de manera cíclica porque muchas veces al aplicar una técnica
de Minería de Datos no se obtiene los resultados satisfactorios, por lo que se regresa a las
fases anteriores. En este capítulo se explicará el desarrollo y análisis de cada etapa para el
descubrimiento de conocimiento (Ver Figura III.1). En la fase de selección se extraen los
atributos de las tablas más relevantes relacionados con la matriculación del sistema SIE
para unificar en una sola tabla denominada data set. En la fase de preprocesamiento se
utilizan métodos estadísticos como histogramas para conocer mejor los datos seleccionados,
de esta manera se identifican valores faltantes, mínimos, máximos y erróneos. En la fase
de transformación se realiza la normalización, la numerización, el tratamiento de
dimensionalidad, el tratamiento de valores erróneos y faltantes.

47
.
Una vez concluida las fases anteriores ya se tiene un data set limpio preliminar. En la fase
de minería de datos se aplica el algoritmo k-means de Clustering y el algoritmo J.48 de
Árboles de Decisión mediante la herramienta WEKA. Posteriormente se desarrolla una
herramienta de minería de datos programado en Delphi que incluye una herramienta de
visualización multidimensional para realizar un análisis exploratorio visual de los datos y
el algoritmo k-means de Clustering para agrupar los datos de acuerdo a su similitud.
Finalmente, se interpretan y analizan los resultados obtenidos. El diagrama de proceso de
éstas etapas se muestra en la Figura III.2

INTERPRETACIÓN
DEL PROBLEMA - ANÁLISIS DE LA FUENTE
DE DATOS SIE
- SELECCIÓN DE
SELECCIÓN ATRIBUTOS RELEVANTES

PREPARACIÓN
DE DATOS - HISTOGRAMAS
PREPROCESAMIENTO - VALORES MÁXIMOS
- VALORES MÍNIMOS
- MEDIA.
- VALORES FALTANTES
- VALORES ERRONEOS
- NUMERIZACIÓN
- REDUCCIÓN DE ATRIBUTOS
TRANFORMACIÓN - ATRIBUTOS DERIVADOS

PROGRAMACIÓN DE UNA
EXPLORACIÓN
HERRAMIENTA
MEDIANTE
VISUALIZACIÓN
VISUALIZACIÓN
MULTIDIMENSIONAL

ALGORITMO
K-MEANS
APLICACIÓN DE LA
HERRAMIENTA WEKA
MINERÍA DE
DATOS
ALGORITMO
J.48
PROGRAMACIÓN DEL
ALGORITMO K-MEANS

INTERPRETACIÓN Y
ANÁLISIS DE
PATRONES

Figura III.2. Diagrama de Procesos para el desarrollo del Proyecto

48
.
3.2 PREPARACIÓN DE DATOS

3.2.1 FASE DE SELECCIÓN


Para el caso de la Matriculación incluyen varias tablas, las principales son: la tabla
Matricula Grado que describe la cantidad de matriculados por grado-nivel y la tabla
Matricula Paralelo que describe la cantidad de matriculados por paralelo. Estas tablas están
relacionadas con las tablas de Unidad Educativa, Nivel, Grado, Dependencia, Cerrado y
otros.

A continuación se muestra las tablas seleccionadas para el análisis:

• Tabla Unidad Educativa (t_ues): esta tabla contiene información acerca de las
características de las unidades educativas como el código, nombre, teléfono, multigrado,
etc.

Tabla: Unidad Educativa (t_ues)


Campo Descripción Tipo Observaciones
cod_ue Código de la unidad educativa numérico De 8 dígitos Ej: 10710001
gest Gestión numérico 1999,2000,2001,2002,2003,2004
des_ue Nombre de la unidad educativa cadena Ej: Central canuta, German Buch
cod_conv Código de convenio numérico Ej: 1. Fe y alegría, 3. UNICEF...
multigr Multigrado cadena Falso, Verdadero
teléfonos Teléfono opcional numérico Ej. 2495842
obs_ue Observaciones de la unidad cadena Ej. No se trabaja con transformación

cod_cen Código de centro numérico Cada código representa a un tipo de


centro. educativo
dependencia Código de dependencia cadena Eje. Fiscal - Privado - Convenio
cod_cerr Código de cerrado numérico Ej. 1=abierto - 2=cerrado
obs_cerr Observaciones si esta cerrada. cadena descripción de motivos de la UE cerrada
rue_ue Si esta en el rue cadena Verdadero o falso
e_mail correo electronico cadena
turnos Turnos con las q cuentan la cadena Ej: M-T
cod_org_curr Código de educación formal numérico Ej. 1. formal - 2 alternativa.
des_org_curr Descripción el tipo de cadena
moda_bachi Modalidad de bachillerato cadena Ej.Humanistico, Bachiller en humanidades
sie_temp. Los datos están temporalmente cadena Verdadero, falso
fax dirección de fax cadena

Tabla III.1 Tabla Unidad Educativa

49
.
• Tabla Matricula-Grado (t_mat_grad): indica la cantidad de matriculados de cada
gestión (1999-2007) de un determinado nivel y grado, que a su vez están separados por
inicio de gestión y fin de gestión por la variable operat ( 1 significa inicio de gestión y 3
significa fin de gestión).

Tabla: Matricula Grado ( t_mat_grad)


Campos Descripción Tipo Observaciones
cod_ue Codigo de UE Numérico De 8 dígitos Ej: 10710001
gest Gestión Numérico Ej. 1999-2006
Número de operativos de
operat Numérico Ej Inicio de Ges, 3 Fin de Gest
levantamiento de información
cod_niv Código de nivel cadena De 2 dígitos Ej: 01,02
cod_cic Codigo de ciclo Numérico De 3 dígitos Ej. 001,002
grado Grado Numérico Ej. 1 = primer grado
var_Mat código de tipo de matriculación Numérico Ej. 1= Inscritos nuevos
Sexo Sexo Caracter V,M
Cantidad Cantidad de alumnos Numérico 1,2,3,.....

Tabla III.2 Tabla Matricula por Grado

• Tabla Matricula-Paralelo (t_mat_para): indica la cantidad de matriculados en cada


paralelo de un determinado nivel y grado entre las gestiones 1999-2007 .

Tabla: Matricula Paralelo ( t_Mat_para)


Campos Descripción Tipo Observaciones
cod_ue Codigo de UE Numérico De 8 dígitos Ej: 10710001
gest Gestión Numérico Ej. 1999-2006

operat Número de operativos de Ej Inicio de Ges, 3 Fin de


Numérico
levantamiento de información Gest
cod_niv Código de nivel cadena De 2 dígitos Ej: 01,02
cod_cic Codigo de ciclo Numérico De 3 dígitos Ej. 001,002
grado Grado Numérico Ej. 1 = primer grado
cod_turn Codigo de turno Numérico De 1 dígito Ej 1=mañana
Paralelo Paralelo Caracter A-Z
Sexo Sexo Caracter V,M
Cantidad Cantidad de alumnos Numérico 1,2,3,.....

Tabla III.3 Tabla Matricula por Paralelo

50
.
• Tabla Departamento (t_depar): asigna un código único a cada uno de los nueve
departamentos para que puedan acceder las tablas que hacen referencia al departamento.

Tabla: Departamento( t_depar)


Cod_dep Des_dep
1 Chuquisaca
2 La Paz
3 Cochabamba
4 Oruro
5 Potosi
6 Tarija
7 Santa Cruz
8 Beni
9 Pando
Tabla III.4 Tabla Departamento

• Tabla Cantón (t_canton): asigna un código único a un cantón en el campo cod_can y su


nombre en el campo des_can, pero además incluye los códigos del departamento,
provincia y sección a la que pertenece el cantón.

Tabla: Cantón ( t_canton)


Campos Descripción Tipo Observaciones
cod_dep Código de Departamento Numérico 1-9
cod_pro Código de provincia Numérico 0-20
cod_sec Código de sección Numérico 0-8
cod_can Código de cantón Numérico 0-26
des_can Nombre del cantón Cadena Ej. PALCA, COHONI

Tabla III.5 Tabla Cantón

• Tabla Nivel (t_nivel): asigna un código único a los nueve niveles existentes tanto en la
educación formal como alternativa.

Tabla: Nivel (t_nivel)


Cod_niv Cod_org_curr Des_niv
01 1 Pre-escolar
02 1 Primaria
03 1 Secundaria
04 3 Superior
05 2 De Adultos
06 2 Especial

Tabla III.6 Tabla Nivel

51
.
• Tabla Grado(t_grado): asigna un código único a los nueve grados existentes incluyendo
la edad establecida para cursar cada grado.

Tabla: Grado ( t_grado)


Grado Des_grado
0 Guarderia
1 Primero
2 Segundo
3 Tercero
4 Cuarto
5 Quinto
6 Sexto
7 Séptimo
8 Octavo

Tabla III.7 Tabla Grado

• Tabla Dependencia (t_depn): asigna un código único al tipo de dependencia Fiscal o


Estatal, Privada, Convenio y Comunitaria.

Tabla: Dependencia ( t_depn)


Cod_depn Des_depn Cod_tip_adm
1 Fiscal o Estatal 1
2 Convenio 1
3 Privada 2
5 Comunitaria 1

Tabla III.8 Tabla Dependencia

• Tabla Tipo de Matricula (t_tipo_mat): Esta tabla contiene los códigos y descripciones
del tipo de matrícula como por ejemplo: inscritos nuevos, efectivos,
promovidos(aprobados), reprobados, etc.

Tabla: Tipo de Matricula ( t_tipo_mat)


Cod_Mat Des_Mat
1 Inscritos Nuevos
2 Inscritos Repitentes
4 Efectivos
5 Promovidos
6 No incorporados
7 Extemporáneo nuevo

52
.
8 Extemporáneo repitente
9 Retirado Traslado
10 Retirado Abandono
11 Reprobados

Tabla III.9 Tabla tipo de Matricula

3.2.1.1 CONSOLIDACIÓN DE LA INFORMACIÓN EN UN DATA SET


Una vez seleccionadas las tablas se extrae los atributos más relevantes para estructurarlo en
una sola tabla denominada Data Set . Este proceso se realiza mediante consultas SQL
siguiendo los siguientes aspectos:

Unidad Educativa
Los atributos seleccionados con respecto a las características de la UE son:

9 Código: es la identificación de la Unidad Educativa, se representa con un número de


ocho dígitos.

9 Nombre de la UE.

9 Gestión: 2000-2006

9 Cerrado: identifica si la Unidad Educativa esta abierta o cerrada.

9 Multigrado: una Unidad Educativa es de tipo multigrado si un sólo docente dicta


clases a distintos grados en un mismo ambiente. En la tabla, este atributo se representa
con 1 ( si es multigrado) y 0 ( si no es multigrado).

9 Dependencia: se refiere al tipo de la Unidad Educativa, puede ser:


9 Pública: financiado por el Estado.
9 Privada: financiado por los padres o apoderados
9 Convenio: administradas por entidades privadas que han firmado convenio con
el Estado y recibe financiamiento del Estado por los profesores.
9 Comunitaria, los profesores son financiados por los padres de familia.

53
.
9 Nivel: Inicial, Primario y Secundario.

9 Grado: Los primeros grados pertenecen el ciclo de primeros aprendizajes y al ciclo de


preparación. Los grados del Nivel Primario incluye desde Primero de
Primaria hasta Octavo de Primaria. Los grados del Nivel Secundario incluye
desde Primero hasta Cuarto de Secundaria.

9 Ubicación : representa la ubicación de la UE descrito por Departamento, Provincia,


Sección, Cantón, Localidad y Zona.

Matrícula

Los atributos seleccionado con respecto a la matriculación son:


9 Paralelo: cantidad de paralelos de todos los grados y niveles.
9 Matricula: cantidad de alumnos que asistieron regularmente a clases hasta la
finalización de una gestión.
9 Tipo de Matriculados:
9 Efectivos, alumnos que asistieron regularmente a clases hasta conclusión del
año escolar.
9 Promovidos, alumnos aprobados.
9 Reprobados, alumnos que perdieron el año.
9 Inscritos Nuevos, alumnos que en la gestión anterior estaban en un grado
inferior al actual y que se inscriben por primera vez al grado.
9 Inscritos repitentes, alumnos que vuelven a cursar el mismo grado en el que
estuvieron inscritos una gestión anterior ya sea por reprobación o por
abandono.
9 No incorporados, es la cantidad de alumnos que habiéndose inscrito nunca
asistieron a clases.
9 Retirado Traslado, son alumnos que se fueron a otra unidad educativa durante
el transcurso de la gestión escolar.
9 Retirado abandono, son alumnos que dejaron de asistir sin notificación y no
regresaron durante la gestión escolar.

54
.
Por lo tanto, el Data set conformado por los atributos seleccionados se muestra en la Tabla
III.10. Se ha preparado 63 tablas, una para cada Departamento (9 departamentos) y
Gestión (2000-2006) con los mismos atributos. Por ejemplo en la Tabla III.10 se muestra el
data set perteneciente a La Paz de la gestión 2005.

DATA SET LA PAZ 2005


Campos Descripción Tipo Val Min Val Max
Cod_UE Código de la UE numérico
Nombre Nombre de la UE Nominal
P_INI0 Paralelos en el grado 0 del nivel inicial numérico 0 2
P_INI1 Paralelos en el grado 1 del nivel inicial numérico 0 5
P_INI2 Paralelos en el grado 2 del nivel inicial numérico 0 8
P_PRIM1 Paralelos en 1ro de Primaria numérico 0 8
P_PRIM2 Paralelos en 2do de Primaria numérico 0 8
P_PRIM3 Paralelos en 3ro de Primaria numérico 0 8
P_PRIM4 Paralelos en 4to de Primaria numérico 0 9
P_PRIM5 Paralelos en 5to de Primaria numérico 0 7
P_PRIM6 Paralelos en 6to de Primaria numérico 0 9
P_PRIM7 Paralelos en 7mo de Primaria numérico 0 9
P_PRIM8 Paralelos en 8vo de Primaria numérico 0 9
P_SEC1 Paralelos en 1ro de Secundaria numérico 0 9
P_SEC2 Paralelos en 2do de Secundaria numérico 0 8
P_SEC3 Paralelos en 3ro de Secundaria numérico 0 8
P_SEC4 Paralelos en 4to de Secundaria numérico 0 7
Mat_ INI0 Matriculados en el grado 0 del nivel inicial numérico 0 44
Mat_INI1 Matriculados en el grado 1 del nivel inicial numérico 0 153
Mat_INI2 Matriculados en el grado 2 del nivel inicial numérico 0 269
Mat_PRIM1 Matriculados en 1ro de Primaria numérico 0 323
Mat_PRIM2 Matriculados en 2do de Primaria numérico 0 330
Mat_PRIM3 Matriculados en 3ro de Primaria numérico 0 342
Mat_PRIM4 Matriculados en 4to de Primaria numérico 0 368
Mat_PRIM5 Matriculados en 5to de Primaria numérico 0 310
Mat_PRIM6 Matriculados en 6to de Primaria numérico 0 340
Mat_PRIM7 Matriculados en 7mo de Primaria numérico 0 403
Mat_PRIM8 Matriculados en 8vo de Primaria numérico 0 408
Mat_SEC1 Matriculados en 1ro de Secundaria numérico 0 467

55
.
Mat_SEC2 Matriculados en 2do de Secundaria numérico 0 386
Mat_SEC3 Matriculados en 3ro de Secundaria numérico 0 355
Mat_SEC4 Matriculados en 4to de Secundaria numérico 0 318
Efectivos Cantidad de Efectivos numérico 8 4.531
Promovidos Cantidad de Aprobados numérico 8 4.070
Reprobados Cantidad de Reprobados numérico 0 461
Insc_nuevos Inscritos Nuevos numérico 8 4.552
Insc_rep Inscritos Repitentes numérico 0 198
No_incorpor No incorporados numérico 0 152
Retir_tras Retirados por traslados numérico 0 152
Retir_aban Retirados por abandono numérico 0 354
Multigrado Aula multigrado booleano 0 1
Dependencia Tipo de UE Nominal
Dirección Ubicación Nominal
Zona Ubicación Nominal
Provincia Ubicación Nominal
Sección Ubicación Nominal
Cantón Ubicación Nominal
Localidad Ubicación Nominal
Area Área Rural o urbana Nominal

Tabla III.10 Data Set La Paz 2005

3.2.2 FASE DE PREPROCESAMIENTO


Para esta etapa se puede aplicar diferentes herramientas con el objetivo de conocer las
características de los atributos, en este caso se aplicará histogramas y más adelante se
utilizará la herramienta weka para mostrar este proceso.

El data set que se analizará es el perteneciente a los datos de La Paz de la gestión 2005.A
continuación se muestra la distribución de la matrícula por niveles de éstos datos.

Matrícula en los niveles Inicial, Primario y Secundario

Nivel Inicial

Solo hay 13 UE que tienen el Nivel Inicial 0 de las que 12 UE tienen menos de 50
alumnos y una UE tiene 103 alumnos (JESUS OBRERO MAÑANA) En el Nivel Inicial 1

56
.
hay 215 UE de las cuales 171 tienen menos de 50 alumnos. En el Nivel Inicial 2 hay 2.113
UE de las cuales 1.857 tienen menos de 50 alumnos (Ver Figura III.3)
2000 1857
1900
1800
1700
1600
1500
1400
1300
1200
1100
1000
900
800
700
600
500
400
300 171 151
200 95
100 12 1 29 15 10
0
<50 103 <50 51-100 101-192 <50 50- 100 101- 200 201- 336

INICIAL 0
INICIAL 1
INICIAL 2

Figura III.3 Distribución de matriculación en el Nivel Inicial

Nivel Primario ( 1ro a 5to)

En la Figura III.4 se muestra que un gran porcentaje de UE tienen una matrícula menor a
10 de 1ro a 5to de primaria. Por ejemplo hay 3.374 UE que tienen Primero de Primaria
(azul) tanto del área rural como urbana de las cuales 752 UE tienen menos de 10 alumnos.

2200

2000 1918 1896

1752
1800

1600
1458

1400
1224
1200 1105

1000 914 905


867
826
800

600

400
213 196 204 194 183 211
180 172 173 178
200 124 116 117 115 110

0
<10 10--30 31-50 51- 100- <10 10--30 31-50 51- 101- <10 10--30 31-50 51- 101- <10 10--30 31-50 51- 101- <10 10--30 31-50 51- 101-
100 283 100 284 100 286 100 269 100 280

Figura III.4 Distribución de matriculación en el Nivel Primario

57
.
Para conocer mejor los datos a continuación se describe la matriculación de los nueve
departamentos. En la Tabla III.11 se muestra la cantidad de Unidades Educativas en cada
departamento de la gestión 2006. Se puede observar que en La Paz, Santa Cruz,
Cochabamba y Potosí existe mayor porcentaje de Unidades Educativas que en el resto de
los departamentos.

Pando
U.E. Gestión 2006 T arija
Oruro
5% 2%
5%
Departamento Cantidad
Beni La Paz
La Paz 4003 5% 26%

Sucre
Sucre 1168
8%

Cochabamba 2337
Santa Cruz 2795
Potosí
Potosí 2151
14%

Oruro 696 Santa Cruz


19%
Tarija 723 Cocha
16%
Beni 786 La P az Santa Cruz Co chabamba
P o to sí Sucre B eni
Pando 230 Tarija Oruro P ando

Tabla III.11 Unidades Educativas Figura III.5 Distribución de Unidades


Gestión 2006 Educativas

En las siguientes Tablas y Figuras se muestran la cantidad promedio de alumnos efectivos


(alumnos que asistieron regularmente a clases hasta la conclusión del año escolar) de cada
departamento. Por ejemplo en la Tabla III.12 se muestra la descripción de la matriculación
en el departamento de La Paz. La UE con menor matricula es la UE JUNIN 2005 con 3
alumnos. La Unidad con mayor matricula es la UE BOLIVIANO ALEMAN AVE MARIA
2006 con 4.658 alumnos.

Matriculación La Paz
185
Valor Valor
Gestión Promedio 180
Máximo Mínimo
2000 163 4025 7 175

2001 165 3983 7 170

2002 172 4015 5 165

2003 176 4239 5 160

2004 179 4340 7 155

2005 180 4531 3 150


2000 2001 2002 2003 2004 2005 2006
2006 177 4658 5

Tabla III.12 Alumnos Efectivos en el Figura III.6 Distribución de alumnos


Departamento de La Paz. Efectivos en el Departamento de La Paz.

58
.
En el Departamento de Sucre la distribución de alumnos efectivos es ascendente ( Figura
III.7). La Unidad con menor matricula es la UE LAS LOMAS 2006 con 7 alumnos. La
Unidad con mayor matricula es la UE LA RECOLETA 2006 con 2.228 alumnos.

Matriculación Sucre
135
Valor Valor
Gestión Promedio
Máximo Mínimo 130
2000 117 2009 14
125
2001 122 2085 7
120
2002 126 2122 10
115
2003 129 2146 9
110
2004 133 2166 9
105
2005 133 2188 9
2000 2001 2002 2003 2004 2005 2006
2006 133 2228 7

Tabla III.13 Alumnos Efectivos en el Figura III.7 Distribución de alumnos


Departamento de Sucre. Efectivos en el Departamento de Sucre

En el Departamento de Cochabamba la distribución es más variada (Figura III.8). La Unidad


con menor matricula es la UE NIÑO SIMON 2000 con 2 alumnos. La Unidad con mayor
matricula es la UE FRANZ TAMAYO 2004 con 2.373 alumnos.

Matriculación Cochabamba
Valor Valor 195
Gestión Promedio
Máximo Mínimo 190
2000 178 1883 2 185
2001 168 1877 7 180

2002 175 2010 6 175


170
2003 181 2172 6
165
2004 184 2373 6 160
2005 186 1755 6 155
2000 2001 2002 2003 2004 2005 2006
2006 190 1825 7

Tabla III.14 Alumnos Efectivos en el


Departamento de Cochabamba. Figura III.8 Distribución de alumnos
Efectivos en el Departamento de Cochabamba

En el Departamento de Santa Cruz la distribución es ascendente ( Figura III.9) La Unidad


con menor matricula es la UE CHIRGUANAÑAN 2006 con 3 alumnos.

59
.
La Unidad con mayor matricula es la UE INTERNACIONAL BETHESDA II 2006 con
3.173 alumnos.

Matriculación Santa Cruz


245
Valor Valor 240
Gestión Promedio
Máximo Mínimo
235
2000 211 2175 3
230
2001 218 2149 5 225
220
2002 227 2176 2
215
2003 235 2647 7 210
205
2004 240 2709 6
200
2005 241 2964 4 195
2000 2001 2002 2003 2004 2005 2006
2006 237 3173 3

Tabla III.15 Alumnos Efectivos en el Figura III.9 Distribución de alumnos


Departamento de Santa Cruz. Efectivos en el Departamento de Santa Cruz

En el Departamento de Potosí la matriculación del 2003 al 2006 permanece casi constante


(Figura III.10). La Unidad con menor matricula es la UE ISLA 2006 con 4 alumnos. La
Unidad con mayor matricula es la UE SIGLO XX AMERICA. 2006 con 1.276 alumnos.

Matriculación Potosí
104
Valor Valor
Gestión Promedio
Máximo Mínimo 102
2000 95 1155 4
100
2001 96 1171 5 98
2002 99 1159 7 96
2003 101 1228 6 94
2004 101 1265 5 92

2005 101 1274 7 90


2000 2001 2002 2003 2004 2005 2006
2006 102 1276 4

Tabla III.16 Alumnos Efectivos en el Figura III.10 Distribución de alumnos


Departamento de Potosí. Efectivos en el Departamento de Potosí

En el Departamento de Tarija la distribución es ascendente. (Figura III.11). La Unidad con


menor matricula es la UE CHAUPIUNO 2006 con 5 alumnos.

60
.
La Unidad con mayor matrícula es la UE LA SALLE. 2006 con 1.260 alumnos.

Matriculación Tarija
Valor Valor 165
Gestión Promedio
Máximo Mínimo 160
2000 142 1191 7
155
2001 147 1141 7
150
2002 150 1148 8 145

2003 154 1192 8 140

2004 159 1275 6 135

2005 162 1254 6 130


2000 2001 2002 2003 2004 2005 2006
2006 157 1260 5

Tabla III.17 Alumnos Efectivos en el Figura III.11 Distribución de alumnos


Departamento de Tarija. Efectivos en el Departamento de Tarija

En el Departamento de Beni la distribución es ascendente. (Figura III.12). La Unidad con


menor matricula es la UE EL TORO 2006 con 4 alumnos. La Unidad con mayor matricula
es la UE LA SALLE. 2006 con 1.136 alumnos.

Matriculación Beni
Valor Valor 160
Gestión Promedio
Máximo Mínimo
155
2000 137 801 7
150
2001 143 861 10
145
2002 151 942 6
140
2003 156 1060 7
135
2004 158 1030 6 130
2005 157 1064 7 125
2000 2001 2002 2003 2004 2005 2006
2006 155 1136 4

Tabla III.18 Alumnos Efectivos en el Figura III.12 Distribución de alumnos


Departamento de Beni. Efectivos en el Departamento de Beni.

En el Departamento de Pando la distribución es ascendente. (Figura III.13). La UE con


menor matrícula es SANTA ELENA 2000 con 3 alumnos. La UE con mayor matrícula es
NUESTRA SEÑORA DEL PILAR FE Y ALEGRIA. 2006 con 872 alumnos.

61
.
Matriculación Pando
90
Valor Valor
Gestión Promedio 80
Máximo Mínimo
2000 53 710 3 70
60
2001 57 780 4
50
2002 62 838 7 40
30
2003 65 831 6
20
2004 67 868 4 10

2005 71 872 6 0
2000 2001 2002 2003 2004 2005 2006
2006 77 801 6

Tabla III.19 Alumnos Efectivos en el Figura III.13 Distribución de alumnos


Departamento de Pando. Efectivos en el Departamento de Pando.

3.2.2.1 TRATAMIENTO DE VALORES FALTANTES


No todas las UE están registradas en el SIE, existen algunas que no cuentan con la
documentación requerida por el Ministerio de Educación por lo que son registradas de
forma manual porque no tienen un código asignado para la inserción al Sistema. Para el
desarrollo del proyecto se tomará en cuenta sólo las UE registrados en el Sistema

Existe además otras UE con información incompleta sobre matriculación, que no cuentan
con información de fin de gestión. Solo están registrados los de inicio de gestión que no
incluyen información de reprobados, aprobados, efectivos y retirados. Estos datos faltantes
se ha detectado con consultas SQL y con la comparación con los cubos dinámicos
publicados en la página del Ministerio de Educación.

La acción que se decidió con estos datos es eliminarlos porque representan solo el 6% de
toda la información.

3.2.1.2.2 TRATAMIENTO DE VALORES ERRONEOS

Se ha detectado algunos posibles errores como en el caso de los valores mínimos de


matriculación. Estos valores son muy pequeños como en el caso de las UE
CHIRGUANAÑAN de Santa Cruz, SANTA ELENA de Pando y JUNIN de La Paz que
cuentan con 3 alumnos. Puede que sean errores de transcripción, incompletos o pertenezcan
al área rural de tipo multigrado.

62
.
En la Tabla III.20 se muestran las características de las Unidades Educativas que tienen la
menor cantidad de alumnos efectivos, por ejemplo (columna 4) en los departamentos de
Santa Cruz y Pando existen tres unidades educativas (SANTA ELENA 2000,
CHIRGUANAÑAN 2006 y PIQUIRI 2000) con tres alumnos efectivos del área rural y
pertenece a multigrado.

Cantidad de Alumnos efectivos posiblemente erróneos


Efectivos Frecuencia Área Multigrado Departamentos
2 1 Rural No Santa Cruz

2 1 Urbana No Cochabamba

3 1 Urbana No La Paz

3 3 Rural Si Santa Cruz, Pando

4 12 Rural Si Santa Cruz, Potosí, Beni y Pando

5 1 Rural No Santa Cruz


La Paz, Santa Cruz, Potosí, Oruro, Tarija, Beni y
5 18 Rural Si
Pando.

Tabla III.20 Cantidad de alumnos efectivos posiblemente erróneos.

Los que no pertenecen a multigrado no justifican la poca cantidad de alumnado,


posiblemente no están completos, se cerró la Unidad Educativa o simplemente fue un error
de transcripción, por lo que se consideran valores erróneos y se procede a eliminarlos.

3.3 PROCESO DE TRANSFORMACIÓN


Se debe transformar los datos para ajustarlos a los requisitos de entrada del algoritmo de
minería de datos. Para este proceso se realizarán los siguientes pasos: numerización,
reducción de atributos y la extracción de características para la generación de nuevos
atributos.

Numerización
Es el proceso de convertir valores nominales a numéricos. Este cambio se realiza porque
se adecua mejor los valores numéricos a los distintos algoritmos que se aplicarán más
adelante. Se tratará los atributos de área y dependencia.

63
.
Área :
Rural Æ 1
Urbana Æ 2
Dependencia :
Pública o Fiscal Æ 1
Convenio Æ2
Privada Æ3
Comunitaria Æ4

Atributos omitidos
Algunos atributos del data set no están adecuados para aplicar algoritmos de agrupamiento,
por ejemplo en el caso del atributo código que es único para cada UE , por lo que no resulta
adecuado introducirlo. Se eliminarán además los atributos de domiciliaria porque el
algoritmo de agrupamiento tratará de agruparlos simultáneamente por ubicación pero lo que
se quiere lograr es agrupar distintos comportamientos acerca de la matriculación.
Por lo que se procederá a eliminar los siguientes atributos:
9 Cod_UE
9 Nombre
9 Dirección
9 Zona
9 Provincia
9 Sección
9 Cantón
9 Localidad

Extracción de Características
En la transformación de atributos se puede transformar un conjunto de atributos en otros, o
bien derivar nuevos atributos a partir de otros.
En el proyecto se genera dos nuevos atributos: tasa de aprobación y tasa de abandono,
usando los datos de: efectivos, promovidos, reprobados, inscritos nuevos, inscritos repitentes,
no incorporados, retirado traslado y retirado abandono. Para el cálculo de la tasa de

64
.
aprobación se divide la cantidad de estudiantes promovidos entre la cantidad de estudiantes
efectivos como se muestra a continuación:

Tasa de aprob = Promovidos / Efectivos.

El cálculo de la tasa de abandono se realiza de la siguiente manera [1] :

Tasa de abandono = 1-( efectivos / (inscritos nuevos + inscritos repitentes


+ no incorporados ))

Data Set Transformado


El proceso de conformación del data set a partir de una base de datos involucra el proceso
de preparación y transformación de datos. El dataset transformado una vez eliminado los
campos y generado las tasa de aprobación y tasa de abandono se muestra en la tabla III.21.

DATA SET TRANSFORMADO


Campo Descripción Tipo
P_INI0 Paralelos en el grado 0 del nivel inicial numérico
P_INI1 Paralelos en el grado 1 del nivel inicial numérico
P_INI2 Paralelos en el grado 2 del nivel inicial numérico
P_PRIM1 Paralelos en 1ro de Primaria numérico
P_PRIM2 Paralelos en 2do de Primaria numérico
P_PRIM3 Paralelos en 3ro de Primaria numérico
P_PRIM4 Paralelos en 4to de Primaria numérico
P_PRIM5 Paralelos en 5to de Primaria numérico
P_PRIM6 Paralelos en 6to de Primaria numérico
P_PRIM7 Paralelos en 7mo de Primaria numérico
P_PRIM8 Paralelos en 8vo de Primaria numérico
P_SEC1 Paralelos en 1ro de Secundaria numérico
P_SEC2 Paralelos en 2do de Secundaria numérico
P_SEC3 Paralelos en 3ro de Secundaria numérico
P_SEC4 Paralelos en 4to de Secundaria numérico
Mat_ INI0 Matriculados en el grado 0 del nivel inicial numérico
Mat_INI1 Matriculados en el grado 1 del nivel inicial numérico

1
El cálculo de la tasa de abandono se puede realizar de varias formas, no necesariamente de la forma
propuesta.

65
.
Mat_INI2 Matriculados en el grado 2 del nivel inicial numérico
Mat_PRIM1 Matriculados en 1ro de Primaria numérico
Mat_PRIM2 Matriculados en 2do de Primaria numérico
Mat_PRIM3 Matriculados en 3ro de Primaria numérico
Mat_PRIM4 Matriculados en 4to de Primaria numérico
Mat_PRIM5 Matriculados en 5to de Primaria numérico
Mat_PRIM6 Matriculados en 6to de Primaria numérico
Mat_PRIM7 Matriculados en 7mo de Primaria numérico
Mat_PRIM8 Matriculados en 8vo de Primaria numérico
Mat_SEC1 Matriculados en 1ro de Secundaria numérico
Mat_SEC2 Matriculados en 2do de Secundaria numérico
Mat_SEC3 Matriculados en 3ro de Secundaria numérico
Mat_SEC4 Matriculados en 4to de Secundaria numérico
Efectivos Cantidad de Efectivos numérico
Promovidos Cantidad de Aprobados numérico
Insc_nuevos Inscritos Nuevos numérico
Insc_rep Inscritos Repitentes numérico
No_incorpor No incorporados numérico
Retir_tras Retirados por traslados numérico
Retir_aban Retirados por abandono numérico
Tasa_Aprob Tasa de aprobación numérico

Tasa_Aban Tasa de abandono numérico

Multigrado Aula multigrado booleano


Dependencia Tipo de UE numérico
Area Área Rural o urbana numérico

Tabla III.21 Data set Transformado

3.4 MINERIA DE DATOS


Como el data set ha sido preprocesado y transformado se puede aplicar una tarea de minería
de datos. La herramienta Weka (Ver Anexo A) proporciona el algoritmo k-means de
Clustering para agrupar los datos y detectar las características y similitudes entre las

unidades educativa, posteriormente se aplicará el algoritmo J.45 de Árboles de Decisión


para tratar de conocer los atributos relevantes en el clustering. Cabe destacar que se
analizará en los siguientes apartados el data set de La Paz 2005 que una vez procesado y
transformado resultó con 4.009 instancias y 43 registros.

66
.
3.4.1 ANÁLISIS MEDIATE LA HERRAMIENTA DE MINERÍA DE DATOS
WEKA
Se ha elegido la herramienta WEKA(Waikato Environment for Knowledge Analysis) por
contar con varias ventajas que le distinguen de las demás herramientas. A continuación se
listan algunas de estas ventajas:

• Es de distribución libre y gratuita


• Cuenta con una interfase gráfica amigable y es fácil de usar
• Tiene incorporado un amplio conjunto de algoritmos de minería de datos
• Esta programado en código abierto, permitiendo al usuario programador agregar
nuevas funciones según su necesidad.

Actualmente existen varias versiones de esta herramienta, pero para el desarrollo del
proyecto se utiliza la Versión 3.4.5. La ventana inicial se muestra en la Figura III.14. Tiene
cuatro opciones de acceso Simple CLI, Explorer, Experimenter y KnowledgeFlow, la más
utilizada por contar una interfaz gráfica es Explorer, es por ello que se elige esta opción.

Figura III.14 Ventana inicial de Weka.

La ventana Explorer (Ver Figura III.15) tiene las opciones de: Preprocesamiento,
Clasificación, Agrupamiento , Asociación, Selección de atributos y Visualización.

67
.

Figura III.15 Opciones de Explorer de Weka

Los datos se introducen en el formato CSV (Ver Figura III.16), por ejemplo una hoja de
cálculo tiene la opción de guardar los datos con esta extensión.

Figura III.16 Venta de introducción de datos de Weka

La herramienta Weka proporciona la opción de preprocesamiento (Ver Figura III.17). En


la primera parte de la ventana se visualiza la lista de atributos, en la segunda parte se
visualiza el tipo, la media, la varianza, el valor mínimo y máximo si el atributo es de tipo
numérico y la cantidad de instancias de una determinada variable si el atributo es de tipo
nominal, en la tercera parte se muestra en forma gráfica la distribución de los atributos.

68
.

1
2

Figura III.17 Ventana de Preprocesamiento de Weka.

En la Figura III.18a se muestra la distribución del atributo ÁREA, se observa que hay
3.038 UE rurales (representado por el color azúl) y 971 UE urbanas (representado por el
color rojo). En la Figura III.18b se muestra la distribución del atributo DEPENDENCIA
clasificado por área, se observa 3.548 UE fiscales en su mayoría rurales (azul), 239 UE
privadas en su mayoría urbanas(rojo), 212 UE de convenio en su mayoría rurales y 10 UE
comunitarias.

RURAL
FISCAL

URBANO

PRIVADO CONVENIO COMUNITARIO

Figura III.18a Distribución del atributo área. Figura III.18b Distribución del atributo área.

69
.
En la Figura III.18c se muestra la distribución de MULTIGRADO, se observa que la
mayoría de las UE son de tipo multigrado. En la figura III.18d se muestra el atributo TASA
DE APROBACIÓN en el rango de 0,66 como mínimo y 1 como máximo, se observa que la
mayoría tiene una tasa de aprobación de 1 en el área rural.

MULTIGRADO

NO MULTIGRADO

Figura III.18c Distribución del atributo multigrado Figura III.18d Distribución de tasa de aprobación

3.4.1.1 APLICACIÓN DE CLUSTERING


Para aplicar el algoritmo de K-means, se debe seleccionar la pestaña Cluster y escoger el
algoritmo SimpleKMeans como se muestra en la Figura III.19.

Figura III.19 Ventana Cluster de Weka

70
.
El algoritmo requiere el número de Clusters se probará con 2, 3, 4 y 5, posteriormente se
elegirá el número adecuado de clusters por medio de una análisis de distancias. Después
de ejecutar el algoritmo se muestra en la parte derecha el número de iteraciones, los
Centroides (representantes de grupo) representados por la media y la desviación estándar y
la cantidad de instancias pertenecientes a cada grupo.

3.4.1.2 ANÁLISIS DE DISTANCIAS PARA DETERMINAR EL NÚMERO DE


CLUSTERS

Para aplicar clustering es necesario determinar el número adecuado de clusters o grupos, se


puede definir y probar con diversos números, pero se necesita un criterio para seleccionar el
más coherente. Por tal motivo se ha realizado varios experimentos con 2, 3 , 4 y 5 clusters.

El criterio que se tomó en cuenta para seleccionar el número adecuado de clusters es : "el
número óptimo de clusters es aquel en el que los ejemplos tienen características que
generan pequeñas distancias dentro de los grupos y grandes distancias entre los grupos",

Por lo tanto se realizará el análisis de distancias.

Para el análisis de distancias la función más común es la distancia euclidiana que se basa
en la longitud de la recta que une dos puntos en el espacio euclídeo, para ello las instancias
numéricas. La función esta expresada de la siguiente manera:

n
d( O1 , O 2 ) = ∑ (x
i =1
1 ( O1 ) − x 1 ( O 2 )) 2

Es necesario normalizar los valores para que no ocurra problemas con los valores mínimos
y máximos . Por ejemplo las distancias debidas a diferencias de un atributo que va entre 0 y
100 serán mucho mayores que las distancias debidas a diferencias de un atributo que va
entre 0 y 10. La normalización más común es la normalización lineal uniforme, es la que se
utilizará en el presente proyecto, donde la variable normalizada esta en el rango de 0 a 1.

71
.
y − min
y' =
max − min
Donde: v es la variable a normalizar
min es el mínimo de los valores dados para ese atributo
max es el máximo de los valores dados para ese atributo
v' es la variable normalizada.
Los valores de las distancias calculadas para 2, 3 ,4 y 5 clusters se muestra en la Tabla
III.22.
DOS CLUSTERING CINCO CLUSTERING
Distancia entre clusters Distancia entre clusters
Distancia 0-1 1,3 Distancia 0-1 1,5
Distancia Acumulado dentro del cluster Distancia 0-2 1
Acumulado Cluster 0 2.891 Distancia 0-3 0,3
Acumulado Cluster 1 5.288 Distancia 0-4 0,7
Distancia 1-2 1
TRES CLUSTERING Distancia 1-3 1,5
Distancia entre clusters Distancia 1-4 1,2
Distancia 0-1 1,5 Distancia 2-3 1
Distancia 0-2 1,4 Distancia 2-4 1,2
Distancia 1-2 1,3 Distancia 3-4 0,7
Distancia Acumulado dentro del cluster Distancia Acumulado dentro del cluster
Acumulado Cluster 0 2.886 Acumulado Cluster 0 2.925
Acumulado Cluster 1 5.022 Acumulado Cluster 1 5.404
Acumulado Cluster 2 4.093 Acumulado Cluster 2 4.715
Acumulado Cluster 3 3.062
CUATRO CLUSTERING Acumulado Cluster 4 4.067
Distancia entre clusters
Distancia 0-1 1,5
Distancia 0-2 1
Distancia 0-3 0,3
Distancia 1-2 1
Distancia 1-3 1
Distancia 2-3 1
Distancia Acumulado dentro del cluster
Acumulado Cluster 0 3.923
Acumulado Cluster 1 5.330
Acumulado Cluster 2 4.193
Acumulado Cluster 3 4.396

Tabla III.22 Tabla de distancias.

72
.
Se observa que al aplicar dos clusters se tiene una distancia entre clusters de 1,3 y un
promedio de la distancia acumulada de 4.089 Con tres clusters la distancia máxima es 1,5 y
la mínima es de 1,3 y el promedio de la distancia mínima acumulada es de 4.000. Con
cuatro clusters las distancias entre clusters no son tan bajas, pero los acumulados son
mayores que con dos y tres clusters, lo mismo pasa con cinco clusters por lo que se descartan
Entre dos clustes y tres clusters no hay mucha diferencia pero el acumulado con tres clusters
es menor, es por ello que se ha elegido aplicar tres clusters.

3.4.1.3 ANÁLISIS DE LOS GRUPOS


La tabla de centroides con 43 atributos generado por la herramienta Weka se muestra en la
Tabla III.23. Se puede observar que por ejemplo el cluster 0 esta representado por un
promedio de cero paralelos en 8vo de Primaria (atributo P_PRIM8), 6 alumnos en 4to de
Primaria (atributo MAT_PRIM4) y tiene una tasa de aprobación (atributo T_APROB) de
99,5 %.

P_INI0 P_INI1 P_INI2 P_PRIM1 P_PRIM2 P_PRIM3 P_PRIM4 P_PRIM5 P_PRIM6 P_PRIM7

Cluster 0 0 0.0215 0.5055 0.959 0.9176 0.898 0.7594 0.6723 0.3855 0.2348
Cluster 1 0 0.029 0.5176 0.5921 0.5797 0.6046 0.5942 0.6149 0.7267 0.8219
Cluster 2 0.0145 0.2298 1.1408 1.4648 1.4141 1.3892 1.3706 1.3696 1.3737 1.3137

P_PRIM8 P_SEC1 P_SEC2 P_SEC3 P_SEC4 MAT_INI0 MAT_INI1 MAT_INI2 MAT_PRIM1 MAT_PRIM2 MATPRIM3

0.2121 0.0852 0.0797 0.0699 0.0609 0 0.1297 4.073 7.6746 6.1121 5.9832
0.8302 0.8923 0.8323 0.7847 0.7391 0 0.2774 10.735 12.1511 11.7557 12.4596
1.2702 1.1749 1.0611 0.9876 0.8944 0.2433 5.5828 34.736. 44.4534 42.4834 41.7474

MAT_PRIM4 MAT_PRIM5 MAT_PRIM6 MAT_PRIM7 MAT_PRIM8 MAT_SEC1 MAT_SEC2 MAT_SEC3 MAT_SEC4

5.7969 5.4199 4.2508 2.9355 2.5809 1.2547 0.9906 0.8188 0.6301


12.6729 13.1159 16.7619 18.6501 18.1014 20.617 17.3602 15.6501 13.8923
41.4824 41.4803 42.5248 40.5611 39.7629 40.0031 36.1718 34.1346 30.5787

EFECTIVOS PROMOV REPROB INSC_NUE INSC_REP NO_INC RET_TRAS RET_ABAN


48.6625 48.1355 0.3664 710.593 0.077 0.9855 0.1578 4.9008
194.2008 187.9172 5.1781 299.005 2.0455 4.5942 1.0186 18.0145
515.9503 498.3313 15.8364 51.6989 7.8137 9.8282 6.7277 24.8913

Cluster 0 2560 ( 64%)


Cluster 1 483 ( 12%)
Cluster 2 966 ( 24%)

73
.

T_APROB T_ABAN MULTIG DEPEN AREA


0.9953 0.0981 1 1.0563 1.002
0.9652 0.1101 0 1.0994 1
0.9679 0.0836 0 1.5466 2

Tabla III.23 Tabla de Centroides

Diagramas de Venn
Para comprender mejor las características de los grupos se puede aplicar diagramas de
Venn como se muestra en las Figuras III.20. El diagrama de Venn del Cluster 0 (Figura III.20
a) se interpreta de la siguiente manera: 2.445 instancias que son de tipo multigrado, fiscales
y del área rural; 5 instancias que son de tipo multigrado, fiscales y no pertenecen al área
rural; 110 instancias son de tipo multigrado, del área rural pero no son fiscales.

Cluster 0 ( 2560 Instancias)

Multigrado =si (2560) Dependencia = fiscal (2450)

0 5 0

2445
110 0

Área = rural (2555)

Figura III.20 a Diagrama de Venn del Cluster 0

En el diagrama de Venn del Cluster 1 (Figura III.20 b) se observa 439 instancias son de tipo
multigrado, fiscales y pertenecientes al área rural, sin embargo sólo 44 instancias son de tipo
multigrado que no son fiscales y pertenecen al área rural.

En el diagrama del cluster 2 (Figura III.20 c) se observa que 659 instancias son fiscales que
pertenecen al área urbana y no son de tipo multigrado, en cambio 307 instancias no son
fiscales, pertenecen al área urbana y no son de tipo multigrado.

74
.
Cluster 1 ( 483 Instancias)

Multigrado =no (483) Dependencia = fiscal (439)

0 0 0

439
44 0

Área = rural (483)

Figura III.20 b Diagrama de Venn del Cluster 1

Cluster 2 ( 966 Instancias)

Multigrado =no (966) Dependencia = fiscal (659)

0 0 0

659
307 0

Área = urbana (966)

Figura III.20 c Diagrama de Venn del Cluster 2

Gráficos de Dispersión
Con Weka se puede analizar los grupos de forma visual mediante gráficos de dispersión Por
ejemplo en la Figura III.21 se muestra la distribución de los grupos respecto a la
dependencia. Se observa que el primer grupo (azul) presenta una alta proporción de UE
fiscales, seguida por las de convenio y muy pocas privadas El segundo grupo(rojo) en su
mayoría son fiscales, seguido por convenio y no presenta ninguna comunitaria. El tercer

75
.
grupo(verde) tiene mayor distribución en privadas y de convenio a diferencia de los dos
grupos anteriores.

Figura III.21 Ventana de visualización del atributo dependencia

Con respecto a la matriculación en 4to de secundaria (Ver Figura III.22), se observa que el
tercer grupo tiene mayor dispersión acercándose más a la máxima matriculación, en
contraposición la distribución del primer grupo se acerca más a cero.

Figura III.22 Ventana de visualización del atributo matrícula en 4to Sec.

76
.
Gráfico de Barras.

Por medio de los gráficos de barras (Ver Figura III.23) que proporciona Weka, también se
puede visualizar la distribución de los grupos.

En la figura b se confirma que la mayor parte del cluster 0 pertenece al área rural y todos
los del cluster 2 son urbanas. En la figura c se muestra que la mayor parte del cluster 0
tiene una tasa de aprobación de 1, sin embargo en el cluster 2 se tiene una distribución más
homogénea, porque va reduciendo desde 1 casi en la misma proporción hasta
aproximadamente 0,7. En la figura d se muestra que la tasa de abandono del cluster 0 en su
mayoría es 0 y va descendiendo hasta 0,28. En la figura e se muestra que la mayoría del
cluster 0 y cluster 1 son unidades educativas fiscales, mientras que la mayoría del cluster 2
son unidades educativas privadas.

CLUSTER 0 RURAL

CLUSTER 2
URBANO

CLUSTER 1

a) Atributo Cluster b) Atributo Área

c) Atributo Tasa de aprobación d) Atributo Tasa de abandono

77
.

MULTIGRADO
FISCAL

NO MULTIGRADO

PRIVADO CONVENIO
COMUNITARIO

e ) Atributo Dependencia f) Atributo Multigrado

g ) Atributo Matrícula 1ro de Primaria h) Atributo Matrícula 4to de Secundaria

Figura III.23 Gráfico de Barras de Weka.

Por lo tanto, en base al análisis de la tabla de centroides, los diagramas de Venn y las
herramientas de visualización se puede dar una primera interpretación:

El primer grupo (64%) se caracteriza por unidades educativas con una baja cantidad de
alumnos efectivos, son de tipo multigrado y del área rural que tienen una tasa de abandono
promedio del 10% . A diferencia de los demás grupos es el que tiene mayor tasa de
aprobación. En cuanto a la matriculación, en el nivel primario se tiene un promedio de 6
alumnos por grado, sin embargo esta matriculación disminuye a 1 en el nivel secundario.

El segundo grupo (12%) se caracteriza por unidades educativas fiscales del área rural pero
que no son de tipo multigrado, tienen mayor tasa de abandono a diferencia de los dos
grupos y la distribución de la matrícula en todos los niveles es casi homogénea.

78
.
El tercer grupo (24%) se caracteriza por unidades educativas urbanas, en su mayoría son
fiscales y no son de tipo multigrado, se caracterizan además por contar con una alta
matriculación en todos los niveles con un promedio de 516 alumnos efectivos y tienen
menor tasa de abandono.

3.4.1.2 APLICACIÓN DE ÁRBOLES DE DECISIÓN


Después de aplicar Clustering, se etiquetan los datos para identificar a que grupo
pertenece cada instancia. La herramienta Weka genera automáticamente esta etiqueta (Ver
Figura III.24) creando un atributo denominado Cluster de tipo nominal después de aplicar
un algoritmo de clustering.

Figura III.24 Etiquetado de Clustering en Weka.

Como los datos ya están etiquetados ahora se puede aplicar algoritmos pertenecientes a los
árboles de decisión para identificar reglas pertenecientes a los grupos. Un algoritmo de
árbol de decisión muy utilizado es el algoritmo C4.5, en Weka se utiliza la terminología
J48 para referirse a este algoritmo. Para ejecutar esta opción se ingresa a la ventana de
clasificación, se ejecuta la opción J.48 y se elige el atributo clasificador como se muestra
en la Figura. III.25

79
.

Figura III.25 Ventana de Clasificación de Weka.

El algoritmo muestra los resultados en forma de diagrama y en forma gráfica mediante un


árbol. En la ventana de salida se muestra el diagrama y la matriz de confusión, para
visualizar el árbol de forma gráfica se hace click con el botón derecho sobre la lista de
resultados como se muestra en la Figura III.26.

Figura III.26 Ventana del algoritmo J.48 de Weka.

80
.
En la Figura III.27 se muestra el gráfico del árbol de decisión. Con la matriz de confusión se
comprueba que los clusters tienen sentido, ya que la confusión es cero.

Figura III.27 Árbol de decisión

Se puede expresar también mediante el siguiente pseudocódigo.

IF multigrado = si THEN cluster 0


ELSE IF area =rural THEN cluster 1
ELSE area= urbana THEN cluster 2
END
END

El gráfico se puede interpretar de la siguiente manera:

" si una UE no es multigrado y pertenece al área urbana, entonces pertenece al cluster 2


(966 instancias)".

81
.
" si una UE es de tipo multigrado, entonces pertenece al cluster 0, esta regla se cumple en
2.560 instancias".

" si una UE no es multigrado y pertenece al área rural, entonces pertenece al cluster1 (483
instancias)".

3.5 IMPLEMENTACIÓN DE LA HERRAMIENTA DE MINERÍA DE DATOS

En el presente proyecto se ha desarrollado una herramienta programado en Delphi 7


utilizando OpenGL para representar los datos de manera multidimensional y para usar la
técnica de Clustering k-means. El diagrama de secuencia se muestra en la Figura III.28, el
cual se observa que la entrada es el data set limpio, el siguiente proceso es la normalización
que es un paso previo a la visualización y a la aplicación del algoritmo k-means.

DATA
SET

VISUALIZACIÓN
NORMALIZACIÓN
MULTIDIMENSIONAL

ANÁLISIS MEDIANTE
ALGORITMO K-MEANS
EXPLORACIÓN

VISUALIZACIÓN DE
ANÁLISIS DE
CENTROIDES
RESULTADOS

Figura III.28 Diagrama de secuencia

82
.
Una presentación inicial del programa se muestra en las Figuras III.29.

Figura III.29 Pantalla Inicial

83
.
Se tiene cuatro opciones principales: el acceso a los datos, la normalización, la
visualización multidimensional y el algoritmo k-means.(Ver Figura III.30)

Los datos se cargan en formato de texto donde, en la primera fila están los nombres de los
atributos separados por tabulador y continúa con los datos a partir de la segunda fila también
separados por tabulador.

Para graficar es necesario normalizar los datos, se debe normalizar las variables numéricas
para normalizar la magnitud del efecto que cada variable tiene sobre los resultados. La
normalización se hace en los datos de los atributos y no así en todos los datos del Data
set.

ENTRADA DE
DATOS

NORMALIZACIÓN DE
DATOS

INGRESO A LA
PANTALLA DE
VISUALIZACIÓN

ALGORITMO K-
MEANS

Figura III.30 Opciones de acceso

84
.
3.5.1 VISUALIZACIÓN MULTIDIMENSIONAL

Aunque los datos están recopilados, seleccionados y limpios todavía no están listos para
realizar una tarea de minería de datos.

Es necesario, además realizar un reconocimiento o análisis exploratorio de los datos con el


objetivo de conocerlos mejor antes de aplicar una tarea de minería de datos. De esta
manera la técnica de visualización es útil para tener un conocimiento previo de los datos
para luego comparar y analizar los resultados con una técnica de minería de datos. En la
Figura III. 31 se muestra la pantalla de visualización donde se muestra el cubo con los
atributos: tasa de aprobación, efectivos, tasa de abandono, dependencia y área.

Figura III.31 Pantalla de visualización multidimensional

85
.
En la Figura anterior se muestra en el eje x la tasa de aprobación, en el eje y la cantidad de
alumnos efectivos , en el eje z la tasa de abandono, en el color la dependencia (Rojo=Fiscal,
Amarillo=Convenio, Cian = Privado, Azúl = Comunitaria) y en la forma el área ( cubo=
rural , esfera = urbana). Una vez cargado los datos se procede a la interpretación, por ejemplo
el punto encerrado en una circunferencia de la gráfica se puede interpretar de la siguiente
manera:

"El punto representa a una UE fiscal del área urbana con una baja cantidad de alumnos
efectivos, una tasa de aprobación regular y una alta tasa de abandono ".

Realizando varias exploraciones visuales combinando diferentes variables, se ha


identificado algunos comportamientos:

"Hay más unidades educativas fiscales (representado por el color rojo), se observa
además que a mayor matrícula existe menor tasa de abandono" ( Ver Figura III.32).

Figura III.32 Visualización Efectivos-Tasa de aban-Dependencia

Los datos en el ejemplo de la Figura III.33 pertenecen al área urbana, en la parte inferior se
muestra a las UE fiscales(rojo), seguido por las UE de convenio (amarillo) y las UE
privadas ( cyan). en la que se observa el siguiente comportamiento

86
.
" La tasa de aprobación es mayor en las unidades educativas privadas y de convenio que
en las unidades educativas fiscales del área urbana".

Figura III.33 Visualización Dependencia- Tasa de aprobación

En las Figuras III.34 y III.35 se muestra la distribución con respecto a la matrícula en 5to de
primaria( representado por el eje y), la tasa de aprobación( representado por el eje x), y la
tasa de abandono( representado por el eje z), del área rural y urbana.

Figura III.34 Visualización Matrícula en 5to de Primaria


- Tasa aprobación - Tasa de abandono del área rural

87
.

Figura III.35 Visualización Matrícula en 5to de Primaria


- Tasa aprobación - Tasa de abandono del área urbana

Observando éstos gráficos se deduce lo siguiente:

"En 5to de primaria del área rural se tiene mayor tasa de abandono y mayor tasa de
aprobación. Sin embargo el área urbana se tiene una distribución más dispersa, donde
las unidades educativas con menor matrícula tienen menor tasa de aprobación y mayor tasa
de abandono. Estos comportamientos son similares en los grados de 1ro a 4to de
Primaria".

Con respecto a la matrícula en 4to de secundaria se muestran en las Figuras III.36 y III37.

Figura III.36 Visualización Matrícula en 4to de Secundaria


- Tasa aprobación - Tasa de abandono del área urbana

88
.

Figura III.37 Visualización Matrícula en 4to de Secundaria


- Tasa aprobación - Tasa de abandono del área urbana

En 4to de Secundaria se presenta menor tasa de aprobación sobre todo en el área


urbana. En el área rural se reduce la matriculación más que todo en las unidades educativas
fiscales y de igual forma se tiene mayor tasa de abandono, sin embargo en el área urbana,
se incrementa la matrícula en unidades educativas fiscales y se reduce la tasa de
aprobación. Este comportamiento es similar a 1ro, 2do y 3ro de secundaria.

3.5.2 ALGORITMO K-MEANS

El algoritmo k-means parte de un número determinado de grupos y los ejemplos a


agrupar sin etiquetar, los centros de cada partición se calculan como la media de los
ejemplos pertenecientes a cada grupo. A medida que el algoritmo se va ejecutando, algunos
ejemplos cambian de un grupo a otro, debiendo recalcularse los centros en cada paso.

1. Elegir k ejemplo que actúan como semillas(k número de clusters).

2. Para cada ejemplo, se calcula el grupo más próximo y se incluye en la lista de


ejemplos de dicho grupo.

89
.
3. Se calcula el centroide de cada grupo por medio de la media o la mediana si los
datos son numéricos y la moda si los datos son nominales, que pasan a ser las nuevas
semillas.

4. Se repite el procedimiento hasta que ya no se desplazan los ejemplos.

En la Figura III.38 se muestra la pantalla de k-means donde los datos ya están cargados y se
muestran normalizados, en consiguiente ya se puede elegir la cantidad de grupos y
determinar los centroides.

Cantidad
de grupos

Atributo a
graficar

Figura III.38 Pantalla del Algoritmo K-means.

En la Figura III.39 se muestra un ejemplo con tres grupos, los centroides se muestran en
una tabla y para comprender mejor la distribución de los grupos se muestra una gráfica en la
parte inferior.

90
.

Figura III.39 Determinación y gráfica de los centroides

Para ver los datos completos de los centroides y no así normalizados, se elige la opción
Datos Completos donde se visualizan los datos con código, nombre, paralelo, matrícula y el
resto de atributos de cada grupo y centroide (Ver Figura III.40).

Figura III.40 Visualización los grupos y centroides

91
.
3.5.3 CRITERIOS DE CALIDAD DE LA HERRAMIENTA
Para evaluar los criterios de calidad de la herramienta implementada se basa en la Norma
ISO IECE 9126 en la que evaluando las seis características para categorizar la calidad del
software se llegó a la siguiente conclusión:

La herramienta es funcional porque es apropiado para la exploración de datos que se


adecua al proceso de minería de dato y cumple con la funcionalidad ya que el algoritmo k-
means genera los centroides de los grupos (representantes de cada grupo) por el que se
puede identificar el comportamiento de éstos.

La herramienta es usable por la comprensibilidad y la facilidad de aprendizaje mediante la


visualización de datos de forma gráfica que resulta atractivo para el usuario.

La herramienta es eficiente porque es una herramienta de análisis y no se necesita actualizar


constantemente su estructura, y por la utilización de librerías gráficas para la elaboración
de la visualización.

La herramienta es portable porque se puede instalar en cualquier sistema operativo y no


necesita notables requerimientos para su ejecución.

3.5.4 ANÁLISIS DE LOS GRUPOS OBTENIDOS POR LA HERRAMIENTA


Las características de los grupos y centroides encontrados mediante la herramienta
implementada son similares a las encontradas con la herramienta Weka. A continuación
se describe el comportamiento estos grupos :

El primer grupo (75%) representa a las UE del área rural que en su mayoría son
multigrado y fiscales, tienen un promedio de 70 alumnos efectivos, una tasa de aprobación
promedio de 98% y una tasa de abandono promedio de 4%"

El segundo grupo(17% ) constituye UE urbanas , con un promedio de 296 alumnos


efectivos, tienen una alta tasa de abandono y en su mayoría son fiscales.

92
.
El tercer grupo(8%) se caracteriza por UE privadas del área urbana, con un promedio de
953 alumnos efectivos.

3.6 CONCLUSIONES DEL CAPÍTULO


Las etapas de preparación y transformación de datos representa la parte más tediosa porque
que involucra más tiempo para su desarrollo. Sin embargo dependen de éstas etapas los
resultados que se obtengan después de aplicar una técnica de minería de datos ya que la
selección de atributos, el tratamiento de valores faltantes, erróneos o con ruido, la
transformación de formato y el aumento o reducción de atributos influyen de gran manera
en la salida del algoritmo de minería de datos.

Los patrones de comportamiento de los tres grupos encontrados aplicando k-means y las
reglas mediante árboles de decisión reflejan el estado situacional de la educación formal.
La herramienta weka resulta útil para encontrar éstos patrones, además contiene lo
necesario para realizar el análisis como la visualización, las estadísticas, el filtrado entre
otros.

Al momento de aplicar clustering, es importante determinar el número adecuado de clusters


o grupos mediante un análisis de distancias para segmentar de mejor manera los grupos.

La utilización de la herramienta de visualización multidimensional que se ha desarrollado es


útil para el análisis exploratorio de los datos ya que resulta efectivo conocer mejor los datos
antes de aplicar un algoritmo de minería de datos.

Los patrones obtenidos con la herramienta weka son similares a los encontrados con la
herramienta implementada, con lo que se asegura y refuerza el conocimiento encontrado.

De esta manera se ha cumplido los objetivos principal y secundarios formulados en el


primer capítulo con excepción del análisis de resultados que se lo realizará en el siguiente
capítulo.

93
.
CAPITULO IV
ANÁLISIS DE RESULTADOS.

Después de haber realizado el proceso de minería de datos la siguiente fase es la


interpretación y análisis de los resultados.

4.1 VALIDACIÓN DE RESULTADOS


Para realizar este análisis se validarán los patrones obtenidos en el anterior capítulo con las
información preexistente acerca de la situación educativa.

Antes, mencionaremos un resumen de los patrones de comportamiento encontrados en el


anterior capítulo :

El primer cluster es el que tiene mayor cantidad de instancias y se caracteriza por


unidades educativas con una baja cantidad de alumnos efectivos, son de tipo multigrado, del
área rural, tienen mayor tasa de aprobación, una tasa de abandono de 10% y la
matriculación en el nivel primario tiene un promedio de 6 alumnos por grado, sin
embargo esta matriculación disminuye a 1 en el nivel secundario.

El segundo cluster se caracteriza por unidades educativas fiscales del área rural pero que
no son de tipo multigrado, tienen mayor tasa de abandono a diferencia de los dos grupos y
la distribución de la matrícula en todos los niveles es casi homogénea.

El tercer cluster se caracteriza por unidades educativas urbanas, en su mayoría son fiscales
y no son de tipo multigrado, se caracterizan además por contar con una alta matriculación

94
.
en todos los niveles con un promedio de 516 alumnos efectivos y tienen menor tasa de
abandono.

Analizando los grupos anteriores, se puede distinguir los siguientes patrones de


comportamiento:

"Si la matrícula es menor a cincuenta y es de tipo multigrado y rural, entonces la tasa de


aprobación es mayor que 97%".

"Si la distribución de la matrícula en primaria es similar a la de secundaria y pertenecen


al área rural, entonces tienen mayor tasa de abandono"

"Si se tiene mayor matriculación y menor tasa de abandono y una tasa de aprobación
menor que 97%, entonces pertenece al área urbana" .

" A mayor tasa de aprobación, entonces existe menor tasa de abandono".

" A menor matrícula, entonces existe mayor tasa de aprobación".

Aplicando árboles de decisión se encontró las siguientes reglas:

Regla 1
Si multigrado = si
entonces pertenece al Cluster 0. (2.560 instancias)

Regla 2
Si multigrado = no
y área = rural
entonces pertenece al Cluster 1. (483 instancias)

95
.
Regla 3
Si multigrado = no
y área = urbana
entonces pertenece al Cluster 2 (966 instancias).

Analizando estas reglas se tiene que el algoritmo k-means para la segmentación en tres
grupos se ha basado principalmente en los atributos multigrado y área.

Según la información preexistente la mayor tasa de analfabetismo, deserción escolar y baja


escolaridad se registran en el área rural. La tasa de aprobación en el área rural de la gestión
2005 a nivel nacional es 93 por ciento en el nivel primario y 83 por ciento en el nivel
secundario, sin embargo en el área urbana se tiene 83 por ciento en el nivel primario y 84
por ciento en el nivel secundario. La tasa de abandono escolar rural es de 7 por ciento y
urbano de 5,5 por ciento; el factor para el abandono escolar es la pobreza, los niños y niñas
de las familias pobres se insertan tempranamente al mundo laboral y abandonan el sistema
educativo En general, la mayor tasa de abandono se presenta en el nivel secundario del área
rural, por su parte la tasa de abandono del nivel primario del área urbana es la que presenta
tasas no muy alarmantes pero significativas.

Los patrones de comportamiento encontrados coinciden con los aspectos de los indicadores
existentes, por ejemplo el algoritmo de minería de datos ha segmentado en dos grupos a las
unidades educativas del área rural, una con mayor tasa de abandono porque de hecho incluye
el nivel secundario y el otro grupo con menor tasa de abandono pero mayor tasa de
aprobación porque en su mayoría pertenecen al nivel primario.

4.2 CONTINUANDO CON EL PROCESO DE FORMA ITERATIVA PARA


REFORZAR Y COMPLEMENTAR LOS RESULTADOS.

Después de haber realizado el proceso de minería de datos, como ya se mencionó


anteriormente un aspecto que se debe tomar en cuenta es el hecho de que el proceso
metodológico para el descubrimiento de conocimiento puede ser de forma iterativa, por tal
motivo para reforzar y complementar los resultados del proyecto se ha realizado varias

96
.
pruebas con el mismo data set (La Paz 2005). A continuación se muestra a detalle éstos
resultados.

Aplicando árboles de decisión con el atributo dependencia se han generado la siguientes


reglas:

Regla 1
Si área =rural
entonces es fiscal (3.038 instancias)

Regla 2
Si área = urbana
y matrícula en Primero de Secundaria >33
y tasa de abandono >0.06
entonces es fiscal (114 instancias)

Regla 3
Si matrícula en cuarto de secundaria >22
y tasa de aprobación >0.97
y tasa de abandono <=0.15
entonces es privado(80 instancias)

Regla 4
Si área = urbano
y Matrícula en quinto de primaria <=38
y Tasa de aprobación >0.92
entonces es privado (127 instancias)

Para comparar y reforzar estas reglas se ha realizado pruebas aplicando reglas de


asociación específicamente el algoritmo a priori que proporciona la herramienta Weka. Los
resultados obtenidos se muestran mediante las siguientes inferencias encontradas:

97
.
"La tasa de aprobación es de 1 en 2.231 UE de tipo multigrado con una confianza del
100%".

" Si la matrícula en 4to de secundaria es cero y la tasa de aprobación es uno, entonces


pertenece al área rural, con una confianza de 94% en 2.561 instancias "

"Si una UE es de tipo multigrado y tiene una matrícula en primaria menor a 10, entonces
pertenece al área rural. Esta regla se cumple en 1.086 UE con una confianza de 100%."

"Si la tasa de aprobación es 1 y la matrícula en 8vo de primaria es cero, entonces la


matrícula en 7mo de primaria es cero, con una confianza de 97% en 2.040 instancias".

"Si la tasa de abandono están en el rango de 0 a 0,1, entonces no pertenecen a


multigrado, con una confianza de 100% en 305 instancias".

"Si la tasa de aprobación es menor o igual a 0.9, entonces no pertenecen a multigrado,


con una confianza de 100% en 186 instancias".

Como hay muchas UE que tienen sólo el nivel inicial, o el nivel primario o sólo el nivel
secundario, generan varios ceros por lo que aplicando Clustering la media puede variar
enormemente. Por este motivo se ha agrupado por niveles, por ejemplo en el nivel inicial
hay 1.893 UE con matriculación mayor a cero en todos los grados de este nivel.

Nivel Inicial

Por lo tanto se conforma un data set con 1.893 instancias y se procede a aplicar Clustering.
Los centroides encontrados se muestra en la Tabla IV.1

Cluster P_INI0 P_INI1 P_INI2 MAT_INI0 MAT_INI1 MAT_INI2 EFECTIVOS RET_TRASL RET_ABAN

Cluster 0 0 0 1.751 0 0 55.4434 528.9746 6.6628 20.9307


Cluster 1 0 0 1 0 0 8.0721 60.0889 0.1954 6.012
Cluster 2 0 0 1.109 0 0 23.0616 233.2322 1.1043 20.8294

98
.
T_APROB T_ABAND MULTIG DEPEN AREA

0.9852 0.0744 0 1.6028 2


0.9944 0.0966 1 1.0392 1
0.9858 0.0954 0 1.0995 1

Cluster 0 433 ( 23%)


Cluster 1 1249 ( 66%)
Cluster 2 211 ( 11%)

Tabla IV.1. Tabla de centroides (Nivel Inicial)

El comportamiento de los grupos es similar a los encontrados con el total de instancias (4.009
instancias), pero se añade la información de que en el grupo de UE multigrado del área
rural se tienen un promedio de 8 alumnos por paralelo en el nivel inicial, sin embargo en el
grupo de las UE no multigrado del área rural se tiene un promedio de 23 alumnos por
paralelo, y en el grupo de las UE del área urbana se tiene un promedio de 27 alumnos por
paralelo.

El árbol de decisión con respecto al atributo Cluster se muestra en la Figura IV.1. Se


observa también que el árbol representado en la anterior figura es similar al árbol
encontrado con el total de instancias.

a b c <-- classified as
1249 0 0 | a = cluster1
0 211 0 | b = cluster2
0 0 433 | c = cluster0

Figura IV.1. Árbol de decisión ( Nivel Inicial )

99
.
1ero a 5to de Primaria

Hay 2.307 UE que tienen una matrícula mayor a cero en los cursos de 1ro a 5to de primaria.
Aplicando clustering se ha encontrado los centroides mostrados en la tabla III.

CLUSTER P_PRIM1 P_PRIM2 P_PRIM3 P_PRIM4 P_PRIM5 MAT_PRIM1 MAT_PRIM2 MAT_PRIM3 MAT_PRIM4
Cluster 0 1.0019 1 1 1 1 8.6027 7.5278 7.4299 8.3109
Cluster 1 1.8532 1.7941 1.7831 1.7601 1.77 53.2968 51.0515 50.7021 50.5498
Cluster 2 1.0011 1.0011 1.0023 1.0023 1.0057 9.63 8.0859 7.9404 8.6804

CLUSTER MAT_PRIM5 EFECTIVOS RET_TRAS RET_ABAN T_APROB T _ABAND MULTIG DEPEND AREA
Cluster 0 8.5969 76.8733 0.3704 13.572 0.988 0.1871 1 1.0269 1.0019
Cluster 1 50.789 449.809 5.7656 21.104 0.9832 0.0818 0 1.5235 1.736
Cluster 2 8.8981 68.3265 0.1649 3.7171 0.9946 0.0513 1 1.0779 1.0034

Cluster 0 521 ( 23%)

Cluster 1 913 ( 40%)

Cluster 2 873 ( 38%)

Tabla IV.2. Tabla de centroides (1ero -5o de Primaria)

Otro conocimiento que se aporta con el análisis de éstos grupos es que: en el nivel primario,
si pertenece al área rural entonces es de tipo multigrado y tienen un promedio de 8 alumnos
por paralelo, esto significa que hay pocas unidades educativas de este nivel que pertenecen al
área rural pero que no son de tipo multigrado. Además se observa que en un grupo de 521
instancias de tipo multigrado se tiene mayor tasa de abandono expresado en un porcentaje de
18,7%.

El árbol de decisión con respecto al atributo Cluster se muestra en la Figura IV.2.

100
.

a b c <-- classified as
514 0 7 | a = cluster0
0 913 0 | b = cluster1
6 0 867 | c = cluster2
Figura IV.2 Árbol de decisión ( 1ro a 5to de Primaria)

Observando el árbol se obtiene las siguientes reglas:

Regla 1
Si multigrado = no
entonces pertenece al Cluster 1 (913 instancias)

Regla 2
Si multigrado = si
y tasa de abandono <=0.11
entonces pertenece al Cluster 2. (834 instancias)

101
.
Regla 3
Si multigrado = si
y tasa de abandono >0.12
entonces pertenece al Cluster 0 (485 instancias)

Regla 4
Si multigrado = si
y tasa de abandono =0.12
y efectivos<=62
entonces pertenece al Cluster 2. (37 instancias)

6to a 8vo de Primaria

Se tiene un total de 1327 instancias con matrícula distinto de cero de 6to a 8vo de Primaria.
La tabla de centroides se muestra en la siguiente Tabla IV.3

CLUSTER P_PRIM6 P_PRIM7 P_PRIM8 MAT_PRIM6 MAT_PRIM7 MAT_PRIM8 EFECTIVOS RET_TRASL


Cluster 0 1.2732 1.2488 1.2683 32.4049 30.5805 32.8244 425.77 6.4537
Cluster 1 1.0776 1.0803 1.0857 18.2952 18.0259 17.098 155.1728 0.7524
Cluster 2 2.3953 2.3669 2.3127 79.5349 78.3566 76.0413 633.6408 7.1137

RET_ABAN T_APROB T_ABAND MULTIG DEPEN AREA


13.04 0.9799 0.0665 0 2.95 1.98
16.7252 0.9794 0.1223 0.702 1.065 1
36.1602 0.9555 0.0925 0 1.1 2

Cluster 0 433 (15%)


Cluster 1 1249 ( 55%)
Cluster 2 211 (29%)

Tabla IV.3. Tabla de centroides (6to -8vo de Primaria)

De 6to a 8vo de primaria, pertenecientes al grupo del área rural se tiene menor cantidad de
unidades educativas multigrado comparado con 1ro a 5to de primaria, sin embargo en el
grupo del área urbana se incrementa la matrícula, llegando a un promedio de 77 alumnos
distribuidos en aproximadamente dos paralelos, esto en las UE fiscales, en cambio en las UE
privadas se tiene un promedio de 32 alumnos.

102
.
El árbol de decisión con respecto al atributo Cluster se muestra en la Figura IV.3

a b c <-- classified as
734 0 1 | a = cluster1
3 202 0 | b = cluster0
0 1 386 | c = cluster2

Figura IV.3 Árbol de decisión (6to -8vo de Primaria)

Observando el árbol se obtiene las siguientes reglas:

Regla 1
Si área = fiscal
entonces pertenece al Cluster 1(737 instancias)

Regla 2
Si área = urbano
y dependencia= privado
entonces pertenece al Cluster 0(193 instancias)

103
.
Regla 3
Si área = urbano
y dependencia= fiscal
entonces pertenece al Cluster 2(350instancias)

Regla 4
Si área = urbano
y dependencia= convenio
y matrícula de 6to de primaria >58
entonces pertenece al Cluster 2(37instancias)

Regla 5
Si área = urbano
y dependencia= convenio
y matrícula de 6to de primaria <=58
entonces pertenece al Cluster 0(10instancias)

Nivel Secundario

Hay 949 UE que tienen el nivel Secundario de 1ro a 4to. La tabla de centroides se muestra
en la Tabla IV.4

P_SEC1 P_SEC2 P_SEC3 P_SEC4 MAT_SEC1 MAT_SEC2 MAT_SEC3 MAT_SEC4


Cluster 0 2.25 2.0714 1.9769 1.8151 77.1239 71.1618 68.6387 62.0567
Cluster 1 1.3186 1.2271 1.1672 1.1262 30.7855 25.8549 23.4385 21.1672
Cluster 2 1.0192 1 0.9872 1 15.8974 12.9423 11.5833 10.3397

EFECTIVOS RET_TRAS RET_ABAND T_ APROB T_ ABAND MULTIG DEPEND AREA


Cluster 0 595.029 7.3025 33.111 0.9488 0.0907 0 1.8592 2
Cluster 1 206.962 1.1009 20.281 0.9519 0.1212 0 1.1136 1
Cluster 2 158.596 0.4872 21.821 0.9688 0.1487 1 1.0641 1.0064

Cluster 0 476 ( 50%)


Cluster 1 317 ( 33%)
Cluster 2 156 ( 16%)

Tabla IV.4 Tabla de centroides (Secundaria)

104
.
El Cluster 0 es el que más instancias tiene, se caracteriza por UE del área urbana, en su
mayoría son privadas y de convenio, tienen un tasa de aprobación y de abandono menor
que los dos grupos la matriculación en secundaria disminuye de 77 en primero de secundaria
a 62 en 4to de secundaria.

El cluster 1 representa UE rurales que no son multigrado, la matrícula en secundaria reduce


de 31 en 1ero de Secundaria a 21 en 4to de secundaria.

El cluster2 representa UE multigrado rurales con mayor tasa de abandono, la matrícula en


secundaria reduce de 16 en 1ero de Secundaria a 10 en 4to de secundaria.

El árbol de decisión con respecto al atributo Cluster se muestra en la Figura IV.4

a b c <-- classified as
317 0 0 | a = cluster1
0 156 0 | b = cluster2
0 0 476 | c = cluster0

Figura IV.4 Árbol de decisión (Secundaria)

Observando el árbol se obtiene las siguientes reglas:

Regla 1
Si multigrado = si
entonces pertenece al Cluster 2 (156 instancias)

105
.
Regla 2
Si multigrado = no
y área = urbano
entonces pertenece al Cluster 0. (476 instancias)

Regla 3
Si multigrado = no
y área = rural
entonces pertenece al Cluster 1. (317 instancias).

4.3 CONCLUSIONES DEL CAPÍTULO

Los patrones de conocimiento encontrados son válidos porque se adecuan al estado


situacional de la educación formal.

Estos patrones dan mayor valor agregado al conocimiento del Sistema de Información
Educativa generando varios patrones de conocimiento que coadyuvan a los insumos
necesarios de la línea base para la construcción del Plan Estratégico Sectorial

De esta forma, se ha cumplido con los objetivos planteados en el presente proyecto.

106
.
CAPITULO V
CONCLUSIONES Y RECOMENDACIONES

5.1 CONCLUSIONES

Aplicar minería de datos a la fuente del sistema de información educativa resulta útil por el
crecimiento de la cantidad de información y por el aporte de conocimiento mediante
patrones de comportamiento de la población estudiantil en el sector educativo.

En el desarrollo metodológico del proyecto para la extracción de conocimiento las etapas


más tediosas fueron la preparación y transformación de datos, es decir la conformación del
data set. De hecho los resultados que se obtengan después de aplicar una técnica de minería
de datos van ha depender de la calidad del data set, es por este motivo que muchas veces se
debe trabajar de forma iterativa.

Se ha mostrado en el desarrollo del proyecto que Weka es una herramienta muy potente
porque no sólo contiene un conjunto de técnicas de Minería de datos, si no que tiene
herramientas como el preprocesamiento y la visualización para mostrar la dispersión de los
datos.

La técnica de clustering resulta adecuada para la segmentación en grupos de la población


estudiantil y la detección de patrones de estos grupos resultaron válidos en el sentido de que
se han comparado con los indicadores existentes.

107
.
La exploración de datos mediante visualización multidimensional aprovecha la gran
capacidad humana de ver por ejemplo tendencias o patrones a partir de los datos, de esta
forma se aprovecha esta capacidad para facilitar la comprensión de datos.

5.2 RECOMENDACIONES
Con la experiencia obtenida después del desarrollo del proyecto se concluye las siguientes
recomendaciones:

Se debe tener un objetivo claro antes de proceder a las siguientes etapas y se debe fortalecer
este objetivo aclarando la idea de que patrones se quieren extraer, para ello se puede utilizar
herramientas de exploración de datos.

Se debe tener mucho cuidado con los valores ruidosos , o posiblemente erróneos porque
pueden afectar de gran manera a los patrones encontrados.

Para una buena segmentación aplicando clustering, es importante determinar el número de


clusters adecuado que puede realizárselo mediante un análisis de distancias.

108
.
REFERENCIAS
[Aguilar, 2003] Aguilar Quispe,R (2003): " Minería de Datos: Fundamentos, Técnicas y
Aplicaciones.

[Ale, 2005a] Ale, J., 2005a. Análisis de Clusters.

[Ale, 2005b] Ale, J., 2005b. Introducción a Data Mining.

[Chen, 1996] Chen, M., J. Han, 1996. Data mining: An overview from database perspective.
IEEE Transactions on Knowledge and Data Eng.

[Cheeseman, 1996] Cheeseman, P., J. Stutz, 1996. Bayesian classification (AutoClass):


Theory and results. In U.M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy,
editors, Advances in Knowledge Discovery and Data Mining.

[Cleveland, 1993] W (1993). "Visualizing Data, Hobar Press, 1993"

[Cabena,1998] Cabena P. Hadjinian, P, Stadler, R., Verhees (1998)Discovering data mining


From concept to implementation

[Garcia, 2005] Garcia Morate D ( 2005) Manual de Weka

[Fayyad, 1996] Fayyad, U. M., Piatetsky-Shapiro, G., Smyth, P., Uhturudsamy, R. (eds).
1996 Advances in Knowledge Discovery and Data Mining.

[Fisher, 1996] Fisher, D., 1996. Iterative optimization and simplification of hierarchical
clusterings. Departament of Computer Science. Vanderbilt University, Nashville, EEUU.

[Han, 2006] Han, Jiawei., M. Kamber, 2006. Data mining: Concepts and techniques.

[Hernández, 2004] Hernández Orallo, J., 2004 Introducción a la Minería de Datos.

[Kaufman, 1990] Kaufman, L., P. J. Rousseeuw, 1990. Finding Groups in Data: an


Introduction to Cluster Analysis. Wiley-Interscience.

[Kohonen, 1995] Kohonen, T., 1995. Self-Organizing Maps. Springer-Verlag.

[Larose, 2005] Larose, D., 2005 Discovering Knowledge in Data. An Introduction to Data
Mining. Central Connecticut State University. Published by John Wiley & Sons, Inc.,
Hoboken, New Jersey.

[MacQueen. 1967] MacQueen. 1967 “Some methods for classification and analysis of
multivariate observations”. Proc. 5th Berkeley Symp. Math. Statisi.

[Marcano, 2007] Marcano,Y ., Talavera,R.2007. Minería de Datos como soporte a la toma


de decisiones empresariales Universidad del Zulia

109
.
[Michalski, 1998] Michalski R., I. Bratko, M. Kubat, 1998. Machine Learning and data
mining: Methods and Applications. Wiley & Sons Ltd., EE.UU.

[Mirkini, 2005] Mirkin Boris 2005. Clustering for Data Mining. A data Recovery Approach.

[Molina, 2006] Molina, J., García J. 2006 Técnias de Análisis de Datos Aplicaciones
prácticas utilizando Microsoft Excel y Weka Universidad Carlos III de Madrid

[Moreno, 2001] Moreno,M., Miguel,L.,García, Polo, M.(2001). Aplicación de técnicas de


Minería de Datos en la construcción y validación de modelos predictivos y asociativos a
partir de especificaciones de requisitos de software. Universidad de Salamanca.

[Ochoa, 2004] Ochoa, M. A. 2004. Herramientas Inteligentes para la Explotación de


Información. Trabajo Final: Especialidad en Ingeniería en Sistemas Expertos, Instituto
Tecnológico de Buenos Aires (ITBA).

[Olvera, 2005] Olvera, A., Carrasco,A. 2005. Edición de muestras basada en búsqueda
secuencial Coordinación de Ciencias Computacionales INAOE

[Pyle, 1999] Pyle, Dorian 1999. Data Preparation for Data Mining Published 1999 Morgan
Kaufmann.

[Thurn, 1998] Thrun, S., Faloustos, C., Mitchell, T., Wasserman, L. 1998 Automated
Learning and Discovery: State-Of-The-Art and Research Topics in a Rapidly Growing Field.
CMU-CALD-98-100

[Wang, 2004] Wang, G.A., H. Atabakhsh, T.Petersen, H.Chen, 2004. Discovering Identity
Problems a Case Study.

[Witten, 2000] Witten, I.H., Frank, E. 2000. Data Mining: Practical Machine Learning Tools
and Techniques with Java Implementations. Morgan Kaufmann, San Diego, EE.UU.

[Weiss, 1998] Weiss,S., Indurkhya,N. 1998. Predictive Data Mining a Practical Guide

Weka, 2007. University of Waikato.


URL:http://www.cs.waikato.ac.nz/~ml/weka/index.html. Acceso mayo 2007.

110

También podría gustarte