Documentos de Académico
Documentos de Profesional
Documentos de Cultura
RapidMiner-Tutorial I PDF
RapidMiner-Tutorial I PDF
Introducción
En el mundo de la minería de datos (Data Mining) es imprescindible contar con software
especializado que permita trabajar los datos para alcanzar los objetivos propuestos. En
este contexto, este tutorial pretende acercar al lector al uso de RapidMiner, un sistema
Open Source para Data Mining.
Este texto está basado en la versión 5.1 de RapidMiner, edición para Windows 64. Sin
embargo, no debería haber mayores diferencias con las ediciones para otros sistemas
operativos.
Por otro lado, se asume que el lector ya posee una copia instalada del software (puede
descargarse gratis de http://rapid-i.com/content/view/26/84/lang,en/), que tiene un
conocimiento básico de Excel y que entiende nociones estadísticas y de algunos modelos
predictivos.
Contexto
El Ministerio de Educación de Chile provee públicamente bases de datos con información
de establecimientos educacionales. En particular, en este ejemplo se trabajará con la base
de datos de Rendimiento, la cual contiene la cantidad de alumnos aprobados, reprobados
y retirados, por colegio, nivel de enseñanza, grado y sexo.
Para este ejemplo, se usará la base de datos correspondiente al año 2009, la cual puede
descargarse de: http://ded.mineduc.cl/DedPublico/archivos_de_datos
Análisis Propuesto
En la base de datos descargada (Ren2009.xls), se puede observar que cada fila contiene
una serie de datos acerca de los establecimientos educacionales, tales como rol
identificador, código de enseñanza, comuna en la que se ubica, región, tipo de
dependencia, etc. Si se quiere obtener más información acerca de qué significa cada
campo, se recomienda leer el documento adjunto con la base de datos REN2009.doc.
Ahora bien, entre los datos se encuentra la cantidad de alumnos reprobados, aprobados y
retirados por curso, para cada establecimiento. Lo que se propone analizar es el
porcentaje de aprobación de los alumnos de enseñanza básica de los establecimientos
registrados.
Cabe notar, que porcentaje de aprobación se entenderá como la razón entre el número
total de alumnos aprobados en la enseñanza básica y el número total de alumnos de
enseñanza básica de un mismo establecimiento. Este porcentaje se puede obtener
fácilmente de la planilla de datos descargada, así como también se debe eliminar los
establecimientos que no corresponden a enseñanza básica (cod_ense distinto de 110).
Junto a este documento se adjunta una planilla con todas las modificaciones necesarias
(Ren2009_mod.xls).
A partir de estos datos se pretende construir un modelo que permita predecir con un
cierto nivel de certeza cuál será el porcentaje de aprobación (variable real) en un
establecimiento de enseñanza básica en función de algunas variables conocidas (como
región comuna, dependencia, etc).
Ahora bien, el primer paso para comenzar a trabajar con los datos, es importar la planilla
Excel al ambiente de trabajo de RapidMiner. Para esto, existen básicamente dos formas
de hacerlo: mediante una importación directa al proyecto actual y mediante la inclusión
de los datos al repositorio.
En esta parte del tutorial, se usará la primera alternativa.
10. En la pestaña Operators, explorar las carpetas Import->Data.
11. Hacer clic en el operador Read Excel y arrastrarlo hacia el área de trabajo (Main
Process).
Hint: Para acceder rápidamente a un operador, sin tener que explorar las carpetas,
se puede escribir su nombre en el campo [Filter].
Ahora bien, en la parte inferior del panel central, se encuentra la pestaña Problems y en
ella han aparecido dos errores. Durante el diseño de un proceso, siempre se debe estar
pendiente de esta pestaña, para ver si todo está correcto o si existe algún problema que
se deba solucionar (ver Screenshot 2).
Screenshot 2: Primeros errores
En este caso, los errores se producen porque no se ha especificado ningún archivo que
leer. Para solucionarlo, seguir los siguientes pasos.
12. Hacer clic en el cuadro Read Excel que ha aparecido en el área de diseño del
proceso.
13. En la pestaña Parameters, pulsar el botón Import Configuration Wizard.
Con esto, se abrirá el asistente de configuración que permitirá importar un archivo de
manera fácil e intuitiva.
14. Explorar los archivos del computador, ubicar el archivo preparado
Ren2009_mod.xls, seleccionarlo y pulsar en Next.
15. Tras unos instantes, aparecerá una vista previa del archivo y en él estarán todas las
celdas marcadas. Se debe dejar así y pulsar en Next.
A estas alturas se debería estar en el paso 3 de 4 (Step 3 of 4). En este paso, lo que se hace
es especificar a RapidMiner si se tienen filas especiales en el archivo. En el caso de este
ejemplo, la primera fila del archivo corresponde a los nombres de los campos y no a
valores en sí. Normalmente RapidMiner debería detectar estas filas especiales y
etiquetarlas como corresponde.
16. Asegurarse de que la primera fila tenga puesta la anotación Name, en la columna
Annotation y pulsar en Next.
En el último paso se deben definir los tipos de cada dato (integer, real, text, etc) y los roles
de cada uno. Los roles que se usarán son básicamente tres: Id para el campo que identifica
a cada fila (como por ejemplo rol, rut, etc), attribute para campos que contienen valores e
información que debe ser considerada en el modelo y label para el campo que
corresponde a la variable que se quiere predecir.
17. Dejar seleccionadas solo las siguientes columnas: rbd, reg_cod, pro_cod, com_cod,
cod_depe, cod_area, apro.
18. Verificar que todas las columnas tengan el tipo integer (entero), a excepción de
apro, que debe ser de tipo numeric.
19. Definir el rol de rbd como id y el de apro como label.
20. Hacer clic en Finish (ver Screenshot 3)
Con esto, RapidMiner ya será capaz de leer los datos de la planilla Excel y trabajar con
ellos. Lo que resta a continuación es introducir los operadores necesarios para construir
un modelo predictivo. En primera instancia, se construirá un modelo mediante una
regresión lineal y se verá su rendimiento (se buscará medir su error en la predicción).
21. En la pestaña Operators, explorar las carpetas Evaluation->Validation, seleccionar
el operador Split Validation y arrastrarlo al área de diseño, al lado derecho del
operador Read Excel.
Hint: Cuando se quiera obtener más información acerca de un operador, es posible
seleccionarlo y presionar F1, lo cual desplegará una ventana con más información.
El operador Split Validation es un operador compuesto (se puede ver que en la esquina
inferior derecha del mismo aparecen dos cuadros azules), lo que significa que para su
correcto funcionamiento, debe ser compuesto de otros operadores (ver Screenshot 4).
35. Tras algunos instantes aparecerá un nuevo cuadro avisando que han aparecido
nuevos resultados y preguntando si se quiere pasar a la perspectiva de resultados,
aceptar.
36. Seleccionar la pestaña Linear Regression.
En esta pestaña se puede observar el modelo generado en este proceso. En primer lugar,
se muestra una tabla con los coeficientes de la regresión, así como también con otra
información estadística.
Si se selecciona la opción Text View, se muestra la función de regresión que permite
calcular el porcentaje de aprobación en función de las otras variables (ver Screenshot 7).
Por último, interesa ver cuán buena es la predicción realizada por este modelo, para ello:
37. Seleccionar la pestaña Performance Vector (Peformance).
En esta parte, se muestran distintas medidas de error del modelo. En el caso del ejemplo,
se obtiene un error cuadrático medio de 7.157 (ver Screenshot 8), lo cual es bastante alto
considerando que el rango de valores válidos es de 0 a 100 (pues es un porcentaje).
Screenshot 7: Resultados del modelo