Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Tutorial I
Tutorial I
Introduccin
En el mundo de la minera de datos (Data Mining) es imprescindible contar con software
especializado que permita trabajar los datos para alcanzar los objetivos propuestos. En
este contexto, este tutorial pretende acercar al lector al uso de RapidMiner, un sistema
Open Source para Data Mining.
Este texto est basado en la versin 5.1 de RapidMiner, edicin para Windows 64. Sin
embargo, no debera haber mayores diferencias con las ediciones para otros sistemas
operativos.
Por otro lado, se asume que el lector ya posee una copia instalada del software (puede
descargarse gratis de http://rapid-i.com/content/view/26/84/lang,en/), que tiene un
conocimiento bsico de Excel y que entiende nociones estadsticas y de algunos modelos
predictivos.
Contexto
El Ministerio de Educacin de Chile provee pblicamente bases de datos con informacin
de establecimientos educacionales. En particular, en este ejemplo se trabajar con la base
de datos de Rendimiento, la cual contiene la cantidad de alumnos aprobados, reprobados
y retirados, por colegio, nivel de enseanza, grado y sexo.
Para este ejemplo, se usar la base de datos correspondiente al ao 2009, la cual puede
descargarse de: http://ded.mineduc.cl/DedPublico/archivos_de_datos
Anlisis Propuesto
En la base de datos descargada (Ren2009.xls), se puede observar que cada fila contiene
una serie de datos acerca de los establecimientos educacionales, tales como rol
identificador, cdigo de enseanza, comuna en la que se ubica, regin, tipo de
dependencia, etc. Si se quiere obtener ms informacin acerca de qu significa cada
campo, se recomienda leer el documento adjunto con la base de datos REN2009.doc.
Ahora bien, entre los datos se encuentra la cantidad de alumnos reprobados, aprobados y
retirados por curso, para cada establecimiento. Lo que se propone analizar es el
porcentaje de aprobacin de los alumnos de enseanza bsica de los establecimientos
registrados.
Cabe notar, que porcentaje de aprobacin se entender como la razn entre el nmero
total de alumnos aprobados en la enseanza bsica y el nmero total de alumnos de
Ahora bien, el primer paso para comenzar a trabajar con los datos, es importar la planilla
Excel al ambiente de trabajo de RapidMiner. Para esto, existen bsicamente dos formas
de hacerlo: mediante una importacin directa al proyecto actual y mediante la inclusin
de los datos al repositorio.
En esta parte del tutorial, se usar la primera alternativa.
10. En la pestaa Operators, explorar las carpetas Import->Data.
11. Hacer clic en el operador Read Excel y arrastrarlo hacia el rea de trabajo (Main
Process).
Hint: Para acceder rpidamente a un operador, sin tener que explorar las carpetas,
se puede escribir su nombre en el campo [Filter].
Ahora bien, en la parte inferior del panel central, se encuentra la pestaa Problems y en
ella han aparecido dos errores. Durante el diseo de un proceso, siempre se debe estar
pendiente de esta pestaa, para ver si todo est correcto o si existe algn problema que
se deba solucionar (ver Screenshot 2).
En este caso, los errores se producen porque no se ha especificado ningn archivo que
leer. Para solucionarlo, seguir los siguientes pasos.
12. Hacer clic en el cuadro Read Excel que ha aparecido en el rea de diseo del
proceso.
13. En la pestaa Parameters, pulsar el botn Import Configuration Wizard.
Con esto, se abrir el asistente de configuracin que permitir importar un archivo de
manera fcil e intuitiva.
14. Explorar los archivos del computador, ubicar el archivo preparado
Ren2009_mod.xls, seleccionarlo y pulsar en Next.
15. Tras unos instantes, aparecer una vista previa del archivo y en l estarn todas las
celdas marcadas. Se debe dejar as y pulsar en Next.
A estas alturas se debera estar en el paso 3 de 4 (Step 3 of 4). En este paso, lo que se hace
es especificar a RapidMiner si se tienen filas especiales en el archivo. En el caso de este
ejemplo, la primera fila del archivo corresponde a los nombres de los campos y no a
valores en s. Normalmente RapidMiner debera detectar estas filas especiales y
etiquetarlas como corresponde.
16. Asegurarse de que la primera fila tenga puesta la anotacin Name, en la columna
Annotation y pulsar en Next.
En el ltimo paso se deben definir los tipos de cada dato (integer, real, text, etc) y los roles
de cada uno. Los roles que se usarn son bsicamente tres: Id para el campo que identifica
a cada fila (como por ejemplo rol, rut, etc), attribute para campos que contienen valores e
informacin que debe ser considerada en el modelo y label para el campo que
corresponde a la variable que se quiere predecir.
17. Dejar seleccionadas solo las siguientes columnas: rbd, reg_cod, pro_cod, com_cod,
cod_depe, cod_area, apro.
18. Verificar que todas las columnas tengan el tipo integer (entero), a excepcin de
apro, que debe ser de tipo numeric.
19. Definir el rol de rbd como id y el de apro como label.
20. Hacer clic en Finish (ver Screenshot 3)
Con esto, RapidMiner ya ser capaz de leer los datos de la planilla Excel y trabajar con
ellos. Lo que resta a continuacin es introducir los operadores necesarios para construir
un modelo predictivo. En primera instancia, se construir un modelo mediante una
regresin lineal y se ver su rendimiento (se buscar medir su error en la prediccin).
21. En la pestaa Operators, explorar las carpetas Evaluation->Validation, seleccionar
el operador Split Validation y arrastrarlo al rea de diseo, al lado derecho del
operador Read Excel.
Hint: Cuando se quiera obtener ms informacin acerca de un operador, es posible
seleccionarlo y presionar F1, lo cual desplegar una ventana con ms informacin.
El operador Split Validation es un operador compuesto (se puede ver que en la esquina
inferior derecha del mismo aparecen dos cuadros azules), lo que significa que para su
correcto funcionamiento, debe ser compuesto de otros operadores (ver Screenshot 4).
35. Tras algunos instantes aparecer un nuevo cuadro avisando que han aparecido
nuevos resultados y preguntando si se quiere pasar a la perspectiva de resultados,
aceptar.
36. Seleccionar la pestaa Linear Regression.
En esta pestaa se puede observar el modelo generado en este proceso. En primer lugar,
se muestra una tabla con los coeficientes de la regresin, as como tambin con otra
informacin estadstica.
Si se selecciona la opcin Text View, se muestra la funcin de regresin que permite
calcular el porcentaje de aprobacin en funcin de las otras variables (ver Screenshot 7).
Por ltimo, interesa ver cun buena es la prediccin realizada por este modelo, para ello:
37. Seleccionar la pestaa Performance Vector (Peformance).
En esta parte, se muestran distintas medidas de error del modelo. En el caso del ejemplo,
se obtiene un error cuadrtico medio de 7.157 (ver Screenshot 8), lo cual es bastante alto
considerando que el rango de valores vlidos es de 0 a 100 (pues es un porcentaje).