Adv - Mineria de Datos - Spss Clementine

MINERIA DE DATOS – SPSS CLEMENTINE
MINERIA DE DATOS
La minería de datos se ha definido de diferentes maneras, a continuación se

mencionaran algunas de estos conceptos para su mejor entendimiento para aquellas
personas que recién se inician en este maravilloso mundo de la extracción del
conocimiento:
Definición 1: 1
La minería de datos se define como el proceso de extraer conocimiento útil y
comprensible, previamente desconocido, desde grandes cantidades de datos
almacenados en distintos formatos. Por lo tanto la tarea fundamental de la minería de
datos es encontrar modelos inteligibles a partir de los datos (Hernández, 2004)[39].
Definición 2:
Según(Hernández, 2004)[39] en un proceso de descubrimiento de nuevas y
significativas relaciones, patrones y tendencias al examinar grandes cantidades de
datos
Definición 3:
Según(J. Hand, M. Kanmber)[40]la minería de datos se refiere a la extracción de
conocimiento o "minería" de grandes cantidades de datos. El término es en realidad
un nombre inapropiado. Recuerde que la minería de oro de las rocas o la arena, que
se conoce como la minería de oro en vez de roca o la extracción de arena. Por lo
tanto, la minería de datos debería haber sido más apropiado nombre de "minería de
datos del conocimiento", que es por desgracia un poco largo. "La minería del
Conocimiento", un término más corto, no puede reflejar el énfasis en la minería de
grandes cantidades de datos. Sin embargo, la minería es un término viva que
caracteriza el proceso que se encuentra un pequeño conjunto de pepitas preciosas de
una gran cantidad de materia prima. Así, por ejemplo, un nombre poco apropiado que
transporta tanto los "datos" y "mineros" se convirtió en una opción popular. Muchos
otros términos tienen una similar o ligeramente diferente sentido a la minería de
datos, tales como la minería de datos de conocimiento, la extracción de
DrSc. Ing. Alfredo Daza Vergaray

conocimientos, análisis de datos / análisis de patrones, arqueología de datos, y la

filtración de información.
Definición 4:
Según Leopoldo González[41]Minería de datos es el proceso por el cual generamos
un modelo, que sirva para la predicción, este modelo se genera con base en los datos
que se encuentran en una base de datos aplicándoles algún algoritmo que construye
2
el modelo.
En conclusión se podría decir que la minería de datos es un proceso que integra
datos de diferentes fuentes (Sqlserver, Oracle, Excel, etc.) en donde posteriormente
se realiza la explotación de los datos para extraer conocimiento importante que nos
van a permitir identificar información importante, valiosa y útil en donde las
instituciones podrán tomar decisiones importantes.
PROCESOS DE MINERÍA DE DATOS (KDD)
Las etapas para la realización de la minería de datos siempre es el mismo

independiente de la técnica específica a usar, el proceso KDD según Usama Fayyad
et al. [42] se describe en la Figura N° 11.
Figura N° 11: Descripción general de los pasos que constituyen el proceso KDD
El proceso de KDD es interactivo e iterativo (con muchas decisiones tomadas por el

usuario), que implica numerosos pasos que se resumen así:
1. El aprendizaje del dominio de aplicación: incluye el conocimiento relevante

antes y los objetivos de la aplicación.

2. Creación de un conjunto de datos de destino: incluye la selección de un

conjunto de datos o concentrarse en un subconjunto de variables o muestras de
datos en los que el descubrimiento se va a realizar.
3. Limpieza de datos y pre procesamiento: incluye las operaciones básicas, tales
como la eliminación de ruido, la recogida de la información necesaria para
modelar, la determinación de estrategias para el manejo de los campos de datos
que están faltando, y la contabilidad de la información en tiempo y secuencia de
3
los cambios conocidos, así como decidir el uso de DBMS, tales como tipos de
datos, esquemas y así como la asignación de valores desaparecidos y
desconocidos
4. La reducción de datos y de proyección: incluye la búsqueda de características
útiles para representar los datos, dependiendo del objetivo y de la tarea, en
donde se realiza usando la reducción de dimensionalidad o métodos de
transformación para reducir el número efectivo de las variables en estudio o para
encontrar representaciones invariables para los datos.
5. Escogiendo la función de minería de datos: incluye decidir el propósito del
modelo derivado por el algoritmo de minería de datos (por ejemplo, la
clasificación, la regresión, y la agrupación).
6. La elección del algoritmo de minería de datos (s): incluye la selección de
métodos para ser utilizado para la búsqueda de patrones en los datos, tales como
decidir qué modelos y parámetros pueden ser apropiados (por ejemplo, modelos
para los datos categóricos son diferentes de los modelos en los vectores más
reales) y que coinciden en particular con un método de minería, método con los
criterios generales del proceso de KDD (por ejemplo, el usuario puede estar más
interesado en la comprensión del modelo que en sus capacidades de predicción).
7. La minería de datos: incluye la búsqueda de patrones de interés dentro de una
forma de representación particular o en conjunto de tales representaciones
incluida las reglas de clasificación o árboles, regresión, clustering, modelado
secuencia, la dependencia, y el análisis lineal.
8. Interpretación: incluye la interpretación de los patrones detectados y
posiblemente volver a cualquiera de los pasos anteriores, así como la

visualización de la posible patrones extraídos, la eliminación de patrones

redundantes o irrelevantes, y la traducción de los patrones útiles en términos
comprensibles por los usuarios
9. Utilizando el conocimiento descubierto: incluye la incorporación de estos
conocimientos en el rendimiento del sistema, tomando acciones basadas en el
conocimiento, o simplemente documentarlo e informar a las partes interesadas,
así como la comprobación y resolución de los conflictos potenciales con los que
4
se creía (o extraído) del conocimiento.
METODOLOGÍACRISP
CRISP se diseñó para dar una guía a inexpertos en DM y para proveer un modelo
genérico que se puede especializar de acuerdo con las necesidades de cualquier
compañía o sector particular, lo que permitirá a los analistas tener una razonable
seguridad de que sus esfuerzos serán útiles y válidos.
CRISP-DM (Chapmanet al., 2000) [57] consta de cuatro niveles, organizados de
forma jerárquica en tareas que van desde el nivel más general hasta los casos más
específicos. En el nivel general, el proceso está organizado en seis fases: análisis del
problema, análisis de datos, preparación de datos, modelado, evaluación e
implementación. A su vez, cada fase consta de tareas generales de un segundo
nivel(Figura N° a). Estas tareas generales se proyectan a tareas específicas, donde se
describen las acciones que se deben desarrollar para cada situación específica.
Figura N° a Esquema de los cuatro niveles de abstracción de la metodología CRIP DM
Fuente :Chapman et., 2000
Por ejemplo, si la tarea general es “limpieza de datos”, en el tercer nivel se

especificarían tareas concretas como: limpieza de datos numéricos y/o limpieza de

datos categóricos. Finalmente, en el cuarto nivel se determina el conjunto de

acciones y decisiones a realizar para resolver las tareas establecidas en el nivel
anterior (Sumathi y Sivanandam, 2006) [46].
Las fases en la metodología CRISP-DM se pueden representar como un ciclo, como
se muestra en la Figura N° b. Así, cada una de las fases representa el análisis del
problema, el análisis de datos, la preparación de datos, el modelado, la evaluación, y
la implementación de estos. La naturaleza iterativa de la metodología CRISP-DM se
5
simboliza por el círculo exterior.
Figura N° b: Fases del proceso de minería de datos, basado en la
metodología CRISP –DM. Fuente :Chapman et., 2000
La secuencia de las fases no es estricta, puesto que éstas pueden interactuar entre sí
durante el desarrollo del proyecto. De esta manera, la siguiente fase en la secuencia, a
menudo depende de los resultados asociados con la fase precedente. Las flechas indican
las dependencias significativas entre las diferentes fases, por ejemplo, si se está en la
fase de modelación, es posible volver a la fase de preparación de datos para refinar los
datos, antes de seguir con la fase de evaluación (Larose, 2005)[47].
El plan del proyecto describe los timing para alcanzar los objetivos, un estándar de facto
es que el reparto sea:
• 50-70 % fase de preparación de los datos,
• 20-30 % fase de conocimiento de los datos,
• 10-20 % en el modelado, evaluación y conocimiento del negocio, y
• 5-10 % fase de despliegue.

A continuación se describe cada una de las fases de la metodología Crisp:

1. Análisis del problema. En esta fase inicial se debe comprender con claridad los
objetivos y requerimientos del proyecto, con la finalidad de elaborar una buena
planeación en el desarrollo.
2. Análisis de los datos. Se establece el contacto directo con el problema. Las
actividades a realizar son: la recolección inicial de datos, la identificación de la calidad
de los datos y el establecimiento de posibles relaciones más evidentes que permitan
6
obtener las primeras hipótesis.
3. Preparación de los datos. Aquí se realiza la selección de datos a los que se va a
aplicar la técnica de modelado (variables y muestras), la limpieza de los datos, la
generación de variables adicionales, la integración de diferentes conjuntos de datos y
cambios de formato. Esta fase laboriosa, está directamente relacionada con la fase de
modelado, puesto que en función de la técnica a utilizar, los datos necesitan ser
procesados en diferentes formas.
4. Modelado. Aquí se seleccionan las técnicas apropiadas para el desarrollo del
proyecto. La técnica a emplearse en esta fase debe ser seleccionada en función a los
siguientes criterios: Ser apropiada al problema, disponer de datos adecuados, cumplir los
requerimientos del problema, y el conocimiento de la técnica.
5. Evaluación. En esta fase se evalúa el modelo, no desde el punto de vista de los datos,
sino del cumplimiento a los requerimientos iniciales. Antes de proceder a su
implantación para su uso habitual, se debe revisar todo el proceso teniendo en cuenta los
resultados obtenidos, e identificando posibles errores que llevan a repetir algún proceso
anterior.
6. Implementación. Si el modelo generado es válido, desde el punto de vista de
cumplimiento a los requerimientos iniciales, se procede a su implementación y
explotación. Normalmente los proyectos de minería de datos no terminan en la
implementación del modelo, sino se deben documentar y presentar los resultados de
manera comprensible para alcanzar un mejor entendimiento del conocimiento.

MODELO
El modelo según U. Fayyad[36], tiene dos factores importantes: la función del

modelo (por ejemplo, clasificación y Clustering) y la forma de representación del
modelo (por ejemplo, una función lineal de múltiples variables y una función de
probabilidad gaussiana densidad). Un modelo contiene parámetros que se
determinan a partir de los datos
7
MODELO HIBRIDO
Un modelo hibrido es la unión de dos técnicas de minería de datos a mas, en donde en
el desarrollo del presente libro utilizaremos como ejemplo sencillo la técnica de arboles
de decisión y de redes neuronales debido a que este tipo de combinaciones no se han
desarrollado con frecuencia en proyectos de minería de datos la cual lo vera en l parte
final de este libro.
Se ha realizado un trabajo basado en un enfoque hibrido donde GoddardJ.C[37]indicó
que los métodos de maquinas de aprendizaje más utilizados en tareas de clasificación
son los árboles de decisión (AD) y las redes neuronales (RN). Con respecto a las redes
neuronales la arquitectura más utilizada son los perceptrones multicapa (PMC). Sin
embargo, cada uno de ellos puede presentar distintas dificultades en las aplicaciones
del mundo real.
Por ejemplo, los AD pueden ser pocos flexibles para generalizar sobre datos de prueba
y excesivamente ramificados.
En el caso de los PMC hay que definir su estructura, número de nodos y capas y aún
definida esta, no hay garantía que converja a una solución aceptable.
Debido a las desventajas antes mencionadas propone un método para implementar un
PMC a partir de un AD y luego compara el desempeño del método implementado en
relación al (AD) y con respeto a un PMC definido por separado.
Para la realización de su experimento se utilizó la conocida base de datos IRIS3 en
donde el método PMC inicializado por mapeo supera en precisión a los métodos de
AD y PMC por separado.

PREDICCIÓN
En la predicción [56], el objetivo es desarrollar un modelo que se puede inferir un solo

aspecto de los datos (variable predicha) a partir de una combinación de otros aspectos
de los datos (variables predictoras). Predicción requiere tener etiquetas para la variable
de salida para un conjunto de datos limitado, donde una etiqueta representa una
información de confianza sobre el valor de la variable de salida en casos específicos.
En algunos casos, sin embargo, es importante tener en cuenta el grado en que estas 8
etiquetas pueden de hecho ser aproximado, o incompletamente fiable.
La predicción tiene dos usos principales por ejemplo dentro de la minería de datos en
la Educación.
En algunos casos, los métodos de predicción puede ser utilizada para estudiar qué
características de un modelo son importantes para la predicción, dando información
acerca de la construcción subyacente. Se trata de un enfoque común en los programas
de investigación que intentan predecir los resultados educativos de los estudiantes sin
predecir factores de mediación en primer lugar. En un segundo tipo de uso, los
métodos de predicción se utilizan con el fin de predecir lo que el valor de salida podría
ser dentro del contexto, en lo que no es deseable para obtener directamente una
etiqueta para ese constructo.
Por ejemplo, podemos desear predecir el salario de los graduados de la
Universidad Cesar Vallejo con 10 años de experiencia laboral, predecir el estilo
de aprendizaje más adecuado en la enseñanza del curso de matemática I en la
escuela profesional de Ingeniería de Sistemas, o el potencial de ventas en el
mercado de un nuevo producto por su precio.
[3] Base de datos IRIS: El conjunto de datos contiene 3 clases de 50 casos cada uno, donde cada clase se refiere a un tipo de
planta iris. Una clase es linealmente separable de la otra 2, estos últimos no son linealmente separables una de otra., Center
for Machine Learning and IntelligentSystems, disponible en :http://archive.ics.uci.edu/ml/datasets.html
.
ALMACÉN DE DATOS (Datawarehouse)
Un almacén de datos se define como un conjunto de datos integrados, orientados a un

tema de negocio por ejemplo ventas, compras, almacén, marketing, etc. que varían con
el tiempo, y que no son transitorios, los cuales soportan el proceso de toma de
decisiones administrativas (Inmon, 2005)[38]:
Conjunto orientado: los datos que se encuentran en un DW están relacionados con las
operaciones de una organización, por ejemplo las ventas, las compras, los clientes, 9
recursos Humanos y otros.
Integrados: los datos tomados de distintos sistemas de la empresa son recopilados y

almacenados en una fuente coherente y homogénea.
Variables en el tiempo y no transitorios: los datos del DW incluyen los datos

actuales e históricos de la organización, suelen almacenarse como agregados y no
deben ser eliminados, ni modificados.
MODELOS DE MINERIA DE DATOS

Los modelos de Data Mining se clasifican como predictivos y descriptivos. En el primer
caso, se tiene una variable con valor desconocido, y la finalidad es determinarlo. Esta
variable se llama respuesta, variable dependiente u objetivo, mientras que aquellas
utilizadas para hacer la predicción son los predictores o variables independientes [29].
Los modelos predictivos requieren ser “entrenados”, utilizando un conjunto de datos de
entrenamiento cuyo valor de variable objetivo es conocido. La idea es que el modelo
entregue resultados en base un aprendizaje, en otras palabras, que se vaya ajustando a la
realidad conocida.
A este tipo de modelos se les conoce también como modelos de aprendizaje supervisado,
debido a que los valores estimados o calculados son comparados con los resultados
conocidos, y por lo tanto se tiene una clara medida del éxito o falla de la predicción [24]
[29]. Algunos algoritmos que se utilizan en estos modelos son los de clasificación y las
regresiones.
El aprendizaje supervisado se utiliza en problemas en los que se tiene conocimiento del
resultado al que se quiere llegar, por ejemplo para la detección de aquellos clientes que
son más propensos a la fuga de la empresa

Por otra parte, se tienen los modelos descriptivos, en los cuales no se cuenta con un
resultado conocido para poder guiar a los algoritmos, y por ello se conocen como
modelos de aprendizaje no supervisado, donde el modelo se va ajustando de acuerdo a
las observaciones o datos entregados, y se recurre muchas veces a argumentos
heurísticos para evaluar la calidad de los resultados. Algunos algoritmos que se utilizan
en estos modelos son los de clustering y las reglas de asociación [29].
El aprendizaje no supervisado, es usado en los casos en que no se tiene conocimiento
10
previo del resultado al que se va a llegar, por ejemplo al segmentar a los clientes en
grupos que no hayan sido definidos previamente. Luego que el modelo ya ha sido
entrenado, se utiliza una muestra de datos independiente de aquella utilizada para la fase
de construcción y entrenamiento del modelo, con la intención de evaluar la capacidad de
predicción de éste.
METODOS DE MINERIA DE DATOS

Existe una variedad de métodos para los modelos predictivos y descriptivos, en el
presente libro haremos incapie a dos métodos muy importantes para la predicción las
cuales son los arboles de clasificación y las redes neuronales.
ÁRBOLES DE CLASIFICACIÓN.
El árbol de decisión desarrollado por Breiman et al. (1984)[48], trata de encontrar que
variable independiente(s) puede hacer sucesivamente una decisión de los datos
dividiendo el grupo de datos original en pares de subgrupos en la variable dependiente.
Es importante tener en cuenta que a diferencia de regresión que devuelve un subconjunto
de las variables, los árboles de clasificación puede clasificar los factores que afectan a la
tasa de retención.
Según Ricardo Blanco(2006)[49] Un árbol de decisión es un conjunto de condiciones
organizadas en una estructura jerárquica, de tal manera que la decisión final a tomar se
puede determinar siguiendo las condiciones que se cumplen desde la raíz del árbol hasta
alguna de sus hojas. Los árboles de decisión se utilizan desde hace siglos, y son
especialmente apropiados para expresar procedimientos médicos, legales, comerciales,
estratégicos, matemáticos, lógicos, etc.

Una de las grandes ventajas de los árboles de decisión es que, en su forma más general,
las opciones posibles a partir de una determinada condición son separadas. Esto permite
analizar una situación y, siguiendo el árbol de decisión apropiadamente, llegar a una sola
acción o decisión a tomar.
En la figura N° c se muestra un árbol de decisión que permite decidir si se juega o no
una partida de golf, de acuerdo a las condiciones climáticas.
El nodo raíz es el clima y tiene tres ramas: soleado, nublado y lluvioso, si el valor de la
11
prueba del nodo raíz clima es soleado, entonces desciende al nodo interno Humedad,
este nodo tiene dos ramas: <=75 y >75, si el valor de la prueba del nodo interno
Humedad es <=75, entonces desciende al nodo hoja que especifica el valor juega, en
caso contrario, desciende al nodo hoja que especifica el valor no juega.
Si el valor de la prueba clima es nublado, entonces desciende al nodo hoja que especifica
el valor juega. Si el valor de prueba del nodo clima es lluvioso, entonces desciende al
nodo interno viento, este nodo tiene dos ramas: falso y verdadero, si el valor de la
prueba del nodo interno Viento es falso, entonces desciende al nodo hoja que especifica
el valor juega, en caso contrario, desciende al nodo hoja que especifica el valor no juega
Figura N° c: Árbol de decisión para jugar una partida de Golf
Consideremos, un ejemplo clásico usado para la explicación de los árboles de decisión,

la clasificación de plantas iris. Este problema consiste en determinar de qué tipo de
planta se trata (iris setosa, iris versicolor o iris virginica) en base a las características del
ancho y largo de su pétalo y/o sépalo. En la Figura N° d se muestra una representación
en forma de árbol de decisión para este problema.

12
Figura N° d:Árbol de decisión para determinar el tipo de plantas iris
Este árbol de decisión en concreto funciona como un “clasificador”, es decir, dada una
nueva planta nos la clasifica en una de las clases posibles, para lo cual basta con recorrer el
árbol desde la raíz hasta alguna de sus hojas, en función del valor de los atributos del dato a
clasificar.
Los algoritmos de aprendizaje de árboles de decisión más habituales se llaman algoritmos
de partición o algoritmos de “divide y vencerás”. Básicamente, el algoritmo va
construyendo el árbol (desde el árbol que sólo contiene la raíz) añadiendo particiones y los
hijos resultantes de cada partición. Lógicamente, en cada partición, los ejemplos se van
dividiendo entre los hijos. Finalmente, se llega a la situación en la que todos los ejemplos
que caen en los nodos inferiores son de la misma clase y esa rama ya no sigue creciendo.
En la Fig. N° e se puede observar un algoritmo básico para generar un árbol de decisión a
partir de un conjunto de ejemplos, utilizando la técnica de “partición”.
Figura N° e: Algoritmo de aprendizaje de árboles de decisión por ―Partición‖

(Divide y Vencerás)

Como puede verse, una característica importante de estos algoritmos es que una vez
elegida la partición ya no se puede cambiar, aunque más tarde se pudiera comprobar que
ha sido una mala elección. Por tanto, uno de los aspectos más importantes a considerar
en estos sistemas es el denominado criterio de partición, ya que una mala elección de la
partición (especialmente en las partes superiores del árbol) generará un árbol peor.
Por lo tanto, las particiones a considerar y el criterio de selección de particiones son lo
que diferencian fundamentalmente a los distintos algoritmos de “partición” existentes
13
hasta la fecha, como CART, ID3, C4.5,etc.
Tal y como hemos mencionado, otra característica interesante es que los árboles de
decisión se pueden expresar como conjuntos de reglas de la forma SI conjunción de
condiciones ENTONCES acción. Estas reglas se obtienen al recorrer cada uno de los
caminos que llevan desde el nodo raíz hasta un nodo hoja, donde las particiones son las
condiciones de las reglas.
Por ejemplo, el árbol de la Figura Nº f se puede expresar como el conjunto de reglas
siguientes:
Figura N° f: Algoritmo de árbol de decisión de la base de datos Iris
Como hemos mencionado anteriormente, las particiones son un conjunto de condiciones

exhaustivas y excluyentes. Cuantas más particiones permitamos más expresivos podrán
ser los árboles de decisión generados y, probablemente, más precisos. Además, más
posibilidades tendremos de encontrar los patrones que hay detrás de los datos. No
obstante, cuantas más particiones elijamos, la complejidad del algoritmo será mayor.
Por tanto, la calidad de un algoritmo está determinada por el compromiso entre
expresividad y eficiencia.

Debido a esto, la mayoría de los algoritmos de aprendizaje de árboles de decisión sólo

permiten un juego muy limitado de particiones. Así, el C4.5 contiene un solo tipo de
partición para los atributos nominales y un solo tipo de partición para los atributos
numéricos:
1) Particiones nominales: una condición de la forma Xi = Vj,1 ≤ j ≤ k, siendo xi

el atributo nominal seleccionado y Vj cada uno de sus k posibles valores.
2) Particiones numéricas: las particiones numéricas admitidas son de la forma 14
{Xi ≤ a, Xi > a}donde Xi es un atributo numérico y continuo, y a es una
constante numérica que se obtiene observando valores consecutivos del

atributo y calculando sus puntos medios.
La expresividad resultante de las particiones anteriores se conoce como expresividad
proposicional cuadricular ya que parte el espacio del problema mediante segmentos
paralelos a los ejes, véase, por ejemplo, la Figura Nº g, para un problema bidimensional
Figura N° g:Partición cuadricular del espacio obtenido por un árbol de

Decisión para un problema con dos atributos (X e Y) numéricos.
Así, en problemas de clasificación, un modelo es (implícitamente o explícitamente) una

división del espacio de instancias en regiones, cada una de las cuales se les asigna una
determinada clase de las posibles. Dado un conjunto de ejemplos de entrenamiento del
cual aprendemos un modelo, éste es preciso si las regiones que produce coincide con las
regiones verdaderas de esos ejemplos; el algoritmo produce modelos estables si produce
las mismas regiones al proporcionarle dos diferentes conjuntos de entrenamiento del
mismo dominio; y los modelos son comprensibles en cuanto indica claramente (a un
usuario humano) cuales son las regiones de la clase.

Basándose en la idea de buscar particiones que discriminen o que consigan nodos más
puros (donde un nodo puro es aquel en el que los ejemplos que caen en él son todos de la
misma clase), se han presentado en las últimas dos décadas numerosos criterios de
partición, tales como el criterio del error esperado, el criterio Gini, los criterios Gain,
Gain Ratio y el criterio usado en el algoritmo C4.5 y el DKM. Estos criterios de
partición buscan la partición s con la menor impureza I(s), definida de la siguiente
forma:
15
donde n es el número de nodos hijos de la partición (número de condiciones de la

partición), Pj es la probabilidad de que un ejemplo “caiga” en el nodo j, y Pij es la
proporción de elementos de la clase i en el nodo j, siendo c el número de clases. La
función f( ) se denomina función de impureza y, por tanto, la función I(s) calcula la
media ponderada (dependiendo de la cardinalidad de cada hijo) de la impureza de los
hijos en una partición.
Bajo esta fórmula general, cada criterio de partición implementa una función f distinta,
como se muestra en la Tabla N° h:
Tabla N° h:Funciones de impureza para algunos criterios de partición
2.2.8.2 Redes neuronales.

Las redes neuronales según Chong Ho Yu[48], su nombre indica, tratan de imitar las
neuronas interconectadas en los cerebros de animales con el fin de hacer que el
algoritmo sea capaz de realizar el aprendizaje complejo para la extracción de patrones y
detectar tendencias. Se basa en la premisa de que estructuras de datos del mundo real

son complejos, y por lo tanto requiere el aprendizaje de sistemas complejos. Una red
neuronal entrenada puede ser visto como un "experto" en la categoría de información
que ha sido dada a analizar. Este sistema experto puede proporcionar proyecciones dado
nuevas soluciones a un problema y la respuesta "qué pasa si". La red neuronal típica se
compone de tres tipos de capas, a saber, la capa de entrada, capa oculta y la capa de
salida. Es importante observar que hay tres tipos de capas, no tres capas, en la red. Puede
haber más de un capa oculta y depende la complejidad del investigador de realizar el
16
modelo.
La capa de entrada contiene los datos de entrada; la capa de salida es el resultado
mientras que el capa oculta realiza la transformación y manipulación de datos.
Debido a que la entrada y la salida están mediadas por la capa oculta, las redes
neuronales son comúnmente visto como una "caja negra".
Benjamín Moreno (2009) [50] indica que el Perceptron Multicapa (Multilayer
Perceptron) es uno de los modelos de Redes Neuronales más utilizados, el cual es una
generalización del modelo propuesto por Rosenblatt en 1958[51]. Este modelo establecía
un perceptron simple (una sola neurona) para separar por medio de un hiperplano a un
conjunto de entrenamiento linealmente separable.
En el caso de los seres humanos dentro del cerebro existe un número equivalente de 1010
de neuronas y con un aproximado de 104 interconexiones entre cada una de ellas. A
nivel del funcionamiento de cada neurona, este es muy lento comparado con un
procesador (las neuronas realizan 10 operaciones por segundo mientras que los
procesadores realizan millones de operaciones por segundo).
Las partes que conforman a una neurona son tres: las entradas llamadas dendritas, el
cuerpo mismo de la neurona y las salidas llamadas axones. En la parte final de cada axón
se encuentra un elemento que permite la comunicación con mas dendritas de otra
neurona, llamado sinapsis. Las neuronas aceptan miles de señales de entradas con una
fuerza determinada, dependiendo de estas la neurona emite una señal de respuesta, por lo
que las sinapsis pueden entonces trasmitir una señal débil o fuerte dependiendo de la
fuerza que haya salido del procesamiento de la neurona. Desde un enfoque matemático
el funcionamiento de una neurona puede representarse por una lista de sus señales de
entrada que son multiplicadas por sus pesos correspondientes y después son sumadas

cada una de las entradas. El resultado es el nivel de activación de la neurona, que es la

entrada hacia las demás neuronas que se encuentren conectadas a ella. El modelo del
perceptron simple es uno de muchas representaciones de una red neuronal artificial, el
cual trataba de imitar el comportamiento de una neurona, en donde se tiene un conjunto
de entradas (axones simples) las cuales son conectadas al cuerpo del perceptron (cuerpo
de la neurona) a través de un conjunto de vértices (dendritas). Dentro del cuerpo del
perceptron se encuentra una función que suma cada una de las entradas y la función de
17
activación de la neurona. En la Figura Nº i se muestra el esquema de una neuronal real y
el esquema de un Perceptron Simple.
a
b
Fig. Nº i a) Modelo real de la neurona b) Modelo de perceptron simple
Tanto el perceptron simple como el perceptron multicapa (PMC) son representaciones de

una red neuronal artificial. Cuando se unen varios perceptrones en una capa y los estímulos
recibidos en las entradas de cada uno son sumados, se considera que se tiene una red
neuronal. El enfoque del PMC es precisamente combinar varios perceptrones simples en un
esquema donde las salidas de cada uno, son transmitidas varias capas hasta llegar
finalmente a las salidas de los PMC.
La estructura de PMC está dividido por capas las cuales son: la capa de entrada, la(s)
capa(s) oculta(s) y la(s) capa(s) de salida(s). En este tipo de red neuronal artificial se
ingresa un número de entradas que van conforme al número de neuronas que hay en la capa
de entrada, después estas se conectan con las neuronas de la capa oculta por medio de
vértices, en donde cada salida de las neuronas presentes en la capa de entrada, se asocia a
cada una de las neuronas en la capa oculta.

Una vez que están conectadas todas las salidas de la capa de entrada a las entradas de las
neuronas de la capa oculta se repite el mismo procedimiento en caso de que se presenten
más capas ocultas, si no es el caso las salidas de cada neurona en la capa oculta es
conectada a la capa de salida, de la misma forma que se describió, teniendo finalmente las
salidas finales del PMC. En la Figura Nº j se muestra el esquema básico del PMC:
18
Figura Nº j: Modelo del Perceptron Multicapa - Retropropagación
En las décadas de los 60‟s y 70‟s no hubo métodos de entrenamiento apropiados para los
PMC, se vio detenido el interés por estas tipologías. Fue hasta mediados de los 80‟s cuando
Rumelhart[52] propuso un método de entrenamiento para los PMC llamado
retropropagación (backpropagation).
Funcionamiento del Perceptron Multicapa –Retropropagación

El termino retropropagación se basa en el método del gradiente descendiente para encontrar
el error en una red hacia adelante (feed-foward, de aprendizaje supervisado, en donde se
necesita un conjunto de entrenamiento y el valor o meta esperada), que es una aplicación
directa de la Regla de la Cadena utilizada en Calculo Diferencial [53].
El funcionamiento de este tipo de redes neuronales artificiales se puede dividir en las
siguientes dos etapas:
1. Los datos de entrenamiento se pasan hacia delante, las salidas son calculadas calculando
el error en cada caso.

2. Se realiza entonces el paso hacia atrás en donde el error calculado en la capa de salida, se
utiliza para cambiar el peso da cada capa ocultas de la red neuronal, hasta llegar a la
capa de salida, calculando recursivamente los gradientes locales para cada neurona.
Al final de estas dos etapas se tiene un PMC entrenado.
A continuación se muestra el algoritmo básico de construcción de un PMC:
1. Determinar la Arquitectura.
 Cuantas unidades de entrada y salida. 19
 Cuantas capas ocultas y unidades en cada capa oculta.
2. Inicializar todos los pesos y sesgos a valores aleatorios pequeños por ejemplo E[-1,1] y
el valor de n .
3. Repetir hasta que el criterio de terminación sea satisfecho
- Presentar un ejemplo de entrenamiento y pasarlo por la red (forward pass)
- Calcular la salida actual y el error en cada salida
- Adaptar los pesos empezando por la capa de salida y trabajar hacia atrás
(backwardpass).
En donde se tiene:
En donde para cada unidad oculta j, y la suma sobre todos los nodos i en la capa anterior j,
Oi son las salidas obtenidas y ᵟi son las salidas deseadas.
Es necesario proponer una función f sigmoide (la función de activación en el caso del
perceptron simple), que sea diferenciable. La función sigmoide es una de las funciones de
transferencia más utilizadas. Produce salidas continuas y proporcionales al nivel de
activación de la neurona dentro del rango [0,1]; sus niveles de saturación son 0 y 1, por lo
que su salida máxima será 1 y la mínima 0. Cuando el nivel de activación supere al umbral

de saturación máximo la salida seguirá siendo 1 y cuando el nivel de activación sea inferior
al umbral de saturación mínimo la salida seguirá siendo 0. Es común tomar la función
sigmoide exponencial denotada por:
20
Si escogemos la función sigmoide exponencial tendríamos el siguiente criterio:
Usualmente se utilizan criterios de paro para este tipo de métodos, los cuales son:
1. Número de épocas, se le llama época al proceso de entrenar 1 vez el perceptron
multicapa sobre todos los ejemplos.
2. Error Mínimo Cuadrado, esto se realiza al llevar acabo el entrenamiento, en donde se
tiene un registro de los errores que se van presentando en cada una de las épocas y se
decide parar cuando se encuentre un error mínimo.
En cuestión de las funciones de activación tenemos las siguientes opciones:
1. Diferenciables (el método propuesto de retropropagación)
2. No lineales
3. Monotónica (una función que siempre crece o decrece)
4. Lineal para valores pequeños.
5. Asimétricas.

La construcción de la red neuronal se realizara atravez de una exhaustiva calidad de

experimentación basado en la prueba y error, en la cual la precisión y la capacidad de
generalización del modelo dependerá del numero de neuronas en la capa oculta, en
donde podemos indicar que el numero de neuronas debe ser suficiente para la
realización correcta de la predicción pero lo suficientemente bajo para poder permitir la
generalización
APLICACION DE LA MINERIA DE DATOS 21
La minería de datos se está aplicando en diferentes campos (tabla Nº 1) de manera

satisfactoria según (Hernández Orallo, Ramirez Quintana, & Ferri Ramírez, 2004) [39]
Tabla Nº 1
Área de aplicación problema

Comercio/Marketing  Identificar patrones de compra de los clientes.
 Buscar asociaciones entre clientes y características
demográficas.
 Predecir respuesta a campañas de mailing.
 Análisis de la canasta de compra
Banca  Detectar patrones de uso fraudulento de tarjetas de
crédito.
 Identificar clientes leales
 Predecir clientes con probabilidad de cambiar su afiliación.
 Determinar gasto en tarjeta de crédito por grupos.
 Encontrar correlaciones entre indicadores financieros.
 Identificar reglas de mercado de valores a partir de
históricos.
Seguros y Salud  Análisis de procedimientos médicos solicitados
Privada conjuntamente.
 Predecir qué clientes compran nuevas pólizas.
 Identificar patrones de comportamiento para clientes con
riesgo.

 Identificar comportamiento fraudulento.

Transportes  Determinar la planificación de la distribución entre tiendas.
 Analizar patrones de carga
Medicina  Identificación de terapias médicas satisfactorias para
diferentes enfermedades.
 Asociación de síntomas y clasificación diferencial de
patologías.
22
Procesos  Extracción de modelos sobre comportamiento de
industriales compuestos.
 Detección de piezas con trabas.
 Predicción de fallos.
mas áreas en donde se aplica la minería de datos podrá encontrar en la siguiente

dirección electrónica http://www.it.uc3m.es/jvillena/irc/practicas/06-07/22.pdf en
donde algunos de los ejemplos interesantes son los siguientes:
INVESTIGACIÓN ESPACIAL
Proyecto SKYCAT
Durante seis años, el Second Palomar Observatory Sky Survey (POSS-II) coleccionó
tres terabytes de imágenes que contenían aproximadamente dos millones de objetos en
el cielo. Tres mil fotografías fueron digitalizadas a una resolución de 16 bits por píxel
con 23040 x 23040 píxeles por imagen. El objetivo era formar un catálogo de todos
esos objetos. El sistema Sky Image Cataloguing and Analysis Tool (SKYCAT) se basa
en técnicas de agrupación (clustering) y árboles de decisión para poder clasificar los
objetos en estrellas, planetas, sistemas, galaxias, etc. con una alta confiabilidad. Los
resultados han ayudado a los astrónomos a descubrir dieciséis nuevos quásares (señales
radiales lejanas) con corrimiento hacia el rojo que los incluye entre los objetos más
lejanos del universo y, por consiguiente, más antiguos. Los quásares son fuentes de
Rayos X, radiación ultravioleta, luz visible y también infrarroja; en otras palabras, la
emisión de radiación de los quásares resulta intensa en todo el espectro

electromagnético. Estos quásares son difíciles de encontrar y permiten saber más

acerca de los orígenes del universo.
MEDICINA
Una aplicación muy popular del text mining es relatada en Hearst (1999). Don
Swanson intenta extraer información derivada de colecciones de texto. Teniendo en
cuenta que los expertos sólo pueden leer una pequeña parte de todo lo que se publica
23
en su campo, y por lo general tampoco pueden tener en cuenta los nuevos desarrollos
que se suceden en otros campos relacionados, y teniendo en cuenta que la cantidad de
nuevos documentos que se publican es cada vez mayor, la aplicación de la minería de
datos en colecciones de texto va resultando más importante. Así, Swanson ha
demostrado cómo cadenas de implicaciones causales dentro de la literatura médica
pueden conducir a hipótesis para enfermedades poco frecuentes, algunas de las cuales
han recibido pruebas de soporte experimental. Investigando las causas de la migraña,
dicho investigador extrajo varias piezas de evidencia a partir de títulos de artículos
presentes en la literatura biomédica. Algunas de esas claves fueron:
 El estrés está asociado con la migraña.

 El estrés puede conducir a la pérdida de magnesio.
 Los bloqueadores de canales de calcio previenen algunas migrañas.
 El magnesio es un bloqueador natural del canal de calcio.
 La depresión cortical diseminada (DCD) está implicada en algunas migrañas.
 Los niveles altos de magnesio inhiben la DCD.
 Los pacientes con migraña tienen una alta agregación plaquetaria.
 El magnesio puede suprimir la agregación plaquetaria.
Estas claves sugieren que la deficiencia de magnesio podría representar un papel en algunos
tipos de migraña, una hipótesis que no existía en la literatura y que Swanson encontró
mediante esas ligas. De acuerdo con Swanson , estudios posteriores han probado
experimentalmente esta hipótesis obtenida por text mining con buenos resultados.
para continuar con el entendimiento de la minería de datos nos enfocaremos en una sola
área en este caso en la minería de datos en la educación : las Universidades

Minería de datos en la educación
Según Ryan S.J.D. Baker[43] La comunidad de Minería de datos web,

www.educationaldatamining.org, define la minería de datos de educación de la
siguiente manera: "La minería de Datos en Educación es una disciplina emergente,
preocupado por el desarrollo de métodos para explorar los tipos únicos de datos que
provienen de los centros educativos, Institutos, Universidades, y el uso de esos
métodos para entender mejor a los estudiantes”. 24
La minería de datos, también llamado Descubrimiento del Conocimiento en Bases de
Datos (KDD), es el campo de descubrir información novedosa y potencialmente útil a
partir de grandes cantidades de datos Se ha propuesto que los métodos de minería de
datos en la Educación están a menudo diferentes de los métodos de minería de datos
estándar, debido a la necesidad de tener en cuenta de forma explícita la jerarquía de
varios niveles y no la independencia, en datos educativos
El estudio de la minería de en la Educación según Romero y Ventura [44] (Fig. N° k)
proporciona una visión general de cómo diferentes actores de EDM pueden
beneficiarse de la minería diversas fuentes de datos educativas, y varias historias de
éxito se pueden encontrar en el Manual de primer EDM [45].
Figura N° k: Educational data mining (EDM) [44].
Ahora vamos a explicar algunas investigación de minería de datos que se han

realizado en Educación para lo cual tomaremos como tema las ultimas investigación
realizadas sobre la deserción estudiantil en la Educación Superior aplicando las
técnicas de minería de datos, en la cual se dará más importancia las investigación que

se han realizado con técnicas de minería de datos (redes neuronales, arboles de

decisión)
Ashutosh Nandeshwar (2011) [3]. Realizo un trabajo para predecir si los estudiantes
se mantendrá durante los tres primeros años de una licenciatura en la Universidad,
después de haber realizado el estudio, el autor considero para la realización de su
estudio 103 variables, en donde podemos observar algunas de las variables en la
Tabla N° 2, de los cuales indica que los factores que resultaron ser de carácter 25
importante son: el sueldo familiar, la situación socio económica de la familia, alto
promedio escolar y el rendimiento académico de las pruebas en la educación superior.
Tabla N° 2: Lista de atributos por hipótesis planteadas
atributo Descripción de ayuda financiera atributo Descripción de indicadores de rendimiento
FinAidAwardType_G Monto de subvenciones de ayuda financiera ACT_COMP ACT puntaje Integral(Antiguo)

FinAidAwardType_J Monto de ayuda financiera en los puestos de ACT_ENGL ACT puntaje de Ingles(Antiguo)
trabajo
FinAidAwardType_L Importe de ayuda financiera de prestamos ACT_MATH ACT puntaje de matemática(Antiguo)
FinAidAwardType_S Importe de ayuda financiera de beca ACT1_COMP ACT puntaje Integral(nuevo)
FinAidAwardType_W Importe de ayuda financiera de renuncia ACT1_ENGL ACT puntaje de Ingles(nuevo)
FinAidDEPENDENCY Estado de dependencia ACT1_MATH ACT puntaje de matemática(nuevo)
FinAidFATHER_ED Nivel de Educación del padre ACTEQUIV ACT equivalente al puntaje
FinAidFATHER_WAG Ingresos del padre MaxACT Máximo del puntaje ACT y el equivalente ACT
FinAidMOTHER_ED Nivel de Educación de la madre COMP_REA Leer puntuación de alcance
D
FinAidMOTHER_WAG Ingresos de la madre COMP_WRIT Escribir puntuación de alcance
E
FinAidOfferedInd Indicador de ayuda financiera ofrecida SAT_TOT Puntaje total de SAT
offeredindicator Ingreso bruto de los padres SAT_VERB Puntaje verbal de SAT
FinAidPARENT_HOU Tamaño del hogar de los padres HS_CODE Código de la escuela secundaria
FinAidPARENT_MAR Estado Civil de los padres HS_GPA Rendimiento Académico del Colegio
FinAidPARENT_TAX Tipo de formulario impuesto de los padres HS_PERCEN Percentil de la Escuela secundaria
T
FinAidSPOUSE_WAG Salarios del cónyuge HS_RANK Posición en la Escuela Secundaria
FinAidSTUDENT_AG Ingreso bruto de los estudiantes HS_SIZE Tamaño de clase de la escuela secundaria
FinAidSTUDENT_HO Tamaño de familia de los estudiantes RankHSGPA Percentil del rendimiento académico de todos los estudiantes
del primer año
FinAidSTUDENT_MA Estado Civil de los Estudiantes RankMaxACT Percentil del Act máximo de todos los estudiantes del primer
año
FinAidSTUDENT_TA Tipo de formulario impuesto de los ANTH18 Inscrito en el curso de Antropología
estudiantes
FinAidSTUDENT_WA Salario del estudiantes BSCI10 Inscrito en el curso de ciencias biológicas
FirstGenInd Indicador de la primera Generación CHEM10 Inscrito en el curso de química
TotalFinAidOffered Total de ayuda ofrecida ENG10 Inscrito en el curso de ingles
ENG11 Inscrito en el curso de ingles
GEOL11 Inscrito en el curso de geología
LEST16 Inscrito en cursos de distracción

MATH10 Inscrito en el curso de nivel 100 de matemática

PHY11 Inscrito en el curso de nivel 11 de física
PEP15 Inscrito en el curso de nivel 15 de ed físico
Fuente:Adaptado a AshutoshNandeshwar (2011)
Para el estudio analizo 6 técnicas que son:one-R, C4.5, ADtrees, Reyes bayesinas ,bayes
Networks y radial biasnetworks de los cuales uso para su experimento: arboles de decisión 26
Figura N° l y reyes bayesianas obteniendo una precisión del 90%
Figura N° l Árboles de Decisión
Fuente:Adaptado a AshutoshNandeshwar (2011)
En el presente trabajo se muestra un resumen (Tabla N° 3)de la literatura que reviso el autor, en
la cual se detalla la técnica y la precisión que se obtuvieron en cada uno de los estudios
revisados.
Tabla N° 3: Reporte de técnicas y precisión usadas en la literatura
Autor(año) Notas Tamaño del Retenidas Retenidas Medidas de Coef Técnicas utilizadas
grupo (#) (%) Precisión fesu
sed?
Spady (1971) 683 615 90.04 R2 de 0.3132 Si Regresión múltiple
para hombres and
0.3879 para
mujeres
Bean (1980) 906 769 84.88 R2 de 0.22 para si Regresión múltiple
mujeres y 0.09
para hombres
Terenzini and Estudio 1 379 60 15.8 R2 de 0.246 Si Análisis discriminante

Pascarella Estudio 3 518 428 82.63 R2 de 0.256 Si Regresión múltiple
(1980 Estudio 5 763 673 88.20 R2 de 0.309 Si Análisis discriminante
Estudio 6 763 673 88.20 R2 de 0.476 para Si Análisis discriminante
hombre and 0.553

para mujeres
Stage (1989) 323 294 91.00 si Regresión logística
Dey and Astin 947 152 16.00 Multiple R 0.354, si Logit, probit, yregresión
(1993) 0.351, and 0.323
Murtaugh et 8667 5200| 60 Probabilidad si Regresión de análisis de
al. (1999) estimada de supervivencia/peligro
retención 59.3%
Bresciani and 3535 3121 88.30 R2 of 0.022 Si RegresiónLogística
Carson
(2002)
Glynn et al. Cualquier 3244 1592 49.08 Precisión total de si RegresiónLogística
(2003) deserción, no 83%
sólo de
primer año;
precisiones
sobre la base
27
de los datos
de
entrenamiento
Herzog (2005) 5261 4014 76.30 77.4% de Si Regresión logística

precisión
4298 3314 77.10
4671 4040 83.50 85.45 de si Regresión logística
precisión
Sujitparapita 2444 1943 79.50 81.6% de Regresión logística
ya (2006) precisión sobre el
entrenamiento, el
80,7% en
validación
2445 1994 79.50 83.9 % de Redes neuronales

precisión sobre el
entrenamiento, el
82,1% en
validación
2445 1994 79.50 85.5 % de C 4.5

precisión sobre el
entrenamiento, el
84,4% en
validación
Herzog (2006) 8018 6037 75.29 Precisión cerca Redesneuronales; CHAID,

del 75% C4.5, CR&T; regression
logistica
Atwell et al. entrenamiento 3829 3149 82.24 Precision de la Arboles de decisión
(2006) desercion (entropy, chisq,
91,84,84,78 gini) y regression logistica
prueba 5990 4881 81.49 Precision de la
desercion
88,2,82,73
DeLong et al. 50 Precision entre AdaBoost M1 with
(2007) 57% y 60 % Decision
stumps
Pittman 21,136 17,139 81.10 Precisión total de Regresión logística, redes
(2008) 78-81%, neuronales, Bayes, J48
precisión de no
retención de 44-
63%
Fuente :Adaptado a AshutoshNandeshwar (2011)
RubaAlkhasawneh (2010)[2]. Realizo una revisión sobre métodos estadísticos

tradicionales aplicados a la deserción de estudiantes y además técnicas cualitativas para

identificar los factores que afectan la retención de los estudiantes, en donde el autor critica
que los métodos estadísticos muestran menor precisión que los métodos de minería de datos
por lo cual desarrolla dos modelos de redes neuronalesfig. N° m que utilizan una red de
propagación de alimentación hacia adelante para predecir la retención de estudiantes en los
campos de la ciencia y la ingeniería utilizando como variable principal el rendimiento
académico (GPA).
28
Fig. N° m: multilayer feed forward back propagation network
El primer modelo que plantea el trabajo de investigación predice la retención de

estudiantes de primer año de ingreso y identifica factores correlaciónales entre los factores
pre-universitarios. El segundo modelo clasifica a los grupos de primer año en tres clases: en
situación de riesgo si el GPA es Menor que 2.7, intermedio si el GPA está entre 2.7 y 3.4, y
el riego es alto si el GPA mayor a 3.4. El experimento se realizó con un total de 338
estudiantes de los cuales 44% representa a Ingeniería y el 56% corresponde a los alumnos
de Ciencias.En las tablas N° 3, N° 4 mostradas en la parte inferior se muestra los resultados
obtenidos relacionados con la precisión del modelo.
Tabla N° 3: Los resultados del valor r y la mejor precisión
Variable S&E Ciencia Ingeniería

Valor R 0.54 0.57 0.59
Precisión 68% 70.5% 68.9%
Total 338 190 148

Tabla N° 4: Resumen de resultados de análisis de errores
Variable S&E Ciencia Ingeniería

Mínimo 0.002808 0.000519 8.06E-05
Máximo 2.623909 1.652878 2.772855
Promedio 0.41657 0.408178 0.410695
Mario Jadric (2009)[4]. Realizo un estudio de la deserción de estudiantes usando la

29
metodología SEMMA para luego aplicar las técnicas de minería de datos como: regresión
logística, árboles de decisión y redes neuronales en la cual utilizo las variables que se
muestran en la tabla N° 5.
Tabla N° 5: Variables identificadas
Variables
ID Sexo Estado
Programa de Calificaciones del Calificaciones de
Estudios Padre la Madre
Condición Social Indicador de la Agrupación del
Vivienda examen de
entrada
Realiza el experimento con cada uno de las técnicas antes mencionadas usando 286
estudiantes, después de haber realizado el entrenamiento se puede observar que 98
estudiantes desertan mientras que 188 estudiantes continúan sus estudios después del
segundo año como se muestra en la Figura N° n.
Fig. N° n:Análisis por Arboles de Decisión.
Fuente:Adaptado a Mario Jadric (2009)[4]

Después de realizar las comparaciones de los métodos experimentados sedeterminó que las
redes neuronales se comportan muy bien en problemas de clasificación más complejos
según la Fig N° o. Su desventaja, en comparación con los métodos más sencillos, es el
modelo de aprendizaje debido a que el proceso es relativamente lenta y exigente
(optimización de los factores de peso) .
Fig. N° o: Evaluación y comparación de modelo

30
Fuente: Adaptado a Mario Jadric (2009)[4]
LoannaLykourentzou (2009) [5] desarrollo un método de predicción de deserción en los

cursos de e-learning, basado en tres técnicas populares de aprendizaje automático. Las
técnicas de aprendizaje automático utilizadas son redes neuronales con aprendizaje hacia
adelante, máquinas de soporte de vectores y conjunto probabilístico simplificada
ARTMAP difusa.
También indica que una sola técnica puede fallar para clasificar con precisión a algunos
estudiantes de e-learning, mientras que otro puede tener éxito, en donde realizo tres
sistemas de toma de decisiones basados en el esquema mostrado en la figura N° p, que se
combinan para obtener diferente resultados de las tres técnicas de maquinas de aprendizaje

Fig. N° p: Esquema de Decisión usada por el método propuesto
31
Para la realización del experimento utilizo las variables que no son cambiantes en el
tiempo (demográficas) y las variables que son cambiantes en el tiempo (sesiones de
aprendizaje) mostradas en la tabla N° 6.
tabla N° 6:Atributos de estudiantes usadas para el entrenamiento

y testeo de redes de aprendizaje automático
Categoria Atributo Rango de Valores
relacionada con la
literatura
Atributos Demográfico Genero Masculino, Femenino
invariantes Residencia Capital, Provincia
en el Experiencia >=0 años
tiempo de trabajo
Rendimiento Nivel de Básico, intermedio, alto,
Académico Educación grado de master , Grado
PhD
Idioma Elemental, básico, alto,
Ingles completo
Atributos Calificación del 0–20
variables examen con opciones
en el múltiples
tiempo Calificación de 0–100
Proyecto
Fecha de >= 0
Presentación del
Proyecto (Días
contados a partir de
la sección de plazo)
Actividad de la >= 0
seccion

El método fue examinado en términos de precisión general y la sensibilidad, la precisión

que se obtuvo se encontraba en un rango del 75 – 85% y sus resultados obtenidos son
significativamente mejor a otros trabajos realizados.
Dekker (2009) [6] realizo un trabajo de minería de datos aplicado a la educación en los
alumnos de Ingeniería Eléctrica de la Universidad Tecnológica de Eindhoven (en donde la
deserción es de 40%) después del primer semestre de sus estudios o incluso antes de entrar 32
en el programa de estudio, el objetivo del trabajo es determinar que datos (variables) son
los predictores de la deserción para poder determinar cuando la predicción es mejor,
las variables utilizadas en el desarrollo de trabajo de investigación, la cual esta basadas en
datos pre-universitarioscomo se muestra en la tabla N° 7.
tabla N° 7: Atributos de estudiantes usadas para el estudio

Atributos Tipo Descripción
IDNR Numérico Solo para chequear los datos
AñoVWO Nominal Principales cambios en el sistema educativo
Holandés{1..4, ‟n/a‟}
CurricucloVWO Nominal Currículo de educación preuniversitaria ,{1..5, ‟n/a‟}
Numero de numérico Número de cursos tomados

cursosVWO
PromedioVWO Nominal { n/a, pobre, promedio, sobre el promedio, bueno,
excelente }
Número de cursos Nominal { n/a, < 3, 3, >3 }
de cienciasVWO
Promedio en Nominal As VWO mean
ciencia VWO
Número de cursos Nominal {n/a, 0,1,2}
de matemáticas
VWO
Promedio de Nominal As VWO mean
matematicaVWO
EducacionHO Nominal {n/a, eléctrico, técnico, otro}
AñoHO Nominal Igual categoría VWO año

GradoHO Nominal As VWO mean

Año Gap Nominal {n/a, < -1, -1, 0, 1, >1 }

Clasificación Nominal {-1, 1}
El experimento se realizó con la participación de 648 estudiantes del programa de

Ingeniería Eléctrica, en donde los resultados que se obtuvieron muestran que los
clasificadores más sencillos e intuitivos (árboles de decisión) dan como resultado
significativo útil una precisión entre 75 y 80%.
Joe J.J [7]realiza un trabajo en la cual desarrollo una combinación de cinco modelos de 33
retención y hace uso de cuatro metodologías de modelamiento destacados en las cuales se
encuentran las redes neuronales, regresión logística, análisis discriminante y modelo de
ecuaciones estructurales. En los modelos de retención que propuso considero diferentes
conjuntos de datos que van desde 9 hasta 71 variables de entrada, entre ellos variables de
factores cognitivos y / o no cognitivos, las cuales se pueden observar en la tabla N° 8.
Tabla. N° 8: Predicción de retención de estudiantes en ingeniería
Variables para la retención un años después

Factores atributos Factores Puntuación de la
No cognitivos Escuela Secundaria
cognitivos Liderazgo Rendimiento Académico de Escuela
Secundaria
Mayor Promedio de Escuela Secundaria
decisión en Matemática, Ciencia Ingles
auto Número de veces que le toma
eficacia matemática
Equipo
Motivación
El experimento lo realizo con 1508 estudiantes entre los cuales 289 eran mujeres y 1219
hombres, los resultados del experimento de los cinco modelos propuestos muestran que el
método de red neuronal produce los mejores resultados de predicción con respecto a los otros
tres métodos de manera consistente dando una precisión de 71.9% en el modelo C usando
variables cognitivas y no cognitivas.
WilairatYathongchai[8]realizo un estudio en la que considera que existen tres factores

importantes que afectan la tasa de deserción de los estudiantes. Estos factores son las
condiciones relacionadas con los estudiantes antes de su ingreso, los factores relacionados con

los estudiantes durante los períodos de estudio en la universidad, y todos los factores que
incluyen el valor del objetivo que se predicen para el análisis de factores.
El estudio lo realizo en la UniversidadBuriramRajabhat, con 731 estudiantes de los cuales 251
estudiantes desertaron,la información fue obtenida de diferentes tablas de la base de datos
académica MIS y las variables que se consideraron para el estudio se muestra en la tabla N° 9
tabla N° 9:Variables relacionadas con los estudiantes.
Variable Descripción Posibles Valores

Programa Programa para estudiar en la {230, 240, 241, 243,247, 249, 264, 34
facultad de ciencias 265,284, 285, 286}
GPA1-GPA4 GPA entre el term1-term4(dentro débil, Medio,
del año académico 2008-2009) bueno, mejor}
débil =GPA< 1.6
Medio=GPA 1.6-1.99
bueno=GPA 2.0-2.5
mejor=GPA>2.5
GPAX del colegio GPAX de la educación secundaria numero
Programa del Programa de estudio en la educación {1, 2, 3}
colegio secundaria 1 = ciencia + matematica
2 = lenguaje + matematica
3 = otro.
Tamaño del Tamaño del colegio {Pequeño, Mediano ,Grande }
colegio
Préstamo Préstamo del estudiante {Si, No}
si = el estudiante tiene préstamo
No = el estudiante no tiene préstamo
causa Causa de abandono Estudio, jubilado, finanza, cambio de
programa
Termino de la En qué plazo abandono de estudiar {1, 2, 3,4,5,6,No}
deserción
Deserto Estado de abandono {Si, No}
Para realizar las pruebas utilizo la técnica de árboles de decisión, basado en la

clasificación, J48 o C4.5 y NaiveBayes,como herramienta de desarrollo se utilizo el
software Weka con 513 casos para realizar el entrenamiento y 218 casos para realizar la
validación del modelo y se obtuvieron los resultados que se muestra en la tabla N° 10.
tabla N° 10: Comparación de los resultados de dos
algoritmos de clasificador sobre todos los factores.
Clasificador J48 Redes Bayesinas

Conjunto de Conjunto de Conjunto de Conjunto de
Validacion Pruebas Validacion Pruebas
Precisión 87.00% 84.86% 85.08% 82.11%
TP Rate 0.87 0.849 0.851 0.821
FP Rate 0.073 0.066 0.033 0.033
TN Rate 0.843 0.831 0.864 0.872
FNRate 0.851 0.849 0.851 0.821

Otras técnicas y métodos que se han usado relacionado con investigacion de desercion son
relacionados a :
a) La regresión logística (RL) ha sido ampliamente utilizado en los estudios
educativos para predecir la retención del estudiante o la graduación de estado.Levin
y Wyckoff (1991)[9], Casa (1993), Schaeffers et al. (1997) [10], Beserfield-Sacre et
al. (1997)[55], Zhang y Richarde (1998)[11] han utilizado modelos de regresión
logística para estudiar la persistencia de los estudiantes en los colegios.
35
Recientemente, [12]Besterfield-Sacré et al. (2002) desarrollaron un modelo de
regresión logística para predecir estudiante de primer año de ingeniería, en donde la
precisión de clasificación obtenida es de 68,8%.Francés et al. (2005)[13]
estudiaron el estado de la inscripción en la ingeniería después de 6 u 8 semestres,
usando el modelo de regresión logística y reportó una tasa de 65% de clasificación
correcta.Entre estos estudios sobre la retención de los estudiantes que usan modelos
de RL, sólo Schaeffers et al. (1997) [14]reportaron una tasa de clasificación correcta
en la retención es superior de 70%. Sin embargo, su modelo requiere el uso de GPA
acumulativo (rendimiento) de la universidad como el factor más importante para
predecir la persistencia de 3-5 años, y por lo tanto es menos adecuado para aplicar
los principios de dinámica de asesoramiento para estudiantes de primer año.
b) El análisis discriminante (DA) es otro método utilizado en la retención de los

estudiantes universitarios en el modelado deprominente literaturas. Pascarella y
Terenzini (1983)[15] estudiaron el estado de los estudiantes de retirada al final del
primer año mediante el análisis discriminante, y las tasas de clasificación correcta
del 77% al 81%.Sin embargo, sus factores fueron recolectados durante el primer año
del estudiante y por lo tanto, menos aptos para la intervención temprana.Fuertes y
Sedlacek (1994)[16] utilizó el análisis discriminante y los factores pre-universitario
factores cognitivos y no cognitivos para estudiar la retención de los estudiantes
universitarios asiáticos. Se informó de un 64% y el 68% corrección clasificación
para el semestre de 5 º y 7 º semestre de retención.Burtner (2005) [17]estudio el
estado de inscripción después de un año para estudiantes de ingeniería e informó
una clasificación de corrección de 85,2%. Sin embargo, sus datos se recogieron en

la última parte del segundo semestre (abril), que también hace su enfoque menos
adecuado para la intervención temprana con los estudiantes de primer año.
c) Modelos de ecuaciones estructurales (SEM): Aitken (1982) [18] desarrolló un
modelo de ecuaciones estructurales de satisfacción y rendimiento de estudiantes, e
informó que el 19,4% de la varianza en la retención de los estudiantes puede ser
explicado por su modelo. Nora et al. (1990) [19]estudiaron la relación entre la
retención y los factores de pre-universitarios e informó de los factores en su modelo
36
SEM representó el 15,3% de la varianza en la retención. Cabrera et al. (1993) [20]
También utilizan el SEM para modelar la retención de estudiantes universitarios
después del primer. Se informó de un 45% de la varianza observada en la retención
puede ser explicado por su modelo, con los factores más importantes como
promedios de la universidad después del primer año. Frenchet al. (2003)
[21]estudiaron la relación entre la matrícula en ingeniería, con rango de factores,
incluyendo la escuela secundaria, SAT, el GPA de la Universidad, la motivación, y
los profesores / integración de los estudiantes. Encontraron que su modelo SEM
representó el11% de la variación observada en la matrícula de ingeniería
d) Redes Neuronales (NN) es un enfoque de modelado bien desarrollado entre las
diferentes herramientas dentro de la comunidad de la inteligencia
artificial(IA).Durante las últimas décadas ha sido ampliamente utilizado en
aplicaciones que involucran técnicas de predicción y clasificación, especialmente en
las áreas de ingeniería, negocios y medicina.(Kukar, Kononenko, Groselj, Kralj, y
Fettich, 1999; Smith y Gupta, 2002; Tsoukalas y Uhrig, 1997) [22].El modelo de
red neuronal es especialmente atractiva para el modelado de sistemas complejos,
debido a sus propiedades favorables: la capacidad universal de la función de
aproximación, alojamiento de múltiples variables no lineales variables con
interacciones desconocidas, y la capacidad de generalización (Coit, Jackson y
Smith, 1998)[23].Más información sobre la aplicación de modelos NN para predecir
la retención de estudiantes en ingeniería se pueden encontrar en Imbrie et al.
(2008)[24].

Algunos investigadores han desarrollado un marco de referencia que identifica a los

estudiantes con mayor riesgo de caer a cabo en una etapa temprana para que las
instituciones den asistencia para los estudiantes que necesitan, por lo que el aumento de la
calidad y cantidad de los estudiantes en ciencia e ingeniería (S & E) disciplinas Gaskin[25]
hizo hincapié en que las características del estudiante, tales como GPA(rendimiento
académico) de la escuela junto con las variables ambientales tales como vivir en el campus
o fuera del campus, y si la participación en la primera programación de un año como la
37
comunidad residencial de aprendizaje de vida son mejores productores de éxito del
estudiante.
J. Lin [26] En una investigación en minería de datos en donde utiliza 1.508 estudiantes de
primer año de ingeniería en una Universidad del Medio Oeste durante el curso 2004-2005
se han usado varios métodos para la retención de modelado de estudiante de primer año en
la ingeniería, tales como redes neuronales, análisis discriminante, regresión logística y
modelos de ecuaciones estructurales
El estudio agregó el origen étnico, género y ciudadanía como factores influyentes, pero
los resultados fueron inconsistentes entre todas las instituciones incluidas.
En Tailandia, los investigadores estaban interesados en la aplicación de los datos métodos
de extracción para predecir el rendimiento estudiantil, según N. Nghe[27] en su
investigación comparó la precisión de árbol de decisión y los algoritmos bayesianos para
predecir la red tanto de pregrado y el rendimiento académico de los estudiantes de
postgrado de dos instituciones diferentes.
En G. Mendez[28], los datos utilizados fueron de 1.884 estudiantes de primer año que se
especializan en la ciencia, tecnología, ingeniería y matemáticas (STEM) la data fue
recogida de los alumnos inscritos en el año académico 1999-2000. El estudio se centró en 6
de las 18 variables disponibles y ellos fueron: género, etnia, nacionalidad, promedio
académico de secundaria, SAT-cuantitativa, y el SAT verbal.
(ShaeelaAyesha, MustafaTasleem, AhsanRazaSattar, y M. InayatKhan) [29] utiliza la
técnica de minería de datos llamado k-means, clustering para analizar el comportamiento de
aprendizaje de los estudiantes que ayudará a los profesores para reducir la deserción en
relación a un nivel significativo y mejorar el desempeño de los estudiantes.

SajadinSembiring et al. [30] aplicaron el método del kernel como la técnica de minería de
datos para analizar las relaciones entre el comportamiento de los estudiantes y su éxito,
luego se desarrolló el modelo de predictores de rendimiento de los estudiantes que pueden
ayudar a predecir el éxito de los estudiantes mediante el empleo de factores psicométricos
como predictores variables.
WuXie e t al. [31] utiliza la técnica de minería de datos, con los datos de los estudiantes que
han sido almacenados en el almacén de base de datos. Se utiliza el método basado en los
38
algoritmos de árbol de decisión y los resultados del caso revela que el algoritmo de árbol de
decisión de minería de datos, se puede distinguir entre los méritos del nivel de los
estudiantes universitarios y realizar la evaluación de la clasificación general, y permite
resolver el problema de que los métodos tradicionales no son aptos para la evaluación de
los alumnos.
SPSSCLEMENTINE
SPSS Clementine[75] es una herramienta integrada de minería de datos que incluye
diversas fuente de datos(ASCII, XLS, ODBC, etc.), un interfaz visual basado en
procesos de datos, distintas herramientas de minería de datos(correlación, reglas de
asociación, regresión, segmentación, clasificación, redes neuronales, reglas y arboles
de decisión, etc.), manipulación de datos, combinación de modelos, visualización de
datos, exportación de modelos a distintos lenguajes(C, SPSS,SAS), exportación de
datos integrada a otros programas(XLS) y generación de informes.

SPSS CLEMENTINE (de la ayuda del clementine)
Como una aplicación de minería de datos, Clementine ofrece un enfoque estratégico para
encontrar relaciones útiles en grandes conjuntos de datos. En relacion con los métodos
estadísticos más tradicionales, en minería de datos no necesariamente tiene que saber lo que
busca cuando se inicia. Usted puede explorar sus datos, encajando diferentes modelos y la
investigación de diferentes relaciones, hasta que encuentre información útil.
39
En minería de datos y con spss clementine podemos resolver problemas relacionados con
el:
1) Sector Publico: Los gobiernos de todo el mundo usan minera de datos para explorar los
almacenes de datos masivas, mejorar las relaciones con los ciudadanos, detectar los casos
de fraude, como el lavado de dinero y la evasión fiscal, detectar patrones delictivos y
terroristas, y mejorar el dominio creciente del gobierno electrónico. En el grafico inferior se
puede observar en el el rectángulo la detección de fraude, en la figura n q
Figura n q: detección de fraude
2) CRM : Gestión de las relaciones de los clientes puede mejorarse gracias a la

clasificación inteligente de tipos de clientes y predicciones precisas de churn. Clementine
ha ayudado con éxito a las empresas para atraer y retener a los clientes más valiosos en una
variedad de industrias. En la figura n r se puede observar el porcentaje de clientes activos
ordenados por la cantidad de dinero que gastan

figura n: clientes activos ordenados por cantidad de dinero
40
3) Web Minig: Con secuencias poderosas y algoritmos de predicción Clementine contiene

las herramientas necesarias para descubrir exactamente lo que los clientes hacen en un sitio
Web (figura n: s)y entregar exactamente los productos o información que desean. Desde la
preparación de datos para el modelado, todo el proceso de minería de datos se puede
manejar dentro de Clementine.
Figura n: cantidad de vistas en una pagina web
4) El descubrimiento de fármacos y la bioinformática:la minería de datos ayuda tanto en

la investigación de farmaceutica y de genes mediante el análisis de los grandes almacenes
de datos que resulten de una mayor automatización de laboratorio. Los modelos de
conglomerado y clasificación ayudan a generar oportunidades de bibliotecas de
compuestos, mientras que la detección de secuencia ayuda al descubrimiento de patrones.

41
Figura n: promedio de error vs clases por genes

PARTES DEL SOFTWARE SPSS CLEMENTINE
En el grafico n: u inferior se muestra la interfaces principal del software spss clementine 12.
grafico n: pantalla principal
42
Fuente: Elaboracion propia-spss clementine
Ahora vamos a describir cada uno de las partes de esta maravillosa herramienta entre los
cuales se encuentra :
a) Clementine stream canvas : es la mayor area de la ventana de Clementine (figura

n: v) y es donde se a a construir y manipular los flujos de datos.
Figura n : Clementine stream canvas
Fuente :elaboracion propia - spss clementine

Los Stream se crean dibujando diagramas de operaciones de datos relevantes para su

negocio en la pantalla principal de la interfaz. Cada operación está representado por un
icono o un nodo, y los nodos están unidos entre sí en un stream que representa el flujo de
datos a través de cada operación. Puede trabajar con múltiples Stream en un momento en
Clementine, ya sea en el mismo stream de rutas o abriendo un nuevo stream de rutas.
Durante una sesión, los stream se almacenan en el gestor de Stream, en la parte superior
derecha de la ventana Clementine.
43
b) Nodos Palette : La mayoría de los datos y las herramientas de modelado en
Clementine residen en la Paleta de nodos (figura n: w), en la parte inferior de la
ventana debajo del Stream de rutas.
figura n: Nodos Palette
c) Clementine managers: Puede utilizar la ficha Stream para abrir, renombrar,

guardar y eliminar las corrientes creadas en una sesión (figura n: x)
figura n: Clementine managers

La ficha Salidas (figura n : x) contiene una variedad de archivos, como gráficos y

tablas, producidos por las operaciones de Stream en Clementine. Se pueden
visualizar, guardar, cambiar el nombre y cerrar las tablas, gráficos e informes que
figuran en esta ficha.
44
figura n : Archivo del Stream en Clementine
La pestaña Modelos(figura n : y) es la más poderosa de las Fichas del

administrador. Esta ficha contiene todos los nuggets de modelos, que son modelos
generados en Clementine, de la sesión actual. Estos modelos se pueden consultar
directamente desde la ficha Modelos o añadirse al Streams in the canvas.
figura n : Pestaña Modelos
d) Clementine proyects: se encuentra en la parte inferior derecha de la ventana es la

herramienta de los proyectos, que se utiliza para crear y gestionar proyectos de
minería de datos. Hay dos formas de ver los proyectos que se crean en Clementine
en la vista Clases y la vista CRISP-DM como se muestra en la figura n: y

45
figura n: Clementine proyects
La pestaña CRISP-DM ofrece una forma de organizar los proyectos de acuerdo con el
proceso estándar Cross Industria de minería de datos, una metodología no patentado
probado en la industria. Tanto para los mineros de datos con experiencia y por primera vez,
con la función CRISP-DM le ayudará a organizar y comunicar sus esfuerzos de la mejor
manera como se muestra en la figura aa.
figura aa
En la pestaña Clases(figura aa) proporciona una forma de organizar el trabajo en

Clementine categóricamente por los tipos de objetos que se crean. Este punto de
vista es útil para tomar inventario de los datos, Streams y modelos.

46
figura: archivos en la pestaña clases
PARTES DE LAS CATEGORIAS
Las categorías en la versión 12.0 del spss clementine se dividen en 7 categorias las cuales
los describiremos de la siguiente manera:
a) Sources (origenes): en esta categoría se encuentran todos los nodos que nos
permitirán conectarnos a los datos como por ejemplo archivo de txt, archivos de
Excel, archivos de access, etc. Como se muestra en la figura bb
Figura bb : sources
b) Record Ops : en esta categoría se encuentran todos los nodos que nos permitirán
seleccionar y manipular los datos de los registros en las fuentes conectadas.como
semuestra la figura cc
Figura cc : record ops

c) Field Ops: en esta categoría se encuentran todos los nodos que nos permitirán
manipular las columnas(campos). Como se muestra al figura n dd
figura n : Fields Ops
Graphs: en esta categoría podemos realizar diferentes tipos de graficos, como se 47

muestra en la figura ee
figura n :Graps
d) Modeling : en esta categoría podemos observar todos los modelos que puede
generar spss clementine. Como se muestra la figura ff
figura n: Modeling
e) Output : en esta categoría podemos observar todos los nodos que nos van ayudar a
obtener los resultados de los modelos construidos, asi como hacer los análisis de los
datos y algunas auditorias a los datos. Como se muestra en la figura n gg
figura n: output
f) Export: en esta categoría estos nodos nos van a permitir poder exportas los datos
obtenidos a otras fuentes de datos. Como se muestra la figura hh

figura n :export
Fuente: Elaboracion propia - spss clementine

48
Ahora vamos a describir los nodos mas usados en cada una de las categorías del spss
clementine
CATEGORIA SOURCE
Tabla nº 11: nodos de la categoría source
Nodo Descripcion
Permiten leer datos de ficheros de texto que tengan un tamaño de
caracteres variable por registro pero un número fijo de campos.
El nodo de base de datos se puede utilizar para importar datos de una variedad de
otros paquetes mediante ODBC (Open Database Connectivity), incluyendo Microsoft
SQL Server, DB2, Oracle y otros.
El nodo SPSS importación lee los datos del formato de archivo .sav utilizado por SPSS,
así como archivos de caché guardados en Clementine, que también utilizan el mismo
formato.
El nodo SAS importación importa datos SAS en Clementine
El nodo Excel Import Importa datos desde cualquier versión de Microsoft Excel. No es
necesaria una fuente de datos ODBC.
El nodo User Import proporciona una manera fácil de crear datos, ya sea sintética
desde cero o mediante la alteración de los datos existentes. Esto es útil, por ejemplo,
cuando se desea crear un conjunto de datos de prueba para el modelado
El nodo Enterprise View crea una conexión con un Predictive Enterprise Repository,
que le permite leer datos de Enterprise View en una stream y empaquetar un modelo
en un escenario que se puede acceder desde el repositorio por otros usuarios.
CATEGORIA RECORD OPERATIONS
Tabla nº 12 : nodos de la categoría record operations
Nodo Descripcion
El nodo Seleccionar selecciona o descarta un subconjunto de registros del flujo de
datos basado en una condición específica. Por ejemplo, es posible seleccionar los
registros que pertenecen a una región de ventas en particular

El nodo Muestrear selecciona un subconjunto de registros. Una variedad de tipos

de muestras son compatibles, incluyendo estratificado, agrupado, y muestras no
aleatorias (estructurados). El muestreo puede ser útil para mejorar el rendimiento,
y para seleccionar grupos de registros relacionados o transacciones para el análisis
El nodo Equilibrar corrige los desequilibrios en un conjunto de datos, por lo que se
ajusta a una condición especificada. La directiva de equilibrio ajusta la proporción
de registros en los que una condición es verdadera por el factor especificado
El nodo Agregar reemplaza una secuencia de registros de entrada con registros de
salida agregados y resumidos
El nodo Ordenar ordena registros en orden ascendente o descendente en función
de los valores de una o más campos
49
El nodo Fundir toma varios registros de entrada y crea un registro de salida única
que contiene todos o algunos de los campos de entrada. Es útil para la fusión de
datos de diferentes fuentes, como los datos de los clientes internos y los datos
demográficos
El nodo Distinguir elimina registros duplicados, ya sea aprobando el primer registro
distinto al stream de datos o descartando el primer registro y pasando cualquier
duplicado a la ruta de datos en lugar
El nodo Añadir concatena conjuntos de registros. Es útil para combinar conjuntos
de datos con estructuras similares pero diferentes datos
CATEGORIA FIELD OPERATIONS
Tabla nº 13:nodo de la categoría field operations
NODO DESCRIPCION
El nodo Tipo especifica los campos de metadatos y propiedades. Por ejemplo, puede
especificar un tipo de uso (rango, conjunto, conjunto ordenado, o bandera) para cada
campo, defina las opciones para el manejo de los valores perdidos y nulos del
sistema, establecer el papel de un campo para fines de modelado, el campo y las
etiquetas de valor especifica, y especificar los valores de un campo
El nodo filtro Filtra (descarta) campos, cambia el nombre de los campos, y mapea
los campos de un nodo de origen a otro
El nodo Conjunto combina dos o más modelo para obtener pronósticos más precisos
que se pueden obtener de cualquier modelo
El nodo Derivar modifica los valores de datos o para crear campos nuevos desde uno
o más campos existentes. Se crea campos de tipo fórmula, marca, conjunto, stat,
cuenta, y condicional
El nodo Rellenar sustituye los valores de campo y almacenamiento cambios. Usted
puede optar por sustituir los valores basados en una condición CLEM, comoBLANK
(FIELD). Alternativamente, usted puede optar por sustituir todos los espacios en
blanco o valores nulos con un valor específico. Un nodo Rellenar se utiliza a
menudo junto con un nodo Tipo para sustituir valores perdidos
El nodo Partición genera un campo de partición, que divide los datos en subgrupos
separados para la formación, pruebas, y las etapas de validación de la construcción
de modelos

El nodo Intervalos de tiempo especifica intervalos y crea etiquetas (si es necesario)

para los modelos de series de tiempo. Si los valores no están espaciados
uniformemente, el nodo puede agregar valores como sea necesario para generar un
intervalo uniforme entre registros
El nodo Reordenar campo define el orden natural utilizado para mostrar los campos
abajo. Este orden afecta a la visualización de campos en una variedad de lugares,
como tablas, listas y el Selector de campos. Esta operación es útil cuando se trabaja
con conjuntos de datos grandes para hacer campos de interés más visible
CATEGORIA OUTPUT
50
Tabla 14: nodo de la categoría output
NODOS DESCRIPCION
El nodo Tabla muestra los datos en formato de tabla, que también se pueden
escribir en un archivo. Esto es útil en cualquier momento que usted necesita para
inspeccionar sus valores de datos o exportarlos en un formato de fácil lectura
El nodo de tabla personalizada compatible con una amplia gama de opciones,
incluyendo la posibilidad de anidar, pila, o variables de capas en múltiples
dimensiones, para mostrar resúmenes para múltiples estadísticas, y para visualizar
conjuntos de respuestas múltiples
El nodo Matriz crea una tabla que muestra las relaciones entre los campos. Se
utiliza normalmente para mostrar la relación entre dos campos simbólicos, pero
también puede mostrar las relaciones entre campos de marcas o campos
numéricos
El nodo Análisis evalúa la capacidad de los modelos predictivos para generar
predicciones exactas. Los nodos Análisis realizan varias comparaciones entre los
valores pronosticados y los valores reales para una o modelo. También pueden
comparar modelos predictivos entre sí
El nodo Auditar datos ofrece una primera visión global de los datos, incluidas las
estadísticas de resumen, histogramas y distribución para cada campo, así como la
información sobre los valores atípicos, valores perdidos y extremos. Los resultados
se muestran en una matriz de lectura fácil que se puede ordenar y utilizar para
generar gráficos de tamaño completo y nodos de preparación de datos
El nodo de Estadística proporciona información resumida básica sobre los campos
numéricos. Se calcula estadísticos de resumen para campos individuales y
correlaciones entre campos
El nodo de salida de SPSS le permite llamar a un procedimiento de SPSS para
analizar los datos de Clementine. Una amplia variedad de procedimientos analíticos
SPSS está disponible. Este nodo requiere una copia con licencia de SPSS
CATEGORIA GRAPHS
Tabla 15: nodo de la categoría graphs
NODO DESCRIPCION
Gráficos muestran valores de un campo Y contra los valores de un campo X. A
menudo, estos campos corresponden a una variable dependiente y una variable
independiente, respectivamente

Nodos Histograma muestran la ocurrencia de valores para los campos numéricos. A

menudo se utilizan para explorar los datos antes de las manipulaciones y la
construcción de modelos. Similar al nodo de distribución, los nodos de histograma
se utilizan con frecuencia para revelar los desequilibrios en los datos. Aunque
también puede utilizar el nodo Tablero para producir un histograma, tienes más
opciones para elegir en este nodo
Un gráfico de distribución o tabla se muestran las instancias de valores simbólicos
(no numéricos), tales como el tipo de hipoteca o de género, en un conjunto de
datos. Un uso típico del nodo de distribución es mostrar desequilibrios en los datos
que pueden ser rectificadas mediante el uso de un nodo Equilibrar antes de crear
un modelo
Nodos Web indican la intensidad de las relaciones entre los valores de dos o más 51
campos simbólicos. El gráfico muestra las conexiones utilizando diferentes tipos de
líneas para indicar la fuerza de conexión. Puede utilizar un nodo de Web, por
ejemplo, para explorar la relación entre la compra de diversos artículos en un sitio
de comercio electrónico o un punto de venta tradicional
Es un derivado del nodo Plot. Permite definir varios campos “Y” respecto a
un campo “X”
Los nodos de tiempo le permite ver uno o mas graficos de series de tiempo sobre el
tiempo. Las series que tu graficas debe contener valores numéricos y se supone
que ocurra en un intervalo de tiempo en el que los períodos son uniformes.
CATEGORIA MODELING
Tabla nº 16: nodo de la categoría modeling
NODO DESCRIPCION
El nodo(C&R) genera un árbol de decisión que le permite predecir o clasificar las
observaciones futuras. El método utiliza particiones recursivas para dividir los
registros de entrenamiento en segmentos minimizando las impurezas en cada paso,
donde un nodo se considera "puro" si el 100% de los casos en el nodo corresponden
a una categoría específica del campo de destino
El nodo CHAID genera árboles de decisión utilizando estadísticos de chi-cuadrado
para identificar las divisiones óptimas. A diferencia de los nodos Árbol C & R y
QUEST, CHAID puede generar árboles no binarios, lo que significa que algunas
divisiones tienen más de dos ramas. CHAID exhaustivo es una modificación de
CHAID que hace un trabajo más a fondo de examinar todas las divisiones posibles,
pero toma más tiempo para calcular
La regresión lineal es una técnica estadística común para resumir los datos y hacer
predicciones ajustando una línea recta o una superficie que minimiza las
discrepancias entre los valores de salida predichos y los reales
El nodo Factor / PCA, provee potentes técnicas de reducción de datos para reducir la
complejidad de los datos. El análisis de componentes principales (PCA) encuentra
las combinaciones lineales de los campos de entrada que hacen el mejor trabajo de
capturar la varianza en todo el conjunto de campos, donde los componentes son
ortogonales (perpendiculares) entre sí
Los nodo K-medias agrupa el conjunto de datos en grupos distintos (o clusters). El
método define un número fijo de conglomerados, de forma iterativa asigna registros
a los conglomerados y ajusta los centros de los conglomerados hasta nuevo
refinamiento ya no puede mejorar el modelo. En lugar de tratar de predecir un
resultado, k-medias utiliza un proceso conocido como aprendizaje no supervisado
para descubrir patrones en el conjunto de campos de entrada

El nodo Regla de inducción (GRI) encuentra reglas de asociación en los datos. Por
ejemplo, los clientes que compran máquinas de afeitar y loción para después del
afeitado también son propensos a comprar crema de afeitar. GRI extrae reglas con el
contenido informativo más alto en base a un índice que toma tanto la generalidad
(soporte) y la precisión (confianza) de reglas en cuenta. GRI puede manejar entradas
numéricas y categóricas, pero el objetivo debe ser categórico
El nodo de red neuronal utiliza un modelo simplificado de la misa forma en que el
cerebro humano procesa la información. Funciona mediante la simulación de un
gran número de unidades de procesamiento simples interconectados que se asemejan
a las versiones abstractas de neuronas. Las redes neuronales son estimadores
potentes de funciones generales y requieren un conocimiento matemático o
estadístico mínimo para entrenar o aplicar.
El nodo C5.0 genera un árbol de decisión o un conjunto de reglas. El modelo 52
funciona mediante el fraccionamiento de la muestra basándose en el campo que
proporciona la máxima ganancia de información en cada nivel. El campo objetivo
debe ser categórico.
El nodo de selección muestra Los campos de predicción para la eliminación de la
basado en un conjunto de criterios (como el porcentaje de valores perdidos);
entonces clasifica la importancia de predictores restantes relativos a un destino
especificado.
El análisis discriminante realiza hipótesis más estrictas que la regresión logística,
pero puede ser una valiosa alternativa o complemento a un análisis de regresión
logística cuando se cumplen estos supuestos
La regresión logística es una técnica estadística para clasificar los registros basados
en los valores de los campos de entrada. Es análoga a la regresión lineal pero toma
un campo objetivo categórico en lugar de un rango numérico
El modelo lineal generalizado amplía el modelo lineal general, de manera que la
variable dependiente está relacionada linealmente con los factores y las covariables
mediante una determinada función de enlace. Además, el modelo permite que la
variable dependiente tenga una distribución no normal. Cubre la funcionalidad de un
amplio número de modelos estadísticos, incluyendo regresión lineal, regresión
logística.
El nodo de red bayesiana le permite construir un modelo de probabilidad
combinando pruebas observadas y registradas con conocimiento del mundo real para
establecer la probabilidad de ocurrencias. En la versión actual de Clementine 12.0, el
nodo se centra en árbol Naïve Bayes aumentado (TAN) y redes de cadena de
Markov que se utilizan principalmente para la clasificación
El nodo (SVM) le permite clasificar datos en uno de los dos grupos sin sobreajuste.
SVM funciona bien con conjuntos de datos grandes, tales como aquellos con un
número muy grande de campos predictores
El nodo Detección de anomalías identifica casos inusuales, o valores atípicos, que no

se ajustan a los patrones de datos "normales". Con este nodo, es posible
identificarvalores atípicos aunque no se ajustan a los patrones previamente
conocidos e incluso si no son exactamente seguro de lo que busca
Fuente: Elaboracion propia spss clementine

INSTALACION DEL SOFTWARE SPSS CLEMENTINE
Para realizar la instalación del software spss clementine version 12 y no tener ningún
problema en la instalación deberá ver el video que se encuentra ubicado en la siguiente
ubicación:
\DAZA_LIBRO_MINERIADEDATOS\libro\instalacion_clemen\instalador.exe, en
donde se muestra paso a paso lo que tiene que realizar para una buena instalación
53
Figura n: ventana de instalacion
Fuente: elaboracion propia- spss clementine
Después de haber hecho la instalación y tenido un conocimiento previo de las partes mas
importantes de la herramienta vamos a realizar algunos casos, en donde se hace uso de
manera fácil y sencilla de spss clementine con ejemplos reales

CASOS APLICADOS A LA MINERIA DE DATOS
En este apartado vamos a explicar 20 casos relacionado con minería de datos en donde se
van a realizar ejemplos basados en redes neuronales, arboles de decisión, clustering, series
de tiempo, etc. Tambien se van a ir explicando al mismo tiempo de manera detallada como
se usan cada uno de los nodos para la solución de los casos que se han propuesto en este
libro para que pueda entender de manera fácil y sencilla y después pueda aplicarlo a 54
cualquier área que se menciono en la tabla nº1.
CASO N 1: PREDICION DE JUEGO DE TENIS
Para empezar a introducirnos en el maravilloso mundo de la minería de datos y ver el

potencial de la herramienta spss clementine, construiremos un modelo predictivo basado en
arboles de decisión, como se muestra en la figura n 1, que nos permite determinar si es que
se puede jugar al tenis o no de acuerdo a ciertas condiciones climáticas.
figura n 1
Fuente : Elaboracion Propia spss clementine
Para el desarrollo de este caso usted debe de seguir los siguientes pasos
a) Ingresar al spss clementine siguiendo los siguientes pasos (Inicio – todos los
programas-SpssInc- Clementine 12.0) y luego dar clic en el icono del diamante,
como se muestra en la figura n 2

Figura n 2

55
En donde se abrirá la siguiente ventana, en donde hara el dise;o mostrado en la figura n 3
figura n :ventana principal
Antes de empezar a desarrollar el modelo, lo primero que debemos hacer como un buen
ingeniero y conocedor de una base de datos, es revisar la información que se encuentran en
la carpeta archivo_data\ PlayTennis\ playtennis-evidence.txt, como se muestra en la figura
n 4, en donde podemos observar que hay 5 campos o parámetros en la cual se va utilizar los
parámetros sky, temperatura, Humidity, wind como parámetros de entrada(input) y
playtennis como parámetro de salida(output).

figura n 4: datos de juego de tenis
56
b) En la parte inferior del panel de desarrollo en la pestaña categoría source

seleccionar el icono var.file y arrastarlo en el panel de desarrollo, como se muestra
en la figura n 5
figura n 5: nodo var. file
c) Dar doble clic en nodo var.file y luego buscar la ruta en donde se encuentra los
datos que vamos analizar en este caso se encuentra ubicado en la siguiente ruta

archivo_data\ PlayTennis\ playtennis-evidence.txt, y luego dar un clic al check box

del tab(delimiters), debido a que los datos están separados por un espacio, como se
muestra en la figura n 6
figura n 6: Propiedades de var. file
57
d) En la parte inferior en la pesta;a output seleccionar el nodo table y arrastarlo en el

panel de desarrollo, como se muestra en la figura n 7
figura n 7

e) Ahora el siguiente paso es unir los nodos var.file y el nodo table para lo cual deberá
seguir el siguiente paso, seleccionar el nodo var.file presionar la tecla funcional F2
y luego dar un clic en el nodo table, como se muestra en la figura n 8.
figura n 8
58
f) Dar un clic derecho en el nodo table y luego seleccionar la opción execute la cual
después de procesar podrán visualizar toda la información del archivo, como se
muestra en la figura n 9.
figura n 9
Se puede observar en la figura 9, que hay 14 registros en donde el parámetro sky

contiene los valores (Sunny, Overcast, Rain), el parámetro Temperatura contiene los
parámetros(hot, mild, cool), el parámetro Humedad contiene los valores (High,

Normal), el parámetro wind contiene los valores (Weak, Strong ) y el parámetro jugar
tenis contiene los valores.
g) Si queremos determinar la cantidad de valores que tiene cada parámetro podemos

hacer uso del nodo distribution, para lo cual lo seleccionamos de la pestaña graphs y
escogemos el nodo distribution y lo arrastramos a la ventana de desarrollo, como se
figura n 10 59
h) Dar doble clic en el nodo distribución y en la propiedad field seleccionar el campo

Temperature y en la propiedad color seleccionar temperatura, como se muestra en la
figura n 11.

Luego dar un clic en el botón execute para obtener la visualización de los datos, como se
muestra en la figura n 12. En donde se puede observar que 4 datos son Cool, 4 datos son
Hot y 6 datos son Mild. Usted podría realizar los mismo pasos con los otros parámetros la
cual le ayudara a tener conocimiento de los datos que tienen para asi tener una idea de los
resultados previos que se van a obtener del análisis.
figura n 12
60
i) Ahora procederemos a determinar cuales van hacer nuestros parámetros de

entrada(input) y parámetro de salida(output), para hacer la predicción de cuando se
puede jugar al tennis y cuando no se puede jugar al tennis haciendo uso de redes
neuronales. Para ello seleccionamos el nodo type de la pestaña field ops y lo
arrastramos al panel de desarrollo luego lo unimos con el nodo var.file, como se
figura n 13

ahora le damos doble clic al nodo type en donde aparecerá la imagen como se
muestra en la figura n 14, usted puede observar que se ha reconocido todos los
campos(field) que tiene el archivo con sus respectivos tipos de datos, luego proceda
a dar un clic en read values para que enpieze a reconocer todos los valores que tiene
cada campo.
figura n 14
61
Ahora procedemos a indicar cuales son los campos de entrada(parametros) en el campo

Direction así como el parámetro de salida del nodo Type, la cual vamos analizar. En donde
después de haber echo los cambios respectivos se debe mostrar la ventana como se muestra
en la figura n 15
figura n 15

en la figura n 15 se puede observar que los campos Sky, Temperature, humidity y wind se
ha considerado como parámetros de entrada en donde se le ah asignado a la Direction como
In y el campo Playtennis, se le ha asignado a la Direction como Out(valor predictivo). Para
finalizar y salir de la ventana presionar el botón ok.
j) Ahora agregaremos un modelo de minería de datos la cual nos va a permitir predecir

si se puede jugar al tenis con ciertas condiciones climaticas, para lo cual nos vamos
a la pestaña Modeling y escogemos el árbol de decisión C5.0 y lo colocamos en el 62
panel de desarrollo para luego conectarlo con el nodo Type, como se muestra en la
figura n16, luego debemos generar el modelo dando clic derecho al nodo C5.0, y
seleccionar la opción execute, una vez generado el modelo aparecerá un diamante
en la parte superior derecho de la pestaña Models como se muestra en la figura n 17
arrastre este diamante generado al panel de desarrollo y luego conéctelo con el nodo
type, como se muestra en la figura n 18.
figura n16
figura n17

figura n 18
63
k) Luego debemos colocar un nodo que nos permita visualizar los datos predichos para
lo cual seleccionares de la pestaña output el nodo Analysis y lo conectamos con el
nodo diamante Playtennis como se muestra en la figura n 19
figura n 19
dar doble clic en el nodo Analysis y luego presionar el botón execute, en donde podrá
visualizar la cantidad de datos que fueron predichos de manera correcta y de manera
incorrecta, según la figura n 20 podemos observar que la cantidad de datos predichos
correctamente son 14 que representan el 100% de los datos y los predichos de manera
incorrecta son 0 que representa en 0%, por lo cual se puede decir que el modelo de arboles
de decisión es adecuado para este tipo de problemas ya que nos muestra resultados
favorables.

figura n 20: precision de resultados
64
l) Ahora añadiremos un nodo que nos permita ver una tabla cruzada de los valores
predichos, para lo cual seleccionadmos el nodo matrix de la pestaña output y lo
conectamos al diamante playtennis, como se muestra la figura n 21, luego le da
doble clic y selecciona en las filas(rows) los valores reales de playtennis y y en las
columnas(columns) los valores predichos de playtennis como se muestra en la
figura n 22.
figura n 21

figura n 22

65
Ahora presione el botón execute para que pueda obtener los resultados de los valores en
una matrix de confusion, como se muestra en la figura n 23, se puede observar que de los
que no juegan tenis en este caso 5, fueron predichos de manera correcta 5 y de los que si
juegan tenis en este caso 9, fueron predichos de manera correcta 9.
figura n 23
ll) como siguiente paso de este ejemplo añadiremos en nodo table en la cual se encuentra en
la pestaña output y luego lo conectamos con el nodo diamante, como se muestra en la
figura n 24, luego le damos doble clic al nodo table y presionamos el botón ejecutar en
donde nos mostrara el nivelde confianza de predicción, para cada uno de los casos, como
se muestra en la fig n 25 , en donde podemos observar que en el registro numero 2 la

confianza de predecir de manera correcta que no se juega al tenis es del 80%, en el registro
numero 13 la confianza de predecir de manera correcta de que si se juega al tenis es del
83.3% . en el registro 8 la confiaza de predecir de manera correcta que no se juega al tenis
es del 80%.
figura n 24
66
figura n 25
m) También podemos observar el árbol de decisión que se ah generado de modo

grafico como se muestra en la fig n 26, si deseamos visualizarlo debemos dar doble
clic en el diamante y en la parte inferior seleccionar la pestaña viewer.

Figura n 26: Arbol de decision
67
n) Si queremos generar las regla del modelo construido, debemos dar doble clic en el
diamante playtennis y luego en la opcion Generate que se encuentra en la parte
superior , luego seleccionar rule set, como se muestra en la figura n 27, en donde
aparecerá un ventana y deberá colocar el nombre en este caso PlayTennisRS, que
tendrá el diamante que se generara.
figura n 27.

Nos colocamos en el panel de desarrollo y damos doble clic en el diamante

PlayTennisRS y podemos observar las reglas que se han generado del modelo
creado como se muestra en la figura n 28
figura n 28 :conjunto de reglas
68
en la figura n 28 se puede observar que se ha generado varias reglas en las cuales la regla
numero 1, indica que no se puede jugar al tenis si es que el sky = rain y además el wind =
strong, en un caso en que siempre se juega al tenis es cuan sky= overcast . En la regla n 3 se
juega al tenis si se cumple la siguiente condición, cuando el Sky = Sunny y además la
Humidity = Normal.
CASO N 2: PREDICION DE PLANTA IRIS
En este ejemplo se hará la predicción de la planta iris ingresando ciertos parámetros de

entrada en donde podremos decir si la planta es de tipo iris-setosa, iris-versicolor o iris
virginica. Para lo cual deberá ingresar a la siguiente pagina(1)
http://archive.ics.uci.edu/ml/datasets.html en donde encontraremos un conjunto de datos
para realizar pruebas y en la cual estará basado una parte del libro. Descargaremos los
datos que pertenecen al ejemplo de la planta iris como se muestra en la figura n 29 para
desarrollar el ejemplo.

figura n 29: Machine Learning Repository
69
Fuente : http://archive.ics.uci.edu/ml/datasets.html
Descripción del caso: Esta es la base de datos mas conocida que se encuentran en la
literatura de reconocimiento de patrones. La literatura de Fisher es un clásico en el campo y
se hace referencia con frecuencia en la actualidad. (See Duda & Hart, por ejemplo.) por
ejemplo.) El conjunto de datos contiene 3 clases de 50 casos cada uno, donde cada clase se
refiere a un tipo de planta iris. Los atributos son los siguientes:
1. sepal length in cm = longitud del sepalo

2. sepal width in cm = ancho del sepalo
3. petal length in cm = longitude del petalo
4. petal width in cm = ancho del petalo
5. class: = clase
despues de haber analizado la información de la pagina web, construiremos un modelo

predictivo como se muestra en la figura n 30, que nos permite determinar a que tipo de
planta iris pertenece entre los cuales esta iris setosa, iris versicuolar y iris Virginica.
figura n 30: Modelo de arbol de decision

Para este caso debe de seguir los siguientes pasos
a) Ingresar al spss clementine siguiendo los siguientes pasos (Inicio – todos los
programas-SpssInc- Clementine 12.0) y luego dar clic en el icono del diamante,
como se muestra en la figura n 31, en donde se abrirá la siguiente ventana de
desarrollo, como se muestra la figura n 31
figura n° 31: ventana principal 70
1.
b) Ahora deberá de arrastrar de la pestaña source el nodo var.file para poder enlazar la
información que se encuentra en la siguiente dirección archivos_data\planta_iris\
iris.data.txt, como se muestra en la figura n 32 y luego dar un check en la opción
tab(delimiters). Finalmente dar un clic en el botón ok
figura n 32

c) Ahora añadiremos un nodo tabla para poder observar toda la información que esta
contenida en el archivo para lo cual en la pesgtaña output seleccionamos el nodo
table y luego lo arrastramos al panel de desarrollo y posteriormente lo conectamos
al nodo var.file como se muestra en la figura n 33.
figura n 33
71
d) Para visualizar la información del archivo debe dar doble clic al nodo table y
presionar el botón execute y luego podrá ver los datos como se muestra la figura n
34, en donde se puede observar que hay 150 registros y además podemos apreciar 5
parametros de los cuales 4 seran considerados como parámetros de entrada(sepal
length, sepal windth, petal length, petal width) y uno será considerado como
parámetro de salida(class) para el ejemplo.
figura n 34

e) Si queremos observar la cantidad de plantas que existe por cada clase, agregaremos
el nodo distribution para ello lo seleccionamos de la pestaña graphs y lo arrastramos
al panel de desarrollo y luego lo enlazamos con el nodo var.file, como se muestra en
la figura n 35
figura n 35
72
dar doble clic al nodo distribution y luego en la propiedad field seleccionar class y
en la propiedad color también seleccionar class y luego dar clic en el botón execute
para visualizar la información como se muestra en la figura n 36, en el grafico se
puede observar que hay 50 datos de la clase iris setosa, 50 datos de la clase iris
versicolor y 50 datos de la clase iris virginica
figura n 36

f) Ahora procederemos a insertar el nodo type en donde nos permitirá escoger los
parametros de entrada y parámetros de salida para lo cual seleccionamos el nodo
type de la pestaña field ops y luego lo conectamos con el nodo var.file(iris.data.txt),
como se muestra la figura n 37
figura n 37
73
dar doble clic en el nodo type y luego presione el botón read values para que el software
empiece a detectar y leer los valores que tiene almacenado en el archivo por cada uno de
los campos(parametros), como se muestra la figura n 38.
figura n 38.
Ahora lo que tenemos que asignar son lo parámetros de entrada(en direction colocar In) en
la cual se le asignará a sepal_length, sepal_windth, petal_length, petal_width y como

parámetro de salida a class(en direction colocar out), como se muestra en la figura n 39.
Finalmente presiona el botón ok.
figura n 39
74
g) Ahora debemos añadir un nodo c5.0 que se encuentra en la pestaña modeling en el

panel de desarrollo y luego conectarlo con el nodo type, que nos permitirá construir
el modelo de arboles de decisiones que nos va a permitir predecir el tipo de planta
iris, como se muestra en la figura n 40
figura n 40
ahora nos colocamos en el nodo class y luego le damos un clic en el botón derecho y luego
presionamos la opción execute, en donde generara un nodo diamante que aparecerá en la
parte superior derecha en la pestana models, como se muestra la figura n 41

figura n 41
Fuente: Elaboracion propia - spss clementine 75

h) Ahora arrastramos el diamante generado al panel de desarrollo y lo unimos con el
nodo type , como se muestra en la figura n 42
figura n 42
i) Ahora para poder analizar los resultados que se han obtenido con el modelo
generado vamos agregar un nodo llamado analysis en el panel de desarrollo que se
encuentra ubicado en la pestaña output, como se muestra en la figura n 43
figura n 43

dar doble clic en el nodo analysis y luego presionamos el botón execute para luego
visualizar los resultados como se muestra en la figura n 44, en donde se puede observar que
de los 150 datos 146 han sido predichos correctamente que representan el 97,33% y de los
150 datos han sido predichos de manera incorrecta 4 que representa el 2,67%.
j) Ahora vamos añadir un modo matrix para poder observar cuantas clases han sido
predichas de manera correcta y cuantas clases han sido predichas de manera 76
incorrecta, para lo cual debemos colocar el nodo matriz que se encuentra en la

pestaña output y luego conectarlo con el nodo diamante class, como se muestra en
la figura n 45.
figura n° 44
figura n 45
k) Ahora le damos doble clic al nodo matrix en la propiedad rows seleccionar los
valores reales de la clase y en columns el valor predicho de la clase, como se
muestra en la figura n 46 y luego presionar el botón execute para observar los datos
obtenidos como se muestra en la figura n 47

figura n 46
77
figura n 47
en la figura n 47 se puede observar que de la clase iris-setosa de los 50 datos han sido
predichas de manera correcta 50, de la clase iris-versicolor de los 50 han sido predichas de
manera correcta 47 y 3 han sido predichas de manera incorrecta como si fuera de la clase
iris-virginica y por último de la clase iris-virginica de los 50 datos han sido predichas de
manera correcta 49 y de manera incorrecta 1 como si fuera de la clase iris-versicolor.
l) Ahora si queremos saber la confianza de predicción de cada uno de los registros

tenemos que añadir un nodo table al panel de desarrollo para lo cual dicho nodo se
encuentra en la pestaña output y luego lo conectamos con el diamante class, como
se muestra en la figura n 48.

figura n 48
78
Dar doble clic el nodo table y luego presionar el botón execute para mostrar los resultados
como se muestra en la figura n 49.
figura n 49
ll) En el grafico n 49 se puede observar en el registro numero 6 que la clase iris-setosa ha

sido predicha de manera correcta como iris-setosa con una confianza de 96% de seguridad,
el registro n 150 de la clase iris-virginica ha sido predicha de manera correcta como iris
virginica con una confianza de 93% de seguridad

m) También podemos observar el árbol de decisión que se ah generado de modo

grafico como se muestra en la fig n 50 , si deseamos visualizarlo debemos dar doble
clic en el nodo diamante y en la parte inferior seleccionar la pestaña viewer.
figura n° 50
79
n) También podemos observar las reglas que se ha generado en el árbol de decision,

para ello damos doble clic en el nodo diamante, y en la ventana que aparece en la
parte superior le damos clic en la opción generate y luego selecionamos rule set,
como se muestra en la figura n 51. Y luego le damos clic en ok
figura n 51

o) Aparecerá un nodo classRs en el panel de desarrollo lo cual debe darle doble clic en
donde se observa una ventana en donde se encuentran todas las reglas que se han
generado, como se muestra en la figura n 52
figura n 52
80
en las reglas obtenidas se puede observar que para que una planta sea considerada con iris-
setosa debe cumplir la siguiente condición que el petal_length sea menor o igual de 1,9
tambien podemos observar que para que una planta sea considerada como iris-versicolor
debe cumplir la siguiente condición que el petal_length sea mayor que 1,9 y además que el
petal_width sea menor igual que 1,7 y además que el petal_length sea menor igual que 4,9.
CASO Nº 3: PREDICION DE FARMACOS
En este caso vamos a predecir el tipo de fármaco (drug) que se debe administrar a un
paciente afectado de rinitis alérgica según distintos parámetros/variables. Las variables que
se recogen en las historias clinicas de cada paciente se muestran en la tabla Nº 15 y son:
Tabla Nº 15
Parámetros de entrada
• Age: Edad
• Sex: Sexo
•BP (Blood Pressure): Presion sanguínea.
• Cholesterol: nivel de colesterol.
• Na: Nivel de sodio en la sangre.
• K: Nivel de potasio en la sangre.

En los datos se observa que hay cinco fármacos posibles: DrugA, DrugB, DrugC, DrugX,
DrugY que ah sido considerado como el objetivo (parámetros de salida). Se han recogido
los datos del medicamento idóneo para muchos pacientes en cuatro hospitales (los ficheros
están en el directorio DAZA_LIBRO_MINERIADEDATOS\archivos_data\drugs). Se
pretende, para nuevos pacientes, determinar el mejor medicamento a probar a cada uno.
Ahora vamos a construir el siguiente modelo predictivo, como se muestra en la figura n 53
Figura n 53 81
Lo que se va ah realizar para construir este modelo son los siguientes pasos:
a) En primer lugar debemos de seleccionar en la categoría source el nodo var.file y

colocarlo en el panel de desarrollo y luego dar doble clic en el nodo, en donde
aparecerá una ventana en donde, en la propiedad file debemos dar la ruta del
archivo en nuestro caso libro\practica_tres_farmacos\DRUG1n, como se muestra en
la figura n 54
figura n 54

b) Ahora para poder visualizar la información que esta contenida en el archivo vamos
añadir de la categoría output un nodo table y luego lo conectamos en el nodo
Var.file(Drug1n), y luego damos doble clic en el nodo table y presionamos el botón
ejecutar, en donde podemos observar que se visualizan 200 registros de pacientes
con alergias, como se muestra en la figura n 55, en donde cada uno de ellos tiene 7
campos(parametros), las cuales son edad,sexo, presión arterial, colesterol, sodio,
potasio y medicamento.
82
figura n 55
c) Ahora vamos a ver cuales son los medicamentos mas usados en los pacientes para lo
cual nos colocamos en la categoria graphs y seleccionamos en nodo distribution
para luego conectarlo con el var.file Drug1n como se muestra en la figura n 56.
figura n 56

Ahora le damos doble clic en el nodo distribution drug y en la propiedad filed seleccionar
drug y en la propiedad color también drug, y luego presionamos el botón execute en donde
se visualizara la información de los medicamentos que se les receta a los pacientes, como se
muestra en la figura n 57, en donde podemos observar que en la mayoría de los casos el
medicamento drugY se aplica con mayor frecuencia (91 casos) y en otros casos se aplica
por ejemplo el medicamento drugX (54 casos).
figura n 57 83
d) Ahora vamos a seleccionar el nodo type de la categoria field ops y lo arrastramos al

panel de desarrollo para que posteriormente lo enlacemos con el nodo var.file drug
1n, como se muestra en la figura n 58.
figura n 58

Ahora le vamos a dar doble clic al nodo type en donde se mostrara una ventana en la cual
seleccionares los parámetros de entrada en este caso edad, sexo, presión arterial, colesterol,
sodio y calcio , para luego seleccionar el parámetro de salida drug, la cual nos interesa
predecir, como se muestra en la figura n 59 y luego darle clic en el botón ok.
Figura n 59
84
e) Ahora vamos añadir de la categoria modeling el nodo C5.0, en la cual lo

seleccionamos y lo arrastramos al panel de desarrollo y luego lo unimos con el nodo
Type, como se muestra en la figura n 60.
figura n 60

f) Ahora vamos a generar el modelo para lo cual seleccionamos el nodo C5.0 llamado
Drug y luego le damos clic derecho y seleccionamos el botón execute en la cual nos
va a generar un diamente con el nombre Drug, que se ubicara en la parte superior
derecha en la pestaña models y luego lo unimos con el nodo type, como se muestra
en la figura n 61
figura n 61
85
g) Ahora determinaremos la precisión del modelo que se ha generado para lo cual

vamos a seleccionar de la categoria output el nodo analysis y lo arrastramos al panel
de desarrollo y luego lo unimos al nodo diamante drug, como se muestra en la
figura n 62
figura n 62

ahora damos doble clic en el nodo analysis y presionamos el botón execute en donde se va
a visualizar la precisión del modelo, como se muestra en la figura n 63, en la cual los
valores fueron predichos de manera correcta con un 96,5 % y un error del 3,5%.
figura n 63
86
h) Ahora vamos a mejorar los resultados obtenidos por el primer modelo creado, para
lo cual vamos analizar los datos en primer lugar vamos a ver la relación que hay
entre los parámetros , sexo, presión arterial, colesterol y medicamento, para lo cual
vamos a seleccionar de la categoria graphs el nodo web y luego lo conectamos con
el nodo var.file., luego le damos doble clic y en la propiedad fields en la parte
derecha damos clic y nos mostrara una ventana en donde debemos seleccionar los
parámetros en la cual queremos ver la relación para muestro caso seleccionamos los
parámetros sexo, presión arterial, colesterol y medicamento, como se muestra en la
figura 64.

figura 64.
87
le damos clic en el botón apply y luego en ok y para finalizar en el botón execute, en

donde nos mostrara una ventana como se muestra en la figura n 65.
figura 65
Lo que se puede observar en la figura n 65, con claridad es que el medicamiento va

disminuyendo con intensidad en el grafico superior.
I) Ahora vamos a analizar los valores numéricos, en este caso es Na y K para ver si hay
una relación significativa entre ambos parámetros, vamos añadir de la categoria
graphs el nodo plot en la cual lo selecionamos y lo arrastramos al panel de desarrollo
para luego unirlo al nodo var.file drug 1n como se muestra la figura n 66.

figura n 66.
88
Ahora le damos doble clic en el nodo plot y luego en X field seleccionamos Na y en Y field
seleccionamos K y en overlay el campo drug,como se muestra la figura n 67 y luego
presionamos el botón execute para que nos visualice los datos como se muestra en la figura
n68.
figura n 67

figura n 68
89
En la figura n 68 podemos observar, información muy relevante en la cual cuando la

relación de Na/k es bajo se les receta a los pacientes con rinitis alérgica el medicamento
drug Y y cuando el nivel va en aumento se le administra otros medicamentos a los
pacientes, debido a esa relación significante vamos a crear un parámetro derivado de la
relación antes mencionado para lo cual debemos seleccionar de la categoria field ops el
nodo derive y lo colocamos en el panel de desarrollo como se muestra en la figura n 69 y lo
conectamos al nodo var.file.
m) ahora damos doble clic en el nodo derive, y en el derive field colocamos en nombre en
este caso Na_k y en la propiedad formula en la parte derecha hay un icono de una
calculadora en donde le damos clic y colocamos la formula como se muestra en la figura n
70
figura n 69

en la figura n 70 para verificar que la expresión es correcta dar un clic en check si sale de
color negro quiere decir que todo anda bien y finalmente le damos clic en ok y luego en ok,
quedando como se muestra en el figura n 71
Figura n 70
90
Figura n 71
N) ahora construiremos un nuevo modelo para lo cual primero vamos a colocar un nodo
type, en este caso lo haremos de manera diferente, por lo cual primero damos un clic en el
nodo type, y luego clic derecho y seleccionamos copy type como se muestra en la figura n
72

figura n 72
91
ahora colóquese en el panel de desarrollo y dar clic derecho y luego seleccionar la opción
paste, en donde aparecerá un nuevo nodo en el panel de desarrollo y lo conectamos con el
nodo derivado Na_K , ahora le vamos a dar doble clic al nodo type y en la pestaña
annotations y luego en custom colocar Type_derivado presionar el botón apply y luego
botón ok en donde se mostrara una ventana como se muestra la figura n 73
figura n 73
p) Ahora vamos a crear un nuevo modelo con el parámetro que se ah generado de la

relación de Na/K, para ello de la categoria modeling seleccionar el nodo C5.0 y
luego unirlo con el nodo Type_derivado. Ahora le damos doble clic al nodo C5.0
para cambiarle de nombre en el cual le vamos a poner Drug_derivado en la
pestaña model que se encuentra en la parte inferior, como se muestra en la figura n
74 y finalmente le damos clic en el botón execute en la cual se va ah generar un
nuevo diamante con el nombre drug_derivado, como se muestra en la figura n 75.

figura n 74
92
figura n 75
q) Ahora vamos arrastrar el diamante drug_derivado y lo conectamos con el nodo

type_derivado como se muestra en la figura n 76.
figura n 76

una vez generado el modelo lo que vamos es añadir un nodo Analysis para ver el porcentaje
de precisión del modelo que se ah generado con una nueva variable, para lo cual lo
seleccionamos de la categoria output el nodo analysis y lo arrastramos al panel de
desarrollo y luego lo conectamos con el nodo diamante Drug_derivado, como se muestra la
figura n 77. Para ver el porcentajde de precisión del modelo damos doble clic al nodo
analysis y luego presionamos el nodo execute, para que nos visualice los siguientes
resultados, como se muestra la figura n 78.
93
figura n 77
figura n 78
en la figura se puede observar que el modelo ah mejorado su precisión con respecto al

primer caso en donde la precisión era del 96,5% y ahora es de 99,5% eso quiere decir que
los modelo pueden mejorar si seguimos analizando la información y probando nuevos
modelos.

R) si queremos ver los valores del nuevo campo generado vamos a la categoria output y
seleccionamos el nodo table lo arrastramos al panel de desarrollo y luego lo conectamos
con el nodo NA_K, como se muestra la figura n 79
figura n 79
94
ahora le damos doble clic al nodo table y presionamos el botón execute y podemos
visualizar el nuevo datos generado, como se muestra en la figura n 80.
figura n 80
Ahora como parte de una pequeña practica construya un modelo con redes neuronales y
llegue a la siguiente figura n 81.

figura n 81.
95
Al finalizar, usted estará en la capacidad de poder decir si con un modelo de redes

neuronales a mejorado o no los resultados con respecto a la precisión
CASO N 4: PROBLEMAS DE CLUSTER - CASO EMPLEADOS Memolum Web
La empresa de software para Internet “Memolum Web” quiere extraer tipologías de

empleados, con el objetivo de hacer una política de personal más fundamentada y
seleccionar a qué grupos de los empleados incentivar.
Las variables que se recogen de las fichas de los 15 empleados de la empresa en 1999 son:
• Sueldo: sueldo anual en euros.

• Casado: si está casado o no.
• Coche: si viene en coche a trabajar (o al menos si lo aparca en el parking de la empresa).
• Hijos: si tiene hijos.
• Alq/Prop: si vive en una casa alquilada o propia.
• Sindic.: si pertenece al sindicato revolucionario de Internet
• Bajas/Año: media del nº de bajas por año
• Antigüedad: antigüedad en la empresa
• Sexo: H: hombre, M: mujer.

Los datos de los 15 empleados se encuentran en el directorio

practica_cuatro_agrupacion_empleados\empleados.txt lo que se intenta hacer es extraer
grupos de entre estos quince empleados, para los cuales seguiremos con los siguientes
pasos.
a) El primer paso como ya hemos venido desarrollando en los ejercicios anteriores es

hacer la conexión de los datos para lo cual debemos de seleccionar de la categoria
source el nodo var.file y luego enlazarlo con el archivo que se encuentra en la 96
siguiente dirección practica_cuatro_agrupacion_empleados\empleados.txt y también
activar el check tab en delimiters, como se muestra en la figura n 82 y luego dar clic
en apply y luego en ok.
figura n 82.
b) El siguiente paso seleccionamos el nodo type que se encuentra en la categoria field

ops y luego lo conectamos con el archivo var.file que tiene el nombre empleado.txt,
ahora damos doble clic en el nodo type y en la propiedad direction le ponemos none
a la numeración debido a que no lo vamos a utilizar y luego le podemos cambiar de
nombre al nodo type en la pestaña annotations y en custom le ponemos
parámetros_in, como se muestra en la figura n 83. Finalmente damos un clic en el
botón ok.

figura n 83
97
c) Ahora vamos a realizar la agrupación para lo cual en la categoria modeling

seleccionamos el nodo K-means y luego lo colocamos en el panel de desarrollo y lo
conectamos con el nodo type llamado parámetros_in, como se muestra en la figura n
84
figura n 84
d) El siguiente paso es dar doble clic en el nodo K-Means y luego debemos de

seleccionar la cantidad de claster que queremos que se formen, en este caso vamos a
poner en Number of clusters la cantidad de 4 y luego damos clic en execute como se
muestra la figura n 85

figura n 85
98
e) Ahora podemos observar que aparece un diamante con el K-means la cual lo

seleccionamos y lo conectamos al nodo type parámetros_in, como se muestra en la
figura n 86
Figura n 86
Ahora si damos clic en el diamante K-Means podemos observar cada uno de los clusters
que se han generado y la cantidad de registros que caen en cada uno de ellos, como se

figura n 87
99
ahora vamos añadir un nodo table para poder ver de manera mas clara a que cluster
pertence cada uno de los registros, para ello lo que vamos hacer es de la categoria output
seleccionar el nodo table y luego lo conectamos con el diamante K-means, como se muestra
la figura n 88.
figura n 88

f) Ahora le damos doble clic al nodo table y nos mostrara una ventana como se
muestra en la figura n 89, en la cual podemos observar que el tercer (3) registro se
encuentran en el cluster 3 , el cuarto-4 registro pertenecen al cluster 3.
figura n 89
100
CASO N 5: AGRUPAMIENTOS EN RELACIÓN A LAS VENTAS
Este conjunto de datos contiene atributos de vestidos y sus recomendaciones de acuerdo a

sus ventas. Las ventas son monitoreadas sobre la base de días alternos. Con respecto a la
información del conjunto de datos tenemos los parámetros : Style, Price, Rating, Size,
Season, NeckLine, SleeveLength, waiseline, Material, FabricType, Decoration, Pattern,
Type, Recommendation are Attributes in dataset.
los detalles de cada uno de los atributos antes mencionados lo puede encontrar en la
siguiente pagina http://archive.ics.uci.edu/ml/datasets/Dresses_Attribute_Sales#, como se
muestra en la figura n 90.

Figura n 90
figura n 90.
101
Fuente : UCI Machine Learning Repository
Los datos de cada uno de los vestidos han sido obtenidos de la siguiente pagina,
http://www.aliexpress.com/, como se muestra en la figura n 91
figura n 91
Fuente: Ali Express
Ahora usted puede analizar la información de un vestido ingresando a la siguiente pagina:

http://www.aliexpress.com/item/2013-Ladies-Celeb-Evening-Fitted-Formal-Party-Ladies-
Pencil-Bodycon-Dress-D0076/881530990.html, en donde se encuentra los datos de cada
uno de las categorías mencionadas en este caso, como se muestra en la figura n 92

figura n 92
102
Fuente: Ali Express
los datos de este problema se encuentra en la carpeta libro\ practica_cinco_paper

\Dresses_Attribute_Sales\Attribute DataSet.xls, ahora empezaremos con la construcción del
modelo de clustering, para lo cual debemos de seguir los siguientes pasos.
a) En primer lugar creamos un nuevo proyecto y lo guardamos con el nombre de

vestido_cluster_libro y luego añadimos en nodo var.file que se encuentra en la categoria de
source en el panel de desarrollo y lo enlazamos con el archivo que se encuentra en la
carpeta libro\practica_cinco_paper.csv, como se muestra en la figura n 92
figura n 92

b) Ahora vamos analizar los datos que tiene el archivo para lo cual nos vamos a la
categoria output y seleccionamos el nodo table y luego lo conectamos con el nodo
var.file datos_de_vestidos.csv, como se muestra la figura n 93.
figura n 93
103
c) El siguiente paso es darle doble clic al nodo table y dar clic en el botón execute, la
cual nos permitirá visualizar la siguiente ventana, como se muestra en la figura n 94
figura n 94
en donde se puede observar que hay 500 registros con 14 campos cada uno de ellos,
también podemos observar algunos campos nulos.
b) Ahora vamos añadir un nodo type para seleccionar los campos que nos van a servir para
construir los cluster, para lo cual vamos a la categoria field ops y colocamos en el panel de
desarrollo el nodo type y luego lo conectamos con el nodo var.file datos_vestido_final.csv,
luego le damos doble clic al nodo type en la propiedad direction colocamos none al campo
dress_id, debido a que solo representa el código del producto, como se muestra en la figura

n 95 y luego presionar el botón ok, si desea lo puede poner un nombre en nuestro caso
Type_cluster.
figura n 95
104
d) Ahora para poder formar los cluster debemos de ir a la categoria modeling y

seleccionar el algoritmo k-means y luego conectarlo con el nodo type llamado
type_cluster como se muestra en la figura n 96
Figura n 96
Ahora dar doble clic an nodo k-means y en number clusters colocar 3 y presionar el botón
execute en donde se generara un nodo diamante con el mismo nombre de K-means, como
se muestra la figura n 97

Figura n 97
105
e) Ahora podemos conectar el diamante k-means que se ha generado con el nodo type
y luego le damos doble clic para ver los cluster que se han generado, como se
muestra la figura n 98. Se puede observar que la mayor cantidad de los casos se
encuentran en el cluster – 1, y en menor cantidad se encuentran en los cluster 2 y 3.
figura n 98
f) Para poder determinar en que cluster ah caído cada uno de los registros, lo primero
que tenemos que hacer es añadir un nodo table que se ubica en la categoria output
arrastrarlo al panel de desarrollo y conectarlo con el diamante k-means, como se
muestra la figura n 99.

Figura n 99
106
g) Para visualizar la información de cada uno de los datos y poder saber a que cluster
pertenecen lo que tenemos que hacer el dar doble clic al nodo table y presionar el
botón execute, en donde nos visualizara una ventana como se muestra la figura n
100
figura n 100
en los datos obtenidos podemos observar que los datos del registro uno y del registro dos
pertenecen al cluster numero uno y el registro trece pertenece al cluster numero 2 y el

registro numero 5 al cluster numero 3, así de esta misma forma usted puede analizar cada
uno de los registros, debido a que nuestra información son 500 registros.
CASO N 6: CASO EMPLEADOS MEMOLUM WEB (DATOS ERRÓNEOS Y

FALTANTES)
Tomando como referencia el caso n 4, la empresa de software para Internet “Memolum

Web” ha aumentado vertiginosamente su plantilla en los últimos años, debido
principalmente a una absorción de la compañía “Intelligent Stones” y quiere ver si las 107
tipologías de empleados existentes siguen valiendo. Las variables que se recogen de las
fichas de los 40 empleados actuales de la empresa son:
• Sueldo: sueldo anual en euros.

• Casado: si está casado o no.
• Coche: si viene en coche a trabajar (o al menos si lo aparca en el parking de la empresa).
• Hijos: si tiene hijos.
• Alq/Prop: si vive en una casa alquilada o propia.
• Sindic.: si pertenece al sindicato revolucionario de Internet
• Bajas/Año: media del nº de bajas por año
• Antigüedad: antigüedad en la empresa
• Sexo: H: hombre, M: mujer.
• Estudios: Obl: obligatorios, Bac: bachillerato, FP: formación profesional, Uni:
universitarios, Doc: doctorado/master
Los datos de los 40 empleados se encuentran en el directorio

libro\practica_seis_datos_erroneos_faltantes\empleados4.txt. El problema de estos datos es
que, al haber crecido de manera vertiginosamente la compañía y debido a la conversión de
datos en la fusión, pueden tener un número significativo de datos faltantes o erróneos. Se
intenta extraer grupos de entre estos quince empleados.
Para desarrollar este problema vamos a seguir los siguientes pasos.

a) Lo primero que debemos hacer es conectar los datos que se encuentra ubicado en la
dirección libro\practica_seis_datos_erroneos_faltantes\empleados4.txt, para lo cual
vamos a la categoria source y seleccionamos el nodo var.file y ubicamos la ruta

antes mencionado y además damos check en tab de la propiedad delimiters, como se

Figura n 101
108
b) Ahora debemos visualizar los datos para lo cual vamos a la categoria output y luego
al nodo table y lo conectamos con el nodo var.file empleados4.txt y damos doble
clic en el botón execute, que nos permita ver los datos del archivo, como se muestra
la figura n 102
figura n 102

c) Si queremos analizar si los datos están completos lo que debemos hacer es ir a la

categoria output y seleccionar el nodo data audit y lo conectamos con el nodo
empleados4.txt, luego le damos doble clic al nodo data audit y luego damos un clic
en el botón execute la cual nos mostrara la ventana que se muestra en la figura n
103.
figura n 103
109
en la ventana podemos observar que en el campo alq/Prop donde debe haber 40 campos
llenos de los cuales solo hay 37 y en el campo Estudios en donde debe haber 40 datos
llenos de los cuales solo hay 36, y 4 datos están vacios.
d) Ahora nuestro siguiente paso es detectar los datos que no son correctos o anómalos,
para lo cual vamos a a colocar en el panel de desarrollo, un nodo plot que se
encuentra en la categoria graphs y lo conectamos con el nodo var.file
empleados4.txt, como se muestra en la figura n 104

figura n 104
110
ahora le damos doble clic al nodo plot en la cual vamos analizar el sueldo y su antigüedad
de trabajo con respecto a sus estudios, para lo cual debemos colocar los datos, como se
muestra la figura n 105, dar un clic en el botón execute. Para mostrar los resultados como
se muestra la figura n 106.
figura n 105
en la figura n 106 podemos observar que hay un dato que no se relaciona con respecto a los
demás, debido a que tiene un sueldo exhorbitante que bordea los 380 000, mientras que los
demás sueldos están en el rango de los 0 y 100 000.

figura n 106
111
e) Ahora agregamos un nuevo nodo plot y seleccionamos los valores que se muestran
en la figura n 107 y damos un clic en el botón execute.
figura n 107

figura n 108
112
en la figura n 108 podemos observar un dato que no tiene relación con los demás datos es
decir un dato anómalo que es -7 la cual nos indica que no puede haber cantidad de hijos
negativos y por ende vamos a tener que corregirlo
f) Volvemos agregar otro nodo plot en la cual vamos analizar los datos con respecto a
sueldo antigüedad y si es casado o soltero, como se muestra en la figura n 109 y
luego presionamos el botón execute.
figura n 109
en la figura n 100 se puede observar que los personas que no son casadas tienen menor
antigüedad y las que si son casadas superan los 10 años de antigüedad.

Figura n 110
113
g) Ahora vamos eliminar los datos anómalos, según lo analizados hemos encontrado
dos uno con respecto al sueldo y otro con respecto a la cantidad de hijos, para lo
cual damos doble clic en el nodo table y luego presionamos el botón ejecutar, en
donde se visualizara los datos que contiene el archivo, luego debe buscar los datos
anómalos y seleccionarlos como se muestra la figura n 111
figura n 111

ahora seleccionamos generate que se encuentra en la parte superior y luego escogemos la

opción select node, como se muestra en al figura n 112, que nos generara un nodo generate
que aparece en el panel de desarrollo y luego lo unimos con el nodo var.file empleados4.txt
figura n 112
114
figura n 113
figura n 113
h) Ahora damos doble clic en el nodo generate y lo ponemos en mode discard, para
que los datos que cumplan esa condición no sean considerados, como se muestra la
figura 114

figura n 114

115
ahora añada un nodo table para poder visualizar los datos como se muestra en la figura n
115, en la cual no se van a considerar los dos registros eliminados debido a que son
anómalos, en la cual deberá dar doble clic al nodo table y presionar el botón execute.
figura n 115
en el grafico n 115 se puede observar que solo han sido considerados 38 registros de los 40
i) Ahora vamos a ocuparnos de los campos vacios, para el caso de este ejercicio
vamos a considerar que el campo vacio de estudios serán llenados con los valores
obl, para lo cual lo primero que debemos hacer es unir el nodo generate con un
nodo type, y luego le damos doble clic al nodo type, nos colocamos en el campo
estudios y en la propiedad missing lo ponemos en on para poder editar los valores
ausentes, como se muestra la figura n 116 y finalmente damos clic en ok
j) Ahora vamos a reemplazar los valores en blanco del campo estudios, para lo cual lo
que vamos hacer es enlazar al nodo type un nodo filler que se encuentra en la

categoria field ops y luego le damos doble clic en el nodo filler para colocar la
condición como se muestra en la figura n 117 y finalmente presionar el botón ok
figura n 116
116
figura n 116
figura n 117
k) Ahora vamos añadir un nodo table para ver los datos que han sido reemplazados,
para lo cual lo seleccionamos de la categoria output el nodo table y lo conectamos
con el nodo filler, como se muestra la figura n 118.

figura n 118
117
ahora le damos doble clic en el nodo table y luego damos un clic en el botón execute, para
que nos visualice los datos, en la cual se han reemplazado los datos faltantes, como se
Figura n 119
l) El siguiente paso es trabajar sobre el campo alq/Prop en donde podemos observar

que hay 3 datos que no se han ingresado, y que es muy interesante para nuestro
modelo, por lo cual lo que haremos es predecir los valores que deben tener estos
campos, para lo cual lo primero que haremos es eliminar los valores en blanco,
haciendo uso del ultimo table generado.
Dar doble clic al nodo table seleccionar los espacios en blanco luego en la parte
superior de la ventana dar un clic en generate y luego seleccionar „select node‟ ,

como se muestra la figura n 120, y se generara un nuevo nodo en el panel de

desarrollo el cual lo deberá de conectar con el nodo filler.
figura n 120.
118
M) Ahora lo que va a realizar es dar doble clic al nodo generated y dale clic en el mode
discard, para que no considere los espacio en blanco y finalmente dale clic en ok como se
Figura n 121.
N) ahora vamos a agregar un nodo type de la categoria field ops y lo conectamos al nodo
generated creado y luego le damos doble clic al nodo type y colocamos al campo alq/prop
como parámetro de salida y al campo #ej como none porque no lo vamos a utilizar, como se

figura n 122
119
o) El siguiente paso será añadir un clasificador que nos permita predecir el valor de la
vivienda de cada uno de los datos que están en blanco para lo cual de la categoria
modeling seleccionar el nodo CRT y lo enlazamos con el nodo type, luego
seleccionamos el clasificador le damos clic derecho y seleccionamos el botón
execute, en donde aparecerá un diamante que lo vamos a conectar con el nodo type,
p) Ahora vamos a ver la probabilidad de precisión del modelo creado, para lo cual de
la categoria output vamos a seleccionar el nodo analysis y lo conectamos con el
diamante CRT Alq/Prop, luego damos doble clic en el nodo analysis y podemos ver
la precisión del modelo, como se muestra la figura n 124
figura n 123

figura n 124
120
q) Ahora para observar los datos que se han predicho, lo que debemos hacer es copiar
el nodo type y conectarlo con el nodo filler y luego enlazar el nodo type con el
diamante CRT Alq/Prop que se ah creado y luego el nodo diamante creado
conectarlo a un nodo table, como se muestra la figura n 125.
figura n 125
ahora darle doble clic al nodo table y luego presionar el botón execute para poder visualizar
los datos como se muestra la figura n 126, en donde podemos visualizar que el dato faltante

del registro numero 5 ha sido predicho como Alquiler, el dato faltante 16 ah sido predicho
como alquiler.
figura n 126
121
r) Ahora por ultimo nos interesa cambiar los valores del campo Estudios a valores
numéricos para lo cual seleccionamos de la categoria Field ops el nodo derive y lo
conectamos al diamante Crt Alq/Prop, como se muestra en la figura n 127
figura n 127

s) ahora procedemos a dar doble clic en el nodo derive y en derive field le ponemos de
nombre SET_ESTUDIOS y en derive as, lo colocamos como set y luego
ingresamos la información como se muestra la figura n 128, para poder ver y
visualizar la información que se ah modificado solo debemos de conectar un nodo
table que se encuentra en la categoria ouput al nodo derive y luego le damos doble
clic para poder visualizar la información que se ha cambiado en un campo nuevo ,
como se muestra la figura n 129.
122
figura n 128
figura n 129

ahora para poder seguir trabajando debemos de filtrar la información que nos sirva, para lo
cual debemos de agregar un nodo filter y conectarlo con el nodo derive Set_Estudios, luego
le damos doble clic el filter y solo seleccionamos los campos que se va usar, como se
figura n 130
123
t) ahora vamos hacer uso de un nodo matrix que se encuentra en la categoria output
para ver la información en un cuadro de doble entrada entre coche y casado, como
se muestra la figura n 131, en la tabla se puede observar que de las personas que son
casadas tiene coche 12 y 3 no tienen coche, y asi mismo de las personas que no son
casadas 16 tienen coche y 7 no tienen coche.
figura n 131

ahora usted a modo de ejemplo podría analizar la relación que existe entre sindicato y sexo,
asi como de coche con sexo o poder analizar si los datos que eran incorrectos han sido
modificados como por ejemplo con referente a los sueldos, como se muestra la figura n 132
figura n 133
124
u ) el siguiente paso es añadir un nodo type y conectarlo con el nodo filter y luego el nodo
type después de haber escogido los valores de entrada conectarlo con un nodo plot para
poder ver la relación entre estudios, sueldo y la propiedad, como se muestra en al figura n
134.
figura n 134.

V) Ahora también podríamos analizar atraves de un nodo plot que se encuentra en la

categoria graphs la relación entre la antigüedad, el sueldo y el estado civil de los
trabajadores, como se muestra en la figura n 135, en donde se puede apreciar que las
personas que tiene mayor antigüedad y sueldo alto están casados y los que tiene menor
antigüedad y menor sueldo no están casados. Vamos a crear dos regiones bien
diferenciados como se muestra en la figura para lo cual damos clic en el rectángulo de color
125
rosado y luego seleccionamos las dos zonas.
figura n 135.
W) Ahora damos clic en la parte superior del menú la opción generate y luego escogemos
derive node set, en donde se generar un nuevo nodo lo cual lo conectamos con el ultimo
nodo type creado y luego el nodo derive generado lo conectamos a un nodo table para ver
los resultados obtenidos, como se muestra la figura n 136.

figura n 136.
126
Después de haber desarrollado toda la practica paso a paso lo siguiente que tendrá que
hacer es añadir dos nodos cluster k-means, uno que incluya como datos la región que se
ha generado y otro sin la región creada, asi como se muestra en la figura 137, y luego
analice los datos obtenidos en los nodos table, teniendo en cuenta que solo hará uso de 3
clusters.
Figura 137
CASO N° 7: OBTENER Y TRANSFORMAR DATOS ATRAVEZ DE

ODBC(CONEXIÓN DE BASE DE DATOS ABIERTA)
Hasta el momento hemos trabjado por mayor comodidad en ficheros de texto, pero en la
vida real los datos que uno utiliza para el desarrollo de este tipo de proyecto puede provenir
de diferentes fuentes entre los cuales podemos mencionar Sqlserver, Oracle, Informix,
Paradox, Sybase, etc. para nuestro caso vamos hacer uso de una base de datos de access que
se encuentra en la siguiente dirección libro\practica_siete_tranformacion

_de_datos\NEPTUNO.mdb, para poder visualizar los datos que se encuentran le damos

doble clic y podemos visualizar todas las tablas de la base de datos, como se muestra la
figura n 138.
figura n 138 : Base de datos Neptuno
127
Vamos a desarrollar un ejemplo que nos permita predecir la cantidad de ventas del
siguiente cuatrimestre, para lo cual vamos a trabajar en base a la consulta que se llama
_VentasporCuatrimestre, que se encuentra en la base de datos para lo cual le damos doble
clic y podemos observar los datos como se muestra en la figura n 139. Nos interesa predecir
cuales serán las ventas del cuatrimestre 1996C y 1996D
figura n 139.

Para realizar este ejemplo lo primero que debemos hacer es crear un Dns atravez de odbc
que nos permita conectar con spss clementine para lo cual vamos a seguir los siguientes
pasos:
a) ir a inicio, luego a panel de control y ubicar el icono que indica herramientas

administrativas y luego debe buscar la opción odbc y darle doble clic en la cual
aparecerá una ventana como se muestra en la figura n 140.
128
figura n 140
b) el siguiente paso es dar clic en el botón agregar y luego buscar el controlador en este
caso access luego damos clic en aceptar y buscamos la ruta en donde se encuentra el
archivo, asi como se muestra la figura n 141. Cuando le damos clic en aceptar debe
aparecer un dns con el nombre dns_neptuno, como se muestra en la figura n 142
figura n 141.

figura n 142: Odbc - dns neptuno
129
c) ahora trabajaremos en el spss clementine en la cual creamos un nuevo stream con el

nombre de transformación_de_datos_ libro, y luego de la categoria source
seleccionamos el nodo sql y luego le damos doble clic, en la cual aparecerá una
ventana como se muestra en la figura n 143. Y para terminar le damos clic en ok.
Figura n 143
d) para poder visualizar los datos como en los demás casos, como ya debe tener
conocimiento seleccionamos un nodo table de la categoria output y lo unimos con el
nodo sql y luego lo ejecutamos para ver lo datos, como se muestra la figura n 144.
En donde podemos observar que se han obtenido 12 registros.

figura n 144.
e) Continuando con el ejercicio vamos a eliminar los valores nulos debido a que no
nos ayuda a predecir el volumen de ventas para lo cual haremos los siguientes
pasos. Damos doble clic en el nodo table, seleccione un valor nulo y luego en la
parte superior del menú dee un clic en generate y luego seleccione la opción select
node, en la cual se generara un nuevo nodo select, en la cual debe darle doble clic y
ponerlo en la opción del mode discard, como se muestra la figura n 145 y
finalmente darle un clic en el botón ok., si desea visualizar la información debe
conectar a un nodo table.
figura n 145
f) Ahora vamos a eliminar algunos datos que parecen no estár completos y por lo tanto
no van ayudar a predecir el volumen de la venta , la cual haremos los mismo pasos
anteriores, dar doble clic a la ultima table usada y luego seleccionamos los dos
valores a eliminar en este caso 1994C y 1996B y seleccionamos de la parte superior

del menú la opción generate y luego select node (or) la cual se genera un nuevo
nodo select que luego lo conectamos con el nodo select creado anteriormente, como
se muestra la figura n 146, no olvidar que en el nodo select creado debe poner en el
Mode la opción discard.
figura n 146
131
g) Si queremos ver lo datos que hasta el momento se han filtrados y la cual vamos ha
ser uso para predecir el volumen de ventas, tenemos que unir el nodo select creado
con un nodo table y luego al nodo table dar doble clic y luego presionar el botón
execute, como se muestra la figura n 147.
Figura n 147.

H) Ahora vamos analizar como se han comportado los datos de las ventas, para lo cual
haremos uso del nodo plot que se ubica en la categoria graphs y luego lo conectamos con el
ultimo nodo select que se ah generado, luego damos doble clic al nodo plot y
seleccionamos los valores, como se muestra la figura n 148., en la parte inferior en la
pestaña options escoger el Style como line y luego damos clic en execute para ver los
resultados como se muestra la figura n 149
figura n 148. 132
figura n 149
gura n 149
En la grafica podemos observar que las ventas han ido aumenta conforme el tiempo pasa
además la figura tiende a ser lineal por el cual aplicaremos un nodo de regresión.
h) Primero conectar el nodo select generado con un nodo type y seleccionar los
opciones como se muestra la figura n 150.

figura n 150.

133
i) Para agregar el nodo regresión debemos seleccionar la categoria modeling y luego
seleccionar el nodo regresión y enlazarlo con el ultimo type añadido, luego dar
doble clic al nodo regresión y presione el boton execute en donde le va aparecer un
diamante, como se muestra la figura n 151.
Figura n 151
Si le da doble clic al diamante puede observar el modelo que se ah creado, asi como se muestra en
la figura n 152.
Figura n 152

J) ahora vamos evaluar el diamante obtenido para lo cual lo conectamos con un nodo type y
luego el diamante lo conectamos a un nodo multiplot de la categoria graph y luego
seleccionamos la opciones como se muestran en la figura n 153 y luego presionamos el
botón execute para que nos muestre los resultados como la figura n 154
figura n 153
134
en la grafica se puede observar que el modelo obtenido se ajusta bastante al modelo real,
ahora para poder aplicarlo a cualquier valor lo que tenemos que hacer es coger un nodo
diamante y enlazarlo y conectarlo con el ultimo nodo select generado y luego dar clic
derecho y seleccionar generate user input node, como se muestra la figura n 155.
figura n 154

K) aparecerá un nodo user input en la cual debemos indicarle los valores que vamos a
predecir para lo cual le damos doble clic y luego los valores 3, 10, 11 y 12 en ord,
debido a que es lo que nos interesa, como se muestra en la figura n 156. Luego deberá
unir el nodo user input con el nodo diamante y luego el nodo diamante con un nodo
table, como se muestra la figura n 157.
figura n 155
135
figura n 156
figura n 157

si le damos doble clic al nodo table, vamos ver que se han obtenido los siguientes
resultados, como se muestra en la figura n 158
figura n 158
136
en la figura n 158 podemos ver que lo resultados obtenidos con respecto a la ord 3 y 10 son
diferentes a los valores iniciales por el cual se habían deducido que la información estaba
errada, en la ord 10 anterior el valor era de 12495.9 y con el modelo obtenido el valor es de
13340.
Al finalizar este ejemplo usted debe obtener el siguiente grafico
Figura n 159
CASO Nº 8: CATALOG_FORECAST(SERIES DE TIEMPO)
Ahora vamos a ver los ejemplos del spss clementine, entre los cuales se encuentra el stream
catalog_forecast y la base de datos catalog_seasfac.sav que se encuentran ubicados en la

dirección libro\practica_ocho_catalog_forecast\ para lo cual damos doble clic al stream

antes mencionado en la cual nos visualiza lo siguiente como se muestra la figura n 160.
Figura n 160
137
com.spss.clementine.D.B.E@aEn primer lugar vamos analizar la información que se

encuentra en el stream para luego hacer un ejemplo con los pronósticos de ventas de las
mujeres:
a) Primero vamos agregar un nodo table y lo enlazamos con el nodo spss y luego le
damos doble clic en el nodo table en donde aparecerá una ventana y luego
presionamos el botón execute, para poder visualizar la información, como se
muestra en la figura n 161. En donde se observa las ventas de los hombres y
mujeres en determinadas fechas.

figura n 161.
138
B) Ahora el siguiente paso es darle doble clic en el nodo time plot y luego darle clic en el
botón execute, en donde se muestra la figura n 162, en la cual se puede observar que las
ventas están aumentando y disminuyendo en relación a la línea de tendencia
figura n 162
b) Ahora vamos construir una proyección de venta para las mujeres, para lo cual de la
categoria field ops seleccionamos el nodo time intervals y lo conectamos con el
nodo spss, para luego darle doble clic al nodo time intervals y seleccionar los datos

como se muestra la figura n 163. En donde se ah escogido el time intervals como

months, debido a que el análisis se hara en base a meses.
figura n 163
139
c) El siguiente paso es agregar de la categoria modeling un nodo time Series y luego lo

conectamos con el nodo time intervals woman. Luego damos doble clic y en target
seleccionamos las ventas de las woman(mujeres) y en la parte inferior en la pestaña
model le cambiamos de método en este caso exponential Smoothing y luego le
damos un clic en el botón execute como se muestra la figura n 164, en donde
aparecerá un nodo diamante la cual lo vamos a conectar con el nodo time intervals
woman, como se muestra la figura n 165

figura n 164
140
d) Ahora el siguiente paso es conectar el diamante woman con un nodo time plot que
se encuentra en la categoria graphs, y luego le damos doble clic y seleccionamos los
valores como se muestra en la figura n 166 y para finalizar darle doble clic al botón
execute para que se muestra un cuadro similar a la figura n 167.
figura n 165

figura n 166
141
figura n 167
en la grafica superior se puede observar que las ventas están aumentando y disminuyendo
en relación a la línea de tendencia.
e) Al finalizar el ejercicio habrá obtenido la siguiente figura n 168

figura n 168

CASO Nº 9: COMPUTER HARDWARE DATA SET
Ahora vamos a realizar un ejemplo de regresión lineal en la cual vamos a poder analizar la
relación que hay entre una variable con respecto a otra, para lo cual tomaremos como
ejemplo la información que se encuentra ubicada en la siguiente dirección
http://archive.ics.uci.edu/ml/datasets/Computer+Hardware, como se muestra en la figura n
142
169 Figura n 169
Fuente : Machine Learning Repository
La información que se muestra es relativa a rendimiento de datos de CPU, descrito en

términos de su tiempo de ciclo, tamaño de memoria, etc. Los atributos de cada uno de ellos
se encuentran escritos en la pagina antes mencionada y los datos se encuentran ubicados en
la siguiente dirección libro\practica_nueve_computer_harware\machine.data.csv.
En este ejemplo vamos a determinar la relación de dependencia entre las variables MMIN
(Cantidad minima de memoria principal) y el ERP(rendimiento relativo estimado del
articulo originales), para lo cual vamos a seguir los siguientes pasos:
a) Creamos un nuevo stream con el nombre de regresión_lineal_hardware_libro y

luego añadimos de la categoria source el nodo var.file y le damos la dirección de la
ruta en donde se encuentra el archivo, como se muestra en la figura n 170,
presionamos el botón apply y luego ok.

figura n 170
143
b) Ahora para analizar la relación entre las variables MMIN Y ERP vamos a;adir un
nodo plot de la categoria grafica y luego lo conectamos con el nodo var.file y le
damos doble clic y seleccionamos las opciones como se muestra la figura n 171
figura n 171
c) Después de presionar o dar un clic en el botón execute se va visualizar la siguiente

ventana, como se muestra la figura n 172. En donde existe una relación de
incremento de la MMIN Y EL ERP.

figura n 172
144
d) Ahora añadimos un nodo type que se encuentra en la categoria field ops, para
especificar los parámetros de salida y los parámetros de entrada y luego lo añadimos
al nodo var.file, para luego dar doble clic en el nodo type y seleccionar las opciones,
como se muestra en la figura n 173. Como ya tiene conocimiento puede darle otro
nombre al type en este caso le hemos asignado el nombre de Type_MMIN
figura n 173.
e) Ahora de la categoria modeling añadimos un nodo de regresión y lo enlazamos con

el nodo llamado type_MMIN. Y luego le damos doble clic y seleccionamos las
opciones como se indica en la figura n 174 y presionamos en el botón execute en

donde se creara un diamante con el nombre de ERP que se ubica en la parte superior
derecha y luego lo arrastramos y lo conectamos al nodo type_MMIN, como se
figura n 174
145
figura n 175
f) Si queremos ver el modelo que se ha creado en la regresión lineal le damos doble

clic al diamante ERP y nos vamos a la pestaña summary.

figura n 176
146
g) Ahora vamos a añadir un nodo multiplot que se ubica en la categoria graphs y lo

conectamos con el diamante ERP que se ha creado y luego damos doble clic al nodo
multiplot y seleccionamos las opciones como se muestra la figura n 177
figura n 177
para finalizar le damos clic en apply y luego en execute, en donde se visualizara la ventana
como se muestra en la figura n 178. En donde se puede observar que los valores del ERP
aumentan y disminuyen con respecto a la línea de tendencia

figura n 178.
147
Como ejercicio se le propone que usted analice la relación que hay entre MMAX y ERP, y
al mismo tiempo analizar el valor de ERP real, con respecto a la línea de tendencia de ERP,
por lo cual deberá de llegar a la figura n 179 como resultado final.
figura n 179
CASO N10: DETECCION DE FRAUDE
En este ejemplo se muestra el uso de Clementine en la detección de comportamiento que

podrían indicar fraude. El dominio se refiere a las solicitudes de subvenciones para el
desarrollo agrícola. Se consideran dos tipos de subvenciones: el desarrollo de cultivo y la
clausura de la tierra.

El ejemplo utiliza datos ficticios para demostrar cómo los métodos de análisis se puede
utilizar para descubrir desviaciones de la norma, destacando los registros que son
anormales y digno de mayor investigación. Usted está particularmente interesado en las
solicitudes de subvención que parecen reclamar demasiado (o muy poco) dinero para el tipo
y tamaño de la granja. El análisis se realizó en dos etapas: una selección preliminar
utilizando detección de anomalías, seguida de una exploración más a fondo el uso de un
modelo de red neuronal.
148
Los campos que se usan en este ejemplo son los siguientes:
a) Id : número de identificación único.

b) Name: nombre del reclamante.
c) Región: ubicación geográfica.
d) Landquality: La declaración del agricultor de calidad de la tierra.
e) Rainfall: Precipitacion anual de la graja
f) Farmincome: El ingreso anual declarado de granja
g) Maincrop : Cosecha Primaria
h) Claimtype: Tipo de subvención solicitada
i) Claimvalue: el valor de la subvención solicitada
Los pasos que se va a realizar para llegar a la figura n 180 , son los siguientes:
figura n 180

a) El primer paso es conectar el archivo a un nodo var.file con los datos que se
encuentran ubicados en la siguiente dirección
libro\practica_diez_deteccion_de_fraudes\grantfraudN y luego dar doble clic en el
nodo var.file y seleccionar las opciones como se muestra la figura n 181 y luego
dar un clic en el botón apply y luego en ok.
figura n 181
149
b) Ahora para poder observar los datos como ya se ah realizado en muchos ejemplos
anteriores, seleccionar de la categoria output el nodo table y luego conéctelo con el
nodo var.file y luego le da doble clic en el nodo table y presione el botón ejecute
para luego analizar los datos como se muestra la figura n 182. En donde se puede
observar que hay 300 registros de computadoras.
figura n 182

c) Vamos a centrarnos ahora en los diferentes tipo de fraudes. Una posibilidad es

múltiples solicitudes de ayuda de subvención de una sola granja. Para poder hacer
este ejemplo vamos agregar un nodo distribution que se ubica en la categoria output
y lo conectamos con el nodo var.file, luego le damos doble y seleccionamos las
opciones como se muestra la figura n 183
figura n 183
150
d) luego presionamos el botón execute en donde se mostrara una ventana, como se

muestra la figura n 184, luego le damos doble clic en el encabezado de la columna
count para que ordene de mayor a menor los valores y nos permita ver la cantidad
de solicitudes que se han hecho. En el caso del name618 se han hecho 4 solicitudes
y en el caso del name777 se han hecho 2 solicitudes. Basado en los datos
encontrados vamos a eliminar estos registros, para lo cual vamos a seleccionar los
valores que tienen mas de una solicitud en el nodo distribution luego en la parte
superior seleccionamos las opciones como se muestra en la figura n 185, en donde
aparecerá un nodo select en la cual le conectamos con el nodo var.file y luego le
damos doble clic, como se muestra la figura n 186

Figura n 184
151
figura n 185
en la figura n 186 presionar el botón apply y luego ok.
figura n 186

e) Ahora, usted puede centrarse en las características de la solicitud de ayuda de una

sola granja. El uso de Clementine, se puede construir un modelo para estimar lo que
se espera, el ingreso de una granja, en función de su tamaño, el tipo principal
cultivo, tipo de suelo, y así sucesivamente. Para prepararse para el modelado, es
necesario derivar nuevos campos utilizando el lenguaje CLEM en un nodo Derivar.
ahora, usted puede estimar el ingreso mediante una fórmula simple que multiplica
farmsize * lluvia * landquality. Para lo cual de la categoria field ops seleccionar el
152
nodo derive y luego conectarlo con el nodo select, para que posteriormente darle
doble clic y ingresar los datos como se muestra la figura n 187
figura n 187
f) Para investigar los agricultores que se desvían de la estimación, es necesario derivar

otro campo que compara los dos valores y devuelve un porcentaje de diferencia,
para lo cual de la categoria field ops, seleccionamos el nodo derive y lo conectamos
al nodo derive que tiene el nombre de estimar_income, y luego damos doble clic al
nodo derive que tiene el nombre diferencia y luego ingresamos la siguiente formula

Figura n 188
153
g) Para explorar las desviaciones, es útil para trazar un histograma de diferencia. Para
lo cual es interesante superponer claimtype, para poder ver si esto tiene alguna
influencia en la distancia de los ingresos estimados. Para lo cual vamos agregar de
la categoria graphs el nodo Histogram y lo conectamos con el nodo derive
diferencia y luego le damos doble clic y seleccionamos las opciones que se
muestran en la figura n 189 y para ver los resultados presionamos el botón execute,
figura n 189

figura n 190
154
en la figura n 190 se puede observar que existe mayor diferencia en la estimación con
aquellos claimtype que son del tipo arable_dev, por el cual trabajeremos en base a ello
h) Para solo trabajar con un solo grupo de datos lo primero que tenemos que hacer es
agregar un nodo select de la categoria record ops y luego conectarlo con el nodo
derive que tiene como nombre diferencia, luego le damos doble clic y ingresamos la
condición como se muestra en la figura n 191 y luego le damos clic en apply y
luego en ok.
Figura n 191

i) Puesto que usted quiere predecir el valor de la demanda utilizando otras variables en
los datos, el nodo Tipo se puede utilizar para establecer la dirección de claimvalue a
Out. Para lo cual empezaremos añadiendo un nodo del tipo type que se encuentra en
la categoria field ops y lo conectamos con el nodo select. Y luego seleccionamos las
opciones como se muestra la figura n 192.
figura n 192
155
a) Ahora agregamos un nodo neural net que se encuentra en la categoria modeling y lo

conectamos con el nodo type, luego damos doble clic al nodo neural net y luego
presionamos el botón execute, en donde se va ha generar un diamante que se
encuentra en la parte superior derecha y luego lo enlazamos con el nodo type, como
figura n 193.

b) Ahora vamos agregar un nodo derive para generar un nuevo valor teniendo como
dato el valor que bota el modelo de red neuronal creado. Para lo cual lo conectamos
al diamante claimvalue y luego damos doble clic en el nodo derive y colocamos la
siguiente formula como muestra la figura n 194. Luego damos clic en apply y
también en ok.
156
figura n 194.
CASO N 11 : VALIDANDO MODELO DRUG CON DATOS NUEVOS
Teniendo como base el ejercicio numero 3 vamos a realizar la validación del modelo que se
ah creado con nuevos datos que se encuentran ubicados en la siguiente dirección
libro\practica_once_datos_fresco_drug en donde hay 4 archivos, ahora abrimos el archivo
stream que se encuentra en la practica numero 3(figura n 195) y luego grabelo con el
nombre de validación_de_farmacos_libro.
figura n 195

para poder comprobar si el modelo que se creo en el ejercicio numero 3 en la cual tiene una
precisión del 99,5 %, es confiable se hará las pruebas con nuevos datos en la cual podremos
determinar si la precisión del modelo se mantiene con datos nuevos para lo cual,
realizaremos los siguientes pasos:
a) Agregar un nuevo nodo var.file en proyecto, dar doble clic y luego buscar el archivo
drug2n en donde se encuentran los datos del nuevo hospital, como se muestra la
figura n 196 157
Figura n 196
b) Si quiere observar la cantidad de datos que hay en el archivo lo que tiene que hacer
es agregar un nodo table de la categoria output y luego conectarlo con el nodo
var.file de nombre drug2n, luego dar doble clic al nodo table para visualizar los
datos como se muestra la figura n 197. En donde se puede observar que hay 400
datos. figura n 197.

c) Seleccionar los nodos como se muestra en la figura n 198 y luego hacer una copia y pegar
en el mismo espacio de trabajo.
figura n 198
158
d) Los nodos que se han copiado, enlazarlo con el nodo var.file drug2n, como se
muestra la figura n 199. Luego proceda a dar doble clic al nodo analysis para poder
ver la presicion del modelo en relación a nuevos datos.
En la figura n 200 podemos observar que la precisión obtenida es 98,5 % aunque es
menor al valor obtenido con los datos de entrenamiento pero es bastante bueno.
figura n 199.

figura n 200
e) Ahora vamos a realizar los mismo pasos con el archivo drug3n, para lo cual
159
agregamos un nuevo nodo var.file de la categoria source y luego le damos doble clic
al nodo y ubicamos el archivo en la carpeta libro\practica_once_datos_fresco_drug
figura n 201
f) Si queremos visualizar los datos del archivo( figura n 202), debemos de agregar un
nodo table de la categoria output y luego enlazarlo con el archivo drug3n, y luego
dar doble clic y presionar el botón execute. En la figura se puede observar que hay
600 registros nuevos que nos permitirá evaluar la precisión del modelo.

figura n 202
160
g) Seleccionar los nodos como se muestra la figura n 203 y luego copiar y pegar en el
proyecto que se esta realizando y luego enlazarlo con el archivo drug3n.
figura n 203
h) Ahora para poder ver la precisión del modelo(figura n 204) le damos doble clic al
nodo analysis y luego presionamos el botón execute. En donde podemos visualizar
que la presicion del modelo es del 99% y ha mejorado con respecto al caso anterior.
figura n 204

i) Ahora usted tiene que realizar como una tarea en casa, los mismo pasos de los
ejemplos anteriores haciendo uso del archivo drug4n y finalmente deberá llegar a la
precisión que se muestra en la figura n 205
figura n 205
161
CASO N 12 : INTEGRACION DE DATOS Y PARTICION
En el ejemplo n 3 se ha creado un modelo solamente basado en 200 registros(tuplas o filas

como lo quieran llamar), en este ejemplo haremos la integración de los 4 archivos en donde
se encuentra la información total de 2200 registros de los cuales haremos uso de una parte
para crear un nuevo modelo (entrenarlo) y otra parte para validarlo, para lo cual seguiremos
los siguientes pasos:
a) Vamos a empezar tomando como base el ejercicio n 11

(validacion_de_farmacos_2), en la cual se encuentra en el directorio
libro\practica_once_datos_fresco_drug , le damos doble clic para abrir el proyecto y
luego, como primer paso vamos a unir todos los archivos para lo cual vamos a
seleccionar el nodo append de la categoria record ops y luego lo conectamos con los
4 archivos en donde se encuentran los registros como se muestra la figura n 206

figura n 206
162
b) Ahora para poder visualizar la información de todos los registros como ya es de su

conocimiento tenemos que agregar un nodo table que se encuentra en la categoria
output y luego enlazarlo con el nodo append que se ha agregado, luego dar doble
clic en el nodo table y presionar el botón execute, como se muestra la figura n 207,
en donde se puede visualizar 2200 registros de los 4 archivos que se han integrado.
figura n 207
c) Ahora agregamos un nodo matrix de la categoria output y luego lo conectamos con

el nodo append, luego le damos doble clic al nodo matrix y selecionamos las
opciones como se muestra en la figura n 208, para finalizar damos clic en el botón
execute.

figura n 208
163
d) En la figura n 209 se puede observar que las personas que tienen una presión arterial
high y un colesterol high son 406, las personas que tienen una presión arterial low y
un colesterol normal son 348, las personas que tienen una presión arterial normal y
un colesterol high son 382.
figura n 209
e) Ahora vamos a hacer un nuevo modelo, del cual vamos a usar 1800 datos para
entrenamiento y 400 para su prueba o validez, para lo cual copiamos el nodo NA_K
y lo conectamos con el nodo append y luego agregamos un nodo type de la
categoria field ops, y lo conectamos con el nodo NA_K. ahora lo que hacemos es
dar doble clic al nodo type y luego poner como out(salida) al parámetro drug, como

figura n 210
164
f) El siguiente paso que vamos a realizar es separar lo datos para los cuales vamos a
usar el nodo sample que se encuentra en la categoria record ops y lo conectamos
con el nodo type, ahora damos doble clic en el nodo sample y colocamos los valores
que se encuentran en la figura n 211
figura n 211
en la figura n 211 se puede observar que se ah considerado 1800 registros para

realizar el entrenamiento del modelo. Ahora si desea visualizar los datos que han
sido escogidos para hacer el modelo, agregar un nodo table y luego conéctelo con el
nodo sample y luego dee doble clic en el nodo table y luego presióne el botón
execute para visualizar la ventana como se muestra la figura n 212.

figura n 212.
165
g) Ahora vamos agregar 4 modelos para hacer el entrenamiento con los 1800 datos
que se han selecionado, entre los cuales esta CRT, C5.0, CHAID, Neural Net en
donde debemos de seleccionar de la categoria modeling y luego agregarlo al panel
de desarrollo. Y luego conectarlo con el nodo Sample Datos de entrenamiento.
Como se muestra la figura n 213.
figura n 213.

h) Ahora el siguiente pasos es dar un clic en cada uno de los modelos y luego presionar
el botón execute en donde aparecerá un diamante por cada uno de ellos en la parte
superior derecha, como se muestra la figura n 214
figura n 214
166
i) Ahora vamos agregar un nuevo nodo sample que lo llamaremos datos_prueba y

luego lo conectamos con el nodo type, ahora damos doble clic al nodo sample y
colocamos los datos que se muestran en la figura n 215 en donde se puede apreciar
que se van a descartar los primeros 1800 datos, luego apply y finalmente ok.
figura n 215

j) Ahora vamos a conectar todos los diamantes que se han generado con el nodo
sample, para probar la probabilidad de predecir los registros en cada uno de los
casos, para lo cual debemos de seleccionar un nodo diamante por ejemplo C5.0 y
luego conectarlo con el nodo simple datos_prueba, como se muestra la figura n 216.
k) El siguiente paso es agregar un nodo analysis que se encuentra en la categoria

output y luego conectarlo a cada uno de los nodos diamantes, como se muestra la
figura n 217 y luego procedemos a ejecutar cada uno de los nodos analysis para que 167
podamos obtener los resultados como se muestra en la figura n 218. En la figura n

218 se observa que la precisión del modelo drug_C5.0 ah sido del 100% de datos
predichos de manera correcta con respecto a 0% de predicción con respecto a datos
erróneos. En la figura n 219 se observa que la precisión del modelo drug_RN ah
sido del 92,75% de datos predichos de manera correcta con respecto a 7,25% de
predicción con respecto a datos erróneos.
figura n 216
figura n 217

figura n 218
168
figura n 219
l) En el caso anterior los datos han sido seleccionados de manera secuencial, Ahora
vamos a crear una partición de manera aleatoria para lo cual vamos agregar un nodo
partición que se encuentran en la categoria field ops y lo conectamos con el nodo
type, luego le damos doble clic y colocamos los valores que se encuentran en la
figura n 220
Figura n 220

m) Agregamos un nodo select que se encuentra en la categoria record ops y después lo

conectamos con el nodo partición y luego colocamos los datos como se muestra en
la figura n 221. En donde se incluye los datos de entrenamiento que representan el
82% de todos los registros
Figura n 221
169
n) Ahora el siguiente paso es añadir los 4 modelos que se encuentran ubicados en la

categoria modeling , entre los cuales esta CRT, C5.0, CHAID, Neural Net y luego
conectarlos con el nodo select, para realizar el entrenamiento de cada uno de los
modelos haciendo uso del 82% de datos que ingresan atravez del nodo select., como
Figura n 222
o) Ahora deberá colocarse en cada modelo luego le dara clic derecho y luego
seleccionara la opción execute para que se genere los nodos diamantes como se

visualiza en la parte superior derecha, como se muestra la figura n 223, usted puede
cambiar los nombres de los diamantes que se han creado como se muestra en el
grafico para que no se confunda con los nodos anteriores
Figura n 223
170
p) Para continuar con el desarrollo del modelo lo que tiene que hacer es agregar un
nuevo nodo select que se encuentra en la categoria record ops y luego enlazarlo con
el nodo partición, para luego dar doble clic en el nodo selección y colocar los datos
como se muestra en la figura n 224. En donde solo seleccionara los datos que
pertenece a la validación del modelo, si usted desea comprobarlo solo bastara con
agregar un nodo table y enlazarlo con el nodo select que ah creado.
figura n 224.

q) Ahora coloque los nodos diamantes que se ah creado(ubicados en la parte superior

derecha), en el panel de desarrollo y luego conéctelo con el nodo select como se
figura n 225
171
r) Ahora para poder ver los resultados de la precisión de los modelos con los datos
nuevos vamos agregar un nodo analysis y luego lo conectamos a cada uno de los
diamantes creados como se muestra en la figura n 226. Ahora usted debe de dar un
clic en cada uno de los nodos analysis para ver los resultados, por ejemplo si damos
doble clic en el nodo analysis drug_c5.0 y luego en el botón ejecutar, podemos
observar que los datos han sido predichos de manera correcta al 100% como se
muestra en la figura n 227, es decir ni un registro ah sido predicho de manera
incorrecta, ahora si deseamos también podemos ver los resultados del nodo analysis
drug_chaid, para lo cual le damos doble clic y presionamos el botón execute,
podemos observar que los datos han sido predichos de manera correcta con una
precisión del 95,75% y con un error de predicción del 4,25%, pero con respecto al
modelo anterior la precisión se ah mejorado en un 2%.
Un modelo que también ah mejorado con respecto a precisión son las redes
neuronales que con datos no aleatorios la precisión es de 92,75% y con datos
aleatorios es de 96%, esto quiere decir que la precisión ah mejora en un 3,25%.

figura n 226
172
figura n 227
figura n 228

CASO N 13 : COLUMNA VERTEBRAL – PARTICION DE DATOS
En este ejemplo se va usar un conjunto de datos que contiene los valores de seis
características biomecánicas utilizadas para clasificar a los pacientes ortopédicos en 3
clases (normal, hernia de disco o spondilolysthesis) o 2 clases (normales o anormales).
Toda la información de este ejemplo se encuentra en la siguiente dirección electrónica :
http://archive.ics.uci.edu/ml/datasets/Vertebral+Column, como se muestra en la figura n
229.
173
figura n 229
Fuente: Machine Learning Repository
Los conjunto de datos biomédica de la columna vertebral ha sido integrada por el Dr.
Henrique da Mota durante un período de residencia médica en el Grupo de Investigación
Aplicada en Ortopedia (GARO) del Centro MÃ©dico-Quirúrgico de RÃ © adaptación des
Massues, Lyon, Francia. Los datos se han organizado en dos tareas de clasificación
diferentes, pero relacionados. La primera tarea consiste en clasificar a los pacientes como
pertenecientes a una de las tres categorías: Normal (100 pacientes), Disco Hernia (60
pacientes) o espondilolistesis (150 pacientes). Para la segunda tarea, las categorías de disco
Hernia y espondilolistesis se unieron en una sola categoría denominada como "anormal".
De este modo, la segunda tarea consiste en clasificar a los pacientes como pertenecientes a
uno de cada dos categorías: Normal (100 pacientes) o anormales (210 pacientes).
Información de los atributos:
Cada dato del paciente está representado en el conjunto de datos por seis atributos
biomecánicos derivados de la forma y orientación de la pelvis y la columna lumbar (en este

orden): incidencia de la pelvis, la inclinación de la pelvis, el ángulo de la lordosis lumbar,

sacra pendiente, radio pélvico y grado de espondilolistesis. La siguiente convención se
utiliza para las etiquetas de clase: DH (Disco Hernia), espondilolistesis (SL), Normal (NO)
y anormal (AB).
La información de los datos se encuentra ubicado en la siguiente dirección

libro\practica_catorce_columna_vertebral. Que ha sido descargada de la pagina de machine
learning Repository.
174
En este ejemplo vamos a determinar que tipo de problemas tiene en la columna vertebral
cada paciente en donde realizaremos la primera tarea que se ah mencionado en la parte
superior, para lo cual realizaremos los siguientes paso para llegar a la siguiente figura n
230:
Figura n 230
a) Primero debe añadir un nodo varfile que se encuentra en la categoría source y luego
buscar los datos que se encuentran en la siguiente direccion
\libro\practica_catorce_columna_vertebral\columna3c.csv como se muestra en la
figura n 231.

Figura n 231
175
b) Ahora para poder visualizar los datos vamos agregar un nodo table que se ubica en
la categoria ouput y luego lo conectamos con el nodo var file como se muestra en la
figura n 232 en donde podemos visualizar que existe 310 registros entre los cuales
se puede observar 3 clases entre los cuales están Normal, Hernia y
Spondylolisthesis
figura n 232
c) Ahora vamos a cambiar los valores al campo class para lo cual usamos el nodo
derive de la categoría field ops y lo conectamos con el nodo var.file, luego le damos
doble clic al nodo derive y colocamos los siguiente valores como se muestra en la
figura n 233, en donde se puede apreciar que cuando la clase sea normal le va
asignar el valor de NO.

Figura n 233
176
d) Ahora vamos añadir un nodo type que nos permitirá elegir cuales van a ser los
valores de entrado y el valor objetivo. Para lo cual lo vamos a seleccionar de la
categoría field ops y lo conectamos con el nodo derive class_d como se muestra la
figura n 234. En donde ademass observamos que el parámetro de salida es class_d y
no class, debido a que en un paso anterior lo habíamos cambiado haciendo uso del
nodo derive.
figura n 234.
e) Ahora para poder seleccionar los datos de entrenamiento agregamos un nodo

sample de la categoría record ops y lo conectamos al nodo type y luego le damos
doble clic al nodo sample y colocamos los valores como se muestra en la figura n
235, luego damos clic al botón apply y luego en ok.

figura n 235
177
f) Ahora vamos agregar dos modelos que se encuentran en la categoría modeling entre
los cuales vamos escoger C 5.0 y CRT. Y luego conectamos cada uno de ellos con
el nodo sample como se muestra en la figura n 236.
figura n 236.
g) Colocarse en el nodo C5.0 dar clic en el botón derecho y luego seleccionar la opción
execute, para luego poder observar que aparece un diamante en la parte superior
derecha en la pestaña models, ahora colocarse en el nodo CRT dar clic en el botón
derecho y luego seleccionar la opción execute, para luego poder observar que
aparece un diamante en la parte superior en la pestaña models, como se muestra la
figura n 237

figura n 237
178
h) Ahora vamos añadir un nuevo nodo sample y lo conectamos con el nodo

class_column y luego le damos doble clic al nodo sample y colocamos los valores
Figura n 238
i) Ahora conectamos el nodo sample con los diamantes que se han generado tanto para
el modelo C 5.0 como para el modelo CRT y luego le conectamos un nodo de
analysis a cada uno de los diamantes, como se muestra la figura n 239.

figura n 239

179
j) Ahora el siguiente paso es dar doble clic al nodo analysis que esta enlazado con el
diamante class_d del modelo C5.0 en la cual podemos visualizar los datos como se
muestra la figura n 240, en donde podemos observar que el modelo no es confiable
debiado a que hay un error del 52,86% y solo una certeza del 47,14 %.
figura n 240
k) Ahora dar doble clic al nodo analysis que esta enlazado con el diamante class_d del
modelo CRT en la cual podemos visualizar los datos como se muestra la figura n
241, en donde podemos observar que el modelo no es confiable debiado a que hay
un error del 50% y solo una certeza del 50%.

figura n 241
180
se puede observar que los resultados de los dos modelos anteriores no son confiables, usted
a que cree que se debe esos resultados.
l) Ahora vamos agregar un nodo partición que se encuentra en la categoría field ops,
para poder ver mejores resultados y luego lo conectamos con el nodo type class
column, ahora le damos doble clic al nodo partición y ingresamos los valores como
figura n 242.

m) Ahora el siguiente paso es enlazar el nodo partición con el nodo select, luego le
damos doble clic y ingresamos los valores como se muestra en la figura n 243, si
desea agregar un nodo table para que pueda ver la información la puede hacer.
Figura n 243
181
n) Una vez terminado de hacer las modificaciones respectivas el siguente paso que
deberá realizar es enlazar el nodo select con los modelos C5.0 y CRT que se
encuentran ubicados en la categoría modeling como se muestra en la figura n 244.
Ahora se coloca en el nodo C5.0 le da clic derecho y selecciona la opción execute,
para que después aparezca el nodo diamante en la parte superior derecha como se
muestra la figura n 245, hacer los mismos pasos como CRT.
figura n 244.

figura n 245.
182
o) En siguiente paso que vamos a realizar es enlazar el nodo partición con el nodo
select y luego dar doble clic en el nodo select y colocar los valores como se muestra
en la figura n 246.
Figura n 246
p) Ahora vamos a agregar los diamantes C5.0 y CRT que se han creado al panel de
desarrollo y luego lo conectamos con el nodo select como se muestra la figura n 247
y finalmente lo conectamos dos nodos analysis para poder observar la precisión de
los resultados con respecto a cada uno de los modelos, como se muestra la figura n
248.

Figura n 247

183
Figura n 248
q) Ahora vamos analizar los resultados que se han obtenido del diamante c 5.0 para lo
cual le damos doble clic al nodo analysis que esta conectado con el diamante antes
mencionado, en donde podemos ver que en la figura n 249 que los resultados que se
han obtenido son de un 81,82% de predicción de manera correcta y un 18,18% de
manera incorrecta, con lo cual se puede deducir que el uso de un nodo partición en
la selección de los datos mejora los resultados como respecto al nodo sample.
figura n 249

r) Ahora vamos analizar los resultados que se han obtenido del diamante CRT para lo
cual le damos doble clic al nodo analysis que esta conectado con el diamante antes
mencionado, en donde podemos ver que en la figura n 250, que los resultados que
se han obtenido son de un 76,62% de predicción de manera correcta y un 23,38% de
manera incorrecta, con lo cual se puede deducir que el uso de un nodo partición en
la selección de los datos mejora los resultados como respecto al nodo sample.
184
figura n 250
Caso 14 : Validacion Cruzada
Antes de realizar un ejemplo daremos una pequeña explicación de lo que es la validación

cruzada. En la validación cruzada de K iteraciones o K-fold cross-validation los datos se
dividen en K subconjuntos (folds). Uno de los subconjuntos se utiliza como datos de prueba
y el resto (K-1) como datos de entrenamiento.
En la tabla inferior se puede observar 10 iteracion(subgrupos ) en la cual en cada iteración 9

subgrupos se van usar para el entrenamiento del modelo y un subgrupo para realizar la
prueba del modelo.
El error se calcula como la media aritmética de los errores de cada iteración para obtener un
único resultado.

Para entender mejor el concepto antes mencionado, vamos a explicar en base a el siguiente
ejemplo, vamos suponer que tenemos 2000 registros y hemos realizado 10 particiones esto
quiere decir que cada partición tendrá 200 registros y en cada una de las iteraciones se van
ha usar 9 subgrupos es decir 1800 registros para el entrenamiento del modelo y un
subgrupo es decir 200 registros para la prueba del modelo.
Cross-Validation es una técnica que se ha utilizado con métodos basados en redes
neuronales (Zhang y col, 2006; Liu y col., 2008), Nearest Neighbors, Fuzzy,etc.
185
10 subgrupos
1 2 3 4 5 6 7 8 9 10
1 2 3 4 5 6 7 8 9 10
10 iteraciones
1 2 3 4 5 6 7 8 9 10
1 2 3 4 5 6 7 8 9 10
1 2 3 4 5 6 7 8 9 10
1 2 3 4 5 6 7 8 9 10
1 2 3 4 5 6 7 8 9 10
1 2 3 4 5 6 7 8 9 10
1 2 3 4 5 6 7 8 9 10
1 2 3 4 5 6 7 8 9 10
después de haber tenido un conocimiento previo de validacion cruzada, para realizar el

ejemplo de validación cruzada, vamos a usar el archivo que se encuentra en la siguiente
dirección \libro\practica_trece_integracion_datos_drug y abrimos el Stream
integracion_de_farmacos_libro y lo guardamos con el nombre
integracion_de_farmacos_libro como se muestra la figura n 251.
Figura n 251

Ahora vamos a partir en donde se hizo el enlace de los cuatro archivos, en donde usted
puede observar que luego esta enlazado con el nodo derive NA_K y luego con el nodo type
lo que haremos ahora son los siguientes pasos:
a) Seleccionamos de la categoría Modeling el nodo C5.0 y luego lo añadimos con el

nodo type y luego le damos doble clic al nodo c5.0 como se muestra en la figura n
252 en el nombre de modelo coloque CV o el nombre que crea el indicado, pero se
recomienda colocar el nombre con el cual estamos desarrollando el ejemplo, ahora 186
active la casilla cross-validate con el numero de particiones igual a 10.
Figura n 252
b) Ahora le dasmo clic en el botón execute y se generar un diamante con el mismo

nombre que se encuentra en la parte superior derecha, luego lo conectamos con el
nodo type en el panel de desarrollo como se muestra la figura n 253, le damos doble
clic y podemos irnos a la pestaña summay en donde observamos un 100% de
precisión del modelo y un erro de 0
figura n 253

c) Si queremos ahora ver cual es la variable mas importante de este modelo podemos
ir a la pestaña inferior models, como se muestra la figura n 254, en donde se puede
observa que la variable(campo) mas importante es la que se genero en un nodo
derive Na/K y luego sigue la varible BP(presión arterial).
figura n 254 187
d) Ahora si desea visualizar la precisión de otra manera agregue el nodo analysis que
se encuentra en la categoría output y conéctelo con el diamante CV como se
muestra la figura n 255, en donde se ve una precisión del 100% lo que no se obtuvo
cuando solo se creaban los modelos usando los archivos de manera individual.
figura n 255

e) Ahora hagamos la comparación de los resultados obtenidos con el modelo que tiene
el archivo drug 2n y el archivo donde se han hecho la unión de los 4 archivos,
podemos ver que los resultados de la figura n 256 la precisión obtenida es de 99,5%
con un error de 0,5% mintras que la figura n 255 la precisión que se ah obtenido es
del 100% indicándonos que si hacemos uso de una validación cruzada los resultados
van a mejorar
188
figura n 256 figura n 255
Caso 15 : Cuando tenemos pocos registros
Los resultados que se han obtenido hasta el momento han sido bastante buenos, pero es
porque se han obtenido en base a grandes candidades de datos, que pasaría si la
información que tenemos es pequeña, como se comportaría la validación cruzada en este
tipo de casos, para ello vamos a trabajar con poca cantidad de datos basándonos en el
Strean que se ubica en la siguiente dirección
\libro\practica_quince_pocos_datos\farmacos_libro_pocos_datos.str , para lo cual
seguiremos los siguientes pasos:
a) Abrir el Stream farmacos_libro_pocos_datos.str y nos vamos en la parte final del

proyecto lo que vamos ah realizar como primer paso es agregar un nodo sample de
la categoría record ops y lo unimos con el nodo type, luego lo que tenemos que
hacer es darle doble clic al nodo sample y colocar los valores como se muestra en
la figura n 257, en donde se ah activado la opción random y se ha puesto que coja el
17% de todos los datos y que la capacidad de datos no supere los 30 registros.

Figura n 257
189
Para cambiar el nombre del nodo simple vamos a la pestaña Annotations y le colocamos
el nombre de reducción de datos, si desea observar los datos que se han obtenido lo que
tiene que hace es agregarle un nodo table que se ubica en la categoría output
b) Ahora vamos a conectar al nodo sample llamado reducción de datos con un nodo
C5.0 que se encuentra en la categoría de modeling y luego damos doble clic al nodo
C5.0 y le colocamos los valores como se muestra la figura n 258. En el nombre del
modelo le ponemos RDC5.0 y activamos el casillero de cross validation y los
dejamos en por defecto en las 10 particiones y para finalizar damos clic en el botón
execute en donde se va a generar un nodo diamante con el nombre de RDC5.0
figura n 258
c) Seleccione en nodo diamante RDC5.0 que se encuentra ubicado en la parte superior

derecha y luego lo une con el nodo sample llamado reducción de datos, luego le da
doble clic al diamante para visualizar la figura n 259. En la figura si se coloca en la

pestaña summary o resumen se puede observar que la presicion es de 93,3 % con un

margen de erro 4,4.
Figura n 259
190
b) para poder ver el las reglas del modelo que se ha creado damos clic en la pestaña model
para visualizar la siguiente ventana en la figura n 260. En donde se puede ver que las reglas
que se han generado son muy pobres, también se puede observar que la variable de mayor
importancia sigue siendo el NA/K en donde representa el 80%, ahora si queremos
visualizar el árbol que se ah creado vamos a la pestaña Viewer como se muestra en la figura
261.
Figura n 260

Figura n 261
191
c) Ahora vamos a probar el modelo que se ah creado con los 2200 registros para poder
visualizar los resultados, para lo cual primero debemos de conectar el nodo sample
2 Reduccion de datos con el nodo type y luego dar doble clic al nodo sample 2
Reduccion de datos y colocar los valores como se muestra la figura n 262. En donde
se puede apreciar que se ah considerado los 2200 registros.
d) El siguiente paso ahora es conectar el nodo sample 2 Reduccion de datos con el

nodo diamante RDC5.0_2 y luego el nodo diamantes antes mencionado con un
nodo table y con un nodo analysis como se muestra la figura n 263
figura n 262.

figura n 263
192
e) Ahora le damos doble clic al nodo analysis para poder visualizar la precisión de los
datos de prueba como se muestra en la figura n 264 , en donde se puede observar
que la presicion es de un 89,55% y un error de 10,45%.
figura n 264
CONOCIENDO UN POCO MAS SOBRE EL NODO ANALYSIS
Antes de ver mas información en el nodo análisis, lo primero que vamos a realizar es:
a) ver que información nos provee el nodo diamante para lo cual vamos a conectarlo con un
nodo table y luego le damos doble clic al nodo table, para poder visualizar la información
como se muestra en la figura n 265, en donde se puede observar que existen una columna
Drug que representan los medicamentos reales de cada registro, una columna $C-Drug que
representan los valores predichos de los medicamentos por cada uno de de los registros en
relación a los valores reales y una columna $CC-Drug que representa el nivel de confianza

de cada uno de los registros. Estos 3 campos proveen información importante para el nodo
análisis.
figura n 265
193
b) ahora vamos a agregar el nodo analysis y lo conectamos al nodo diamante y luego le

damos doble clic al nodo analysis para obtener la información como se muestra en la figura
n 266, en donde se observa que la precisión del modelo ah sido del 89,55%
figura n 266
d) Ahora si queremos ver la información de los resultados por cada uno de los campos
le damos doble clic al nodo analysis, y en la parte inferior agregamos todos los
campos como se muestra en la figura n 267 y finalmente le damos clic en el botón
ok y luego en el botón execute en donde nos muestra los resultados como se observa
en la figura n 268 en donde se puede observar que en el campo de BP(presión
sanguinea)= High el error es superior(23,57%) a las demás presiones arteriales.

También se puede observar que cuando el colesterol es alto el error es de 11,13%

con relación a que cuando el colesterol es normal el error es de 9,7%.
figura n 267
194
figura n 268
e) Ahora le volvemos a dar doble clic a nodo analysis y activamos las casillas como se
muestra en la figura n 269 y luego le damos un clic en el botón execute y nos va
mostrar los resultados como se muestra en la figura n 270, en donde se puede

obsevar que la precisión del modelo ah sido de manera global de 89,55% con un
error de 10,45%, tambien se observa una matriz de confusión en donde se observa la
relación de los valores reales con los valores predichos, por ejemplo en el drug C se
ha predecido de manera correcta 199 casos y de manera incorrecta 17 casos, que en
vez de ser predecidos como drug C ha sido predecido como drug y. un caso que
llama la atención es el medicamento drug B que en todos los casos han sido
predichos de manera incorrecta en vez de ser predecidos como drug B, han sido
195
predichos 161 como drug A y 7 como drug Y, si analiza el medicamento drug Y se
puede observar que todos los valores reales han sido predichos de manera correcta.
figura n 269
Figura n 270

Ademas en la figura n 270, se puede observar que la evaluación de rendimiento es mayor

en el drug Y debido a que es el medicamento en donde se ha realizado la mayor cantidad de
aciertos, y como se puede observar de manera clara no existe el rendimiento para el
medicamento B, debido a que no hubo ningún acierto. En el cuadro también se puede
observar el informe del campo $CC-Drug que representa el nivel de confianza, en donde se
muestra la media de los valores correctos y la media de los valores incorrectos.
196
f) Si deseamos ver el resultados mostrados anteriormente, en un archivo de web le

damos doble clic al nodo analysis, en la parte inferior damos clic en la pestaña
output y colocamos los valores como se muestra en la figura n 271
figura n 271
en el filename debe colocar la ruta en donde se va ah guardar el archivo y en el file type

debe colocar la extensión html, luego presionar el botón guardar y por ultimo presionar
el botón execute, para que se genere el archivo en formato html como se muestra la
figura n 272.

figura n 272
197
CASO 16 : Reglas de Asociacion y Dependencia
para la explicación de este ejemplo nos basaremos en la ayuda del clementine en donde en
este ejemplo se refiere a datos ficticios que describe el contenido de las cestas de
supermercados (es decir, colecciones de artículos comprados juntos), además de los datos
personales asociados del comprador, que pueden ser adquiridos a través de un programa de
fidelización. El objetivo es descubrir grupos de clientes que compran productos similares y
se pueden caracterizar demográficamente, como por edad, ingresos, y así sucesivamente.
Este ejemplo ilustra dos fases de la minería de datos:
• Asociación de modelado regla y una pantalla web que revela vínculos entre artículos
comprados
• inducción de reglas C5.0 perfiles de los compradores de los grupos de productos

identificados
La información del archivo se encuentra ubicado en la siguiente dirección

libro\practica_dieciseis_reglas y asociacion\Baskets1n en donde los atributos que se
encuentran son los siguientes:
Basket summary:
• cardid. Loyalty card identifier for customer purchasing this basket.

• value. Total purchase price of basket.
• pmethod. Method of payment for basket.

Personal details of cardholder:

• sex = sexo
• homeown. Whether or not cardholder is a homeowner.
• income
• age = edad
Basket contents—flags for presence of product categories:

198
• fruitveg
• freshmeat
• dairy
• cannedveg
• cannedmeat
• frozenmeal
• beer
• wine
• softdrink
• fish
• confectionery
a) Como primer paso vamos a ver las relaciones que hay entre los productos de la
cesta que se han comprado, pára lo cual debe cargar los datos en un archivo que se
encuentra ubicado en la direccion libro\practica_dieciseis_reglas y
asociacion\Baskets1n, para lo cual vamos agregar un nodo var file que se encuentra
en la categoría source, le damos doble clic y luego colocamos los valores como se
muestra la figura n 273, si desea visualizar los datos como en los casos anteriores
agregue solo el nodo table de la categoría output.

figura n 273
199
b) El siguiente paso es agregar un nodo type de la categoría field ops y conectarlo con
el nodo var file, luego le damos doble clic al nodo type y modificamos los valores
figura n 274

c) Ahora agregamos un nodo web que se ubican en la categoría graphs y lo

conectamos en el nodo type , luego le damos doble clic al nodo web y modificamos
los valores como se muestra la figura n 275, y luego presionamos el botón execute.
figura n 275
200
d) En la figura n 276, se observa que el silder en la parte inferior se ha colocado en 90

para ver la relaciones mas fuertes que hay entre los productos, en donde se puede
observar que hay una relacion entre fish y fruitveg ,hay relación entre beer y
frozenmeal.
Figura n 276
Figura n 276

e) Ahora agregue un nodo a priori ubicado en la categoría modeling y luego lo une con
el nodo type, para luego dar doble clic en el en el nodo a priori y dar un clic en el
botón execute, en donde se generara un diamante lo cual lo debe de arrastrar al
panel de desarrollo y darle doble clic para que se pueda visualizar los resutados
como se muestra en la figura n 277, en donde se observa que cuando se compra
comida congelada y vegetales enlatados se suele comprar cerveza, esto se da en 173
201
instancias que representa el 17,3% del support y que esto sucede 84,393 de las
veces, también se observa que cuando se compra vegetales enlatados y cerveza se
suele comprar comida congelada, esto se da en 167 instancias que representa el
16,7% del support y que de esto sucede los 87,425% de las veces. También se puede
observar que cuando se compra cerveza y comida congelada se suele comprar
vegetales enlatados, esto sucede 170 veces que representa el 17% del support y que
de esto sucede los 85,882 % de las veces
Figura n 277
En la figura n 278 tenemos 2 resultados, uno que es sobre el nodo web (lado izquiero) y el
otro del nodo apriori(lado derecho) en donde se puede ver de manera clara que hay una
relación fuerte entre cerveza, carne congelada y vegetales enlatados en los resultados de
cada uno de los nodos.

Figura n 278
202
f) Ahora vamos a usar el nodo GRI, para lo cual agregamos un nuevo nodo type y lo
conectamos con el nodo var file y luego damos doble clic al nodo type y colocamos
los atributos como se muestra la figura n 279 y luego le damos clic en ok, ahora
agregamos de la categoría modeling el nodo GRI y lo conectamos con el nodo
type_GRI, le damos doble clic al nodo GRI y luego presionamos el botón execute y
se genera un nodo en la parte superior derecha que no se puede desplazar al panel de
desarrollo.
Figura n 279

Figura n 280
203
g) Para poder ver los resultados obtenidos del nodo GRI, lo que vamos hacer es dar
doble clic al nodo que se encuentra en la parte superior derecha que tiene como
nombre sex, para poder visualizar los resultados como se muestra la figura n 281,
en donde podemos observar que cuando se compra cerveza, carne fresca y carne
enlatada, esto sucede 13 veces que representa el 1,3% del support y que de esto
sucede el 100% de las veces, también se puede observar que cuando se compra
cerveza, comida congelada y vegetales enlatados, esto sucede 146 veces que
representa el 14,6% del support y de los cuales sucede el 96,58% de las veces.
Figura n 281

h) El problema de las reglas anteriores para el sexo es que sólo nos muestran las del
sexo masculino, ya que toma ese valor como positivo. Si queremos que aparezcan
reglas para los dos sexos, podemos hacerlo a la vez de la siguiente manera. Añade
un nodo type y lo conecta con el nodo var file, luego le da doble clic al nodo type y
cambia el valor del campo sex de flag a set, como se muestra la figura n 282
figura n 282
204
i) Ahora agregamos un nodo SetToFlag y lo conectamos con el nodo Type_GRI,

luego le damos doble clic al nodo SetToFlag y colocamos los valores como se
muestra la figura n 283, que nos permitirá crear dos nuevos atributos.
figura n 283
j) ahora el siguiente paso es agregar un nodo filter que se encuentra en la categoría

field ops y lo conecta con el nodo SetToFlag, luego le da doble clic al nodo filter y

eliminar el campo sex, como se muestra la figura n 284, ahora vuelva añadir un
nodo type y coloque como parámetros de salida los campos Sex_M y Sex_F como
se muestra la figura n 285, ahora agregue un nodo GRI y lo conecta con el ultimo
nodo type que se ah creado, le da doble clic al nodo GRI y lo ejecuta en donde se
mostrara los resultados como se muestra la figura n 286, en donde se puede
observar que se ah generado reglas tanto para el sexo masculino como para el sexo
femenino que son en total 61 con respecto al caso anterior que eran de 32 reglas,
205
podemos ver que las personas que compran cerveza, compran vegetales enlatados y
compran comida congelada son de sexo masculino un total de 146 casos que
representa el 14,6% del support y que de estos se cumplen 96,58% de las veces
figura n 284
figura n 285

figura n 286
206
tambien podemos observer que las personas que compran vino y compran confitería son de
sexo femenino 144 de los casos que representa el 14,4 % del support y que de estos se
cumple el 86,81% de los casos.
k) Ahora desarrollaremos un ejemplo similar al anterior tomando el campo modo de

pago como salida y dejando los demás valores en su estado normal par lo cual
añadimos un nodo type como se muestra la figura n 287 y lo conectamos al nodo
var file baskets1n.
Figura n 287

l) Nos interesa generar reglas para cada una de las formas de pago para lo cual
añadimos un nodo SetToFlag de la categoría field ops y lo conectamos con el nodo
Type_pago y luego le damos dos doble clic al nodo SetToFlag y le ingresamos los
valores como se muestra la figura n 288.
Figura n 288
207
ll) ahora añada un nodo filter de la categoría field ops y lo conecta con el nodo SetToFlag y
coloca los valores como se muestra en la figura n 289, en donde se elimina el campo
pmethod, debido a que vamos ha usar el tipo de pago por separado, ahora agregue otro
nodo de type de la categoría field ops y lo conecta con el nodo filter, luego le da doble clic
al nodo type y coloca los valores como se muestra la figura n 290
figura n 289

figura n 290
208
11) como ultimo paso agregamos un nodo GRI de la categoria modeling y lo conectamos
con el ultimo nodo type, para luego dar doble clic al nodo GRI y presionar el botón execute
para que se visulice las reglas como se muestra en la figura n 291
figura n 291
como se puede observar en la figura n 291 se han obtenido 49 reglas entre las cuales están
los que pagaron con tarjeta, al cash y con cheque. Se puede observar que los que compran

carne enlatada y vegetales enlatados hacen sus pagos al cash esto se da en 73 casos según el
support que es de 7,3% y de los cuales se cumple 53,42% de las veces.
Tambien se puede observar que los que compran confitería, pescado y carne enlatada haces
sus pagos con tarjeta esto se da en 21 casos según el support que es de 2,1% y de los cuales
se cumplen el 61,9% de las veces.
También se puede observar que las personas que compran frutas vegetales, carne enlatada y
cerveza realizan sus pagos al cash y esto se da en 19 casos según el support de 1,9 % de los
209
cuales siempre sucede con un 57,89% de las veces.
CASO 17: REGRESION LOGISTICA- TELECOMUNICACIONES CHURN
La regresión logística es una técnica estadística para clasificar los registros basados en los
valores de los campos de entrada. Es análoga a la regresión lineal pero toma un campo
objetivo categórico en lugar de uno numérico.
Este ejemplo utiliza la ruta denominada telco_churn.str, que hace referencia al archivo de
datos denominado telco.sav. Estos archivos están disponibles en el directorio Demos de la
instalación del cliente de Clementine o en la siguiente ruta
libro\practica_diecisiete_regresion_logistica
Por ejemplo, supongamos que un proveedor de telecomunicaciones está preocupado por el
número de clientes que se pasan a la competencia. Si los datos de uso del servicio se
pueden utilizar para predecir qué clientes son responsables de transferir a otro proveedor,
las ofertas se pueden personalizar para retener la mayor cantidad posible de clientes.
Este ejemplo se centra en el uso de los datos de uso para predecir la pérdida de clientes
(churn). Debido a que el objetivo tiene dos categorías distintas, se utiliza un modelo
binomial, seguiremos los siguientes pasos:
a) Añade un nodo spss de la categoría source en el panel de desarrollo, luego le da
doble clic y ubica el archivo en donde se encuentra toda la información, como se
muestra la figura n 292, ahora agregue un nodo type y lo conecta con el nodo spss,
luego le da doble clic al nodo type y coloca los valores como se muestra en la figura
n 293

Figura n 292
Figura n 293
En la figura n 293 lo que se esta realizando es cambiar el type dé cada uno de los campos, al tipo
type flag debido a que estos campos toman solo dos valores, para lo cual debe seleccionar todos los
campos y luego le da clic derecho y luego escoge la opción flag.
b) ahora el siguiente paso es colocar como parámetro de salida el campo churn y los demás campos
se dejan como parámetros de entrada, como se muestra la figura n 294
figura n 294

b) Añada un nodo feature selección de la categoría modeling y luego lo une con el

nodo type, luego le da doble clic nodo feature selección y da un clic en el botón
execute como se muestra en la figura n 295. luego aparecerá un nodo diamante en la
parte superior derecha que deberá de arrástralo al panel de desarrollo.
figura n 295.
211
c) Ahora le damos doble clic al nodo diamante y usted podrá observar la importancia que tiene
cada uno de ellos, como se muestra en la figura n 296, en donde se puede determinar que
las primeras 16 variables o campos son importantes con relación a la variable objetivo
figura n 296
ahora vamos a generar un nuevo nodo con las variables que son importantes para este caso, en la
figura n 296 en la parte superior hay una opción generate le da clic y luego escoge la opción
filter aparecerá una ventana como se muestra la figura n 297, en donde debe seleccionar los

campos que están marcados en este caso es important y luego presiona el botón ok, para
que se genere un nuevo campo filter y lo unimos con el nodo type como se muestra al
figura n 298
figura n 297
212
figura n 298
d) Vamos a hacer una pequeña auditoria de los datos para lo cual ahora vamos añadir
un nodo data audit de la categoría output y lo conectamos con el nodo filter
generado que ahora tiene el nombre de características importantes, damos doble clic
al nodo de auditoria de los datos y presionamos el botón execute para que nos

muestre una ventana como la figura n 299, que nos muestra algunos resultados por
cada campo como valores máximos, valores minimos, desviación estándar y
cantidad de valores. Ahora en la parte inferior del grafico damos un clic en la
pestaña quality y nos colocamos sobre la columna % complete y le damos doble clic
para ordenarlo de menor a mayor y en donde nos mostrara cual de los campos son
los que les falta valores, en este casos observamos que el campo logtoll solo tiene el
47,5% de sus valores de un total de mil. (si no se observa podrá visualizarlo de
213
manera clara en los ejemplos que se agregan al cd)
Figura n 299
e) ahora seleccionamos el campo logtoll en el campo input missing y seleccionamos la

opción specify en donde se mostrara la ventana como la figura n 300
Figura n 300

f) ahora debemos colocar los valores como se muestra en la figura n 301, en donde en el
impute when colocamos, que tome tanto los valores blancos y nulos y en el impute fixed
values que considere a la media. Selección de Mean asegura que los valores imputados no
afecten negativamente a la media de todos los valores de los datos globales
figura n 301
214
figura n 301
g) Ahora vamos a generar el super nodo de valores perdidos, estando en el nodo audit
seleccionamos el campo logtoll, luego en la parte superior seleccionamos la opción
generate y escogemos la opción missing values supernode como se muestra la figura n 302
y luego aparecerá una ventana en donde deberá colocar el valor de 50% como lo muestra la
figura n 303 y dar clic en el botón ok en donde se generar el supernodo que deberá de
unirlo con el nodo filter llamado características importantes, como se muestra la figura n
304
Figura n 302

Figura n 303

215
Figura n 304
h) ahora vamos agregar el nodo logistic de la categoría modeling y lo conectamos con el

supernodo, ahora escogemos la opción de partición de datos binomial y el método forwards
Figura n 305

i) ahora se coloca en la pestaña expert y luego damos clic en output y coloca los valores
como se muestra en la figura n 306 y le damos clic en el botón ok y para finalizar un clic en
el botón execute.
Figura n 306
216
j) ahora lo que vamos a realizar es unir el supernodo con el diamante que se ah generado
llamado churn como se muestra la figura n 307
figura n 307
k) si queremos analizar un poco la información que nos provee el nodo diamante churn lo
que hacemos es darle doble clic como se muestra la figura n 308, en donde se puede
observar en la pestaña summary cuales han sido escogidos los valores de entrada asi como
el campo objetivo en este caso churn, si se coloca en la pestaña advanced como se muestra
la figura n 309, se puede observar que se han incluido los 1000 casos, con respecto a los
casos perdidos no se han incluido ningún elemento

Figura n 308
217
figura n 309
En la figura n 310 se puede observar una matriz de datos en donde se ve la relación

de los valores reales con respecto a los valores predichos, en donde nos indica que
hay una precisión del 72,6% de precisión del modelo. Además también nos genera
una matriz de correlacion con cada una de las variables en cada uno de los pasos,
Figura n 310

Figura n 311
218
CASO N 18 : PREDICCION SECUENCIAL
En este ejemplo vamos a abordar un problema de predicción secuencial. En el directorio

“libro\practica_diecinueve_prediccion_secuencial\camara1n” tienes 2.422 datos de
tomas sobre una cámara refrigeradora. Los atributos son: Time, Power, Temperature,
Pressure, Uptime, Status, Outcome Que representan el tiempo, la potencia que
requiere la máquina, la temperatura, la presión, un valor interno de
funcionamiento, el estado y el tipo de tratamiento. La cámara soporta cuatro tipos de
tratamiento (0, 101, 202, 303 y 404).
Se pretende predecir la potencia según el tiempo y el resto de las variables. Para ello se
sugiere utilizar regresión.
Para desarrollar este ejemplo vamos a realizar los siguientes pasos:
a) En primer lugar, vamos a conectar el nodo fuente var file con los datos que se
encuentran en el directorio “libro\practica_diecinueve_prediccion_secuencial\camara1n”
y vemos la evolución de la potencia a lo largo del tiempo (mediante un gráfico), para lo
cual vamos a agregar un nodo var file de la categoría source y colocamos los valores
como se muestra en la figura n 312, si desea ver los datos como ya sabe agregue un nodo
table y lo conecta con el nodo var file, y luego le da doble clic al nodo table para ver los
datos como se muestra la figura n 313

figura n 312
219
figura n 313
b) ahora agregamos un nodo type y lo conectamos con el nodo var file y colocamos los
valores como se muestra la figura n 314, en donde observamos que el parámetro potencia
ah sido considerado como salida y los otros parámetros como valores de entrada.

figura n 314
c) ahora vamos agregar un nuevo nodo llamado regresión que se ubica en la categoría
modeling y luego lo unimos con el nodo type como se muestra en la figura n 315, le damos
doble clic y luego presionamos el boton execute, para que nos genere un nodo diamante
llamado power que lo conectamos con el nodo type y luego unimos el nodo diamante con
un nodo analysis como se muestra la figura n 316
figura n 315
figura n 316

d) para analizar un poco mas los resultados obtenidos damos doble clic al diamante power
en donde nos muestra los resultados de la figura n 317, en donde se puede observar que la
variable mas importante es la temperatura y luego le sigue la variable uptime
figura n 317
221
si se coloca en la pestaña summary, se visualiza una ventana como la figura n 318, en

donde se puede observar el modelo obtenido en base a seis variables restantes en la carpeta
analysis y en la carpeta fields se observan cuales han sido las variables de entrada asi como
las variables de salida.
figura n 318

e) si se posiciona ahora en la pestaña advanced, se visualiza una ventana como la figura n
319, en donde también se observa el modelo que se ah obtenido en la tabla con respecto al

objetivo power y las seis variables de entrada, que es el mismo resultado que se observa en
la figura n 318.
Figura n 319
222
f) el modelo que se ah generado anteriormente ah sido tomando en cuenta todo ipos de

tratamiento (0, 101, 202, 303 y 404) de la cámara, ahora solo considere el tipo de
tratamiento 1, para generar el nuevo modelo, para lo cual deberá agregar un nodo select
de la categoría record ops y lo conecta con el nodo var file cámara 1n, para luego darle
doble clic al nodo select, en donde debera ingresar los valores como se muestra en la
figura n 320
figura n 320

g) ahora agregue un nodo type de la categoría field ops y lo conecta con el nodo select y
luego le da doble clic al nodo type para que ingrese los valores como se muestra en la
figura n 321, en donde se puede visualizar que tanto los parámetros de entrada como se
salidad no hay sido modificados, solo que en este modelo se tomara encuenta el tratamiento
numero 101
figura n 321
223
h) ahora agregue un nodo regresión que se encuentra en la categoría modeling y lo conecta

con el nodo type, para luego dar doble clic al nodo regresión y presionar el botón execute,
en donde nos va ah generar un nodo diamante con el nombre de power 101 y luego lo
conectamos con el nodo type como se muestra la figura n 322
figura n 322
i) ahora para visualizar el modelo que se ha creado le damos doble clic al diamante power
101, en donde se puede apreciar que en este nuevo modelo la variable mas importante es el
tiempo como se muestra la figura n 323, en el caso anterior la variable mas importante era
la temperatura. Ahora nos colocamos en la pestaña summary, para visualizar la ventana

como se muestra la figura n 324, en donde se puede observar el modelo en la carpeta

analysis y en la carpeta fields los parámetros de entrada y de salida que se han usado
Figura 323
224

Figura 324
Preguntas propuestas
Ahora con la experiencia que ha adquirido, se le propone que usted realice nuevos modelos
con cada uno de los diferentes tratamientos que se les da a la cámara, aplique el modelo de
redes neuronales y haga las comparaciones con respecto con los modelos de regresión y
otros modelos

CASO 19: EXPORTACIÓN DE MODELOS Y RESULTADOS

En este pequeño caso vamos explicar cómo exportar los modelos y los resultados a diversos
formatos (texto en archivo plano, HTML, Excel, Informe, Base de datos, etc.). vamos a
usar como ejemplo el archivo que se encuentra ubicado en la siguiente direccion
libro\practica_diecinueve_exportancion_de_modelos en donde damos doble clic al
archivo integracion_de_farmacos_libro_exportacion_modelos y vamos a observar una
ventana como se muestra en la figura n 325, en donde se visualiza la exportación a los
225
diferentes archivos
figura n 325
a) En primer lugar vamos exportar la información a un archivo de Excel para lo cual

conectamos el nodo diamante drug al nodo Excel que se encuentra en la categoría export, le
damos doble clic al nodo Excel y le damos la ruta en donde se guardara el archivo que se va
ah generar como se muestra la figura n 326, en nuestro caso le podemos drug.xls y luego
presionamos el botón execute, luego nos dirigimos a la carpeta en donde se encuentra el
archivo generado llamado drg.xls

figura n 326
226
b) ahora vamos a mostrar la información en un archivo html, para lo cual conectamos el

nodo diamante drug con un nodo table, luego le damos doble clic al nodo table, y le
colocamos en file name la ruta como se muestra la figura n 327 y en el file type escogemos
el archivo html, para luego presionar el botón execute en donde se va ah generar el archivo
llamado drug_html
figura n 327
c) que pasaría si deseamos exportar la información a otros motores de base de datos

externos como Access, sqlserver, Oracle, informix, db2, paradox, etc. Vamos a desarrollar
un ejemplo sencillo con acces, para lo cual lo primero que vamos hacer es crear un archivo
en Access llamado exportar_drug.mdb y lo ubicamos en la carpeta
libro\practica_diecinueve_exportancion_de_modelos, como se muestra la figura n 328

figura n 328
227
e) El siguiente paso es crear un dns para el archivo exportar_drug, para lo cual hacemos los
siguientes pasos inicio-panel de control-herramientas administrativas-odbc y luego le
damos doble clic en donde va aparecer una venta como se muestra al figura n 329
figura n 329
ahora damos clic en el botón agregar y escogemos Driver para Microsoft Access, para
luego darle clic en el botón finalizar en donde aparecerá una ventana con la figura n 331, en
donde deberá ingresar la ruta donde se encuentra el archivo asi como el nombre del dns en

este caso se coloco el nombre de exporta_drug y para finalizar dar un clic en el botón
aceptar .
figura n 330
228
figura n 331
en la figura n 332 podemos ver que se ah generado el dns llamado exportar_drug
figura n 332

ahora agregamos un nodo sql(database) de la categoría export y lo conectamos con el nodo

diamante llamado drug , le damos doble clic al nodo database y colocamos los valores
como se muestra la figura n 333, en datasource escogemos exportar_drug y en table name
en nombre de la tabla le ponemos exportar y luego presionamos el botón execute en donde
se va ah generar los datos en la tabla exportar.
figura n 333
229

f) ahora vamos a exporta el modelo a un formato xml para lo cual le damos doble clic al
nodo diamante y nos colocamos en la parte superior en el menú file y escogemos la opción
PMML como se muestra la figura n 334 y luego le ponemos el nombre de drug que se va ah
guardar con el formato xml, ahora usted puede ir al directorio en donde se encuentra el
archivo que se ah generado le da doble clic, para que luego pueda visualizar la información
como se muestra en la figura n 335.
figura n 334

figura n 335
230
g) Ahora vamos a usar el nodo que nos va a brindar información especifica par lo cual debe
tener conocimiento de comandos CLEM para lo cual el primer paso que vamos hacer es
añadir el nodo report que se encuentra en la categoría output y lo conectamos con el nodo
diamante, luego le da doble clic al nodo diamante y ingresa el siguiente código como se
mi informe final de los datos

Medicamento_Real, presion,Valor Predicho,Nivel_de_confianza // Encabezado
#WHERE (Drug == 'drugY') and ('Drug' == '$C-Drug') // Condicion
[Drug], [BP],['$C-Drug'],['$CC-Drug'] // Campos a mostrar
#
figura n 336

CASO 20 : SERIES DE TIEMPO - PRONOSTICAR
Se requiere un analista de un proveedor nacional de banda ancha para generar predicciones

de las suscripciones de los usuarios con el fin de predecir la utilización de ancho de banda.
Las predicciones se deben para cada uno de los mercados locales que conforman la base
nacional de abonado. Que va a utilizar el modelado de series temporales para generar
predicciones para los próximos tres meses para una serie de mercados locales. Un segundo
231
ejemplo muestra cómo se puede convertir datos de origen si no es en el formato correcto
para la entrada al nodo Serie temporal
Para lo cual se van a seguir los siguientes pasos:
a) crear un nuevo stream llamado pronostico_libro y lo guarda en la ruta que le ah asignado
para el desarrollo de sus ejemplos para nuestro caso \libro\practica_veinte_pronosticar,
agreguemos un nodo spss del origen source, luego le damos doble clic y ubicamos el
archivo en donde se encuentra los datos en nuestro caso
\libro\practica_veinte_pronosticar\broadband_1.sav, como se muestra la figura n 337
figura n 337
b) añada un nodo table que se encuentra en la categoría field ops y luego lo conecta con el
nodo spss, le da doble clic y nos mostrara los resultados como se muestra en la figura n
338, en la figura se observa datos mensuales de suscripciones de 85 mercado locales, asi
como el total, el mes, el año y la fecha, para el desarrollo de este ejemplo se harán uso de 6
mercados locales.

figura n 338
232
c) debido a que vamos a trabajar con solo 6 mercado locales agregamos un nodo filter de la
categoría field ops y lo conectamos con el nodo spss llamado broadband_1.sav, luego le
damos doble clic al nodo filter y esocgemos los campo market_1, market_2, market_3,
market_4, market_5, market_6, total y date_ como se muestra la figura n 339.
Figura n 339
d) Agreguemos un nodo time plot de la categoría graphs y lo conectamos con el nodo filter,
ahora le damos doble clic al nodo time plot y colocamos los valores como se muestra en la
figura n 340, en serie agregamos el campo total, se desactiva el check display series in
separate panels y desactivar el casillero normalize. Para finalizar damos clic en el botón
execute para que nos muestre una ventana como la figura n 341

figura n 340
233
En la figura n 341, la serie muestra una tendencia ascendente muy suave sin indicios de
variaciones estacionales. Puede haber series individuales con estacionalidad, pero parece
que la estacionalidad no es una característica destacada de los datos en general.
figura n 341
e) ahora vamos a inpeccionar los datos por separado, es decir en cada uno de los mercados
locales, para lo cual agregamos otro nodo time plot y lo conectamos con el nodo filter,
ahora le da doble clic al nodo time plot y coloca los valores como se muestra en la figura n
342 y para finalizar presiona el botón execute en donde nos mostrara una ventana como la
figura n 343, en donde se puede observar una elevada alza de suscripciones en cada uno de
los mercados locales, aunque en algunos mercados las suscripciones son mas bajas.

Figura n 342
234
Figura n 343
f) ahora vamos a cambiar el tipo de dato string al tipo de dato date del campo date_, para lo
cual agregamos un nodo filler y lo enlazamos con el nodo filter, ahora le da doble clic al
nodo filler y coloca los valores como se muestra la figura n 344.

Figura 344
En el grafico se puede observar que se va ha reemplazar siempre(always)todos los valores

del campo date_ de tipo cadena al campo date_ de tipo date
g) Antes de continuar con el desarrollo de este caso, vamos a cambiar el valor de fecha por
defecto que tiene el software para lo cual vamos a la opción tool-stream properties-options,
y colocamos los valores como se muestra la figura n 345
Figura n 345
h) Ahora agregue un nodo type y lo conecta con el nodo filler, luego le da doble clic al
nodo type y coloca los valores como se muestra la figura n 346, en donde todos los campos
son asignados como salida, exepto el campo date_ que as sido asignado como none.

figura n 346
236
i) ahora vamos agregar un nodo time intervals de la categoría field ops y lo unimos con en
nodo type, luego damos doble clic al nodo time intervals y colocamos los valores como se
muestra en la figura n 347, en donde escogemos que los tiempos de intervalos se dean en
meses y que los valores sean tomados del archivo, en donde elegimos el campo date_
figura n 347
ahora colóquese en la pestaña forecast(prediccion) como se muestra en la figura n 348, en

donde se ah activado la opción extend records into the future, en donde hemos colocado el
valor de 3 debido a que queremos predecir los 3 meses siguientes

figura n 348
j) Ahora nos vamos a la categoría modeling, seleccionamos el nodo time series y luego lo
conectamos con el nodo time intervals, ahora le da doble clic a nodo time series y deja los
valores por defecto y el método expert modeler para que busque el método mas adecuado
para cada uno de las series de tiempo como se muestra la figura n 349 y luego presionamos
el botón execute.
Figura n 349
Ahora agregue el diamante que se ah generado con el nombre de 7 fields y conéctelo con el
nodo time intervales y también añada un nodo table y conéctelo con el nodo diamante,
como se muestra la figura n 350, si le da doble clic al nodo table se genera una ventana
como se muestra la figura n 351, en donde se visualiza 3 registros nuevos(61,62,63) que se
han acoplando a los datos originales que representan a los periodos enero, febrero y marzo
del 2014, además se han añadido nuevas columnas como $TI_ columns que ah sido
añadido por el nodo time intervals, columnas $TS_ columns que ah sido añadido por el
nodo time series.

Figura n 350
238
figura n 351
k) Las columnas más importantes para el funcionamiento de previsión son los $TS-
Market_n, $TSLCI-Market_n y $TSUCI-Market_n columnas. En particular, estas columnas
entre las filas 61 a 63 contienen los datos de previsión de suscripción de usuario y los
intervalos de confianza para cada uno de los mercados locales. Si queremos ver los
modelos que se ah generado para cada uno de los mercados locales le damos doble clic al
diamante 7 fields, para visualizar los damos como lo muestra la figura n 352, en donde se
puede apreciar que para los mercados locales del 1 al 4 se ah generado el modelo holts
linear trend y para los mercados locales 5 y 6 se ah generado el modelo winters additive,
tambie se puede observar en la columna predictors la cantidad de columnas que se han

usado como predictoras para cada objetivo en cada uno de los casos es igual a cero, La
columna StationaryR**2 muestra el valor R cuadrado estacionaria. Esta estadística
proporciona una estimación de la proporción de la variación total en la serie que se explica
por el modelo. Cuanto mayor sea el valor (hasta un máximo de 1,0), mejor será el ajuste del
modelo.
En el grafico también podemos determinar que valores para Mercado_2 y Mercado_4 y
Mercado_6, están a menos de 0,05, lo que indica que algunos experimentos con modelos
239
más ajustados para estos mercados podría ser necesario.
Figura n 352
l) ahora vamos analizar los datos reales con respecto a los datos predichos relacionados con
los mercados nacionales 1, para los cuales agregamos un nodo time plot y lo conectamos
con el diamante 7 fields, ahora le da doble clic al nodo time plot y coloca los valores como
se muestra la figura n 353, en donde se ah seleccionado los valores reales y valores
predichos del mercado local 1, para luego presionar el botón execute para que nos visualice
una ventana como se muestra la figura n 354 en donde se observa que las suscripciones
para el mes de enero del 2014 va ser de 11563, para el mes de febrero del 2014 va ser de
11576,estos valores antes mencionados son los pronósticos de las suscripciones para el
mercado local 1.

figura n 353
240
también podemos ver que las líneas para datos reales y previstos de toda la serie temporal
están muy juntos en el gráfico, lo que indica que este es un modelo fiable para esta serie de
tiempo particular.
Figura n 354
m) volvemos a dar doble clic al diamante 7 fields y agregamos los campos como se muestra
al figura n 355, en donde se ha agregado dos campos mas que representan el valor inferior
de confianza y valor superior de confianza del valor predicho, y luego le da doble clic al
botón execute en donde se mostrara una ventana como la figura n 356, en donde se mostrar
un grafico con 4 lineas que representan los valores reales, los valores predichos, y además
los valores de confianza minimo y máximo.

figura n 355
241
figura n 356

BIBLIOGRAFIA
[1] Romero, C. and Ventura, S. (2007) „Educational data Mining: A Survey from 1995 to
2005‟, Expert Systems with Applications (33), pp. 135-146.
[2] Ruba Alkhasawnehy Rosalyn Hobson, Modeling Student Retention in Science and
Engineering Disciplines Using Neural Networks, IEEE Global Engineering Education
Conference (EDUCON)–"Learning Environments and Ecosystems in Engineering
Education" 2011. 242
[3] Ashutosh Nandeshwar, Tim Menzies, and Adam Nelson, Learning patterns of university
student retention, Expert Systems with Applications 38 (2011) 14984–14996.
[4] Mario Jadrić, Željko Garača and Maja Ćukušić, Student Dropout Analysis with
Application of data Mining Methods, Management, Vol. 15, 2010, 1, pp. 31-46.
[5] Ioanna Lykourentzou, Ioannis Giannoukos, Vassilis Nikolopoulos, George Mpardis and
VassiliLoumos, Dropout prediction in e-learning courses through the combination of
machine learning techniques, Computers & Education.
[6] Gerben W. Dekker, MykolaPechenizkiy y Jan M. Vleeshouwers, Predicting Students
Drop Out: A Case Study, Educational Data Mining 2009.
[7] Joe J.J. Lin,P.K. Imbrie y Kenneth J. Reid, Student Retention Modelling: An Evaluation
of Different Methods and their Impact on Prediction Results, Engineering Education
Symposium 2009.
[8]WilairatYathongchai, ChusakAthongchay, KittisakKerdprasopyNittayaKerdprasop,
Factor Analysis with Data Mining Technique in Higher Educational Student Drop Out,
Latest Advances in Educational Technologies.
[9]Levin,J.,&Wycokoff,J.(1991).Predicting persistence and success in baccalaurate
engineering.Education,111(4),461-468.
[10]Schaeffers, K. G., Epperson, D. L., &Nauta, M. M. (1997). Women's Career
Development: Can Theoretically Derived Variables Predict Persistence in
Engineering Majors Journal of Counseling Psychology, V. 44, pp. 173-183.
[11] Zhang,Z. , &RiCharde,R.S.(1998).Prediction and Analysis of Freshman Retention.

Paper presented at the Annual Forum of the Association for Institutional
Research(AIR).

[12]Besterfield-Sacre, M., Shuman, L., Wolfe, H., Scalise, A., Larpkiattaworn, S.,
Muogboh, O. S., et al. (2002).Modeling for Educational Enhancement and Assessment.
Paper presented at the Annual Conference of American Society for Engineering
Education.
[13]French,B.F.,Immekus,J.C., y Oakes,W.C.(2005).An Examination of Indicators of
Engineering Students' Success and Persistence. Journal of Engineering
Education,p.419-425
243
[14]Schaeffers,K.G.,Epperson,D.L., y Nauta,M.M.(1997).Women's Career Development:
Can Theoretically Derived Variables Predict Persistence in Engineering Majors?
Journal of Counseling Psychology,V.44,pp.173-183.
[15]Pascarella,E.T., y Terenzini,P.T.(1983).Predicting Voluntary Freshman Year
Persistence/Withdrawal Behaviorina Residential University :A Path Analytic
Validation of Tinto's Model. Journal of Educational Psychology,V.75(2),p.215-226.
[16] Fuertes,J. , y Sedlacek, W.(1994). Using the SAT and Non cognitive Variables to
Predict the Grades and Retention of Asian American University Students.Measurement
and Evaluation in Counseling & Development,V.27,p.74-84.
[17]Burtner,J.(2005).The Use of Discriminant Analysis to Investigate the Influence of Non-
Cognitive Factors on Engineering School Persistence. Journal of Engineering
Education,July2005.
[18]Aitken,N.D.(1982). College Student Performance , Satisfaction and Retention:
Specification and Estimation of a Structural Model.Journal of Higher
Education,v53(n1),p32-50.
[19]Nora, A., Attinasi, L.C., y Matonak,A.(1990).Testing Qualitative Indicators of
Precollege Factors in Tinto's Attrition Model: A Community College Student
Population. Review of Higher Education,V.13(3),P.337.
[20]Cabrera, A., Nora, A., y Castaneda, M. (1993).College Persistence: Structural Equation
Modeling Test of an Integrated Model of Student Retention. Journal of Higher
Education, vol. 64, pp. 123-129.
[21]French, B. F., Immekus, J. C., y Oakes, W. (2003).A structural model of engineering
students success and persistence. Paper presented at the Frontiers in Education, 2003

[22] Kukar, M., Kononenko, I. ,Groselj, C. ,Kralj, K. , y Fettich, J. (1999). Analysing and
improving the diagnosis of ischaemic heart disease with machine learning.
ArtifIntellMed,16(1),25-50.
[23] Coit, D. W., Jackson, B. T., y Smith, A. E. (1998). Static neural network process
models: considerations and case studies. International Journal of Production Research,
36(11), 2953-2967.
[24] Imbrie, P. K., Lin, J. J., y Malyscheff, A. (2008). Artificial Intelligence Methods to
244
Forecast Engineering Students‟ Retention based on Cognitive and Non-cognitive
Factors. Paper presented at the Annual Conference of American Society for
Engineering Education, 2008.
[25] B. Gaskins,A Ten-Year Study of the Conditional Effects on Student Success in the
First Year of College, Bowling Green State University, 2009.
[26] J. Lin, et al., Student Retention Modelling : An Evaluation of Different Methods and
their Impact on Prediction Results, in Proc. of the Research in Engineering Education
Symposium Palm Cove, QLD, 2009.
[27] N. Nghe, et al., A comparative analysis of techniques for predicting academic
performance, 2007. ,37th ASEE/IEEE Frontiers in Education Conference, octubre
2010
[28] G. Mendez, et al., Factors associated with persistence in science and engineering
majors: An exploratory study using classification trees and random
forests,JOURNAL OF ENGINEERING EDUCATION-WASHINGTON-, vol. 97, p.
57, 2008.
[29]S. Ayesha, T. Mustafa, A.R. Sattar, and M.I. Khan, Data Mining Model for Higher
Education System, European Journal of Scientific Research, Vol.43, No.1, 2010,
pp.24-29.
[30]S. Sembiring, M. Zarlis, D. Hartama, R. S and E. Wani, Prediction of Student
Academic Performance by an Application of Data Mining Techniques. Proceedings of
International Conference on Management and Artificial Intelligence, 2011, pp.110-
114.
[31]X. Wu, H. Zhang y H. Zhang, Study of Comprehensive Evaluation Method of
Undergraduates Based on Data Mining, Proceedings of International Conference on

Intelligent Computing and Integrated Systems, pp 541-543.

[32]DesJardins, S.L., D.A. Ahlburg and B.P. McCall, 2002. A temporal investigation of
factors related to timely degree completion. J. Higher Education, 73:555-581.
[33] Murphy, K and F. Welch, 1993. Inequality and relative wages.Americ. Economic
review, 83: 104-109.
[34]Murtaugh, P.A., L.D. Burns and J. Schuster, 1999 Predicting the retention of university
students. HigherEducation, 4: 355-357.
245
[35] Carolina Guzmán R, Diana Duran M, Jorge Franco G, Deserción Estudiantil en la
Educación Superior Colombiana, 2009 pag(23,27), Bogotá – Colombia.
[36] The KDD Process for Extracting Useful Knowledge from Volumes of Data, Usama
Fayyad, Gregory Piatetsky - Shapiro , yPadhraic Smyth, COMMUNICATIONS OF
THE ACM Vol. 39, No. 11 27
[37] Goddard J.C et al.,” Redes Neuronales y Árboles de Decisión: Un Enfoque Híbrido”,
Memorias del Simposium Internacional de Computación organizado por el Instituto
Politécnico Nacional - November 1995,pp 1-7.
[38]Inmon, W. (2005).Building the Data Warehouse.(4th Ed).Indianapolis, Indiana: Wiley

Publishing.
[39] Hernández J., Ferrari C. y Ramírez M. (2004). Introducción a la minería de datos.
España: Pearson Educación.
[40] Jiawei Hand yMicheline Kanmber, Data Minig Concepts and Tecniques, Edit c 2006
by Elsevier.
[41] Leopoldo González Rojas, Una arquitectura para el análisis de información que integra
procesamiento analítico en línea con minería de datos, Maestría en Ciencias con
Especialidad en Ingeniería en Sistemas Computacionales. Puebla, México,
Universidad de las Américas Puebla,2005,pp 170.
[42] The KDD Process for Extracting Useful Knowledge from Volumes of Data, Usama
Fayyad, Gregory Piatetsky - Shapiro, and Padhraic Smyth, COMMUNICATIONS OF
THE ACM Vol. 39, No. 11 27
[43] RYAN S.J.D. BAKER and KALINA YACEF,The State of Educational Data Mining
in 2009: A Review and Future Visions, International Educational Data Minig Society

[44] Toon Caldersand Mykola Pechenizkiy, Introduction to The Special Section on

Educational Data Mining, SIGKDD Explorations Volume 13(2): pp 3-6 (2011).
[45]BAKER, R.S.J.D. in press. Data Mining For Education. In International Encyclopedia

of Education (3rd edition), B. MCGAW, PETERSON, P., BAKER Ed. Elsevier,
Oxford.
[46]Sumathi S. y Sivanandam S. (2006). Introduction to Data Mining and its
246
Applications.Studies in Computational Intelligence, 29, editadoporSpringer-Verlag, pp.
828, ISBN: 3-540-34350-4, Heidelberg, Alemania.
[47]Larose D. (2005). Discovering Knowledge in Data: An Introduction to Data Mining.
John Wiley & Sons, Inc., pp. 222, ISBN: 0-471-66657-2, New Jersey, EstadosUnidos.
[48] Chong Ho Yu, Samuel Di Gangi, Angel Jannasch-Pennell and Charles Kaprolet A
Data Mining Approach for Identifying Predictors of Student Retention from
Sophomore to Junior Year, Journal of Data Science (2010), 307-325.
[49] Ricardo Blanco Vega, Extracción y contextualización de reglas comprensibles a partir
de modelos de “caja negra”, Valencia, España, Universidad Politécnica de Valencia
2006, pp. 257
[50] Benjamín Moreno Montiel, “Minería Sobre Grandes Cantidades de Datos”, México
DF, Universidad Autónoma Metropolitana,2009,166.
[51] Rosenblatt, F.: The Perceptron: A Probabilistic Model for Information Storage and
Organizationin the Brain. Cornell Aeronautical Laboratory, Psychological Review.
Vol.65:386–408. 1958.
[52] McClelland, J., Rumelha9t, D.: Learning, Representations by backpropagation.
Nature.1986.
[53] Jang, J., Sun, C., Mizutani: Neuro-Fuzzy and Soft Computing. A Computational
Approach to Learning and Machine Intelligence.McGraw Hill. 1999.
[54] MIRAVAL AQUINO Elizabeth, GALLEGOS SERRUTO Felicia M,
[55] Besterfield-Sacre, M., Atman, C. J., & Shuman, L. J. (1997). Characteristics of
freshman engineering students: Models for determining student attrition in engineering.
Journal of Engineering Education, 86(2), 139-149

[56] Ryan S.J.d. Baker, Data Mining for Education, Carnegie Mellon University,
Pittsburgh, Pennsylvania, USA
[57]Chapman P., Clinton J., Kerber R., Khabaza T., Reinartz T., Shearer C. y Wirth R.
(2000). CRISP-DM 1.0 Step-by-step Data Mining Guide.
Disponible en :<http://www.crisp-dm.org/CRISPWP-0800.pdf>. Última consulta el
28.04.2011
[58] Spady, W. (1970). Dropouts from Higher Education: An Interdisciplinary Review and
247
Synthesis. Interchange, 1, 64-65
[59] Tinto, V. (1998). Colleges as Communities: Taking Research on Student Persistence
Seriously. The Review of Higher Education, 21 (2), 167-177.
[60] Tinto, V. (1982). Limits of Theory and Practice in Student Attrition.Journal of
HigherEducation, 53 (6), 687-700.
[61] Giovagnoli, P. (2002). Determinantes de la deserción y graduación universitaria: una
aplicación utilizando modelos de duración, Documento deTrabajo 37, Universidad
Nacional de la Plata
[62]Castaño, E., Gallón, S, Gómez, K. & Vásquez, J. (2004). Deserción estudiantil
universitaria: una aplicación de modelos de duración. Lecturas de Economía, 60, 41-
65.
[63]Tinto, V. (1989). Definir la deserción: una cuestión de perspectiva. Revista deEducación
SuperiorNº 71, ANUIES, México
[64]Tinto, V. (1990). Principles of EffectiveRetention. Journal of the Freshmen Year
Experience, 2 (1), 35-48.
[65] Bean, J. (1980). Dropouts and Turnover: The Synthesis and Test of a Casual Model of
Student Attrition. Research in Higher Education, 12, 155-187.
[66] Spady, W. (1970). Dropouts from Higher Education: An Interdisciplinary Review and
Synthesis. Interchange, 1, 64-65
[67] Tinto, V. (1975). Dropouts from Higher Education: A Theoretical Synthesis of the
Recent Literature. A Review of Educational Research, 45, 89-125.
[68] Cabrera, A., Nora, A. & Castañeda, M. (1993). Collage Persistence: Structural
Equations Modelling Tests of an Integrated Models Student Retention.
The Journal of Human Resources, 64, 123-139

[69] Porto, A & Di Gresia. (2001). Rendimiento de estudiantes universitarios y sus

determinantes. Asociación Argentina de Economía Política.
[70]DesJardins, S., Ahlburg, D. & McCall, B. (1999). An Event History Model of Student
Departure. Economics of Education Review, 18, 375-390.
[71] MONTOYA, Maria Dolores, 1999. .Extended Stay at University: An Application of
MultinomialLogit and Duration Models., Applied Economics, Vol. 31, No. 11, 1411-
1422.
248
[72] F. Araque, C. Roldán, A. Salguero, Factors Influencing University Drop Out Rates,
Computers & Education, vol. 53, pp. 563–574, 2009.

Adv - Mineria de Datos - Spss Clementine

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Adv - Mineria de Datos - Spss Clementine

Cargado por

Copyright:

Formatos disponibles

MINERIA DE DATOS – SPSS CLEMENTINE

La minería de datos se ha definido de diferentes maneras, a continuación se

DrSc. Ing. Alfredo Daza Vergaray

conocimientos, análisis de datos / análisis de patrones, arqueología de datos, y la

PROCESOS DE MINERÍA DE DATOS (KDD)

Las etapas para la realización de la minería de datos siempre es el mismo

El proceso de KDD es interactivo e iterativo (con muchas decisiones tomadas por el

1. El aprendizaje del dominio de aplicación: incluye el conocimiento relevante

DrSc. Ing. Alfredo Daza Vergaray

2. Creación de un conjunto de datos de destino: incluye la selección de un

DrSc. Ing. Alfredo Daza Vergaray

visualización de la posible patrones extraídos, la eliminación de patrones

Fuente :Chapman et., 2000

Por ejemplo, si la tarea general es “limpieza de datos”, en el tercer nivel se

DrSc. Ing. Alfredo Daza Vergaray

datos categóricos. Finalmente, en el cuarto nivel se determina el conjunto de

metodología CRISP –DM. Fuente :Chapman et., 2000

DrSc. Ing. Alfredo Daza Vergaray

A continuación se describe cada una de las fases de la metodología Crisp:

DrSc. Ing. Alfredo Daza Vergaray

El modelo según U. Fayyad[36], tiene dos factores importantes: la función del

DrSc. Ing. Alfredo Daza Vergaray

En la predicción [56], el objetivo es desarrollar un modelo que se puede inferir un solo

ALMACÉN DE DATOS (Datawarehouse)

Un almacén de datos se define como un conjunto de datos integrados, orientados a un

Integrados: los datos tomados de distintos sistemas de la empresa son recopilados y

Variables en el tiempo y no transitorios: los datos del DW incluyen los datos

MODELOS DE MINERIA DE DATOS

DrSc. Ing. Alfredo Daza Vergaray

METODOS DE MINERIA DE DATOS

DrSc. Ing. Alfredo Daza Vergaray

Figura N° c: Árbol de decisión para jugar una partida de Golf

Consideremos, un ejemplo clásico usado para la explicación de los árboles de decisión,

DrSc. Ing. Alfredo Daza Vergaray

Figura N° d:Árbol de decisión para determinar el tipo de plantas iris

Figura N° e: Algoritmo de aprendizaje de árboles de decisión por ―Partición‖

DrSc. Ing. Alfredo Daza Vergaray

Figura N° f: Algoritmo de árbol de decisión de la base de datos Iris

Como hemos mencionado anteriormente, las particiones son un conjunto de condiciones

DrSc. Ing. Alfredo Daza Vergaray

Debido a esto, la mayoría de los algoritmos de aprendizaje de árboles de decisión sólo

1) Particiones nominales: una condición de la forma Xi = Vj,1 ≤ j ≤ k, siendo xi

{Xi ≤ a, Xi > a}donde Xi es un atributo numérico y continuo, y a es una

constante numérica que se obtiene observando valores consecutivos del

Figura N° g:Partición cuadricular del espacio obtenido por un árbol de

Así, en problemas de clasificación, un modelo es (implícitamente o explícitamente) una

DrSc. Ing. Alfredo Daza Vergaray

donde n es el número de nodos hijos de la partición (número de condiciones de la

2.2.8.2 Redes neuronales.

DrSc. Ing. Alfredo Daza Vergaray

DrSc. Ing. Alfredo Daza Vergaray

cada una de las entradas. El resultado es el nivel de activación de la neurona, que es la

Fig. Nº i a) Modelo real de la neurona b) Modelo de perceptron simple

Tanto el perceptron simple como el perceptron multicapa (PMC) son representaciones de

DrSc. Ing. Alfredo Daza Vergaray

Figura Nº j: Modelo del Perceptron Multicapa - Retropropagación

Funcionamiento del Perceptron Multicapa –Retropropagación

DrSc. Ing. Alfredo Daza Vergaray

DrSc. Ing. Alfredo Daza Vergaray

Si escogemos la función sigmoide exponencial tendríamos el siguiente criterio:

DrSc. Ing. Alfredo Daza Vergaray

La construcción de la red neuronal se realizara atravez de una exhaustiva calidad de

APLICACION DE LA MINERIA DE DATOS 21