Documentos de Académico
Documentos de Profesional
Documentos de Cultura
MINERIA DE DATOS
Definición 1: 1
La minería de datos se define como el proceso de extraer conocimiento útil y
comprensible, previamente desconocido, desde grandes cantidades de datos
almacenados en distintos formatos. Por lo tanto la tarea fundamental de la minería de
datos es encontrar modelos inteligibles a partir de los datos (Hernández, 2004)[39].
Definición 2:
Según(Hernández, 2004)[39] en un proceso de descubrimiento de nuevas y
significativas relaciones, patrones y tendencias al examinar grandes cantidades de
datos
Definición 3:
Según(J. Hand, M. Kanmber)[40]la minería de datos se refiere a la extracción de
conocimiento o "minería" de grandes cantidades de datos. El término es en realidad
un nombre inapropiado. Recuerde que la minería de oro de las rocas o la arena, que
se conoce como la minería de oro en vez de roca o la extracción de arena. Por lo
tanto, la minería de datos debería haber sido más apropiado nombre de "minería de
datos del conocimiento", que es por desgracia un poco largo. "La minería del
Conocimiento", un término más corto, no puede reflejar el énfasis en la minería de
grandes cantidades de datos. Sin embargo, la minería es un término viva que
caracteriza el proceso que se encuentra un pequeño conjunto de pepitas preciosas de
una gran cantidad de materia prima. Así, por ejemplo, un nombre poco apropiado que
transporta tanto los "datos" y "mineros" se convirtió en una opción popular. Muchos
otros términos tienen una similar o ligeramente diferente sentido a la minería de
datos, tales como la minería de datos de conocimiento, la extracción de
Definición 4:
Según Leopoldo González[41]Minería de datos es el proceso por el cual generamos
un modelo, que sirva para la predicción, este modelo se genera con base en los datos
que se encuentran en una base de datos aplicándoles algún algoritmo que construye
2
el modelo.
En conclusión se podría decir que la minería de datos es un proceso que integra
datos de diferentes fuentes (Sqlserver, Oracle, Excel, etc.) en donde posteriormente
se realiza la explotación de los datos para extraer conocimiento importante que nos
van a permitir identificar información importante, valiosa y útil en donde las
instituciones podrán tomar decisiones importantes.
Figura N° 11: Descripción general de los pasos que constituyen el proceso KDD
METODOLOGÍACRISP
CRISP se diseñó para dar una guía a inexpertos en DM y para proveer un modelo
genérico que se puede especializar de acuerdo con las necesidades de cualquier
compañía o sector particular, lo que permitirá a los analistas tener una razonable
seguridad de que sus esfuerzos serán útiles y válidos.
CRISP-DM (Chapmanet al., 2000) [57] consta de cuatro niveles, organizados de
forma jerárquica en tareas que van desde el nivel más general hasta los casos más
específicos. En el nivel general, el proceso está organizado en seis fases: análisis del
problema, análisis de datos, preparación de datos, modelado, evaluación e
implementación. A su vez, cada fase consta de tareas generales de un segundo
nivel(Figura N° a). Estas tareas generales se proyectan a tareas específicas, donde se
describen las acciones que se deben desarrollar para cada situación específica.
Figura N° a Esquema de los cuatro niveles de abstracción de la metodología CRIP DM
La secuencia de las fases no es estricta, puesto que éstas pueden interactuar entre sí
durante el desarrollo del proyecto. De esta manera, la siguiente fase en la secuencia, a
menudo depende de los resultados asociados con la fase precedente. Las flechas indican
las dependencias significativas entre las diferentes fases, por ejemplo, si se está en la
fase de modelación, es posible volver a la fase de preparación de datos para refinar los
datos, antes de seguir con la fase de evaluación (Larose, 2005)[47].
El plan del proyecto describe los timing para alcanzar los objetivos, un estándar de facto
es que el reparto sea:
• 50-70 % fase de preparación de los datos,
• 20-30 % fase de conocimiento de los datos,
• 10-20 % en el modelado, evaluación y conocimiento del negocio, y
• 5-10 % fase de despliegue.
MODELO
7
MODELO HIBRIDO
Un modelo hibrido es la unión de dos técnicas de minería de datos a mas, en donde en
el desarrollo del presente libro utilizaremos como ejemplo sencillo la técnica de arboles
de decisión y de redes neuronales debido a que este tipo de combinaciones no se han
desarrollado con frecuencia en proyectos de minería de datos la cual lo vera en l parte
final de este libro.
Se ha realizado un trabajo basado en un enfoque hibrido donde GoddardJ.C[37]indicó
que los métodos de maquinas de aprendizaje más utilizados en tareas de clasificación
son los árboles de decisión (AD) y las redes neuronales (RN). Con respecto a las redes
neuronales la arquitectura más utilizada son los perceptrones multicapa (PMC). Sin
embargo, cada uno de ellos puede presentar distintas dificultades en las aplicaciones
del mundo real.
Por ejemplo, los AD pueden ser pocos flexibles para generalizar sobre datos de prueba
y excesivamente ramificados.
En el caso de los PMC hay que definir su estructura, número de nodos y capas y aún
definida esta, no hay garantía que converja a una solución aceptable.
Debido a las desventajas antes mencionadas propone un método para implementar un
PMC a partir de un AD y luego compara el desempeño del método implementado en
relación al (AD) y con respeto a un PMC definido por separado.
Para la realización de su experimento se utilizó la conocida base de datos IRIS3 en
donde el método PMC inicializado por mapeo supera en precisión a los métodos de
AD y PMC por separado.
PREDICCIÓN
[3] Base de datos IRIS: El conjunto de datos contiene 3 clases de 50 casos cada uno, donde cada clase se refiere a un tipo de
planta iris. Una clase es linealmente separable de la otra 2, estos últimos no son linealmente separables una de otra., Center
for Machine Learning and IntelligentSystems, disponible en :http://archive.ics.uci.edu/ml/datasets.html
.
DrSc. Ing. Alfredo Daza Vergaray
MINERIA DE DATOS – SPSS CLEMENTINE
Por otra parte, se tienen los modelos descriptivos, en los cuales no se cuenta con un
resultado conocido para poder guiar a los algoritmos, y por ello se conocen como
modelos de aprendizaje no supervisado, donde el modelo se va ajustando de acuerdo a
las observaciones o datos entregados, y se recurre muchas veces a argumentos
heurísticos para evaluar la calidad de los resultados. Algunos algoritmos que se utilizan
en estos modelos son los de clustering y las reglas de asociación [29].
El aprendizaje no supervisado, es usado en los casos en que no se tiene conocimiento
10
previo del resultado al que se va a llegar, por ejemplo al segmentar a los clientes en
grupos que no hayan sido definidos previamente. Luego que el modelo ya ha sido
entrenado, se utiliza una muestra de datos independiente de aquella utilizada para la fase
de construcción y entrenamiento del modelo, con la intención de evaluar la capacidad de
predicción de éste.
ÁRBOLES DE CLASIFICACIÓN.
El árbol de decisión desarrollado por Breiman et al. (1984)[48], trata de encontrar que
variable independiente(s) puede hacer sucesivamente una decisión de los datos
dividiendo el grupo de datos original en pares de subgrupos en la variable dependiente.
Es importante tener en cuenta que a diferencia de regresión que devuelve un subconjunto
de las variables, los árboles de clasificación puede clasificar los factores que afectan a la
tasa de retención.
Según Ricardo Blanco(2006)[49] Un árbol de decisión es un conjunto de condiciones
organizadas en una estructura jerárquica, de tal manera que la decisión final a tomar se
puede determinar siguiendo las condiciones que se cumplen desde la raíz del árbol hasta
alguna de sus hojas. Los árboles de decisión se utilizan desde hace siglos, y son
especialmente apropiados para expresar procedimientos médicos, legales, comerciales,
estratégicos, matemáticos, lógicos, etc.
Una de las grandes ventajas de los árboles de decisión es que, en su forma más general,
las opciones posibles a partir de una determinada condición son separadas. Esto permite
analizar una situación y, siguiendo el árbol de decisión apropiadamente, llegar a una sola
acción o decisión a tomar.
En la figura N° c se muestra un árbol de decisión que permite decidir si se juega o no
una partida de golf, de acuerdo a las condiciones climáticas.
El nodo raíz es el clima y tiene tres ramas: soleado, nublado y lluvioso, si el valor de la
11
prueba del nodo raíz clima es soleado, entonces desciende al nodo interno Humedad,
este nodo tiene dos ramas: <=75 y >75, si el valor de la prueba del nodo interno
Humedad es <=75, entonces desciende al nodo hoja que especifica el valor juega, en
caso contrario, desciende al nodo hoja que especifica el valor no juega.
Si el valor de la prueba clima es nublado, entonces desciende al nodo hoja que especifica
el valor juega. Si el valor de prueba del nodo clima es lluvioso, entonces desciende al
nodo interno viento, este nodo tiene dos ramas: falso y verdadero, si el valor de la
prueba del nodo interno Viento es falso, entonces desciende al nodo hoja que especifica
el valor juega, en caso contrario, desciende al nodo hoja que especifica el valor no juega
12
Este árbol de decisión en concreto funciona como un “clasificador”, es decir, dada una
nueva planta nos la clasifica en una de las clases posibles, para lo cual basta con recorrer el
árbol desde la raíz hasta alguna de sus hojas, en función del valor de los atributos del dato a
clasificar.
Los algoritmos de aprendizaje de árboles de decisión más habituales se llaman algoritmos
de partición o algoritmos de “divide y vencerás”. Básicamente, el algoritmo va
construyendo el árbol (desde el árbol que sólo contiene la raíz) añadiendo particiones y los
hijos resultantes de cada partición. Lógicamente, en cada partición, los ejemplos se van
dividiendo entre los hijos. Finalmente, se llega a la situación en la que todos los ejemplos
que caen en los nodos inferiores son de la misma clase y esa rama ya no sigue creciendo.
En la Fig. N° e se puede observar un algoritmo básico para generar un árbol de decisión a
partir de un conjunto de ejemplos, utilizando la técnica de “partición”.
Como puede verse, una característica importante de estos algoritmos es que una vez
elegida la partición ya no se puede cambiar, aunque más tarde se pudiera comprobar que
ha sido una mala elección. Por tanto, uno de los aspectos más importantes a considerar
en estos sistemas es el denominado criterio de partición, ya que una mala elección de la
partición (especialmente en las partes superiores del árbol) generará un árbol peor.
Por lo tanto, las particiones a considerar y el criterio de selección de particiones son lo
que diferencian fundamentalmente a los distintos algoritmos de “partición” existentes
13
hasta la fecha, como CART, ID3, C4.5,etc.
Tal y como hemos mencionado, otra característica interesante es que los árboles de
decisión se pueden expresar como conjuntos de reglas de la forma SI conjunción de
condiciones ENTONCES acción. Estas reglas se obtienen al recorrer cada uno de los
caminos que llevan desde el nodo raíz hasta un nodo hoja, donde las particiones son las
condiciones de las reglas.
Por ejemplo, el árbol de la Figura Nº f se puede expresar como el conjunto de reglas
siguientes:
Basándose en la idea de buscar particiones que discriminen o que consigan nodos más
puros (donde un nodo puro es aquel en el que los ejemplos que caen en él son todos de la
misma clase), se han presentado en las últimas dos décadas numerosos criterios de
partición, tales como el criterio del error esperado, el criterio Gini, los criterios Gain,
Gain Ratio y el criterio usado en el algoritmo C4.5 y el DKM. Estos criterios de
partición buscan la partición s con la menor impureza I(s), definida de la siguiente
forma:
15
son complejos, y por lo tanto requiere el aprendizaje de sistemas complejos. Una red
neuronal entrenada puede ser visto como un "experto" en la categoría de información
que ha sido dada a analizar. Este sistema experto puede proporcionar proyecciones dado
nuevas soluciones a un problema y la respuesta "qué pasa si". La red neuronal típica se
compone de tres tipos de capas, a saber, la capa de entrada, capa oculta y la capa de
salida. Es importante observar que hay tres tipos de capas, no tres capas, en la red. Puede
haber más de un capa oculta y depende la complejidad del investigador de realizar el
16
modelo.
La capa de entrada contiene los datos de entrada; la capa de salida es el resultado
mientras que el capa oculta realiza la transformación y manipulación de datos.
Debido a que la entrada y la salida están mediadas por la capa oculta, las redes
neuronales son comúnmente visto como una "caja negra".
Benjamín Moreno (2009) [50] indica que el Perceptron Multicapa (Multilayer
Perceptron) es uno de los modelos de Redes Neuronales más utilizados, el cual es una
generalización del modelo propuesto por Rosenblatt en 1958[51]. Este modelo establecía
un perceptron simple (una sola neurona) para separar por medio de un hiperplano a un
conjunto de entrenamiento linealmente separable.
En el caso de los seres humanos dentro del cerebro existe un número equivalente de 1010
de neuronas y con un aproximado de 104 interconexiones entre cada una de ellas. A
nivel del funcionamiento de cada neurona, este es muy lento comparado con un
procesador (las neuronas realizan 10 operaciones por segundo mientras que los
procesadores realizan millones de operaciones por segundo).
Las partes que conforman a una neurona son tres: las entradas llamadas dendritas, el
cuerpo mismo de la neurona y las salidas llamadas axones. En la parte final de cada axón
se encuentra un elemento que permite la comunicación con mas dendritas de otra
neurona, llamado sinapsis. Las neuronas aceptan miles de señales de entradas con una
fuerza determinada, dependiendo de estas la neurona emite una señal de respuesta, por lo
que las sinapsis pueden entonces trasmitir una señal débil o fuerte dependiendo de la
fuerza que haya salido del procesamiento de la neurona. Desde un enfoque matemático
el funcionamiento de una neurona puede representarse por una lista de sus señales de
entrada que son multiplicadas por sus pesos correspondientes y después son sumadas
a
b
Una vez que están conectadas todas las salidas de la capa de entrada a las entradas de las
neuronas de la capa oculta se repite el mismo procedimiento en caso de que se presenten
más capas ocultas, si no es el caso las salidas de cada neurona en la capa oculta es
conectada a la capa de salida, de la misma forma que se describió, teniendo finalmente las
salidas finales del PMC. En la Figura Nº j se muestra el esquema básico del PMC:
18
En las décadas de los 60‟s y 70‟s no hubo métodos de entrenamiento apropiados para los
PMC, se vio detenido el interés por estas tipologías. Fue hasta mediados de los 80‟s cuando
Rumelhart[52] propuso un método de entrenamiento para los PMC llamado
retropropagación (backpropagation).
1. Los datos de entrenamiento se pasan hacia delante, las salidas son calculadas calculando
el error en cada caso.
2. Se realiza entonces el paso hacia atrás en donde el error calculado en la capa de salida, se
utiliza para cambiar el peso da cada capa ocultas de la red neuronal, hasta llegar a la
capa de salida, calculando recursivamente los gradientes locales para cada neurona.
Al final de estas dos etapas se tiene un PMC entrenado.
A continuación se muestra el algoritmo básico de construcción de un PMC:
1. Determinar la Arquitectura.
Cuantas unidades de entrada y salida. 19
Cuantas capas ocultas y unidades en cada capa oculta.
2. Inicializar todos los pesos y sesgos a valores aleatorios pequeños por ejemplo E[-1,1] y
el valor de n .
3. Repetir hasta que el criterio de terminación sea satisfecho
- Presentar un ejemplo de entrenamiento y pasarlo por la red (forward pass)
- Calcular la salida actual y el error en cada salida
- Adaptar los pesos empezando por la capa de salida y trabajar hacia atrás
(backwardpass).
En donde se tiene:
En donde para cada unidad oculta j, y la suma sobre todos los nodos i en la capa anterior j,
Oi son las salidas obtenidas y ᵟi son las salidas deseadas.
Es necesario proponer una función f sigmoide (la función de activación en el caso del
perceptron simple), que sea diferenciable. La función sigmoide es una de las funciones de
transferencia más utilizadas. Produce salidas continuas y proporcionales al nivel de
activación de la neurona dentro del rango [0,1]; sus niveles de saturación son 0 y 1, por lo
que su salida máxima será 1 y la mínima 0. Cuando el nivel de activación supere al umbral
de saturación máximo la salida seguirá siendo 1 y cuando el nivel de activación sea inferior
al umbral de saturación mínimo la salida seguirá siendo 0. Es común tomar la función
sigmoide exponencial denotada por:
20
Usualmente se utilizan criterios de paro para este tipo de métodos, los cuales son:
1. Número de épocas, se le llama época al proceso de entrenar 1 vez el perceptron
multicapa sobre todos los ejemplos.
2. Error Mínimo Cuadrado, esto se realiza al llevar acabo el entrenamiento, en donde se
tiene un registro de los errores que se van presentando en cada una de las épocas y se
decide parar cuando se encuentre un error mínimo.
En cuestión de las funciones de activación tenemos las siguientes opciones:
1. Diferenciables (el método propuesto de retropropagación)
2. No lineales
3. Monotónica (una función que siempre crece o decrece)
4. Lineal para valores pequeños.
5. Asimétricas.
Tabla Nº 1
INVESTIGACIÓN ESPACIAL
Proyecto SKYCAT
Durante seis años, el Second Palomar Observatory Sky Survey (POSS-II) coleccionó
tres terabytes de imágenes que contenían aproximadamente dos millones de objetos en
el cielo. Tres mil fotografías fueron digitalizadas a una resolución de 16 bits por píxel
con 23040 x 23040 píxeles por imagen. El objetivo era formar un catálogo de todos
esos objetos. El sistema Sky Image Cataloguing and Analysis Tool (SKYCAT) se basa
en técnicas de agrupación (clustering) y árboles de decisión para poder clasificar los
objetos en estrellas, planetas, sistemas, galaxias, etc. con una alta confiabilidad. Los
resultados han ayudado a los astrónomos a descubrir dieciséis nuevos quásares (señales
radiales lejanas) con corrimiento hacia el rojo que los incluye entre los objetos más
lejanos del universo y, por consiguiente, más antiguos. Los quásares son fuentes de
Rayos X, radiación ultravioleta, luz visible y también infrarroja; en otras palabras, la
emisión de radiación de los quásares resulta intensa en todo el espectro
MEDICINA
Una aplicación muy popular del text mining es relatada en Hearst (1999). Don
Swanson intenta extraer información derivada de colecciones de texto. Teniendo en
cuenta que los expertos sólo pueden leer una pequeña parte de todo lo que se publica
23
en su campo, y por lo general tampoco pueden tener en cuenta los nuevos desarrollos
que se suceden en otros campos relacionados, y teniendo en cuenta que la cantidad de
nuevos documentos que se publican es cada vez mayor, la aplicación de la minería de
datos en colecciones de texto va resultando más importante. Así, Swanson ha
demostrado cómo cadenas de implicaciones causales dentro de la literatura médica
pueden conducir a hipótesis para enfermedades poco frecuentes, algunas de las cuales
han recibido pruebas de soporte experimental. Investigando las causas de la migraña,
dicho investigador extrajo varias piezas de evidencia a partir de títulos de artículos
presentes en la literatura biomédica. Algunas de esas claves fueron:
Estas claves sugieren que la deficiencia de magnesio podría representar un papel en algunos
tipos de migraña, una hipótesis que no existía en la literatura y que Swanson encontró
mediante esas ligas. De acuerdo con Swanson , estudios posteriores han probado
experimentalmente esta hipótesis obtenida por text mining con buenos resultados.
para continuar con el entendimiento de la minería de datos nos enfocaremos en una sola
área en este caso en la minería de datos en la educación : las Universidades
Ashutosh Nandeshwar (2011) [3]. Realizo un trabajo para predecir si los estudiantes
se mantendrá durante los tres primeros años de una licenciatura en la Universidad,
después de haber realizado el estudio, el autor considero para la realización de su
estudio 103 variables, en donde podemos observar algunas de las variables en la
Tabla N° 2, de los cuales indica que los factores que resultaron ser de carácter 25
importante son: el sueldo familiar, la situación socio económica de la familia, alto
promedio escolar y el rendimiento académico de las pruebas en la educación superior.
Para el estudio analizo 6 técnicas que son:one-R, C4.5, ADtrees, Reyes bayesinas ,bayes
Networks y radial biasnetworks de los cuales uso para su experimento: arboles de decisión 26
Figura N° l y reyes bayesianas obteniendo una precisión del 90%
Figura N° l Árboles de Decisión
En el presente trabajo se muestra un resumen (Tabla N° 3)de la literatura que reviso el autor, en
la cual se detalla la técnica y la precisión que se obtuvieron en cada uno de los estudios
revisados.
Autor(año) Notas Tamaño del Retenidas Retenidas Medidas de Coef Técnicas utilizadas
grupo (#) (%) Precisión fesu
sed?
Spady (1971) 683 615 90.04 R2 de 0.3132 Si Regresión múltiple
para hombres and
0.3879 para
mujeres
Bean (1980) 906 769 84.88 R2 de 0.22 para si Regresión múltiple
mujeres y 0.09
para hombres
para mujeres
Stage (1989) 323 294 91.00 si Regresión logística
Dey and Astin 947 152 16.00 Multiple R 0.354, si Logit, probit, yregresión
(1993) 0.351, and 0.323
Murtaugh et 8667 5200| 60 Probabilidad si Regresión de análisis de
al. (1999) estimada de supervivencia/peligro
retención 59.3%
Bresciani and 3535 3121 88.30 R2 of 0.022 Si RegresiónLogística
Carson
(2002)
Glynn et al. Cualquier 3244 1592 49.08 Precisión total de si RegresiónLogística
(2003) deserción, no 83%
sólo de
primer año;
precisiones
sobre la base
27
de los datos
de
entrenamiento
identificar los factores que afectan la retención de los estudiantes, en donde el autor critica
que los métodos estadísticos muestran menor precisión que los métodos de minería de datos
por lo cual desarrolla dos modelos de redes neuronalesfig. N° m que utilizan una red de
propagación de alimentación hacia adelante para predecir la retención de estudiantes en los
campos de la ciencia y la ingeniería utilizando como variable principal el rendimiento
académico (GPA).
28
Realiza el experimento con cada uno de las técnicas antes mencionadas usando 286
estudiantes, después de haber realizado el entrenamiento se puede observar que 98
estudiantes desertan mientras que 188 estudiantes continúan sus estudios después del
segundo año como se muestra en la Figura N° n.
Después de realizar las comparaciones de los métodos experimentados sedeterminó que las
redes neuronales se comportan muy bien en problemas de clasificación más complejos
según la Fig N° o. Su desventaja, en comparación con los métodos más sencillos, es el
modelo de aprendizaje debido a que el proceso es relativamente lenta y exigente
(optimización de los factores de peso) .
31
Para la realización del experimento utilizo las variables que no son cambiantes en el
tiempo (demográficas) y las variables que son cambiantes en el tiempo (sesiones de
aprendizaje) mostradas en la tabla N° 6.
Dekker (2009) [6] realizo un trabajo de minería de datos aplicado a la educación en los
alumnos de Ingeniería Eléctrica de la Universidad Tecnológica de Eindhoven (en donde la
deserción es de 40%) después del primer semestre de sus estudios o incluso antes de entrar 32
en el programa de estudio, el objetivo del trabajo es determinar que datos (variables) son
los predictores de la deserción para poder determinar cuando la predicción es mejor,
las variables utilizadas en el desarrollo de trabajo de investigación, la cual esta basadas en
datos pre-universitarioscomo se muestra en la tabla N° 7.
El experimento lo realizo con 1508 estudiantes entre los cuales 289 eran mujeres y 1219
hombres, los resultados del experimento de los cinco modelos propuestos muestran que el
método de red neuronal produce los mejores resultados de predicción con respecto a los otros
tres métodos de manera consistente dando una precisión de 71.9% en el modelo C usando
variables cognitivas y no cognitivas.
los estudiantes durante los períodos de estudio en la universidad, y todos los factores que
incluyen el valor del objetivo que se predicen para el análisis de factores.
El estudio lo realizo en la UniversidadBuriramRajabhat, con 731 estudiantes de los cuales 251
estudiantes desertaron,la información fue obtenida de diferentes tablas de la base de datos
académica MIS y las variables que se consideraron para el estudio se muestra en la tabla N° 9
tabla N° 9:Variables relacionadas con los estudiantes.
Otras técnicas y métodos que se han usado relacionado con investigacion de desercion son
relacionados a :
a) La regresión logística (RL) ha sido ampliamente utilizado en los estudios
educativos para predecir la retención del estudiante o la graduación de estado.Levin
y Wyckoff (1991)[9], Casa (1993), Schaeffers et al. (1997) [10], Beserfield-Sacre et
al. (1997)[55], Zhang y Richarde (1998)[11] han utilizado modelos de regresión
logística para estudiar la persistencia de los estudiantes en los colegios.
35
Recientemente, [12]Besterfield-Sacré et al. (2002) desarrollaron un modelo de
regresión logística para predecir estudiante de primer año de ingeniería, en donde la
precisión de clasificación obtenida es de 68,8%.Francés et al. (2005)[13]
estudiaron el estado de la inscripción en la ingeniería después de 6 u 8 semestres,
usando el modelo de regresión logística y reportó una tasa de 65% de clasificación
correcta.Entre estos estudios sobre la retención de los estudiantes que usan modelos
de RL, sólo Schaeffers et al. (1997) [14]reportaron una tasa de clasificación correcta
en la retención es superior de 70%. Sin embargo, su modelo requiere el uso de GPA
acumulativo (rendimiento) de la universidad como el factor más importante para
predecir la persistencia de 3-5 años, y por lo tanto es menos adecuado para aplicar
los principios de dinámica de asesoramiento para estudiantes de primer año.
la última parte del segundo semestre (abril), que también hace su enfoque menos
adecuado para la intervención temprana con los estudiantes de primer año.
c) Modelos de ecuaciones estructurales (SEM): Aitken (1982) [18] desarrolló un
modelo de ecuaciones estructurales de satisfacción y rendimiento de estudiantes, e
informó que el 19,4% de la varianza en la retención de los estudiantes puede ser
explicado por su modelo. Nora et al. (1990) [19]estudiaron la relación entre la
retención y los factores de pre-universitarios e informó de los factores en su modelo
36
SEM representó el 15,3% de la varianza en la retención. Cabrera et al. (1993) [20]
También utilizan el SEM para modelar la retención de estudiantes universitarios
después del primer. Se informó de un 45% de la varianza observada en la retención
puede ser explicado por su modelo, con los factores más importantes como
promedios de la universidad después del primer año. Frenchet al. (2003)
[21]estudiaron la relación entre la matrícula en ingeniería, con rango de factores,
incluyendo la escuela secundaria, SAT, el GPA de la Universidad, la motivación, y
los profesores / integración de los estudiantes. Encontraron que su modelo SEM
representó el11% de la variación observada en la matrícula de ingeniería
d) Redes Neuronales (NN) es un enfoque de modelado bien desarrollado entre las
diferentes herramientas dentro de la comunidad de la inteligencia
artificial(IA).Durante las últimas décadas ha sido ampliamente utilizado en
aplicaciones que involucran técnicas de predicción y clasificación, especialmente en
las áreas de ingeniería, negocios y medicina.(Kukar, Kononenko, Groselj, Kralj, y
Fettich, 1999; Smith y Gupta, 2002; Tsoukalas y Uhrig, 1997) [22].El modelo de
red neuronal es especialmente atractiva para el modelado de sistemas complejos,
debido a sus propiedades favorables: la capacidad universal de la función de
aproximación, alojamiento de múltiples variables no lineales variables con
interacciones desconocidas, y la capacidad de generalización (Coit, Jackson y
Smith, 1998)[23].Más información sobre la aplicación de modelos NN para predecir
la retención de estudiantes en ingeniería se pueden encontrar en Imbrie et al.
(2008)[24].
SajadinSembiring et al. [30] aplicaron el método del kernel como la técnica de minería de
datos para analizar las relaciones entre el comportamiento de los estudiantes y su éxito,
luego se desarrolló el modelo de predictores de rendimiento de los estudiantes que pueden
ayudar a predecir el éxito de los estudiantes mediante el empleo de factores psicométricos
como predictores variables.
WuXie e t al. [31] utiliza la técnica de minería de datos, con los datos de los estudiantes que
han sido almacenados en el almacén de base de datos. Se utiliza el método basado en los
38
algoritmos de árbol de decisión y los resultados del caso revela que el algoritmo de árbol de
decisión de minería de datos, se puede distinguir entre los méritos del nivel de los
estudiantes universitarios y realizar la evaluación de la clasificación general, y permite
resolver el problema de que los métodos tradicionales no son aptos para la evaluación de
los alumnos.
SPSSCLEMENTINE
SPSS Clementine[75] es una herramienta integrada de minería de datos que incluye
diversas fuente de datos(ASCII, XLS, ODBC, etc.), un interfaz visual basado en
procesos de datos, distintas herramientas de minería de datos(correlación, reglas de
asociación, regresión, segmentación, clasificación, redes neuronales, reglas y arboles
de decisión, etc.), manipulación de datos, combinación de modelos, visualización de
datos, exportación de modelos a distintos lenguajes(C, SPSS,SAS), exportación de
datos integrada a otros programas(XLS) y generación de informes.
Como una aplicación de minería de datos, Clementine ofrece un enfoque estratégico para
encontrar relaciones útiles en grandes conjuntos de datos. En relacion con los métodos
estadísticos más tradicionales, en minería de datos no necesariamente tiene que saber lo que
busca cuando se inicia. Usted puede explorar sus datos, encajando diferentes modelos y la
investigación de diferentes relaciones, hasta que encuentre información útil.
39
En minería de datos y con spss clementine podemos resolver problemas relacionados con
el:
1) Sector Publico: Los gobiernos de todo el mundo usan minera de datos para explorar los
almacenes de datos masivas, mejorar las relaciones con los ciudadanos, detectar los casos
de fraude, como el lavado de dinero y la evasión fiscal, detectar patrones delictivos y
terroristas, y mejorar el dominio creciente del gobierno electrónico. En el grafico inferior se
puede observar en el el rectángulo la detección de fraude, en la figura n q
40
41
En el grafico n: u inferior se muestra la interfaces principal del software spss clementine 12.
42
Ahora vamos a describir cada uno de las partes de esta maravillosa herramienta entre los
cuales se encuentra :
44
45
La pestaña CRISP-DM ofrece una forma de organizar los proyectos de acuerdo con el
proceso estándar Cross Industria de minería de datos, una metodología no patentado
probado en la industria. Tanto para los mineros de datos con experiencia y por primera vez,
con la función CRISP-DM le ayudará a organizar y comunicar sus esfuerzos de la mejor
manera como se muestra en la figura aa.
figura aa
46
Las categorías en la versión 12.0 del spss clementine se dividen en 7 categorias las cuales
los describiremos de la siguiente manera:
a) Sources (origenes): en esta categoría se encuentran todos los nodos que nos
permitirán conectarnos a los datos como por ejemplo archivo de txt, archivos de
Excel, archivos de access, etc. Como se muestra en la figura bb
Figura bb : sources
b) Record Ops : en esta categoría se encuentran todos los nodos que nos permitirán
seleccionar y manipular los datos de los registros en las fuentes conectadas.como
semuestra la figura cc
c) Field Ops: en esta categoría se encuentran todos los nodos que nos permitirán
manipular las columnas(campos). Como se muestra al figura n dd
figura n :Graps
d) Modeling : en esta categoría podemos observar todos los modelos que puede
generar spss clementine. Como se muestra la figura ff
figura n: Modeling
e) Output : en esta categoría podemos observar todos los nodos que nos van ayudar a
obtener los resultados de los modelos construidos, asi como hacer los análisis de los
datos y algunas auditorias a los datos. Como se muestra en la figura n gg
figura n: output
f) Export: en esta categoría estos nodos nos van a permitir poder exportas los datos
obtenidos a otras fuentes de datos. Como se muestra la figura hh
figura n :export
CATEGORIA SOURCE
Nodo Descripcion
Permiten leer datos de ficheros de texto que tengan un tamaño de
caracteres variable por registro pero un número fijo de campos.
El nodo de base de datos se puede utilizar para importar datos de una variedad de
otros paquetes mediante ODBC (Open Database Connectivity), incluyendo Microsoft
SQL Server, DB2, Oracle y otros.
El nodo SPSS importación lee los datos del formato de archivo .sav utilizado por SPSS,
así como archivos de caché guardados en Clementine, que también utilizan el mismo
formato.
El nodo SAS importación importa datos SAS en Clementine
El nodo Excel Import Importa datos desde cualquier versión de Microsoft Excel. No es
necesaria una fuente de datos ODBC.
El nodo User Import proporciona una manera fácil de crear datos, ya sea sintética
desde cero o mediante la alteración de los datos existentes. Esto es útil, por ejemplo,
cuando se desea crear un conjunto de datos de prueba para el modelado
El nodo Enterprise View crea una conexión con un Predictive Enterprise Repository,
que le permite leer datos de Enterprise View en una stream y empaquetar un modelo
en un escenario que se puede acceder desde el repositorio por otros usuarios.
Nodo Descripcion
El nodo Seleccionar selecciona o descarta un subconjunto de registros del flujo de
datos basado en una condición específica. Por ejemplo, es posible seleccionar los
registros que pertenecen a una región de ventas en particular
NODO DESCRIPCION
El nodo Tipo especifica los campos de metadatos y propiedades. Por ejemplo, puede
especificar un tipo de uso (rango, conjunto, conjunto ordenado, o bandera) para cada
campo, defina las opciones para el manejo de los valores perdidos y nulos del
sistema, establecer el papel de un campo para fines de modelado, el campo y las
etiquetas de valor especifica, y especificar los valores de un campo
El nodo filtro Filtra (descarta) campos, cambia el nombre de los campos, y mapea
los campos de un nodo de origen a otro
El nodo Conjunto combina dos o más modelo para obtener pronósticos más precisos
que se pueden obtener de cualquier modelo
El nodo Derivar modifica los valores de datos o para crear campos nuevos desde uno
o más campos existentes. Se crea campos de tipo fórmula, marca, conjunto, stat,
cuenta, y condicional
El nodo Rellenar sustituye los valores de campo y almacenamiento cambios. Usted
puede optar por sustituir los valores basados en una condición CLEM, comoBLANK
(FIELD). Alternativamente, usted puede optar por sustituir todos los espacios en
blanco o valores nulos con un valor específico. Un nodo Rellenar se utiliza a
menudo junto con un nodo Tipo para sustituir valores perdidos
El nodo Partición genera un campo de partición, que divide los datos en subgrupos
separados para la formación, pruebas, y las etapas de validación de la construcción
de modelos
CATEGORIA OUTPUT
50
Tabla 14: nodo de la categoría output
NODOS DESCRIPCION
El nodo Tabla muestra los datos en formato de tabla, que también se pueden
escribir en un archivo. Esto es útil en cualquier momento que usted necesita para
inspeccionar sus valores de datos o exportarlos en un formato de fácil lectura
El nodo de tabla personalizada compatible con una amplia gama de opciones,
incluyendo la posibilidad de anidar, pila, o variables de capas en múltiples
dimensiones, para mostrar resúmenes para múltiples estadísticas, y para visualizar
conjuntos de respuestas múltiples
El nodo Matriz crea una tabla que muestra las relaciones entre los campos. Se
utiliza normalmente para mostrar la relación entre dos campos simbólicos, pero
también puede mostrar las relaciones entre campos de marcas o campos
numéricos
El nodo Análisis evalúa la capacidad de los modelos predictivos para generar
predicciones exactas. Los nodos Análisis realizan varias comparaciones entre los
valores pronosticados y los valores reales para una o modelo. También pueden
comparar modelos predictivos entre sí
El nodo Auditar datos ofrece una primera visión global de los datos, incluidas las
estadísticas de resumen, histogramas y distribución para cada campo, así como la
información sobre los valores atípicos, valores perdidos y extremos. Los resultados
se muestran en una matriz de lectura fácil que se puede ordenar y utilizar para
generar gráficos de tamaño completo y nodos de preparación de datos
El nodo de Estadística proporciona información resumida básica sobre los campos
numéricos. Se calcula estadísticos de resumen para campos individuales y
correlaciones entre campos
El nodo de salida de SPSS le permite llamar a un procedimiento de SPSS para
analizar los datos de Clementine. Una amplia variedad de procedimientos analíticos
SPSS está disponible. Este nodo requiere una copia con licencia de SPSS
CATEGORIA GRAPHS
NODO DESCRIPCION
Gráficos muestran valores de un campo Y contra los valores de un campo X. A
menudo, estos campos corresponden a una variable dependiente y una variable
independiente, respectivamente
CATEGORIA MODELING
NODO DESCRIPCION
El nodo(C&R) genera un árbol de decisión que le permite predecir o clasificar las
observaciones futuras. El método utiliza particiones recursivas para dividir los
registros de entrenamiento en segmentos minimizando las impurezas en cada paso,
donde un nodo se considera "puro" si el 100% de los casos en el nodo corresponden
a una categoría específica del campo de destino
El nodo CHAID genera árboles de decisión utilizando estadísticos de chi-cuadrado
para identificar las divisiones óptimas. A diferencia de los nodos Árbol C & R y
QUEST, CHAID puede generar árboles no binarios, lo que significa que algunas
divisiones tienen más de dos ramas. CHAID exhaustivo es una modificación de
CHAID que hace un trabajo más a fondo de examinar todas las divisiones posibles,
pero toma más tiempo para calcular
La regresión lineal es una técnica estadística común para resumir los datos y hacer
predicciones ajustando una línea recta o una superficie que minimiza las
discrepancias entre los valores de salida predichos y los reales
El nodo Factor / PCA, provee potentes técnicas de reducción de datos para reducir la
complejidad de los datos. El análisis de componentes principales (PCA) encuentra
las combinaciones lineales de los campos de entrada que hacen el mejor trabajo de
capturar la varianza en todo el conjunto de campos, donde los componentes son
ortogonales (perpendiculares) entre sí
Los nodo K-medias agrupa el conjunto de datos en grupos distintos (o clusters). El
método define un número fijo de conglomerados, de forma iterativa asigna registros
a los conglomerados y ajusta los centros de los conglomerados hasta nuevo
refinamiento ya no puede mejorar el modelo. En lugar de tratar de predecir un
resultado, k-medias utiliza un proceso conocido como aprendizaje no supervisado
para descubrir patrones en el conjunto de campos de entrada
El nodo Regla de inducción (GRI) encuentra reglas de asociación en los datos. Por
ejemplo, los clientes que compran máquinas de afeitar y loción para después del
afeitado también son propensos a comprar crema de afeitar. GRI extrae reglas con el
contenido informativo más alto en base a un índice que toma tanto la generalidad
(soporte) y la precisión (confianza) de reglas en cuenta. GRI puede manejar entradas
numéricas y categóricas, pero el objetivo debe ser categórico
El nodo de red neuronal utiliza un modelo simplificado de la misa forma en que el
cerebro humano procesa la información. Funciona mediante la simulación de un
gran número de unidades de procesamiento simples interconectados que se asemejan
a las versiones abstractas de neuronas. Las redes neuronales son estimadores
potentes de funciones generales y requieren un conocimiento matemático o
estadístico mínimo para entrenar o aplicar.
El nodo C5.0 genera un árbol de decisión o un conjunto de reglas. El modelo 52
funciona mediante el fraccionamiento de la muestra basándose en el campo que
proporciona la máxima ganancia de información en cada nivel. El campo objetivo
debe ser categórico.
El nodo de selección muestra Los campos de predicción para la eliminación de la
basado en un conjunto de criterios (como el porcentaje de valores perdidos);
entonces clasifica la importancia de predictores restantes relativos a un destino
especificado.
El análisis discriminante realiza hipótesis más estrictas que la regresión logística,
pero puede ser una valiosa alternativa o complemento a un análisis de regresión
logística cuando se cumplen estos supuestos
La regresión logística es una técnica estadística para clasificar los registros basados
en los valores de los campos de entrada. Es análoga a la regresión lineal pero toma
un campo objetivo categórico en lugar de un rango numérico
El modelo lineal generalizado amplía el modelo lineal general, de manera que la
variable dependiente está relacionada linealmente con los factores y las covariables
mediante una determinada función de enlace. Además, el modelo permite que la
variable dependiente tenga una distribución no normal. Cubre la funcionalidad de un
amplio número de modelos estadísticos, incluyendo regresión lineal, regresión
logística.
El nodo de red bayesiana le permite construir un modelo de probabilidad
combinando pruebas observadas y registradas con conocimiento del mundo real para
establecer la probabilidad de ocurrencias. En la versión actual de Clementine 12.0, el
nodo se centra en árbol Naïve Bayes aumentado (TAN) y redes de cadena de
Markov que se utilizan principalmente para la clasificación
El nodo (SVM) le permite clasificar datos en uno de los dos grupos sin sobreajuste.
SVM funciona bien con conjuntos de datos grandes, tales como aquellos con un
número muy grande de campos predictores
Para realizar la instalación del software spss clementine version 12 y no tener ningún
problema en la instalación deberá ver el video que se encuentra ubicado en la siguiente
ubicación:
\DAZA_LIBRO_MINERIADEDATOS\libro\instalacion_clemen\instalador.exe, en
donde se muestra paso a paso lo que tiene que realizar para una buena instalación
53
Figura n: ventana de instalacion
Después de haber hecho la instalación y tenido un conocimiento previo de las partes mas
importantes de la herramienta vamos a realizar algunos casos, en donde se hace uso de
manera fácil y sencilla de spss clementine con ejemplos reales
En este apartado vamos a explicar 20 casos relacionado con minería de datos en donde se
van a realizar ejemplos basados en redes neuronales, arboles de decisión, clustering, series
de tiempo, etc. Tambien se van a ir explicando al mismo tiempo de manera detallada como
se usan cada uno de los nodos para la solución de los casos que se han propuesto en este
libro para que pueda entender de manera fácil y sencilla y después pueda aplicarlo a 54
cualquier área que se menciono en la tabla nº1.
figura n 1
Para el desarrollo de este caso usted debe de seguir los siguientes pasos
a) Ingresar al spss clementine siguiendo los siguientes pasos (Inicio – todos los
programas-SpssInc- Clementine 12.0) y luego dar clic en el icono del diamante,
como se muestra en la figura n 2
Figura n 2
Antes de empezar a desarrollar el modelo, lo primero que debemos hacer como un buen
ingeniero y conocedor de una base de datos, es revisar la información que se encuentran en
la carpeta archivo_data\ PlayTennis\ playtennis-evidence.txt, como se muestra en la figura
n 4, en donde podemos observar que hay 5 campos o parámetros en la cual se va utilizar los
parámetros sky, temperatura, Humidity, wind como parámetros de entrada(input) y
playtennis como parámetro de salida(output).
56
c) Dar doble clic en nodo var.file y luego buscar la ruta en donde se encuentra los
datos que vamos analizar en este caso se encuentra ubicado en la siguiente ruta
57
e) Ahora el siguiente paso es unir los nodos var.file y el nodo table para lo cual deberá
seguir el siguiente paso, seleccionar el nodo var.file presionar la tecla funcional F2
y luego dar un clic en el nodo table, como se muestra en la figura n 8.
figura n 8
58
f) Dar un clic derecho en el nodo table y luego seleccionar la opción execute la cual
después de procesar podrán visualizar toda la información del archivo, como se
muestra en la figura n 9.
figura n 9
Normal), el parámetro wind contiene los valores (Weak, Strong ) y el parámetro jugar
tenis contiene los valores.
Luego dar un clic en el botón execute para obtener la visualización de los datos, como se
muestra en la figura n 12. En donde se puede observar que 4 datos son Cool, 4 datos son
Hot y 6 datos son Mild. Usted podría realizar los mismo pasos con los otros parámetros la
cual le ayudara a tener conocimiento de los datos que tienen para asi tener una idea de los
resultados previos que se van a obtener del análisis.
figura n 12
60
ahora le damos doble clic al nodo type en donde aparecerá la imagen como se
muestra en la figura n 14, usted puede observar que se ha reconocido todos los
campos(field) que tiene el archivo con sus respectivos tipos de datos, luego proceda
a dar un clic en read values para que enpieze a reconocer todos los valores que tiene
cada campo.
figura n 14
61
figura n 15
en la figura n 15 se puede observar que los campos Sky, Temperature, humidity y wind se
ha considerado como parámetros de entrada en donde se le ah asignado a la Direction como
In y el campo Playtennis, se le ha asignado a la Direction como Out(valor predictivo). Para
finalizar y salir de la ventana presionar el botón ok.
figura n17
figura n 18
63
k) Luego debemos colocar un nodo que nos permita visualizar los datos predichos para
lo cual seleccionares de la pestaña output el nodo Analysis y lo conectamos con el
nodo diamante Playtennis como se muestra en la figura n 19
figura n 19
dar doble clic en el nodo Analysis y luego presionar el botón execute, en donde podrá
visualizar la cantidad de datos que fueron predichos de manera correcta y de manera
incorrecta, según la figura n 20 podemos observar que la cantidad de datos predichos
correctamente son 14 que representan el 100% de los datos y los predichos de manera
incorrecta son 0 que representa en 0%, por lo cual se puede decir que el modelo de arboles
de decisión es adecuado para este tipo de problemas ya que nos muestra resultados
favorables.
64
l) Ahora añadiremos un nodo que nos permita ver una tabla cruzada de los valores
predichos, para lo cual seleccionadmos el nodo matrix de la pestaña output y lo
conectamos al diamante playtennis, como se muestra la figura n 21, luego le da
doble clic y selecciona en las filas(rows) los valores reales de playtennis y y en las
columnas(columns) los valores predichos de playtennis como se muestra en la
figura n 22.
figura n 21
figura n 22
Ahora presione el botón execute para que pueda obtener los resultados de los valores en
una matrix de confusion, como se muestra en la figura n 23, se puede observar que de los
que no juegan tenis en este caso 5, fueron predichos de manera correcta 5 y de los que si
juegan tenis en este caso 9, fueron predichos de manera correcta 9.
figura n 23
ll) como siguiente paso de este ejemplo añadiremos en nodo table en la cual se encuentra en
la pestaña output y luego lo conectamos con el nodo diamante, como se muestra en la
figura n 24, luego le damos doble clic al nodo table y presionamos el botón ejecutar en
donde nos mostrara el nivelde confianza de predicción, para cada uno de los casos, como
se muestra en la fig n 25 , en donde podemos observar que en el registro numero 2 la
confianza de predecir de manera correcta que no se juega al tenis es del 80%, en el registro
numero 13 la confianza de predecir de manera correcta de que si se juega al tenis es del
83.3% . en el registro 8 la confiaza de predecir de manera correcta que no se juega al tenis
es del 80%.
figura n 24
66
figura n 25
67
n) Si queremos generar las regla del modelo construido, debemos dar doble clic en el
diamante playtennis y luego en la opcion Generate que se encuentra en la parte
superior , luego seleccionar rule set, como se muestra en la figura n 27, en donde
aparecerá un ventana y deberá colocar el nombre en este caso PlayTennisRS, que
tendrá el diamante que se generara.
figura n 27.
68
en la figura n 28 se puede observar que se ha generado varias reglas en las cuales la regla
numero 1, indica que no se puede jugar al tenis si es que el sky = rain y además el wind =
strong, en un caso en que siempre se juega al tenis es cuan sky= overcast . En la regla n 3 se
juega al tenis si se cumple la siguiente condición, cuando el Sky = Sunny y además la
Humidity = Normal.
69
Fuente : http://archive.ics.uci.edu/ml/datasets.html
Descripción del caso: Esta es la base de datos mas conocida que se encuentran en la
literatura de reconocimiento de patrones. La literatura de Fisher es un clásico en el campo y
se hace referencia con frecuencia en la actualidad. (See Duda & Hart, por ejemplo.) por
ejemplo.) El conjunto de datos contiene 3 clases de 50 casos cada uno, donde cada clase se
refiere a un tipo de planta iris. Los atributos son los siguientes:
a) Ingresar al spss clementine siguiendo los siguientes pasos (Inicio – todos los
programas-SpssInc- Clementine 12.0) y luego dar clic en el icono del diamante,
como se muestra en la figura n 31, en donde se abrirá la siguiente ventana de
desarrollo, como se muestra la figura n 31
1.
b) Ahora deberá de arrastrar de la pestaña source el nodo var.file para poder enlazar la
información que se encuentra en la siguiente dirección archivos_data\planta_iris\
iris.data.txt, como se muestra en la figura n 32 y luego dar un check en la opción
tab(delimiters). Finalmente dar un clic en el botón ok
figura n 32
c) Ahora añadiremos un nodo tabla para poder observar toda la información que esta
contenida en el archivo para lo cual en la pesgtaña output seleccionamos el nodo
table y luego lo arrastramos al panel de desarrollo y posteriormente lo conectamos
al nodo var.file como se muestra en la figura n 33.
figura n 33
71
d) Para visualizar la información del archivo debe dar doble clic al nodo table y
presionar el botón execute y luego podrá ver los datos como se muestra la figura n
34, en donde se puede observar que hay 150 registros y además podemos apreciar 5
parametros de los cuales 4 seran considerados como parámetros de entrada(sepal
length, sepal windth, petal length, petal width) y uno será considerado como
parámetro de salida(class) para el ejemplo.
figura n 34
e) Si queremos observar la cantidad de plantas que existe por cada clase, agregaremos
el nodo distribution para ello lo seleccionamos de la pestaña graphs y lo arrastramos
al panel de desarrollo y luego lo enlazamos con el nodo var.file, como se muestra en
la figura n 35
figura n 35
72
dar doble clic al nodo distribution y luego en la propiedad field seleccionar class y
en la propiedad color también seleccionar class y luego dar clic en el botón execute
para visualizar la información como se muestra en la figura n 36, en el grafico se
puede observar que hay 50 datos de la clase iris setosa, 50 datos de la clase iris
versicolor y 50 datos de la clase iris virginica
figura n 36
f) Ahora procederemos a insertar el nodo type en donde nos permitirá escoger los
parametros de entrada y parámetros de salida para lo cual seleccionamos el nodo
type de la pestaña field ops y luego lo conectamos con el nodo var.file(iris.data.txt),
como se muestra la figura n 37
figura n 37
73
dar doble clic en el nodo type y luego presione el botón read values para que el software
empiece a detectar y leer los valores que tiene almacenado en el archivo por cada uno de
los campos(parametros), como se muestra la figura n 38.
figura n 38.
Ahora lo que tenemos que asignar son lo parámetros de entrada(en direction colocar In) en
la cual se le asignará a sepal_length, sepal_windth, petal_length, petal_width y como
parámetro de salida a class(en direction colocar out), como se muestra en la figura n 39.
Finalmente presiona el botón ok.
figura n 39
74
ahora nos colocamos en el nodo class y luego le damos un clic en el botón derecho y luego
presionamos la opción execute, en donde generara un nodo diamante que aparecerá en la
parte superior derecha en la pestana models, como se muestra la figura n 41
figura n 41
i) Ahora para poder analizar los resultados que se han obtenido con el modelo
generado vamos agregar un nodo llamado analysis en el panel de desarrollo que se
encuentra ubicado en la pestaña output, como se muestra en la figura n 43
figura n 43
dar doble clic en el nodo analysis y luego presionamos el botón execute para luego
visualizar los resultados como se muestra en la figura n 44, en donde se puede observar que
de los 150 datos 146 han sido predichos correctamente que representan el 97,33% y de los
150 datos han sido predichos de manera incorrecta 4 que representa el 2,67%.
j) Ahora vamos añadir un modo matrix para poder observar cuantas clases han sido
predichas de manera correcta y cuantas clases han sido predichas de manera 76
figura n 45
k) Ahora le damos doble clic al nodo matrix en la propiedad rows seleccionar los
valores reales de la clase y en columns el valor predicho de la clase, como se
muestra en la figura n 46 y luego presionar el botón execute para observar los datos
obtenidos como se muestra en la figura n 47
figura n 46
77
figura n 47
en la figura n 47 se puede observar que de la clase iris-setosa de los 50 datos han sido
predichas de manera correcta 50, de la clase iris-versicolor de los 50 han sido predichas de
manera correcta 47 y 3 han sido predichas de manera incorrecta como si fuera de la clase
iris-virginica y por último de la clase iris-virginica de los 50 datos han sido predichas de
manera correcta 49 y de manera incorrecta 1 como si fuera de la clase iris-versicolor.
figura n 48
78
Dar doble clic el nodo table y luego presionar el botón execute para mostrar los resultados
como se muestra en la figura n 49.
figura n 49
figura n° 50
79
figura n 51
o) Aparecerá un nodo classRs en el panel de desarrollo lo cual debe darle doble clic en
donde se observa una ventana en donde se encuentran todas las reglas que se han
generado, como se muestra en la figura n 52
figura n 52
80
en las reglas obtenidas se puede observar que para que una planta sea considerada con iris-
setosa debe cumplir la siguiente condición que el petal_length sea menor o igual de 1,9
tambien podemos observar que para que una planta sea considerada como iris-versicolor
debe cumplir la siguiente condición que el petal_length sea mayor que 1,9 y además que el
petal_width sea menor igual que 1,7 y además que el petal_length sea menor igual que 4,9.
En este caso vamos a predecir el tipo de fármaco (drug) que se debe administrar a un
paciente afectado de rinitis alérgica según distintos parámetros/variables. Las variables que
se recogen en las historias clinicas de cada paciente se muestran en la tabla Nº 15 y son:
Tabla Nº 15
Parámetros de entrada
• Age: Edad
• Sex: Sexo
•BP (Blood Pressure): Presion sanguínea.
• Cholesterol: nivel de colesterol.
• Na: Nivel de sodio en la sangre.
• K: Nivel de potasio en la sangre.
En los datos se observa que hay cinco fármacos posibles: DrugA, DrugB, DrugC, DrugX,
DrugY que ah sido considerado como el objetivo (parámetros de salida). Se han recogido
los datos del medicamento idóneo para muchos pacientes en cuatro hospitales (los ficheros
están en el directorio DAZA_LIBRO_MINERIADEDATOS\archivos_data\drugs). Se
pretende, para nuevos pacientes, determinar el mejor medicamento a probar a cada uno.
Ahora vamos a construir el siguiente modelo predictivo, como se muestra en la figura n 53
Figura n 53 81
Lo que se va ah realizar para construir este modelo son los siguientes pasos:
figura n 54
b) Ahora para poder visualizar la información que esta contenida en el archivo vamos
añadir de la categoría output un nodo table y luego lo conectamos en el nodo
Var.file(Drug1n), y luego damos doble clic en el nodo table y presionamos el botón
ejecutar, en donde podemos observar que se visualizan 200 registros de pacientes
con alergias, como se muestra en la figura n 55, en donde cada uno de ellos tiene 7
campos(parametros), las cuales son edad,sexo, presión arterial, colesterol, sodio,
potasio y medicamento.
82
figura n 55
c) Ahora vamos a ver cuales son los medicamentos mas usados en los pacientes para lo
cual nos colocamos en la categoria graphs y seleccionamos en nodo distribution
para luego conectarlo con el var.file Drug1n como se muestra en la figura n 56.
figura n 56
Ahora le damos doble clic en el nodo distribution drug y en la propiedad filed seleccionar
drug y en la propiedad color también drug, y luego presionamos el botón execute en donde
se visualizara la información de los medicamentos que se les receta a los pacientes, como se
muestra en la figura n 57, en donde podemos observar que en la mayoría de los casos el
medicamento drugY se aplica con mayor frecuencia (91 casos) y en otros casos se aplica
por ejemplo el medicamento drugX (54 casos).
figura n 57 83
figura n 58
Ahora le vamos a dar doble clic al nodo type en donde se mostrara una ventana en la cual
seleccionares los parámetros de entrada en este caso edad, sexo, presión arterial, colesterol,
sodio y calcio , para luego seleccionar el parámetro de salida drug, la cual nos interesa
predecir, como se muestra en la figura n 59 y luego darle clic en el botón ok.
Figura n 59
84
f) Ahora vamos a generar el modelo para lo cual seleccionamos el nodo C5.0 llamado
Drug y luego le damos clic derecho y seleccionamos el botón execute en la cual nos
va a generar un diamente con el nombre Drug, que se ubicara en la parte superior
derecha en la pestaña models y luego lo unimos con el nodo type, como se muestra
en la figura n 61
figura n 61
85
ahora damos doble clic en el nodo analysis y presionamos el botón execute en donde se va
a visualizar la precisión del modelo, como se muestra en la figura n 63, en la cual los
valores fueron predichos de manera correcta con un 96,5 % y un error del 3,5%.
figura n 63
86
h) Ahora vamos a mejorar los resultados obtenidos por el primer modelo creado, para
lo cual vamos analizar los datos en primer lugar vamos a ver la relación que hay
entre los parámetros , sexo, presión arterial, colesterol y medicamento, para lo cual
vamos a seleccionar de la categoria graphs el nodo web y luego lo conectamos con
el nodo var.file., luego le damos doble clic y en la propiedad fields en la parte
derecha damos clic y nos mostrara una ventana en donde debemos seleccionar los
parámetros en la cual queremos ver la relación para muestro caso seleccionamos los
parámetros sexo, presión arterial, colesterol y medicamento, como se muestra en la
figura 64.
figura 64.
87
figura 65
I) Ahora vamos a analizar los valores numéricos, en este caso es Na y K para ver si hay
una relación significativa entre ambos parámetros, vamos añadir de la categoria
graphs el nodo plot en la cual lo selecionamos y lo arrastramos al panel de desarrollo
para luego unirlo al nodo var.file drug 1n como se muestra la figura n 66.
figura n 66.
88
Ahora le damos doble clic en el nodo plot y luego en X field seleccionamos Na y en Y field
seleccionamos K y en overlay el campo drug,como se muestra la figura n 67 y luego
presionamos el botón execute para que nos visualice los datos como se muestra en la figura
n68.
figura n 67
figura n 68
89
m) ahora damos doble clic en el nodo derive, y en el derive field colocamos en nombre en
este caso Na_k y en la propiedad formula en la parte derecha hay un icono de una
calculadora en donde le damos clic y colocamos la formula como se muestra en la figura n
70
figura n 69
en la figura n 70 para verificar que la expresión es correcta dar un clic en check si sale de
color negro quiere decir que todo anda bien y finalmente le damos clic en ok y luego en ok,
quedando como se muestra en el figura n 71
Figura n 70
90
Figura n 71
N) ahora construiremos un nuevo modelo para lo cual primero vamos a colocar un nodo
type, en este caso lo haremos de manera diferente, por lo cual primero damos un clic en el
nodo type, y luego clic derecho y seleccionamos copy type como se muestra en la figura n
72
figura n 72
91
ahora colóquese en el panel de desarrollo y dar clic derecho y luego seleccionar la opción
paste, en donde aparecerá un nuevo nodo en el panel de desarrollo y lo conectamos con el
nodo derivado Na_K , ahora le vamos a dar doble clic al nodo type y en la pestaña
annotations y luego en custom colocar Type_derivado presionar el botón apply y luego
botón ok en donde se mostrara una ventana como se muestra la figura n 73
figura n 73
figura n 74
92
figura n 75
figura n 76
una vez generado el modelo lo que vamos es añadir un nodo Analysis para ver el porcentaje
de precisión del modelo que se ah generado con una nueva variable, para lo cual lo
seleccionamos de la categoria output el nodo analysis y lo arrastramos al panel de
desarrollo y luego lo conectamos con el nodo diamante Drug_derivado, como se muestra la
figura n 77. Para ver el porcentajde de precisión del modelo damos doble clic al nodo
analysis y luego presionamos el nodo execute, para que nos visualice los siguientes
resultados, como se muestra la figura n 78.
93
figura n 77
figura n 78
R) si queremos ver los valores del nuevo campo generado vamos a la categoria output y
seleccionamos el nodo table lo arrastramos al panel de desarrollo y luego lo conectamos
con el nodo NA_K, como se muestra la figura n 79
figura n 79
94
ahora le damos doble clic al nodo table y presionamos el botón execute y podemos
visualizar el nuevo datos generado, como se muestra en la figura n 80.
figura n 80
Ahora como parte de una pequeña practica construya un modelo con redes neuronales y
llegue a la siguiente figura n 81.
figura n 81.
95
figura n 83
97
figura n 85
98
Ahora si damos clic en el diamante K-Means podemos observar cada uno de los clusters
que se han generado y la cantidad de registros que caen en cada uno de ellos, como se
muestra en la figura n 87
figura n 87
99
ahora vamos añadir un nodo table para poder ver de manera mas clara a que cluster
pertence cada uno de los registros, para ello lo que vamos hacer es de la categoria output
seleccionar el nodo table y luego lo conectamos con el diamante K-means, como se muestra
la figura n 88.
figura n 88
f) Ahora le damos doble clic al nodo table y nos mostrara una ventana como se
muestra en la figura n 89, en la cual podemos observar que el tercer (3) registro se
encuentran en el cluster 3 , el cuarto-4 registro pertenecen al cluster 3.
figura n 89
100
los detalles de cada uno de los atributos antes mencionados lo puede encontrar en la
siguiente pagina http://archive.ics.uci.edu/ml/datasets/Dresses_Attribute_Sales#, como se
muestra en la figura n 90.
Figura n 90
figura n 90.
101
Los datos de cada uno de los vestidos han sido obtenidos de la siguiente pagina,
http://www.aliexpress.com/, como se muestra en la figura n 91
figura n 91
figura n 92
102
b) Ahora vamos analizar los datos que tiene el archivo para lo cual nos vamos a la
categoria output y seleccionamos el nodo table y luego lo conectamos con el nodo
var.file datos_de_vestidos.csv, como se muestra la figura n 93.
figura n 93
103
c) El siguiente paso es darle doble clic al nodo table y dar clic en el botón execute, la
cual nos permitirá visualizar la siguiente ventana, como se muestra en la figura n 94
figura n 94
en donde se puede observar que hay 500 registros con 14 campos cada uno de ellos,
también podemos observar algunos campos nulos.
b) Ahora vamos añadir un nodo type para seleccionar los campos que nos van a servir para
construir los cluster, para lo cual vamos a la categoria field ops y colocamos en el panel de
desarrollo el nodo type y luego lo conectamos con el nodo var.file datos_vestido_final.csv,
luego le damos doble clic al nodo type en la propiedad direction colocamos none al campo
dress_id, debido a que solo representa el código del producto, como se muestra en la figura
n 95 y luego presionar el botón ok, si desea lo puede poner un nombre en nuestro caso
Type_cluster.
figura n 95
104
Figura n 96
Ahora dar doble clic an nodo k-means y en number clusters colocar 3 y presionar el botón
execute en donde se generara un nodo diamante con el mismo nombre de K-means, como
se muestra la figura n 97
Figura n 97
105
e) Ahora podemos conectar el diamante k-means que se ha generado con el nodo type
y luego le damos doble clic para ver los cluster que se han generado, como se
muestra la figura n 98. Se puede observar que la mayor cantidad de los casos se
encuentran en el cluster – 1, y en menor cantidad se encuentran en los cluster 2 y 3.
figura n 98
f) Para poder determinar en que cluster ah caído cada uno de los registros, lo primero
que tenemos que hacer es añadir un nodo table que se ubica en la categoria output
arrastrarlo al panel de desarrollo y conectarlo con el diamante k-means, como se
muestra la figura n 99.
Figura n 99
106
g) Para visualizar la información de cada uno de los datos y poder saber a que cluster
pertenecen lo que tenemos que hacer el dar doble clic al nodo table y presionar el
botón execute, en donde nos visualizara una ventana como se muestra la figura n
100
figura n 100
en los datos obtenidos podemos observar que los datos del registro uno y del registro dos
pertenecen al cluster numero uno y el registro trece pertenece al cluster numero 2 y el
registro numero 5 al cluster numero 3, así de esta misma forma usted puede analizar cada
uno de los registros, debido a que nuestra información son 500 registros.
108
b) Ahora debemos visualizar los datos para lo cual vamos a la categoria output y luego
al nodo table y lo conectamos con el nodo var.file empleados4.txt y damos doble
clic en el botón execute, que nos permita ver los datos del archivo, como se muestra
la figura n 102
figura n 102
109
en la ventana podemos observar que en el campo alq/Prop donde debe haber 40 campos
llenos de los cuales solo hay 37 y en el campo Estudios en donde debe haber 40 datos
llenos de los cuales solo hay 36, y 4 datos están vacios.
d) Ahora nuestro siguiente paso es detectar los datos que no son correctos o anómalos,
para lo cual vamos a a colocar en el panel de desarrollo, un nodo plot que se
encuentra en la categoria graphs y lo conectamos con el nodo var.file
empleados4.txt, como se muestra en la figura n 104
figura n 104
110
ahora le damos doble clic al nodo plot en la cual vamos analizar el sueldo y su antigüedad
de trabajo con respecto a sus estudios, para lo cual debemos colocar los datos, como se
muestra la figura n 105, dar un clic en el botón execute. Para mostrar los resultados como
se muestra la figura n 106.
figura n 105
en la figura n 106 podemos observar que hay un dato que no se relaciona con respecto a los
demás, debido a que tiene un sueldo exhorbitante que bordea los 380 000, mientras que los
demás sueldos están en el rango de los 0 y 100 000.
figura n 106
111
e) Ahora agregamos un nuevo nodo plot y seleccionamos los valores que se muestran
en la figura n 107 y damos un clic en el botón execute.
figura n 107
figura n 108
112
en la figura n 108 podemos observar un dato que no tiene relación con los demás datos es
decir un dato anómalo que es -7 la cual nos indica que no puede haber cantidad de hijos
negativos y por ende vamos a tener que corregirlo
f) Volvemos agregar otro nodo plot en la cual vamos analizar los datos con respecto a
sueldo antigüedad y si es casado o soltero, como se muestra en la figura n 109 y
luego presionamos el botón execute.
figura n 109
en la figura n 100 se puede observar que los personas que no son casadas tienen menor
antigüedad y las que si son casadas superan los 10 años de antigüedad.
Figura n 110
113
g) Ahora vamos eliminar los datos anómalos, según lo analizados hemos encontrado
dos uno con respecto al sueldo y otro con respecto a la cantidad de hijos, para lo
cual damos doble clic en el nodo table y luego presionamos el botón ejecutar, en
donde se visualizara los datos que contiene el archivo, luego debe buscar los datos
anómalos y seleccionarlos como se muestra la figura n 111
figura n 111
figura n 112
114
figura n 113
figura n 113
h) Ahora damos doble clic en el nodo generate y lo ponemos en mode discard, para
que los datos que cumplan esa condición no sean considerados, como se muestra la
figura 114
figura n 114
ahora añada un nodo table para poder visualizar los datos como se muestra en la figura n
115, en la cual no se van a considerar los dos registros eliminados debido a que son
anómalos, en la cual deberá dar doble clic al nodo table y presionar el botón execute.
figura n 115
en el grafico n 115 se puede observar que solo han sido considerados 38 registros de los 40
i) Ahora vamos a ocuparnos de los campos vacios, para el caso de este ejercicio
vamos a considerar que el campo vacio de estudios serán llenados con los valores
obl, para lo cual lo primero que debemos hacer es unir el nodo generate con un
nodo type, y luego le damos doble clic al nodo type, nos colocamos en el campo
estudios y en la propiedad missing lo ponemos en on para poder editar los valores
ausentes, como se muestra la figura n 116 y finalmente damos clic en ok
j) Ahora vamos a reemplazar los valores en blanco del campo estudios, para lo cual lo
que vamos hacer es enlazar al nodo type un nodo filler que se encuentra en la
categoria field ops y luego le damos doble clic en el nodo filler para colocar la
condición como se muestra en la figura n 117 y finalmente presionar el botón ok
figura n 116
116
figura n 116
figura n 117
k) Ahora vamos añadir un nodo table para ver los datos que han sido reemplazados,
para lo cual lo seleccionamos de la categoria output el nodo table y lo conectamos
con el nodo filler, como se muestra la figura n 118.
figura n 118
117
ahora le damos doble clic en el nodo table y luego damos un clic en el botón execute, para
que nos visualice los datos, en la cual se han reemplazado los datos faltantes, como se
muestra la figura n 119.
Figura n 119
figura n 120.
118
M) Ahora lo que va a realizar es dar doble clic al nodo generated y dale clic en el mode
discard, para que no considere los espacio en blanco y finalmente dale clic en ok como se
muestra la figura n 121.
Figura n 121.
N) ahora vamos a agregar un nodo type de la categoria field ops y lo conectamos al nodo
generated creado y luego le damos doble clic al nodo type y colocamos al campo alq/prop
como parámetro de salida y al campo #ej como none porque no lo vamos a utilizar, como se
muestra la figura n 122
figura n 122
119
o) El siguiente paso será añadir un clasificador que nos permita predecir el valor de la
vivienda de cada uno de los datos que están en blanco para lo cual de la categoria
modeling seleccionar el nodo CRT y lo enlazamos con el nodo type, luego
seleccionamos el clasificador le damos clic derecho y seleccionamos el botón
execute, en donde aparecerá un diamante que lo vamos a conectar con el nodo type,
como se muestra la figura n 123
p) Ahora vamos a ver la probabilidad de precisión del modelo creado, para lo cual de
la categoria output vamos a seleccionar el nodo analysis y lo conectamos con el
diamante CRT Alq/Prop, luego damos doble clic en el nodo analysis y podemos ver
la precisión del modelo, como se muestra la figura n 124
figura n 123
figura n 124
120
q) Ahora para observar los datos que se han predicho, lo que debemos hacer es copiar
el nodo type y conectarlo con el nodo filler y luego enlazar el nodo type con el
diamante CRT Alq/Prop que se ah creado y luego el nodo diamante creado
conectarlo a un nodo table, como se muestra la figura n 125.
figura n 125
ahora darle doble clic al nodo table y luego presionar el botón execute para poder visualizar
los datos como se muestra la figura n 126, en donde podemos visualizar que el dato faltante
del registro numero 5 ha sido predicho como Alquiler, el dato faltante 16 ah sido predicho
como alquiler.
figura n 126
121
r) Ahora por ultimo nos interesa cambiar los valores del campo Estudios a valores
numéricos para lo cual seleccionamos de la categoria Field ops el nodo derive y lo
conectamos al diamante Crt Alq/Prop, como se muestra en la figura n 127
figura n 127
s) ahora procedemos a dar doble clic en el nodo derive y en derive field le ponemos de
nombre SET_ESTUDIOS y en derive as, lo colocamos como set y luego
ingresamos la información como se muestra la figura n 128, para poder ver y
visualizar la información que se ah modificado solo debemos de conectar un nodo
table que se encuentra en la categoria ouput al nodo derive y luego le damos doble
clic para poder visualizar la información que se ha cambiado en un campo nuevo ,
como se muestra la figura n 129.
122
figura n 128
figura n 129
ahora para poder seguir trabajando debemos de filtrar la información que nos sirva, para lo
cual debemos de agregar un nodo filter y conectarlo con el nodo derive Set_Estudios, luego
le damos doble clic el filter y solo seleccionamos los campos que se va usar, como se
muestra la figura n 130
figura n 130
123
t) ahora vamos hacer uso de un nodo matrix que se encuentra en la categoria output
para ver la información en un cuadro de doble entrada entre coche y casado, como
se muestra la figura n 131, en la tabla se puede observar que de las personas que son
casadas tiene coche 12 y 3 no tienen coche, y asi mismo de las personas que no son
casadas 16 tienen coche y 7 no tienen coche.
figura n 131
ahora usted a modo de ejemplo podría analizar la relación que existe entre sindicato y sexo,
asi como de coche con sexo o poder analizar si los datos que eran incorrectos han sido
modificados como por ejemplo con referente a los sueldos, como se muestra la figura n 132
figura n 133
124
u ) el siguiente paso es añadir un nodo type y conectarlo con el nodo filter y luego el nodo
type después de haber escogido los valores de entrada conectarlo con un nodo plot para
poder ver la relación entre estudios, sueldo y la propiedad, como se muestra en al figura n
134.
figura n 134.
figura n 135.
W) Ahora damos clic en la parte superior del menú la opción generate y luego escogemos
derive node set, en donde se generar un nuevo nodo lo cual lo conectamos con el ultimo
nodo type creado y luego el nodo derive generado lo conectamos a un nodo table para ver
los resultados obtenidos, como se muestra la figura n 136.
figura n 136.
126
Después de haber desarrollado toda la practica paso a paso lo siguiente que tendrá que
hacer es añadir dos nodos cluster k-means, uno que incluya como datos la región que se
ha generado y otro sin la región creada, asi como se muestra en la figura 137, y luego
analice los datos obtenidos en los nodos table, teniendo en cuenta que solo hará uso de 3
clusters.
Figura 137
Hasta el momento hemos trabjado por mayor comodidad en ficheros de texto, pero en la
vida real los datos que uno utiliza para el desarrollo de este tipo de proyecto puede provenir
de diferentes fuentes entre los cuales podemos mencionar Sqlserver, Oracle, Informix,
Paradox, Sybase, etc. para nuestro caso vamos hacer uso de una base de datos de access que
se encuentra en la siguiente dirección libro\practica_siete_tranformacion
127
Vamos a desarrollar un ejemplo que nos permita predecir la cantidad de ventas del
siguiente cuatrimestre, para lo cual vamos a trabajar en base a la consulta que se llama
_VentasporCuatrimestre, que se encuentra en la base de datos para lo cual le damos doble
clic y podemos observar los datos como se muestra en la figura n 139. Nos interesa predecir
cuales serán las ventas del cuatrimestre 1996C y 1996D
figura n 139.
Para realizar este ejemplo lo primero que debemos hacer es crear un Dns atravez de odbc
que nos permita conectar con spss clementine para lo cual vamos a seguir los siguientes
pasos:
b) el siguiente paso es dar clic en el botón agregar y luego buscar el controlador en este
caso access luego damos clic en aceptar y buscamos la ruta en donde se encuentra el
archivo, asi como se muestra la figura n 141. Cuando le damos clic en aceptar debe
aparecer un dns con el nombre dns_neptuno, como se muestra en la figura n 142
figura n 141.
129
Fuente: Elaboracion propia - spss clementine
d) para poder visualizar los datos como en los demás casos, como ya debe tener
conocimiento seleccionamos un nodo table de la categoria output y lo unimos con el
nodo sql y luego lo ejecutamos para ver lo datos, como se muestra la figura n 144.
En donde podemos observar que se han obtenido 12 registros.
figura n 144.
e) Continuando con el ejercicio vamos a eliminar los valores nulos debido a que no
nos ayuda a predecir el volumen de ventas para lo cual haremos los siguientes
pasos. Damos doble clic en el nodo table, seleccione un valor nulo y luego en la
parte superior del menú dee un clic en generate y luego seleccione la opción select
node, en la cual se generara un nuevo nodo select, en la cual debe darle doble clic y
ponerlo en la opción del mode discard, como se muestra la figura n 145 y
finalmente darle un clic en el botón ok., si desea visualizar la información debe
conectar a un nodo table.
figura n 145
f) Ahora vamos a eliminar algunos datos que parecen no estár completos y por lo tanto
no van ayudar a predecir el volumen de la venta , la cual haremos los mismo pasos
anteriores, dar doble clic a la ultima table usada y luego seleccionamos los dos
valores a eliminar en este caso 1994C y 1996B y seleccionamos de la parte superior
del menú la opción generate y luego select node (or) la cual se genera un nuevo
nodo select que luego lo conectamos con el nodo select creado anteriormente, como
se muestra la figura n 146, no olvidar que en el nodo select creado debe poner en el
Mode la opción discard.
figura n 146
131
g) Si queremos ver lo datos que hasta el momento se han filtrados y la cual vamos ha
ser uso para predecir el volumen de ventas, tenemos que unir el nodo select creado
con un nodo table y luego al nodo table dar doble clic y luego presionar el botón
execute, como se muestra la figura n 147.
Figura n 147.
H) Ahora vamos analizar como se han comportado los datos de las ventas, para lo cual
haremos uso del nodo plot que se ubica en la categoria graphs y luego lo conectamos con el
ultimo nodo select que se ah generado, luego damos doble clic al nodo plot y
seleccionamos los valores, como se muestra la figura n 148., en la parte inferior en la
pestaña options escoger el Style como line y luego damos clic en execute para ver los
resultados como se muestra la figura n 149
figura n 149
gura n 149
En la grafica podemos observar que las ventas han ido aumenta conforme el tiempo pasa
además la figura tiende a ser lineal por el cual aplicaremos un nodo de regresión.
h) Primero conectar el nodo select generado con un nodo type y seleccionar los
opciones como se muestra la figura n 150.
figura n 150.
Si le da doble clic al diamante puede observar el modelo que se ah creado, asi como se muestra en
la figura n 152.
Figura n 152
J) ahora vamos evaluar el diamante obtenido para lo cual lo conectamos con un nodo type y
luego el diamante lo conectamos a un nodo multiplot de la categoria graph y luego
seleccionamos la opciones como se muestran en la figura n 153 y luego presionamos el
botón execute para que nos muestre los resultados como la figura n 154
figura n 153
134
en la grafica se puede observar que el modelo obtenido se ajusta bastante al modelo real,
ahora para poder aplicarlo a cualquier valor lo que tenemos que hacer es coger un nodo
diamante y enlazarlo y conectarlo con el ultimo nodo select generado y luego dar clic
derecho y seleccionar generate user input node, como se muestra la figura n 155.
figura n 154
K) aparecerá un nodo user input en la cual debemos indicarle los valores que vamos a
predecir para lo cual le damos doble clic y luego los valores 3, 10, 11 y 12 en ord,
debido a que es lo que nos interesa, como se muestra en la figura n 156. Luego deberá
unir el nodo user input con el nodo diamante y luego el nodo diamante con un nodo
table, como se muestra la figura n 157.
figura n 155
135
figura n 156
figura n 157
si le damos doble clic al nodo table, vamos ver que se han obtenido los siguientes
resultados, como se muestra en la figura n 158
figura n 158
136
en la figura n 158 podemos ver que lo resultados obtenidos con respecto a la ord 3 y 10 son
diferentes a los valores iniciales por el cual se habían deducido que la información estaba
errada, en la ord 10 anterior el valor era de 12495.9 y con el modelo obtenido el valor es de
13340.
Figura n 159
Ahora vamos a ver los ejemplos del spss clementine, entre los cuales se encuentra el stream
catalog_forecast y la base de datos catalog_seasfac.sav que se encuentran ubicados en la
Figura n 160
137
a) Primero vamos agregar un nodo table y lo enlazamos con el nodo spss y luego le
damos doble clic en el nodo table en donde aparecerá una ventana y luego
presionamos el botón execute, para poder visualizar la información, como se
muestra en la figura n 161. En donde se observa las ventas de los hombres y
mujeres en determinadas fechas.
figura n 161.
138
B) Ahora el siguiente paso es darle doble clic en el nodo time plot y luego darle clic en el
botón execute, en donde se muestra la figura n 162, en la cual se puede observar que las
ventas están aumentando y disminuyendo en relación a la línea de tendencia
figura n 162
b) Ahora vamos construir una proyección de venta para las mujeres, para lo cual de la
categoria field ops seleccionamos el nodo time intervals y lo conectamos con el
nodo spss, para luego darle doble clic al nodo time intervals y seleccionar los datos
139
figura n 164
140
d) Ahora el siguiente paso es conectar el diamante woman con un nodo time plot que
se encuentra en la categoria graphs, y luego le damos doble clic y seleccionamos los
valores como se muestra en la figura n 166 y para finalizar darle doble clic al botón
execute para que se muestra un cuadro similar a la figura n 167.
figura n 165
figura n 166
141
figura n 167
en la grafica superior se puede observar que las ventas están aumentando y disminuyendo
en relación a la línea de tendencia.
Ahora vamos a realizar un ejemplo de regresión lineal en la cual vamos a poder analizar la
relación que hay entre una variable con respecto a otra, para lo cual tomaremos como
ejemplo la información que se encuentra ubicada en la siguiente dirección
http://archive.ics.uci.edu/ml/datasets/Computer+Hardware, como se muestra en la figura n
142
169 Figura n 169
En este ejemplo vamos a determinar la relación de dependencia entre las variables MMIN
(Cantidad minima de memoria principal) y el ERP(rendimiento relativo estimado del
articulo originales), para lo cual vamos a seguir los siguientes pasos:
figura n 170
143
b) Ahora para analizar la relación entre las variables MMIN Y ERP vamos a;adir un
nodo plot de la categoria grafica y luego lo conectamos con el nodo var.file y le
damos doble clic y seleccionamos las opciones como se muestra la figura n 171
figura n 171
figura n 172
144
d) Ahora añadimos un nodo type que se encuentra en la categoria field ops, para
especificar los parámetros de salida y los parámetros de entrada y luego lo añadimos
al nodo var.file, para luego dar doble clic en el nodo type y seleccionar las opciones,
como se muestra en la figura n 173. Como ya tiene conocimiento puede darle otro
nombre al type en este caso le hemos asignado el nombre de Type_MMIN
figura n 173.
donde se creara un diamante con el nombre de ERP que se ubica en la parte superior
derecha y luego lo arrastramos y lo conectamos al nodo type_MMIN, como se
muestra la figura n 175
figura n 174
145
figura n 175
figura n 176
146
Fuente: Elaboracion propia - spss clementine
para finalizar le damos clic en apply y luego en execute, en donde se visualizara la ventana
como se muestra en la figura n 178. En donde se puede observar que los valores del ERP
aumentan y disminuyen con respecto a la línea de tendencia
figura n 178.
147
Como ejercicio se le propone que usted analice la relación que hay entre MMAX y ERP, y
al mismo tiempo analizar el valor de ERP real, con respecto a la línea de tendencia de ERP,
por lo cual deberá de llegar a la figura n 179 como resultado final.
figura n 179
El ejemplo utiliza datos ficticios para demostrar cómo los métodos de análisis se puede
utilizar para descubrir desviaciones de la norma, destacando los registros que son
anormales y digno de mayor investigación. Usted está particularmente interesado en las
solicitudes de subvención que parecen reclamar demasiado (o muy poco) dinero para el tipo
y tamaño de la granja. El análisis se realizó en dos etapas: una selección preliminar
utilizando detección de anomalías, seguida de una exploración más a fondo el uso de un
modelo de red neuronal.
148
Los campos que se usan en este ejemplo son los siguientes:
Los pasos que se va a realizar para llegar a la figura n 180 , son los siguientes:
figura n 180
a) El primer paso es conectar el archivo a un nodo var.file con los datos que se
encuentran ubicados en la siguiente dirección
libro\practica_diez_deteccion_de_fraudes\grantfraudN y luego dar doble clic en el
nodo var.file y seleccionar las opciones como se muestra la figura n 181 y luego
dar un clic en el botón apply y luego en ok.
figura n 181
149
b) Ahora para poder observar los datos como ya se ah realizado en muchos ejemplos
anteriores, seleccionar de la categoria output el nodo table y luego conéctelo con el
nodo var.file y luego le da doble clic en el nodo table y presione el botón ejecute
para luego analizar los datos como se muestra la figura n 182. En donde se puede
observar que hay 300 registros de computadoras.
figura n 182
150
Figura n 184
151
Fuente: Elaboracion propia - spss clementine
figura n 185
figura n 186
figura n 187
Figura n 188
153
g) Para explorar las desviaciones, es útil para trazar un histograma de diferencia. Para
lo cual es interesante superponer claimtype, para poder ver si esto tiene alguna
influencia en la distancia de los ingresos estimados. Para lo cual vamos agregar de
la categoria graphs el nodo Histogram y lo conectamos con el nodo derive
diferencia y luego le damos doble clic y seleccionamos las opciones que se
muestran en la figura n 189 y para ver los resultados presionamos el botón execute,
como se muestra la figura n 190.
figura n 189
figura n 190
154
en la figura n 190 se puede observar que existe mayor diferencia en la estimación con
aquellos claimtype que son del tipo arable_dev, por el cual trabajeremos en base a ello
h) Para solo trabajar con un solo grupo de datos lo primero que tenemos que hacer es
agregar un nodo select de la categoria record ops y luego conectarlo con el nodo
derive que tiene como nombre diferencia, luego le damos doble clic y ingresamos la
condición como se muestra en la figura n 191 y luego le damos clic en apply y
luego en ok.
Figura n 191
i) Puesto que usted quiere predecir el valor de la demanda utilizando otras variables en
los datos, el nodo Tipo se puede utilizar para establecer la dirección de claimvalue a
Out. Para lo cual empezaremos añadiendo un nodo del tipo type que se encuentra en
la categoria field ops y lo conectamos con el nodo select. Y luego seleccionamos las
opciones como se muestra la figura n 192.
figura n 192
155
b) Ahora vamos agregar un nodo derive para generar un nuevo valor teniendo como
dato el valor que bota el modelo de red neuronal creado. Para lo cual lo conectamos
al diamante claimvalue y luego damos doble clic en el nodo derive y colocamos la
siguiente formula como muestra la figura n 194. Luego damos clic en apply y
también en ok.
156
figura n 194.
Teniendo como base el ejercicio numero 3 vamos a realizar la validación del modelo que se
ah creado con nuevos datos que se encuentran ubicados en la siguiente dirección
libro\practica_once_datos_fresco_drug en donde hay 4 archivos, ahora abrimos el archivo
stream que se encuentra en la practica numero 3(figura n 195) y luego grabelo con el
nombre de validación_de_farmacos_libro.
figura n 195
para poder comprobar si el modelo que se creo en el ejercicio numero 3 en la cual tiene una
precisión del 99,5 %, es confiable se hará las pruebas con nuevos datos en la cual podremos
determinar si la precisión del modelo se mantiene con datos nuevos para lo cual,
realizaremos los siguientes pasos:
a) Agregar un nuevo nodo var.file en proyecto, dar doble clic y luego buscar el archivo
drug2n en donde se encuentran los datos del nuevo hospital, como se muestra la
figura n 196 157
Figura n 196
b) Si quiere observar la cantidad de datos que hay en el archivo lo que tiene que hacer
es agregar un nodo table de la categoria output y luego conectarlo con el nodo
var.file de nombre drug2n, luego dar doble clic al nodo table para visualizar los
datos como se muestra la figura n 197. En donde se puede observar que hay 400
datos. figura n 197.
c) Seleccionar los nodos como se muestra en la figura n 198 y luego hacer una copia y pegar
en el mismo espacio de trabajo.
figura n 198
158
d) Los nodos que se han copiado, enlazarlo con el nodo var.file drug2n, como se
muestra la figura n 199. Luego proceda a dar doble clic al nodo analysis para poder
ver la presicion del modelo en relación a nuevos datos.
En la figura n 200 podemos observar que la precisión obtenida es 98,5 % aunque es
menor al valor obtenido con los datos de entrenamiento pero es bastante bueno.
figura n 199.
figura n 200
e) Ahora vamos a realizar los mismo pasos con el archivo drug3n, para lo cual
159
agregamos un nuevo nodo var.file de la categoria source y luego le damos doble clic
al nodo y ubicamos el archivo en la carpeta libro\practica_once_datos_fresco_drug
figura n 201
f) Si queremos visualizar los datos del archivo( figura n 202), debemos de agregar un
nodo table de la categoria output y luego enlazarlo con el archivo drug3n, y luego
dar doble clic y presionar el botón execute. En la figura se puede observar que hay
600 registros nuevos que nos permitirá evaluar la precisión del modelo.
figura n 202
160
g) Seleccionar los nodos como se muestra la figura n 203 y luego copiar y pegar en el
proyecto que se esta realizando y luego enlazarlo con el archivo drug3n.
figura n 203
h) Ahora para poder ver la precisión del modelo(figura n 204) le damos doble clic al
nodo analysis y luego presionamos el botón execute. En donde podemos visualizar
que la presicion del modelo es del 99% y ha mejorado con respecto al caso anterior.
figura n 204
i) Ahora usted tiene que realizar como una tarea en casa, los mismo pasos de los
ejemplos anteriores haciendo uso del archivo drug4n y finalmente deberá llegar a la
precisión que se muestra en la figura n 205
figura n 205
161
figura n 206
162
Fuente: Elaboracion propia - spss clementine
figura n 208
163
Fuente: Elaboracion propia - spss clementine
d) En la figura n 209 se puede observar que las personas que tienen una presión arterial
high y un colesterol high son 406, las personas que tienen una presión arterial low y
un colesterol normal son 348, las personas que tienen una presión arterial normal y
un colesterol high son 382.
figura n 209
e) Ahora vamos a hacer un nuevo modelo, del cual vamos a usar 1800 datos para
entrenamiento y 400 para su prueba o validez, para lo cual copiamos el nodo NA_K
y lo conectamos con el nodo append y luego agregamos un nodo type de la
categoria field ops, y lo conectamos con el nodo NA_K. ahora lo que hacemos es
dar doble clic al nodo type y luego poner como out(salida) al parámetro drug, como
se muestra en la figura n 210.
figura n 210
164
f) El siguiente paso que vamos a realizar es separar lo datos para los cuales vamos a
usar el nodo sample que se encuentra en la categoria record ops y lo conectamos
con el nodo type, ahora damos doble clic en el nodo sample y colocamos los valores
que se encuentran en la figura n 211
figura n 211
figura n 212.
165
g) Ahora vamos agregar 4 modelos para hacer el entrenamiento con los 1800 datos
que se han selecionado, entre los cuales esta CRT, C5.0, CHAID, Neural Net en
donde debemos de seleccionar de la categoria modeling y luego agregarlo al panel
de desarrollo. Y luego conectarlo con el nodo Sample Datos de entrenamiento.
Como se muestra la figura n 213.
figura n 213.
h) Ahora el siguiente pasos es dar un clic en cada uno de los modelos y luego presionar
el botón execute en donde aparecerá un diamante por cada uno de ellos en la parte
superior derecha, como se muestra la figura n 214
figura n 214
166
figura n 215
j) Ahora vamos a conectar todos los diamantes que se han generado con el nodo
sample, para probar la probabilidad de predecir los registros en cada uno de los
casos, para lo cual debemos de seleccionar un nodo diamante por ejemplo C5.0 y
luego conectarlo con el nodo simple datos_prueba, como se muestra la figura n 216.
figura n 216
figura n 217
figura n 218
168
Fuente: Elaboracion propia - spss clementine
figura n 219
l) En el caso anterior los datos han sido seleccionados de manera secuencial, Ahora
vamos a crear una partición de manera aleatoria para lo cual vamos agregar un nodo
partición que se encuentran en la categoria field ops y lo conectamos con el nodo
type, luego le damos doble clic y colocamos los valores que se encuentran en la
figura n 220
Figura n 220
169
o) Ahora deberá colocarse en cada modelo luego le dara clic derecho y luego
seleccionara la opción execute para que se genere los nodos diamantes como se
visualiza en la parte superior derecha, como se muestra la figura n 223, usted puede
cambiar los nombres de los diamantes que se han creado como se muestra en el
grafico para que no se confunda con los nodos anteriores
Figura n 223
170
p) Para continuar con el desarrollo del modelo lo que tiene que hacer es agregar un
nuevo nodo select que se encuentra en la categoria record ops y luego enlazarlo con
el nodo partición, para luego dar doble clic en el nodo selección y colocar los datos
como se muestra en la figura n 224. En donde solo seleccionara los datos que
pertenece a la validación del modelo, si usted desea comprobarlo solo bastara con
agregar un nodo table y enlazarlo con el nodo select que ah creado.
figura n 224.
171
r) Ahora para poder ver los resultados de la precisión de los modelos con los datos
nuevos vamos agregar un nodo analysis y luego lo conectamos a cada uno de los
diamantes creados como se muestra en la figura n 226. Ahora usted debe de dar un
clic en cada uno de los nodos analysis para ver los resultados, por ejemplo si damos
doble clic en el nodo analysis drug_c5.0 y luego en el botón ejecutar, podemos
observar que los datos han sido predichos de manera correcta al 100% como se
muestra en la figura n 227, es decir ni un registro ah sido predicho de manera
incorrecta, ahora si deseamos también podemos ver los resultados del nodo analysis
drug_chaid, para lo cual le damos doble clic y presionamos el botón execute,
podemos observar que los datos han sido predichos de manera correcta con una
precisión del 95,75% y con un error de predicción del 4,25%, pero con respecto al
modelo anterior la precisión se ah mejorado en un 2%.
Un modelo que también ah mejorado con respecto a precisión son las redes
neuronales que con datos no aleatorios la precisión es de 92,75% y con datos
aleatorios es de 96%, esto quiere decir que la precisión ah mejora en un 3,25%.
figura n 226
172
figura n 227
figura n 228
En este ejemplo se va usar un conjunto de datos que contiene los valores de seis
características biomecánicas utilizadas para clasificar a los pacientes ortopédicos en 3
clases (normal, hernia de disco o spondilolysthesis) o 2 clases (normales o anormales).
Toda la información de este ejemplo se encuentra en la siguiente dirección electrónica :
http://archive.ics.uci.edu/ml/datasets/Vertebral+Column, como se muestra en la figura n
229.
173
figura n 229
Los conjunto de datos biomédica de la columna vertebral ha sido integrada por el Dr.
Henrique da Mota durante un período de residencia médica en el Grupo de Investigación
Aplicada en Ortopedia (GARO) del Centro Médico-Quirúrgico de Rà © adaptación des
Massues, Lyon, Francia. Los datos se han organizado en dos tareas de clasificación
diferentes, pero relacionados. La primera tarea consiste en clasificar a los pacientes como
pertenecientes a una de las tres categorías: Normal (100 pacientes), Disco Hernia (60
pacientes) o espondilolistesis (150 pacientes). Para la segunda tarea, las categorías de disco
Hernia y espondilolistesis se unieron en una sola categoría denominada como "anormal".
De este modo, la segunda tarea consiste en clasificar a los pacientes como pertenecientes a
uno de cada dos categorías: Normal (100 pacientes) o anormales (210 pacientes).
Cada dato del paciente está representado en el conjunto de datos por seis atributos
biomecánicos derivados de la forma y orientación de la pelvis y la columna lumbar (en este
Figura n 230
a) Primero debe añadir un nodo varfile que se encuentra en la categoría source y luego
buscar los datos que se encuentran en la siguiente direccion
\libro\practica_catorce_columna_vertebral\columna3c.csv como se muestra en la
figura n 231.
Figura n 231
175
Fuente: Elaboracion propia - spss clementine
b) Ahora para poder visualizar los datos vamos agregar un nodo table que se ubica en
la categoria ouput y luego lo conectamos con el nodo var file como se muestra en la
figura n 232 en donde podemos visualizar que existe 310 registros entre los cuales
se puede observar 3 clases entre los cuales están Normal, Hernia y
Spondylolisthesis
figura n 232
c) Ahora vamos a cambiar los valores al campo class para lo cual usamos el nodo
derive de la categoría field ops y lo conectamos con el nodo var.file, luego le damos
doble clic al nodo derive y colocamos los siguiente valores como se muestra en la
figura n 233, en donde se puede apreciar que cuando la clase sea normal le va
asignar el valor de NO.
Figura n 233
176
d) Ahora vamos añadir un nodo type que nos permitirá elegir cuales van a ser los
valores de entrado y el valor objetivo. Para lo cual lo vamos a seleccionar de la
categoría field ops y lo conectamos con el nodo derive class_d como se muestra la
figura n 234. En donde ademass observamos que el parámetro de salida es class_d y
no class, debido a que en un paso anterior lo habíamos cambiado haciendo uso del
nodo derive.
figura n 234.
figura n 235
177
f) Ahora vamos agregar dos modelos que se encuentran en la categoría modeling entre
los cuales vamos escoger C 5.0 y CRT. Y luego conectamos cada uno de ellos con
el nodo sample como se muestra en la figura n 236.
figura n 236.
g) Colocarse en el nodo C5.0 dar clic en el botón derecho y luego seleccionar la opción
execute, para luego poder observar que aparece un diamante en la parte superior
derecha en la pestaña models, ahora colocarse en el nodo CRT dar clic en el botón
derecho y luego seleccionar la opción execute, para luego poder observar que
aparece un diamante en la parte superior en la pestaña models, como se muestra la
figura n 237
figura n 237
178
i) Ahora conectamos el nodo sample con los diamantes que se han generado tanto para
el modelo C 5.0 como para el modelo CRT y luego le conectamos un nodo de
analysis a cada uno de los diamantes, como se muestra la figura n 239.
figura n 239
j) Ahora el siguiente paso es dar doble clic al nodo analysis que esta enlazado con el
diamante class_d del modelo C5.0 en la cual podemos visualizar los datos como se
muestra la figura n 240, en donde podemos observar que el modelo no es confiable
debiado a que hay un error del 52,86% y solo una certeza del 47,14 %.
figura n 240
k) Ahora dar doble clic al nodo analysis que esta enlazado con el diamante class_d del
modelo CRT en la cual podemos visualizar los datos como se muestra la figura n
241, en donde podemos observar que el modelo no es confiable debiado a que hay
un error del 50% y solo una certeza del 50%.
figura n 241
180
se puede observar que los resultados de los dos modelos anteriores no son confiables, usted
a que cree que se debe esos resultados.
l) Ahora vamos agregar un nodo partición que se encuentra en la categoría field ops,
para poder ver mejores resultados y luego lo conectamos con el nodo type class
column, ahora le damos doble clic al nodo partición y ingresamos los valores como
se muestra la figura n 242.
figura n 242.
m) Ahora el siguiente paso es enlazar el nodo partición con el nodo select, luego le
damos doble clic y ingresamos los valores como se muestra en la figura n 243, si
desea agregar un nodo table para que pueda ver la información la puede hacer.
Figura n 243
181
n) Una vez terminado de hacer las modificaciones respectivas el siguente paso que
deberá realizar es enlazar el nodo select con los modelos C5.0 y CRT que se
encuentran ubicados en la categoría modeling como se muestra en la figura n 244.
Ahora se coloca en el nodo C5.0 le da clic derecho y selecciona la opción execute,
para que después aparezca el nodo diamante en la parte superior derecha como se
muestra la figura n 245, hacer los mismos pasos como CRT.
figura n 244.
figura n 245.
182
Fuente: Elaboracion propia - spss clementine
o) En siguiente paso que vamos a realizar es enlazar el nodo partición con el nodo
select y luego dar doble clic en el nodo select y colocar los valores como se muestra
en la figura n 246.
Figura n 246
p) Ahora vamos a agregar los diamantes C5.0 y CRT que se han creado al panel de
desarrollo y luego lo conectamos con el nodo select como se muestra la figura n 247
y finalmente lo conectamos dos nodos analysis para poder observar la precisión de
los resultados con respecto a cada uno de los modelos, como se muestra la figura n
248.
Figura n 247
q) Ahora vamos analizar los resultados que se han obtenido del diamante c 5.0 para lo
cual le damos doble clic al nodo analysis que esta conectado con el diamante antes
mencionado, en donde podemos ver que en la figura n 249 que los resultados que se
han obtenido son de un 81,82% de predicción de manera correcta y un 18,18% de
manera incorrecta, con lo cual se puede deducir que el uso de un nodo partición en
la selección de los datos mejora los resultados como respecto al nodo sample.
figura n 249
r) Ahora vamos analizar los resultados que se han obtenido del diamante CRT para lo
cual le damos doble clic al nodo analysis que esta conectado con el diamante antes
mencionado, en donde podemos ver que en la figura n 250, que los resultados que
se han obtenido son de un 76,62% de predicción de manera correcta y un 23,38% de
manera incorrecta, con lo cual se puede deducir que el uso de un nodo partición en
la selección de los datos mejora los resultados como respecto al nodo sample.
184
figura n 250
El error se calcula como la media aritmética de los errores de cada iteración para obtener un
único resultado.
Para entender mejor el concepto antes mencionado, vamos a explicar en base a el siguiente
ejemplo, vamos suponer que tenemos 2000 registros y hemos realizado 10 particiones esto
quiere decir que cada partición tendrá 200 registros y en cada una de las iteraciones se van
ha usar 9 subgrupos es decir 1800 registros para el entrenamiento del modelo y un
subgrupo es decir 200 registros para la prueba del modelo.
Cross-Validation es una técnica que se ha utilizado con métodos basados en redes
neuronales (Zhang y col, 2006; Liu y col., 2008), Nearest Neighbors, Fuzzy,etc.
185
10 subgrupos
1 2 3 4 5 6 7 8 9 10
1 2 3 4 5 6 7 8 9 10
10 iteraciones
1 2 3 4 5 6 7 8 9 10
1 2 3 4 5 6 7 8 9 10
1 2 3 4 5 6 7 8 9 10
1 2 3 4 5 6 7 8 9 10
1 2 3 4 5 6 7 8 9 10
1 2 3 4 5 6 7 8 9 10
1 2 3 4 5 6 7 8 9 10
1 2 3 4 5 6 7 8 9 10
Figura n 251
Ahora vamos a partir en donde se hizo el enlace de los cuatro archivos, en donde usted
puede observar que luego esta enlazado con el nodo derive NA_K y luego con el nodo type
lo que haremos ahora son los siguientes pasos:
Figura n 252
figura n 253
c) Si queremos ahora ver cual es la variable mas importante de este modelo podemos
ir a la pestaña inferior models, como se muestra la figura n 254, en donde se puede
observa que la variable(campo) mas importante es la que se genero en un nodo
derive Na/K y luego sigue la varible BP(presión arterial).
d) Ahora si desea visualizar la precisión de otra manera agregue el nodo analysis que
se encuentra en la categoría output y conéctelo con el diamante CV como se
muestra la figura n 255, en donde se ve una precisión del 100% lo que no se obtuvo
cuando solo se creaban los modelos usando los archivos de manera individual.
figura n 255
e) Ahora hagamos la comparación de los resultados obtenidos con el modelo que tiene
el archivo drug 2n y el archivo donde se han hecho la unión de los 4 archivos,
podemos ver que los resultados de la figura n 256 la precisión obtenida es de 99,5%
con un error de 0,5% mintras que la figura n 255 la precisión que se ah obtenido es
del 100% indicándonos que si hacemos uso de una validación cruzada los resultados
van a mejorar
188
Los resultados que se han obtenido hasta el momento han sido bastante buenos, pero es
porque se han obtenido en base a grandes candidades de datos, que pasaría si la
información que tenemos es pequeña, como se comportaría la validación cruzada en este
tipo de casos, para ello vamos a trabajar con poca cantidad de datos basándonos en el
Strean que se ubica en la siguiente dirección
\libro\practica_quince_pocos_datos\farmacos_libro_pocos_datos.str , para lo cual
seguiremos los siguientes pasos:
Figura n 257
189
Para cambiar el nombre del nodo simple vamos a la pestaña Annotations y le colocamos
el nombre de reducción de datos, si desea observar los datos que se han obtenido lo que
tiene que hace es agregarle un nodo table que se ubica en la categoría output
b) Ahora vamos a conectar al nodo sample llamado reducción de datos con un nodo
C5.0 que se encuentra en la categoría de modeling y luego damos doble clic al nodo
C5.0 y le colocamos los valores como se muestra la figura n 258. En el nombre del
modelo le ponemos RDC5.0 y activamos el casillero de cross validation y los
dejamos en por defecto en las 10 particiones y para finalizar damos clic en el botón
execute en donde se va a generar un nodo diamante con el nombre de RDC5.0
figura n 258
190
b) para poder ver el las reglas del modelo que se ha creado damos clic en la pestaña model
para visualizar la siguiente ventana en la figura n 260. En donde se puede ver que las reglas
que se han generado son muy pobres, también se puede observar que la variable de mayor
importancia sigue siendo el NA/K en donde representa el 80%, ahora si queremos
visualizar el árbol que se ah creado vamos a la pestaña Viewer como se muestra en la figura
261.
Figura n 260
Figura n 261
191
c) Ahora vamos a probar el modelo que se ah creado con los 2200 registros para poder
visualizar los resultados, para lo cual primero debemos de conectar el nodo sample
2 Reduccion de datos con el nodo type y luego dar doble clic al nodo sample 2
Reduccion de datos y colocar los valores como se muestra la figura n 262. En donde
se puede apreciar que se ah considerado los 2200 registros.
figura n 262.
figura n 263
192
Fuente: Elaboracion propia - spss clementine
e) Ahora le damos doble clic al nodo analysis para poder visualizar la precisión de los
datos de prueba como se muestra en la figura n 264 , en donde se puede observar
que la presicion es de un 89,55% y un error de 10,45%.
figura n 264
Antes de ver mas información en el nodo análisis, lo primero que vamos a realizar es:
a) ver que información nos provee el nodo diamante para lo cual vamos a conectarlo con un
nodo table y luego le damos doble clic al nodo table, para poder visualizar la información
como se muestra en la figura n 265, en donde se puede observar que existen una columna
Drug que representan los medicamentos reales de cada registro, una columna $C-Drug que
representan los valores predichos de los medicamentos por cada uno de de los registros en
relación a los valores reales y una columna $CC-Drug que representa el nivel de confianza
de cada uno de los registros. Estos 3 campos proveen información importante para el nodo
análisis.
figura n 265
193
figura n 266
d) Ahora si queremos ver la información de los resultados por cada uno de los campos
le damos doble clic al nodo analysis, y en la parte inferior agregamos todos los
campos como se muestra en la figura n 267 y finalmente le damos clic en el botón
ok y luego en el botón execute en donde nos muestra los resultados como se observa
en la figura n 268 en donde se puede observar que en el campo de BP(presión
sanguinea)= High el error es superior(23,57%) a las demás presiones arteriales.
figura n 267
194
figura n 268
e) Ahora le volvemos a dar doble clic a nodo analysis y activamos las casillas como se
muestra en la figura n 269 y luego le damos un clic en el botón execute y nos va
mostrar los resultados como se muestra en la figura n 270, en donde se puede
obsevar que la precisión del modelo ah sido de manera global de 89,55% con un
error de 10,45%, tambien se observa una matriz de confusión en donde se observa la
relación de los valores reales con los valores predichos, por ejemplo en el drug C se
ha predecido de manera correcta 199 casos y de manera incorrecta 17 casos, que en
vez de ser predecidos como drug C ha sido predecido como drug y. un caso que
llama la atención es el medicamento drug B que en todos los casos han sido
predichos de manera incorrecta en vez de ser predecidos como drug B, han sido
195
predichos 161 como drug A y 7 como drug Y, si analiza el medicamento drug Y se
puede observar que todos los valores reales han sido predichos de manera correcta.
figura n 269
Figura n 270
figura n 271
figura n 272
197
para la explicación de este ejemplo nos basaremos en la ayuda del clementine en donde en
este ejemplo se refiere a datos ficticios que describe el contenido de las cestas de
supermercados (es decir, colecciones de artículos comprados juntos), además de los datos
personales asociados del comprador, que pueden ser adquiridos a través de un programa de
fidelización. El objetivo es descubrir grupos de clientes que compran productos similares y
se pueden caracterizar demográficamente, como por edad, ingresos, y así sucesivamente.
• Asociación de modelado regla y una pantalla web que revela vínculos entre artículos
comprados
Basket summary:
a) Como primer paso vamos a ver las relaciones que hay entre los productos de la
cesta que se han comprado, pára lo cual debe cargar los datos en un archivo que se
encuentra ubicado en la direccion libro\practica_dieciseis_reglas y
asociacion\Baskets1n, para lo cual vamos agregar un nodo var file que se encuentra
en la categoría source, le damos doble clic y luego colocamos los valores como se
muestra la figura n 273, si desea visualizar los datos como en los casos anteriores
agregue solo el nodo table de la categoría output.
figura n 273
199
b) El siguiente paso es agregar un nodo type de la categoría field ops y conectarlo con
el nodo var file, luego le damos doble clic al nodo type y modificamos los valores
como se muestra la figura n 274
figura n 274
figura n 275
200
Figura n 276
e) Ahora agregue un nodo a priori ubicado en la categoría modeling y luego lo une con
el nodo type, para luego dar doble clic en el en el nodo a priori y dar un clic en el
botón execute, en donde se generara un diamante lo cual lo debe de arrastrar al
panel de desarrollo y darle doble clic para que se pueda visualizar los resutados
como se muestra en la figura n 277, en donde se observa que cuando se compra
comida congelada y vegetales enlatados se suele comprar cerveza, esto se da en 173
201
instancias que representa el 17,3% del support y que esto sucede 84,393 de las
veces, también se observa que cuando se compra vegetales enlatados y cerveza se
suele comprar comida congelada, esto se da en 167 instancias que representa el
16,7% del support y que de esto sucede los 87,425% de las veces. También se puede
observar que cuando se compra cerveza y comida congelada se suele comprar
vegetales enlatados, esto sucede 170 veces que representa el 17% del support y que
de esto sucede los 85,882 % de las veces
Figura n 277
En la figura n 278 tenemos 2 resultados, uno que es sobre el nodo web (lado izquiero) y el
otro del nodo apriori(lado derecho) en donde se puede ver de manera clara que hay una
relación fuerte entre cerveza, carne congelada y vegetales enlatados en los resultados de
cada uno de los nodos.
Figura n 278
202
Fuente: Elaboracion propia - spss clementine
f) Ahora vamos a usar el nodo GRI, para lo cual agregamos un nuevo nodo type y lo
conectamos con el nodo var file y luego damos doble clic al nodo type y colocamos
los atributos como se muestra la figura n 279 y luego le damos clic en ok, ahora
agregamos de la categoría modeling el nodo GRI y lo conectamos con el nodo
type_GRI, le damos doble clic al nodo GRI y luego presionamos el botón execute y
se genera un nodo en la parte superior derecha que no se puede desplazar al panel de
desarrollo.
Figura n 279
Figura n 280
203
g) Para poder ver los resultados obtenidos del nodo GRI, lo que vamos hacer es dar
doble clic al nodo que se encuentra en la parte superior derecha que tiene como
nombre sex, para poder visualizar los resultados como se muestra la figura n 281,
en donde podemos observar que cuando se compra cerveza, carne fresca y carne
enlatada, esto sucede 13 veces que representa el 1,3% del support y que de esto
sucede el 100% de las veces, también se puede observar que cuando se compra
cerveza, comida congelada y vegetales enlatados, esto sucede 146 veces que
representa el 14,6% del support y de los cuales sucede el 96,58% de las veces.
Figura n 281
h) El problema de las reglas anteriores para el sexo es que sólo nos muestran las del
sexo masculino, ya que toma ese valor como positivo. Si queremos que aparezcan
reglas para los dos sexos, podemos hacerlo a la vez de la siguiente manera. Añade
un nodo type y lo conecta con el nodo var file, luego le da doble clic al nodo type y
cambia el valor del campo sex de flag a set, como se muestra la figura n 282
figura n 282
204
eliminar el campo sex, como se muestra la figura n 284, ahora vuelva añadir un
nodo type y coloque como parámetros de salida los campos Sex_M y Sex_F como
se muestra la figura n 285, ahora agregue un nodo GRI y lo conecta con el ultimo
nodo type que se ah creado, le da doble clic al nodo GRI y lo ejecuta en donde se
mostrara los resultados como se muestra la figura n 286, en donde se puede
observar que se ah generado reglas tanto para el sexo masculino como para el sexo
femenino que son en total 61 con respecto al caso anterior que eran de 32 reglas,
205
podemos ver que las personas que compran cerveza, compran vegetales enlatados y
compran comida congelada son de sexo masculino un total de 146 casos que
representa el 14,6% del support y que de estos se cumplen 96,58% de las veces
figura n 284
figura n 285
figura n 286
206
tambien podemos observer que las personas que compran vino y compran confitería son de
sexo femenino 144 de los casos que representa el 14,4 % del support y que de estos se
cumple el 86,81% de los casos.
l) Nos interesa generar reglas para cada una de las formas de pago para lo cual
añadimos un nodo SetToFlag de la categoría field ops y lo conectamos con el nodo
Type_pago y luego le damos dos doble clic al nodo SetToFlag y le ingresamos los
valores como se muestra la figura n 288.
Figura n 288
207
ll) ahora añada un nodo filter de la categoría field ops y lo conecta con el nodo SetToFlag y
coloca los valores como se muestra en la figura n 289, en donde se elimina el campo
pmethod, debido a que vamos ha usar el tipo de pago por separado, ahora agregue otro
nodo de type de la categoría field ops y lo conecta con el nodo filter, luego le da doble clic
al nodo type y coloca los valores como se muestra la figura n 290
figura n 289
figura n 290
208
11) como ultimo paso agregamos un nodo GRI de la categoria modeling y lo conectamos
con el ultimo nodo type, para luego dar doble clic al nodo GRI y presionar el botón execute
para que se visulice las reglas como se muestra en la figura n 291
figura n 291
como se puede observar en la figura n 291 se han obtenido 49 reglas entre las cuales están
los que pagaron con tarjeta, al cash y con cheque. Se puede observar que los que compran
carne enlatada y vegetales enlatados hacen sus pagos al cash esto se da en 73 casos según el
support que es de 7,3% y de los cuales se cumple 53,42% de las veces.
Tambien se puede observar que los que compran confitería, pescado y carne enlatada haces
sus pagos con tarjeta esto se da en 21 casos según el support que es de 2,1% y de los cuales
se cumplen el 61,9% de las veces.
También se puede observar que las personas que compran frutas vegetales, carne enlatada y
cerveza realizan sus pagos al cash y esto se da en 19 casos según el support de 1,9 % de los
209
cuales siempre sucede con un 57,89% de las veces.
La regresión logística es una técnica estadística para clasificar los registros basados en los
valores de los campos de entrada. Es análoga a la regresión lineal pero toma un campo
objetivo categórico en lugar de uno numérico.
Este ejemplo utiliza la ruta denominada telco_churn.str, que hace referencia al archivo de
datos denominado telco.sav. Estos archivos están disponibles en el directorio Demos de la
instalación del cliente de Clementine o en la siguiente ruta
libro\practica_diecisiete_regresion_logistica
Por ejemplo, supongamos que un proveedor de telecomunicaciones está preocupado por el
número de clientes que se pasan a la competencia. Si los datos de uso del servicio se
pueden utilizar para predecir qué clientes son responsables de transferir a otro proveedor,
las ofertas se pueden personalizar para retener la mayor cantidad posible de clientes.
Este ejemplo se centra en el uso de los datos de uso para predecir la pérdida de clientes
(churn). Debido a que el objetivo tiene dos categorías distintas, se utiliza un modelo
binomial, seguiremos los siguientes pasos:
a) Añade un nodo spss de la categoría source en el panel de desarrollo, luego le da
doble clic y ubica el archivo en donde se encuentra toda la información, como se
muestra la figura n 292, ahora agregue un nodo type y lo conecta con el nodo spss,
luego le da doble clic al nodo type y coloca los valores como se muestra en la figura
n 293
Figura n 292
Figura n 293
En la figura n 293 lo que se esta realizando es cambiar el type dé cada uno de los campos, al tipo
type flag debido a que estos campos toman solo dos valores, para lo cual debe seleccionar todos los
campos y luego le da clic derecho y luego escoge la opción flag.
b) ahora el siguiente paso es colocar como parámetro de salida el campo churn y los demás campos
se dejan como parámetros de entrada, como se muestra la figura n 294
figura n 294
211
c) Ahora le damos doble clic al nodo diamante y usted podrá observar la importancia que tiene
cada uno de ellos, como se muestra en la figura n 296, en donde se puede determinar que
las primeras 16 variables o campos son importantes con relación a la variable objetivo
figura n 296
ahora vamos a generar un nuevo nodo con las variables que son importantes para este caso, en la
figura n 296 en la parte superior hay una opción generate le da clic y luego escoge la opción
filter aparecerá una ventana como se muestra la figura n 297, en donde debe seleccionar los
campos que están marcados en este caso es important y luego presiona el botón ok, para
que se genere un nuevo campo filter y lo unimos con el nodo type como se muestra al
figura n 298
figura n 297
212
figura n 298
d) Vamos a hacer una pequeña auditoria de los datos para lo cual ahora vamos añadir
un nodo data audit de la categoría output y lo conectamos con el nodo filter
generado que ahora tiene el nombre de características importantes, damos doble clic
al nodo de auditoria de los datos y presionamos el botón execute para que nos
muestre una ventana como la figura n 299, que nos muestra algunos resultados por
cada campo como valores máximos, valores minimos, desviación estándar y
cantidad de valores. Ahora en la parte inferior del grafico damos un clic en la
pestaña quality y nos colocamos sobre la columna % complete y le damos doble clic
para ordenarlo de menor a mayor y en donde nos mostrara cual de los campos son
los que les falta valores, en este casos observamos que el campo logtoll solo tiene el
47,5% de sus valores de un total de mil. (si no se observa podrá visualizarlo de
213
manera clara en los ejemplos que se agregan al cd)
Figura n 299
f) ahora debemos colocar los valores como se muestra en la figura n 301, en donde en el
impute when colocamos, que tome tanto los valores blancos y nulos y en el impute fixed
values que considere a la media. Selección de Mean asegura que los valores imputados no
afecten negativamente a la media de todos los valores de los datos globales
figura n 301
214
figura n 301
g) Ahora vamos a generar el super nodo de valores perdidos, estando en el nodo audit
seleccionamos el campo logtoll, luego en la parte superior seleccionamos la opción
generate y escogemos la opción missing values supernode como se muestra la figura n 302
y luego aparecerá una ventana en donde deberá colocar el valor de 50% como lo muestra la
figura n 303 y dar clic en el botón ok en donde se generar el supernodo que deberá de
unirlo con el nodo filter llamado características importantes, como se muestra la figura n
304
Figura n 302
Figura n 303
Figura n 304
i) ahora se coloca en la pestaña expert y luego damos clic en output y coloca los valores
como se muestra en la figura n 306 y le damos clic en el botón ok y para finalizar un clic en
el botón execute.
Figura n 306
216
j) ahora lo que vamos a realizar es unir el supernodo con el diamante que se ah generado
llamado churn como se muestra la figura n 307
figura n 307
k) si queremos analizar un poco la información que nos provee el nodo diamante churn lo
que hacemos es darle doble clic como se muestra la figura n 308, en donde se puede
observar en la pestaña summary cuales han sido escogidos los valores de entrada asi como
el campo objetivo en este caso churn, si se coloca en la pestaña advanced como se muestra
la figura n 309, se puede observar que se han incluido los 1000 casos, con respecto a los
casos perdidos no se han incluido ningún elemento
Figura n 308
217
Fuente: Elaboracion propia - spss clementine
figura n 309
Figura n 311
218
figura n 312
219
figura n 313
b) ahora agregamos un nodo type y lo conectamos con el nodo var file y colocamos los
valores como se muestra la figura n 314, en donde observamos que el parámetro potencia
ah sido considerado como salida y los otros parámetros como valores de entrada.
figura n 314
c) ahora vamos agregar un nuevo nodo llamado regresión que se ubica en la categoría
modeling y luego lo unimos con el nodo type como se muestra en la figura n 315, le damos
doble clic y luego presionamos el boton execute, para que nos genere un nodo diamante
llamado power que lo conectamos con el nodo type y luego unimos el nodo diamante con
un nodo analysis como se muestra la figura n 316
figura n 315
figura n 316
d) para analizar un poco mas los resultados obtenidos damos doble clic al diamante power
en donde nos muestra los resultados de la figura n 317, en donde se puede observar que la
variable mas importante es la temperatura y luego le sigue la variable uptime
figura n 317
221
objetivo power y las seis variables de entrada, que es el mismo resultado que se observa en
la figura n 318.
Figura n 319
222
g) ahora agregue un nodo type de la categoría field ops y lo conecta con el nodo select y
luego le da doble clic al nodo type para que ingrese los valores como se muestra en la
figura n 321, en donde se puede visualizar que tanto los parámetros de entrada como se
salidad no hay sido modificados, solo que en este modelo se tomara encuenta el tratamiento
numero 101
figura n 321
223
i) ahora para visualizar el modelo que se ha creado le damos doble clic al diamante power
101, en donde se puede apreciar que en este nuevo modelo la variable mas importante es el
tiempo como se muestra la figura n 323, en el caso anterior la variable mas importante era
la temperatura. Ahora nos colocamos en la pestaña summary, para visualizar la ventana
224
Preguntas propuestas
Ahora con la experiencia que ha adquirido, se le propone que usted realice nuevos modelos
con cada uno de los diferentes tratamientos que se les da a la cámara, aplique el modelo de
redes neuronales y haga las comparaciones con respecto con los modelos de regresión y
otros modelos
figura n 325
figura n 326
226
Fuente: Elaboracion propia - spss clementine
figura n 327
figura n 328
227
e) El siguiente paso es crear un dns para el archivo exportar_drug, para lo cual hacemos los
siguientes pasos inicio-panel de control-herramientas administrativas-odbc y luego le
damos doble clic en donde va aparecer una venta como se muestra al figura n 329
figura n 329
ahora damos clic en el botón agregar y escogemos Driver para Microsoft Access, para
luego darle clic en el botón finalizar en donde aparecerá una ventana con la figura n 331, en
donde deberá ingresar la ruta donde se encuentra el archivo asi como el nombre del dns en
este caso se coloco el nombre de exporta_drug y para finalizar dar un clic en el botón
aceptar .
figura n 330
228
figura n 331
figura n 332
figura n 335
230
g) Ahora vamos a usar el nodo que nos va a brindar información especifica par lo cual debe
tener conocimiento de comandos CLEM para lo cual el primer paso que vamos hacer es
añadir el nodo report que se encuentra en la categoría output y lo conectamos con el nodo
diamante, luego le da doble clic al nodo diamante y ingresa el siguiente código como se
muestra en la figura n 336
#
figura n 336
figura n 337
b) añada un nodo table que se encuentra en la categoría field ops y luego lo conecta con el
nodo spss, le da doble clic y nos mostrara los resultados como se muestra en la figura n
338, en la figura se observa datos mensuales de suscripciones de 85 mercado locales, asi
como el total, el mes, el año y la fecha, para el desarrollo de este ejemplo se harán uso de 6
mercados locales.
figura n 338
232
Fuente: Elaboracion propia - spss clementine
c) debido a que vamos a trabajar con solo 6 mercado locales agregamos un nodo filter de la
categoría field ops y lo conectamos con el nodo spss llamado broadband_1.sav, luego le
damos doble clic al nodo filter y esocgemos los campo market_1, market_2, market_3,
market_4, market_5, market_6, total y date_ como se muestra la figura n 339.
Figura n 339
d) Agreguemos un nodo time plot de la categoría graphs y lo conectamos con el nodo filter,
ahora le damos doble clic al nodo time plot y colocamos los valores como se muestra en la
figura n 340, en serie agregamos el campo total, se desactiva el check display series in
separate panels y desactivar el casillero normalize. Para finalizar damos clic en el botón
execute para que nos muestre una ventana como la figura n 341
figura n 340
233
En la figura n 341, la serie muestra una tendencia ascendente muy suave sin indicios de
variaciones estacionales. Puede haber series individuales con estacionalidad, pero parece
que la estacionalidad no es una característica destacada de los datos en general.
figura n 341
e) ahora vamos a inpeccionar los datos por separado, es decir en cada uno de los mercados
locales, para lo cual agregamos otro nodo time plot y lo conectamos con el nodo filter,
ahora le da doble clic al nodo time plot y coloca los valores como se muestra en la figura n
342 y para finalizar presiona el botón execute en donde nos mostrara una ventana como la
figura n 343, en donde se puede observar una elevada alza de suscripciones en cada uno de
los mercados locales, aunque en algunos mercados las suscripciones son mas bajas.
Figura n 342
234
Figura n 343
f) ahora vamos a cambiar el tipo de dato string al tipo de dato date del campo date_, para lo
cual agregamos un nodo filler y lo enlazamos con el nodo filter, ahora le da doble clic al
nodo filler y coloca los valores como se muestra la figura n 344.
Figura 344
g) Antes de continuar con el desarrollo de este caso, vamos a cambiar el valor de fecha por
defecto que tiene el software para lo cual vamos a la opción tool-stream properties-options,
y colocamos los valores como se muestra la figura n 345
Figura n 345
h) Ahora agregue un nodo type y lo conecta con el nodo filler, luego le da doble clic al
nodo type y coloca los valores como se muestra la figura n 346, en donde todos los campos
son asignados como salida, exepto el campo date_ que as sido asignado como none.
figura n 346
236
i) ahora vamos agregar un nodo time intervals de la categoría field ops y lo unimos con en
nodo type, luego damos doble clic al nodo time intervals y colocamos los valores como se
muestra en la figura n 347, en donde escogemos que los tiempos de intervalos se dean en
meses y que los valores sean tomados del archivo, en donde elegimos el campo date_
figura n 347
figura n 348
j) Ahora nos vamos a la categoría modeling, seleccionamos el nodo time series y luego lo
conectamos con el nodo time intervals, ahora le da doble clic a nodo time series y deja los
valores por defecto y el método expert modeler para que busque el método mas adecuado
para cada uno de las series de tiempo como se muestra la figura n 349 y luego presionamos
el botón execute.
Figura n 349
Ahora agregue el diamante que se ah generado con el nombre de 7 fields y conéctelo con el
nodo time intervales y también añada un nodo table y conéctelo con el nodo diamante,
como se muestra la figura n 350, si le da doble clic al nodo table se genera una ventana
como se muestra la figura n 351, en donde se visualiza 3 registros nuevos(61,62,63) que se
han acoplando a los datos originales que representan a los periodos enero, febrero y marzo
del 2014, además se han añadido nuevas columnas como $TI_ columns que ah sido
añadido por el nodo time intervals, columnas $TS_ columns que ah sido añadido por el
nodo time series.
Figura n 350
238
figura n 351
k) Las columnas más importantes para el funcionamiento de previsión son los $TS-
Market_n, $TSLCI-Market_n y $TSUCI-Market_n columnas. En particular, estas columnas
entre las filas 61 a 63 contienen los datos de previsión de suscripción de usuario y los
intervalos de confianza para cada uno de los mercados locales. Si queremos ver los
modelos que se ah generado para cada uno de los mercados locales le damos doble clic al
diamante 7 fields, para visualizar los damos como lo muestra la figura n 352, en donde se
puede apreciar que para los mercados locales del 1 al 4 se ah generado el modelo holts
linear trend y para los mercados locales 5 y 6 se ah generado el modelo winters additive,
tambie se puede observar en la columna predictors la cantidad de columnas que se han
usado como predictoras para cada objetivo en cada uno de los casos es igual a cero, La
columna StationaryR**2 muestra el valor R cuadrado estacionaria. Esta estadística
proporciona una estimación de la proporción de la variación total en la serie que se explica
por el modelo. Cuanto mayor sea el valor (hasta un máximo de 1,0), mejor será el ajuste del
modelo.
En el grafico también podemos determinar que valores para Mercado_2 y Mercado_4 y
Mercado_6, están a menos de 0,05, lo que indica que algunos experimentos con modelos
239
más ajustados para estos mercados podría ser necesario.
Figura n 352
l) ahora vamos analizar los datos reales con respecto a los datos predichos relacionados con
los mercados nacionales 1, para los cuales agregamos un nodo time plot y lo conectamos
con el diamante 7 fields, ahora le da doble clic al nodo time plot y coloca los valores como
se muestra la figura n 353, en donde se ah seleccionado los valores reales y valores
predichos del mercado local 1, para luego presionar el botón execute para que nos visualice
una ventana como se muestra la figura n 354 en donde se observa que las suscripciones
para el mes de enero del 2014 va ser de 11563, para el mes de febrero del 2014 va ser de
11576,estos valores antes mencionados son los pronósticos de las suscripciones para el
mercado local 1.
figura n 353
240
también podemos ver que las líneas para datos reales y previstos de toda la serie temporal
están muy juntos en el gráfico, lo que indica que este es un modelo fiable para esta serie de
tiempo particular.
Figura n 354
m) volvemos a dar doble clic al diamante 7 fields y agregamos los campos como se muestra
al figura n 355, en donde se ha agregado dos campos mas que representan el valor inferior
de confianza y valor superior de confianza del valor predicho, y luego le da doble clic al
botón execute en donde se mostrara una ventana como la figura n 356, en donde se mostrar
un grafico con 4 lineas que representan los valores reales, los valores predichos, y además
los valores de confianza minimo y máximo.
figura n 355
241
figura n 356
BIBLIOGRAFIA
[1] Romero, C. and Ventura, S. (2007) „Educational data Mining: A Survey from 1995 to
2005‟, Expert Systems with Applications (33), pp. 135-146.
[2] Ruba Alkhasawnehy Rosalyn Hobson, Modeling Student Retention in Science and
Engineering Disciplines Using Neural Networks, IEEE Global Engineering Education
Conference (EDUCON)–"Learning Environments and Ecosystems in Engineering
Education" 2011. 242
[3] Ashutosh Nandeshwar, Tim Menzies, and Adam Nelson, Learning patterns of university
student retention, Expert Systems with Applications 38 (2011) 14984–14996.
[4] Mario Jadrić, Željko Garača and Maja Ćukušić, Student Dropout Analysis with
Application of data Mining Methods, Management, Vol. 15, 2010, 1, pp. 31-46.
[5] Ioanna Lykourentzou, Ioannis Giannoukos, Vassilis Nikolopoulos, George Mpardis and
VassiliLoumos, Dropout prediction in e-learning courses through the combination of
machine learning techniques, Computers & Education.
[6] Gerben W. Dekker, MykolaPechenizkiy y Jan M. Vleeshouwers, Predicting Students
Drop Out: A Case Study, Educational Data Mining 2009.
[7] Joe J.J. Lin,P.K. Imbrie y Kenneth J. Reid, Student Retention Modelling: An Evaluation
of Different Methods and their Impact on Prediction Results, Engineering Education
Symposium 2009.
[8]WilairatYathongchai, ChusakAthongchay, KittisakKerdprasopyNittayaKerdprasop,
Factor Analysis with Data Mining Technique in Higher Educational Student Drop Out,
Latest Advances in Educational Technologies.
[9]Levin,J.,&Wycokoff,J.(1991).Predicting persistence and success in baccalaurate
engineering.Education,111(4),461-468.
[10]Schaeffers, K. G., Epperson, D. L., &Nauta, M. M. (1997). Women's Career
Development: Can Theoretically Derived Variables Predict Persistence in
Engineering Majors Journal of Counseling Psychology, V. 44, pp. 173-183.
[12]Besterfield-Sacre, M., Shuman, L., Wolfe, H., Scalise, A., Larpkiattaworn, S.,
Muogboh, O. S., et al. (2002).Modeling for Educational Enhancement and Assessment.
Paper presented at the Annual Conference of American Society for Engineering
Education.
[13]French,B.F.,Immekus,J.C., y Oakes,W.C.(2005).An Examination of Indicators of
Engineering Students' Success and Persistence. Journal of Engineering
Education,p.419-425
243
[14]Schaeffers,K.G.,Epperson,D.L., y Nauta,M.M.(1997).Women's Career Development:
Can Theoretically Derived Variables Predict Persistence in Engineering Majors?
Journal of Counseling Psychology,V.44,pp.173-183.
[15]Pascarella,E.T., y Terenzini,P.T.(1983).Predicting Voluntary Freshman Year
Persistence/Withdrawal Behaviorina Residential University :A Path Analytic
Validation of Tinto's Model. Journal of Educational Psychology,V.75(2),p.215-226.
[16] Fuertes,J. , y Sedlacek, W.(1994). Using the SAT and Non cognitive Variables to
Predict the Grades and Retention of Asian American University Students.Measurement
and Evaluation in Counseling & Development,V.27,p.74-84.
[17]Burtner,J.(2005).The Use of Discriminant Analysis to Investigate the Influence of Non-
Cognitive Factors on Engineering School Persistence. Journal of Engineering
Education,July2005.
[18]Aitken,N.D.(1982). College Student Performance , Satisfaction and Retention:
Specification and Estimation of a Structural Model.Journal of Higher
Education,v53(n1),p32-50.
[19]Nora, A., Attinasi, L.C., y Matonak,A.(1990).Testing Qualitative Indicators of
Precollege Factors in Tinto's Attrition Model: A Community College Student
Population. Review of Higher Education,V.13(3),P.337.
[20]Cabrera, A., Nora, A., y Castaneda, M. (1993).College Persistence: Structural Equation
Modeling Test of an Integrated Model of Student Retention. Journal of Higher
Education, vol. 64, pp. 123-129.
[21]French, B. F., Immekus, J. C., y Oakes, W. (2003).A structural model of engineering
students success and persistence. Paper presented at the Frontiers in Education, 2003
[22] Kukar, M., Kononenko, I. ,Groselj, C. ,Kralj, K. , y Fettich, J. (1999). Analysing and
improving the diagnosis of ischaemic heart disease with machine learning.
ArtifIntellMed,16(1),25-50.
[23] Coit, D. W., Jackson, B. T., y Smith, A. E. (1998). Static neural network process
models: considerations and case studies. International Journal of Production Research,
36(11), 2953-2967.
[24] Imbrie, P. K., Lin, J. J., y Malyscheff, A. (2008). Artificial Intelligence Methods to
244
Forecast Engineering Students‟ Retention based on Cognitive and Non-cognitive
Factors. Paper presented at the Annual Conference of American Society for
Engineering Education, 2008.
[25] B. Gaskins,A Ten-Year Study of the Conditional Effects on Student Success in the
First Year of College, Bowling Green State University, 2009.
[26] J. Lin, et al., Student Retention Modelling : An Evaluation of Different Methods and
their Impact on Prediction Results, in Proc. of the Research in Engineering Education
Symposium Palm Cove, QLD, 2009.
[27] N. Nghe, et al., A comparative analysis of techniques for predicting academic
performance, 2007. ,37th ASEE/IEEE Frontiers in Education Conference, octubre
2010
[28] G. Mendez, et al., Factors associated with persistence in science and engineering
majors: An exploratory study using classification trees and random
forests,JOURNAL OF ENGINEERING EDUCATION-WASHINGTON-, vol. 97, p.
57, 2008.
[29]S. Ayesha, T. Mustafa, A.R. Sattar, and M.I. Khan, Data Mining Model for Higher
Education System, European Journal of Scientific Research, Vol.43, No.1, 2010,
pp.24-29.
[30]S. Sembiring, M. Zarlis, D. Hartama, R. S and E. Wani, Prediction of Student
Academic Performance by an Application of Data Mining Techniques. Proceedings of
International Conference on Management and Artificial Intelligence, 2011, pp.110-
114.
[31]X. Wu, H. Zhang y H. Zhang, Study of Comprehensive Evaluation Method of
Undergraduates Based on Data Mining, Proceedings of International Conference on
[56] Ryan S.J.d. Baker, Data Mining for Education, Carnegie Mellon University,
Pittsburgh, Pennsylvania, USA
[57]Chapman P., Clinton J., Kerber R., Khabaza T., Reinartz T., Shearer C. y Wirth R.
(2000). CRISP-DM 1.0 Step-by-step Data Mining Guide.
Disponible en :<http://www.crisp-dm.org/CRISPWP-0800.pdf>. Última consulta el
28.04.2011
[58] Spady, W. (1970). Dropouts from Higher Education: An Interdisciplinary Review and
247
Synthesis. Interchange, 1, 64-65
[59] Tinto, V. (1998). Colleges as Communities: Taking Research on Student Persistence
Seriously. The Review of Higher Education, 21 (2), 167-177.
[60] Tinto, V. (1982). Limits of Theory and Practice in Student Attrition.Journal of
HigherEducation, 53 (6), 687-700.
[61] Giovagnoli, P. (2002). Determinantes de la deserción y graduación universitaria: una
aplicación utilizando modelos de duración, Documento deTrabajo 37, Universidad
Nacional de la Plata
[62]Castaño, E., Gallón, S, Gómez, K. & Vásquez, J. (2004). Deserción estudiantil
universitaria: una aplicación de modelos de duración. Lecturas de Economía, 60, 41-
65.
[63]Tinto, V. (1989). Definir la deserción: una cuestión de perspectiva. Revista deEducación
SuperiorNº 71, ANUIES, México
[64]Tinto, V. (1990). Principles of EffectiveRetention. Journal of the Freshmen Year
Experience, 2 (1), 35-48.
[65] Bean, J. (1980). Dropouts and Turnover: The Synthesis and Test of a Casual Model of
Student Attrition. Research in Higher Education, 12, 155-187.
[66] Spady, W. (1970). Dropouts from Higher Education: An Interdisciplinary Review and
Synthesis. Interchange, 1, 64-65
[67] Tinto, V. (1975). Dropouts from Higher Education: A Theoretical Synthesis of the
Recent Literature. A Review of Educational Research, 45, 89-125.
[68] Cabrera, A., Nora, A. & Castañeda, M. (1993). Collage Persistence: Structural
Equations Modelling Tests of an Integrated Models Student Retention.
The Journal of Human Resources, 64, 123-139