Está en la página 1de 15

Introduccin a la Minera de Datos con IBM SPSS Modeler

ANEXO

Nuevas caractersticas de IBM SPSS Modeler 17

IBM SPSS Modeler aade los siguientes nodos:

Nodo de origen geoespacial. Le permite importar datos de mapa o datos


geoespaciales a una sesin de minera de datos desde un archivo shape (.shp) o
mediante una conexin a un servidor ESRI.

Nodo de modelado de reglas de asociacin. Es una modalidad de proceso Apriori.


Este nodo le permite trabajar con el nuevo tipo de almacenamiento Lista y utilizar
IBM SPSS Analytic Server para aumentar la potencia de proceso.

Nodo de modelado de prediccin espacio-temporal (STP). Le permite analizar


mediciones realizadas a lo largo del espacio y del tiempo y predecir valores en
cualquier ubicacin dentro de los datos shape que se utilizan en el anlisis.

Nodo de reproyeccin. Elementos tales como las funciones espaciales del creador
de expresiones, el nodo STP (Spatio-Temporal Prediction) y el nodo de
visualizacin de mapa utilizan un sistema de coordenadas proyectadas. Por tanto,
cualquier dato importado que se registre con un sistema de coordenadas geogrficas
se debe reproyectar.

Nodo Derivar, Rellenar y Fusionar.


Actualizaciones para habilitar la nueva capacidad
para procesar datos de lista, incluido el nuevo tipo
de almacenamiento Lista y los nuevos tipos de
mediciones Coleccin y Geoespacial.

Nuevas caractersticas de IBM SPSS Modeler 17 - 433


Introduccin a la Minera de Datos con IBM SPSS Modeler

Nodo TCM. El nuevo nodo TCM (Temporal Causal Modeling) es un conjunto de


mtodos que intentan descubrir relaciones temporales claves en datos de serie temporal.
El nodo TCM encuentra relaciones existentes entre series separadas; tambin predice las
entradas as como los objetivos de forma que no son necesarios valores futuros para las
entradas para puntuar el modelo.

Nodo de visualizacin de mapa. Le permite procesar varias conexiones de entrada y


mostrar datos geoespaciales en un mapa en forma de una serie de capas.

Nuevas funciones de CLEM. Se han aadido


varias funciones espaciales nuevas de CLEM al
creador de expresiones de IBM SPSS Modeler para
habilitar la nueva capacidad para procesar datos
geoespaciales.

434 - Nuevas caractersticas de IBM SPSS Modeler 17


Introduccin a la Minera de Datos con IBM SPSS Modeler

Modelado geoespacial
Las tcnicas de modelado geoespacial estn diseadas para descubrir patrones de datos que incluyen
un componente geoespacial (mapa). El sistema de modelado geoespacial proporciona mtodos para
analizar datos geoespaciales con y sin un componente de tiempo.

1. Modelo de Reglas de asociacin geoespacial


Busca asociaciones basadas en datos de evento y geoespaciales. Mediante reglas de asociacin
geoespacial, puede encontrar patrones en datos que se basan en las propiedades espaciales y no
espaciales. Por ejemplo, podra identificar patrones en datos de delincuencia por ubicacin y atributos
demogrficos. A partir de estos patrones, podr generar reglas que predicen dnde es ms probable
que se vayan a producir determinados tipos de delitos.

Nodo Reglas de asociacin

Las reglas de asociacin son sentencias con el formato siguiente:

si condicin(es) entonces prediccin(es)

Por ejemplo, "Si un cliente compra una cuchilla y una locin para despus del afeitado, hay un 80% de
probabilidad de que el cliente compre tambin crema de afeitado". El nodo Reglas de asociacin
extrae un conjunto de reglas a partir de los datos, extrayendo las reglas con el contenido de
informacin ms alto. El nodo Reglas de asociacin es muy similar al nodo Apriori, pero existen
algunas diferencias importantes:

El nodo Reglas de asociacin no puede procesar datos transaccionales.


El nodo Reglas de asociacin puede procesar datos cuyo tipo de almacenamiento es Lista y
cuyo nivel de medicin es Coleccin.
El nodo Reglas de asociacin se puede utilizar con IBM SPSS Analytic Server. Esto
proporciona escalabilidad y significa que el usuario puede procesar datos grandes y sacar
provecho del proceso en paralelo, que es ms rpido.
El nodo Reglas de asociacin proporciona valores adicionales, tales como la capacidad de
restringir el nmero de reglas que se generan, aumentando as la velocidad de proceso.
La salida del nugget de modelo se muestra en el Visor de la salida.

Criterios de Reglas de Asociacin

Soporte de regla: La proporcin de elementos para los que toda la regla, las condiciones y las
predicciones son verdaderas. Para todos los elementos del conjunto de datos, el porcentaje que
la regla contabiliza correctamente y predice. Esta medida da una importancia general para la
regla. Crea una tabla que contiene las mejores reglas de asociacin N basadas en el soporte de
reglas que se van a incluir en la salida (donde N es el valor Reglas para mostrar).

Nuevas caractersticas de IBM SPSS Modeler 17 - 435


Introduccin a la Minera de Datos con IBM SPSS Modeler

Confianza: La confianza es la proporcin entre soporte de regla y soporte de condicin. De


los elementos con los valores de condicin listados, el porcentaje que tiene los valores
consecuentes predichos. Crea una tabla que contiene las mejores N reglas de asociacin que
se basan en la confianza que se incluirn en la salida (donde N es el valor de Reglas a
visualizar).
Elevacin: La proporcin de confianza de regla y probabilidad previa de tener la prediccin.
La proporcin del valor de confianza para una regla en comparacin con el porcentaje de
sucesos de los valores consecuentes en la poblacin global. Esta proporcin ofrece una
medida de cunto mejora la regla por encima de lo normal. Crea una tabla que contiene las
mejores N reglas de asociacin que se basan en la elevacin que se incluirn en la salida
(donde N es el valor de Reglas a visualizar).
Soporte de condiciones: La proporcin de elementos para los que son ciertas (true) las
condiciones. Crea una tabla que contiene las mejores N reglas de asociacin que se basan en
el soporte de antecedente que se incluirn en la salida (donde N es el valor de Reglas a
visualizar).
Capacidad de despliegue: Una medida de qu porcentaje de los datos de entrenamiento
satisface la condicin, pero no la prediccin. Esta medida muestra la frecuencia de desaciertos
de la regla. Es efectivamente el opuesto de la confianza. Crea una tabla que contiene las
mejores N reglas de asociacin que se basan en la capacidad de despliegue que se incluirn en
la salida (donde N es el valor de Reglas a visualizar).

Ejemplo:

Se desea identificar patrones delictivos en 51 zonas dentro de la ciudad de Dallas (Texas, EE.UU.),
segn sus atributos y/o caracterisiticas, para finalmente obtener un mapa del delito.

Para ello utilizaremos los nodos correspondientes del anlisis geoespacial y del modelo de reglas de
asociacin.

La informacin que analizaremos se encuentra en CrimeTracts.sav. En la figura 1.1 se observa las


variables, segn la pestaa Tipos del nodo Origen CrimeTracts.sav:

436 - Nuevas caractersticas de IBM SPSS Modeler 17


Introduccin a la Minera de Datos con IBM SPSS Modeler

Figura 1.1

En la figura 1.1, se observan las diversas variables como: ID de la localidad, longitud y latitud, tamao
en metros, cantidad de poblacin, cantidad de hogares, personas por residencia, densidad de poblacin,
ratio de probreza, valor de la propiedad,, finalmente el tipo de crimen.

Conectando un grafico de distribucin al nodo origen y colocando en campo la variable


CrimeType, se obtiene el siguiente grafico (Figura 1.2) de los tipos de delito:

Figura 1.2

Al nodo Origen CrimeTracts.sav conectamos un nodo Derivar donde colocamos el nombre point y en
tipo de campo damos click a Especificar:

Figura 1.3

Nuevas caractersticas de IBM SPSS Modeler 17 - 437


Introduccin a la Minera de Datos con IBM SPSS Modeler

Seleccionamos la medida Geoespacial, tipo Punto y el Sistema de coordenadas


GCS_North_American_1983

Figura 1.4

Ahora aadimos el nodo Origen Geoespacial y seleccionamos el archivo Mapdat.shp. Aadimos un


nodo Fusionar y lo conectamos desde los nodos Derivar point y Origen Mapdata.shp

Dentro del nodo Fusionar, en la pestaa Fundir, seleccionamos el mtodo de fusin Condicin
clasificada y en Conjunto de datos primario seleccionamos CrimeTracts.sav

Figura 1.5

Al nodo Fusionar conectamos el nodo de modelado Reglas de asociacin y realizamos las siguientes
especificaciones:

438 - Nuevas caractersticas de IBM SPSS Modeler 17


Introduccin a la Minera de Datos con IBM SPSS Modeler

En la pestaa Campos seleccionamos Utilizar asignaciones de


campo personalizadas y movemos los campos de la siguiente
forma:
- En Solo prediccin colocamos la variable Crime Type
- En Solo condicin colocamos las variables
PersonsPerResidence, PovertyRate y PropertyValue

En la pestaa Opciones de creacin, modificamos lo siguiente


segn los elementos:

Generacin de reglas:
- Generacin de reglas: Numero mximo de reglas: 12
- Criterio de regla: Habilitamos el criterio de reglas
Confianza (%): 5
Soporte de reglas (%): 1
Soporte de condiciones (%): 1
Elevacin: 1

Transformaciones:
- Intervalos: Nmero de intervalos: 2

Resultado:
- Nube de palabras de reglas clasificables: Crear una nube de palabras clasificables

Ejecutamos el nodo y se obtiene el diamante, damos doble click al diamante:

Informacin del modelo

Configuracin de creacina
Nmero mximo de reglas 12
Soporte de condicin mnima 0,01
Confianza mnima 0,05
Soporte de reglas mnimo 0,01
Elevacin mnima 1,00
Nmero mximo de elementos en una regla 10
Nmero mximo de elementos en una condicin 5
Nmero mximo de elementos en una prediccin 1
Utilizar slo valor True para campos de distintivo Verdadero
Permitir reglas sin condiciones Falso
Medicin de evaluacin ordenando las reglas Confianza
a. El nmero de elementos mximo especificado en una regla no se ha alcanzado debido a un
nmero insuficiente de conjuntos de elementos frecuentes en niveles anteriores.

En la informacin del modelo observamos el resumen de las configuraciones que realizamos en el


nodo del modelo Reglas de asociacin.

Nuevas caractersticas de IBM SPSS Modeler 17 - 439


Introduccin a la Minera de Datos con IBM SPSS Modeler

Evaluacin

Estadsticas de reglasa,b

Mediciones Mnima Mximo Promedio Desviacin estndar


Soporte de condiciones (%) 2,20 65,45 22,52 25,69
Confianza (%) 9,96 100,00 64,21 41,73
Soporte de reglas (%) 2,20 24,78 5,94 6,77
Elevacin 1,01 8,47 5,10 3,87
Capacidad de despliegue (%) 0,00 57,66 16,59 20,80
a. El nmero de reglas es 11
b. El nmero de registros de origen de datos de sucesos vlidos es 4.185

Informacin para elementos ms frecuentesa,b

Nombre de elemento Registros (%) Condiciones (%) Predicciones (%)


PersonsPerResidence > 2,421 65,45 18,18 0,00
CrimeType = MinorTheft 35,77 0,00 9,09
PersonsPerResidence 2,421 34,55 54,55 0,00
CrimeType = MajorTheft 22,13 0,00 9,09
CrimeType = AutoTheft 20,74 0,00 9,09
CrimeType = Violent 11,80 0,00 63,64
CrimeType = ArmedRobbery 9,56 0,00 9,09
PovertyRate > 52,525 2,20 36,36 0,00
PropertyValue 97.927,000 2,20 36,36 0,00
a. "Condiciones(%)" significa el porcentaje de reglas que este elemento tiene en las condiciones
b. "Predicciones(%)" significa el porcentaje de reglas que este elemento tiene en la prediccin

En la parte de Evaluacin, observamos las estadsticas de las reglas donde observamos que el
promedio de confianza es del 64.21% y promedio de elevacin mayor a 1, lo cual indica que las
predicciones estn relacionadas con las condiciones.

440 - Nuevas caractersticas de IBM SPSS Modeler 17


Introduccin a la Minera de Datos con IBM SPSS Modeler

Interpretacin

Tabla de reglas

Reglas ms interesantes por Confianza


Ordenado Otras estadsticas de evaluacin
por Soporte de Soporte Capacidad de
ID de Confianza condiciones de reglas despliegue
Clasificacin regla Condicin Prediccin (%) (%) (%) Elevacin (%)
1 CrimeType =
1 PovertyRate > 52,525 100,00 2,20 2,20 8,47 0,00
Violent
2 PropertyValue CrimeType =
2 100,00 2,20 2,20 8,47 0,00
97.927,000 Violent
3 PersonsPerResidence
CrimeType =
3 2,421 100,00 2,20 2,20 8,47 0,00
Violent
PovertyRate > 52,525
4 PersonsPerResidence
2,421 CrimeType =
4 100,00 2,20 2,20 8,47 0,00
PropertyValue Violent
97.927,000
5 PovertyRate > 52,525
CrimeType =
5 PropertyValue 100,00 2,20 2,20 8,47 0,00
Violent
97.927,000
6 PersonsPerResidence
2,421
CrimeType =
6 PovertyRate > 52,525 100,00 2,20 2,20 8,47 0,00
Violent
PropertyValue
97.927,000
7 PersonsPerResidence CrimeType =
7 37,86 65,45 24,78 1,06 40,67
> 2,421 MinorTheft
8 PersonsPerResidence CrimeType =
8 24,97 34,55 8,63 1,13 25,93
2,421 MajorTheft
9 PersonsPerResidence CrimeType =
9 21,65 34,55 7,48 1,04 27,07
2,421 AutoTheft
10 PersonsPerResidence CrimeType =
10 11,90 65,45 7,79 1,01 57,66
> 2,421 Violent
11 PersonsPerResidence CrimeType =
11 9,96 34,55 3,44 1,04 31,11
2,421 ArmedRobbery

Debido que en el nodo de Reglas de asociacion se considero el criterio de regla de Solo puntuar
reglas cuando no haya predicciones en la entrada, la primera variable de prediccin, que tiene las
mayores confianzas, considera las reglas 7, 8, 9 y 10.

Para visualizar las reglas de la primera variable de prediccin,


seleccionamos una muestra del 45% con semilla 1234, luego
colocamos un nodo origen geoespacial importando el archivo
mapdata.shp

Nuevas caractersticas de IBM SPSS Modeler 17 - 441


Introduccin a la Minera de Datos con IBM SPSS Modeler

Colocamos el nodo visualizacion de mapa, y lo conectamos primero desde el nodo muestra y luego
del nodo geoespacial. Dentro del nodo de visualizacin de mapa personalizamos:
Grafico: editamos la primera capa
Detalles de entrada: En color seleccionamos Superposicion y escogemos la variable
$A-CrimeType-1

Observamos en el mapa las predicciones de los tipos de crimen AutoTheft (8.94%), MajorTheft
(26.48%), MinorTheft (39.81%) y Violent (24.77%)

442 - Nuevas caractersticas de IBM SPSS Modeler 17


Introduccin a la Minera de Datos con IBM SPSS Modeler

2. Modelo de Prediccin espaciotemporal


Nodo Prediccin espacio-temporal

La prediccin espacio-temporal (STP) tiene muchas posibles aplicaciones, tales como la


gestin de energa para edificios o instalaciones, el anlisis y previsin del rendimiento para
ingenieros de servicios mecnicos o la planificacin del transporte pblico. En estas
aplicaciones, las mediciones, tales como el uso de la energa, a menudo se obtienen a lo largo del espacio
y el tiempo. Las cuestiones que pueden ser importantes para el registro de estas mediciones incluyen
determinar qu factores afectarn a las observaciones futuras, y qu se puede hacer para producir un
cambio deseado o gestionar mejor el sistema. Para abordar estas cuestiones, puede utilizar tcnicas
estadsticas para predecir valores futuros en ubicaciones diferentes, y puede ajustar explcitamente
factores para realizar anlisis de hiptesis.

El anlisis de STP utiliza datos de ubicacin, campos de entrada para predicciones (predictores), un
campo de tiempo y un campo objetivo. Cada ubicacin tiene muchas filas de datos que representan los
valores de cada predictor para cada tiempo de medicin. Despus de analizar los datos, se pueden utilizar
para predecir valores en cualquier ubicacin dentro de los datos shape utilizados en el anlisis. El anlisis
de STP tambin puede realizar previsiones cuando se conocen los datos de entrada para puntos
especficos en el tiempo.

Ejemplo:
El alcalde de la ciudad de Dallas requiere disminuir el ndice de pobreza en todas sus localidades. Se
tiene data histrica de 6 meses del ndice de pobreza, valor de propiedad y poblacin, por cada zona
geogrfica. Con ello se quiere predecir en nivel de pobreza en los prximos 3 meses.
Para desarrollar el modelo espacio-temporal se utilizar la data poverty_train.sav y luego se har la
prediccin en la data poverty_test.sav.

Colocamos en el nodo origen Archivo de Statistics e importamos el archivo povert_train.sav.

Nuevas caractersticas de IBM SPSS Modeler 17 - 443


Introduccin a la Minera de Datos con IBM SPSS Modeler

Luego conectamos un nodo Derivar, donde colocamos el


nombre de point y especificamos el Tipo de campo como
nivel de medida Geoespacial, tipo Punto y sitema de
coordenadas GCS_North_American_1983.
En formulas colocamos como lista la longitud y latitud,
entonces colocamos [Longitude, Latitude]

Luego del nodo Derivar conectamos el nodo STP donde


personalizamos de la siguiente forma:
En Campos:
Destino: PovertyRate
Ubicacin: point
Campo de hora: DateTT
Predictores: PropertyValue y Population.

En Opciones de creacin:
Intervalo de tiempo: Meses
Informacin bsica/Covarianza espacial/Metodo de
estimacin: Parametrico, modelo Gaussiano.

Finalmente ejecutamos, y damos doble clik al diamante.

444 - Nuevas caractersticas de IBM SPSS Modeler 17


Introduccin a la Minera de Datos con IBM SPSS Modeler

Prueba de la covarianza espacial

H0 : Modelo no parametrico
H1 : Modelo parametrico

La prueba de la covarianza espacial es uno de los criterios que se utilizan para determinar si un modelo
paramtrico basado en variograma es apropiado. Si el nivel de significacin de esta estadstica de
prueba es mayor que 0,05, se utiliza un modelo emprico no paramtrico. En este ejemplo, el valor de
significacin ("Sig.") es mayor a 0,05.

Mapa de calor de correlaciones

Observamos el mapa de calor de correlaciones por cada regin. En el mapa puede seleccionar
cualquier punto de coordenadas y automticamente observar las 5 regiones con mayor correlacin
espacial, asi como su coviaranza espacial.

Mapa de calor de correlaciones

Se puede seleccionar un mximo de cinco regiones en el mapa de correlaciones. Una matriz de


correlacin espacial, una matriz de covarianza espacial, y un grfico de series temporales se muestran
para las regiones seleccionadas.

Nuevas caractersticas de IBM SPSS Modeler 17 - 445


Introduccin a la Minera de Datos con IBM SPSS Modeler

En la pestaa de series temporales observamos las tendencias del indice de pobreza de las regione ms
correlacionadas.

Ahora utilizaremos el modelo obtenido para pronosticar eventos futuros.

Aadimos a la ruta el nodo origen de Statistics importando el archivo


poverty_test.sav. Luego copiamos y pegamos el nodo Derivar point y
lo conectamos seguido del nodo origen poverty_test.sav. Seguido del
nodo point conectamos el diamante obtenido. Colocando una tabla se
observaran los pronsticos del indicador de pobreza.

Ahora queremos ver el contraste de las tendencias del ndice de probreza de fecha 2013-09-01 con el
ndice de pobreza pronosticado de fecha 2014-05-01, en un grafico de mapa geoespacial.

446 - Nuevas caractersticas de IBM SPSS Modeler 17


Introduccin a la Minera de Datos con IBM SPSS Modeler

Seleccionamos la fecha 2013-09-01, seguido del primer


diamante. Aadimos el nodo Visualizacion de mapa y el
nodo de origen geoespacial importando el archivo
mapdata.shp. Al nodo de Visualizacion de mapa lo
conectamos primero desde el nodo seleccionar y luego del
nodo geoespacial. En el nodo de Visualizacion de mapa
seleccionamos la variable PovertyRate en la parte de color de
Detalles de entrada y ejecutamos.

A partir del segundo diamante seleccionamos la fecha 2014-


05-01 y realizamos las mismas conexiones con el nodo
origen geoespacial y el nodo visualizacin de mapas. En el
ultimo nodo seleccionamos la variable $STP-PovertyRate en la parte de color de Detalles de entrada y
ejecutamos.

2013-09-01 2014-05-01

El color rojo ms intenso indica mayores valores del ndice de pobreza, y se observa que en algunas
zonas el pronstico de dicho ndice es mayor.

Nuevas caractersticas de IBM SPSS Modeler 17 - 447