Está en la página 1de 15

Introducción a la Minería de Datos con IBM SPSS Modeler

ANEXO

Nuevas características de IBM SPSS Modeler 17

IBM® SPSS Modeler añade los siguientes nodos:

Nodo de origen geoespacial. Le permite importar datos de mapa o datos


geoespaciales a una sesión de minería de datos desde un archivo shape (.shp) o
mediante una conexión a un servidor ESRI.

Nodo de modelado de reglas de asociación. Es una modalidad de proceso Apriori.


Este nodo le permite trabajar con el nuevo tipo de almacenamiento Lista y utilizar
IBM SPSS Analytic Server para aumentar la potencia de proceso.

Nodo de modelado de predicción espacio-temporal (STP). Le permite analizar


mediciones realizadas a lo largo del espacio y del tiempo y predecir valores en
cualquier ubicación dentro de los datos shape que se utilizan en el análisis.

Nodo de reproyección. Elementos tales como las funciones espaciales del creador
de expresiones, el nodo STP (Spatio-Temporal Prediction) y el nodo de
visualización de mapa utilizan un sistema de coordenadas proyectadas. Por tanto,
cualquier dato importado que se registre con un sistema de coordenadas geográficas
se debe reproyectar.

Nodo Derivar, Rellenar y Fusionar.


Actualizaciones para habilitar la nueva capacidad
para procesar datos de lista, incluido el nuevo tipo
de almacenamiento Lista y los nuevos tipos de
mediciones Colección y Geoespacial.

Nuevas características de IBM SPSS Modeler 17 - 433


Introducción a la Minería de Datos con IBM SPSS Modeler

Nodo TCM. El nuevo nodo TCM (Temporal Causal Modeling) es un conjunto de


métodos que intentan descubrir relaciones temporales claves en datos de serie temporal.
El nodo TCM encuentra relaciones existentes entre series separadas; también predice las
entradas así como los objetivos de forma que no son necesarios valores futuros para las
entradas para puntuar el modelo.

Nodo de visualización de mapa. Le permite procesar varias conexiones de entrada y


mostrar datos geoespaciales en un mapa en forma de una serie de capas.

Nuevas funciones de CLEM. Se han añadido


varias funciones espaciales nuevas de CLEM al
creador de expresiones de IBM SPSS Modeler para
habilitar la nueva capacidad para procesar datos
geoespaciales.

434 - Nuevas características de IBM SPSS Modeler 17


Introducción a la Minería de Datos con IBM SPSS Modeler

Modelado geoespacial
Las técnicas de modelado geoespacial están diseñadas para descubrir patrones de datos que incluyen
un componente geoespacial (mapa). El sistema de modelado geoespacial proporciona métodos para
analizar datos geoespaciales con y sin un componente de tiempo.

1. Modelo de Reglas de asociación geoespacial


Busca asociaciones basadas en datos de evento y geoespaciales. Mediante reglas de asociación
geoespacial, puede encontrar patrones en datos que se basan en las propiedades espaciales y no
espaciales. Por ejemplo, podría identificar patrones en datos de delincuencia por ubicación y atributos
demográficos. A partir de estos patrones, podrá generar reglas que predicen dónde es más probable
que se vayan a producir determinados tipos de delitos.

Nodo Reglas de asociación

Las reglas de asociación son sentencias con el formato siguiente:

si condición(es) entonces predicción(es)

Por ejemplo, "Si un cliente compra una cuchilla y una loción para después del afeitado, hay un 80% de
probabilidad de que el cliente compre también crema de afeitado". El nodo Reglas de asociación
extrae un conjunto de reglas a partir de los datos, extrayendo las reglas con el contenido de
información más alto. El nodo Reglas de asociación es muy similar al nodo Apriori, pero existen
algunas diferencias importantes:

 El nodo Reglas de asociación no puede procesar datos transaccionales.


 El nodo Reglas de asociación puede procesar datos cuyo tipo de almacenamiento es Lista y
cuyo nivel de medición es Colección.
 El nodo Reglas de asociación se puede utilizar con IBM® SPSS Analytic Server. Esto
proporciona escalabilidad y significa que el usuario puede procesar datos grandes y sacar
provecho del proceso en paralelo, que es más rápido.
 El nodo Reglas de asociación proporciona valores adicionales, tales como la capacidad de
restringir el número de reglas que se generan, aumentando así la velocidad de proceso.
 La salida del nugget de modelo se muestra en el Visor de la salida.

Criterios de Reglas de Asociación

 Soporte de regla: La proporción de elementos para los que toda la regla, las condiciones y las
predicciones son verdaderas. Para todos los elementos del conjunto de datos, el porcentaje que
la regla contabiliza correctamente y predice. Esta medida da una importancia general para la
regla. Crea una tabla que contiene las mejores reglas de asociación N basadas en el soporte de
reglas que se van a incluir en la salida (donde N es el valor Reglas para mostrar).

Nuevas características de IBM SPSS Modeler 17 - 435


Introducción a la Minería de Datos con IBM SPSS Modeler

 Confianza: La confianza es la proporción entre soporte de regla y soporte de condición. De


los elementos con los valores de condición listados, el porcentaje que tiene los valores
consecuentes predichos. Crea una tabla que contiene las mejores N reglas de asociación que
se basan en la confianza que se incluirán en la salida (donde N es el valor de Reglas a
visualizar).
 Elevación: La proporción de confianza de regla y probabilidad previa de tener la predicción.
La proporción del valor de confianza para una regla en comparación con el porcentaje de
sucesos de los valores consecuentes en la población global. Esta proporción ofrece una
medida de cuánto mejora la regla por encima de lo normal. Crea una tabla que contiene las
mejores N reglas de asociación que se basan en la elevación que se incluirán en la salida
(donde N es el valor de Reglas a visualizar).
 Soporte de condiciones: La proporción de elementos para los que son ciertas (true) las
condiciones. Crea una tabla que contiene las mejores N reglas de asociación que se basan en
el soporte de antecedente que se incluirán en la salida (donde N es el valor de Reglas a
visualizar).
 Capacidad de despliegue: Una medida de qué porcentaje de los datos de entrenamiento
satisface la condición, pero no la predicción. Esta medida muestra la frecuencia de desaciertos
de la regla. Es efectivamente el opuesto de la confianza. Crea una tabla que contiene las
mejores N reglas de asociación que se basan en la capacidad de despliegue que se incluirán en
la salida (donde N es el valor de Reglas a visualizar).

Ejemplo:

Se desea identificar patrones delictivos en 51 zonas dentro de la ciudad de Dallas (Texas, EE.UU.),
según sus atributos y/o caracterisiticas, para finalmente obtener un mapa del delito.

Para ello utilizaremos los nodos correspondientes del análisis geoespacial y del modelo de reglas de
asociación.

La información que analizaremos se encuentra en CrimeTracts.sav. En la figura 1.1 se observa las


variables, según la pestaña Tipos del nodo Origen CrimeTracts.sav:

436 - Nuevas características de IBM SPSS Modeler 17


Introducción a la Minería de Datos con IBM SPSS Modeler

Figura 1.1

En la figura 1.1, se observan las diversas variables como: ID de la localidad, longitud y latitud, tamaño
en metros, cantidad de población, cantidad de hogares, personas por residencia, densidad de población,
ratio de probreza, valor de la propiedad,…, finalmente el tipo de crimen.

Conectando un grafico de distribución al nodo origen y colocando en campo la variable


“CrimeType”, se obtiene el siguiente grafico (Figura 1.2) de los tipos de delito:

Figura 1.2

Al nodo Origen CrimeTracts.sav conectamos un nodo Derivar donde colocamos el nombre point y en
tipo de campo damos click a Especificar…:

Figura 1.3

Nuevas características de IBM SPSS Modeler 17 - 437


Introducción a la Minería de Datos con IBM SPSS Modeler

Seleccionamos la medida Geoespacial, tipo Punto y el Sistema de coordenadas


GCS_North_American_1983

Figura 1.4

Ahora añadimos el nodo Origen Geoespacial y seleccionamos el archivo Mapdat.shp. Añadimos un


nodo Fusionar y lo conectamos desde los nodos Derivar “point” y Origen “Mapdata.shp”

Dentro del nodo Fusionar, en la pestaña Fundir, seleccionamos el método de fusión Condición
clasificada y en Conjunto de datos primario seleccionamos CrimeTracts.sav

Figura 1.5

Al nodo Fusionar conectamos el nodo de modelado Reglas de asociación y realizamos las siguientes
especificaciones:

438 - Nuevas características de IBM SPSS Modeler 17


Introducción a la Minería de Datos con IBM SPSS Modeler

 En la pestaña Campos seleccionamos Utilizar asignaciones de


campo personalizadas y movemos los campos de la siguiente
forma:
- En Solo predicción colocamos la variable Crime Type
- En Solo condición colocamos las variables
PersonsPerResidence, PovertyRate y PropertyValue

 En la pestaña Opciones de creación, modificamos lo siguiente


según los elementos:

Generación de reglas:
- Generación de reglas: Numero máximo de reglas: 12
- Criterio de regla: Habilitamos el criterio de reglas
 Confianza (%): 5
 Soporte de reglas (%): 1
 Soporte de condiciones (%): 1
 Elevación: 1

Transformaciones:
- Intervalos: Número de intervalos: 2

Resultado:
- Nube de palabras de reglas clasificables: Crear una nube de palabras clasificables

Ejecutamos el nodo y se obtiene el diamante, damos doble click al diamante:

Información del modelo

Configuración de creacióna
Número máximo de reglas 12
Soporte de condición mínima 0,01
Confianza mínima 0,05
Soporte de reglas mínimo 0,01
Elevación mínima 1,00
Número máximo de elementos en una regla 10
Número máximo de elementos en una condición 5
Número máximo de elementos en una predicción 1
Utilizar sólo valor True para campos de distintivo Verdadero
Permitir reglas sin condiciones Falso
Medición de evaluación ordenando las reglas Confianza
a. El número de elementos máximo especificado en una regla no se ha alcanzado debido a un
número insuficiente de conjuntos de elementos frecuentes en niveles anteriores.

En la información del modelo observamos el resumen de las configuraciones que realizamos en el


nodo del modelo Reglas de asociación.

Nuevas características de IBM SPSS Modeler 17 - 439


Introducción a la Minería de Datos con IBM SPSS Modeler

Evaluación

Estadísticas de reglasa,b

Mediciones Mínima Máximo Promedio Desviación estándar


Soporte de condiciones (%) 2,20 65,45 22,52 25,69
Confianza (%) 9,96 100,00 64,21 41,73
Soporte de reglas (%) 2,20 24,78 5,94 6,77
Elevación 1,01 8,47 5,10 3,87
Capacidad de despliegue (%) 0,00 57,66 16,59 20,80
a. El número de reglas es 11
b. El número de registros de origen de datos de sucesos válidos es 4.185

Información para elementos más frecuentesa,b

Nombre de elemento Registros (%) Condiciones (%) Predicciones (%)


PersonsPerResidence > 2,421 65,45 18,18 0,00
CrimeType = MinorTheft 35,77 0,00 9,09
PersonsPerResidence ≤ 2,421 34,55 54,55 0,00
CrimeType = MajorTheft 22,13 0,00 9,09
CrimeType = AutoTheft 20,74 0,00 9,09
CrimeType = Violent 11,80 0,00 63,64
CrimeType = ArmedRobbery 9,56 0,00 9,09
PovertyRate > 52,525 2,20 36,36 0,00
PropertyValue ≤ 97.927,000 2,20 36,36 0,00
a. "Condiciones(%)" significa el porcentaje de reglas que este elemento tiene en las condiciones
b. "Predicciones(%)" significa el porcentaje de reglas que este elemento tiene en la predicción

En la parte de Evaluación, observamos las estadísticas de las reglas donde observamos que el
promedio de confianza es del 64.21% y promedio de elevación mayor a 1, lo cual indica que las
predicciones están relacionadas con las condiciones.

440 - Nuevas características de IBM SPSS Modeler 17


Introducción a la Minería de Datos con IBM SPSS Modeler

Interpretación

Tabla de reglas

Reglas más interesantes por Confianza


Ordenado Otras estadísticas de evaluación
por Soporte de Soporte Capacidad de
ID de Confianza condiciones de reglas despliegue
Clasificación regla Condición Predicción (%) (%) (%) Elevación (%)
1 CrimeType =
1 PovertyRate > 52,525 100,00 2,20 2,20 8,47 0,00
Violent
2 PropertyValue ≤ CrimeType =
2 100,00 2,20 2,20 8,47 0,00
97.927,000 Violent
3 PersonsPerResidence
CrimeType =
3 ≤ 2,421 100,00 2,20 2,20 8,47 0,00
Violent
PovertyRate > 52,525
4 PersonsPerResidence
≤ 2,421 CrimeType =
4 100,00 2,20 2,20 8,47 0,00
PropertyValue ≤ Violent
97.927,000
5 PovertyRate > 52,525
CrimeType =
5 PropertyValue ≤ 100,00 2,20 2,20 8,47 0,00
Violent
97.927,000
6 PersonsPerResidence
≤ 2,421
CrimeType =
6 PovertyRate > 52,525 100,00 2,20 2,20 8,47 0,00
Violent
PropertyValue ≤
97.927,000
7 PersonsPerResidence CrimeType =
7 37,86 65,45 24,78 1,06 40,67
> 2,421 MinorTheft
8 PersonsPerResidence CrimeType =
8 24,97 34,55 8,63 1,13 25,93
≤ 2,421 MajorTheft
9 PersonsPerResidence CrimeType =
9 21,65 34,55 7,48 1,04 27,07
≤ 2,421 AutoTheft
10 PersonsPerResidence CrimeType =
10 11,90 65,45 7,79 1,01 57,66
> 2,421 Violent
11 PersonsPerResidence CrimeType =
11 9,96 34,55 3,44 1,04 31,11
≤ 2,421 ArmedRobbery

Debido que en el nodo de Reglas de asociacion se considero el criterio de regla de Solo puntuar
reglas cuando no haya predicciones en la entrada, la primera variable de predicción, que tiene las
mayores confianzas, considera las reglas 7, 8, 9 y 10.

Para visualizar las reglas de la primera variable de predicción,


seleccionamos una muestra del 45% con semilla 1234, luego
colocamos un nodo origen geoespacial importando el archivo
mapdata.shp

Nuevas características de IBM SPSS Modeler 17 - 441


Introducción a la Minería de Datos con IBM SPSS Modeler

Colocamos el nodo visualizacion de mapa, y lo conectamos primero desde el nodo muestra y luego
del nodo geoespacial. Dentro del nodo de visualización de mapa personalizamos:
Grafico: editamos la primera capa
Detalles de entrada: En color seleccionamos Superposicion y escogemos la variable
$A-CrimeType-1

Observamos en el mapa las predicciones de los tipos de crimen AutoTheft (8.94%), MajorTheft
(26.48%), MinorTheft (39.81%) y Violent (24.77%)

442 - Nuevas características de IBM SPSS Modeler 17


Introducción a la Minería de Datos con IBM SPSS Modeler

2. Modelo de Predicción espaciotemporal


Nodo Predicción espacio-temporal

La predicción espacio-temporal (STP) tiene muchas posibles aplicaciones, tales como la


gestión de energía para edificios o instalaciones, el análisis y previsión del rendimiento para
ingenieros de servicios mecánicos o la planificación del transporte público. En estas
aplicaciones, las mediciones, tales como el uso de la energía, a menudo se obtienen a lo largo del espacio
y el tiempo. Las cuestiones que pueden ser importantes para el registro de estas mediciones incluyen
determinar qué factores afectarán a las observaciones futuras, y qué se puede hacer para producir un
cambio deseado o gestionar mejor el sistema. Para abordar estas cuestiones, puede utilizar técnicas
estadísticas para predecir valores futuros en ubicaciones diferentes, y puede ajustar explícitamente
factores para realizar análisis de hipótesis.

El análisis de STP utiliza datos de ubicación, campos de entrada para predicciones (predictores), un
campo de tiempo y un campo objetivo. Cada ubicación tiene muchas filas de datos que representan los
valores de cada predictor para cada tiempo de medición. Después de analizar los datos, se pueden utilizar
para predecir valores en cualquier ubicación dentro de los datos shape utilizados en el análisis. El análisis
de STP también puede realizar previsiones cuando se conocen los datos de entrada para puntos
específicos en el tiempo.

Ejemplo:
El alcalde de la ciudad de Dallas requiere disminuir el índice de pobreza en todas sus localidades. Se
tiene data histórica de 6 meses del índice de pobreza, valor de propiedad y población, por cada zona
geográfica. Con ello se quiere predecir en nivel de pobreza en los próximos 3 meses.
Para desarrollar el modelo espacio-temporal se utilizará la data poverty_train.sav y luego se hará la
predicción en la data poverty_test.sav.

Colocamos en el nodo origen Archivo de Statistics e importamos el archivo povert_train.sav.

Nuevas características de IBM SPSS Modeler 17 - 443


Introducción a la Minería de Datos con IBM SPSS Modeler

Luego conectamos un nodo Derivar, donde colocamos el


nombre de point y especificamos el Tipo de campo como
nivel de medida Geoespacial, tipo Punto y sitema de
coordenadas GCS_North_American_1983.
En formulas colocamos como lista la longitud y latitud,
entonces colocamos [Longitude, Latitude]

Luego del nodo Derivar conectamos el nodo STP donde


personalizamos de la siguiente forma:
En Campos:
Destino: PovertyRate
Ubicación: point
Campo de hora: DateTT
Predictores: PropertyValue y Population.

En Opciones de creación:
Intervalo de tiempo: Meses
Información básica/Covarianza espacial/Metodo de
estimación: Parametrico, modelo Gaussiano.

Finalmente ejecutamos, y damos doble clik al diamante.

444 - Nuevas características de IBM SPSS Modeler 17


Introducción a la Minería de Datos con IBM SPSS Modeler

Prueba de la covarianza espacial

H0 : Modelo no parametrico
H1 : Modelo parametrico

La prueba de la covarianza espacial es uno de los criterios que se utilizan para determinar si un modelo
paramétrico basado en variograma es apropiado. Si el nivel de significación de esta estadística de
prueba es mayor que 0,05, se utiliza un modelo empírico no paramétrico. En este ejemplo, el valor de
significación ("Sig.") es mayor a 0,05.

Mapa de calor de correlaciones

Observamos el mapa de calor de correlaciones por cada región. En el mapa puede seleccionar
cualquier punto de coordenadas y automáticamente observará las 5 regiones con mayor correlación
espacial, asi como su coviaranza espacial.

Mapa de calor de correlaciones

Se puede seleccionar un máximo de cinco regiones en el mapa de correlaciones. Una matriz de


correlación espacial, una matriz de covarianza espacial, y un gráfico de series temporales se muestran
para las regiones seleccionadas.

Nuevas características de IBM SPSS Modeler 17 - 445


Introducción a la Minería de Datos con IBM SPSS Modeler

En la pestaña de series temporales observamos las tendencias del indice de pobreza de las regione más
correlacionadas.

Ahora utilizaremos el modelo obtenido para pronosticar eventos futuros.

Añadimos a la ruta el nodo origen de Statistics importando el archivo


poverty_test.sav. Luego copiamos y pegamos el nodo Derivar point y
lo conectamos seguido del nodo origen poverty_test.sav. Seguido del
nodo point conectamos el diamante obtenido. Colocando una tabla se
observaran los pronósticos del indicador de pobreza.

Ahora queremos ver el contraste de las tendencias del índice de probreza de fecha 2013-09-01 con el
índice de pobreza pronosticado de fecha 2014-05-01, en un grafico de mapa geoespacial.

446 - Nuevas características de IBM SPSS Modeler 17


Introducción a la Minería de Datos con IBM SPSS Modeler

Seleccionamos la fecha 2013-09-01, seguido del primer


diamante. Añadimos el nodo Visualizacion de mapa y el
nodo de origen geoespacial importando el archivo
mapdata.shp. Al nodo de Visualizacion de mapa lo
conectamos primero desde el nodo seleccionar y luego del
nodo geoespacial. En el nodo de Visualizacion de mapa
seleccionamos la variable PovertyRate en la parte de color de
Detalles de entrada y ejecutamos.

A partir del segundo diamante seleccionamos la fecha 2014-


05-01 y realizamos las mismas conexiones con el nodo
origen geoespacial y el nodo visualización de mapas. En el
ultimo nodo seleccionamos la variable $STP-PovertyRate en la parte de color de Detalles de entrada y
ejecutamos.

2013-09-01 2014-05-01

El color rojo más intenso indica mayores valores del índice de pobreza, y se observa que en algunas
zonas el pronóstico de dicho índice es mayor.

Nuevas características de IBM SPSS Modeler 17 - 447

También podría gustarte