Mineria de Datos

07/03/2008
MDULO 2: Sistemas de Soporte a la Decisin

DSS DSS Clementine WEKA DSS propios
Conceptos: (DSS) Decision Support Systems Sistemas expertos (Expert Systems) Minera de datos Inteligencia artificial Extraccin del conocimiento Generacin de patrones Toma de decisiones
Tecnologa Informtica y Biomedicina

DSS y los datos. KDD. Minera de datos
07/03/2008
Sistemas de soporte a la Decisin (DSS). Software y aplicaciones

Caractersticas que deben de incorporar el SW Facilidad de uso Escalabilidad Interfaz grfico Implementaciones propias de DSS ( por qu)

Bases de datos diferentes
Weka, Clementine,
07/03/2008

DSS Clementine Clementine WEKA DSS propios
El entorno de trabajo del SPSS Clementine El SPSS Clementine es una herramienta integrada de minera de datos, inicialmente de Integral Solutions Limited (ISL) y ahora de SPSS (www.spss.com). La versin 10.1 incluye las siguientes caractersticas: Diversas fuentes de datos (ASCII, XLS, SPSS, SAS u ODBC). Interfaz visual basado en procesos/flujos de datos (rutas).

Distintas herramientas de minera de datos: Correlacin Reglas de asociacin (GRI, a priori, Carma, ...), reglas de asociacin secuenciales (secuencia), patrones secuenciales (regresin lineal) Agrupacin/segmentacin/conglomerado (Kohonen, Two-step/bietpico y k-medias) Clasificacin (redes neuronales, reglas y rboles de decisin: C5.0, QUEST, CHAID).
07/03/2008

Manipulacin de datos (pick & mix, muestreo, combinacin y separacin). Combinacin (manual) de modelos. Visualizacin anterior (datos en mltiples grficas) y posterior (rboles, curvas ROI/ROC, ..). Exportacin de modelos a distintos lenguajes (C, SPSS, SAS). Exportacin de datos integrada a otros programas (XLS). Generacin de informes.

Gestin de proyectos, metodologa CRISP-DM, plantillas, ejecucin en batch, supernodos, ... El entorno del Clementine basado en nodos se conectan para formar un flujo o ruta. Las rutas pueden dejarse en ficheros separados (.str) o se pueden organizar en proyectos (.cpj).
07/03/2008

Opciones del Clementine

Orgenes Operaciones con Registros
Operaciones con Campos
Grficos Modelado Resultado

Ejemplo 1 Disponemos de los datos acerca de los das que se ha podido jugar al tenis, dependiendo de diversos aspectos meteorolgicos. El objetivo es poder predecir si hoy podremos jugar al tenis. Los datos estn en el fichero: playtennisevidence.txt y son los siguientes:
07/03/2008

Ejemplo 1 Lo primero que vamos a hacer es insertar un nodo fuente de datos al rea de trabajo. Cogemos la opcin Archivo var. de la categora Orgenes y aparecer:

Ejemplo 1 Seleccionamos el fichero:
07/03/2008

Ejemplo 1 Para ver que carga bien los datos vamos a aadir un nodo Tabla (categora Resultado). Para enlazar dos nodos en Clementine, se pulsa el botn del medio del ratn sobre el nodo origen y se arrastra el ratn hasta el nodo destino o pulsando el botn izquierdo y derecho a la vez Una vez conectados, pulsa sobre el nodo Tabla con el botn derecho EJECUTAR. Deben aparecer los datos de la tabla

Ejemplo 1 vamos a aadir un nodo Tipo, que se encuentra en la categora Operaciones con Campos.
A continuacin aadimos un nuevo nodo C5.0 para construir un rbol de decisin sobre los datos
07/03/2008

Ejemplo 1 Nos situamos en el nodo C5.0, ejecutamos y a minerizar !!! A continuacin doble click en el diamante y aparece en el espacio de trabajo, boton dcho. Edicin:

Ejemplo 1 Supongamos que tenemos, p.ej., la instancia (Sky = rain, Temperature = cool, Humidity = high, Wind = strong). Podemos ver en el rbol que la clase es NO, con lo que no jugaremos al tenis.
Temperature no afecta en ningn caso Humedity no afecta si sky=Rain Slo afecta wind
07/03/2008

Ejemplo 1 Otra opcin es crear un conjunto de reglas (Sky = rain, Temperature = cool, Humidity = high, Wind = strong)
Temperature no afecta en ningn caso
Humedity no afecta
si sky=Rain Slo afecta wind

Ejemplo 1
07/03/2008

Ejemplo 2 En este caso se trata de predecir el tipo de frmaco (drug) que se debe administrar a un paciente afectado de rinitis alrgica segn distintos parmetros/variables. Las variables que se recogen en los historiales clnicos de cada paciente son: Age: Edad Sex: Sexo BP (Blood Pressure): Tensin sangunea. Cholesterol: nivel de colesterol. Na: Nivel de sodio en la sangre. K: Nivel de potasio en la sangre.

Ejemplo 2 Hay cinco frmacos posibles: DrugA, DrugB, DrugC, DrugX, DrugY. Se han recogido los datos del medicamento idneo para muchos pacientes en cuatro hospitales Se pretende, para nuevos pacientes, determinar el mejor medicamento a probar.
10
07/03/2008

Ejemplo 2 Hay cinco frmacos posibles: DrugA, DrugB, DrugC, DrugX, DrugY. Se han recogido los datos del medicamento idneo para muchos pacientes en cuatro hospitales Se pretende, para nuevos pacientes, determinar el mejor medicamento a probar.

Ejemplo 2 Seleccin de datos Permite seleccionar un subconjunto de datos para incluirlo o excluirlo segn una condicin
11
07/03/2008

Ejemplo 2 Muestreo de datos Permite seleccionar una muestra de registros por muestreo aleatorio simple o sistemtico

Ejemplo 2 El nodo tipo nos proporciona una informacin muy valiosa sobre los tipos de datos
12
07/03/2008


Ejemplo 2 Con lo que tenemos un 96,5% de acierto. Es decir un error de slo el 3,5% sobre los datos de entrenamiento.
Es posible hacerlo mejor ... pero cmo? con otro tipo de algoritmo de aprendizaje, una red neuronal, p.ej.?
Insistir en los datos de entrada. Vamos a analizar los atributos de entrada (combinamos algunos atributos)
13
07/03/2008

Ejemplo 2 Para comparar los atributos discretos, el grfico Malla suele ser conveniente. Creamos un nodo malla y enganchemos el nodo de fuentes de datos drug1n con l. Al editarlo, decimos que vamos a examinar los campos discretos (Sex, BP, Cho, Drug):

Ejemplo 2 Una vez creado el grfico de malla, puede ajustar los umbrales que controlan los estilos de lnea mediante la barra de herramientas para cambiar la lnea mnima visible.
14
07/03/2008

Ejemplo 2 Estudiemos la relacin que hay entre los atributos continuos (numricos) y su influencia en la clase (diagnostico o salida). Nodo grfico de la categora grficos. Lo editamos y seleccionaremos que queremos comparar el Na y el K. Para ello al editar el nodo grfico pondremos en el Campo X el campo Na, en el Campo Y el campo K y en el Superponer la clase Drug, tanto en color como en forma.

Para las concentraciones K/Na bajas, el frmaco Este grfico tiene algunas caractersticas muy Y Hemos establecidode una manera clara a es el ms Parece que una clara separacin significativas. efectivohaberel medicamento y por encima deuna cierto cocientealta y una del administrar relacin K/Na K/Na ese lineal entre undepende en gran medida relacin medicamento deja de cociente K/Na baja. entre K/Na. ser efectivo y se debe recurrir a los otros cuatro.
15
07/03/2008

Ejemplo 2 Vamos a crear un nuevo atributo derivado (tambin llamados atributos pick & mix) mediante el nuevo nodo Derivar de la categora Oper. con campos, que enganchamos con el nodo drug1n. Nodo muy importante en el preprocesado de la informacion

Ejemplo 2 Resultados con este nuevo campo. Simplificacion y mejora de la precision
16
07/03/2008

Ejemplo 2 Validar modelo con datos nuevos Obtener un 99.5% sobre los datos de entrenamiento es relativamente sencillo y no asegura que el modelo se vaya a comportar bien. Para eso debemos de utilizar datos nuevos Para ello usamos los datos DRUG2n, DRUG3n, DRUG4n que se consideran que pertencen a otros hospitales Podemos copiar y pegar partes de las rutas Y con estos valores consideramos el modelo anterior validado.

Ejemplo 2 El problema es que hemos usado mas datos para validacin que para entrenamiento. vamos a fusionar los datos enganchando las cuatro fuentes de datos (drug1n, drug2n, drug3n y drug4n) con el con el nodo Aadir Hemos juntado los 2.200 registros de todos los hospitales. Podemos observar los datos con las mismas herramientas de salida
17
07/03/2008

Ejemplo 2 Red neuronal Imita el funcionamiento del cerebro mediante conexin de neuronas Arbol C5 Usa un algoritmo llamado C5 y se puede elegir rbol de decisin o reglas Arbol C&R Se utiliza en tareas de clasificacin y regresin con la finalidad de predecir

Ejemplo 2 Ahora vamos a realizar una particin de 1.700 para entrenamiento y 500 para test. Los 500 de test que sean iguales para diferentes modelos (red neuronal, C5.0 y C&RT). Para ello vamos a separar los datos mediante un nodo Muestrear que incluya los primeros 1.700 (incluir muestra) Y otro que excluya los primeros 1.700 (descartar muestra), quedndose con los 500 restantes. Ahora entrenamos los tres modelos con los 1700 ejemplos y evaluando los resultados con los 500 restantes.
18
07/03/2008

Ejemplo 2 El problema anterior es que aunque se consiguen buenos resultados la particin no es aleatoria, para ello usamos dos nuevos nodos, particin y seleccionar
En este caso para el tamao de particin de entrenamiento y validacin los valores 77 y 23 son los que consiguen una particin ms similar al 1700 500 que estbamos utilizando. Ahora usaremos nodos Seleccionar, uno con Incluir y otro con Descartar

DSS Clementine WEKA DSS propios
Ejemplo 2 Consiguiendo al final un entrenamiento y validacin que indica la figura
Ahora se debera comparar la evaluacin realizada con la muestra no aleatoria con la muestra aleatoria.
19
07/03/2008

Ejemplo 2 El problema de la particin entrenamiento/comprobacin, es que los datos que se usan para entrenamiento no se usan para comprobacin y viceversa. En el caso de no disponer de muchos datos o bien el modelo se entrena con pocos datos o bien se valida con pocos datos Una herramienta sencilla en esa lnea es el mtodo de validacin cruzada (Crossvalidation).

Ejemplo 3 Otro ejemplo ms real con datos reales, datos urodinmicos para comprobar si hay o no enfermedad
20
07/03/2008

Ejemplo 3 Y usamos varios de los modelos anteriores para comprobar su eficacia -Arbol de decisin -- Reglas

DSS Clementine WEKA WEKA DSS propios
Caractersticas
Software libre Buenas herramientas de preprocesado Tiene un formato especial de entrada de datos arff Vamos a realizar pruebas con dos ficheros (weather y uno propio de disfunciones urolgicas) Primer ejemplo con el weather.arff
21
07/03/2008

Caractersticas
Segundo ejemplo de disfunciones urolgicas
60
50
40
Effort (%)
30
20
10
0 Objectives Determination Data Preparation Data Mining Modelling interpretation & evaluation

hola
22
07/03/2008

Neurological Physical Examination Perineal and perianal sensitivity Minimum 1 Maximum 4 Mean 2.432 StdDev 0.77 Voluntary control of the anal sphincter Minimum 1 Maximum 4 Mean 2.039 StdDev 0.862 Bulbocavernosus Reflex Minimum 1 Maximum 4; Mean 1.87 Free Flowmetry Volume of urine Minimum 7 Maximum 682 Mean 204.253 StdDev 148.799 Maximum flow rate Minimum 4 Maximum 58 Mean 14.12 StdDev 9.443 Cystometry Bladder storage Minimum 50 Maximum 461 Mean 212.763 StdDev 72.564 First sensation of bladder filling Minimum 50 Maximum 300 ; Mean 160 Test Detrusor pressure /Micturition flow Detrusor contraction Minimum 2 Maximum 3 Mean 2.287 StdDev 0.454 Volume of urine in micturition Minimum 0 Maximum 556 Mean 177.5 StdDev 89.808 Maximum pressure Detrusor Minimum 2 Maximum 200 Mean 70.063 ; StdDev Average flow rate Minimum 0 Maximum 10 Mean 3.764 ; StdDev 1.74 Diagnosis Diagnosis (Effort Incontinence - Bladder Instability Obstruction of the LUT No dysfunction) Abdominal pressure Minimum 1 Maximum 3 Mean 1.532 StdDev 0.772 Post void residual Minimum Mean 91.071 StdDev 100.642 0 Maximum 350 Detrusor pressure filling Minimum 2 Maximum 30 Mean 7.018 StdDev 6.089 StdDev 58.061 Post void residual Minimum 0 Maximum 550 Mean 104.725 StdDev133.359 Micturition time Minimum 13 Maximum 160 Mean 49.767 StdDev 27.946 Anal tone Minimum 1 Maximum 2 Mean 1.215 StdDev 0.413 Age Minimum Mean 49.216 StdDev 23.972 StdDev 0.65 1- Maximum 85
hola
30.744
Maximum flow rate Minimum 0 Maximum 31 Mean 9.306 ; StdDev 4.617 Micturition time Minimum 2 Maximum 318 Mean 63.922 ; StdDev 53.998

23
07/03/2008

DSS Clementine WEKA DSS propios DSS propios
Gestor del conocimiento
Diversas entidades recogiendo datos
DSS
DB
Gran cantidad de informes mdicos (diagnosticos) agrupados en muchos aos
El objetivo es el de crear una BD con esta informacin
24

Mineria de Datos

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Mineria de Datos

Cargado por

Copyright:

Formatos disponibles

07/03/2008

MDULO 2: Sistemas de Soporte a la Decisin

MDULO 2: Sistemas de Soporte a la Decisin

DSS y los datos. KDD. Minera de datos

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin

Sistemas de soporte a la Decisin (DSS). Software y aplicaciones

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin

Bases de datos diferentes

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin

MDULO 2: Sistemas de Soporte a la Decisin

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin

MDULO 2: Sistemas de Soporte a la Decisin

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin

Opciones del Clementine

Grficos Modelado Resultado

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin

Ejemplo 1 Seleccionamos el fichero:

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin

MDULO 2: Sistemas de Soporte a la Decisin

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin

MDULO 2: Sistemas de Soporte a la Decisin