Está en la página 1de 24

07/03/2008

MDULO 2: Sistemas de Soporte a la Decisin


DSS DSS Clementine WEKA DSS propios

Conceptos: (DSS) Decision Support Systems Sistemas expertos (Expert Systems) Minera de datos Inteligencia artificial Extraccin del conocimiento Generacin de patrones Toma de decisiones
Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin


DSS DSS Clementine WEKA DSS propios

DSS y los datos. KDD. Minera de datos

Tecnologa Informtica y Biomedicina

07/03/2008

MDULO 2: Sistemas de Soporte a la Decisin

Sistemas de soporte a la Decisin (DSS). Software y aplicaciones


Caractersticas que deben de incorporar el SW Facilidad de uso Escalabilidad Interfaz grfico Implementaciones propias de DSS ( por qu)

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin


DSS DSS Clementine WEKA DSS propios

Bases de datos diferentes

Weka, Clementine,

Tecnologa Informtica y Biomedicina

07/03/2008

MDULO 2: Sistemas de Soporte a la Decisin


DSS Clementine Clementine WEKA DSS propios

El entorno de trabajo del SPSS Clementine El SPSS Clementine es una herramienta integrada de minera de datos, inicialmente de Integral Solutions Limited (ISL) y ahora de SPSS (www.spss.com). La versin 10.1 incluye las siguientes caractersticas: Diversas fuentes de datos (ASCII, XLS, SPSS, SAS u ODBC). Interfaz visual basado en procesos/flujos de datos (rutas).
Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin


DSS Clementine Clementine WEKA DSS propios

Distintas herramientas de minera de datos: Correlacin Reglas de asociacin (GRI, a priori, Carma, ...), reglas de asociacin secuenciales (secuencia), patrones secuenciales (regresin lineal) Agrupacin/segmentacin/conglomerado (Kohonen, Two-step/bietpico y k-medias) Clasificacin (redes neuronales, reglas y rboles de decisin: C5.0, QUEST, CHAID).

Tecnologa Informtica y Biomedicina

07/03/2008

MDULO 2: Sistemas de Soporte a la Decisin


DSS Clementine Clementine WEKA DSS propios

Manipulacin de datos (pick & mix, muestreo, combinacin y separacin). Combinacin (manual) de modelos. Visualizacin anterior (datos en mltiples grficas) y posterior (rboles, curvas ROI/ROC, ..). Exportacin de modelos a distintos lenguajes (C, SPSS, SAS). Exportacin de datos integrada a otros programas (XLS). Generacin de informes.
Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin


DSS Clementine Clementine WEKA DSS propios

Gestin de proyectos, metodologa CRISP-DM, plantillas, ejecucin en batch, supernodos, ... El entorno del Clementine basado en nodos se conectan para formar un flujo o ruta. Las rutas pueden dejarse en ficheros separados (.str) o se pueden organizar en proyectos (.cpj).

Tecnologa Informtica y Biomedicina

07/03/2008

MDULO 2: Sistemas de Soporte a la Decisin


DSS Clementine Clementine WEKA DSS propios

Opciones del Clementine


Orgenes Operaciones con Registros
Operaciones con Campos

Grficos Modelado Resultado

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin


DSS Clementine Clementine WEKA DSS propios

Ejemplo 1 Disponemos de los datos acerca de los das que se ha podido jugar al tenis, dependiendo de diversos aspectos meteorolgicos. El objetivo es poder predecir si hoy podremos jugar al tenis. Los datos estn en el fichero: playtennisevidence.txt y son los siguientes:

Tecnologa Informtica y Biomedicina

07/03/2008

MDULO 2: Sistemas de Soporte a la Decisin


DSS Clementine Clementine WEKA DSS propios

Ejemplo 1 Lo primero que vamos a hacer es insertar un nodo fuente de datos al rea de trabajo. Cogemos la opcin Archivo var. de la categora Orgenes y aparecer:

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin


DSS Clementine Clementine WEKA DSS propios

Ejemplo 1 Seleccionamos el fichero:

Tecnologa Informtica y Biomedicina

07/03/2008

MDULO 2: Sistemas de Soporte a la Decisin


DSS Clementine Clementine WEKA DSS propios

Ejemplo 1 Para ver que carga bien los datos vamos a aadir un nodo Tabla (categora Resultado). Para enlazar dos nodos en Clementine, se pulsa el botn del medio del ratn sobre el nodo origen y se arrastra el ratn hasta el nodo destino o pulsando el botn izquierdo y derecho a la vez Una vez conectados, pulsa sobre el nodo Tabla con el botn derecho EJECUTAR. Deben aparecer los datos de la tabla

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin


DSS Clementine Clementine WEKA DSS propios

Ejemplo 1 vamos a aadir un nodo Tipo, que se encuentra en la categora Operaciones con Campos.

A continuacin aadimos un nuevo nodo C5.0 para construir un rbol de decisin sobre los datos

Tecnologa Informtica y Biomedicina

07/03/2008

MDULO 2: Sistemas de Soporte a la Decisin


DSS Clementine Clementine WEKA DSS propios

Ejemplo 1 Nos situamos en el nodo C5.0, ejecutamos y a minerizar !!! A continuacin doble click en el diamante y aparece en el espacio de trabajo, boton dcho. Edicin:

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin


DSS Clementine Clementine WEKA DSS propios

Ejemplo 1 Supongamos que tenemos, p.ej., la instancia (Sky = rain, Temperature = cool, Humidity = high, Wind = strong). Podemos ver en el rbol que la clase es NO, con lo que no jugaremos al tenis.
Temperature no afecta en ningn caso Humedity no afecta si sky=Rain Slo afecta wind

Tecnologa Informtica y Biomedicina

07/03/2008

MDULO 2: Sistemas de Soporte a la Decisin


DSS Clementine Clementine WEKA DSS propios

Ejemplo 1 Otra opcin es crear un conjunto de reglas (Sky = rain, Temperature = cool, Humidity = high, Wind = strong)
Temperature no afecta en ningn caso

Humedity no afecta
si sky=Rain Slo afecta wind

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin


DSS Clementine Clementine WEKA DSS propios

Ejemplo 1

Tecnologa Informtica y Biomedicina

07/03/2008

MDULO 2: Sistemas de Soporte a la Decisin


DSS Clementine Clementine WEKA DSS propios

Ejemplo 2 En este caso se trata de predecir el tipo de frmaco (drug) que se debe administrar a un paciente afectado de rinitis alrgica segn distintos parmetros/variables. Las variables que se recogen en los historiales clnicos de cada paciente son: Age: Edad Sex: Sexo BP (Blood Pressure): Tensin sangunea. Cholesterol: nivel de colesterol. Na: Nivel de sodio en la sangre. K: Nivel de potasio en la sangre.
Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin


DSS Clementine Clementine WEKA DSS propios

Ejemplo 2 Hay cinco frmacos posibles: DrugA, DrugB, DrugC, DrugX, DrugY. Se han recogido los datos del medicamento idneo para muchos pacientes en cuatro hospitales Se pretende, para nuevos pacientes, determinar el mejor medicamento a probar.

Tecnologa Informtica y Biomedicina

10

07/03/2008

MDULO 2: Sistemas de Soporte a la Decisin


DSS Clementine Clementine WEKA DSS propios

Ejemplo 2 Hay cinco frmacos posibles: DrugA, DrugB, DrugC, DrugX, DrugY. Se han recogido los datos del medicamento idneo para muchos pacientes en cuatro hospitales Se pretende, para nuevos pacientes, determinar el mejor medicamento a probar.

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin


DSS Clementine Clementine WEKA DSS propios

Ejemplo 2 Seleccin de datos Permite seleccionar un subconjunto de datos para incluirlo o excluirlo segn una condicin

Tecnologa Informtica y Biomedicina

11

07/03/2008

MDULO 2: Sistemas de Soporte a la Decisin


DSS Clementine Clementine WEKA DSS propios

Ejemplo 2 Muestreo de datos Permite seleccionar una muestra de registros por muestreo aleatorio simple o sistemtico

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin


DSS Clementine Clementine WEKA DSS propios

Ejemplo 2 El nodo tipo nos proporciona una informacin muy valiosa sobre los tipos de datos

Tecnologa Informtica y Biomedicina

12

07/03/2008

MDULO 2: Sistemas de Soporte a la Decisin


DSS Clementine Clementine WEKA DSS propios

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin


DSS Clementine Clementine WEKA DSS propios

Ejemplo 2 Con lo que tenemos un 96,5% de acierto. Es decir un error de slo el 3,5% sobre los datos de entrenamiento.

Es posible hacerlo mejor ... pero cmo? con otro tipo de algoritmo de aprendizaje, una red neuronal, p.ej.?
Insistir en los datos de entrada. Vamos a analizar los atributos de entrada (combinamos algunos atributos)

Tecnologa Informtica y Biomedicina

13

07/03/2008

MDULO 2: Sistemas de Soporte a la Decisin


DSS Clementine Clementine WEKA DSS propios

Ejemplo 2 Para comparar los atributos discretos, el grfico Malla suele ser conveniente. Creamos un nodo malla y enganchemos el nodo de fuentes de datos drug1n con l. Al editarlo, decimos que vamos a examinar los campos discretos (Sex, BP, Cho, Drug):

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin


DSS Clementine Clementine WEKA DSS propios

Ejemplo 2 Una vez creado el grfico de malla, puede ajustar los umbrales que controlan los estilos de lnea mediante la barra de herramientas para cambiar la lnea mnima visible.

Tecnologa Informtica y Biomedicina

14

07/03/2008

MDULO 2: Sistemas de Soporte a la Decisin


DSS Clementine Clementine WEKA DSS propios

Ejemplo 2 Estudiemos la relacin que hay entre los atributos continuos (numricos) y su influencia en la clase (diagnostico o salida). Nodo grfico de la categora grficos. Lo editamos y seleccionaremos que queremos comparar el Na y el K. Para ello al editar el nodo grfico pondremos en el Campo X el campo Na, en el Campo Y el campo K y en el Superponer la clase Drug, tanto en color como en forma.

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin


DSS Clementine Clementine WEKA DSS propios

Para las concentraciones K/Na bajas, el frmaco Este grfico tiene algunas caractersticas muy Y Hemos establecidode una manera clara a es el ms Parece que una clara separacin significativas. efectivohaberel medicamento y por encima deuna cierto cocientealta y una del administrar relacin K/Na K/Na ese lineal entre undepende en gran medida relacin medicamento deja de cociente K/Na baja. entre K/Na. ser efectivo y se debe recurrir a los otros cuatro.
Tecnologa Informtica y Biomedicina

15

07/03/2008

MDULO 2: Sistemas de Soporte a la Decisin


DSS Clementine Clementine WEKA DSS propios

Ejemplo 2 Vamos a crear un nuevo atributo derivado (tambin llamados atributos pick & mix) mediante el nuevo nodo Derivar de la categora Oper. con campos, que enganchamos con el nodo drug1n. Nodo muy importante en el preprocesado de la informacion

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin


DSS Clementine Clementine WEKA DSS propios

Ejemplo 2 Resultados con este nuevo campo. Simplificacion y mejora de la precision

Tecnologa Informtica y Biomedicina

16

07/03/2008

MDULO 2: Sistemas de Soporte a la Decisin


DSS Clementine Clementine WEKA DSS propios

Ejemplo 2 Validar modelo con datos nuevos Obtener un 99.5% sobre los datos de entrenamiento es relativamente sencillo y no asegura que el modelo se vaya a comportar bien. Para eso debemos de utilizar datos nuevos Para ello usamos los datos DRUG2n, DRUG3n, DRUG4n que se consideran que pertencen a otros hospitales Podemos copiar y pegar partes de las rutas Y con estos valores consideramos el modelo anterior validado.
Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin


DSS Clementine Clementine WEKA DSS propios

Ejemplo 2 El problema es que hemos usado mas datos para validacin que para entrenamiento. vamos a fusionar los datos enganchando las cuatro fuentes de datos (drug1n, drug2n, drug3n y drug4n) con el con el nodo Aadir Hemos juntado los 2.200 registros de todos los hospitales. Podemos observar los datos con las mismas herramientas de salida

Tecnologa Informtica y Biomedicina

17

07/03/2008

MDULO 2: Sistemas de Soporte a la Decisin


DSS Clementine Clementine WEKA DSS propios

Ejemplo 2 Red neuronal Imita el funcionamiento del cerebro mediante conexin de neuronas Arbol C5 Usa un algoritmo llamado C5 y se puede elegir rbol de decisin o reglas Arbol C&R Se utiliza en tareas de clasificacin y regresin con la finalidad de predecir

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin


DSS Clementine Clementine WEKA DSS propios

Ejemplo 2 Ahora vamos a realizar una particin de 1.700 para entrenamiento y 500 para test. Los 500 de test que sean iguales para diferentes modelos (red neuronal, C5.0 y C&RT). Para ello vamos a separar los datos mediante un nodo Muestrear que incluya los primeros 1.700 (incluir muestra) Y otro que excluya los primeros 1.700 (descartar muestra), quedndose con los 500 restantes. Ahora entrenamos los tres modelos con los 1700 ejemplos y evaluando los resultados con los 500 restantes.

Tecnologa Informtica y Biomedicina

18

07/03/2008

MDULO 2: Sistemas de Soporte a la Decisin


DSS Clementine Clementine WEKA DSS propios

Ejemplo 2 El problema anterior es que aunque se consiguen buenos resultados la particin no es aleatoria, para ello usamos dos nuevos nodos, particin y seleccionar

En este caso para el tamao de particin de entrenamiento y validacin los valores 77 y 23 son los que consiguen una particin ms similar al 1700 500 que estbamos utilizando. Ahora usaremos nodos Seleccionar, uno con Incluir y otro con Descartar

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin


DSS Clementine WEKA DSS propios

Ejemplo 2 Consiguiendo al final un entrenamiento y validacin que indica la figura

Ahora se debera comparar la evaluacin realizada con la muestra no aleatoria con la muestra aleatoria.

Tecnologa Informtica y Biomedicina

19

07/03/2008

MDULO 2: Sistemas de Soporte a la Decisin


DSS Clementine Clementine WEKA DSS propios

Ejemplo 2 El problema de la particin entrenamiento/comprobacin, es que los datos que se usan para entrenamiento no se usan para comprobacin y viceversa. En el caso de no disponer de muchos datos o bien el modelo se entrena con pocos datos o bien se valida con pocos datos Una herramienta sencilla en esa lnea es el mtodo de validacin cruzada (Crossvalidation).

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin


DSS Clementine Clementine WEKA DSS propios

Ejemplo 3 Otro ejemplo ms real con datos reales, datos urodinmicos para comprobar si hay o no enfermedad

Tecnologa Informtica y Biomedicina

20

07/03/2008

MDULO 2: Sistemas de Soporte a la Decisin


DSS Clementine Clementine WEKA DSS propios

Ejemplo 3 Y usamos varios de los modelos anteriores para comprobar su eficacia -Arbol de decisin -- Reglas

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin


DSS Clementine WEKA WEKA DSS propios

Caractersticas
Software libre Buenas herramientas de preprocesado Tiene un formato especial de entrada de datos arff Vamos a realizar pruebas con dos ficheros (weather y uno propio de disfunciones urolgicas) Primer ejemplo con el weather.arff

Tecnologa Informtica y Biomedicina

21

07/03/2008

MDULO 2: Sistemas de Soporte a la Decisin


DSS Clementine WEKA WEKA DSS propios

Caractersticas
Segundo ejemplo de disfunciones urolgicas
60

50

40

Effort (%)

30

20

10

0 Objectives Determination Data Preparation Data Mining Modelling interpretation & evaluation

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin


DSS Clementine WEKA WEKA DSS propios

hola

Tecnologa Informtica y Biomedicina

22

07/03/2008

MDULO 2: Sistemas de Soporte a la Decisin


Neurological Physical Examination Perineal and perianal sensitivity Minimum 1 Maximum 4 Mean 2.432 StdDev 0.77 Voluntary control of the anal sphincter Minimum 1 Maximum 4 Mean 2.039 StdDev 0.862 Bulbocavernosus Reflex Minimum 1 Maximum 4; Mean 1.87 Free Flowmetry Volume of urine Minimum 7 Maximum 682 Mean 204.253 StdDev 148.799 Maximum flow rate Minimum 4 Maximum 58 Mean 14.12 StdDev 9.443 Cystometry Bladder storage Minimum 50 Maximum 461 Mean 212.763 StdDev 72.564 First sensation of bladder filling Minimum 50 Maximum 300 ; Mean 160 Test Detrusor pressure /Micturition flow Detrusor contraction Minimum 2 Maximum 3 Mean 2.287 StdDev 0.454 Volume of urine in micturition Minimum 0 Maximum 556 Mean 177.5 StdDev 89.808 Maximum pressure Detrusor Minimum 2 Maximum 200 Mean 70.063 ; StdDev Average flow rate Minimum 0 Maximum 10 Mean 3.764 ; StdDev 1.74 Diagnosis Diagnosis (Effort Incontinence - Bladder Instability Obstruction of the LUT No dysfunction) Abdominal pressure Minimum 1 Maximum 3 Mean 1.532 StdDev 0.772 Post void residual Minimum Mean 91.071 StdDev 100.642 0 Maximum 350 Detrusor pressure filling Minimum 2 Maximum 30 Mean 7.018 StdDev 6.089 StdDev 58.061 Post void residual Minimum 0 Maximum 550 Mean 104.725 StdDev133.359 Micturition time Minimum 13 Maximum 160 Mean 49.767 StdDev 27.946 Anal tone Minimum 1 Maximum 2 Mean 1.215 StdDev 0.413 Age Minimum Mean 49.216 StdDev 23.972 StdDev 0.65 1- Maximum 85

DSS Clementine WEKA WEKA DSS propios

hola

30.744

Maximum flow rate Minimum 0 Maximum 31 Mean 9.306 ; StdDev 4.617 Micturition time Minimum 2 Maximum 318 Mean 63.922 ; StdDev 53.998

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin


DSS Clementine WEKA WEKA DSS propios

Tecnologa Informtica y Biomedicina

23

07/03/2008

MDULO 2: Sistemas de Soporte a la Decisin


DSS Clementine WEKA DSS propios DSS propios

Gestor del conocimiento

Diversas entidades recogiendo datos

DSS

DB

Gran cantidad de informes mdicos (diagnosticos) agrupados en muchos aos

El objetivo es el de crear una BD con esta informacin

Tecnologa Informtica y Biomedicina

24

También podría gustarte