Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Conceptos: (DSS) Decision Support Systems Sistemas expertos (Expert Systems) Minera de datos Inteligencia artificial Extraccin del conocimiento Generacin de patrones Toma de decisiones
Tecnologa Informtica y Biomedicina
07/03/2008
Weka, Clementine,
07/03/2008
El entorno de trabajo del SPSS Clementine El SPSS Clementine es una herramienta integrada de minera de datos, inicialmente de Integral Solutions Limited (ISL) y ahora de SPSS (www.spss.com). La versin 10.1 incluye las siguientes caractersticas: Diversas fuentes de datos (ASCII, XLS, SPSS, SAS u ODBC). Interfaz visual basado en procesos/flujos de datos (rutas).
Tecnologa Informtica y Biomedicina
Distintas herramientas de minera de datos: Correlacin Reglas de asociacin (GRI, a priori, Carma, ...), reglas de asociacin secuenciales (secuencia), patrones secuenciales (regresin lineal) Agrupacin/segmentacin/conglomerado (Kohonen, Two-step/bietpico y k-medias) Clasificacin (redes neuronales, reglas y rboles de decisin: C5.0, QUEST, CHAID).
07/03/2008
Manipulacin de datos (pick & mix, muestreo, combinacin y separacin). Combinacin (manual) de modelos. Visualizacin anterior (datos en mltiples grficas) y posterior (rboles, curvas ROI/ROC, ..). Exportacin de modelos a distintos lenguajes (C, SPSS, SAS). Exportacin de datos integrada a otros programas (XLS). Generacin de informes.
Tecnologa Informtica y Biomedicina
Gestin de proyectos, metodologa CRISP-DM, plantillas, ejecucin en batch, supernodos, ... El entorno del Clementine basado en nodos se conectan para formar un flujo o ruta. Las rutas pueden dejarse en ficheros separados (.str) o se pueden organizar en proyectos (.cpj).
07/03/2008
Ejemplo 1 Disponemos de los datos acerca de los das que se ha podido jugar al tenis, dependiendo de diversos aspectos meteorolgicos. El objetivo es poder predecir si hoy podremos jugar al tenis. Los datos estn en el fichero: playtennisevidence.txt y son los siguientes:
07/03/2008
Ejemplo 1 Lo primero que vamos a hacer es insertar un nodo fuente de datos al rea de trabajo. Cogemos la opcin Archivo var. de la categora Orgenes y aparecer:
07/03/2008
Ejemplo 1 Para ver que carga bien los datos vamos a aadir un nodo Tabla (categora Resultado). Para enlazar dos nodos en Clementine, se pulsa el botn del medio del ratn sobre el nodo origen y se arrastra el ratn hasta el nodo destino o pulsando el botn izquierdo y derecho a la vez Una vez conectados, pulsa sobre el nodo Tabla con el botn derecho EJECUTAR. Deben aparecer los datos de la tabla
Ejemplo 1 vamos a aadir un nodo Tipo, que se encuentra en la categora Operaciones con Campos.
A continuacin aadimos un nuevo nodo C5.0 para construir un rbol de decisin sobre los datos
07/03/2008
Ejemplo 1 Nos situamos en el nodo C5.0, ejecutamos y a minerizar !!! A continuacin doble click en el diamante y aparece en el espacio de trabajo, boton dcho. Edicin:
Ejemplo 1 Supongamos que tenemos, p.ej., la instancia (Sky = rain, Temperature = cool, Humidity = high, Wind = strong). Podemos ver en el rbol que la clase es NO, con lo que no jugaremos al tenis.
Temperature no afecta en ningn caso Humedity no afecta si sky=Rain Slo afecta wind
07/03/2008
Ejemplo 1 Otra opcin es crear un conjunto de reglas (Sky = rain, Temperature = cool, Humidity = high, Wind = strong)
Temperature no afecta en ningn caso
Humedity no afecta
si sky=Rain Slo afecta wind
Ejemplo 1
07/03/2008
Ejemplo 2 En este caso se trata de predecir el tipo de frmaco (drug) que se debe administrar a un paciente afectado de rinitis alrgica segn distintos parmetros/variables. Las variables que se recogen en los historiales clnicos de cada paciente son: Age: Edad Sex: Sexo BP (Blood Pressure): Tensin sangunea. Cholesterol: nivel de colesterol. Na: Nivel de sodio en la sangre. K: Nivel de potasio en la sangre.
Tecnologa Informtica y Biomedicina
Ejemplo 2 Hay cinco frmacos posibles: DrugA, DrugB, DrugC, DrugX, DrugY. Se han recogido los datos del medicamento idneo para muchos pacientes en cuatro hospitales Se pretende, para nuevos pacientes, determinar el mejor medicamento a probar.
10
07/03/2008
Ejemplo 2 Hay cinco frmacos posibles: DrugA, DrugB, DrugC, DrugX, DrugY. Se han recogido los datos del medicamento idneo para muchos pacientes en cuatro hospitales Se pretende, para nuevos pacientes, determinar el mejor medicamento a probar.
Ejemplo 2 Seleccin de datos Permite seleccionar un subconjunto de datos para incluirlo o excluirlo segn una condicin
11
07/03/2008
Ejemplo 2 Muestreo de datos Permite seleccionar una muestra de registros por muestreo aleatorio simple o sistemtico
Ejemplo 2 El nodo tipo nos proporciona una informacin muy valiosa sobre los tipos de datos
12
07/03/2008
Ejemplo 2 Con lo que tenemos un 96,5% de acierto. Es decir un error de slo el 3,5% sobre los datos de entrenamiento.
Es posible hacerlo mejor ... pero cmo? con otro tipo de algoritmo de aprendizaje, una red neuronal, p.ej.?
Insistir en los datos de entrada. Vamos a analizar los atributos de entrada (combinamos algunos atributos)
13
07/03/2008
Ejemplo 2 Para comparar los atributos discretos, el grfico Malla suele ser conveniente. Creamos un nodo malla y enganchemos el nodo de fuentes de datos drug1n con l. Al editarlo, decimos que vamos a examinar los campos discretos (Sex, BP, Cho, Drug):
Ejemplo 2 Una vez creado el grfico de malla, puede ajustar los umbrales que controlan los estilos de lnea mediante la barra de herramientas para cambiar la lnea mnima visible.
14
07/03/2008
Ejemplo 2 Estudiemos la relacin que hay entre los atributos continuos (numricos) y su influencia en la clase (diagnostico o salida). Nodo grfico de la categora grficos. Lo editamos y seleccionaremos que queremos comparar el Na y el K. Para ello al editar el nodo grfico pondremos en el Campo X el campo Na, en el Campo Y el campo K y en el Superponer la clase Drug, tanto en color como en forma.
Para las concentraciones K/Na bajas, el frmaco Este grfico tiene algunas caractersticas muy Y Hemos establecidode una manera clara a es el ms Parece que una clara separacin significativas. efectivohaberel medicamento y por encima deuna cierto cocientealta y una del administrar relacin K/Na K/Na ese lineal entre undepende en gran medida relacin medicamento deja de cociente K/Na baja. entre K/Na. ser efectivo y se debe recurrir a los otros cuatro.
Tecnologa Informtica y Biomedicina
15
07/03/2008
Ejemplo 2 Vamos a crear un nuevo atributo derivado (tambin llamados atributos pick & mix) mediante el nuevo nodo Derivar de la categora Oper. con campos, que enganchamos con el nodo drug1n. Nodo muy importante en el preprocesado de la informacion
16
07/03/2008
Ejemplo 2 Validar modelo con datos nuevos Obtener un 99.5% sobre los datos de entrenamiento es relativamente sencillo y no asegura que el modelo se vaya a comportar bien. Para eso debemos de utilizar datos nuevos Para ello usamos los datos DRUG2n, DRUG3n, DRUG4n que se consideran que pertencen a otros hospitales Podemos copiar y pegar partes de las rutas Y con estos valores consideramos el modelo anterior validado.
Tecnologa Informtica y Biomedicina
Ejemplo 2 El problema es que hemos usado mas datos para validacin que para entrenamiento. vamos a fusionar los datos enganchando las cuatro fuentes de datos (drug1n, drug2n, drug3n y drug4n) con el con el nodo Aadir Hemos juntado los 2.200 registros de todos los hospitales. Podemos observar los datos con las mismas herramientas de salida
17
07/03/2008
Ejemplo 2 Red neuronal Imita el funcionamiento del cerebro mediante conexin de neuronas Arbol C5 Usa un algoritmo llamado C5 y se puede elegir rbol de decisin o reglas Arbol C&R Se utiliza en tareas de clasificacin y regresin con la finalidad de predecir
Ejemplo 2 Ahora vamos a realizar una particin de 1.700 para entrenamiento y 500 para test. Los 500 de test que sean iguales para diferentes modelos (red neuronal, C5.0 y C&RT). Para ello vamos a separar los datos mediante un nodo Muestrear que incluya los primeros 1.700 (incluir muestra) Y otro que excluya los primeros 1.700 (descartar muestra), quedndose con los 500 restantes. Ahora entrenamos los tres modelos con los 1700 ejemplos y evaluando los resultados con los 500 restantes.
18
07/03/2008
Ejemplo 2 El problema anterior es que aunque se consiguen buenos resultados la particin no es aleatoria, para ello usamos dos nuevos nodos, particin y seleccionar
En este caso para el tamao de particin de entrenamiento y validacin los valores 77 y 23 son los que consiguen una particin ms similar al 1700 500 que estbamos utilizando. Ahora usaremos nodos Seleccionar, uno con Incluir y otro con Descartar
Ahora se debera comparar la evaluacin realizada con la muestra no aleatoria con la muestra aleatoria.
19
07/03/2008
Ejemplo 2 El problema de la particin entrenamiento/comprobacin, es que los datos que se usan para entrenamiento no se usan para comprobacin y viceversa. En el caso de no disponer de muchos datos o bien el modelo se entrena con pocos datos o bien se valida con pocos datos Una herramienta sencilla en esa lnea es el mtodo de validacin cruzada (Crossvalidation).
Ejemplo 3 Otro ejemplo ms real con datos reales, datos urodinmicos para comprobar si hay o no enfermedad
20
07/03/2008
Ejemplo 3 Y usamos varios de los modelos anteriores para comprobar su eficacia -Arbol de decisin -- Reglas
Caractersticas
Software libre Buenas herramientas de preprocesado Tiene un formato especial de entrada de datos arff Vamos a realizar pruebas con dos ficheros (weather y uno propio de disfunciones urolgicas) Primer ejemplo con el weather.arff
21
07/03/2008
Caractersticas
Segundo ejemplo de disfunciones urolgicas
60
50
40
Effort (%)
30
20
10
0 Objectives Determination Data Preparation Data Mining Modelling interpretation & evaluation
hola
22
07/03/2008
hola
30.744
Maximum flow rate Minimum 0 Maximum 31 Mean 9.306 ; StdDev 4.617 Micturition time Minimum 2 Maximum 318 Mean 63.922 ; StdDev 53.998
23
07/03/2008
DSS
DB
24