824 Razonamiento Basado en Casos PDF

Un sistema de razonamiento basado en casos para la clasicacin de fallos en sistemas dinmicos
Anibal Bregn, Arancha Simn, Carlos Alonso, Belarmino Pulido, Isaac Moro
Dept. de Informtica ETS Ingeniera Informtica Univ. de Valladolid 47011 Valladolid anibbre@lab..uva.es, (arancha,calonso,belar,isaac)@infor.uva.es
Juan Jos Rodrguez

Lenguajes y Sistemas Informticos Escuela Politcnica Superior Univ. de Burgos Burgos jjrodriguez@ubu.es
Resumen
El diagnstico mediante la clasicacin de fallos en plantas industriales es un cuerpo de investigacin que recibe continuamente atencin. En algunos dominios estos fallos vienen descritos por series temporales. En este artculo vamos a introducir algunas tcnicas para la clasicacin de distintos modelos de fallo obtenidos por medio de una planta de laboratorio. Presentamos un marco computacional para resolver problemas de clasicacin de fallos usando Razonamiento Basado en Casos. Este artculo ilustra diferentes tcnicas para la reutilizacin y recuperacin de casos (como por ejemplo Alineamiento Dinmico Temporal o distancia Eucldea), evaluando y comparando los resultados.
1. Introduccin
El Razonamiento Basado en Casos (CBR) es una metodologa de Inteligencia Articial para realizar aprendizaje que ha logrado buenos resultados en muchos campos de aplicacin. Se han desarrollado varios trabajos en los que se ha aplicado CBR para determinar el estado de operacin de una planta industrial [4, 6], y para llevar a cabo planicacin, diagnstico, mantenimiento y gestin de calidad en la industria [5]. En algunos de estos trabajos los
autores han manejado series temporales, y han diseado representaciones de casos para gestionarlas y lograr una mejor recuperacin del caso. En este artculo, aplicamos una metodologa CBR a un problema de clasicacin de fallos en una planta industrial. El sistema CBR trabaja en paralelo con un sistema de diagnstico basado en modelos que efecta deteccin y localizacin de fallos [12]. Una vez que un fallo es detectado, el sistema CBR proporcionar una pista sobre el fallo candidato ms probable. Nuestro conjunto de datos est compuesto por series temporales. Comparamos la precisin obtenida usando datos sin preprocesado como representacin del caso con la obtenida usando una seleccin de caractersticas. Esta ltima representacin fue diseada por algunos autores de este artculo en otros trabajos [14] y la hemos aplicado ahora a CBR. El artculo est organizado de la siguiente manera: la Seccin 2 describe la metodologa CBR, el algoritmo de recuperacin y las medidas de similitud que hemos usado; la Seccin 3 introduce brevemente la planta industrial con sus clases de fallos. En la Seccin 4 presentamos el estudio experimental: la descripcin del conjunto de datos y el mtodo de evaluacin. La seccin 5 muestra los resultados y la discusin, y nalmente, la seccin 6 se dedica a las conclusiones y trabajo futuro.
Actas del III Taller Nacional de Minera de Datos y Aprendizaje, TAMIDA2005, pp.203-211 ISBN: 84-9732-449-8 2005 Los autores, Thomson
204
III Taller de Minera de Datos y Aprendizaje
Figura 1: El ciclo CBR.
2. Clasicacin de fallos usando razonamiento basado en casos

2.1. Introduccin. El ciclo CBR.
El Razonamiento Basado en Casos (CBR) es un mtodo para resolver problemas recordando situaciones previas similares y reutilizando la informacin y el conocimiento sobre esa situacin [10, 11]. La idea original bsica de Riesbeck y Schank [13] es la siguiente: CBR resuelve problemas nuevos adaptando las soluciones dadas a otros resueltos con anterioridad. Aamod y Plaza [1] describen CBR como un proceso que consta de cuatro pasos:
RECUPERAR el caso o casos ms similares. REUTILIZAR la informacin y el conocimiento de ese caso para resolver el problema. REVISAR la solucin propuesta. GUARDAR las partes de esta experiencia que se consideren tiles para resolver futuros problemas.
2.2. Recuperacin de casos.

La primera tarea en el ciclo de CBR es la recuperacin de uno o ms casos similares de la base de casos donde est almacenada la experiencia pasada en forma de casos [2]. Un caso est formado por varios atributos que dan una descripcin del problema y una solucin para el caso. Para poder llevar a cabo la tarea de recuperacin es necesario tener un algoritmo de recuperacin y una medida de similitud que sern usados para obtener un conjunto de casos similares. En nuestro trabajo hemos elegido el algoritmo de los K -vecinos como algoritmo de recuperacin y tres medidas de similitud: distancia Eucldea, distancia de Manhattan y Alineamiento Dinmico Temporal(DTW).
2.2.1. Algoritmo de los K -vecinos.

i Sea X = {xi = (xi 1 , . . . , xp ), i = 1, . . . , N } una coleccin de ejemplos de entrenamiento de dimensin p y sea C = {C1 , . . . , CM } un conjunto de M clases. Supongamos que cada ejemplo xi tiene una etiqueta de clase Li {1, . . . , M } que indica con certeza su pertenencia a una clase en C . Supongamos tambin que xS es un nuevo ejemplo para clasicar. Clasicar xS corresponde a asignarle una de las clases en C , esto es, decidir entre un conjunto de M
Estos cuatros pasos se muestran en la Figura 1.
III Taller Nacional de Minera de Datos y Aprendizaje, TAMIDA2005
205
hiptesis: xS Cq , q = 1, . . . , M . Sea S el conjunto de los K -vecinos ms prximos de xS en X . Para cualquier xi S , el conocimiento de Li = q puede considerarse como una evidencia que aumenta nuestra conanza de que xS tambin pertenece a Cq . No obstante, esta evidencia no proporciona por s misma 100 % de certeza. El clasicador de los K vecinos ms prximos (KNN), como sugurieron Duda y Hart [7], almacena los datos de entrenamiento, el par (X, L). Los ejemplos son clasicados eligiendo la clase mayoritaria entre los K ejemplos ms cercanos del conjunto de entrenamiento, de acuerdo a una medida de distancia [3]. En nuestros experimentos fueron probados varios valores de K (nmero de vecinos) K = 1, 3, 5, y se ha encontrado empricamente que K = 1 ha proporcionado los mejores resultados para nuestro conjunto de datos.
te ms robusta que las medidas anteriores. A continuacin, se introduce brevemente DTW: Sean dos series temporales, Q y C , de longitudes n y m:
Q = q1 , q2 , ..., qi , ..., qn ; C = c1 , c2 , ..., cj , ..., cm .
(1) (2)
Para alinear las dos secuencias usando DTW, se construye una matriz n m. Cada elemento (i, j ) se corresponde con el alineamiento entre los puntos qi y cj . Un camino de alineamiento W es un conjunto de elementos de la matriz contiguos que dene una correspondencia entre Q y C . El elemento k-simo de W se dene como wk = (i, j )k . Por tanto:
W = w1 , w 2 , . . . , w k , . . . , w K m ax(m, n) = K m + n 1.
(3) (4)
2.2.2. Medidas de similitud Distancia Eucldea. Es la distancia ms comn y la ms usada en la mayora de los sistemas CBR. Denimos la distancia Eucldea entre dos puntos x e y como:
(xi yi )2 , donde xi es la coordenada de x en la dimensin i y yi es la coordenada de y en la dimensin i.
n i=1
La distancia Euclidea puede considerarse como un caso especial de DTW en el que el elemento k-simo de W se restringe a wk = (i, j )k , i = j = k. En la aplicacin considerada, las series son multivariable. Es decir, las series son multidimensionales. Para utilizar DTW con este tipo de datos consideramos las siguientes aproximaciones:
Aplicar DTW para cada variable. La semejanza entre 2 series multivariable ser la media de las semejanzas para cada variable.
Manhattan entre dos puntos es la suma de los valores absolutos de las diferencias de sus componentes. Denimos la distancia de Manhattan entre un punto x y otro punto y como: n i=1 |xi yi |, donde xi es la coordenada de x en la dimensin i e yi es la coordenada de y en la dimensin i.
Distancia de Manhattan. La distancia de
Para calcular la distancia d(qi , cj ) entre los puntos qi y cj usamos tres mtricas:
Lineal: |qi cj | Cuadrtica: (qi cj )2
Alineamiento dinmico temporal. El

Alineamiento Dinmico Temporal [8, 6], abreviado DTW (dynamic time warping ), es una tcnica que permite obtener una medida de la semejanza entre dos secuencias que no estn exctamente alineadas en el eje temporal, y que pueden tener longitudes diferentes. Para este tipo de datos esta medida es bastan-
Valle: 10 (1 exp(
(qi cj )2 )) 6
Aplicar DTW slo una vez, considerando que los puntos de las series son multidimensionales, con tantas dimensiones como variables. La nica distancia d(qi , cj ) considerada es la Euclidea.
206
2.3. Reutilizacin de casos.

El segundo paso en el ciclo de CBR es la tarea de reutilizacin. Aamodt y Plaza [1] describen esta tarea centrada en dos aspectos: (a) las diferencias entre el caso pasado y el actual, y (b) qu parte o partes del caso recuperado pueden ser transferidas al nuevo caso. En algunos casos la tarea de reutilizacin se reduce a copiar la solucin pasada al nuevo caso, pero en otros casos esta solucin no puede ser aplicada directamente y tiene que ser adaptada. En CBR podemos distinguir dos tipos de adaptacin [16]:
Adaptacin Estructural : aplicar reglas de adaptacin a la solucin recuperada. Adaptacin Derivacional : reutilizar las frmulas que generaron la solucin pasada para conseguir una nueva solucin para el problema actual.
que almacenar esta informacin y cmo indexar el caso en la estructura de memoria para una posterior recuperacin.
3. Descripcin de la planta de laboratorio

La planta de laboratorio se dise intentando reejar caractersticas comunes a la mayora de procesos industriales continuos. La Figura 2 nos muestra un esquema de la misma. Est formada por cuatro depsitos {T1 . . . T4 }, cinco bombas {P1 . . . P5 }, y dos controladores PI que actan sobre las bombas {P1 , P5 } para mantener el nivel de los depsitos prximos a su valor de consigna. Para controlar la temperatura de los depsitos {T2 , T3 } se han usado dos resistencias, respectivamente. En la planta tenemos el siguiente conjunto de sensores (variables medidas): los niveles de los depsitos T1 y T4 , el valor de la accin de control de los PI sobre las bombas, el ujo de entrada a T1 , ujos de salida de los depsitos {T2 , T3 , T4 }, y las temperaturas en los depsitos {T2 , T3 , T4 }. En esta planta se han considerado las siguientes familias de fallos para el protocolo descrito: 5 relacionados con fugas en los depsitos, 5 atasques en tuberas, 3 fallos en las bombas, y 1 fallo en la resistencia.
El mtodo de reutilizacin usado en este trabajo est basado en el algoritmo de los K vecinos ms prximos. En nuestro trabajo podemos elegir el nmero de vecinos a usar y adaptar la solucin del nuevo caso mediante votacin de la solucin de todos los casos recuperados.
2.4. Revisin de casos.

Una vez nalizada la tarea de reutilizacin, la solucin del nuevo problema tiene que ser probada; este proceso de prueba se hace durante la tarea de revisin. En este paso, la solucin generada en la tarea de reutilizacin se evala, y si el resultado es satisfactorio, el nuevo caso y la nueva solucin para el caso se almacenan.
4. Estudio experimental
El estudio experimental ha sido realizado con un conjunto de datos procedentes de la simulacin de una planta de laboratorio. Este conjunto de datos est formado por varios ejemplos obtenidos de simulaciones de diferentes tipos de fallos que pueden aparecer en la planta industrial previamente descrita. En este apartado vamos a describir estos conjuntos de datos, las tareas de preprocesado aplicadas y los mtodos de evaluacin empleados.
2.5. Almacenamiento de casos.

El almacenamiento es la ltima tarea del ciclo CBR. En este paso el nuevo caso y la solucin para este caso (obtenida en la fase de reutilizacin) son almacenados con vistas a un posible uso futuro. Durante este proceso de aprendizaje, el sistema tiene que seleccionar qu informacin del caso almacenar, la forma en la
4.1. Descripcin del conjunto de datos.
4.1.1. Datos sin preprocesado.

Durante la primera fase de desarrollo del proyecto se han usado datos sin preprocesado. Es-

FT 06
207
T1
P2
ON/OFF FT 07
LT 01
LC 01
P1
FT 08
T2
TT 02 TT 03
T3
P4
P3
v
ON/OFF
ON/OFF
v
ON/OFF FT 05
ON/OFF
T4
LT 04 TT 04
LC 04
P5
Figura 2: Esquema de la planta.
te conjunto de datos est formado por series temporales de datos que describen un fallo de la planta industrial. Hay catorce tipos de fallo diferentes y cada uno de ellos viene descrito por once series de trescientos elementos numricos asociados a las once medidas de sensores disponibles. Nosotros hemos utilizado veinte ejemplos de cada modelo de fallo. En nuestro sistema CBR, un caso va a estar compuesto por once series (las cuales van a describir un fallo) y el tipo de fallo, que ser la solucin que nuestro sistema trata de adaptar. Puesto que la longitud de cada serie es 300, la descripcin de cada caso consiste en 11 300 valores reales. La Figura 3 muestra un caso de cada modo de fallo. Con la intencin de hacer una mejor clasicacin de fallos, vamos a aplicar algoritmos de ltrado y normalizacin sobre los datos originales.
ujo: desde 0 l/min hasta 5 l/min. nivel: desde 0 % hasta 100 % del nivel de cada tanque. temperatura: desde 0o C hasta 40o C
Normalizacin. Con el n de decrementar

los efectos producidos por la diferencia entre escalas realizamos un proceso de normalizacin previo a introducir los datos en la base de casos. Este proceso consiste en aplicar el mtodo estadstico para conseguir llevar todos los datos a una media de 0 y una varianza de 1.
4.1.2. Seleccin de caractersticas.

Adems de utilizar los datos en crudo, se consider como alternativa el aplicar un preproceso de seleccin de caractersticas. En este trabajo las caractersticas seleccionadas son de los siguientes tipos:
media( Ejemplo, Variable, Inicio, Fin ). desviacin( Ejemplo, Variable, Inicio, Fin ).
Filtrado. Algunos valores de las series numricas pueden exceder los lmites permitidos de control, volumen, nivel o temperatura (bien por exceso o por defecto), sta es la razn por la que aplicamos un proceso de ltrado antes de introducir los datos en la base de casos. Los valores mximos y mnimos permitidos son los siguientes:
control: desde 0 a 1. 0 signica 0 % de la accin de control, 1 signica 100 %.
Estas caractersticas evalan una funcin (esto es, media o desviacin), para una Variable del Ejemplo, en el intervalo dado por Inicio y Fin. Si se consideran todos los posibles intervalos, el nmero de posibles caractersticas es excesivo. La seleccin de algunas de estas caractersticas se realiza utilizando el mtodo
208
FT1 FM01
FT2
FT3
FT4
LT1
LT4
PI.1 PI.4 control control
TT2
TT3
TT4
FM14
Figura 3: Ejemplos de casos. Cada la muestra un caso de un modo de fallo. Cada columna muestra una de las variables
FM13
FM12
FM11
FM10
FM09
FM08
FM07
FM06
FM05
FM04
FM03
FM02
209
descrito en [14], que se apoya a su vez en el mtodo denominado boosting [15]. En esta aplicacin, el nmero de caractersticas seleccionadas es 100. Uno de los objetivos que se persigue al seleccionar caractersticas es la reduccin de la dimensionalidad. En los datos en crudo hay 11 series de 300 valores, mientras que los datos preprocesados slo tienen 100 atributos. En consecuencia, los casos almacenados son mucho ms compactos, lo que reduce considerablemente el tiempo necesario para encontrar los casos ms similares. Por otro lado, a la hora de clasicar un ejemplo es necesario obtener los valores de las caractersticas para ese ejemplo.
5.1. Datos sin preprocesado

Hemos aplicado DTW unidimensional con diferentes mtricas (lineal, cuadrtica y valle), DTW multidimensional, distancia Eucldea y distancia de Manhattan. El Cuadro 1 muestra el xito en la clasicacin logrado usando diferente nmero de vecinos (1, 3 y 5). Los resultados han sido obtenidos usando validacin cruzada estraticada con 10 subconjuntos de igual tamao provenientes del conjunto de datos sin preprocesado. La mejor medida de similitud ha resultado ser DTW unidimensional con mtricas Cuadrtica o Valle. Incrementando el nmero de vecinos, la tasa de aciertos desciende sistemticamente. Una posible explicacin de esta conducta podra ser el hecho que el nmero de ejemplos de cada clase, 20, es pequeo considerando el nmero de clases, 14, y la dimensionalidad de los datos. Planeamos volver a probar estas hiptesis con un conjunto mayor de datos. Como era de esperar, los resultados obtenidos usando DTW (unidimensional o multidimensional) son mejores que los obtenidos usando las distancias Eucldea o de Manhattan. DTW es una medida de disimilitud mucho ms robusta para series temporales, permitiendo que formas similares coincidan incluso si se encuentran desfasadas en su eje temporal [8]. La distancia Eucldea se ve mucho ms afectada por pequeos cambios en el eje temporal. No obstante, los resultados para distancia Eucldea y de Manhattan estn bastante prximos a los resultados de las distintas variantes de DTW.
4.2. Mtodos de evaluacin
4.2.1. Validacin cruzada.

En la validacin cruzada K-fold [3] un conjunto de datos D es dividido aleatoriamente en k subconjuntos mutuamente excluyentes D1 , . . . , Dk de aproximadamente igual tamao. El clasicador es entrenado y probado k veces; cada vez t 1, 2, . . . , k es entrenado sobre Di , i = 1, . . . , k, con i = t y probado sobre Dt . La estimacin de la precisin de la validacin cruzada es el nmero global de clasicaciones correctas dividido por el nmero de ejemplos del conjunto de datos. Nosotros usamos validacin cruzada estraticada para estimar la precisin del mtodo de clasicacin. El conjunto de datos fue dividido en subconjuntos de igual tamao. La proporcin de las clases es igual en cada particin (la misma que en el conjunto de datos original) porque este procedimiento proporciona resultados ms precisos que una validacin cruzada simple [9]. En nuestros experimentos tenemos los datos divididos en 10 subconjuntos de igual tamao.
5.2. Seleccin de caractersticas.

En este apartado vamos a mostrar los resultados obtenidos, usando validacin cruzada estraticada, al aplicar el mtodo de seleccin de caractersticas. El Cuadro 2 muestra el xito en la clasicacin logrado usando las distancias Eucldea y de Manhattan, ambas con diferente nmero de vecinos (1, 3 y 5). Como podemos observar, los resultados son mejores usando seleccin de caractersticas que usando datos sin preprocesado. La mejor tasa
5. Resultados
Hemos realizado varios experimentos aplicando todas las tcnicas descritas de recuperacin y reutilizacin tanto con datos sin preprocesado como con seleccin de caractersticas.
210
Cuadro 1: Tasas de acierto obtenidas al utilizar DTW unidimensional, DTW multidimensional, distancia Eucldea y Manhattan sobre los datos en crudo. Nmero de 1-D DTW M-D Distancia Distancia vecinos Lineal Cuadrtica Valle DTW Eucldea Manhattan 1 89.2 % 91.4 % 91.4 % 90.4 % 89.3 % 88.2 % 86.4 % 88.6 % 88.6 % 87.1 % 86.4 % 85.4 % 3 5 85.4 % 85.0 % 85.0 % 85.4 % 85.7 % 84.6 % res usando las distintas mtricas con los datos sin preprocesado y usando seleccin de caractersticas. Al usar los datos sin preprocesado, considerando que son series temporales, DTW obtiene mejores resultados que las distancias que no son especcas para este tipo de datos. Los resultados experimentales demuestran la validez del mtodo de seleccin de caractersticas propuesto. La precisin ha sido incrementada desde 91.4 % hasta 96.1 %. Otro asunto es el tiempo de ejecucin. Primero, las caractersticas deben ser seleccionadas, aunque este proceso puede realizarse fuera de lnea. Para clasicar un nuevo caso, deben evaluarse las caractersticas. El tiempo de este proceso es lineal con el nmero de caractersticas (100 para el ejemplo actual) y la longitud de las series. Sin embargo, ahora cada caso es mucho ms compacto, as que el tiempo necesario para encontrar los vecinos ms prximos se ve signicativamente reducido. La validacin del mtodo de seleccin de caractersticas ha sido considerado desde un punto de vista de aprendizaje automtico: todos los datos de entrenamiento estn disponibles, as que las caractersticas son seleccionadas usando todos los datos de entrenamiento. Sin embargo, en un sistema CBR nuevos casos son incorporados al sistema en cualquier momento. Estos nuevos casos sern representados mediante un conjunto de caractersticas que han sido seleccionadas sin tenerles en cuenta. Esto podra causar una degradacin del rendimiento del sistema. Por lo tanto, pensamos que sera interesante probar el sistema bajo estas condiciones. Adems, nuestra intencin es proseguir con la validacin de esta aproximacin sobre un conjunto experimental mayor.
Cuadro 2: Tasas de acierto obtenidas al utilizar seleccin de caractersticas con las distancias Eucldea y Manhattan. Nmero de Distancia Distancia de vecinos Eucldea Manhattan 1 91.8 % 96.1 % 3 87.1 % 93.6 % 5 86.8 % 91.1 %
de acierto obtenida con los datos sin preprocesado es del 91.4 % mientras que la mejor usando seleccin de caractersticas es del 96.1 %. Por lo tanto, el error ha sido reducido a menos de la mitad. Al igual que ocurra al usar datos sin preprocesado, incrementar el nmero de vecinos decrementa el acierto.
6. Conclusiones y trabajo futuro

Se ha desarrollado un sistema CBR para la identicacin de modelos de fallos en procesos continuos. El sistema usa el algoritmo de los K -vecinos para la recuperacin de casos. Puede ser usado con distintas mtricas, tales como la distancia de Manhattan, la distancia Eucldea y DTW tanto unidimensional como multidimensional. El sistema permite usar una representacin compacta de los casos, donde cada uno viene denido por los valores de varias caractersticas. Cada caracterstica evala una funcin en un intervalo dado. En este trabajo las funciones consideradas son la media y la desviacin. El sistema ha sido validado usando un conjunto de datos obtenido de las simulaciones de modelos de fallo en una planta de laboratorio. Se ha comparado la precisin de los clasicado-
211
Referencias
[1] A. Aamodt and E. Plaza. Case-Based Reasoning: Foundational Issues, Methodological Variations, and System Approaches. AI Communications. IOS Press, Vol. 7: 1,, pages 3959, 1994. [2] K. Altho and B. Bartsch-Sprl. Decision Support for Case-Based Applications. Special issue on case-based decision support., pages 614, 1996. [3] A. D. Anastasiadis, G. D. Magoulas, and X. Liu. Classication of Protein Localisation Patterns via Supervised Neural Network Learning. In Proceedings of the Fifth Symposium on Intelligent Data Analysis (IDA-03), Berlin, Germany, August 2003, pages 430439, 2003. [4] D. M. Brann, D. A. Thurman, and C. M. Mitchell. Case-Based Reasoning as a Methodology for Accumulating Human Expertise for Discrete System Control. In Proceedings of the IEEE Int. Conf. on SMC, Vancouver, B. C., Canada, pages 42194223, 1995. [5] J. Britanik and M. Marefat. Case-Based Manufacturing Process Planning with integrated support for knowledge sharing. In IEEE Int. Symp. on Assembly Task Planning, pages 107112, 1995. [6] J. Colomer, J. Melendez, and F. I. Gamero. Qualitative representation of process trends for situation assessment based on cases. In 15th Triennial World Congress of the International Federation of Automatic Control, Barcelona, Spain, 2002. [7] R.O. Duda and P.E. Hart. Pattern Classication and Scene Analysis. John Wiley and Sons, 1973. [8] E. Keogh and C. A. Ratanamahatana. Exact indexing of dynamic time warping. Knowledge and Information Systems, 7(3):358386, 2005.
[9] R. Kohavi. A study of cross-validation and bootstrap for accuracy estimation and model selection. International Joint Conference on Articial Intelligence, pages 223228, 1995. [10] J. Kolodner. Case-Based Reasoning. Morgan Kaufmann Publishers, 1993. [11] D. B. Leake. CBR in Context: The present and Future. Case-Based Reasoning: Experiences, Lessons, and Future Directions. Menlo Park: AAAI Press., 1996. [12] B. Pulido, C. Alonso, and F. Acebes. Lessons learned from diagnosing dynamic systems using possible conicts and quantitative models. In Engineering of Intelligent Systems. Fourteenth International Conference on Industrial and Engineering Applications of Articial Intelligence and Expert Systems (IEA/AIE-2001), volume 2070 of Lecture Notes in Articial Intelligence, pages 135144, Budapest, Hungary, 2001. [13] C. K. Riesbeck and R. C. Shank. Inside Case Based Reasoning. Lawrence Erlbaum Associates, Hillsdale, NJ, US,, 1989. [14] Juan J. Rodrguez and Carlos J. Alonso. Support vector machines of interval-based features for time series classication. In Research and Development in Intelligent Systems XXI: Proceedings of AI-2004, pages 244257. Springer, 2004. [15] Robert E. Schapire. The boosting approach to machine learning: An overview. In MSRI Workshop on Nonlinear Estimation and Classication, 2002. http://www.cs.princeton.edu/ ~schapire/papers/msri.ps.gz. [16] I. Watson. Applying Case-Based Reasoning: Techniques for Enterprise Systems. Morgan Kaufmann Publishers, 1997.

824 Razonamiento Basado en Casos PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

824 Razonamiento Basado en Casos PDF

Cargado por

Copyright:

Formatos disponibles

Un sistema de razonamiento basado en casos para la clasicacin de fallos en sistemas dinmicos

Juan Jos Rodrguez

III Taller de Minera de Datos y Aprendizaje

Figura 1: El ciclo CBR.

2. Clasicacin de fallos usando razonamiento basado en casos

2.2. Recuperacin de casos.

2.2.1. Algoritmo de los K -vecinos.

Estos cuatros pasos se muestran en la Figura 1.

III Taller Nacional de Minera de Datos y Aprendizaje, TAMIDA2005

Distancia de Manhattan. La distancia de

Alineamiento dinmico temporal. El

III Taller de Minera de Datos y Aprendizaje

2.3. Reutilizacin de casos.

3. Descripcin de la planta de laboratorio

2.4. Revisin de casos.

2.5. Almacenamiento de casos.

4.1. Descripcin del conjunto de datos.

4.1.1. Datos sin preprocesado.

III Taller Nacional de Minera de Datos y Aprendizaje, TAMIDA2005

Figura 2: Esquema de la planta.

Normalizacin. Con el n de decrementar

4.1.2. Seleccin de caractersticas.

control: desde 0 a 1. 0 signica 0 % de la accin de control, 1 signica 100 %.

III Taller de Minera de Datos y Aprendizaje

PI.1 PI.4 control control

III Taller Nacional de Minera de Datos y Aprendizaje, TAMIDA2005

5.1. Datos sin preprocesado

4.2. Mtodos de evaluacin

4.2.1. Validacin cruzada.

5.2. Seleccin de caractersticas.

III Taller de Minera de Datos y Aprendizaje

6. Conclusiones y trabajo futuro

III Taller Nacional de Minera de Datos y Aprendizaje, TAMIDA2005

También podría gustarte

Un sistema de razonamiento basado en casos para la clasicacin de fallos en sistemas dinmicos

2. Clasicacin de fallos usando razonamiento basado en casos

Normalizacin. Con el n de decrementar

control: desde 0 a 1. 0 signica 0 % de la accin de control, 1 signica 100 %.