Está en la página 1de 9

Identificando Patrones de Predicción y Clasificación de Alarmas por Alto Spread en

un Sistema de Combustión de Turbina a Gas

Roberto Prieto Morales Claudio Meneses Villegas


Ingeniero de Proyectos de Tecnología de la Información Departamento de Ingeniería de Sistemas y Computación
Magíster en Ingeniería Informática UCN Universidad Católica del Norte
Antofagasta, Chile Antofagasta, Chile
robertoprieto@vtr.net cmeneses@ucn.cl

Abstract— En este artículo se analizan y modelan datos El término KDD fue acuñado por Piatetsky Shapiro
operacionales de un sistema de combustión de turbina a gas, (1989) [1] para enfatizar que el “conocimiento” es el
para clasificar y predecir la condición de “alarma por alto producto final del descubrimiento accionado por los datos.
spread”. Esta condición de alarma indica que la combustión de El conocimiento extraído, es muy valioso para las
la turbina no está siendo uniforme, lo cual puede llevar organizaciones a la hora de tomar decisiones. Para tomar
eventualmente a la deformación de la turbina. Con la decisiones correctas, confiables y acertadas se debe contar
generación de patrones de predicción y clasificación, se busca con la información adecuada [7].
anticiparse a la activación de la alarma por alto spread en el Este artículo describe la aplicación de un proceso
sistema de combustión de la turbina, con lo cual se podría
metodológico basado en la guía CRISP-DM (Cross Industry
evitar o disminuir la indisponibilidad de la turbina. Mediante
el entrenamiento de algoritmos de redes neuronales y árboles
Standard Process for Data Mining), para la resolución de un
de decisión se obtuvieron dos modelos de clasificación y un problema operacional de alto impacto en una Central
modelo predictivo, los cuales fueron evaluados Generadora de Electricidad.
cuantitativamente y en base a la percepción de los usuarios, La aplicación de la metodología CRISP-DM en una
siendo los modelos de árbol mejor evaluados en este último Central Generadora de Electricidad busca entregar
aspecto. información a la empresa para apoyar la toma de decisiones.
En términos concretos, se busca anticiparse al problema de la
Keywords- Alarma por Alto Spread; Sistema Combustión de activación de la protección por alto spread del sistema de
Turbina a Gas; Identificación de Patrones en Sistemas de combustión de la TG (Turbina a Gas).
Combustión El resto del artículo está estructurado como se indica a
continuación. La sección II describe el problema y su
I. INTRODUCCIÓN contexto. En la sección III se describe la metodología
Actualmente las organizaciones están inmersas en un empleada en el desarrollo del trabajo. Las secciones IV y V
mercado muy competitivo, por lo que es importante para describen los datos utilizados, su selección y transformación,
ellas, que sus ejecutivos posean información relevante y respectivamente. La sección VI presenta y analiza los
oportuna a la hora de tomar decisiones. Dentro de las modelos de predicción y clasificación obtenidos. Finalmente,
herramientas que ocupan las organizaciones para apoyar la se presentan las conclusiones y trabajo futuro.
toma de decisiones, está la minería de datos.
Fayad (1996), define minería de datos como la búsqueda II. SISTEMA DE COMBUSTION DE TURBINA A GAS
de patrones relevantes y de regularidades importantes en El presente caso de estudio se llevó a cabo en una Central
grades almacenes de datos [11]. Por otro lado, Michalski Generadora de Electricidad perteneciente al SING (Sistema
(1998) se refiere a minería de datos inteligente como la Interconectado del Norte Grande), cuya matriz energética es
aplicación de métodos de aprendizaje automático u otros gas y petróleo. Esta Central Generadora, posee dentro de sus
métodos similares, para descubrir y enumerar patrones objetivos tener la máxima disponibilidad posible para todas
presentes en los datos [12]. El aprendizaje automático es el sus TG.
área de la Ingeniería Informática, que estudia y desarrolla Por lo anterior, resulta imperioso para la organización
algoritmos que implementan distintos modelos de
trabajar en evitar fallas en sus TG, que puedan producir
aprendizaje, y lo aplican en la resolución de problemas
prácticos [16]. alguna indisponibilidad de las TG en la generación eléctrica.
La minería de datos, se presenta como una etapa dentro En lo relacionado al sistema especifico objeto del
de un proceso más amplio, que se refiere a la aplicación de estudio, éste corresponde a la turbina a gas, la cual es la
algoritmos específicos para la extracción de patrones desde principal máquina para generar electricidad que posee la
datos. Dicha etapa es parte del proceso de descubrimiento de organización. Esta turbina está compuesta por los sistemas
conocimiento desde los datos, conocido como proceso KDD de escape, enfriamiento y combustión.
(Knowledge Discovery in Databases). En la Figura 1 [9], se puede apreciar las principales
partes de la TG, separadas en dos partes, generación a gas y
generación a energía.
A. Guía Metodológica CRISP-DM
CRISP-DM en esencia corresponde a un modelo de
proceso que proporciona un marco para el desarrollo de
proyectos en el ámbito de Data Mining [8]. El cual, está
siendo desarrollado por un consorcio de los principales
usuarios y proveedores de minería de datos.
Este modelo de referencia, proporciona una visión
general del ciclo de vida de un proyecto de minería de datos,
el cual contiene las fases de un proyecto, sus tareas
respectivas, y sus salidas.
El ciclo de vida de un proyecto de minería de datos se
divide en seis fases que se muestran en la Figura 2.
La secuencia de las fases no es estricta, y en la práctica es
un proceso iterativo. Las flechas indican sólo las secuencias
Figura 1. Corte longitudinal de la Turbina a gas. 1. generador de gas, 2. y las dependencias más importantes entre las fases.
generador de energía, 3. álabe de turbina de potencia, 4. poder tobera
turbina, 5. generador de turbina de gas cuchilla, 6. revestimiento de
combustión, 7. impulsor del compresor, 8. el generador de estructuras.

El sistema de combustión de la turbina está compuesto


por catorce cámaras de combustión, las cuales están
dispuestas simétricamente alrededor del rotor de la turbina.
Periódicamente se registran mediciones de variables
asociadas a la temperatura de las cámaras del sistema de
combustión. Dichas temperaturas deben mantenerse
uniformes, debido a que una alta diferencia de temperatura
entre las cámaras de combustión, significaría que no se está
produciendo una combustión eficiente y segura.
Por lo anterior, implicaría que se podría provocar una
deformación en la estructura de la turbina, además de una
pérdida de eficiencia en la capacidad de generación de
electricidad.
El Sistema de Control Distribuido DCS (Distributed
Control System) monitorea y controla el funcionamiento de
la TG. En el DCS se encuentra configurada una protección
por alto spread en el sistema de combustión, la cual opera al
identificar una alta diferencia de temperatura entre las Figura 2. Fases del modelo de proceso CRISP-DM para el desarrollo de
cámaras de combustión de la TG. proyectos de minería de datos. (Fuente: http://www.crisp-dm.org/).
La protección actúa en primera instancia alarmando el
alto spread. El sólo surgimiento de esta alarma, implica una
disminución en la capacidad de generación en la TG, debido B. Instanciación de la Guía CRISP-DM
a que no son uniformes las fuerzas que hacen girar el eje del
generador. En segunda instancia la alarma por alto spread, La guía CRISP-DM corresponde a un proceso genérico,
opera deteniendo el funcionamiento de la turbina, lo cual el cual requiere ser instanciado para cada tipo de proyecto de
implica una indisponibilidad de la TG, conllevando a una data mining. A continuación se presenta la adaptación de
pérdida de confianza ante sus clientes y la comunidad. CRISP-DM al problema particular descrito en la sección II y
su aplicación.
III. ASPECTOS METODOLÓGICOS DEL DESARROLLO DEL
La Figura 3 muestra las tareas desarrolladas para el
PROYECTO problema analizado.

El proyecto se abordó adoptando la guía CRISP-DM como


marco de desarrollo del trabajo, el cual se instanció para este
caso particular.
Figura 4. Esquema de funcionamiento de turbina a gas.

En la Figura 5 se describen en mayor detalle los


pasos de la secuencia de funcionamiento de una TG.

Figura 3. Secuencia de tareas desarrolladas

1) Entendimiento del negocio


El objetivo de negocio que se persigue con la realización
del proyecto es mejorar el indicador de disponibilidad de la
TG, mediante la aplicación de técnicas y herramientas de
minería de datos.
Específicamente, se busca contribuir a maximizar la
confiabilidad de arranque, minimizar salidas forzadas, lograr
disponibilidad de acuerdo a programa de mantenimiento,
disponibilidad media equivalente (92%), cumplir con la
duración de los mantenimientos mayores.
Por lo anterior, se desea evitar las fallas o
indisponibilidad de la TG por un tiempo prolongado, tal
que, no se ponga en riesgo los contratos vigentes, y lograr
menor índice de falla en el SING.
Desde el punto de vista técnico, los objetivos al aplicar
las técnicas de minería de datos en esta situación particular,
son generar patrones de predicción y clasificación, para Figura 5. Secuencia de funcionamiento de turbina a gas.
apoyar la toma de decisiones, asociadas a evitar la activación
de la protección por alto spread en el sistema de combustión 2) Descripción del problema
de la TG. El sub sistema de combustión de la TG se compone por
La Turbina a Gas, es un motor térmico rotativo de flujo catorce cámaras de combustión, en donde se incinera el gas
continuo que se caracteriza por presentar una baja relación natural o petróleo diesel, estas cámaras se encuentran
peso-potencia y una velocidad de giro muy elevada. La TG distribuidas simétricamente alrededor del rotor de la TG.
está compuesta por los sub sistemas de combustión, Existe una protección configurada en el DCS, esta se
enfriamiento y escape. produce por alto spread en el sistema de combustión de la
Se utiliza para la generación eléctrica, ya que la TG. Esta protección se calcula empíricamente tomando
combustión generada al incinerar gas, hace que los gases como datos entre otros, las temperaturas de las cámaras de
calientes al escapar hagan girar el rotor del alternador de la combustión de la TG. La activación de dicha protección
TG, con lo cual se produce inducción, la cual se trasforma en implica que no se está produciendo una combustión
energía eléctrica. uniforme entre las cámaras de combustión.
A continuación en la Figura 4 [10], se muestra el Lo anterior, conlleva a una disminución de la generación
esquema de funcionamiento de la TG para generar de electricidad de la TG, es decir que con la misma cantidad
electricidad. de combustible se genera menos carga eléctrica que en una
situación óptima. Además, la generación de electricidad con
una combustión no uniforme entre las cámaras provoca
daños en la estructura de la TG, deformando sus piezas.
Actualmente, cuando opera la alarma por un alto spread
el operador disminuye la potencia eléctrica de la TG, hasta
encontrar la causa y corregir el problema.
Se propone analizar los datos patrones de predicción y
clasificación, para anticipar la operación de la protección por
alto spread en el sistema de combustión de la TG.
Existe antecedente de aplicación de técnica de minería de
datos en Centrales de Generación Eléctrica para identificar
otras fallas en equipos [14].

IV. ENTENDIMIENTO DE LOS DATOS

Para la realizar la solución de minería de datos propuesta,


Figura 6. Tabla de hecho.
es necesario contar con registros históricos, que posibiliten
la creación de patrones.
El conjunto obtenido de datos posee únicamente variables
La Central, tiene implementada la plataforma industrial
de tipo numérico, correspondiente a valores de variables de
de gestión de información “PI SYSTEM”. Esta plataforma
proceso como temperaturas de las cámaras de combustión,
está compuesta por software, que permiten mostrar datos de
presión, intensidad de la llama, etc.
proceso en tiempo real y almacenarlos en una base de datos
En la Tabla 2, se describe una caracterización de algunos
propietaria.
atributos del conjunto de datos.
La TG está compuesta por los sub sistemas escape,
enfriamiento y combustión, también existen señalen que
influyen en la generación eléctrica como los equipos Nombre Valores de variables
auxiliares, aparte de las señales propias de la generación atributos Instanc Media Desviac moda mínim máxim
eléctrica como la potencia eléctrica y la frecuencia. ias ión o o
distinta estánda
Según el usuario del negocio como el alto spread se s r
origina en el sub sistema de combustión de la TG, se UNOADLN_M 16 0.04 0.486 0 0 9
ODE_GAS
seleccionaron todas las señales de ese sub sistema, aparte de
UNOAFD_INT 3630 102.718 75.307 2012 0 231.24
señales que dependen directamente de la activación de la ENS_2 5
alarma por alto spread, como la potencia eléctrica y la UNOAFD_INT 1405 94.448 382.94 844 0 5708
frecuencia. ENS_3 5
La inclusión de cualquier otra variable adicional no UNOAFD_INT 1041 72.332 398.40 613 0 3822
ENS_4
tendría relación con el alto spread de la TG. Por lo cual, sólo 2
produciría ruido en la elaboración de los modelos. UNOAFD_INT 15285 61.929 42.372 14253 0 162.66
ENS_5 8
Al conjunto de datos resultante, se agregó manualmente
UNOAFLUPSP 7005 0.315 0.899 5756 0 12.401
el atributo clase. Este atributo corresponde a la activación de
la alarma por alto spread en el sistema de combustión de la UNOAFPG3 5114 0.22 1.581 4578 0 39.306
TG. Dicho atributo es de tipo numérico, codificándose como UNOAPLPDPL 2310 0.037 0.281 1821 0 6.286
el valor 0 para condición sin alarma y 1 para condición con
UNOAPLSDPL 1660 0.042 0.273 1232 0 8.082
alarma.
Para el presente caso de estudio, se seleccionaron
UNOATTRF1 5698 27.619 83.892 4154 0 1154.3
registros históricos a partir de enero del 2008 y hasta 3
diciembre del 2010. Por lo cual, el conjunto de datos final UNOATTRXB 3358 7.31 19.405 2013 0 611.21
seleccionado por el usuario del negocio, incluye 54 variables, 9
UNOATTXD1_ 4442 16.772 46.329 3065 0 614.83
todas de tipo numérica. En la tabla 1 se muestra un resumen 1 8
del conjunto de datos seleccionado. UNOATTXD1_ 4360 16.364 45.691 2996 0 615.24
10 4
Característica Valor UNOATTXD1_ 4655 16.682 44.216 3277 0 614.83
Total atributos: 54 11 8
Total Instancias: 23430 class 2 - - - - -
Tipo de atributos: Numérico Tabla 2. Caracterización del conjunto de datos.
Total Instancias erróneas: 382
Tabla 1. Resumen del conjunto de datos
La figura 7 muestra la relación de variables entre la
En la Figura 6 se describe la tabla de hechos del conjunto temperatura de combustión de la cámara número 5 (eje X), y
la temperatura de los gases de la cámara de combustión (eje
de variables seleccionadas.
Y) medidas en grados Celsius.
Este gráfico muestra que existe una relación directamente Las relaciones entre variables descritas en la Tabla 3,
proporcional, es decir a mayor temperatura de combustión, corresponden en su gran mayoría a correlación negativa
mayor es la temperatura de gases de escape. Lo que implica, débil. Excepto, la relación entre la temperatura de
que se está realizando una combustión óptima en la cámara combustión de la cámara N° 5 y la variable clase. Esta
N° 5, ya que, que los inyectores de combustibles no se relación es una correlación positiva débil. Por lo cual, la
encuentran sucios y la cámara de combustión aún no necesita variable ‘Unoafd_intens_5’ está más correlacionada con el
ser lavada para sacar los residuos de la combustión adheridos valor de la variable clase que el resto de las otras variables.
a ella.

V. TRANSFORMACIÓN Y SELECCIÓN DE DATOS

La calidad de los datos es un factor importante en el


éxito de la minería de datos en una tarea determinada. Por lo
cual, es una etapa relevante dentro del modelo de proceso
CRISP-DM. La selección de atributos es el proceso de
identificar y eliminar la mayor cantidad de información
irrelevante y redundante [2].
Para el presente caso de estudio, se realizó una limpieza
de los registros erróneos, eliminando dichos registros. Estos
Figura 7. Gráfico temperatura de gases. eran producto de fallas en la captura de las señales. Además
En la figura 8 se representa la relación de variables entre se verificó la integridad de los datos, no encontrando
la diferencia de temperatura de las cámaras de combustión problemas de este tipo.
N° 5 y N° 10 (eje X), y la temperatura de la turbina (eje Y) Dado que existe una gran cantidad de atributos
medida en grados Celsius. (cincuenta y cuatro) se aplicó una técnica para evaluar a
En este gráfico se aprecia que se encuentra delimitado el priori su importancia y disminuir el número de atributos,
valor máximo para la diferencia de temperatura entre dejando sólo los más relevantes. A continuación se detalla la
cámaras de combustión. Para el periodo de tiempo dado la técnica utilizada de atributo evaluador y método de
diferencia de temperatura entre las cámaras de combustión búsqueda, para reducir el número de atributo del conjunto de
N° 5 y N° 10 mayoritariamente fue baja, independiente de la datos.
temperatura de la turbina. Lo que implica, que para un • Atributo evaluador CfsSubsetEval [3], este método
funcionamiento normal de la TG, necesariamente debe evalúa un subconjunto de atributos considerando la
existir una baja diferencia de temperatura entre las cámaras habilidad predictiva individual de cada variable, así
de combustión. como el grado de redundancia entre ellas.
• Método de búsqueda BestFirst [3], este algoritmo
de búsqueda, trata de expandir el nodo
más próximo al objetivo, percibiendo que
probablemente conduzca rápidamente a una
solución. El algoritmo BestFirst puede comenzar su
búsqueda por el conjunto vacío de atributos y de
búsqueda hacía adelante, o empezar con todo el
conjunto de atributos y búsqueda hacia tras, o
empezar en cualquier momento y buscar en ambas
direcciones (enfoque híbrido).

En la tabla 4, se detallan los resultados obtenidos de la


Figura 8. Gráfico diferencias de temperatura.
aplicación de la técnica de selección de atributos BestFirst.
La tabla 3 describe la matriz de correlación para los Resultados aplicación técnica selección de atributos BestFirst
atributos más relevantes relacionados con el atributo clase. Inicio establecido: Sin atributos.
Dirección de búsqueda: Hacia adelante.
Atributos Valor correlación Búsqueda de rancio: Después de 5 expansiones de
Primero Segundo nodos.
Unoafd_intens_5 Unoafsr_control -0.002 Número de subconjuntos de evaluación: 410
Mérito del mejor subconjunto: 0.113
Unoafd_intens_5 Unoal83llbm -0.002
Tabla 4. Resumen resultados BestFirst.
Unoafd_intens_5 Class 0.112
Unoafsr_control Class -0.018
Unoal83llbm Class -0.018 La aplicación de esta técnica obtuvo como resultado
Tabla 3. Matriz de correlación de variables. una disminución de atributos de 54 a 4. La Tabla 5 detalla
los atributos seleccionados.
sobre ajustar
a los datoos, resultando un rendimiennto inferior
Variable Descripción
D del moddelo sobre los datos de pruebba [20].
UNOAFD_INTE
ENS_5 Teemperatura cámarra de combustión Para la reducir la complejidad y evitar el exceso de

N 5 sobreajuste, en el preesente caso dee estudio se occuparán los
UNOAFSR_CO
ONTROL Teemperatura de conntrol de la turbina clasificcadores RepTrree y J48, addemás del Alggoritmo de
UNOAL83LLBM In
ntensidad de la llam
ma cámara N° 8 ANN Multilayer Perceptron. Los tres algoritmos
Class Prrotección seleccioonados se encuuentran disponiibles en Weka..
Tabla 5. Atribu
utos seleccionados
A. Alggoritmo Multilaayer Perceptronn
VI. MODELOS
O DE CLA
ASIFICACIÓN Y PREDICCIÓN Estee algoritmo es e una ANN (red neuronall artificial)
multicaapa. Según Rum menlhart (19866) las ANN muulticapas de
tipo feeedforward conn aprendizaje por algoritmoo de retro
Existen anntecedentes de estudios, en ell cual se compaara propagaación, son unn tipo de estrructura de coomputación
laa performancce de un conjunto c de algoritmos de paralelaa, en donde, varias pequeññas unidades de cálculo
c
clasificación. C
Concluyendo quue la elección de del algoritmmo denomiinadas neuronaas, están masiivamente interrconectadas
m adecuado,, es altamentee dependiente de la aplicaciión
más con la capa anterior de d donde recibben informaciónn, y con la
[15]. Ademáss, se debe considerar que q no existten capa poosterior hacia donde
d la transm
miten [5].
a
antecedentes d aplicación de minería de
de d datos para el Lass principales características deld algoritmo Multilayer
p
problema partiicular de la alarma
a por altto spread en un Percepttron son su caapacidad para aprender las relaciones
s
sistema de com mbustión de la TG.
T funcionnales a partir de ejemploss, descubrir patrones p y
Para el presente
p caso de estudio, se s desea que el regularridades en los datos,
d a través,, de la auto orgganización.
u
usuario del neggocio tenga mo odelos de varioos tipos, para que
q Por lo cual, son muuy adecuados para de probblemas de
loos analice y escoja el mo odelo que mejjor soluciona el mapeo no lineal [19].
p
problema plantteado. Para lo cual, se aplicarán las técniccas En la Figura 9, se muestra la estrructura de la reed neuronal
d árbol de deccisión y red neu
de uronal artificiall. artificiaal generada. Enn donde se apreecia el ingreso de las tres
Los árbolles de decisión n son una téccnica sencilla de variablees a la capa de entrada, dos neuronas
n en la capa
c oculta
a
aprendizaje de clasificación supervisada, perop exitosa. Los
L y una neurona
n en la salida.
s Ademáss se ilustra la distribución
d
á
árboles están compuesto por p segmentoss más pequeñños de los ocho pesos siinápticos geneerados por el modelo m de
lllamados nodoos terminales u hojas. Estos nodos son s prediccción.
h
homogéneos reespecto a una variable
v de desttino [17].
Las redess neuronales artificiales (A ANN) han siido
u
utilizadas porr muchos inv vestigadores para identificcar
u
ubicación y seeveridad de distintos
d tipos de variables de
e
entrada y salidda. Ya que, proporcionan
p una herramiennta
e
eficaz para el reeconocimiento o de patrones [118].
El algoritm mo J48 es la implementación
i n para Weka del
d
a
algoritmo C 4.5. Este algorittmo J48, elige el atributo que q
p
posee el máxximo de info ormación relaacionada con la
g
ganancia, commo criterio de la mejor divvisión. Adem más,
u
utiliza los atrributos que mejorm diferenncia las saliddas,
g
generando una rama por cadaa salida. Figura 9. Esttructura de la red neuronal
n articifial.
El algoritm mo RepTree presenta
p una poda
p rápida paara
c
corregir en el árbol
á de decisiión los efectos de los ruidos en La ANN empiezaa con unos peesos aleatorios y aprende
loos datos de entrenamiento. El árbol poodado reduce la ajustando dichos vallores iterativam mente, hasta lllegar a un
c
complejidad enn el proceso de clasificación. estado en donde ess capaz de determinard unna relación
El algorittmo Multilayeer Perceptron posee funcionnes funcionnal dentro de los objetivos preestablecidos
p s entre los
s
sigmoidales quue se emplean como activaciión de funcionnes datos de
d entrada y el conjunto de datos
d de entrenaamiento en
n lineales paraa todas las capaas. Estas funcioones sigmoidales
no su fase de aprendizajee.
m
minimizan el sobreajuste conc un métoddo de detecciión El ajuste
a de los coeficientes, se realiza por medio
m de un
temprana. mecaniismo de retro propagación
p del error desde laas capas de
salidas hacia las capaas ocultas, parra posteriormeente cotejar
El overfittting o sobreaajuste se prodduce cuando un los resuultados obteniddos de la salidda de la red coon el valor
aalgoritmo buscca las mejoress variables parra un modelo en correctoo entregado poor el vector quee contiene el conjunto
c de
p
particular, usanndo un conjuunto de datos limitado, pueede datos de
d entrenamientto.
El mecanismo
m de proceso formaal para cada neuurona es el
siguiennte [4]:
(1)) El modelo
m predicttivo elaborado por algoritmo Multilayer
Percepttron entregó como
c resultadoo la generacióón de ocho
En donde,
E da de la neurrona,
es la salid es el ponderaaciones de pessos. Estos pesoos ponderan laas variables
p
producto escaalar entre el vector traspuuesto de pessos de entrrada y empíriccamente determ minan la variable clase.
s
sinápticos.   Esta vaariable clase es
e la que indicca si se produuce el alto
(2) spread en el sistemaa de combustióón de la TG, para unas
variablees de entrada en
e particular.
es el vector de
d pesos sináptticos.
B. Alggoritmo Rep Tree
(3)
El algoritmo
a RepTTree se utiliza para
p la elaboraación de un
es el vector de
d entradas a laa neurona. patrón de clasificación, obteniendoo como resulttado de la
El subíndicee m indica el núúmero de entraadas a la neuronna, aplicación de dicho algoritmo
a una representación
r gráfica de
es un valorr denominado umbral que permitep ajustarrse un árbool de clasificaciión.
p disminuir el
para e sesgo. El funcionamiento
f o del algoritmoo RepTree se coompone de
La función transforma el e escalar resultante en la saliida dos fasses, en la primmera fase se creea un conjuntoo de reglas
d la neurona, en la mayoría de los casos coorresponde a una
de u l datos usadoos para el aprendizaje, en
que se sobreajuste a los
f
función sigmoiddal. la  seguunda fase se poda el conj njunto de regllas usando
(4) ejemploos que no participaron en el aprendizaje
a [3]..
El resultadoo de esta funcción produce salidas dentro del d Paraa la aplicación de este alggoritmo se utillizaron los
r
rango [0,1]. Laa salida de cad
da neurona, es una entrada paara parámeetros por defecttos en la constrrucción el modeelo.
c
cada neurona de d la capa sigguiente, exceptto en la primeera En la Figura 10 see muestra el árrbol gráfico geenerado por
c
capa, en dondee la entrada ess el vector con c las variables el algorritmo Rep Tree. La rama izqquierda del árbbol muestra
inndependientes,, tal como se aprecia
a en la Figura 9. la partte no relacionnada con la condición
c de alarma,
a en
cambioo en la rama derecha
d del árbbol están los indicadores
i
que corrresponden a laa alarma.

Figura 10: Árbol Gráficoo generado por el algoritmo


a Rep Treee.
mo J48 ocupaa una técnicaa voraz para inducir la
algoritm
C Algoritmo J48
C. J
decisión para los árboles de clasificación [6]. Este
El algoritm
mo J48 es una aplicación dell algoritmo C44.5. algoritm l elaboración del árbol de clasificación
mo, utiliza en la
E
Esta implemeentación geneera árboles ded decisión. El los atriibutos que mejjor diferencia las salidas, crreando una
rrama por cada salida [13]. Ad demás, terminaa la rama si toddos rango de
d valores espeecíficos para una u variable en particular.
loos miembros poseen
p la misma clase, etiqquetando la ram ma Pero, además presentaa un modelo coonfuso para el cliente, ya
c dicha clasee [3].
con que el árbol de clasifficación generrado posee ram mas que no
Para la apllicación de esste algoritmo se utilizaron los l aportann a la clasificacción de la alarm
ma.
p
parámetros porr defectos en laa construcción el
e modelo. C. Moddelo de clasificcación J48
En la Figurra 11, se mueestra el patrón de clasificaciión
g
generado. En la rama derrecha del árbbol, describe la El modelo
m de claasificación J48, presenta un modelo de
c
clasificación e surgimiento de
dee instancias relaacionadas con el clasificcación similar ala generado poor el algoritmo Rep Tree.
laa condición de alarma. Tambiéén clasifica la operación de la alarma, a partir de un
rango ded valores espeecíficos para unau variable en particular.
La difeerencia es que poda
p las ramass del árbol que no aportan
l alarma. Por lo anterior, se obtiene un
a la claasificación de la
modeloo que es claro y visualmentee aceptable poor parte del
cliente.

Criterio Algoritmos
MultiLayer RepTree J48
Perceptron
Fiigura 11: Árbol Gráfico generado porr el algoritmo J48. Es comprensible Sí No Sí
Cuumple con la Sí Sí Sí
función
VII. RESULTADOS
E A
Ayuda a los No Sí Sí
o
objetivos del
Para la connstrucción de cada uno de los modelos de negocio
minería de daatos generadoss, se ocupó un 95% de las
m Pootencialmente Sí Sí Sí
innstancias paraa entrenamientto y un 5% para
p prueba. Las
L útil
m
métricas de rendimiento
r de cada modeelo generado se A
Aprobado No No Sí
r
resumen en la Tabla
T 6. Tablla 7: Resumen de aceptación
a de los modelos.
m

Variable Algoritm
mos
El modelo
m de classificación de J48,
J se basa sólo
s en un
MultiLaayer RepTrree J48
atributoo que es la inntensidad de laa llama de la cámara de
Percepttron combusstión número cinco.
c e usuario esto se explica
Según el
porque en el sistema de combustióón existen 14 cámaras
c de
Coeficiente de 0.739
95 0.81588 0.7992
correlación las cuaales 3 poseenn termocuplass, para la meedición de
Media de error 0.004
45 0.00477 0.0043 temperaatura, en el casso de la cámara número cinco es la que
absoluto se encuentra más cercana a las otras dos cám maras que
Raiz de error 0.049
95 0.04833 0.0443 tambiénn poseen term mocuplas. Estoo explicaría ele por qué
cuadrado cuandoo se produce unau alta difereencia de tempeeratura por
Error absooluto 39.3034
4% 41.58288 % 37.6059 % alto sppread, se mannifiesta dichaa diferencia con c mayor
relativo
Raiz de error 69.3076
6% 67.68799 % 61.9838 %
intensiddad en la temmperatura de laa cámara de combustión
c
relativo cuadraado númeroo cinco.
Número de 1171
1 1171 1171
instancias VIII. CONC
CLUSIONES Y TRABAJO
R FUTUR
RO
Tabla 6: Resum
men de resultados de modelos. Con los patrones de d predicción y clasificación generados,
se cuennta con inform mación para saber
s qué valoores deben
Una vez obbtenidos los modelos dee predicción y
U tener laas señales clavves, cuando se produce la acttivación de
c
clasificación, se requirió la evaluación
e del usuario respeccto la proteección por altoo spread del siistema de com mbustión de
d potencial grado
del g de inteerés en cada uno
u de ellos. A la TG, para así evitarr la activación de dicha protección. Con
c
continuación see resume esta evaluación.
e la utilizzación de esta información para
p tomar deccisiones, se
A Modelo de predicción
A. p ANN
NN deberíaa aumentar laa disponibilidaad de la TG G para dar
El modelo de predicción generado porr la red neuronnal cumplim miento a los objetivos de la empresa, además a de
a
artificial, permiite indicar si op
pera o no la alaarma para valorres mejorarr la confiabiliddad ante sus cliientes.
e
específicos dee las variablees de entradaa. Por lo quue, A partir
p del trabbajo desarrollaado se identifica como
o
operacionalmen nte no es unaa ayuda para anticiparse a la acción futura la geeneración de una simulacióón de las
a
activación de laa alarma. condiciiones de operacción de la plantta. Esto permittiría validar
el modeelo de minería de datos generrado. Una vez validado
v el
B Modelo de clasificación
B. c Rep
R Tree modeloo de clasificacióón, se procederrá a su implantaación. Esto
El modelo de clasificacióón elaborado por el algoritmmo es, idenntificar anticipaadamente el surrgimiento de laa condición
R Tree clasiffica la operación de la alarm
Rep ma, a partir de un de una alarma que perrmita evitar el disparo
d de la tuurbina.
IX. AGRADECIMIENTOS [5] Abrahart, R.J., See, L. y Kneale, P.E. 2001. Investigating the role of
saliency analysis with a neural network rainfall-runoff model. Journal
Este trabajo fue realizado en el marco del desarrollo de of Computers and Geosciences, 27: 921-928.
un caso de estudio en la asignatura de minería de datos 1 del [6] Soman, T. and Bobbie, P.O. 2005. Classification of Arrhythmia Using
programa de Magíster en Ingeniería Informática de la UCN. Machine Learning Techniques. Southern Polytechnic State University
(SPSU) 1100 S. Marietta Parkway, Marietta, GA 30060, USA.
[7] Elizabeth Vitt, Michael Luckevich, Stacia Misner. 2002. Making
X. GLOSARIO DE TÉRMINOS Better Business Intelligence Decisions Faster. editors Microsoft
Press.
Alternador: Máquina eléctrica generadora de corriente [8] R. Wirth, J. Hipp. 2000. CRISP-DM: Towards a standard process
alterna. model for data mining, in: Proceedings of the 4th International
Alto Spread TG: Es cuando se produce una alta diferencia Conference on the Practical Applications of Knowledge Discovery
de temperatura entre las cámaras de combustión de la and Data Mining, Manchester, UK, 2000, pp. 29-39.
turbina a gas. [9] Min Tae Kim, Si Woo Lee. 2012. Application of in situ oxidation-
resistant coating technology to a home-made 100 kW class gas
Cámara de combustión: Consiste en un recipiente al cual turbine an its performance analysis. Applied Thermal Engineering,
ingresa aire comprimido, al que se le añade combustible y se Volume 40, Pages 304–310.
quema en forma ininterrumpida. [10] Frank J. Brooks. 2001. GE Gas Turbine Performance Characteristics.
Disponibilidad: Se produce cuando una turbina está GE Power Systems Schenectady, NY GER-3567H.
declarada al controlador del SING, como utilizable para [11] M. Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth, and
Ramasamy Uthurusamy. 1996. Advances in Knowledge Discovery
producir electricidad. and Data Mining. San Mateo, AAAI Press, EE.UU.
Matriz Energética: Son los posibles combustibles que [12] Michalski, R.S., Bratko, I., Kubat M. 1998. Machine Learning
ocupa una Central para generar electricidad. andData Mining. Methods and Applications. Wiley & Sons Ltd.,
PI System: El estándar de la industria en la infraestructura EE.UU.
de la empresa para la gestión de datos en tiempo real y [13] S.G. Jolandan, H Mobli, H Ahmadi, M Omid, S.S. Mohtasebi. 2012.
eventos. Fuzzy-Rule-Based Faults Classification of Gearbox Tractor.
Department of Agricultural Machinery Engineering, faculty of
Potencia eléctrica: Es la velocidad con que se agota la Agricultural Engineering and technology University of Tehran, Karaj,
energía. Iran.
Rotor: Parte giratoria de una turbina. [14] Christina Athanasopoulou, Vasilis Chatziathanasiou and Ioannis
SING: Agrupación de Centrales Generadoras de Petridis. 2007. Utilizing data mining algorithms for identification and
reconstruction of sensor faults: a Thermal Power Plant case study.
Electricidad que se encuentran ubicadas entre las ciudades University of Thessaloniki.
de Arica y Antofagasta. [15] Vedrana Vidulin, Mitja Luštrek, Matjaž Gams. 2007. Comparison of
Salidas forzadas: Es la interrupción intempestiva de la the performance of genre classifiers trained by different machine
turbina por falla o defecto de esta o cualquier otro motivo. learning algorithms. Department of Intelligent Systems. Jožef Stefan
Sistema de Control Distribuido: Es un concepto en donde Institute. Jamova 39, 1000 Ljubljana, Slovenia.
la filosofía del equipo se define como la distribución [16] Michalski, R. S. 1983. A Theory and Methodology of Inductive
Learning. En Michalski, R. S., Carbonell, J. G., Mitchell, T. M.
geográfica del control, enlazada por una red de (eds.). Machine Learning: An Artificial Intelligence Approach, Vol. I.
comunicaciones, cuyo destino es centralizar un cuadro de Morgan-Kauffman, EE.UU.
control central. [17] Jun Li, Shunyi Zhang, Yanqing Lu, Junrong Yan. 2008. Real-time
Turbina a Gas: Es un motor térmico rotativo de flujo P2P Traffic Identification. Nanjing University of Posts and
continuo que se caracteriza por presentar una baja relación Telecommunication, Nanjing, JiangSu, China. Zhejiang Wanli
University, Ningbo, Zhejiang, China.
peso-potencia y una velocidad de giro muy elevada
[18] Prechelt L. 1998. Early stopping — but when? In. Orr GB, Muller
OR, editors. Neural networks: Tricks of the trade. Berlin: Springer-
Verlag Telos.
XI. REFERENCIAS [19] Ayman Ahmed Seleemah. 2012. A multilayer perceptron for
[1] U.M. Fayyad, G. Piatetsky-Sapiro, and P. Smyth. 1991. From data predicting the ultimate shear strength of reinforced concrete beams.
mining to knowledge discovery in databases. Editors, Advances in Journal of Civil Engineering and Construction Technology Vol. 3(2),
Knowledge Discovery and Data Mining, page 39. AAAI Press, pp. 64-79.
(1997). [20] U.M. Fayyad, G. P. Shapiro and P. Smyth. 1996. The KDD process
[2] Mark A. Hall, Geoffrey Holmes. 2003. Benchmarking Attribute for extracting useful knowledge from volumes from data.
Selection Techniques for Discrete Class Data Mining. IEEE Communication of ACM, Vol. 39(11).
transactions on knowledge and data engineering, vol. 15, NO. 3.
[3] I.H. Witten, E. Frank. (2005). Data Mining: practical machine
learning tools and techniques 2nd. Edition. Morgan Kaufmann.
[4] D. Rumelhart, G. Hinton, and R. Williams. 1986. Learning
representation by error propagation, In D.E. Rumelhart and J.L.
Mclelland, editors, Paralled Distributed Procession (Cambridge, MA:
MIT Press).

También podría gustarte