Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Abstract— En este artículo se analizan y modelan datos El término KDD fue acuñado por Piatetsky Shapiro
operacionales de un sistema de combustión de turbina a gas, (1989) [1] para enfatizar que el “conocimiento” es el
para clasificar y predecir la condición de “alarma por alto producto final del descubrimiento accionado por los datos.
spread”. Esta condición de alarma indica que la combustión de El conocimiento extraído, es muy valioso para las
la turbina no está siendo uniforme, lo cual puede llevar organizaciones a la hora de tomar decisiones. Para tomar
eventualmente a la deformación de la turbina. Con la decisiones correctas, confiables y acertadas se debe contar
generación de patrones de predicción y clasificación, se busca con la información adecuada [7].
anticiparse a la activación de la alarma por alto spread en el Este artículo describe la aplicación de un proceso
sistema de combustión de la turbina, con lo cual se podría
metodológico basado en la guía CRISP-DM (Cross Industry
evitar o disminuir la indisponibilidad de la turbina. Mediante
el entrenamiento de algoritmos de redes neuronales y árboles
Standard Process for Data Mining), para la resolución de un
de decisión se obtuvieron dos modelos de clasificación y un problema operacional de alto impacto en una Central
modelo predictivo, los cuales fueron evaluados Generadora de Electricidad.
cuantitativamente y en base a la percepción de los usuarios, La aplicación de la metodología CRISP-DM en una
siendo los modelos de árbol mejor evaluados en este último Central Generadora de Electricidad busca entregar
aspecto. información a la empresa para apoyar la toma de decisiones.
En términos concretos, se busca anticiparse al problema de la
Keywords- Alarma por Alto Spread; Sistema Combustión de activación de la protección por alto spread del sistema de
Turbina a Gas; Identificación de Patrones en Sistemas de combustión de la TG (Turbina a Gas).
Combustión El resto del artículo está estructurado como se indica a
continuación. La sección II describe el problema y su
I. INTRODUCCIÓN contexto. En la sección III se describe la metodología
Actualmente las organizaciones están inmersas en un empleada en el desarrollo del trabajo. Las secciones IV y V
mercado muy competitivo, por lo que es importante para describen los datos utilizados, su selección y transformación,
ellas, que sus ejecutivos posean información relevante y respectivamente. La sección VI presenta y analiza los
oportuna a la hora de tomar decisiones. Dentro de las modelos de predicción y clasificación obtenidos. Finalmente,
herramientas que ocupan las organizaciones para apoyar la se presentan las conclusiones y trabajo futuro.
toma de decisiones, está la minería de datos.
Fayad (1996), define minería de datos como la búsqueda II. SISTEMA DE COMBUSTION DE TURBINA A GAS
de patrones relevantes y de regularidades importantes en El presente caso de estudio se llevó a cabo en una Central
grades almacenes de datos [11]. Por otro lado, Michalski Generadora de Electricidad perteneciente al SING (Sistema
(1998) se refiere a minería de datos inteligente como la Interconectado del Norte Grande), cuya matriz energética es
aplicación de métodos de aprendizaje automático u otros gas y petróleo. Esta Central Generadora, posee dentro de sus
métodos similares, para descubrir y enumerar patrones objetivos tener la máxima disponibilidad posible para todas
presentes en los datos [12]. El aprendizaje automático es el sus TG.
área de la Ingeniería Informática, que estudia y desarrolla Por lo anterior, resulta imperioso para la organización
algoritmos que implementan distintos modelos de
trabajar en evitar fallas en sus TG, que puedan producir
aprendizaje, y lo aplican en la resolución de problemas
prácticos [16]. alguna indisponibilidad de las TG en la generación eléctrica.
La minería de datos, se presenta como una etapa dentro En lo relacionado al sistema especifico objeto del
de un proceso más amplio, que se refiere a la aplicación de estudio, éste corresponde a la turbina a gas, la cual es la
algoritmos específicos para la extracción de patrones desde principal máquina para generar electricidad que posee la
datos. Dicha etapa es parte del proceso de descubrimiento de organización. Esta turbina está compuesta por los sistemas
conocimiento desde los datos, conocido como proceso KDD de escape, enfriamiento y combustión.
(Knowledge Discovery in Databases). En la Figura 1 [9], se puede apreciar las principales
partes de la TG, separadas en dos partes, generación a gas y
generación a energía.
A. Guía Metodológica CRISP-DM
CRISP-DM en esencia corresponde a un modelo de
proceso que proporciona un marco para el desarrollo de
proyectos en el ámbito de Data Mining [8]. El cual, está
siendo desarrollado por un consorcio de los principales
usuarios y proveedores de minería de datos.
Este modelo de referencia, proporciona una visión
general del ciclo de vida de un proyecto de minería de datos,
el cual contiene las fases de un proyecto, sus tareas
respectivas, y sus salidas.
El ciclo de vida de un proyecto de minería de datos se
divide en seis fases que se muestran en la Figura 2.
La secuencia de las fases no es estricta, y en la práctica es
un proceso iterativo. Las flechas indican sólo las secuencias
Figura 1. Corte longitudinal de la Turbina a gas. 1. generador de gas, 2. y las dependencias más importantes entre las fases.
generador de energía, 3. álabe de turbina de potencia, 4. poder tobera
turbina, 5. generador de turbina de gas cuchilla, 6. revestimiento de
combustión, 7. impulsor del compresor, 8. el generador de estructuras.
Criterio Algoritmos
MultiLayer RepTree J48
Perceptron
Fiigura 11: Árbol Gráfico generado porr el algoritmo J48. Es comprensible Sí No Sí
Cuumple con la Sí Sí Sí
función
VII. RESULTADOS
E A
Ayuda a los No Sí Sí
o
objetivos del
Para la connstrucción de cada uno de los modelos de negocio
minería de daatos generadoss, se ocupó un 95% de las
m Pootencialmente Sí Sí Sí
innstancias paraa entrenamientto y un 5% para
p prueba. Las
L útil
m
métricas de rendimiento
r de cada modeelo generado se A
Aprobado No No Sí
r
resumen en la Tabla
T 6. Tablla 7: Resumen de aceptación
a de los modelos.
m
Variable Algoritm
mos
El modelo
m de classificación de J48,
J se basa sólo
s en un
MultiLaayer RepTrree J48
atributoo que es la inntensidad de laa llama de la cámara de
Percepttron combusstión número cinco.
c e usuario esto se explica
Según el
porque en el sistema de combustióón existen 14 cámaras
c de
Coeficiente de 0.739
95 0.81588 0.7992
correlación las cuaales 3 poseenn termocuplass, para la meedición de
Media de error 0.004
45 0.00477 0.0043 temperaatura, en el casso de la cámara número cinco es la que
absoluto se encuentra más cercana a las otras dos cám maras que
Raiz de error 0.049
95 0.04833 0.0443 tambiénn poseen term mocuplas. Estoo explicaría ele por qué
cuadrado cuandoo se produce unau alta difereencia de tempeeratura por
Error absooluto 39.3034
4% 41.58288 % 37.6059 % alto sppread, se mannifiesta dichaa diferencia con c mayor
relativo
Raiz de error 69.3076
6% 67.68799 % 61.9838 %
intensiddad en la temmperatura de laa cámara de combustión
c
relativo cuadraado númeroo cinco.
Número de 1171
1 1171 1171
instancias VIII. CONC
CLUSIONES Y TRABAJO
R FUTUR
RO
Tabla 6: Resum
men de resultados de modelos. Con los patrones de d predicción y clasificación generados,
se cuennta con inform mación para saber
s qué valoores deben
Una vez obbtenidos los modelos dee predicción y
U tener laas señales clavves, cuando se produce la acttivación de
c
clasificación, se requirió la evaluación
e del usuario respeccto la proteección por altoo spread del siistema de com mbustión de
d potencial grado
del g de inteerés en cada uno
u de ellos. A la TG, para así evitarr la activación de dicha protección. Con
c
continuación see resume esta evaluación.
e la utilizzación de esta información para
p tomar deccisiones, se
A Modelo de predicción
A. p ANN
NN deberíaa aumentar laa disponibilidaad de la TG G para dar
El modelo de predicción generado porr la red neuronnal cumplim miento a los objetivos de la empresa, además a de
a
artificial, permiite indicar si op
pera o no la alaarma para valorres mejorarr la confiabiliddad ante sus cliientes.
e
específicos dee las variablees de entradaa. Por lo quue, A partir
p del trabbajo desarrollaado se identifica como
o
operacionalmen nte no es unaa ayuda para anticiparse a la acción futura la geeneración de una simulacióón de las
a
activación de laa alarma. condiciiones de operacción de la plantta. Esto permittiría validar
el modeelo de minería de datos generrado. Una vez validado
v el
B Modelo de clasificación
B. c Rep
R Tree modeloo de clasificacióón, se procederrá a su implantaación. Esto
El modelo de clasificacióón elaborado por el algoritmmo es, idenntificar anticipaadamente el surrgimiento de laa condición
R Tree clasiffica la operación de la alarm
Rep ma, a partir de un de una alarma que perrmita evitar el disparo
d de la tuurbina.
IX. AGRADECIMIENTOS [5] Abrahart, R.J., See, L. y Kneale, P.E. 2001. Investigating the role of
saliency analysis with a neural network rainfall-runoff model. Journal
Este trabajo fue realizado en el marco del desarrollo de of Computers and Geosciences, 27: 921-928.
un caso de estudio en la asignatura de minería de datos 1 del [6] Soman, T. and Bobbie, P.O. 2005. Classification of Arrhythmia Using
programa de Magíster en Ingeniería Informática de la UCN. Machine Learning Techniques. Southern Polytechnic State University
(SPSU) 1100 S. Marietta Parkway, Marietta, GA 30060, USA.
[7] Elizabeth Vitt, Michael Luckevich, Stacia Misner. 2002. Making
X. GLOSARIO DE TÉRMINOS Better Business Intelligence Decisions Faster. editors Microsoft
Press.
Alternador: Máquina eléctrica generadora de corriente [8] R. Wirth, J. Hipp. 2000. CRISP-DM: Towards a standard process
alterna. model for data mining, in: Proceedings of the 4th International
Alto Spread TG: Es cuando se produce una alta diferencia Conference on the Practical Applications of Knowledge Discovery
de temperatura entre las cámaras de combustión de la and Data Mining, Manchester, UK, 2000, pp. 29-39.
turbina a gas. [9] Min Tae Kim, Si Woo Lee. 2012. Application of in situ oxidation-
resistant coating technology to a home-made 100 kW class gas
Cámara de combustión: Consiste en un recipiente al cual turbine an its performance analysis. Applied Thermal Engineering,
ingresa aire comprimido, al que se le añade combustible y se Volume 40, Pages 304–310.
quema en forma ininterrumpida. [10] Frank J. Brooks. 2001. GE Gas Turbine Performance Characteristics.
Disponibilidad: Se produce cuando una turbina está GE Power Systems Schenectady, NY GER-3567H.
declarada al controlador del SING, como utilizable para [11] M. Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth, and
Ramasamy Uthurusamy. 1996. Advances in Knowledge Discovery
producir electricidad. and Data Mining. San Mateo, AAAI Press, EE.UU.
Matriz Energética: Son los posibles combustibles que [12] Michalski, R.S., Bratko, I., Kubat M. 1998. Machine Learning
ocupa una Central para generar electricidad. andData Mining. Methods and Applications. Wiley & Sons Ltd.,
PI System: El estándar de la industria en la infraestructura EE.UU.
de la empresa para la gestión de datos en tiempo real y [13] S.G. Jolandan, H Mobli, H Ahmadi, M Omid, S.S. Mohtasebi. 2012.
eventos. Fuzzy-Rule-Based Faults Classification of Gearbox Tractor.
Department of Agricultural Machinery Engineering, faculty of
Potencia eléctrica: Es la velocidad con que se agota la Agricultural Engineering and technology University of Tehran, Karaj,
energía. Iran.
Rotor: Parte giratoria de una turbina. [14] Christina Athanasopoulou, Vasilis Chatziathanasiou and Ioannis
SING: Agrupación de Centrales Generadoras de Petridis. 2007. Utilizing data mining algorithms for identification and
reconstruction of sensor faults: a Thermal Power Plant case study.
Electricidad que se encuentran ubicadas entre las ciudades University of Thessaloniki.
de Arica y Antofagasta. [15] Vedrana Vidulin, Mitja Luštrek, Matjaž Gams. 2007. Comparison of
Salidas forzadas: Es la interrupción intempestiva de la the performance of genre classifiers trained by different machine
turbina por falla o defecto de esta o cualquier otro motivo. learning algorithms. Department of Intelligent Systems. Jožef Stefan
Sistema de Control Distribuido: Es un concepto en donde Institute. Jamova 39, 1000 Ljubljana, Slovenia.
la filosofía del equipo se define como la distribución [16] Michalski, R. S. 1983. A Theory and Methodology of Inductive
Learning. En Michalski, R. S., Carbonell, J. G., Mitchell, T. M.
geográfica del control, enlazada por una red de (eds.). Machine Learning: An Artificial Intelligence Approach, Vol. I.
comunicaciones, cuyo destino es centralizar un cuadro de Morgan-Kauffman, EE.UU.
control central. [17] Jun Li, Shunyi Zhang, Yanqing Lu, Junrong Yan. 2008. Real-time
Turbina a Gas: Es un motor térmico rotativo de flujo P2P Traffic Identification. Nanjing University of Posts and
continuo que se caracteriza por presentar una baja relación Telecommunication, Nanjing, JiangSu, China. Zhejiang Wanli
University, Ningbo, Zhejiang, China.
peso-potencia y una velocidad de giro muy elevada
[18] Prechelt L. 1998. Early stopping — but when? In. Orr GB, Muller
OR, editors. Neural networks: Tricks of the trade. Berlin: Springer-
Verlag Telos.
XI. REFERENCIAS [19] Ayman Ahmed Seleemah. 2012. A multilayer perceptron for
[1] U.M. Fayyad, G. Piatetsky-Sapiro, and P. Smyth. 1991. From data predicting the ultimate shear strength of reinforced concrete beams.
mining to knowledge discovery in databases. Editors, Advances in Journal of Civil Engineering and Construction Technology Vol. 3(2),
Knowledge Discovery and Data Mining, page 39. AAAI Press, pp. 64-79.
(1997). [20] U.M. Fayyad, G. P. Shapiro and P. Smyth. 1996. The KDD process
[2] Mark A. Hall, Geoffrey Holmes. 2003. Benchmarking Attribute for extracting useful knowledge from volumes from data.
Selection Techniques for Discrete Class Data Mining. IEEE Communication of ACM, Vol. 39(11).
transactions on knowledge and data engineering, vol. 15, NO. 3.
[3] I.H. Witten, E. Frank. (2005). Data Mining: practical machine
learning tools and techniques 2nd. Edition. Morgan Kaufmann.
[4] D. Rumelhart, G. Hinton, and R. Williams. 1986. Learning
representation by error propagation, In D.E. Rumelhart and J.L.
Mclelland, editors, Paralled Distributed Procession (Cambridge, MA:
MIT Press).