0718 0764 Infotec 33 06 31

Aplicación
InformacióndeTecnológica
técnicas de minería de datos para determinar un modelo de operación de un turbogenerador Risco
Vol. 33(6), 31-44 (2022)
http://dx.doi.org/10.4067/S0718-07642022000600031
Aplicación de técnicas de minería de datos para determinar un

modelo de operación de un turbogenerador hidráulico
Redy H. Risco*, Daniel A. Pérez, Luis A. Casaverde y Gerson La-Rosa
Universidad de Piura, Piura-Perú (correo-e: redy.risco.r@alum.udep.edu.pe; daniel.perez.a@alum.udep.edu.pe;
luis.casaverde@alum.udep.edu.pe; gerson.larosa@udep.edu.pe)
*
Autor a quien debe ser dirigida la correspondencia
Recibido Mar. 10, 2022; Aceptado May. 17, 2022; Versión final Jul. 15, 2022, Publicado Dic. 2022
Resumen
Este estudio aplica un modelo de referencia que implementa la minería de datos como parte de un entorno
de inteligencia de negocios para analizar la operación de un turbogenerador hidráulico. Los datos analizados
provienen del sistema de control y adquisición de datos de una central hidroeléctrica. Se genera un modelo
utilizando análisis de componentes principales. Luego, se evalúa el modelo con nuevas observaciones
utilizando los gráficos de control estadístico multivariante: cuadrado del error de predicción y T 2 de Hotelling
y finalmente se implementa el análisis conectando las tablas generadas con una herramienta convencional
de inteligencia de negocios. El modelo se prueba en cinco muestras correspondientes a periodos previos a
una parada del turbogenerador. Se concluye que el modelo de referencia utilizado puede ser aplicado al
análisis de la operación de un turbogenerador hidráulico, que los gráficos de control son capaces de detectar
comportamientos atípicos de operación y que es necesario el conocimiento del proceso a analizar para una
adecuada interpretación de los resultados.
Palabras clave: minería de datos; control estadístico multivariante; análisis de componentes principales;
gráficos de control estadístico
Application of data mining techniques to define an operating

model for a hydraulic turbogenerator
Abstract
This study applies a reference model that implements data mining as part of a business intelligence
environment to analyze the operation of a hydraulic turbogenerator. Data is obtained from the control and data
acquisition system of a hydroelectric power plant. A model is first generated using a principal component
analysis. Then, it is evaluated with new observations by using squared prediction error multivariate statistical
control graphs and the Hotelling’s T2, and finally the analysis was implemented by connecting the tables
generated by a conventional business intelligence tool. The model was tested on five samples corresponding
to periods prior to a turbogenerator shutdown. It is concluded that the reference model presented here can be
applied to analyze the operation of a hydraulic turbogenerator, that the control charts can detect atypical
operating behaviors, and that previous understanding of the analyzed process is necessary for an adequate
interpretation of the results.
Keywords: data mining; multivariate statistical control; principal component analysis; statistical control charts
Información Tecnológica – Vol. 33 Nº 6 – 2022 31

Aplicación de técnicas de minería de datos para determinar un modelo de operación de un turbogenerador Risco
INTRODUCCIÓN
En la actualidad en muchos procesos industriales se cuenta con un sistema de supervisión, control y

adquisición de datos (SCADA). Tal como se indica en Yadav y Paul, (2021) un sistema SCADA está
constituido por elementos hardware y software; el hardware incluye unas unidades terminales tanto remotas
como maestras, actuadores y sensores, y el software incluye principalmente la interfaz hombre-máquina
(HMI), una base de datos central (con datos históricos de las variables del proceso y de los eventos del mismo)
y además un software cliente para visualización y control. En muchas industrias la base de datos histórica no
es aprovechada, pues se trata de muchos datos que un operador con herramientas visuales básicas no puede
analizar. Para aprovechar estos datos históricos y poder obtener de ellos información y conocimiento relevante
que permita tomar decisiones; existen procesos, arquitecturas y tecnologías que en conjunto se les denomina
inteligencia de negocios (o BI por las siglas en inglés de Business Intelligence) tal como se define en Muntean
et al., (2021) y Wixom y Watson, (2010). La inteligencia de negocios va enlazada con la analítica de negocios
que incluye entre otras herramientas, la minería de datos.
En Mishra et al., (2017) y Schuh et al., (2019) se define la minería de datos como el proceso de descubrimiento
de conocimiento existente en una base de datos, conocimiento que puede ser utilizado en la toma de
decisiones. La minería de datos da una visión de las situaciones pasadas y presentes y una comprensión de
los posibles resultados futuros que pueden dar resultados efectivos, ayuda a descubrir hechos desconocidos
que están allí en la base de datos y que a simple vista no pueden ser apreciados. En Matos et al., (2006) se
presenta una metodología para descubrir conocimiento a partir de los datos en una metodología que
denominan KM-IRIS aplicada a diferentes fuentes de datos. Otra forma sistemática de desarrollar una solución
de minería de datos es seguir el modelo de referencia CRISP-DM (siglas del inglés Cross-Industry Standard
Process for Data Mining), las fases de este modelo se muestran en Schröer et al., (2021) cuyo resumen se
muestra en la Tabla 1. En Wiemer et al., (2019) se plantean unas fases y sub-fases para la aplicación del
modelo a soluciones de ingeniería que tomamos en cuenta en nuestra implementación, estos complementos
se muestran en la Fig. 1
Tabla 1. Etapas del Modelo CRISP-DM. (Adaptada de Schröer et al., 2021)
Fase Breve descripción

Entendiendo el Evaluación y/o identificación de la situación del negocio o de parte del negocio para obtener
negocio una visión general de los recursos disponibles y necesarios. Determinación del objetivo de la
minería de datos definiendo el tipo de minería de datos a aplicarse y los criterios de éxito de la
minería de datos. Creación de un plan de proyecto.
Entendiendo Recopilación de datos desde sus fuentes, exploración, descripción y verificación de la calidad
los datos de los datos. Se utiliza análisis estadístico determinando atributos y sus colaciones
Preparación de Selección de los datos mediante la definición de criterios de inclusión y exclusión. La mala
los datos calidad de los datos se puede manejar limpiando los datos. Dependiendo del modelo utilizado
(definido en la primera fase) se deben construir los atributos derivados. Para todos estos pasos
son posibles diferentes métodos dependiendo del modelo.
Modelado Consiste en seleccionar la técnica de modelado, construir el caso de prueba y el modelo. Se
pueden utilizar todas las técnicas de minería de datos. En general, la elección depende del
problema comercial y de los datos. Lo importante es cómo explicar la elección. Para construir el
modelo, se deben establecer parámetros específicos. Para elegir un modelo, es apropiado
definir unos criterios de elección y, según estos, seleccionar los mejores.
Evaluación Se realiza la comparación de los resultados con los objetivos comerciales definidos. Por lo
tanto, los resultados deben interpretarse y según la interpretación deben definirse acciones
adicionales. Esto podría requerir revisar el proceso en general.
Implementación Puede ser un informe final o un componente de software. Esta fase consiste en planificar,
supervisar y dar mantenimiento a la implementación resultante.
En el presente trabajo se desarrolla la aplicación del modelo de referencia CRISP-DM como parte de una
implementación de inteligencia de negocios a los datos provenientes de la operación de un turbogenerador
hidráulico. Un turbogenerador es el equipamiento principal de una central hidroeléctrica y tal como se indica
en Betti et al., (2021) dentro de las energía renovables, la hidráulica tiene muchas ventajas como son: una
larga vida útil, flexibilidad, bajos costos de operación y mantenimiento, eficiencias de alrededor del 90%. En
el 2016 la energía hidráulica tuvo un porcentaje de participación en el suministro energético mundial del 13%;
en el Perú, según el anuario estadístico de electricidad del año 2020 del Ministerio de Energía y Minas MINEM,
(2021), la energía hidráulica representó el 58 % de la producción energética eléctrica nacional. Por otro lado,
Betti et al., (2021) plantea que para al 2030 muchas de las centrales deben actualizarse o modernizarse y por
32 Información Tecnológica – Vol. 33 Nº 6 – 2022

lo tanto tienen el reto de optimizar diversos procesos dentro de los que está el manejo y aprovechamiento de
la gran cantidad de datos disponibles a partir de estas modernizaciones.
Este artículo de manera similar al de Betti et al., (2021) y González et al., (2020) tiene la finalidad de generar
un modelo que permita detectar un funcionamiento anormal del turbogenerador a partir de los datos
provenientes de sus operaciones. El modelo de operación es generado utilizando el análisis de componentes
principales y la evaluación de nuevas observaciones o nuevos puntos de operación se realiza con dos gráficos
de control estadístico de procesos multivariante: 1) el cuadrado del error de predicción (al que nombraremos
SPE por sus siglas en inglés tal como puede ser encontrado en la literatura del tema) y 2) el gráfico basado
en el cálculo del estadístico T2 de Hotelling, planteados en Kourti, (2020) y usado también en Fontalvo et al.,
2020
CRISP-DM
Fases de
Entendiendo Entendiendo Preparación Implementación

el negocio los datos de los datos
Modelado Evaluación
del modelo
aplicaciones de ingeniería
Extensión para
Conocimiento Ejecución
Implementación
técnico y técnica y
técnica
conceptualización pruebas
Determinación Especificación
de objetivos y plan del
técnicos proyecto
Conocimiento técnico y
conceptualización
Análisis de la Planificación
Conceptualización
situación del
técnica experimento
Encontrar Concepto Enfoque de

efectos de Data Mining
principales adquisición
Elaboración de
prototipo
Ejecución técnica
de pruebas
Ejecución de
Prueba del
experimentos y
concepto de Documentación
recolección de
adquisición
datos
Fig. 1: Modelo de referencia CRISP-DM con extensión para aplicaciones de ingeniería. (Adaptado de Wiemer et al., 2019)

El aporte de este trabajo es la utilización de un procedimiento de inteligencia de negocios, específicamente

de minería de datos, aplicando el modelo de referencia CRISP-DM a los datos provenientes de la operación
de un turbogenerador de una central hidroeléctrica de mediana potencia en la región norte del Perú; con el
objetivo de aprovechar los datos provenientes del sistema SCADA de la central que durante años de
operación no vienen siendo analizados ni aprovechados para este fin. Obviamente esta metodología puede
ser aplicada a otras unidades de generación e incluso a otros procesos multivariantes.
METODOLOGÍA
En esta sección se procede a la aplicación de la metodología basada en el modelo de referencia CRISP-DM

siguiendo todas las fases de este modelo de referencia tal como fue desarrollado en su concepción inicial y
aunque no se incluye explícitamente los pasos del modelo propuesto en Wiemer et al., (2019) mostrado en la
Fig.1, si se está considerando la conceptualización y conocimiento del proceso analizado en el estudio del
caso.
Fase 1: Entendiendo el negocio
El negocio o proceso por analizar es la operación de una unidad de generación hidráulica (turbogenerador)
de una central hidroeléctrica de 12.5 MW en la ciudad de Piura, Perú. La central cuenta con dos unidades de
generación cada una compuesta por una turbina Kaplan de 6.25 MW y un generador síncrono de 7.5 MVA
acoplados en eje vertical. La central opera las 24 horas de día los 7 días de la semana en función de la
disponibilidad hídrica y cuenta con un sistema SCADA que recolecta información de diferentes sensores que
permiten el control y monitoreo de la operación de las unidades.
Una óptima operación de las unidades debe evitar paradas intempestivas, por ello el objetivo de la aplicación
de la minería de datos es encontrar un patrón de operación normal de cada unidad de generación en función
a los datos proporcionados por los sensores de las unidades a fin de alertar cualquier comportamiento anormal
que pueda implicar una parada intempestiva o no programada. Para el análisis y determinación del patrón de
operación hemos realizado primero una reducción dimensional utilizando uno de los métodos tradicionales de
control estadístico de procesos multivariantes como es el análisis de componentes principales, que es un
método basado en datos, cuantitativo y estadístico según Mirnaghi y Haghighat, (2020).
El patrón de operación se modelará utilizando las gráficas de control multivariante para el control estadístico
de calidad: T2 de Hotteling y el Error de Predicción al Cuadrado (SPE, en inglés). Para evaluar el proceso se
sigue el procedimiento planteado en Kourti, (2020): un conjunto de datos consistentes de proceso en
operación normal es utilizado como conjunto de datos de entrenamiento con los que se genera un modelo.
Luego con datos proveniente de nuevas observaciones y utilizando información del modelo se calculan
parámetros y nuevos puntos en los gráficos T2 y SPE, si estos puntos no superan los valores límite el proceso
está en operación normal. En esta fase debemos tomar en cuenta el conocimiento técnico de la operación de
las unidades en esta central a fin de elegir los datos necesarios para un adecuado modelado. Es importante
indicar que un adecuado modelado debe considerar periodos de operación continua, los mismos que se dan
en épocas cuando el caudal es constante y suficiente para una operación de las unidades a potencia nominal
y sin interrupciones. Esta época es en los meses entre enero y mayo de cada año normalmente.
Fase 2: Entendiendo los datos
Los datos son obtenidos de las siguientes fuentes: Del sistema SCADA en archivos con variables del proceso
proveniente de los sensores de la unidad de generación (archivos generados automáticamente cada día con
registros de datos cada 10 segundos de todo un año de operación, de junio de 2020 a junio de 2021 en
formato .DBF. De los reportes de control de paradas de unidad de todo un año de operación y en el mismo
periodo de la fuente anterior. Se trata de archivos Excel generados por los operadores de la central. De la
documentación de la planta correspondiente a la información tal como quedó construido el sistema de control
(esta información es la llamada información “Como Construido” o “CC”) se obtiene el archivo de definición de
señales del sistema de control en formato .xls.
Fase 3: Preparación de los datos
La preparación consistió en elegir periodos de operación normal en los meses de alta disponibilidad del
recurso hídrico, que para el 2021 correspondió a los meses entre febrero y abril. De la documentación de la
planta correspondiente a la información como construido, se identificó la descripción de las medidas de cada
sensor según su código, etiqueta o “tag”. La lista de las 40 variables utilizadas en la generación del modelo
se puede observar en la Tabla 2.

Para la preparación de los datos se utilizó el software R y sus librerías “foreign” y “openxlsx” para cargar los
datos desde los archivos fuente en extensión “*.dbf” y “*.xlsx”. Los datos son limpiados manualmente retirando
aquellas variables cuyos sensores presentan valores nulos, negativos o en unidades no configuradas. Con
esto se quedan finalmente 40 variables. Además, se considera operación normal aquella operación que no
vierte agua por el vertedero de demasías, operación que se registra con la variable BQ4101 (Nivel de agua
en cámara de carga) menor o igual a 63.90 msnm.
Tabla 2. Señales de control del proceso según la información Como Construido.

Tag o
N° Descripción
Etiqueta
1 BC3101 Posición del distribuidor
2 BC3102 Posición alabes rodete
3 BF1 Caudal De Turbina
4 BH1 Frecuencia del Generador
5 BH2 Frecuencia de Red
6 BP1 Potencia activa del Generador
7 BP3201 Presión en Espiral
8 BQ4101 Nivel de agua en cámara de carga
9 BQ4102 Nivel de agua en cámara de descarga
10 BT2502 Temp. de Hierro Del Estator 2
11 BT2503 Temp. de Hierro Del Estator 3
12 BT2507 Temp. de Bobina Del Estator U
13 BT2508 Temp. de Bobina Del Estator V
14 BT2509 Temp. de Bobina Del Estator W
15 BT2514 Temp. de Aire Frio De Generador 1
18 BT2517 Temp. de Aire Tibio De Generador 1
21 BT3201 Temp. de Cojinete Guía 1 de Turbina
22 BT3202 Temp. de Cojinete Guía 2 de Turbina
23 BT3203 Temp. de Aceite de Cojinete Guía Turbina
24 BT3301 Temp. de Cojinete Guía Generador Superior metal 1
27 BT3305 Temp. de Gen. Cojinete Carga metal 1
30 BT3309 Temp. de Aceite Cojinete Combinado. Generador.
31 BT3310 Temp. de Cojinete Guía Inferior Generador. Metal 1
34 BT3314 Temp. de Aceite Cojinete Guía Inferior Generador.
35 BT3401 Temp. de Cojinete Guía Generador. Descarga Agua Refrigeración
36 BT3402 Temp. de Enfriador De Aire Generador. Entrada Agua Refrigeración
37 BT3403 Temp. de Enfriador De Aire Generador. Descarga Agua Refrigeración
38 BT3404 Temp. de Cojinete Combinado Generador. Descarga Agua Refrigeración
39 RT_SPD Velocidad de la unidad
40 SP3201 Caudal De Turbina
El modelo seguido es el planteado en Lee y Jemain, (2021) para un análisis de componentes principales
donde la matriz de datos tiene la forma mostrada en la Fig. 2 y el modelo resultante es planteado en la
ecuación (1). En la ecuación (1), X es una matriz de (N x Y) con las variables estandarizadas (media cero y
desviación estándar 1), T es una matriz (N x A) de N “scores” o proyecciones sobre A componentes
principales, P es una matriz (P x A) de P “loadings” o pesos de las A componentes principales y E es una
matriz (N x P) residuos. El cálculo de las matrices se hace en R. El estandarizado se realiza con la librería
“scales”, las matrices T y P se calculan con la función “prcomp”, esta función calcula la matriz “rotation” que
contienen los pesos o “loadings” y la matriz “P” que contiene las proyecciones sobre las componentes
principales o “principal component scores”. Para mostrar gráficamente la varianza explicada de cada
componente principal se utilizó la librería “factoextra”.

Y variables en columnas
𝑥11 𝑥12 𝑥1𝑌
𝑥21 𝑥22 ⋯ 𝑥2𝑌
𝑋 =[ ⋮ ⋱ ⋮ ] N observaciones en filas
𝑥𝑁1 𝑥𝑁2 ⋯ 𝑥𝑁𝑌
Fig. 2: Típico arreglo de la matriz de datos. (Adaptado de Lee y Jemain, 2021)
𝑋 = 𝑇𝑃′ + 𝐸 (1)
Previamente al modelado se han seleccionado 3 semanas de cada mes entre febrero y abril con operación
continua, de esta muestra se han considerado para el modelo, aquellas muestras con nivel de agua al ingreso
de la central con cota menor o igual a 63.90msnm, esto generó una muestra con N = 168798 observaciones.
Se considera esta cota pues si el nivel de agua supera este valor, el vertedero de demasías empieza a operar,
es decir, a descargar agua que no será aprovechada para la generación de energía. El número de A
componentes principales que se utilizará para el modelo será aquel que tenga una varianza explicada
acumulada mayor al 90% que en este caso se logra con 10 componentes principales tal como se muestra en
la Fig. 3. El cálculo de la suma acumula de varianza de los 10 componentes es de 90.9%.
100
Porcentaje de varianza explicada
90
80
acumulada
70
60
50
40
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Componente Principal
Fig. 3: Porcentaje de varianza explicada acumulada por cada componente principal.
Fase 4: Modelado
Con las A componentes principales definidas en la fase anterior, el modelo resultante sería el indicado en la
ecuación (2) y las nuevas muestras serán modeladas según la ecuación (3).
𝑋̂ = T𝑃′ (2)
𝑋̂𝑛𝑒𝑤 = 𝑇𝑛𝑒𝑤 P′ (3)
Fase 5: Evaluación
La evaluación del modelo se ha realizado utilizando unos periodos de operación previos a eventos anómalos,
estos períodos les hemos denominado muestras (ver Tabla 6), para la evaluación de las nuevas muestras, se
usan dos gráficos de control estadístico utilizados en procesos multivariantes, se trata de el T2 de Hotelling y
el cuadrado del error de predicción (SPE) planteados en Kourti, (2020), según las ecuaciones (4) y (5). Nótese
que en la ecuación (5) el T2 de Hotelling corresponde a A componentes principales.
2
𝑆𝑃𝐸 = (𝑋 − 𝑋̂) (4)

A A
t 2i 𝑡𝑖2
TA2 = ∑ =∑ 2 (5)
λ𝑖 s𝑡𝑖
i=1 𝑖=1
Para el cálculo de los límites de control superior (se nombran a estos límites con el subíndice UCL) se utilizan
expresiones matemáticas planteadas en Kourti, (2020), que son: la simplificación de Nomikos y MacGregor.
La ecuación (6) muestra la expresión para cálculo del límite de control superior del SPE y la ecuación (7)
expresión para el cálculo del límite de control superior para el T 2 de Hotelling. En la ecuación (6) v es la
varianza de los datos, m es la media de los SPEi y X2α es la distribución Chi cuadrado calculada con niveles
de significancia alpha.
v 2 2m2
SPEUCL = X ( ) (6)
2m α v
Los cálculos y gráficos de control han sido realizados en Excel, debido a la facilidad que da para generar
gráficos editables, ingresando los resultados obtenidos en R y utilizando las funciones mostradas en la Tabla
3. En la ecuación (7) el límite superior es calculado en base a los A primeros componentes principales y
derivadas de N observaciones obtenidas usando una distribución F con niveles de significancia alpha. Los
valores límite obtenidos se muestran en la Tabla 4 y Tabla 5.
2
(N − 1) A
2
TA,UCL = Fα(A,N−A) (7)
N(N − A)
Tabla 3. Funciones Excel utilizadas para el cálculo de la distribución Chi cuadrado y distribución F
Función por calcular Función en Excel
X 20.05 = INV. CHICUAD. CD(𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑, 𝑔𝑟𝑎𝑑𝑜𝑠 𝑑𝑒 𝑙𝑖𝑏𝑒𝑟𝑡𝑎𝑑)
F0.05(A,N−A) = INV. F. CD(𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑; 𝑔𝑟𝑎𝑑𝑜 𝑑𝑒 𝑙𝑖𝑏𝑒𝑟𝑡𝑎𝑑 1; 𝑔𝑟𝑎𝑑𝑜 𝑑𝑒 𝑙𝑖𝑏𝑒𝑟𝑡𝑎𝑑 2)
Tabla 4. Valores calculados utilizando Excel y sus funciones, para los límites de control superior del SPE
v 2𝑚 2 2
2𝑚2 2
2𝑚2 𝑆𝑃𝐸𝑈𝐶𝐿_95% 𝑆𝑃𝐸𝑈𝐶𝐿_99%
m v 𝑋0.05 ( ) 𝑋0.01 ( )
2m 𝑣 𝑣 𝑣
3.66 35.90 5.04 1 3.84 6.63 19.38 33.47
Tabla 5. Valores calculados utilizando Excel y sus funciones, para los límites de control superior del T2 de Hotelling
2 2
𝐴 𝑁 F0.05(A,N−A) F0.01(A,N−A) TUCL95%
TUCL99%
10 168798 1.83 2.32 18.31 23.21
Con el modelo generado en base a las 168798 observaciones y considerando las 10 primeras componentes
principales se analizan los 5 conjuntos de observaciones (muestras) descritas en la Tabla 6. Los resultados
de las evaluaciones de cada una de las muestras para los dos gráficos estadísticos de control se pueden
observar en las figuras desde la 4 hasta la 13. En estas figura hemos nombrado SPE_X al cuadrado del error
de predicción de la observación a evaluar y T2_X al valor T2 de Hotelling para la observación a evaluar, los
límites de control en cada grafico han sido nombrados como SPE_(UCL_95%) y SPE_(UCL_99%) para el
caso del cuadrado del error de predicción y T2_(UCL_95%) y T2_(UCL_99%) para el caso del T2 de Hotelling,
ambos límites se han definido con un nivel de confiabilidad de 95% (alpha=0.05) y 99%(alpha=0.01) y
permanecen constantes en cada evaluación.
Tabla 6. Muestras de evaluación

Muestra Descripción del conjunto de datos Inicio Fin
1 Operación previa a la calibración de álabes directrices de turbina 26/02/2021 26/02/2021
00:00:05 16:30:04
2 Operación con vertedero funcionando (Observaciones obtenidas filtrando NA NA
muestras con nivel de agua al ingreso de la turbina mayor o igual a 63.90msnm).
3 Operación previa a limpieza de rejillas y calibración. 02/02/2021 02/02/2021
21:00:07 22:59:57
4 Operación previa a una falla en la Unidad de Alta Presión del Gobernador de 03/10/2021 03/10/2021
Turbina. Parada de unidad a las 20:48:45. 18:00:05 20:59:35
5 Simulaciones creadas con alteración de variables BT2515, BT3403, BT3404, 03/10/2021 03/10/2021
BT2516 en un periodo con parada de unidad. 18:00:05 23:40:05

Fase 5: Implementación
Esta fase tiene la finalidad de visualización del comportamiento de nuevas observaciones con fines de
supervisión y mantenimiento, se ha elaborado con las tablas generadas en R (archivos “*.xlsx”) conectadas a
una herramienta de inteligencia de negocios, en este caso, Microsoft Power BI, tal como ya se ha hecho en
Ayad et al., (2020). En Power BI se elaboraron dos visualizaciones correspondientes a las dos graficas de
control más dos visores con los límites de control integrados en un tablero de control de observaciones, con
carga de datos no en tiempo real. Al final de la sección resultados se muestran los resultados de esta
implementación.
RESULTADOS Y DISCUSIÓN
Los resultados de las evaluaciones de cada una de las muestras para los dos gráficos estadísticos de control
se pueden observar a continuación. La Fig. 4 muestra que la operación está dentro del modelo generado,
mientras que la Fig. 5 muestra que las observaciones previas a la parada de unidad si se encuentra en muchos
puntos por encima de los limites T2 de Hotelling, que indican una operación anormal varias horas anteriores
a la parada para este ajuste.
40.00
35.00
Cuadrado del error de predicción
30.00 SPE_X
25.00 SPE_(UCL_95%)
SPE_(UCL_99%)
20.00
15.00
10.00
5.00
0.00
11:40:05
16:06:44
10:00:04
10:33:24
11:06:44
12:13:24
12:46:44
13:20:04
13:53:24
14:26:44
15:00:04
15:33:24
Fig. 4.Gráfico SPE - Muestra 1: Operación previa a calibración de álabes (26/02/2021 17:03).
40.0
35.0
30.0
T2 de Hotelling
25.0
20.0
15.0
10.0
T2_X
5.0 T2_(UCL_95%)
0.0 T2_(UCL_99%)
10:00:04
10:33:24
11:06:44
11:40:05
12:13:24
12:46:44
13:20:04
13:53:24
14:26:44
15:00:04
15:33:24
16:06:44
Fig. 5. Gráfico T2 de Hotelling - Muestra 1: Operación previa a calibración de álabes (26/02/2021 17:03).
La Fig. 6 y la Fig. 7 corresponden a una operación de la unidad descargando agua por el vertedero de
demasías al existir más recurso hídrico que el que la turbina puede utilizar. En la Fig. 6 el modelo muestra un
pico entre el 17/03 y 07/04 y corresponde a una parada de unidad ocurrida el 18/03 entre las 16:30 y 16:38.
La Fig. 7 en cambio muestra que los puntos cuando se superan los límites superiores de control ocurren
cuando el caudal descargado es alto (nivel de agua en una cota mayor a 64.00 msnm).

40.00
SPE_X
35.00
30.00 SPE_(UCL_95%)
25.00 SPE_(UCL_99%)
20.00
15.00
10.00
5.00
0.00
05/02/2021 18:29:26
05/02/2021 20:09:25
08/02/2021 00:24:54
08/02/2021 02:04:54
08/02/2021 03:44:54
08/02/2021 05:24:54
08/02/2021 07:04:54
08/02/2021 08:44:54
08/02/2021 10:24:54
08/02/2021 12:04:54
09/02/2021 19:17:13
10/02/2021 18:47:23
10/02/2021 20:27:23
16/03/2021 19:52:31
16/03/2021 21:32:31
17/03/2021 20:01:50
17/03/2021 21:41:50
07/04/2021 18:59:55
08/04/2021 18:34:23
08/04/2021 20:14:23
09/04/2021 19:00:02
09/04/2021 20:40:03
Fig. 6. Gráfico SPE - Muestra 2: Operación con vertedero funcionando (diferentes días).
T2_X
40.0
T2_(UCL_95%)
35.0
T2_(UCL_99%)
30.0
25.0
T2_Hotelling
20.0
15.0
10.0
5.0
0.0
05/02/2021 18:29:26
05/02/2021 20:09:25
08/02/2021 00:24:54
08/02/2021 02:04:54
08/02/2021 03:44:54
08/02/2021 05:24:54
08/02/2021 07:04:54
08/02/2021 08:44:54
08/02/2021 10:24:54
08/02/2021 12:04:54
09/02/2021 19:17:13
10/02/2021 18:47:23
10/02/2021 20:27:23
16/03/2021 19:52:31
16/03/2021 21:32:31
17/03/2021 20:01:50
17/03/2021 21:41:50
07/04/2021 18:59:55
08/04/2021 18:34:23
08/04/2021 20:14:23
09/04/2021 19:00:02
09/04/2021 20:40:03
Fig. 7.Gráfico T2 de Hotelling - Muestra 2: Operación con vertedero funcionando (diferentes días).
La Fig. 8 y la Fig. 9 muestra que estas observaciones previas a la parada manual para limpieza y calibración
se no superaban los límites de operación normal, el incremento mostrado a las 22:49:17 corresponde al
proceso de parada de la unidad. Las Fig. 10 y la Fig. 11 muestran que la parada intempestiva por fallas en la
unidad de alta presión del gobernador de la turbina no puede ser previsto con los datos disponibles. Las
variables registradas no están incluyendo presiones del gobernador, por ejemplo. Correspondería sugerir la
adquisición de estos datos como se tiene en instalaciones más modernas. En las Fig. 12 y Fig. 13 lo que se
muestra es el comportamiento del modelo ante variaciones datos manuales (simulados). Estos incrementos
pueden apreciarse con más claridad en el gráfico SPE, mientras que en el gráfico T 2 de Hotelling estas
variaciones se muestran más levemente.
Tal como se indica en la fase de implementación, para la interfaz con el usuario, se diseñó un tablero de
control en Power BI mostrado en la Fig. 14. con los datos de la muestra 5. La visualización con la herramienta
de BI resulta ser de más fácil despliegue y de rápido seguimiento y mantenimiento. Y permitiría hacer un
seguimiento del comportamiento de los parámetros de control. Los resultados del presente trabajo
presentados mediante las gráficas de control muestran qué tan alejadas están las nuevas observaciones del
modelo generado. En la muestra 1, los resultados indican que el modelo obtenido detecta comportamientos
anormales para condiciones de álabes descalibrados. En la Fig. 5 se pueden observar varias observaciones
superando los limites superiores del gráfico T_2 de Hotelling.

40.00
35.00
30.00 SPE_X
SPE_(UCL_95%)
25.00
SPE_(UCL_95%)
20.00
15.00
10.00
5.00
0.00
22:49:37
22:57:57
21:01:17
21:09:36
21:17:57
21:26:17
21:34:37
21:42:57
21:51:18
21:59:37
22:07:57
22:16:17
22:24:37
22:32:57
22:41:17
Fig. 8. Gráfico SPE - Muestra 3: Operación previa a limpieza de rejillas y calibración de álabes (03/02/2021 22:46)
40.0
35.0 T2_X
T2_(UCL_95%)
30.0
T2_(UCL_99%)
25.0
T2_Hotelling
20.0
15.0
10.0
5.0
0.0
21:17:57
21:26:17
22:57:57
21:01:17
21:09:36
21:34:37
21:42:57
21:51:18
21:59:37
22:07:57
22:16:17
22:24:37
22:32:57
22:41:17
22:49:37
Fig. 9. Gráfico T2 de Hotelling - Muestra 3: Operación previa a limpieza de rejillas y calibración de álabes (03/02/2021
22:46).
40.00
35.00
30.00 SPE_X
SPE_(UCL_95%)
25.00
SPE_(UCL_99%)
20.00
15.00
10.00
5.00
0.00
18:17:56
18:51:15
19:24:35
19:57:55
20:31:14
18:01:16
18:09:35
18:26:15
18:34:36
18:42:55
18:59:35
19:07:55
19:16:15
19:32:56
19:41:15
19:49:36
20:06:15
20:14:35
20:22:55
20:39:34
20:47:56
20:56:15
Fig. 10. Gráfico SPE - Muestra 4: Operación previa a parada por falla en Unidad de Alta Presión. Parada a las 20:48:45
del 10/03/2021

40.0
35.0
T2_X
30.0 T2_(UCL_95%)
25.0 T2_(UCL_99%)
T2_Hotelling
20.0
15.0
10.0
5.0
0.0
18:26:15
18:59:35
19:57:55
18:01:16
18:09:35
18:17:56
18:34:36
18:42:55
18:51:15
19:07:55
19:16:15
19:24:35
19:32:56
19:41:15
19:49:36
20:06:15
20:14:35
20:22:55
20:31:14
20:39:34
20:47:56
20:56:15
Fig. 11. Gráfico T2 de Hotelling - Muestra 4: Operación previa a parada por falla en Unidad de Alta Presión. Parada a las
20:48:45 del 10/03/2021
40.00
35.00
30.00 SPE_X
SPE_(UCL_95%)
25.00
SPE_(UCL_99%)
20.00
15.00
10.00
5.00
0.00
18:34:36
21:04:35
23:34:35
18:01:16
18:17:56
18:51:15
19:07:55
19:24:35
19:41:15
19:57:55
20:14:35
20:31:14
20:47:56
21:21:15
21:37:55
21:54:35
22:11:15
22:27:55
22:44:35
23:01:15
23:17:55
Fig. 12. Gráfico SPE - Muestra 5 - Simulación de alteración de variables BT2515,BT3403,BT3404,BT2516 y comporta-
miento en parada y arranque de unidad del 10/03/2021
40.000
35.000 T2_X
T2_(UCL_95%)
30.000
T2_(UCL_99%)
25.000
T2_Hotelling
20.000
15.000
10.000
5.000
0.000
18:01…
18:17…
21:37…
18:34…
18:51…
19:07…
19:24…
19:41…
19:57…
20:14…
20:31…
20:47…
21:04…
21:21…
21:54…
22:11…
22:27…
22:44…
23:01…
23:17…
23:34…
Fig. 13. Gráfico T_2 de Hotelling - Muestra 5 - Simulación de alteración de variables BT2515,BT3403,BT3404,BT2516 y
comportamiento en parada y arranque de unidad del 10/03/2021

Fig. 14. Captura de pantalla del despliegue del Gráfico SPE - Muestra 5 en Power BI
Para condiciones de operación con descarga de agua por el vertedero de demasías, el modelo muestra
condiciones anormales a cotas de operación mayores a 64.00 msnm y con mayor exactitud a cotas mayores
a 64.10 msnm (teniendo en cuenta que las cotas en las cuales el vertedero no opera son las menores o
iguales a la cota 63.90msnm) (Ver Fig. 6 y Fig. 7). Las condiciones previas a la limpieza de rejillas y calibración
de álabes analizadas en la muestra 3 no han mostrado claramente condiciones anormales, esto puede ser
porque la parada pudo ser una parada programada como medida preventiva y no como medida correctiva
como la de la muestra 1. Más detalles del proceso y mayor conocimiento de este son necesarios para un
mejor análisis. La muestra 4 deja ver que el comportamiento previo a una falla intempestiva por falla en la
Unidad de Alta Presión del gobernador de la turbina no es detectado por el presente modelo, esto se explica
porque en las variables utilizadas por el modelo no hay variables relacionadas con este sistema. Sería
importante agregar sensores de medición de estos parámetros para enriquecer el modelo, teniendo en cuenta
esta posibilidad de ocurrencia.
En comparación con el trabajo de Betti et al., (2021), este trabajo utiliza reducción dimensional mediante el
análisis de componentes principales para la aplicación de dos gráficos de control estadístico SPE y T2 de
Hotelling, mientras que en Selak et al., (2014) se utiliza un algoritmo de aprendizaje supervisado el SVM
(siglas en inglés de Support Vector Machine) y al ser un algoritmo supervisado requiere datos precalificados
de operación para generalizar a nuevas condiciones de operación además de requerir una carga
computacional alta tal como lo exponen los mismos autores, situaciones diferentes a las de nuestro trabajo.
En la muestra 5 se hicieron unos incrementos intencionales en las variables que más influyen en el
componente principal 1. Se observa en la Fig. 12 y en la Fig. 13 los resultados de estos incrementos en los
gráficos de control. La gráfica de control SPE es la que más claramente muestra estas variaciones. Se muestra
que ante estas posibles ocurrencias el modelo funcionaría correctamente.
La aplicación de esta metodología abarca todas aquellas áreas donde existan registros de parámetros
históricos y tengan un proceso cuya falla intempestiva quiera ser evitado o prevenido. Las posibilidades son
motores de combustión con mediciones de parámetros, equipos de refrigeración de alimentos, producción de
etanol con molinos, calderos y equipos rotantes, entre otros.
CONCLUSIONES
De acuerdo con los resultados de este estudio se pueden extraer las siguiente tres conclusiones principales:
1) El modelo de referencia CRISP-DM empleado como modelo de desarrollo de una solución de minería de
datos, utilizado en un sistema de control de unidades de generación hidráulica con un SCADA implementado,
ha permitido aprovechar los datos disponibles para generar la información y conocimiento necesario para una
toma de decisiones de operación oportuna.

2) No todas las situaciones y comportamientos anómalos pueden ser detectados, esto depende de que las
variables del sistema causante de la anomalía estén contempladas en el modelo.
3) Aunque los modelos y despliegues pueden ser desarrollados con relativa facilidad con herramientas
informáticas como las utilizadas en este trabajo, de todas maneras, el conocimiento del proceso a controlar o
analizar es muy importante para un adecuado análisis e interpretación de resultados.
AGRADECIMIENTOS
R. H. Risco reconoce el apoyo financiero del Proyecto Concytec – Banco Mundial “Mejoramiento y Ampliación
de los Servicios del Sistema Nacional de Ciencia Tecnología e Innovación Tecnológica” 8682-PE, a través de
su unidad ejecutora ProCiencia. [contrato número 06-2018-FONDECYT/BM], para esta investigación
ejecutada como parte del programa de Doctorado en Ingeniería con mención en Automatización, Control, y
Optimización de Procesos de la Universidad de Piura.
REFERENCIAS
Ayad, H. A., Al-Kilani, L. A., y otros 4 autores, Developing an interactive data visualization platform to present the
adaption of electrical vehicles in Washington, https://doi.org/10.1109/ICIEA49774.2020.9101928, 2020 IEEE 7th
International Conference on Industrial Engineering and Applications (ICIEA), 2020,731–737 (2020)
Betti, A., Crisostomi, E., y otros 4 autores, Condition monitoring and predictive maintenance methodologies for
hydropower plants equipment, https://doi.org/10.1016/j.renene.2021.02.102, Renewable Energy, 171, 246–253 (2021)
Fontalvo, T. J., Herrera, R., y Delahoz-Dominguez, E. J., Método de control estadístico multivariante para valorar las
dimensiones de calidad en una empresa de lavado de tanques industriales, https://doi.org/10.4067/S0718-
07642020000500109, Información Tecnológica, 31(5), 109–118 (2020)
González, H. A., Piedrahita, J. D., y Castrillón, O. D., Predicción de parada de máquinas generadoras en una central
hidroeléctrica por medio de minería de datos, https://doi.org/10.4067/S0718-07642020000500215, Información
Tecnológica, 31(5), 215–222 (2020)
Kourti, T., Multivariate statistical process control and process control, using latent variables, in Comprehensive
Chemometrics, 2da Edición, Elsevier, ISBN 9780444641663, 275–303, Ontario, Canada (2020)
Lee, L. C., y Jemain, A. A., On overview of PCA application strategy in processing high dimensionality forensic data,
https://doi.org/10.1016/j.microc.2021.106608 , Microchemical Journal, 169, 106608 (2021)
Matos, G., Chalmeta, R., y Coltell, O., Metodología para la extracción del conocimiento empresarial a partir de los datos,
https://doi.org/10.4067/S0718-07642006000200011, Información Tecnológica, 17(2), 81-88 (2006)
MINEM, Anuario estadístico de electricidad 2020, Ministerio de Energía y Minas del Perú, http://www.minem.gob.pe
(2021)
Mirnaghi, M. S., y Haghighat, F., Fault detection and diagnosis of large-scale HVAC systems in buildings using data-
driven methods: A comprehensive review, https://doi.org/10.1016/j.enbuild.2020.110492, Energy and Buildings, 229,
110492 (2020)
Mishra, B. K., Hazra, D., Tarannum, K., y Kumar, M., Business intelligence using data mining techniques and business
analytics, https://doi.org/10.1109/SYSMART.2016.7894496, Proceedings of the 5th International Conference on System
Modeling and Advancement in Research Trends, SMART 2016, 84–89 (2017)
Muntean, M., Dănăiaţă, D., Hurbean, L., y Jude, C., A business intelligence & analytics framework for clean and
affordable energy data analysis, https://doi.org/10.3390/su13020638, Sustainability, 13(2), 638 (2021)
Schröer, C., Kruse, F., y Gómez, J. M., A systematic literature review on applying CRISP-DM process model,
https://doi.org/10.1016/j.procs.2021.01.199, Procedia Computer Science, 181, 526–534 (2021)
Schuh, G., Reinhart, G., y otros 5 autores, Data mining definitions and applications for the management of production
complexity, doi:10.1016/j.procir.2019.03.217, Procedia CIRP, 81, 874-879 (2019)
Selak, L., Butala, P., y Sluga, A., Condition monitoring and fault diagnostics for hydropower plants,
https://doi.org/10.1016/j.compind.2014.02.006, Computers in Industry, 65(6), 924–936 (2014)
Wiemer, H., Drowatzky, L., y Ihlenfeldt, S., Data mining methodology for engineering applications (DMME)-A holistic
extension to the CRISP-DM model, https://doi.org/10.3390/app9122407, Applied Sciences, 9(12), 2407 (2019)
Wixom, B., y Watson, H., The BI-Based organization, doi: 10.4018/jbir.2010071702, International Journal of Business
Intelligence Research, 1(1), 13–28 (2010)
Yadav, G., y Paul, K., Architecture and security of SCADA systems: A review, https://doi.org/10.1016/j.ijcip.2021.100433,
International Journal of Critical Infrastructure Protection, 34, 100433 (2021)


0718 0764 Infotec 33 06 31

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

0718 0764 Infotec 33 06 31

Cargado por

Copyright:

Formatos disponibles

Aplicación

Aplicación de técnicas de minería de datos para determinar un

Application of data mining techniques to define an operating

Información Tecnológica – Vol. 33 Nº 6 – 2022 31

En la actualidad en muchos procesos industriales se cuenta con un sistema de supervisión, control y

Fase Breve descripción

32 Información Tecnológica – Vol. 33 Nº 6 – 2022

Entendiendo Entendiendo Preparación Implementación

Encontrar Concepto Enfoque de

Información Tecnológica – Vol. 33 Nº 6 – 2022 33

El aporte de este trabajo es la utilización de un procedimiento de inteligencia de negocios, específicamente

En esta sección se procede a la aplicación de la metodología basada en el modelo de referencia CRISP-DM

Fase 1: Entendiendo el negocio

Fase 2: Entendiendo los datos

Fase 3: Preparación de los datos

34 Información Tecnológica – Vol. 33 Nº 6 – 2022

Tabla 2. Señales de control del proceso según la información Como Construido.

Información Tecnológica – Vol. 33 Nº 6 – 2022 35

Fig. 2: Típico arreglo de la matriz de datos. (Adaptado de Lee y Jemain, 2021)

Fig. 3: Porcentaje de varianza explicada acumulada por cada componente principal.

36 Información Tecnológica – Vol. 33 Nº 6 – 2022

Tabla 6. Muestras de evaluación

Información Tecnológica – Vol. 33 Nº 6 – 2022 37

38 Información Tecnológica – Vol. 33 Nº 6 – 2022

Información Tecnológica – Vol. 33 Nº 6 – 2022 39

40 Información Tecnológica – Vol. 33 Nº 6 – 2022

Información Tecnológica – Vol. 33 Nº 6 – 2022 41

42 Información Tecnológica – Vol. 33 Nº 6 – 2022

Información Tecnológica – Vol. 33 Nº 6 – 2022 43

44 Información Tecnológica – Vol. 33 Nº 6 – 2022

También podría gustarte