Sistema Computacional para Reconocimiento de Patrones de Fallas en Bes Usndo Aprendizaje de Maquina

SISTEMA COMPUTACIONAL PARA RECONOCIMIENTO DE PATRONES DE FALLAS
EN EL LEVANTAMIENTO DE CRUDO POR BOMBEO ELECTROSUMERGIBLE,

USANDO APRENDIZAJE DE MÁQUINA
(COMPUTATIONAL SYSTEMS FOR FAILURES PATTERN RECOGNITION IN OIL LIFT

ELECTRICAL SUMERSIBLE PUMPING, USING MACHINE LEARNING)
Recibido: 17/09/2018 Aprobado: 08/12/2018
Edgar Alexander Camargo Contreras

Petróleos de Venezuela, Dirección Ejecutiva de AIT
Revista Ingeniería al Día. ISSN: 2389 - 7309. Volumen 5 Edición No 1. Enero – Junio de 2019
3SaiTech, Oil&Gas
Maracaibo, Venezuela
Tepuy R+D Group Artificial Intelligence Software Development
Mérida, Venezuela
camargoea@pdvsa.com, 3saitech@gmail.com
Egner Humberto Aceros Flores

Petróleos de Venezuela, Dirección Ejecutiva de AIT
3SaiTech, Oil&Gas
Maracaibo, Venezuela
Tepuy R+D Group Artificial Intelligence Software Development
Mérida, Venezuela
acerose@pdvsa.com, egner.aceros@gmail.com, 3saitech@gmail.com
RESUMEN
En este trabajo, se contempla un sistema que tiene como finalidad desarrollar una
herramienta computacional para reconocimiento de patrones de fallas en el levantamiento
artificial de crudo por bombeo electrosumergible (BES), mediante técnicas de manejo de
datos relacionadas con aprendizaje de máquina (Machine Learning). Dicho sistema permite
realizar un análisis y estudio continuo del proceso BES, lo cual, debido a su complejidad y
características propias (costo, accesibilidad, tiempo), resulta imposible llevar a cabo a nivel
operacional. En ese sentido, se realizó un análisis de los distintos algoritmos que ofrece el
aprendizaje de máquina para resolver problemas de clasificación; se organizó la data, así
como el proceso selección de las características a considerar en función de históricos y
opiniones de expertos en el área del bombeo electrosumergible. Asimismo, se realizaron
pruebas controladas para observar su comportamiento y, finalmente, se evaluó en ambiente
operacional. En líneas generales, el resultado final es un Sistema Computacional práctico
y funcional que permite identificar patrones de fallas de manera concisa y que hace posible
realizar pruebas simuladas del funcionamiento BES, que serían inviables de realizar en
ambiente operacional.
Palabras claves: Aprendizaje de máquina, reconocimientos de patrones, bombeo

electrosumergible, fallas operacionales
33
ABSTRACT
In this work, it is contemplated a system that has as purpose to develop a computational

tool for failure patterns recognition in the artificial lift of oil by electrical submersible pumping
(ESP), by means of data management techniques related to machine learning. This system
allows a continuous analysis and study of the ESP process, which, due to its complexity and
characteristics (cost, accessibility, time), is impossible to carry out at the operational level.
In this sense, an analysis of the different algorithms offered by machine learning to solve
classification problems was performed; the data was organized, as well as the selection
process of the characteristics to be considered based on historical and expert opinions in
the area of electrical submersible pumping. In general, the final result is a practical and
functional Computational System that allows the identification of fault patterns in a concise
manner and makes it possible to perform simulated tests of ESP operation, which would be
unfeasible to perform in an operational environment.
Keywords: Machine learning, pattern recognition, electrical submersible pumping,

operational failures
INTRODUCCIÓN
En la detección de fallas en el sistema de levantamiento artificial de crudo por bombeo

electrosumergible (BES) se suelen aplicar procesos metodológicos deductivos basados en
manuales, experiencias previas y situaciones. Un ejemplo de ello es la metodología de
análisis causa-raíz (ACR) [1], en la cual, al seguirse una serie de pasos estructurados y
análisis se deduce una posible anomalía. Aunque dichos tipos de métodos resultan ser
efectivos, tienen el problema de necesitar de un experto o personal que este
constantemente analizando y discriminando las posibles soluciones; esos tipos de métodos
no suelen considerar las variables calculadas, medidas o sensadas, y si lo hacen no le dan
un peso importante en la deducción. Una manera práctica y efectiva podría ser el uso de
mecanismos o sistemas que ejecuten la misma tarea, pero recurriendo a procesos
estadísticos que se sirvan de casos precisos y ciertos deducidos por expertos en distintos
escenarios.
Así, al ser el levantamiento por BES [2],[3], un método ampliamente aplicado en la
industria petrolera, se cuenta con información y casos avalados por personal de campo
expertos que relacionan los tipos de falla con el comportamiento de la corriente en el motor
de la bomba a través de las cartas amperimétricas (registros de valores de corriente
sensados en el tiempo durante 24 horas); esto les ha permitido generar patrones que sirven
para comparar visualmente la carta e identificar a qué tipo de falla corresponde. En la
actualidad, existen algoritmos estadísticos, específicamente, aprendizaje de máquina, que
permiten, a través de una serie de patrones definidos y casos concretos, generar modelos
para realizar tareas de reconocimiento tan complejas tales como identificar rostros,
imágenes y paisajes; desglosar cadenas genéticas, proteínicas, realizar navegación
autónoma; predecir pérdida de propagación en sistemas de telecomunicaciones, entre otras
34
[4],[7]. Partiendo de lo anteriormente indicado, debido a la disponibilidad de patrones de
fallas en BES, se desarrolló un Sistema, que de manera aleatoria genera escenarios de
fallas y predicciones de escenarios operacionales similar a lo indicado por un experto,
además de realizar análisis de gran cantidad de cartas en corto tiempo (importante para
conocer cómo se ha comportado el pozo en el tiempo y estudiar cómo debería comportarse
en el futuro), sin interferir en la operación del sistema de levantamiento.
Cabe destacar que el Sistema Computacional desarrollado [8],[9], permite deducir de
manera eficiente, rápida y autónoma el tipo de falla que presenta el sistema a través de
valores de carta amperimétricas, pues el comportamiento del pozo se ve reflejado en el
motor (si algún elemento del sistema presenta anomalías, dicho elemento interfiere directa
o indirectamente en el funcionamiento y corriente del mismo). Al contar de una herramienta

como ésta, se puede realizar análisis predictivo de escenarios y situaciones de fallas, sin
interferir en ningún momento en la operación ni estar presente en el pozo (que podría ser
un factor de riesgo personal). Además, se pueden modificar las condiciones en que se
simulan las fallas, de acuerdo a experiencias y opiniones del personal de campo. Dado que
los escenarios son simulados, se cuenta con un conjunto de datos ilimitados con los cuales
realizar pruebas y comprobaciones.
Los componentes del sistema BES son muy costosos y su reparación y mantenimiento
requiere de personal calificado. Por ello, es altamente deseable y útil una herramienta que
permita identificar comportamientos atípicos, además de detectar caídas de producción y
tomar acciones en base a la falla presente.
La estructura del artículo es la siguiente: la sección 2 presenta el marco teórico usado
como base para el desarrollo del Sistema Computacional; en la sección 3 se describe el
diseño del Sistema Computacional para Análisis de Fallas en Pozos BES; en la sección 4
se describen los experimentos; y la sección 5 presenta las conclusiones.
MARCO TEÓRICO
El método de levantamiento artificial por BES tiene como principio fundamental levantar
el fluido desde el yacimiento hacia la superficie mediante rotación centrífuga de los
impulsores de una bomba de fondo, que permite que el fluido multi-fásico ascienda a través
de las etapas de los impulsores, y llegue al cabezal del pozo con suficiente energía hasta
la estación recolectora [3]. Un equipo BES consta, básicamente, de una bomba centrifuga
de varias etapas, cuyo eje está conectado directamente a un motor eléctrico sumergible a
través de una sección protectora, tal como se ilustra en la Figura 1. En tal sentido, para la
implantación en campo de este método BES, se requiere de un arreglo de instrumentación
y control. Las variables del proceso son:
A nivel de la bomba
 La presión de entrada a la bomba (Pip), que determina la capacidad de levantamiento

de la bomba para desplazar el fluido hacia la superficie.
35
 La presión de descarga del pozo (Pdp), que sirve para determinar la capacidad de
levantamiento del pozo para aportar la tasa deseada de producción y para construir la
curva de afluencia o comportamiento del mismo.
 La temperatura de entrada a la bomba (Tip).
Figura 1. Esquemático de un pozo de extracción de crudo por bombeo electrosumergible

A nivel de la superficie
 La temperatura del cabezal (Tc), que permite detectar los cambios en el comportamiento
del poz.
 La presión del cabezal (Pc), que es un indicador de la cantidad de energía natural útil
para hacer fluir el petróleo desde el yacimiento hasta la estación de recolección en la
superficie.
A nivel del yacimiento
 La presión y temperatura de fondo (Pf, Tf), que son medidas en fondo de pozo,
normalmente muy costosos de sensar [8].
Por otra parte, la carta amperimétricas es una herramienta valiosa que permite realizar
monitoreo al pozo, puntualmente sensa la corriente del motor. Cualquier situación
inesperada en el sistema se refleja en esta corriente, por lo que, si se hace un correcto
análisis de la misma se pueden determinar anomalías; y así tomar correctivos o estudiar
cómo se ha comportado el pozo y/o los elementos que lo conforman a lo largo del tiempo.
Por lo general, las cartas son generadas cada 24 horas, y en algunas situaciones, se
generan semanalmente. En este artículo, el interés se centra en el primer caso.
Antiguamente, y en algunos pozos hasta el día de hoy, esa carta se generaba en una hoja
de papel que debía ser cambiada a diario por un operador. En la actualidad, esos valores
36
son tomados de manera digital; sin embargo, el comportamiento de la corriente es
independiente de la manera en que se mida, tan sólo basta con tomar los valores en el
tiempo y representarlos en coordenadas polares. Así, se presenta, a modo de ejemplo, una
Carta de Escenario u Operación Normal, como la observada en la Figura 2 [10], que
corresponde a una curva suave y simétrica con un valor cercano al valor de corriente
nominal. Se espera un pico de corriente en el arranque. En general, en los Sistema BES se
han identificado trece (13) Escenarios Operacionales, cada uno de ellos con efecto
significativo en la operación de levantamiento de hidrocarburos.
Figura 2. Ejemplo de carta amperimétrica

Máquinas de Soporte Vectorial (SVM, Support Vector Machine)
La teoría de las SVMs [11] fue desarrollada inicialmente por Vladimir Vapnik a principios
de los años 80 y se centra en lo que se conoce como Teoría del Aprendizaje Estadístico.
Su razón de ser es buscar, para una tarea de aprendizaje dada y con una cantidad finita de
datos, de acuerdo al modelo mostrado en la Figura 3 [12], una función que permita llevar a
cabo una generalización que sea resultado de una adecuada relación entre la precisión
alcanzada con un particular conjunto de entrenamiento y la capacidad del modelo.
Para llevar a cabo su objetivo, se requiere de un conjunto de:
 Vectores de entrada (inputs)
{𝑥𝑖 , 𝑖 = 1, … , 𝑛} ⊆ 𝑋 ⊆ 𝑅 𝑑 (1)
 Valores de salida (outputs)
{𝑦𝑖 , 𝑖 = 1, … , 𝑛} ⊆ 𝑋 ⊆ 𝑅 (2)
37
donde los vectores 𝑥𝑖 son independientes e idénticamente distribuidos a través de alguna
función de distribución desconocida, pero que no debe variar a lo largo del proceso de
aprendizaje. Cada uno de esos vectores representa la entrada a un operador objetivo, S, el
cual arroja una salida según una función de distribución condicional 𝐹𝑦⁄𝑋=𝑥𝑖 (𝑦). Por otra
parte, la máquina de aprendizaje (LM), que en este caso es la SVM, recibe el siguiente
conjunto de entrenamiento, Z, a partir del cual construye una aproximación al operador
desconocido.
𝑍 = (𝑥1 , 𝑦1 ), . . . , (𝑥𝑛 , 𝑦𝑛 ) ⊆ 𝑋 𝑥 𝑌 (3)

Figura 3. Esquema de una máquina de aprendizaje a partir de ejemplos
Es importante resaltar que, la función de distribución condicional puede resultar en un

problema complicado y al no ser estrictamente necesario llegar a ella, el problema se
aborda desde una función de costo, al cual, al ser minimizada se hallan parámetros o pesos
que definen a la máquina. Una función de costo sirve para: a) calcular los parámetros de la
maquina mediante un proceso de minimización; b) calcular que tanto se ajusta el valor real
al valor estimado [13].
Otro punto a considerar en el proceso de aprendizaje, es el sobreajuste, que es una
característica propia del entrenamiento y ocurre cuando la máquina se adecua tan bien al
conjunto de entrenamiento que, ante valores ajenos al mismo, la estimación difiere
considerablemente; para ello, se usan términos de regularización. Al agrupar la función de
costo con el término de regularización se persiguen dos objetivos: a) minimizar la función
de costo a un valor bajo, cercano a cero; b) reducir en lo posible el aporte de cada
característica al entrenamiento. El sobreajuste suele ocurrir cuando una característica o
grupo de características inciden en el modelo; como es muy difícil el saber cuáles son (un
problema puede manejar datos con una cantidad enorme de características de entrada) se
opta por reducir el aporte de todas, tal como sigue:
38
1
𝐽(𝜃) = 𝑚 ∑𝑚 (𝑖) (𝑖)
𝑖=0 𝑐𝑜𝑠𝑡𝑜[ℎ𝜃 (𝑥) , (𝑦) ] + 𝑡é𝑟𝑚𝑖𝑛𝑜 𝑑𝑒 𝑟𝑒𝑔𝑢𝑙𝑎𝑟𝑖𝑧𝑎𝑐𝑖ó𝑛 (4)
La ecuación (4) es la ecuación general. La función de costo depende del valor estimado
por la hipótesis, ℎ𝜃 (𝑥). A cada ejemplo de entrenamiento y de su valor real conocido, se
promedia cada uno de ellos (cada caso aporta un costo a la función; idealmente, el aporte
de cada ejemplo debería ser cero, lo que equivale a decir que la salida estimada o hipótesis
coincide perfectamente con la salida real conocida). Por su parte, el término de
regularización busca mantener los valores de los parámetros 𝜃 lo más bajos posible. En la
máquina de soporte vectorial la función de costo es:
1
𝐽(𝜃) = 𝐶[∑𝑚 (𝑖) 𝑇 (𝑖) (𝑖) 𝑇 (𝑖) 𝑛
𝑖=0 𝑦 𝑐𝑜𝑠𝑡1 (𝜃 𝑥 ) + (1 − 𝑦 )𝑐𝑜𝑠𝑡0 (𝜃 𝑥 )] + ∑𝑗=1 𝜃𝑗
2
2
(5)
Donde C es el parámetro de ajuste, que se encarga de evitar el sobreajuste y juega

con características muy importantes: la varianza y la oscilación. La varianza indica que tan
diferente se considera un valor del otro cuando dicho valor cambia, es decir, si se tiene un
valor de x = 1 y se desplaza un valor de paso h = 0,01, se tendrá un valor de x1 = 1,01. Si
la varianza es baja puede decirse que x es muy similar a x1, incluso se puede decir que x =
x1; pero si la varianza es alta se dice que x es muy diferente a x1. Por su parte, la oscilación
se refiere a que tanta seguridad se tiene que un valor catalogado como cero sea cero, y un
valor catalogado como uno sea uno. La idea es buscar un equilibrio, pues cuando la
varianza es alta la oscilación suele ser baja y viceversa, si la varianza es baja la oscilación
suele ser alta. Aunque se pueda pensar que la primera condición es idónea, no es así,
porque en este caso es que, precisamente ocurre el sobreajuste.
La función de costo planteada en la ecuación (5) responde a problemas de clasificación
binarios, por esto existen dos funciones de costos: a) cost1, que aplica cuando la salida real
es uno; en este caso, si el valor estimado es uno o muy cercano a uno el aporte del ejemplo
a la función de costo es muy bajo, caso contrario, si el valor real es uno y el valor estimado
es cero o muy cercano a cero, se penaliza con un costo muy alto; b) cost0, aplica cuando la
salida real es cero y tiene el mismo planteamiento que el anterior con las obvias diferencias.
El término de regularización trabaja con la distancia vectorial entre los parámetros.
Considera los valores de los mismos, donde dicha distancia debe ser lo más cercana a cero
para que el aporte al costo sea mínimo; esto sólo se consigue con parámetros con valores
lo suficientemente pequeños.
La gran ventaja que presentan las máquinas de soporte vectorial con respecto a otras
máquinas de aprendizaje es la frontera de decisión. Esta frontera busca un margen amplio
entre los valores positivos y negativos que están más cercanos entre sí.
Cuando se quiere realizar una clasificación múltiple se usa la clasificación por SVM
binaria aplicada a cada clase; por ejemplo, si se quiere clasificar un conjunto de patrones
en 4 posibles clases C1, C2, C3 y C4, primero se toma a C1 como clase positiva y al resto
como clase negativa, se obtiene un resultado o probabilidad de que ese patrón pertenezca
a esta clase; luego se toma C2 como clase positiva y el resto como clase negativa y se
39
obtiene la probabilidad de que el patrón pertenezca a esta clase: Este procedimiento se
repite con cada clase y al final se comparan las probabilidades; en aquella en que el patrón
tenga mayor probabilidad es donde se clasifica; este método se llama uno versus todos.
Es oportuno destacar que, muchas veces los datos no son linealmente separables es
decir, una frontera de decisión lineal no permite dividir ejemplos positivos de negativos; en
este caso se transforman las características de los patrones [13], con el objetivo de llevarlos
a una nueva dimensionalidad, en donde, a través de hiperplanos, como los mostrados en
la Figura 4 [14], sea posible realizar la clasificación. Esto se conoce como transformación
no lineal,  (ver Figura 5 [14]). Existen muchas maneras de lleva a cabo dicha
transformación, pero en el caso específico de las máquinas de soporte vectorial se usan
funciones kernel o núcleos [15].
Figura 4. Barrera de decisión de un problema de clasificación binario linealmente separable

en SVM
Figura 5. Transformación no lineal, 
40
Un kernel es una función que genera nuevas características dependiendo de qué tanto
se parece un ejemplo de entrenamiento a los demás. También se les llama funciones de
similitud. Existen gran variedad de kernels, ya que, cada uno de ellos tiene sus criterios
para evaluar semejanza. En ese sentido, se tienen kernels lineales, kernels polinómicos,
kernels gaussianos, entre otros.
Específicamente, el kernel gaussiano esta descrito mediante:
−𝑥−𝑙𝑖
( )
𝑓𝑖 = 𝑒 2𝜎2 (6)
Siendo 𝑓𝑖 un vector de la forma [𝑓1 𝑓2 𝑓3 … 𝑓𝑚 ], el cual será el nuevo conjunto de

características para el ejemplo, el problema tendrá 𝑅 𝑚 𝑥 𝑚 características nuevas; m es el
número de ejemplos de entrenamiento. El kernel compara cada ejemplo de entrenamiento
con una marca; las marcas a su vez son los mismos ejemplos. De allí que, la matriz de
características sea cuadrada. Para su criterio de similitud, el kernel emplea la distancia
entre el patrón y la marca; si son parecidas, el valor será cercano a cero (usa la varianza
en el denominador para ajuste) y la función exponencial al estar elevada a un número
pequeño negativo que tiende a cero tratará de acercarse a un valor de uno; en cambio, si
la distancia entre el patrón y la marca es grande, el kernel tratará de acercarse a un valor
cero. En conclusión, el kernel dará mayor peso a las nuevas características en su ejemplo
de entrenamiento puntual en aquellos casos en que exista mayor similitud; la frontera de
decisión se crea en base a esas comparaciones y de allí es que es posible que la frontera
de decisión sea altamente no lineal.
METODOLOGÍA, RESULTADOS Y DISCUSIÓN
A nivel de detección de fallas, se identifican, diagnostican y clasifican las mismas, con

la finalidad de elegir alguna característica o procedimiento que permita el uso de máquinas
de aprendizaje y reconocimiento de patrones [16]. Una vez encontrados los patrones, se
encuentran relaciones entre dichos patrones de corriente (o cartas amperimétricas) y
distintos tipos de falla que les permite ser clasificadas. En esta parte, la clasificación
depende de la interpretación de expertos, combinada con comportamientos esperados (si
a un motor eléctrico se le incrementa su carga física, aumenta el torque y, por tanto, también
su corriente aumenta; si por el contrario, se le disminuye su carga física, la corriente
disminuye; si sobrepasa los umbrales máximo y mínimo de corriente, el motor se quema o
se apaga, respectivamente [16].
Etapa I: Recolectar, aprender, clasificar y delimitar las alternativas que proponen las
máquinas de aprendizaje para resolver problemas de reconocimiento de patrones
Aplicar un algoritmo de aprendizaje que, teóricamente y basado en experiencias

previas, se ajuste a las condiciones descritas. Así, se estudian y comparan algunos de los
modelos que presentan las máquinas de aprendizaje delimitando el problema a:
41
 Es un problema de aprendizaje supervisado, porque se parte de patrones de datos con
entradas y salidas conocidas para inferir nuevos patrones de los cuáles sólo se conocen
sus características de entrada.
 Es un problema de clasificación, porque sus salidas son valores discretos y bien
delimitados; además, es de clasificación múltiple, debido a que la salida puede tomar
valores que van desde 1 hasta 13.
 Debido a que se estudian fallas (comportamientos no esperados), la estructura de los
datos de entrada no sigue un comportamiento lineal, tal como se puede notar al revisar
la forma de las cartas y en el cómo en algunos casos la corriente toma valores muy
diferentes en intervalos de tiempo muy cortos (casi instantáneos), además de percibir

incrementos o disminuciones de la misma en formas que no se adaptan a un modelo
lineal o cuasi-lineal.
 Aunque cada patrón de carta difiere de otro patrón, se pueden encontrar características
similares por casos y condiciones que les permite ser clasificados; esto es, un patrón
puede ser asociado a una clase. Por tanto, el problema puede ser abordado desde la
metodología de reconocimiento de patrones.
 Al ser un problema de aprendizaje supervisado, de clasificación múltiple, no lineal y de
reconocimiento de patrones, se decide aplicar máquinas de soporte vectorial con kernels
gaussianos, debido a sus características y precedentes en la resolución de problemas
con consideraciones similares tanto en el reconocimiento de patrones, en problemas de
clasificación y en el campo de datos no lineales.
Etapa II: Diseñar y elaborar el sistema computacional de simulación y reconocimiento de

patrones de fallas en procesos de levantamiento artificial BES
Debido a que el reconocimiento de patrones parte de una serie de data generada

aleatoriamente en base a condiciones, estados, comparaciones, conocimientos de campo
e interpretaciones tomando como referencia cartas amperimétricas reales, es necesario, en
primera instancia, identificar el número de fallas a emular por el sistema computacional. En
ese particular, la operación en total se delimitó a un comportamiento normal y 12 escenarios
de falla mostradas en la Figura 6 [10] (Picos de Corriente, Apagado por Gas en la Bomba,
Gas Libre en la Bomba, Baja Carga, Sobrecarga, Descarga de Fluido, Bajo Nivel de Fluido
con Gas, Nivel de Fluido sin Gas, Número Excesivo de Arranques, Excesivos Ciclos de
Operación, Cargas o Emulsiones en Superficie, Presencia de Sólidos en la Bomba).
Así, para el reconocimiento de patrones se toma como referencia el procedimiento KDD
(Knowledge Discovery from Databases) [17], en las fases que sean pertinentes para el
problema planteado:
 Integración y recopilación de datos: dado que la data es generada y se encuentra

agrupada en carpetas según sus características, no aplica este paso (la fase aplica
cuando la data es tomada de distintos lugares, en distintos espacios de tiempo u ambos).
42
Figura 6 Cartas amperimétricas de la máquina de la BES: a) Operación normal - 1; b) Picos
de corriente - 15; c) Apagado por gas en la bomba - 18; d) Descarga de fluido - 100; e) Bajo
nivel de fluido con gas - 11; f) Bajo nivel de fluido con gas - 12
(a) (b)
(c) (d)
(e) (f)
43
 Selección, limpieza y transformación: esta parte es aplicada de manera implícita en el
proceso simulación. En algunos casos se generan cartas erradas o que presentan
inconsistencias a nivel de códigos, toman valores fuera de rango o son creadas como
cartas en blanco. Esas situaciones se capturan con excepciones, descartando las
erradas y generando nuevas cartas, permitiendo, de manera visual, que aquellas que
sean consideradas por el usuario como situaciones no representativas sean
descartadas, o en su defecto, se tomen las medidas que se consideren pertinentes. En
el caso particular abordado en este trabajo, se generaron y visualizaron los distintos tipos
de carta, las cuales fueron comparadas con cartas reales con el fin de ajustarlas lo mejor
posible. También se hizo una revisión sobre la aleatoriedad entre cartas del mismo tipo
(con las debidas limitaciones). Debido a que la maquina a usar es de soporte vectorial
con kernels gaussianos, no se realizó una transformación a las características de
entrada, dejando la opción abierta en caso de que el desempeño de la maquina no
resultase satisfactorio.
 Implementación del Aprendizaje de Máquina: se ejecutan las acciones necesarias para
implementar cualquier aprendizaje automatizado, así como las acciones específicas
para las máquinas de soporte vectorial, siguiendo los siguientes pasos:
- Paso 1 (se genera el conjunto de datos): se pide el número de cartas de cada tipo a
usar (si, por ejemplo, se usan 20 cartas, el conjunto de datos tendrá 13 x 20, es decir,
260 cartas). Se toma la misma cantidad de cartas de cada caso para que la
representación de cada clase este balanceada. Una vez se cargan las cartas, se
desordena la data de manera aleatoria 100 veces gracias a un ciclo anidado.
Realizado este procedimiento, se separan las características de entrada en una matriz
y las salidas discretas en un vector.
- Paso 2 (se divide el conjunto de datos en dos): uno es el conjunto de entrenamiento,
con el cual se hallan los parámetros que necesita el modelo de la máquina de soporte
vectorial para realizar clasificaciones y estimaciones. Con ese conjunto se entrena el
modelo. El otro conjunto es el de prueba, en el cual se evalúa el porcentaje de acierto
de la máquina al comparar salidas estimadas con salidas reales conocidas. La
proporción de cada conjunto es definida por el usuario.
- Paso 3 (se selecciona la máquina de entrenamiento): el trabajo está enfocado en la
máquina de soporte vectorial con kernels gaussianos; sin embargo, se presentan 2
opciones de máquinas: arboles de decisión para clasificación y Naive Bayesiano
gaussiano. Se trata de dos opciones de comparación, pero no se realizan análisis
exhaustivo de ellas ni se trabaja sobre sus parámetros de ajuste (los análisis que
permiten estas dos opciones, tales como la curva de aprendizaje, matrices de
confusión y forma de validación, sólo depende del número de ejemplos tomados para
el conjunto de datos). No obstante, en la máquina de soporte vectorial se realiza el
entrenamiento considerando 3 parámetros propios de ella: a) C, el cual incide en el
sobreajuste, subajuste y acierto; b) el kernel o núcleo, que en este caso es un kernel
gaussiano y define la función de similitud necesaria para transformar las
44
características de entrada no lineales (no separables por una función de decisión
lineal) a un nueva dimensión de características que permitan ser separadas por
hiperplanos; c) el valor de gamma, que incide directamente en la función de similitud
gaussiana al establecer cuál es la diferencia mínima a la cual se considera un patrón
similar o diferente de otro patrón.
- Paso 4 (evaluación e interpretación): una vez entrenada la máquina de aprendizaje,
se ofrecen 4 alternativas de validación: simple, cruzada, uno afuera y bootstrap, las
cuales arrojan indicadores que estiman el acierto del modelo y reentrenan la maquina
según sus propios requerimientos. Cada uno de los métodos muestra una matriz de
confusión y porcentaje de patrones bien clasificados. Se presentan las curvas
características operativas del receptor (ROC, Receiver Operating Characteristic), que

muestran el desempeño para cada clase según la rata de tasa general del clasificador
múltiple. Una opción de curva de aprendizaje en donde se muestra el porcentaje de
acierto de la maquina en función de la dimensión del conjunto usado. Una
comparación del desempeño de la máquina de soporte vectorial ante distintas
combinaciones de C y gamma que arroja, de las posibles combinaciones propuestas
los valores óptimos que garanticen el mayor porcentaje de aciertos.
Etapa III: Desarrollar escenarios de prueba para la evaluación y análisis estadístico del
sistema
En esta etapa es preciso conocer que tan bien se comporta el sistema desde el punto
de vista de acierto/error así como el encontrar las características que le den el mejor
desempeño posible, la primera prueba es a través de una curva de aprendizaje que me
indique el acierto del clasificador en función del número de ejemplos tomados para el set
de datos, para esta prueba se parte de una data de 1300 ejemplos que se divide en 10
partes para tomar el acierto en cada caso:
Ahora bien, tal como se puede observar en la Figura 7, para un conjunto de datos
mayores a 600 se espera un acierto superior al 95%, es decir, con un promedio de 40 a 50
cartas por cada caso, el sistema debería presentar un muy buen porcentaje de clasificación.
La segunda prueba consiste en estimar que valores de “C” y gamma dan el mejor resultado
posible. Para dicha prueba se, realizaron todas las combinaciones posibles de los
siguientes valores:
 C = 1, 2, 5, 10, 15, 20
 Gamma = 0,0001; 0,0005; 0,001; 0,005; 0,01
Es importante indicar que este grupo de valores fue seleccionado en función de

múltiples pruebas en donde se usaron valores de C desde 1 hasta 10000 y de gamma
desde 1x10-7 hasta 1, donde se logró delimitar de manera experimental el espacio planteado
al expuesto (el valor óptimo debería caer en esta delimitación).
45
Los valores óptimos encontrados para un set de datos de 1300 son C igual a 5 y gamma
igual a 0,001, tal como se muestran en la Figura 8.
Figura 7. Curva de aprendizaje para SVM

Figura 8. C vs. Gamma
Seguidamente se presentan las validaciones simple, cruzada y Bootstrap, con su

respectiva matriz de confusión, así como las gráficas ROC, en base a los parámetros C,
función similitud y valor gama.
Validación Simple
Tomando un 70% para entrenar y un 30% de la data para estimar, se obtuvo un acierto
de 98,71794871794873%. La correspondiente matriz de confusión es la que se muestra en
la Tabla 1.
46
Tabla 1. Matriz de confusión para la validación simple
F1 F2 F3 F4 F5 F6 F7 F8 F9 F10 F11 F12 F13
F1 30 0 0 0 0 0 0 0 0 0 0 0 0
F2 0 29 0 0 0 0 0 0 0 0 0 0 2
F3 0 0 31 0 0 0 0 0 0 0 0 0 0
F4 0 0 0 29 0 0 0 0 0 0 0 0 1
F5 0 0 0 0 27 0 0 0 0 0 0 0 0
F6 0 0 0 0 0 32 0 0 0 0 0 0 0
F7 0 0 0 0 0 0 29 0 0 0 0 0 0
F8 0 0 0 0 0 0 0 25 0 0 0 0 0
F9 0 0 0 0 0 0 0 0 30 0 0 0 0
F10 0 0 0 0 0 0 0 0 0 30 0 0 0
F11 0 0 0 0 0 0 0 0 0 0 37 0 0
F12 0 0 0 0 0 0 0 0 0 0 0 29 0
F13 0 0 0 0 0 0 0 0 0 0 0 0 27
Validación Cruzada
Al dividir el set de datos en 10 partes y realizar el mismo número de validaciones, se

obtuvieron los resultados resumidos en la Tabla 2, con la correspondiente matriz de
confusión siendo la mostrada en la Tabla 3.
Tabla 2. Porcentaje de aciertos en validación cruzada

Numero de Porcentaje de aciertos
validación
1 98,46153846153847
2 98,46153846153847
3 98,46153846153847
4 100,0
5 99,23076923076923
6 98,46153846153847
8 98,46153846153847
9 96,15384615384616
10 100,0
Promedio total 98,61538461538461
47
Tabla 3. Matriz de confusión en validación cruzada
F1 F2 F3 F4 F5 F6 F7 F8 F9 F10 F11 F12 F13
F1 12 0 0 0 0 0 0 0 0 0 0 0 0
F2 0 16 0 0 0 0 0 0 0 0 0 0 4
F3 0 0 8 0 0 0 0 0 0 0 0 0 0
F4 0 0 0 11 0 0 0 0 0 0 0 0 0
F5 0 0 0 0 9 0 0 0 0 0 0 0 0
F6 0 0 0 0 0 8 0 0 0 0 0 0 0
F7 0 0 0 0 0 0 7 0 0 0 0 0 0
F8 0 0 0 0 0 0 0 10 0 0 0 0 0
F9 0 0 0 0 0 0 0 0 8 0 0 0 0
F10 0 0 0 0 0 0 0 0 0 10 0 0 0
F11 0 0 0 0 0 0 0 0 0 0 8 0 0
F12 0 0 0 0 0 0 0 0 0 0 0 6 0
F13 0 0 0 0 0 0 0 0 0 0 0 0 12
Validación Bootstrap
Al realizar validación bootstrap 10 veces y promediar, se obtuvieron los resultados

mostrados en la Tabla 4, mientras que las correspondientes matrices de confusión,
pesimistas y optimistas, se muestran en la Tabla 5 y Tabla 6, respectivamente.
Tabla 4. Porcentaje de aciertos en validación bootstrap

Porcentaje
Numero de validación Acierto pesimista Acierto optimista Bootstrap
1 95,61586 98,38461 96,62369
2 96,70103 98,76923 97,45385
3 96,56652 98,76923 97,36830
4 97,13114 98,92307 97,78340
5 97,64957 99,15384 98,19712
6 97,89473 99,23076 98,38105
7 97,20430 99,00000 97,85793
8 97,72727 99,15384 98,24654
9 97,40259 99,07692 98,01205
10 96,04166 98,53846 96,95050
Promedio 96,99347 98,90000 97,68744
48
Tabla 5. Matriz de confusión pesimista en validación bootstrap
F1 F2 F3 F4 F5 F6 F7 F8 F9 F10 F11 F12 F13
F1 29 0 0 0 0 0 0 0 0 0 0 0 0
F2 0 32 0 0 0 0 0 0 0 0 0 0 6
F3 0 0 30 0 0 0 0 0 0 0 0 0 0
F4 0 0 0 38 0 0 0 0 0 0 0 0 2
F5 0 0 0 0 34 0 0 0 0 0 0 0 0
F6 0 0 0 0 0 36 0 0 0 0 0 0 0
F7 0 0 0 0 0 0 46 0 0 0 0 0 0
F8 0 0 0 0 0 0 0 41 0 0 0 0 0
F9 0 0 0 0 0 0 0 0 34 0 0 0 0
F10 0 0 0 0 0 0 0 0 0 38 0 0 0
F11 0 0 0 0 0 0 0 0 0 0 38 0 0
F12 0 0 0 0 0 0 0 0 0 0 0 36 0
F13 7 4 0 0 0 0 0 0 0 0 0 0 29
Tabla 6. Matriz de confusión optimista en validación bootstrap

F1 F2 F3 F4 F5 F6 F7 F8 F9 F10 F11 F12 F13
F1 100 0 0 0 0 0 0 0 0 0 0 0 0
F2 0 94 0 0 0 0 0 0 0 0 0 0 6
F3 0 0 100 0 0 0 0 0 0 0 0 0 0
F4 0 0 0 98 0 0 0 0 0 0 0 0 2
F5 0 0 0 0 100 0 0 0 0 0 0 0 0
F6 0 0 0 0 0 100 0 0 0 0 0 0 0
F7 0 0 0 0 0 0 100 0 0 0 0 0 0
F8 0 0 0 0 0 0 0 100 0 0 0 0 0
F9 0 0 0 0 0 0 0 0 100 0 0 0 0
F10 0 0 0 0 0 0 0 0 0 100 0 0 0
F11 0 0 0 0 0 0 0 0 0 0 100 0 0
F12 0 0 0 0 0 0 0 0 0 0 0 100 0
F13 7 4 0 0 0 0 0 0 0 0 0 0 89
Al comparar el porcentaje de acierto esperado con un C igual a 5 y gamma igual a

0,001 con los resultados arrojados en la validación simple, cruzada y bootstrap, se nota
que, todos los porcentajes de acierto están en el mismo orden con diferencias mínimas.
49
Adicionalmente, en el análisis ROC (Receiver Operating Characteristic), mostrado en
las Figuras 9a hasta 9d y Figura 10, se describe el comportamiento de cada clase en función
de la tasa de aciertos positivos versus tasa de desaciertos negativos. Por debajo de la línea
punteada el desempeño se considera pésimo; por tanto, las curvas las Figuras 9a hasta 9d
y Figura 10, indican un desempeño óptimo, tal como se esperaba.
Figura 9. Curvas ROC (por clase): a) Desde la clase 1 hasta la clase 3; b) Desde la clase 4
hasta la clase 6; c) Desde la clase 7 hasta la clase 9; d) Desde la clase 10 hasta la clase 13
(a) (b)
(c) (d)
CONCLUSIONES
Al tratar el problema de clasificación tomando como fuente de información situaciones

simuladas modeladas de manera empírica a partir de ejemplos reales, se observa la no
linealidad del problema; es por ello que, se recurre a las máquinas de soporte vectorial con
kernels gaussianos. A través de múltiples pruebas, ajustes y restricciones, se concluye que
un método de esa naturaleza, aplicado a la detección de fallas, aún en escenarios reales,
brinda un buen desempeño; además, permite la generalización de condiciones a múltiples
50
pozos, lo cual no siempre es posible de realizar a nivel operacional debido a que no se
dispone de un sistema de interpretación, así este sistema computacional brinda un soporte
esencial a la hora de tomar acciones de optimización y control del sistema de levantamiento,
así como también proporciona una estimación para la realización del diagnóstico de fallas
a través del conocimiento del personal de campo.
Figura 10. Curvas ROC promedio

El estudio se fundamenta en variables eléctricas del motor y aunque los motores

empleados en distintos pozos presentan condiciones de potencia, voltaje y dimensión
distintas, el comportamiento no va a cambiar en forma (los valores de corriente pueden
diferir entre sí, pero esto se solventa con una normalización previa).
Al realizar el estudio de la curva de aprendizaje con los valores óptimos hallados en el
estudio de C vs gamma, se observó que la máquina con un poco de más de 50 ejemplos
por caso brinda un 95% de acierto. El estudio es un prototipo industrial y se debe tomar
como un primer intento de aplicar el aprendizaje de máquina no sólo en el sistema de
bombeo electrosumergible, sino también en cualquier otro tipo de método de levantamiento
artificial de petróleo del que se disponga de datos reales y presente situaciones que no
siempre puedan ser modeladas a través de procedimientos matemáticos y/o físicos. Es
necesario tener presente que se requiere ajustes, correcciones y reestructuraciones, pero
los resultados indican que el Sistema computacional basado en Aprendizaje de Máquina
para Análisis de Fallas en BES, son acorde a los resultados obtenidos en escenarios de
operación para ese tipo de método de levantamiento artificial.
REFERENCIAS
[1] M.A. Barsalou, Root Cause Analysis: A Step-By-Step Guide to Using the Right Tool at
the Right Time. Boca Raton, FL: CRC Press, 2015.
51
[2] E. Aceros, E. Camargo, J. Canelon, and A. Verde, “First Principles Model for Virtually
Sensing Operational Parameters in an ESP Well”, in SPE Artificial Lift Conference and
Exhibition – Americas, Aug. 2018, pp. 1-15 doi: https://doi.org/10.2118/190956-MS
[3] E. Camargo, E. Aceros, L. Guzmán, H. Lozada, and J. Aguilar, “Multiobjective
Optimization Model using Genetic Algorithms for Oil Wells based on Electro
Submersible Pumps”, in 5ta. Conferencia Nacional de Computación, Informática y
Sistemas (CoNCISa 2017), Oct. 2017, pp. 1-5. [Online]. Available:
http://concisa.net.ve/memorias/CoNCISa2017/CoNCISa2017-p123-127.pdf
[Accessed: Nov. 06, 2018].
[4] X. Tian, H. Daigle, and H. Jiang, “Feature Detection for Digital Images Using Machine
Learning Algorithms and Image Processing”, in 2018 SPE/AAPG/SEG Unconventional

Resources Technology Conference, July 2018, pp. 1-14. doi:
https://doi.org/10.15530/URTEC-2018-2886325
[5] K. Mochida, S. Koda, K. Inoue, and R. Nishii, “Statistical and Machine Learning
Approaches to Predict Gene Regulatory Networks from Transcriptome Datasets”,
Frontiers in Plant Science, vol. 9, article 1770, pp. 1-7, Nov. 2018. doi:
https://doi.org/10.3389/fpls.2018.01770
[6] K. Hazelwood, et al. “Applied Machine Learning at Facebook: A Datacenter
Infrastructure Perspective”, in 24th IEEE International Symposium on High
Performance Computer Architecture (HPCA), Feb. 2018, pp. 620-629. doi:
https://doi.org/10.1109/HPCA.2018.00059
[7] Y. Zhang, J. Wen, G. Yang, Z. He, and X. Luo, “Air-to-Air Path Loss Prediction Based
on Machine Learning Methods in Urban Environments”, Wireless Communications and
Mobile Computing, vol. 2018, article ID 8489326, pp. 1-9, 2019. doi:
https://doi.org/10.1155/2018/8489326
[8] E. Camargo, J. Aguilar, E. Aceros, and H. Lozada, “Implantation of Sense Virtual in Oil
Process”, in XVI Jornada de Mecánica Computacional, Oct. 2017, pp. 68-77.
[9] J. Aguilar, J. Cordero, and O. Buendia, “Specification of the Autonomic Cycles of
Learning Analytic Tasks for a Smart Classroom”, Journal of Educational Computing
Research, vol. 56, no. 6, pp. 866-891, Oct. 2018. doi:
https://doi.org/10.1177/0735633117727698
[10] G. Takacs, Electrical Submersible Pumps Manual: Design, Operations, and
Maintenance, 2nd ed. Cambridge, MA: Elsevier - Gulf Professional Publishing, 2018.
[11] V.N. Vapnik, The Nature of Statistical Learning Theory, 2nd ed. New York: Springer,
2000.
[12] L. González-Abril, “Modelos de Clasificación basados en Máquinas de Vectores
Soporte”, en XVII Congreso ASEPELT (Asociación de Economía Aplicada), Junio
2003, pp. 1-19. [En línea]. Disponible:
https://www.asepelt.org/ficheros/File/Anales/2003%20-%20Almeria/asepeltPDF/55.p
df [Consultada: 19 de noviembre de 2018]
[13] I.H. Witten, E. Frank, M. Hall, and C.J. Pal, Data Mining: Practical Machine Learning
Tools and Techniques, 4th ed. Burlington, MA: Morgan Kaufmann, 2016.
52
[14] S. Ruiz-Correa, “Aprendizaje de Máquina y Reconocimiento de Patrones”, en III
Verano de Computación, Julio 2013. [En línea]. Disponible:
http://3vcomp.eventos.cimat.mx/sites/3vcomp/files/VeranoComputacionSRC2013.pdf
[Consultada: 26 de noviembre de 2018]
[15] E. Camargo, E. Aceros, and J. Aguilar, “Intelligent Well Systems”, in Asia-Pacific
Conference on Computer Aided System Engineering (APCASE 2015), July 2015,
pp.13-18. doi: https://doi.org/10.1109/APCASE.2015.10
[16] J. Aguilar, O. Buendia, K. Moreno, and D. Mosquera, “Autonomous Cycle of Data
Analysis Tasks for Learning Processes”, in Technologies and Innovation: Second
International Conference (CITI 2016), R. Valencia-García, K. Lagos-Ortiz, G. Alcaraz-
Mármol, J. del Cioppo, N. Vera-Lucio, Cham, Switzerland, Springer, 2016, pp. 187-
202.
[17] A. Adhikari, J. Adhikari, Advances in Knowledge Discovery in Databases. Cham,
Switzerland: Springer, 2015.
53

Sistema Computacional para Reconocimiento de Patrones de Fallas en Bes Usndo Aprendizaje de Maquina

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Sistema Computacional para Reconocimiento de Patrones de Fallas en Bes Usndo Aprendizaje de Maquina

Cargado por

Copyright:

Formatos disponibles

SISTEMA COMPUTACIONAL PARA RECONOCIMIENTO DE PATRONES DE FALLAS

EN EL LEVANTAMIENTO DE CRUDO POR BOMBEO ELECTROSUMERGIBLE,

(COMPUTATIONAL SYSTEMS FOR FAILURES PATTERN RECOGNITION IN OIL LIFT

Recibido: 17/09/2018 Aprobado: 08/12/2018

Edgar Alexander Camargo Contreras

Egner Humberto Aceros Flores

Palabras claves: Aprendizaje de máquina, reconocimientos de patrones, bombeo

In this work, it is contemplated a system that has as purpose to develop a computational

Keywords: Machine learning, pattern recognition, electrical submersible pumping,

En la detección de fallas en el sistema de levantamiento artificial de crudo por bombeo

o indirectamente en el funcionamiento y corriente del mismo). Al contar de una herramienta

 La presión de entrada a la bomba (Pip), que determina la capacidad de levantamiento

Figura 1. Esquemático de un pozo de extracción de crudo por bombeo electrosumergible

A nivel del yacimiento

Figura 2. Ejemplo de carta amperimétrica

Máquinas de Soporte Vectorial (SVM, Support Vector Machine)

 Vectores de entrada (inputs)

 Valores de salida (outputs)

𝑍 = (𝑥1 , 𝑦1 ), . . . , (𝑥𝑛 , 𝑦𝑛 ) ⊆ 𝑋 𝑥 𝑌 (3)

Figura 3. Esquema de una máquina de aprendizaje a partir de ejemplos

Es importante resaltar que, la función de distribución condicional puede resultar en un

Donde C es el parámetro de ajuste, que se encarga de evitar el sobreajuste y juega

funciones kernel o núcleos [15].

Figura 4. Barrera de decisión de un problema de clasificación binario linealmente separable

Figura 5. Transformación no lineal, 

Siendo 𝑓𝑖 un vector de la forma [𝑓1 𝑓2 𝑓3 … 𝑓𝑚 ], el cual será el nuevo conjunto de

METODOLOGÍA, RESULTADOS Y DISCUSIÓN

A nivel de detección de fallas, se identifican, diagnostican y clasifican las mismas, con

Aplicar un algoritmo de aprendizaje que, teóricamente y basado en experiencias

diferentes en intervalos de tiempo muy cortos (casi instantáneos), además de percibir

Etapa II: Diseñar y elaborar el sistema computacional de simulación y reconocimiento de

Debido a que el reconocimiento de patrones parte de una serie de data generada

 Integración y recopilación de datos: dado que la data es generada y se encuentra

características operativas del receptor (ROC, Receiver Operating Characteristic), que

Es importante indicar que este grupo de valores fue seleccionado en función de

Figura 7. Curva de aprendizaje para SVM

Figura 8. C vs. Gamma

Seguidamente se presentan las validaciones simple, cruzada y Bootstrap, con su

Al dividir el set de datos en 10 partes y realizar el mismo número de validaciones, se

Tabla 2. Porcentaje de aciertos en validación cruzada

Al realizar validación bootstrap 10 veces y promediar, se obtuvieron los resultados

Tabla 4. Porcentaje de aciertos en validación bootstrap

Tabla 6. Matriz de confusión optimista en validación bootstrap

Al comparar el porcentaje de acierto esperado con un C igual a 5 y gamma igual a

Al tratar el problema de clasificación tomando como fuente de información situaciones

Figura 10. Curvas ROC promedio

El estudio se fundamenta en variables eléctricas del motor y aunque los motores

Learning Algorithms and Image Processing”, in 2018 SPE/AAPG/SEG Unconventional

También podría gustarte