Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Co-asesor:
RAFAEL AMAYA, Estudiante Doctoral
Jurado Interno:
SERGIO CABRALES, PhD
Jurado Externo:
IVAN MURA, PhD
1. RESUMEN .................................................................................................................. 4
2. INTRODUCCIÓN ........................................................................................................ 6
3. OBJETIVOS ............................................................................................................. 10
3.1. General ................................................................................................................. 10
3.2. Específicos ............................................................................................................ 10
4. MARCO TEÓRICO ................................................................................................... 11
4.1. Corrosión............................................................................................................... 11
4.2. Detección de los defectos de corrosión ................................................................. 11
4.2.1. Pruebas Hidrostáticas ..................................................................................... 12
4.2.2. Evaluación directa........................................................................................... 12
4.2.3. Inspección en línea (ILI) .................................................................................. 12
4.3. Evaluación de los defectos de corrosión................................................................ 13
4.3.1. Nomenclatura ................................................................................................. 14
4.3.2. ASME B31G ................................................................................................... 14
4.3.3. DNV-RP-F101 ................................................................................................. 14
4.4. Cálculo del ERF .................................................................................................... 15
4.5. Inspección periódica de los defectos de corrosión ................................................. 15
4.6. Modelos de crecimiento de defectos de corrosión ................................................. 17
4.7. Modelos de Machine Learning ............................................................................... 18
5. METODOLOGÍA ....................................................................................................... 21
5.1. Base de datos ILI .................................................................................................. 22
5.2. Exploración de la base de datos ............................................................................ 26
5.3. Segmentación – Clustering.................................................................................... 28
5.3.1. Tipos de segmentación ................................................................................... 29
5.3.2. Modelos de Clustering .................................................................................... 30
5.3.3. Clustering Jerárquico ...................................................................................... 31
5.3.4. Caracterización de los Clusters ....................................................................... 33
5.3.5. Selección del mejor modelo de Clustering ...................................................... 36
5.4. Pre-procesamiento de los datos ............................................................................ 36
5.4.1. SMOTE ........................................................................................................... 37
5.5. Entrenamiento de los modelos .............................................................................. 38
5.5.1. Regresión lineal .............................................................................................. 38
2
5.5.2. Regresión con componentes principales ......................................................... 39
5.5.3. Random Forest ............................................................................................... 40
5.6. Selección de los modelos ...................................................................................... 42
5.6.1. Regresión lineal .............................................................................................. 42
5.6.2. Regresión con componentes principales ......................................................... 43
5.6.3. Random Forest ............................................................................................... 44
5.7. Evaluación de los modelos .................................................................................... 44
5.7.1. k-Fold Cross Validation ................................................................................... 45
5.7.2. Out of Bag Error .............................................................................................. 45
5.8. Prueba de los modelos .......................................................................................... 46
5.9. Evaluación de modelo para toma de decisiones y reentrenamiento ...................... 46
6. RESULTADOS ......................................................................................................... 48
6.1. Base de datos ILI .................................................................................................. 48
6.2. Exploración de la base de datos ............................................................................ 48
6.3. Segmentación – Clustering.................................................................................... 50
6.4. Pre-procesamiento ................................................................................................ 51
6.5. Entrenamiento de los modelos .............................................................................. 52
6.5.1. Regresión lineal .............................................................................................. 53
6.5.2. Regresión con componentes principales ......................................................... 57
6.5.3. Random Forest ............................................................................................... 59
6.6. Prueba de los modelos .......................................................................................... 62
6.7. Análisis de costos.................................................................................................. 63
6.7.1. Primer escenario: sin modelo de predicción .................................................... 64
6.7.2. Segundo escenario: con modelo de predicción ............................................... 64
7. CONCLUSIONES ..................................................................................................... 66
8. TRABAJO A FUTURO .............................................................................................. 67
9. REFERENCIAS ........................................................................................................ 68
3
1. RESUMEN
Una de las opciones más usadas para el transporte en largas distancias de crudo, gas y
productos derivados en la industria petrolera son las tuberías onshore. Estas tuberías son
susceptibles a fallas causadas por corrosión, fallas operativas, errores humanos o
vandalismo lo que conlleva a pérdidas de metal, abolladuras o grietas. De esta manera, se
generan daños a la integridad mecánica de la tubería y como consecuencia, se pueden
provocar daños ambientales o afectaciones a la población, y se puede conllevar a pérdidas
económicas significativas por reparaciones, pérdida de productos, respuestas de
emergencia y daños a la propiedad.
4
inspección en línea (ILI). En general, se demostró que estos algoritmos de Machine
Learning tienen el potencial de crear modelos de predicción precisos. Teniendo en cuenta
que la prioridad es maximizar la capacidad predictiva más allá de la interpretabilidad de los
modelos, se escoge el modelo de Random Forest, como el mejor método de predicción.
Para evaluar la metodología propuesta, se utiliza como caso de estudio una base de datos
compuesta de los reportes generados por dos inspecciones en línea (ILI) realizadas a una
tubería de crudo con una longitud de 44 kilómetros, un diámetro externo de 273.1
milímetros, un espesor de pared promedio de 6.35 milímetros y una máxima presión de
operación admisible (MAOP) de 1500 psig.
5
2. INTRODUCCIÓN
Una de las opciones más usadas para el transporte en largas distancias de crudo, gas y
productos derivados en la industria petrolera son las tuberías onshore [1]. En Estados
Unidos, más de 217.000 km de tuberías transportan líquidos peligrosos, 34.000 km
transportan crudo, y 483.000 km gas natural [2]. Estas tuberías son susceptibles a fallas
causadas por corrosión, fallas operativas, errores humanos o vandalismo lo que conlleva a
pérdidas de metal, abolladuras o grietas [3]. De esta manera, se provocan daños a la
integridad mecánica del sistema incluyendo una pérdida de contención primaria (LOC).
Como consecuencia, se pueden provocar daños ambientales o afectaciones a la población
[4]. Además, se puede conllevar a pérdidas económicas significativas por reparaciones,
pérdida de productos, respuestas de emergencia y daños a la propiedad [4]. Frente a esto,
es importante implementar prácticas y procedimientos para proteger, administrar y
mantener la integridad de los sistemas de tubería. Todo esto se concentra en mantener un
buen programa de gestión de la integridad (PGI) de la tubería [5].
De acuerdo con Kishawy y Gabbar [7], un PGI debe constar de los siguientes componentes:
(i) un proceso para identificar los segmentos de la tubería y el modo de falla; (ii) un plan de
evaluación de la integridad; (iii) un análisis que contiene toda la información disponible
sobre la integridad de la tubería y las consecuencias de una falla; (iv) criterios para acciones
de reparación; (v) un proceso continuo de evaluación para mantener la integridad; (vi)
identificación de medidas preventivas y de mitigación; (vii) métodos para medir la
efectividad del programa y (viii) un proceso de revisión de los resultados de la evaluación
de la integridad. Específicamente, para este estudio es de interés brindar herramientas que
permitan apoyar a los componentes (iv), y (v), dado que en estos se toman decisiones sobre
6
futuras intervenciones que mantengan la integridad de la tubería y es un proceso que se
debe realizar de manera continua.
La gestión de integridad tiene una dualidad de la cual depende que los daños y las pérdidas
económicas puedan ser significativamente altas o bajas. Por un lado, si la tubería no se
interviene a tiempo y/o adecuadamente, se puede llegar a un LOC que afecte a las personas
y al medio ambiente debido a la peligrosidad de los fluidos de transporte (inflamables,
explosivos, tóxicos, etc.) [8]. Por otro lado, si las intervenciones son extremadamente
conservadoras, por ejemplo, con un intervalo de tiempo de pequeño, se puede llegar a tener
pérdidas económicas por mantenimientos o reparaciones innecesarias [8]. En otras
palabras, el criterio de un PGI se encuentra en un compromiso entre los costos de
reparación, incluida la pérdida de producción, y la necesidad de proteger la vida humana y
el medio ambiente [3]. Dado todo lo anterior, es indispensable que los encargados de tomar
decisiones evalúen cada defecto que perturbe la integridad de la tubería de la mejor forma
posible, de tal manera, que se minimicen las pérdidas económicas [8].
Amaya et al. [6] mencionan que “la corrosión es uno de los principales mecanismos de
degradación y uno de los objetivos primordiales para la gestión de la integridad de la
tubería” . Según el departamento de transporte de los Estados Unidos, aproximadamente
el 25% de todos los reportes de fallas en tuberías de transporte de crudo y de gas natural,
se deben a defectos de corrosión, Figura 1 [9]. De estos defectos, el 65% se debe a
corrosión en las paredes externas y el 35% a corrosión en las paredes internas [2].
Adicionalmente, se conoce que cerca del 8% de la producción mundial de metales es usado
en producción, transporte y procesamiento en la industria petrolera [10]. Esta enorme
cantidad de metal usada en esta industria es la más propensa a la corrosión en comparación
con otras industrias. Específicamente, se destruye aproximadamente 1 kg de acero por
tonelada de crudo procesado debido a la corrosión [10]. Es por esto, que la corrosión es un
fenómeno cuya investigación es de gran importancia para planificar las actividades de
mantenimiento en la industria petrolera [11].
7
Figura 1. Porcentajes por causas de fallas en tuberías. Muestra de datos de fallas de EE. UU. durante un
periodo de 20 años en su red de 800,000 km de tuberías onshore [9].
8
A continuación, se presentará formalmente los objetivos del proyecto y un marco teórico
que expone los fundamentos y bibliografía respecto al tema de investigación que involucra
los defectos de corrosión en tuberías y la aplicación de técnicas de Machine Learning.
Además, se presentará la metodología propuesta que describe los procesos de
segmentación y de predicción sobre la tubería que se utilizará como caso de estudio.
Posteriormente, se presentarán los resultados obtenidos del proceso de segmentación y de
cada uno de los modelos de Machine Learning propuestos para la predicción. Finalmente,
se realizarán las conclusiones pertinentes sobre los resultados obtenidos y del trabajo
realizado y además, se propondrá un trabajo a futuro.
9
3. OBJETIVOS
3.1. General
3.2. Específicos
10
4. MARCO TEÓRICO
4.1. Corrosión
Según el Código de Regulación Federal para líquidos y gases (CFR 192 y CFR 195), existen
tres métodos aprobados para detectar corrosión en tuberías: pruebas hidrostáticas,
evaluación directa, e inspección en línea [17].
11
4.2.1. Pruebas Hidrostáticas
Esta técnica prueba la resistencia de la tubería a través de agua a una presión mayor que
la presión de operación [17], usualmente, el 125% de la presión máxima de operación de la
tubería (MOP) [2]. Es un método destructivo debido a las altas presiones a las que se
somete la tubería, es muy costoso e involucra problemas asociados con la adquisición,
tratamiento y eliminación del agua usada [2]. Asimismo, es posible que mediante este
método no se detecten fallas pequeñas y sea necesario hasta otra prueba hidrostática para
identificarlas [2]. Finalmente, se realiza por secciones de tubería lo que involucra detener el
flujo del producto transportado y es necesario realizar excavaciones que pueden afectar la
integridad de la tubería [2].
La técnica ILI se define como la inspección realizada por un Smart o Intelligent Pig (Figura
2), desde el interior de una tubería [19]. Este equipo es impulsado por el flujo del líquido o
gas producto, lo que permite realizar pruebas no destructivas para inspeccionar la tubería
[19]. Específicamente, el Smart Pig es capaz de detectar la mayoría de pérdidas de metal
causadas por corrosión. Para esto, puede usar dos tipos de tecnologías de inspección: MFL
(Magnetic Flux Leakage) y UT (Ultrasonic Tools) [2]. Por un lado, el MFL mide el cambio
generado en las líneas del flujo magnético por los defectos de corrosión. Este cambio
produce una señal que puede relacionarse con la longitud y profundidad de un defecto [2].
Por otro lado, en la tecnología UT se utilizan grandes conjuntos de transductores
12
ultrasónicos que reciben y envían ondas de sonido. Estas últimas viajan a través del grosor
de la pared, lo que permite un mapeo detallado de la tubería [2].
Como ventajas se puede destacar que ILI tiene la capacidad de detectar y cuantificar una
gran cantidad de fallas además de las de corrosión y adicionalmente, ofrece una cobertura
total de tubería [19]. En comparación con las pruebas hidrostáticas, ILI puede reportar
pequeñas fallas inclusive aquellas que hasta ahora están iniciando [19]. Este tipo de
detecciones, por ejemplo, extiende el intervalo de tiempo entre inspecciones y permite
mejorar la estimación de las tasas de crecimiento de corrosión [19]. Sin embargo, el
mantenimiento del equipo es fundamental para no perder efectividad de la lectura y su
implementación requiere de un alto conocimiento, experticia y habilidad por parte de los
operarios [19]. A pesar de esto, la técnica de inspección en línea es la de mayor preferencia
en la industria petrolera [19] y por tal motivo, en el presente proyecto se utilizarán datos
obtenidos mediante esta técnica para realizar el respectivo análisis.
Una vez detectados los defectos de corrosión se vuelve indispensable tener métodos que
permitan cuantificar el nivel y/o magnitud de la corrosión presentada. En los procesos de
inspección en línea cuando se detecta el defecto de corrosión, se reportan las dimensiones
del mismo (longitud, ancho, profundidad) [2]. Con estas medidas, se establece una relación
con alguna de las variables de operación de la tubería (presión, flujo, etc.) y de esta manera,
se determina la magnitud de la anomalía [2]. Específicamente, las dimensiones de los
defectos de corrosión se asocian con la presión segura que previene un estallido o también
denominada como presión de estallido [20]. Para esto, existen diferentes estándares,
siendo los más utilizados ASME B31G y DNV-RP-F101 [20]. Estos son métodos aprobados
por la industria y diseñados para calcular las presiones seguras de operación de tuberías
corroídas [9]. Además, estos estándares contienen modelos calibrados mediante pruebas
13
en las que se llevan, a diferentes tipos de tuberías corroídas, hasta una presión en la que
se presenta una falla (rotura o estallido) del material [21]. A continuación, se presenta la
forma con la que se calcula la presión de estallido en cada uno de los métodos:
4.3.1. Nomenclatura
2 𝑑
1 − (3) ( 𝑡 )
𝑃𝑠𝐵31𝐺 = 𝑃𝑠𝑖 ∗ [ ] (1)
2 𝑑
1 − (3) ( 𝑡 ) 𝑀−1
Donde,
𝑙 2 𝐷 (2)
𝑀 = √1 + 0.81 ( ) ( )
𝐷 𝑡
1.1𝜎𝑦 2𝑡
𝑃𝑠𝑖 = (3)
𝐷
4.3.3. DNV-RP-F101
Este método fue publicado por la organización noruega DNV en una guía para evaluar la
corrosión en tuberías [9]. Específicamente, se realizó con pruebas a gran escala y análisis
numéricos de los defectos de corrosión [9]. De acuerdo al método, la presión de estallido
(𝑃𝑠𝐷𝑁𝑉 ) se calcula mediante las siguientes ecuaciones [20]:
𝑑
2𝑡𝑓𝑢 (1 − 𝑡 )
𝑃𝑠𝐷𝑁𝑉 = 1.05 ∗ [ ] (4)
𝑑
(𝐷 − 𝑡) (1 − 𝑡𝑄 )
14
Donde,
2
𝑙
𝑄 = √1 + 0.31 ( ) (5)
√𝐷𝑡
Una vez realizada la estimación de la presión de estallido, que determina la magnitud del
estado del defecto de corrosión, es posible calcular el factor estimado de reparación, ERF
por sus siglas en inglés. Este factor permite jerarquizar las anomalías reportadas en una
misma tubería al tomarse como un criterio del tiempo de vida restante [12]. Entre mayor sea
este factor, la integridad de la tubería es más crítica. Además, si el ERF toma valores
mayores a 0.95 o 1, indica que la tubería requiere de una reparación inmediata en la zona
afectada por el defecto [12]. Este factor se estima de la siguiente manera:
𝑀𝐴𝑂𝑃
𝐸𝑅𝐹 = (6)
𝐷𝐹 ∗ 𝑃𝑠
Donde,
𝑆𝑀𝑂𝑃 = 𝐷𝐹 ∗ 𝑃𝑠 (7)
15
Como primera fuente de incertidumbre se encuentran los errores asociados a la
herramienta de medición. Específicamente, existen errores debidos a umbrales de
detección, medición y reporte, a errores de detección, a errores por falsas alarmas y a
errores de localización [24]. En segundo lugar, el deterioro o degradación de las paredes
de la tubería debido a la corrosión también es incierto. Esto se debe principalmente a que
el crecimiento del defecto de corrosión tanto individual como en agrupaciones varía con el
tiempo [23]. En otras palabras, se tiene una incertidumbre asociada a la tasa de crecimiento
del defecto de corrosión. En tercer lugar, la geometría de la tubería, las propiedades del
material, y la presión interna son valores inciertos en la realidad [23]. Finalmente, los
modelos de capacidad para tuberías corroídas también tienen asociados un nivel de
variabilidad [23]. Todas estas incertidumbres mencionadas deberían tenerse en cuenta al
momento en el que se determine el intervalo de inspección óptimo.
16
Adicionalmente, utilizó un proceso de Poisson para modelar la generación de nuevos
defectos. En otro trabajo de Hong [29], el crecimiento del tamaño del defecto de corrosión
se modela como una cantidad aleatoria, independiente del tiempo. Finalmente, Morrison y
Worthingham [30], usaron el mismo modelo de crecimiento de los defectos de corrosión.
Sin embargo, no tuvieron en cuenta la incertidumbre de detección ni la incertidumbre de
medición de las herramientas de inspección.
De acuerdo con Amaya et al. [33] y su revisión bibliográfica existen diferentes enfoques
para modelar el crecimiento de los defectos de corrosión: (i) descripciones fenomenológicas
[34] [35]; (ii) ajustes de variables aleatorias [36] [37]; (iii) procesos estocásticos [38]; (iv)
procesos de simulación [39] [40]; (v) enfoques empíricos [41] [42] y (vi) enfoques
determinísticos [43]. Sin embargo, estos enfoques tienden a ser evaluaciones muy
detalladas o muy simplificadas que conllevan a restricciones para su uso.
17
Por un lado, los enfoques empíricos y determinísticos no tienen en cuenta el proceso de
degradación y sus incertidumbres asociadas [33]. Por otro lado, las descripciones
fenomenológicas y los enfoques de simulación requieren de recursos computacionales
significativos al intentar describir en detalle cada uno de los mecanismos [33]. Como punto
intermedio están los procesos estocásticos que, aunque permiten tener en cuenta el
mecanismo de degradación y las incertidumbres asociadas, modelar todo en conjunto
puede llegar a ser algo complejo. A pesar de esto, describir adecuadamente el crecimiento
de la corrosión es una parte esencial en los programas de gestión de la integridad de la
tubería. Dependiendo que tan bien se haga, se pueden obtener mejores predicciones del
estado de la integridad de la tubería entre inspecciones programadas y de esta manera, se
puede evitar cualquier posible falla [33].
En la actualidad, los modelos de Machine Learning han demostrado tener la capacidad para
adaptar y extraer conocimiento en una variedad de problemas y contextos complejos [45].
Específicamente, estos modelos tienen la capacidad de encontrar patrones confusos en los
datos y aprender de ellos sin la necesidad de depender de un modelo predeterminado.
Además, son capaces de realizar predicciones sobre nuevos datos a partir de lo aprendido
[45]. Por ejemplo, Campos et al [45] presentan un estudio exploratorio de técnicas de
Machine Learning como soporte de predicción de fallas de software. En este estudio,
demuestran que los modelos de Machine Learning tienen el potencial de crear modelos de
18
predicción precisos en el contexto propuesto. Inspirado en este estudio, el presente
proyecto busca aplicar técnicas de Machine Learning como soporte de predicción de fallas
en tuberías de transporte de la industria petrolera. Específicamente, se aplican a la
predicción del estado de un defecto de corrosión.
Respecto a los ejemplos de modelos que evalúan el estado de los defectos, se encuentra
el presentado por Gentile et al. [25]. En este se propone un modelo de regresión
multivariable para establecer que factores tienen una mayor influencia en la determinación
de la tasa de crecimiento de corrosión. Además, se propone un modelo de una red neuronal
artificial para poder determinar un valor adecuado de la tasa de corrosión. Sin embargo,
como se mencionó anteriormente, estas aplicaciones están orientadas hacia la evaluación
actual de la integridad de la tubería. Es decir, se analiza la tubería en el mismo instante de
tiempo. En el presente proyecto, el valor agregado está en el hecho de que se busca aplicar
los modelos de tal forma que se pueda evaluar los defectos de corrosión en la tubería en
instantes de tiempo diferentes, de tal manera, que se pueda predecir su crecimiento.
19
datos se pre-procesarán de tal forma que describan el estado actual de la integridad de los
defectos de corrosión en las zonas críticas (dimensiones, ERF, entre otras). A partir del
entrenamiento realizado, se buscará encontrar patrones complejos en los datos de tal
forma, que se pueda realizar predicciones sobre el ERF que permitan identificar cuales
defectos serán críticos en una próxima inspección. De esta manera, este trabajo busca
soportar la toma de decisiones en pro de prevenir pérdidas de contención al identificar
secciones críticas que luego deben ser evaluadas para su mantenimiento.
20
5. METODOLOGÍA
21
Específicamente, la metodología se divide en cuatro grandes secciones. En la primera
sección, se realiza una exploración de la base de datos. En la segunda sección, se realiza
una segmentación de la tubería para identificar zonas vulnerables a la corrosión y para
poder analizarla en periodos de tiempo diferentes. En la tercera sección, se realiza un pre-
procesamiento de la base de datos y se divide en dos partes, una para realizar el
entrenamiento y otra para realizar la prueba del modelo. En general, en esta tercera sección
se entrena cada uno de los modelos propuestos (con los datos de entrenamiento), se
calibran los parámetros específicos, se validan los modelos obtenidos y finalmente, se
prueba cada uno de ellos (con los datos destinados para prueba). En la última sección, se
evalúa los modelos como parte del proceso de toma de decisiones para la asignación de
tareas de reparación a lo largo de la tubería. Esta metodología se describirá con más detalle
a continuación:
En el primer reporte, se especifica cada uno de los componentes (como válvulas, puntos
de soldaduras, accesorios tipo te, entre otros) y cada una de las anomalías identificadas
(como corrosión, grietas, abolladuras, desprendimientos, ovalidad, entre otras). Cada uno
de estos se caracterizan mediante: parámetros de ubicación como la distancia longitudinal
y la orientación usando la analogía de la posición horaria (ver Figura 4); parámetros
estructurales como diámetro externo, espesor de la pared, presión de diseño, la máxima
presión de operación admisible (MAOP), entre otros; y por último, la información respecto
a las anomalías o irregularidades encontradas [49].
Figura 4. Localización y orientación de los componentes y anomalías encontradas en ILI. (a) Vista
Longitudinal. (b) Vista transversal. [50]
22
En el segundo reporte, se especifica mucho más la información respecto a las anomalías
encontradas. También se detallan todos los defectos con sus parámetros de ubicación y
orientación como se observa en la Figura 4 [49]. Además, se especifican las dimensiones
ancho, largo y profundidad de cada uno de los defectos mediante una aproximación
conservadora a un rectángulo, como se observa en la Figura 5 [49]. Finalmente, se reporta
el tipo de defecto y una clasificación del mismo [49]. Para este proyecto es de interés este
reporte dado que caracteriza las anomalías o defectos presentes en la tubería.
Específicamente, es de interés aquellos registros referentes al tipo de anomalía de
corrosión.
El tercer reporte indica aquellos defectos de corrosión que fueron agrupados. Para esto, se
tienen dos reglas de interacción: la primera es que se agrupan dos defectos de corrosión si
la distancia entre ellos (longitudinal o circunferencialmente) es menor a seis veces el
espesor de la pared y la segunda, es que se agrupan si la distancia entre ellos es menor
que la mínima extensión de los dos defectos (es decir, longitud o ancho, respectivamente)
[49]. En la Figura 6 se puede observar cómo funcionan las reglas de agrupación.
23
Figura 6. Ilustración de agrupación de defectos mediante las reglas de interacción. [36]
24
Figura 7. Ilustración del efecto de los errores de medición y el umbral de reporte de ILI. [51]
25
5.2. Exploración de la base de datos
Como se había mencionado anteriormente, la base de datos está compuesta de tres tipos
de reportes, de los cuales el segundo tipo es el de interés para el presente proyecto. Este
tipo de reporte caracteriza cada una de las anomalías encontradas. Para cada uno de estos
reportes, la herramienta ILI caracteriza los defectos de corrosión mediante 13 variables que
se muestran en la Tabla 1 [49].
Tabla 1. Descripción de las variables reportadas por la herramienta de inspección en línea para los defectos
de corrosión.
26
Figura 8. Diagrama de clasificación de los defectos. Si el espesor de la tubería es menor a 10 mm, entonces
A = 10 mm, de lo contrario, A = Espesor de la pared. [49]
A partir de estas variables, es conveniente realizar una exploración y limpieza de los datos
de tal forma que se identifiquen errores o valores ausentes en los datos. Por ejemplo, en la
base de datos se encuentran tanto los reportes de las agrupaciones como los reportes
individuales de los defectos agrupados. Dado esto, es necesario eliminar aquellos reportes
de los defectos que fueron agrupados con el motivo, de considerar la agrupación como un
único defecto. También, existe el caso de las observaciones que no se les reporta el ERF.
Como se cuenta con la información de las dimensiones de los defectos, es posible calcular
el ERF para cada uno utilizando, por ejemplo, la ecuación (1) o (4). Esta ecuación debe
hacer referencia al estándar con el que la herramienta reporta los ERF de tal forma, que se
es congruente con los demás datos que sí están reportados.
27
Finalmente, es útil observar la correlación entre las variables reportadas por la herramienta
de inspección en línea. Esto para conocer qué tipo de relación existe entre las variables
predictoras y la variable respuesta. Asimismo, para conocer la relación entre las variables
predictoras dado que si un par de variables están muy correlacionadas pueden conllevar a
problema de multicolinealidad en modelos como por ejemplo la regresión lineal. Para esto
se puede determinar la matriz de correlaciones la cual permite conocer la relación entre
cada par de variables.
Una vez realizada la exploración de los datos se propone establecer una segmentación de
la tubería de tal forma, que se establezcan zonas críticas afectadas por la corrosión y con
el objetivo de poder evaluar y analizar la tubería en dos instantes de tiempo diferentes.
Específicamente, la segmentación es el proceso de dividir las tuberías en sectores que
puedan usarse como una unidad para la evaluación de la integridad [6]. Dado esto, se
crearán segmentos de diferente longitud que agruparán un número de defectos de corrosión
reportados como se puede observar en la Figura 9. Esto se realiza con tres motivos
principales. El primer motivo es que se busca controlar la variabilidad e incertidumbre
generada tanto por los errores de medición como los errores de detección de la herramienta
de inspección [53]. La segunda justificación consiste en considerar el comportamiento de
las posibles interacciones que se pueden generar entre defectos de corrosión, problema
que ya se había mencionado anteriormente en la sección 4.1 como colonias de corrosión.
28
diferentes [48]. Principalmente, se debe a cambios de los reportes tanto en la ubicación
como en el dimensionamiento de cada uno. Por consiguiente, al intentar hacer la
correspondencia para analizar el crecimiento del defecto, entre los reportes de las dos
inspecciones realizadas, puede llegar a ser un trabajo dispendioso y de gran tiempo de
dedicación [48]. Especialmente, si se realiza manualmente que es como es como
comúnmente se suele hacer en los modelos que intentan describir el crecimiento y el tiempo
de falla de un defecto [48]. Frente a esto, al considerar la tubería como un sistema de
segmentos es posible analizar los defectos de corrosión en dos instantes de tiempo
diferentes al tomarse cada segmento como una unidad que contiene dichos defectos.
Según Amaya et al. [6] , el tamaño de los segmentos generados puede ser un valor estático
o dinámico. Si es estático quiere decir que cada segmento tiene un tamaño fijo, inicialmente
predefinido. Este valor puede ser arbitrario, por ejemplo, 1 kilómetro, o puede asociarse al
tamaño de las juntas de la tubería o inclusive, puede ser definido a partir de componentes
de particular interés como las válvulas [6]. Sin embargo, según Amaya et al. [6] “la
segmentación estática conlleva a una variabilidad significativa en los resultados de la
evaluación de riesgos, generando inclusive, aumentos en los costos de intervención debido
29
a evaluaciones innecesarias”. Además, “zonas críticas pueden ocultarse si los riesgos se
ponderan a lo largo de segmentos de gran tamaño” [6].
Para establecer la distancia entre los defectos, se utilizan los parámetros de localización y
orientación, es decir, la distancia longitudinal y la posición horaria de cada uno de los
reportes. A partir de estas dos variables, se calcula la distancia entre los defectos y aquellos
que estén más cercanos entre sí, se agrupan. Sin embargo, al observar las variables de la
Tabla 1, se puede identificar que la variable de la posición horaria se reporta mediante la
analogía de un reloj (ver Figura 5). Es decir, este valor se reporta en horas y minutos. Dado
esto, es necesario transformar esta variable para poder calcular adecuadamente las
distancias entre los defectos. Para esto, se determina la distancia de arco desde un punto
de referencia (0:00 horas) de tal manera, que se ubica cada uno de los defectos en el
perímetro de la tubería. Con esta ubicación (𝑦) y la localización mediante la distancia
longitudinal (𝑥), es posible calcular la distancia entre defectos.
30
Existen diferentes formas de estimar la distancia entre los defectos: distancia Euclidiana,
Manhattan, máxima, Canberra, binaria, Minkowski, entre otras. En este documento, se
proponen dos formas en específico al ser las más utilizadas. La primera es la distancia
Euclidiana cuya fórmula se presenta en la ecuación (8) y el segundo criterio es la distancia
Manhattan la cual se presenta en la ecuación (9).
En las anteriores ecuaciones, 𝑑1,2 hace referencia a la distancia entre los puntos centrales
del defecto 1 y del defecto 2. Además, 𝑥i hace referencia a la distancia longitudinal y 𝑦i a la
posición horaria del defecto i. Con estos criterios, se realiza la segmentación mediante el
modelo de Clustering jerárquico dado que es uno de los más conocidos y porque la
metodología de construcción de los Clusters va acorde con el contexto propuesto [52]. A
continuación, se da una breve explicación de la metodología del modelo propuesto.
31
Figura 11. Ejemplo de un dendograma para una base de datos de 45 observaciones. [52]
Para construir el dendograma, se realiza un proceso iterativo que comienza desde la parte
inferior del árbol tomando cada observación como un grupo [52]. Es decir, se inicializa con
𝑛 grupos. En la siguiente iteración, los dos grupos que son más similares se fusionan
formando 𝑛 − 1 grupos. A continuación, los dos grupos actuales que son más similares
nuevamente se fusionan, resultando en 𝑛 − 2 grupos [52]. De esta manera, se continúa con
el proceso iterativo hasta que solamente quede un grupo.
Para saber si dos grupos son similares entre sí, se utiliza el concepto de enlace o
vinculación. Este puede ser de cuatro tipos: completo, promedio, simple o centroide [52]. El
enlace completo toma como referencia a la máxima disparidad entre grupos. Para esto, se
calculan todas las diferencias entre cada una de las observaciones de un grupo 1 y las
observaciones del grupo 2, y se toma como similitud entre los dos grupos, la mayor de estas
diferencias [52]. Para este proyecto, las diferencias se interpretan como la distancias entre
un par de defectos. El enlace tipo simple es el opuesto al completo. Es decir, no se toma la
máxima diferencia sino por el contrario, se toma la mínima diferencia como similitud entre
grupos. Esto puede conllevar a que resulte una gran cantidad de grupos en las que se fue
fusionando cada observación una a la vez y no por grupos [52]. Respecto al enlace tipo
promedio, no se toma ni la mínima ni la máxima diferencia sino más bien se toma el
promedio de todas las diferencias. Finalmente, el enlace tipo centroide consiste en calcular
el centroide (vector medio de longitud 𝑝 variables) para los defectos del grupo 1 y los
defectos del grupo 2 y la similitud va a depender de la diferencia entre los dos centroides.
32
Figura 12. Ejemplo del uso de los diferentes tipos de enlace para un mismo caso de estudio. [52]
De todos estos tipos de enlace, el completo y el promedio son los más utilizados porque
los enlaces simples tienden a generar dendogramas desequilibrados y los enlaces tipo
centroide tienden a generar dificultades de interpretación [52]. Dado esto, el dendograma
va a depender significativamente del tipo de enlace a utilizar (ver Figura 12). En el presente
proyecto se propone evaluar el método de Clustering jerárquico mediante los enlaces tipo
completo, promedio y simple.
33
la incertidumbre de los parámetros de localización y, además, tener en cuenta parte del
posible crecimiento del defecto. A continuación, se presenta el procedimiento mediante la
ecuación (10) y (11) para determinar el límite inferior y el límite superior del segmento 𝑖,
respectivamente:
𝑙𝑎𝑟𝑔𝑜𝑘
𝑙𝑖𝑚𝐼𝑛𝑓𝑒𝑟𝑖𝑜𝑟𝑖 = 𝑑𝑖𝑠𝑡𝐿𝑜𝑛𝑔𝑘 − − 𝑝𝑎𝑟á𝑚. 𝑝𝑟𝑒𝑐𝑖𝑠𝑖ó𝑛 (10)
2
𝑙𝑎𝑟𝑔𝑜𝑘
𝑙𝑖𝑚𝑆𝑢𝑝𝑒𝑟𝑖𝑜𝑟𝑖 = 𝑑𝑖𝑠𝑡𝐿𝑜𝑛𝑔𝑘 + + 𝑝𝑎𝑟á𝑚. 𝑝𝑟𝑒𝑐𝑖𝑠𝑖ó𝑛 (11)
2
En las anteriores ecuaciones, 𝑘 hace referencia al defecto con menor y mayor distancia
longitudinal del segmento 𝑖 para el límite inferior y superior, respectivamente.
Por otro lado, dado que el objetivo es describir el estado de corrosión actual de la tubería
mediante los segmentos es necesario buscar variables que caractericen adecuadamente
cada uno de los segmentos. Puesto que solo se cuenta con la caracterización de cada uno
de los defectos de forma individual, se extrapola el concepto de que un defecto se
caracteriza por un perfil crítico definido por las dimensiones más grandes del defecto
(profundidad, ancho y longitud) [26]. De esta manera, un segmento se caracteriza a partir
del defecto más crítico, de tal forma, que se realicen predicciones, a partir de este, que
permitan identificar ubicaciones de la tubería donde la corrosión conllevaría potencialmente
a fallas en una próxima inspección.
El defecto más crítico se considera como aquel que tiene un mayor factor estimado de
reparación (ERF). Dado esto, después de realizar el proceso de segmentación de la tubería,
se debe buscar, para cada uno de los Clusters generados, el reporte del defecto que tenga
un mayor ERF entre los agrupados. De este defecto crítico, se toman el ERF y las
34
dimensiones (largo, ancho y profundidad) para caracterizar el Cluster o segmento al que
pertenece.
En resumen, las variables que se usan para describir cada uno de los segmentos
determinados son las siguientes:
- 𝐸𝑅𝐹𝑚𝑎𝑥1𝑖 : Factor estimado de reparación del defecto más crítico del segmento 𝑖
en la primera inspección.
- 𝑙𝑎𝑟𝑔𝑜𝑖 : Longitud del defecto más crítico del segmento 𝑖 en la primera inspección.
- 𝑎𝑛𝑐ℎ𝑜𝑖 : Ancho del defecto más crítico del segmento 𝑖 en la primera inspección.
- 𝑝𝑟𝑜𝑓𝑢𝑛𝑑𝑖𝑑𝑎𝑑𝑖 : Profundidad del defecto más crítico del segmento 𝑖 en la primera
inspección.
- 𝑑𝑖𝑠𝑡𝑆𝑜𝑙𝑑𝐶𝑒𝑟𝑐𝑎𝑛𝑎𝑖 : Distancia a la soldadura más cercana del defecto más crítico del
segmento 𝑖 en la primera inspección.
- 𝑑𝑖𝑠𝑡𝐶𝑒𝑟𝑐𝑎𝑛𝑎𝑖 : Distancia mínima que tiene el defecto más crítico con los defectos a
su alrededor y que pertenecen al segmento 𝑖.
- %𝑎𝑓𝑒𝑐𝑡𝑎𝑐𝑖𝑜𝑛𝑖 : Porcentaje del área afectada del segmento 𝑖 por los defectos de
corrosión.
- 𝐸𝑅𝐹𝑚𝑎𝑥2𝑖 : Factor estimado de reparación del defecto más crítico del segmento 𝑖
en la segunda inspección.
35
De esta manera, cada segmento se convierte en una observación que conforma una nueva
base de datos con la que se entrenan los modelos de predicción. Cada observación es un
segmento que está caracterizado por las variables establecidas para la primera inspección
y tiene asociado un ERF de la segunda inspección.
Una vez descrita la forma como se caracterizan cada uno de los Clusters o segmentos, es
necesario determinar qué modelo de Clustering es el más adecuado. Principalmente, es
importante seleccionar el tipo de enlace (completo, promedio o simple) y el número de
Clusters o segmentos (𝑛) con los que se realiza el proceso de Clustering. Realizar esto a
través del dendograma no es procedimiento claro [52]. Por este motivo, en la presente
metodología se escoge aquel modelo con su respectiva configuración de parámetros que
minimice la variabilidad de los máximos ERF en la primera y la segunda corrida de
inspección. Para esto, se utiliza como indicador el error cuadrático medio (MSE) para
determinar la diferencia del ERF entre las dos inspecciones para cada uno de los 𝑛
segmentos generados. La ecuación para calcular este indicador se presenta a continuación:
∑𝑛𝑖=1(𝐸𝑅𝐹𝑚𝑎𝑥1𝑖 − 𝐸𝑅𝐹𝑚𝑎𝑥2𝑖 )2
𝑀𝑆𝐸 = (12)
𝑛
Como primer paso se deben eliminar de la base aquellas observaciones que corresponden
a falsas alarmas y a reparaciones. Las falsas alarmas se identifican por aquellos segmentos
que no tienen defectos de corrosión en la segunda inspección. Es decir, aquellas
observaciones que no tienen asociado ningún ERF en la segunda inspección. Respecto a
las reparaciones, se identifican al observar que el ERF disminuye en la segunda corrida de
inspección en comparación con el ERF determinado para la primera inspección. Estas
deben eliminarse para eliminar el ruido que genera la incertidumbre asociada a las
reparaciones realizadas.
36
Finalmente, después de haber realizado el pre-procesamiento, se divide la base de datos
en dos partes. Una parte es destinada para el entrenamiento de los modelos en el cual se
busca que el modelo aprenda, a partir de las observaciones, como estimar la variable
respuesta (𝐸𝑅𝐹𝑚𝑎𝑥2) [52]. Con la segunda parte, se busca evaluar la precisión del modelo
al probarlo con datos con los que no ha sido entrenado, es decir, con datos que el modelo
no ha “visto” [52]. Sin embargo, antes de realizar esto es necesario comprobar que la base
de datos esté correctamente balanceada respecto a la variable respuesta. Esto porque se
quiere que los modelos aprendan correctamente a predecir tanto segmentos que serán
críticos como los que no en una próxima inspección. Un segmento será crítico cuando en
una próxima inspección se caracterizará por tener un ERF mayor a 0.90. Es muy posible
que la base de datos esté no balanceada respecto a los segmentos que no serán críticos
porque los conjuntos de datos del mundo real se componen predominantemente de
ejemplos “normales” con solo un pequeño porcentaje de observaciones “anormales” [55].
Frente a esta situación, si se entrena los modelos con la base de datos desbalanceada, es
muy probable que los modelos tiendan a subestimar la criticidad de los segmentos en una
próxima inspección. Por tal motivo, es fundamental balancear la base de datos.
5.4.1. SMOTE
37
Antes de realizar el SMOTE se toma aleatoriamente el 70% del número de observaciones
clasificadas como críticas para incluirlas dentro de la base destinada para prueba. Esto con
el objetivo de probar los modelos con datos que si son reales. Con el 30% de observaciones
restantes y las observaciones clasificadas como no críticas se realiza el SMOTE obteniendo
nuevas observaciones sintéticas clasificadas como críticas y eliminando observaciones
clasificadas como no críticas. Esto con el objetivo de balancear los datos. La totalidad de
estas observaciones generadas con el método SMOTE se destinan para la base de
entrenamiento. Para complementar la base de prueba con observaciones no críticas se
seleccionan aleatoriamente, de las observaciones originales, una cantidad suficiente para
que la base de prueba quede igual de balanceada, entre críticos y no críticos, a la base de
entrenamiento.
Una vez pre-procesados los datos se realiza el entrenamiento de los modelos de Machine
Learning. Para realizar el ajuste de los modelos propuestos se utiliza la parte de la base de
datos destinada para el entrenamiento. Dado que se quiere desarrollar un modelo preciso
que pueda ser usado para predecir una variable respuesta con base en variables de
entrada, se deben considerar los modelos supervisados. Adicionalmente, dado que la
variable de respuesta es de tipo cuantitativa, es decir, de valores numéricos continuos, los
modelos más adecuados son los de regresión. En el presente proyecto se propondrán tres
algoritmos en específico del tipo mencionado: regresión lineal, regresión con componentes
principales y Random Forest. El primero, regresión lineal, se propone para tener como base
un modelo clásico de predicción. El segundo modelo, regresión con componentes
principales, se propone para tener un punto de comparación en caso de existan variables
correlacionadas. Por último, se propone el modelo de Random Forest para tener un punto
de comparación con un modelo mucho más moderno y cuyo principal objetivo es tener un
alto nivel de predicción. A continuación, se realiza una descripción de la metodología de
cada uno de los métodos propuestos:
El método de regresión lineal es un enfoque muy simple pero muy útil y ampliamente
utilizado dentro de las herramientas de aprendizaje estadístico [52]. Es un método que
permite predecir una respuesta cuantitativa y, además, sirve como un buen punto de partida
para comparar herramientas más modernas [52]. En general, este modelo busca predecir
una variable de respuesta 𝑌 a partir de múltiples variables (𝑝) predictoras 𝑋′𝑠. Para esto,
38
asume que existe una relación aproximadamente lineal entre las 𝑋′𝑠 y 𝑌 [52].
Matemáticamente, el modelo se puede escribir de la siguiente manera:
𝑌 = 𝛽𝑜 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + ⋯ + 𝛽𝑝 𝑋𝑝 (13)
En la ecuación (13), los 𝛽𝑗 son los coeficientes o parámetros del modelo de regresión lineal.
Sin embargo, son constantes no conocidas que pueden ser estimadas a partir de los datos
destinados para el entrenamiento [52]. Estas estimaciones son los 𝛽̂𝑗 con los cuales se
puede llegar a hacer una predicción 𝑦̂ de la variable respuesta. Matemáticamente, la
predicción se puede observar de la siguiente manera:
Para estimar los coeficientes de regresión 𝛽̂𝑗 , existen un gran número de formas que lo
hacen con gran precisión [52]. Sin embargo, la forma más utilizada es mediante el criterio
de mínimos cuadradados. En este, se selecciona los 𝛽̂𝑗 de tal manera que se minimice la
suma de los residuos al cuadrado:
𝑍𝑚 = ∑ 𝜙𝑗𝑚 𝑋𝑗 (16)
𝑗=1
39
primer principal componente captura la mayoría de la información contenida en los
predictores. Para el segundo componente principal, se determinan los pesos de tal manera,
que 𝑍2 sea una combinación lineal de las variables que son no correlacionadas con 𝑍1 y
tienen la mayor varianza sujeta a esta restricción [52]. En otras palabras, 𝑍2 termina siendo
perpendicular u ortogonal a 𝑍1 . De esta manera, se construyen los demás componentes
principales, buscando que el nuevo componente sea lo más no correlacionado al anterior
componente.
Después de transformar las variables, asignando cada constante 𝜙𝑗𝑚 , se ajusta el modelo
de regresión de la siguiente manera [52]:
𝑦 = 𝜃𝑜 + ∑ 𝜃𝑚 𝑧𝑖𝑚 (17)
𝑚=1
40
ver gráficamente (ver Figura 13a) mediante la analogía de un árbol que se dibuja al revés.
En este sentido, las hojas, también denominadas nodos terminales, se encuentran en la
parte inferior del árbol y representan cada una de las regiones en que se dividen los datos.
Los puntos a lo largo del árbol donde se realizan las reglas de división se denominan nodos
internos [52].
Figura 13. Representación gráfica de un árbol de decisión. (a) Árbol de decisión. (b) Regiones generadas [52]
𝐽
2
𝑅𝑆𝑆 = ∑ ∑ (𝑦𝑖 − 𝑦̂𝑅𝑗 ) (18)
𝑗=1 𝑖𝜖𝑅𝑗
41
El algoritmo de Random Forest consiste en construir un número determinado de árboles de
decisión sobre muestras de entrenamiento generadas por Bootstrap [52]. Se caracteriza
especialmente porque al realizar cada regla de división se tiene en cuenta una muestra
aleatoria de 𝑚 predictores de un total de 𝑝 predictores [52]. En otras palabras, el algoritmo
al momento de establecer la regla de división no considera la totalidad de los predictores
disponibles. De esta forma, se logra que los múltiples árboles que se generan no estén
correlacionados en dado caso que exista un predictor muy fuerte y además, que se
disminuya la alta varianza que se genera con un solo árbol [52]. Al final, la predicción del
modelo es resultado del promedio de las predicciones realizadas por cada uno de los
árboles construidos.
Como se puede observar en la anterior sección, cada uno de los modelos propuestos tiene
una metodología específica de ajuste. Dependiendo de la forma, la flexibilidad del modelo
puede cambiar y, se pueden obtener múltiples modelos. Dado esto, es necesario tener en
cuenta una metodología de selección del mejor modelo. A continuación, se presenta la
respectiva descripción de cómo hacer el proceso de selección para cada uno de los
algoritmos propuestos:
La precisión del modelo de regresión lineal al predecir una variable de respuesta depende
significativamente de los predictores usados [52]. Es importante tener en cuenta todas
aquellas variables predictoras que estén relacionadas con la variable respuesta. Sin
embargo, a medida que se incrementa el número de predictores se puede reducir la
capacidad predictiva del modelo cuando se evalúa este en nuevas observaciones
(Overfitting) y además, se hace la interpretación del modelo cada vez más compleja [52].
Es posible que todos los predictores disponibles estén asociados con la variable respuesta,
pero es más frecuente que la respuesta solo esté relacionada a un subconjunto de
predictores [52]. Con el fin de conocer aquellas variables predictoras que realmente están
asociadas a la variable respuesta, se debe realizar un proceso de selección de variables.
Este proceso se puede hacer de cuatro diferentes formas: Best Subset Selection, Forward
Selection, Backward Selection, o Mixed Selection.
El método de selección de Best Subset Selection consiste en ajustar cada uno de los
modelos que se pueden proponer a partir de la combinación de todas las 𝑝 variables
42
posibles [52]. De esta manera, se generarían 2𝑝 posibles modelos que se pueden evaluar,
lo que puede llegar a ser un problema respecto al tiempo computacional requerido [52]. Al
final, se escoge aquel modelo con menor suma de residuos al cuadrado y un mayor 𝑅 2.
Finalmente, el método de Mixed Selection consiste en una aproximación híbrida entre los
modelos Forward Selection y Backward Selection [52]. En esta se va agregando variables
al modelo de manera secuencial. Sin embargo, después de agregar cada nueva variable,
el método puede remover alguna otra variable que mejore el ajuste del modelo [52]. Este
método busca imitar el de Best Subset Selection manteniendo las ventajas de los métodos
de Forward Selection y Backward Selection [52].
En el presente proyecto se evalúan tres de los cuatro posibles métodos de selección: Best
Subset Selection, Forward Selection y Backward Selection. Al final se comparan los mejores
modelos obtenidos por cada método y se selecciona el más adecuado. Después de esto es
importante realizar un análisis sobre los supuestos de este modelo para identificar la
estabilidad de las predicciones. Primero, se debe evaluar que exista una relación lineal
entre los predictores y la variable respuesta [52]. También, se debe revisar que los residuos
cumplan con los supuestos de normalidad y homocedasticidad [52]. Finalmente, se debe
evaluar si el modelo propuesto tiene problemas de autocorrelación y multicolinealidad [52].
Al igual que el método de regresión lineal, el entrenamiento del algoritmo de regresión con
componentes principales consiste en determinar la cantidad de variables predictoras. Sin
embargo, para este algoritmo no se utiliza algún proceso de selección de variables. Por el
43
contrario, se busca establecer el mínimo número de componentes principales que expliquen
la mayor variabilidad de los datos y tengan la mayor relación con la variable respuesta [52].
Entre más componentes principales se usen en el modelo de regresión, el sesgo disminuye,
pero la varianza aumenta [52]. Además, el modelo de regresión con componentes
principales suele funcionar adecuadamente cuando con solo los primeros componentes
principales son suficientes para capturar la mayor parte de variación en los predictores [52].
También está el parámetro que determina el número mínimo de observaciones que deben
tener los nodos terminales [52]. Finalmente, existe un último parámetro que determina el
número de árboles que se construirán dentro del algoritmo de Random Forest [52]. En este
algoritmo, si se incrementa este parámetro no conlleva al Overfitting. Es decir, que entre
más árboles se generen no se conlleva al problema de Overfitting. Sin embargo, si afecta
la eficiencia computacional. Por este motivo, se busca que se construyan el número árboles
mínimos con el objetivo de ahorrar recursos computacionales.
Dado que son diversos parámetros a seleccionar, es necesario generar modelos a partir de
diferentes valores de estos de tal manera, que se seleccione aquellos parámetros que
permitan tener un modelo con mayor precisión.
Para evaluar el desempeño de la capacidad predictiva y/o la selección apropiada del nivel
de flexibilidad de cada uno de los modelos que se generan, se emplea el error de prueba
[52]. Este error de prueba es el promedio de los errores obtenidos de las predicciones
realizadas (𝑓̂(𝑥𝑖 )) con el modelo usado para nuevas observaciones (𝑥𝑖 ) que no han sido
tenidas en cuenta en el entrenamiento [52]. Para modelos de regresión, la medida del error
más usada es el error cuadrático medio (MSE) el cual, se determina de la siguiente manera
para 𝑛 observaciones de prueba [52]:
44
2
∑𝑛𝑖=1(𝑦𝑖 − 𝑓̂(𝑥𝑖 ))
𝑀𝑆𝐸 = (19)
𝑛
Específicamente, se busca un modelo que permita tener el menor error de prueba posible
[52]. Con este, es posible comparar los múltiples modelos que se proponen y seleccionar
el mejor. Sin embargo, en muchas ocasiones no se cuenta con una base de datos lo
suficientemente grande para poder destinar una parte para entrenamiento y otra para
prueba. Por tal motivo, existen diferentes técnicas que permiten estimar el error de prueba
utilizando únicamente la base de datos de entrenamiento [52]. A continuación, se presentan
los utilizados en la presente metodología:
2
∑𝑘𝑖=1(𝑀𝑆𝐸𝑖 )
𝐶𝑉(𝑘) = (19)
𝑘
El valor de 𝑘 típicamente se suele asignar como 5 o 10, siendo esta última la más utilizada
[52]. También, 𝑘 puede ser igual al número de observaciones (𝑛) lo que conllevaría a que
en cada iteración se seleccionara una observación como prueba. Sin embargo, esto
conlleva a un alto requerimiento computacional [52].
El Out of Bag Error es una forma de estimar el error de prueba en modelos basados en
Bagging [52]. Es decir, aquellos modelos que consisten en la construcción de árboles de
decisión ajustados repetidamente a muestras de observaciones obtenidas mediante
45
Boostrap [52]. Específicamente, se ha demostrado que cada árbol basado en Bagging usa
alrededor de dos tercios de las observaciones como entrenamiento. Las observaciones
restantes, un tercio, son denominadas Out of Bag [52]. Si se toma una de esas
observaciones y se realiza una predicción por cada uno de los árboles generados, es
posible obtener una estimación del error de prueba al promediar cada uno de los errores
obtenidos con cada árbol. De esta manera, se puede determinar un Out of Bag MSE para
estimar el error de prueba.
Una vez que se han entrenado los modelos y se ha hecho el respectivo proceso de
selección y evaluación de cada uno, se identifica cuál de ellos obtiene una mejor predicción
de la variable respuesta. Para realizar esto, en la sección 5.4 se realizó una separación de
las observaciones de tal forma, que algunas se destinaron para el entrenamiento y otras
para la prueba. Con estas últimas, se busca probar la capacidad de predicción de cada uno
de los modelos bajo las mismas nuevas observaciones. Esta base de prueba se mantiene
aislada de toda la metodología de generación de observaciones sintéticas, entrenamiento,
selección y evaluación de los modelos. De esta manera, se pueden probar cada uno de los
modelos con observaciones que nunca han visto y además se permite asegurar que durante
la optimización de los modelos no se haya generado Overfitting.
Específicamente, se propone utilizar el indicador de error MSE, ecuación (19), de tal forma,
que entre menor sea, la predicción va a ser mucho más precisa.
46
Finalmente, los modelos deben reentrenarse con los datos que se van adquiriendo con las
nuevas inspecciones en línea (ILI) que se realicen. Para esto, se debe seguir la misma
metodología propuesta en este proyecto teniendo principal cuidado en el balanceo de la
base de datos. Es muy probable que las nuevas observaciones que se tomen se encuentren
desbalanceados hacia los defectos no críticos. Por tal motivo, es fundamental realizar un
adecuado pre-procesamiento de los datos antes de reentrenar el modelo propuesto.
47
6. RESULTADOS
Para evaluar la metodología propuesta en este proyecto, se utiliza una base de datos
compuesta de los reportes generados por dos inspecciones en línea (ILI) realizadas a una
tubería de gasolina con una longitud de 44 kilómetros, un diámetro externo de 273.1
milímetros, un espesor de pared promedio de 6.35 milímetros y una máxima presión de
operación admisible (MAOP) de 1500 psig. Las dos ILI fueron realizadas con dos años de
diferencia sobre la misma tubería. Por motivos de confidencialidad, no es posible divulgar
públicamente en ningún medio escrito o virtual más información acerca de la tubería y de
la compañía de la cual procede esta base de datos.
Dentro de los 33,466 reportes de la primera inspección, se encuentran tanto los reportes de
las agrupaciones como los reportes individuales de los defectos agrupados. Dado esto, es
necesario eliminar aquellos reportes de los defectos que fueron agrupados con el motivo,
de considerar la agrupación como un único defecto. De este procedimiento, se encuentra
que 28,404 de los reportes se convierten realmente 1,796 reportes. Por lo cual, ahora la
base de datos cuenta con 6,858 reportes de corrosión de la primera inspección. Lo mismo
se realiza para los datos de la segunda inspección, resultando que de los 59,102 reportes
realmente son 15,013 reportes de corrosión.
Por otro lado, de los 6,858 reportes de corrosión de la primera inspección, el 13.14% se
encuentran en la pared externa de la tubería y el 86.86% se encuentran en la pared interna.
48
Respecto a la segunda inspección, el 8.11% de los reportes son externos mientras que el
91.89% son internos. Dado esto, se debe tener en cuenta que existen una mayor cantidad
de reportes internos en comparación con la cantidad de reportes externos y
específicamente, existe un desbalanceo respecto a esta variable.
Figura 14. Porcentaje de defectos pertenecientes cada clasificación. (a) Datos de la primera inspección. (b)
Datos de la segunda inspección.
Finalmente, se analiza la correlación de las variables observando que existen varias que
son altamente correlacionadas. Por ejemplo, las dimensiones (largo, ancho y profundidad)
presentan un alto coeficiente de correlación (aproximadamente de 0.7 para cada una) con
el ERF y de las dimensiones entre sí (aproximadamente 0.5).
49
6.3. Segmentación – Clustering
Figura 15. Evaluación del MSE vs el número de Clusters para los diferentes tipos de enlaces propuestos y
utilizando la distancia Euclidiana.
Figura 16. Evaluación del MSE vs el número de Clusters para los diferentes tipos de enlaces propuestos y
utilizando la distancia Manhattan.
50
Tanto en la Figura 15 como en la Figura 16, se observa que la menor variabilidad entre los
máximos ERF de la primera y la segunda corrida de inspección se obtiene utilizando el
Clustering jerárquico con el tipo de enlace simple. Específicamente, se logra el mínimo valor
posible utilizando aproximadamente 3,000 como el número de Clusters generados.
Concretamente, para este número de Clusters se obtiene un MSE de 0.006641 para la
configuración simple-Euclidiano y un MSE de 0.006652 para la configuración simple-
Manhattan. Consecuentemente, se escoge realizar la segmentación de la tubería mediante
el método de Clustering jerárquico utilizando el tipo de enlace simple y la distancia
Euclidiana. El dendograma obtenido mediante este método se observa a continuación:
Figura 17. Dendograma obtenido en el Clustering jerárquico utilizando el tipo de enlace simple y la distancia
Euclidiana.
6.4. Pre-procesamiento
51
0.9, el segmento (observación) se considera como crítico y, si es menor, como no crítico.
Al realizar esto, se observa la siguiente distribución:
Una vez pre-procesados los datos se realiza el entrenamiento de los modelos de Machine
Learning utilizando la base de datos de entrenamiento. A continuación, se presentan los
resultados del entrenamiento, selección y evaluación para cada uno de los algoritmos
propuestos:
52
6.5.1. Regresión lineal
Figura 18. Resultados de la selección de variables predictoras para el modelo de regresión lineal.
Al observar los resultados obtenidos, se identifica que el modelo que minimiza el MSE es
el que utiliza una sola variable predictora. Específicamente, esta variable es la de la
profundidad del defecto de corrosión más crítico. A partir de esto, el modelo para predecir
el ERF en una próxima inspección (𝐸𝑅𝐹𝑚𝑎𝑥2) del segmento 𝑖 se puede expresar mediante
la siguiente ecuación:
53
Con este modelo, se obtiene un R2 ajustado de 0.7283. Sin embargo, para los modelos de
regresión lineal es importante verificar los supuestos. Primero, se debe verificar la
suposición de una relación lineal entre los predictores y la variable respuesta. Para esto se
grafica los valores ajustados (predichos) en contra de los residuales del modelo. En la
Figura 19 se puede observar la gráfica resultante de la cual se puede identificar que existe
un patrón no lineal que no puede ser modelado con precisión usando una regresión lineal.
Especialmente, cuando se intenta realizar predicciones con valores de ERF mayores a 1.2.
Para solucionar esto, se puede utilizar transformaciones no lineales como log 𝑋, √𝑋 o 𝑋 2
sobre las variables predictoras.
Figura 19. Resultados de la selección de variables predictoras para el modelo de regresión lineal.
54
Figura 20. Q-Q plot para observar la normalidad de los residuos.
Figura 21. Gráfico de residuos estandarizados contra los valores ajustados para observar la
homocedasticidad de los residuos.
Prueba p-valor
Shapiro-Wilk (Normalidad) 5.72 ∗ 10−16
Breush-Pagan (Homocedasticidad) 1.43 ∗ 10−9
55
A partir de los resultados de la Tabla 4, se puede observar que los p-valores para ambas
pruebas son menores a 0.05. Por tal motivo, se puede concluir con un nivel de confianza
del 95% que los residuos no cumplen los supuestos de normalidad ni de homocedasticidad.
Otro supuesto importante de la regresión lineal es que los residuales del modelo no estén
correlacionados y sean independientes. Dado el contexto del problema donde se está
utilizando una base de datos compuesta por observaciones tomadas en inspecciones en
línea (ILI) realizadas en puntos de tiempos discretos puede llegar a suceder que las
observaciones estén autocorrelacionadas como una serie de tiempo. Para observar esto,
se utiliza la gráfica de residuos versus las observaciones ordenadas (Figura 22). En este
caso, no se observa ningún patrón que conlleve a concluir algún tipo de correlación de los
datos.
Figura 22. Gráfico de residuos versus las observaciones ordenadas para observar independencia.
56
6.5.2. Regresión con componentes principales
Dado que algunas variables predictoras presentan una alta correlación entre ellas, se
propone usar el algoritmo de regresión con componentes principales. Para determinar los
componentes principales y específicamente, establecer el mínimo número de componentes
a tener en cuenta en el modelo, se utiliza el algoritmo de k-Fold CrossValidation. De esta
forma se puede estimar el error de prueba MSE y se puede comparar cada uno de los
modelos obtenidos mediante este indicador. El algoritmo de k-Fold CrossValidation se
realiza con un valor 𝑘 = 10. A continuación, se muestran los pesos asignados a cada
variable para el cálculo de cada uno de los componentes (𝜙𝑗𝑚 ):
Tabla 5. Pesos asignados a cada variable en el cálculo de cada uno de los componentes.
57
Figura 23. Proporción acumulada de la varianza que es explicada por cada uno de los componentes
principales.
Figura 24. Comportamiento del MSE a partir del número de componentes principales incluidos en el modelo.
58
Figura 25. Comportamiento del R2 a partir del número de componentes principales incluidos en el modelo.
De estas gráficas se puede observar que se logra minimizar el MSE estimado y maximizar
R2 del modelo, cuando se incluyen 6 componentes principales. Sin embargo, a partir del
componente 5 la mejora es mínima. Dado que se busca asignar al modelo el menor número
de componentes, seleccionar el modelo que incluya 5 componentes es una buena decision.
Con este modelo se obtiene un valor de R2 ajustado de 0.7153. Finalmente, se comprueba
que existían variables predictoras que estaban correlacionadas y contenian en gran parte,
la misma información de la variable respuesta (𝐸𝑅𝐹𝑚𝑎𝑥2) como se habia mencionado en
la seccion 6.2 del presente documento.
59
pequeño. Dado que entre más pequeño sea la cantidad de variables a evaluar, menos
correlacionados van a estar los árboles que se construyen y además, favorece la predicción
cuando existen variables predictoras correlacionas, es conveniente usar 5 como el número
de variables predictoras a evaluar en cada división.
Figura 26. Evolución del Out of Bag Error en función del número de predictores empleados.
Figura 27. Evolución del Out of Bag Error en función del número mínimo de observaciones en nodos
terminales.
60
De la Figura 27 se puede determinar que el número óptimo de observaciones que deben
tener los nodos terminales, con el objetivo de minimizar el error de prueba estimado, es 1.
Adicionalmente, en la Figura 28 se puede observar que, a partir de la generación de 200
árboles, el cambio en el Out of Bag Error es mínimo. Por tal motivo, se selecciona este valor
como parámetro de construcción de los árboles.
Figura 28. Evolución del Out of Bag Error en función del número de árboles.
Al final, la selección del mejor modelo arroja como resultado utilizar el algoritmo de Random
Forest con 5 predictores evaluados en cada división, con 1 observación mínima que debe
tener los nodos terminales y ajustando 200 árboles. Con este modelo se obtiene un R2
ajustado de 0.8963. Adicionalmente, en la Figura 29 se encuentra la importancia de cada
una de las variables en el modelo propuesto. En esta figura, se reporta cuanto en promedio
disminuiría la precisión (MSE) en las predicciones de prueba cuando una variable se
excluye del modelo. De esta manera, se puede identificar que las variables más importantes
en el modelo son la profundidad del defecto más crítico (𝑝𝑟𝑜𝑓𝑢𝑛𝑑𝑖𝑑𝑎𝑑) y la distancia mínima
que tiene el defecto más crítico con los defectos a su alrededor (𝑑𝑖𝑠𝑡𝐶𝑒𝑟𝑐𝑎𝑛𝑎) para la
predicción del ERF en una próxima inspección.
61
Figura 29. Importancia de las variables en el mejor modelo de Random Forest construido.
Después de identificar el modelo más adecuado para cada uno de los algoritmos
propuestos, se valida cada uno de ellos con la base de datos de prueba. Los resultados
obtenidos se muestran en la siguiente tabla:
R2 MSE
Modelo
Ajustado Prueba
Regresión lineal
0.7283 0.008885
𝐸𝑅𝐹𝑚𝑎𝑥2𝑖 = 0.5174 + 0.0164 ∗ 𝑝𝑟𝑜𝑓𝑢𝑛𝑑𝑖𝑑𝑎𝑑𝑖
A partir de los anteriores resultados, se puede observar que el modelo de Random Forest
es el que mejor resultados obtiene tanto en el MSE de entrenamiento como en el MSE de
prueba. Además, es el que mejor R2 Ajustado tiene entre todos los modelos.
62
6.7. Análisis de costos
Para justificar el uso del modelo propuesto, se realiza un análisis de costos en dos
escenarios diferentes. El primero donde no se cuenta con el modelo de predicción y el
segundo escenario donde sí se cuenta con el modelo y se toman las acciones pertinentes.
Para realizar esta comparación, se utiliza la base de datos de prueba de tal forma que el
análisis se base en datos imparciales respecto al modelo.
Adicionalmente, se utilizan los costos estimados por Zhang y Zhou [23], quienes reportan
unas aproximaciones a los costos asociados a: realizar una inspección en línea; realizar
una excavación asociada a una reparación de un defecto de corrosión y el uso de
recubrimientos y chaquetas/fundas para la reparación de los defectos. Además, realizan
una estimación de los costos asociados cuando se produce una falla (por ejemplo, pérdidas
de contención de la tubería). Concretamente, estos costos asociados a fallas se estiman
mediante unos costos directos, por ejemplo, de excavación y reemplazo de la sección
tubería, y unos costos indirectos que son muy complicados de especificar. Sin embargo,
presentan un punto de quiebre a partir del cual estos costos indirectos empiezan a tomar
valor. Para el presente análisis, se utiliza este punto de quiebre para estimar el costo total
asociado a una falla. Es importante decir que todos estos costos se estiman por junta, por
lo cual para el presente análisis se asume que es el mismo costo estimado para un
segmento. A continuación, se presentan los valores de cada uno de los costos en dólares
estadounidenses (USD), convertidos a la tasa actual, teniendo en cuenta que Zhang y Zhou
[23] los reportan en dólares canadienses (CAD):
63
6.7.1. Primer escenario: sin modelo de predicción
Para evaluar el primer escenario, se realiza una revisión de la base de datos de prueba
para identificar aquellos segmentos que en la primera corrida de ILI no eran críticos, es
decir, tenían un ERF menor a 0.9, pero en la segunda corrida de ILI, se convirtieron en
críticos. Específicamente, se identifican 41 segmentos en la base de datos de prueba que
cumplen esos criterios. Sin embargo, para hacer un análisis adecuado se retiran aquellos
segmentos en los que el modelo no fue capaz de predecir que serían críticos, ERF mayor
a 0.9. Es decir, se dejan solo aquellos segmentos que realmente se les pudo evitar su falla
al utilizar el modelo de predicción. Al final, se encontraron 34 segmentos que cumplen con
todos los criterios mencionados. Estos segmentos se asumen que, dada su criticidad,
tuvieron una falla en la integridad. Por estas fallas, se generaron 29,199,200 USD en costos
(directos + indirectos) por fallas de la integridad de la tubería que se pudieron evitar.
64
Por un lado, el costo estimado en el que se incurre cuando el modelo predice un segmento
como no crítico en una próxima inspección y verdaderamente lo es, se toma como un valor
de 858,800 USD. Este se estima como la suma de costos directos e indirectos asociados a
la ocurrencia de una falla. Por otro lado, el costo estimado en el que se incurre cuando el
modelo predice un segmento como crítico en una próxima inspección y ciertamente no lo
es, se toma como un valor de 61,560 USD. Este se determina como el costo que requiere
la excavación y se le agrega el 20% de los costos de reparación con recubrimiento y con
chaquetas.
65
7. CONCLUSIONES
El propósito de este proyecto fue proponer una metodología que permita la aplicación de
algoritmos de Machine Learning para la evaluación de la integridad de tuberías corroídas,
en una próxima inspección, mediante la predicción del Factor Estimado de Reparación.
Para esto, se definió una metodología de segmentación de la tubería, mediante la técnica
de Clustering jerárquico, que permite analizar los defectos de corrosión en inspecciones
realizadas en instantes de tiempo diferentes y que permite crear zonas vulnerables a este
problema. Esta metodología de segmentación tiene la ventaja de que permite tener en
cuenta comportamientos como la interacción de los defectos de corrosión que se
encuentran cercanos entre sí y, además, permite controlar las diferentes incertidumbres
asociadas al análisis de los defectos. Sin embargo, conlleva a que la caracterización de
todo un segmento de tubería esté marcada por variables pertenecientes al defecto más
crítico. Adicionalmente, se propusieron diferentes modelos de aprendizaje supervisado que
permitieran realizar la predicción del Factor Estimado de Reparación entre inspecciones.
Específicamente, se propusieron los modelos de regresión lineal, regresión con
componentes principales y Random Forest. Para cada uno de estos modelos, se propuso
un procedimiento detallado para la aplicación y evaluación de tal manera, que puedan ser
usados a partir de cualquier base de datos generada por una herramienta de inspección en
línea (ILI). En general, se demostró que estos modelos de Machine Learning tienen el
potencial de crear modelos de predicción precisos. Teniendo en cuenta que la prioridad es
maximizar la capacidad predictiva más allá de la interpretabilidad de los modelos, se escoge
el modelo de Random Forest, entre los propuestos, como el mejor método de predicción
del Factor Estimado de Reparación en una próxima inspección de la tubería.
66
8. TRABAJO A FUTURO
Dado que el contexto de aplicación del presente proyecto es tan amplio y tan complejo se
pueden proponer una gran cantidad de mejoras y de nuevas exploraciones. Por ejemplo,
para la segmentación de la tubería se podría tener en cuenta variables externas como el
tipo de suelo, cruces de vías, instalaciones, poblaciones cercanas o el historial de
mantenimiento. Otro ejemplo, tener en cuenta las distancias reales entre los defectos
mediante un posicionamiento georeferenciado. También se podría explorar la opción de
realizar la segmentación de la tubería dividida en dos partes. Una que agrupe los defectos
que estén ubicados solamente en la pared externa de la tubería y otra que agrupe los
defectos que estén ubicados solamente en la pared interna. Asimismo, sería interesante
probar el hecho de cambiar la metodología de segmentación por una metodología como la
de los autores Liu et. al. [48], presentada en la sección 4.7 de este documento, que consiste
en realizar un análisis defecto a defecto entre inspecciones. De esta se podría evaluar si
mejora o no la capacidad de predicción de los modelos.
Respecto a los modelos de predicción se propone como trabajo a futuro evaluar la opción
de predecir otra variable diferente al Factor Estimado de Reparación como, por ejemplo, la
presión de estallido. También sería interesante lograr una comparación de lo propuesto en
el presente proyecto con aproximaciones determinísticas o estocásticas que intenten
modelar el crecimiento de los defectos de corrosión. Adicionalmente, se podría trabajar en
la interpretrabilidad del modelo de Random Forest o inclusive se podría evaluar más
técnicas o algoritmos de Machine Learning que permitan mejorar aún más la capacidad de
predicción como, por ejemplo, Gradient Boosting o Extremely Randomized Trees.
Asimismo, se pueden evaluar otras variables predictoras que no fueron tenidas en cuenta
en el presente proyecto pero que pueden llegar a ser significativas en la predicción de la
variable respuesta como, por ejemplo, la clasificación de forma realizada por la herramienta
ILI y el espesor de la tubería (Tabla 1).
67
9. REFERENCIAS
[4] A. F. Pérez Suárez, S. Cabrales, R. Amaya Gomez y F. Muñoz, «Model for optimal
sectioning of hydrocarbon transportation pipelines by minimization of the expected
economic losses,» Journal of Loss Prevention in the Process Industries, nº 62, 2019.
[5] M. Xie y Z. Tian, «A review on pipeline integrity management utilizing in-line inspection
data,» Engineering Failure Analysis, vol. 92, pp. 222-239, 2018.
[9] P. Hopkins, «Assessing the significance of corrosion in onshore oil and gas pipelines,»
de Underground Pipeline Corrosion, Woodhead Publishing, 2014, pp. 62-84.
[10] V. S. Sastri, «Corrosion processes and the use of corrosion inhibitors in managing
corrosion in underground pipelines,» de Underground Pipeline Corrosion, Woodhead
Publishing, 2014.
68
[13] A. C. Benjamin, J. L. F. Freire, R. D. Vieira y D. J. Cunha, «Interaction of corrosion
defects in pipelines e Part 1: Fundamentals,» International Journal of Pressure Vessels
and Piping, nº 144, pp. 56-62, 2016.
[18] C. S. Brossia, «The use of probes for detecting corrosion in underground pipelines,»
de Underground Pipeline Corrosion, Woodhead Publishing, 2014, pp. 286-303.
[21] American Society of Mechanical Engineers, Manual for Determining the Remaining
Strenght of Corroed Pipelines: ANSI-ASME B31G-1984: a Supplement to ANSI-ASME
B31 Code for Pressure Piping, ASME, 1985.
[23] S. Zhang y W. Zhou, «Cost-based optimal maintenance decisions for corroding natural
gas pipelines based on stochastic degradation models,» Engineering Structures, nº
74, pp. 74-85, 2014.
[24] M. R. Dann y C. Dann, «Automated matching of pipeline corrosion features from in-
line inspection data,» Reliability Engineering and System Safety, vol. 162, pp. 40-50,
2017.
[25] M. Gentile , R. Vichi, R. Bruschi y F. Marchesani, «The Role of Material and Corrosion
Engineering in Managing the Service-Life Integrity of Flow and Export Lines,» de
Integrity of Pipelines Transporting Hydrocarbons, Dordrecht, Springer
Science+Business Media, 2011, pp. 127-155.
69
[26] Y. Bai y Q. Bai, Subsea Pipeline Integrity and Risk Management, Waltham: Gulf
Professional Publishing , 2014.
[28] H. P. Hong, «Inspection and maintenance planning of pipeline under external corrosion
considering generation of new defects,» Structural Safety, nº 21, pp. 203-222, 1999.
[29] H. P. Hong, «Reliability based optimal inspection and maintenance for pipeline under
corrosion,» Civil Engineering Systems, vol. 14, pp. 313-334, 1997.
[34] P. Tang, J. Yang, J. Zheng, L. Wong, S. He, J. Ye y G. Ou, «Failure analysis and
prediction of pipes due to the interaction between multiphase flow and structure,»
Engineering Failure Analysis, vol. 16, nº 5, pp. 1749-1756, 2009.
[38] F. A. Vargas Bazán y A. T. Beck, «Stochastic process corrosion growth models for
pipeline reliability,» Corrosion Science, vol. 74, pp. 50-58, 2013.
70
[39] S. X. Li, S. R. Yu, H. L. Zeng, J. H. Li y R. Liang, «Predicting corrosion remaining life
of underground pipelines with a mechanically-based probabilistic model,» Journal of
Petroleum Science and Engineering, vol. 65, nº 3-4, pp. 162-166, 2009.
[48] H. Liu, Z. Liu, B. Taylor y H. Dong, «Matching pipeline In-line inspection data for
corrosion characterization,» NDT and E International, vol. 101, pp. 44-52, 2019.
[49] POF, Pipeline Operators Forum, Specifications and requirements for intelligent pig
inspection of pipelines, 2009.
[51] M. R. Dann y M. A. Maes, «Stochastic corrosion growth modeling for pipelines using
mass inspection data,» Reliability Engineering and System Safety, vol. 180, pp. 245-
254, 2018.
71
[53] Y. Sahraoui y A. Chateauneuf, «The effects of spatial variability of the aggressiveness
of soil on system reliability of corroding underground pipelines,» International Journal
of Pressure Vessels and Piping, vol. 146, pp. 188-197, 2016.
[57] J. L. Bogdanoff y F. Kozin, Probabilistic models of cumulative damage, New York: John
Wiley and Sons, 1985.
[58] S. Hasan, F. Khan y S. Kenny, «Probability assessment of burst limit state due to
internal corrosion,» International Journal of Pressure Vessels and Piping, vol. 89, pp.
48-58, 2012.
72