U 830339

METODOLOGÍA PARA LA EVALUACIÓN DE LA
INTEGRIDAD DE TUBERÍAS CORROÍDAS MEDIANTE LA

PREDICCIÓN DEL FACTOR ESTIMADO DE REPARACIÓN
A TRAVÉS DE LA APLICACIÓN DE ALGORITMOS DE
MACHINE LEARNING
BRANDON BARRERA MARTINEZ
Trabajo dirigido por:

CAMILO ANDRÉS FRANCO DE LOS RIOS, PhD
Co-asesor:
RAFAEL AMAYA, Estudiante Doctoral
Jurado Interno:
SERGIO CABRALES, PhD
Jurado Externo:
IVAN MURA, PhD
UNIVERSIDAD DE LOS ANDES

MAESTRÍA EN INGENIERÍA INDUSTRIAL
BOGOTÁ, 2019
TABLA DE CONTENIDO
1. RESUMEN .................................................................................................................. 4
2. INTRODUCCIÓN ........................................................................................................ 6
3. OBJETIVOS ............................................................................................................. 10
3.1. General ................................................................................................................. 10
3.2. Específicos ............................................................................................................ 10
4. MARCO TEÓRICO ................................................................................................... 11
4.1. Corrosión............................................................................................................... 11
4.2. Detección de los defectos de corrosión ................................................................. 11
4.2.1. Pruebas Hidrostáticas ..................................................................................... 12
4.2.2. Evaluación directa........................................................................................... 12
4.2.3. Inspección en línea (ILI) .................................................................................. 12
4.3. Evaluación de los defectos de corrosión................................................................ 13
4.3.1. Nomenclatura ................................................................................................. 14
4.3.2. ASME B31G ................................................................................................... 14
4.3.3. DNV-RP-F101 ................................................................................................. 14
4.4. Cálculo del ERF .................................................................................................... 15
4.5. Inspección periódica de los defectos de corrosión ................................................. 15
4.6. Modelos de crecimiento de defectos de corrosión ................................................. 17
4.7. Modelos de Machine Learning ............................................................................... 18
5. METODOLOGÍA ....................................................................................................... 21
5.1. Base de datos ILI .................................................................................................. 22
5.2. Exploración de la base de datos ............................................................................ 26
5.3. Segmentación – Clustering.................................................................................... 28
5.3.1. Tipos de segmentación ................................................................................... 29
5.3.2. Modelos de Clustering .................................................................................... 30
5.3.3. Clustering Jerárquico ...................................................................................... 31
5.3.4. Caracterización de los Clusters ....................................................................... 33
5.3.5. Selección del mejor modelo de Clustering ...................................................... 36
5.4. Pre-procesamiento de los datos ............................................................................ 36
5.4.1. SMOTE ........................................................................................................... 37
5.5. Entrenamiento de los modelos .............................................................................. 38
5.5.1. Regresión lineal .............................................................................................. 38
2
5.5.2. Regresión con componentes principales ......................................................... 39
5.5.3. Random Forest ............................................................................................... 40
5.6. Selección de los modelos ...................................................................................... 42
5.6.3. Random Forest ............................................................................................... 44
5.7. Evaluación de los modelos .................................................................................... 44
5.7.1. k-Fold Cross Validation ................................................................................... 45
5.7.2. Out of Bag Error .............................................................................................. 45
5.8. Prueba de los modelos .......................................................................................... 46
5.9. Evaluación de modelo para toma de decisiones y reentrenamiento ...................... 46
6. RESULTADOS ......................................................................................................... 48
6.1. Base de datos ILI .................................................................................................. 48
6.2. Exploración de la base de datos ............................................................................ 48
6.3. Segmentación – Clustering.................................................................................... 50
6.4. Pre-procesamiento ................................................................................................ 51
6.5. Entrenamiento de los modelos .............................................................................. 52
6.5.3. Random Forest ............................................................................................... 59
6.6. Prueba de los modelos .......................................................................................... 62
6.7. Análisis de costos.................................................................................................. 63
6.7.1. Primer escenario: sin modelo de predicción .................................................... 64
6.7.2. Segundo escenario: con modelo de predicción ............................................... 64
7. CONCLUSIONES ..................................................................................................... 66
8. TRABAJO A FUTURO .............................................................................................. 67
9. REFERENCIAS ........................................................................................................ 68
3
1. RESUMEN
Una de las opciones más usadas para el transporte en largas distancias de crudo, gas y
productos derivados en la industria petrolera son las tuberías onshore. Estas tuberías son
susceptibles a fallas causadas por corrosión, fallas operativas, errores humanos o
vandalismo lo que conlleva a pérdidas de metal, abolladuras o grietas. De esta manera, se
generan daños a la integridad mecánica de la tubería y como consecuencia, se pueden
provocar daños ambientales o afectaciones a la población, y se puede conllevar a pérdidas
económicas significativas por reparaciones, pérdida de productos, respuestas de
emergencia y daños a la propiedad.
La corrosión es una de las principales causas de fallas en tuberías de transporte de crudo

y de gas natural. Es por esto, que la corrosión es un fenómeno cuya investigación es de
gran importancia para planificar las actividades de mantenimiento en la industria petrolera.
Frente a este problema, es importante implementar prácticas y procedimientos que
permitan proteger, administrar y mantener la integridad de los sistemas de tubería. En este
sentido, el propósito de este proyecto es proponer una metodología que permita la
aplicación de algoritmos de Machine Learning para la evaluación de la integridad de
tuberías corroídas, en una próxima inspección, mediante la predicción del Factor Estimado
de Reparación. Este factor es una variable que permite jerarquizar los defectos de corrosión
reportados en una misma tubería al tomarse como un criterio del tiempo de vida restante.
Entre mayor sea este factor, la integridad de la tubería es más crítica.
Para cumplir con el objetivo propuesto, se implementa una metodología de segmentación

de la tubería, mediante la técnica de Clustering jerárquico, que se utiliza para analizar los
defectos de corrosión en inspecciones realizadas en instantes de tiempo diferentes y facilita
la identificación de zonas vulnerables a este problema. Además, esta metodología de
segmentación permite tener en cuenta comportamientos como la interacción de los defectos
de corrosión que se encuentran cercanos entre sí.
Adicionalmente, se proponen diferentes modelos de aprendizaje supervisado que permiten

realizar la predicción del Factor Estimado de Reparación entre inspecciones.
Específicamente, se proponen los modelos de regresión lineal, regresión con componentes
principales y ensamble de árboles o Random Forest. Para cada uno de estos modelos, se
plantea un procedimiento detallado para su aplicación y evaluación de tal manera que,
puedan ser usados a partir de cualquier base de datos generada por una herramienta de
4
inspección en línea (ILI). En general, se demostró que estos algoritmos de Machine
Learning tienen el potencial de crear modelos de predicción precisos. Teniendo en cuenta
que la prioridad es maximizar la capacidad predictiva más allá de la interpretabilidad de los
modelos, se escoge el modelo de Random Forest, como el mejor método de predicción.
Al final se justifica el uso de la metodología mediante un análisis de costos para determinar

la importancia de la propuesta realizada. De esto se pudo concluir que utilizar herramientas,
como los modelos de predicción propuestos, como soporte en la toma de decisiones de
inspección, mantenimiento y reparación puede traer beneficios económicos significativos
para la industria petrolera. Sin embargo, esta metodología se tiene que ir mejorando y
perfeccionando con el tiempo y con la adquisición de nuevos datos.
Para evaluar la metodología propuesta, se utiliza como caso de estudio una base de datos
compuesta de los reportes generados por dos inspecciones en línea (ILI) realizadas a una
tubería de crudo con una longitud de 44 kilómetros, un diámetro externo de 273.1
milímetros, un espesor de pared promedio de 6.35 milímetros y una máxima presión de
operación admisible (MAOP) de 1500 psig.
5
2. INTRODUCCIÓN
Una de las opciones más usadas para el transporte en largas distancias de crudo, gas y
productos derivados en la industria petrolera son las tuberías onshore [1]. En Estados
Unidos, más de 217.000 km de tuberías transportan líquidos peligrosos, 34.000 km
transportan crudo, y 483.000 km gas natural [2]. Estas tuberías son susceptibles a fallas
causadas por corrosión, fallas operativas, errores humanos o vandalismo lo que conlleva a
pérdidas de metal, abolladuras o grietas [3]. De esta manera, se provocan daños a la
integridad mecánica del sistema incluyendo una pérdida de contención primaria (LOC).
Como consecuencia, se pueden provocar daños ambientales o afectaciones a la población
[4]. Además, se puede conllevar a pérdidas económicas significativas por reparaciones,
pérdida de productos, respuestas de emergencia y daños a la propiedad [4]. Frente a esto,
es importante implementar prácticas y procedimientos para proteger, administrar y
mantener la integridad de los sistemas de tubería. Todo esto se concentra en mantener un
buen programa de gestión de la integridad (PGI) de la tubería [5].
El objetivo principal de la gestión de la integridad es mantener las tuberías en condiciones

de operación seguras, a través de la reducción de la probabilidad del LOC mediante la
mitigación de sus consecuencias y buscando una estabilidad económica para la compañía
[5]. Concretamente, un PGI ajusta cuándo, dónde, cómo y qué acciones deben tomarse en
el proceso de inspección, mantenimiento y reparación [5]. Además, debe ser capaz de
monitorear y predecir defectos, gestionar el riesgo asociado, evitar que acontezca una falla,
controlar el daño de manera exitosa y reducir los costos en general [5]. Por esto, la gestión
de la integridad de la tubería comprende las áreas de: prevención de fallas; de estrategias
de inspección y reparación; y de productos, prácticas y servicios que ayudan al operador a
maximizar la vida útil de la tubería [6].
De acuerdo con Kishawy y Gabbar [7], un PGI debe constar de los siguientes componentes:
(i) un proceso para identificar los segmentos de la tubería y el modo de falla; (ii) un plan de
evaluación de la integridad; (iii) un análisis que contiene toda la información disponible
sobre la integridad de la tubería y las consecuencias de una falla; (iv) criterios para acciones
de reparación; (v) un proceso continuo de evaluación para mantener la integridad; (vi)
identificación de medidas preventivas y de mitigación; (vii) métodos para medir la
efectividad del programa y (viii) un proceso de revisión de los resultados de la evaluación
de la integridad. Específicamente, para este estudio es de interés brindar herramientas que
permitan apoyar a los componentes (iv), y (v), dado que en estos se toman decisiones sobre
6
futuras intervenciones que mantengan la integridad de la tubería y es un proceso que se
debe realizar de manera continua.
La gestión de integridad tiene una dualidad de la cual depende que los daños y las pérdidas
económicas puedan ser significativamente altas o bajas. Por un lado, si la tubería no se
interviene a tiempo y/o adecuadamente, se puede llegar a un LOC que afecte a las personas
y al medio ambiente debido a la peligrosidad de los fluidos de transporte (inflamables,
explosivos, tóxicos, etc.) [8]. Por otro lado, si las intervenciones son extremadamente
conservadoras, por ejemplo, con un intervalo de tiempo de pequeño, se puede llegar a tener
pérdidas económicas por mantenimientos o reparaciones innecesarias [8]. En otras
palabras, el criterio de un PGI se encuentra en un compromiso entre los costos de
reparación, incluida la pérdida de producción, y la necesidad de proteger la vida humana y
el medio ambiente [3]. Dado todo lo anterior, es indispensable que los encargados de tomar
decisiones evalúen cada defecto que perturbe la integridad de la tubería de la mejor forma
posible, de tal manera, que se minimicen las pérdidas económicas [8].
Amaya et al. [6] mencionan que “la corrosión es uno de los principales mecanismos de
degradación y uno de los objetivos primordiales para la gestión de la integridad de la
tubería” . Según el departamento de transporte de los Estados Unidos, aproximadamente
el 25% de todos los reportes de fallas en tuberías de transporte de crudo y de gas natural,
se deben a defectos de corrosión, Figura 1 [9]. De estos defectos, el 65% se debe a
corrosión en las paredes externas y el 35% a corrosión en las paredes internas [2].
Adicionalmente, se conoce que cerca del 8% de la producción mundial de metales es usado
en producción, transporte y procesamiento en la industria petrolera [10]. Esta enorme
cantidad de metal usada en esta industria es la más propensa a la corrosión en comparación
con otras industrias. Específicamente, se destruye aproximadamente 1 kg de acero por
tonelada de crudo procesado debido a la corrosión [10]. Es por esto, que la corrosión es un
fenómeno cuya investigación es de gran importancia para planificar las actividades de
mantenimiento en la industria petrolera [11].
7
Figura 1. Porcentajes por causas de fallas en tuberías. Muestra de datos de fallas de EE. UU. durante un
periodo de 20 años en su red de 800,000 km de tuberías onshore [9].
El objetivo principal de este proyecto se concentra en proporcionar una metodología que

permita predecir, en una inspección futura, el estado de los defectos de corrosión de las
tuberías de transporte en la industria petrolera, mediante el factor estimado de reparación
(ERF). Este factor es una variable que permite jerarquizar las anomalías reportadas en una
misma tubería al tomarse como un criterio del tiempo de vida restante [12]. Entre mayor sea
este factor, la integridad de la tubería es más crítica. Además, si el ERF toma valores
mayores a 0.95 o 1, indica que la tubería requiere de una reparación inmediata en la zona
afectada por el defecto.
Para este propósito, se propondrá una segmentación de la tubería que permita la

identificación de zonas críticas debido a la corrosión. Después, se propondrán modelos de
aprendizaje supervisado para que sean entrenados con datos que describan un estado
actual de la integridad de los defectos de corrosión en las zonas críticas (dimensiones, ERF,
entre otras). A partir de este entrenamiento, se buscará identificar cuales defectos serán
críticos en una próxima inspección mediante la predicción del ERF. De esta manera, este
trabajo busca soportar la toma de decisiones en pro de prevenir pérdidas de contención al
identificar secciones críticas que luego deben ser evaluadas para su mantenimiento. En
otras palabras, los encargados de tomar decisiones contarán con una herramienta adicional
que podrán utilizar para tomar acciones de inspección, mantenimiento y reparación.
8
A continuación, se presentará formalmente los objetivos del proyecto y un marco teórico
que expone los fundamentos y bibliografía respecto al tema de investigación que involucra
los defectos de corrosión en tuberías y la aplicación de técnicas de Machine Learning.
Además, se presentará la metodología propuesta que describe los procesos de
segmentación y de predicción sobre la tubería que se utilizará como caso de estudio.
Posteriormente, se presentarán los resultados obtenidos del proceso de segmentación y de
cada uno de los modelos de Machine Learning propuestos para la predicción. Finalmente,
se realizarán las conclusiones pertinentes sobre los resultados obtenidos y del trabajo
realizado y además, se propondrá un trabajo a futuro.
9
3. OBJETIVOS
3.1. General
 Proponer una metodología de Machine Learning para la evaluación de la integridad

de tuberías corroídas y la predicción del Factor Estimado de Reparación.
3.2. Específicos
 Definir una metodología de segmentación de la tubería, mediante técnicas de

aprendizaje computacional no supervisado, que permitan analizar los defectos de
corrosión en inspecciones realizadas en instantes de tiempo diferentes y que
permitan crear zonas vulnerables a este problema.
 Examinar diferentes modelos de aprendizaje supervisado que permitan realizar la

predicción del Factor Estimado de Reparación entre inspecciones.
 Establecer un procedimiento detallado para la aplicación y evaluación de los

modelos propuestos para la predicción del Factor Estimado de Reparación.
 Evaluar el uso de la metodología mediante un análisis de costos para determinar la

importancia de la propuesta realizada.
10
4. MARCO TEÓRICO
4.1. Corrosión
La corrosión es un mecanismo complejo que reduce la integridad estructural de la tubería

asociada con la pérdida de metal (reducción de espesor) [11]. Es un proceso electroquímico
que produce la oxidación del metal de la tubería al reaccionar con su entorno, el cual puede
conllevar a perforaciones en la tubería, agrietamiento por corrosión, aglomeraciones de
material, fragilidad, sobrepresión interna, fallas por fatiga, rugosidad sobre la superficie,
cavitación, entre otras [9]. Los defectos de corrosión pueden interactuar con otros
adyacentes, formando colonias de corrosión, lo cual reduce la resistencia de la tubería en
comparación cuando los defectos se encuentran aislados [13]. Además, la corrosión es un
mecanismo dependiente del tiempo y es inevitable que se presente este problema en la
tubería, por lo cual, la gestión de la integridad debe centrarse en su control [9].
Los métodos que se usan para controlarlo se basan principalmente en el uso de

recubrimientos y la implementación de técnicas de soporte como la protección catódica [14].
Por un lado, los recubrimientos son considerados por la industria como la primera línea de
defensa en contra de la corrosión [15]. Estos son seleccionados teniendo en cuenta: las
condiciones de operación de la tubería (temperatura, presión, etc.); el entorno en el que se
encuentra; fluido que transporta y el modo de falla del recubrimiento (por ejemplo, cómo se
comporta el recubrimiento cuando existen desuniones en la tubería) [15]. Por otro lado, la
protección catódica es una técnica para reducir la corrosión en el metal, haciendo que toda
la superficie sea un cátodo mediante la aplicación de corriente, es decir, se crea una barrera
eléctrica [15]. Sin embargo, son técnicas que no evitan totalmente el problema. Por ejemplo,
la corrosión externa ocurre debido a un defecto o desgaste del recubrimiento que genera
que la pared de la tubería entre en contacto con el entorno [13]. Respecto a la corrosión
interna, por ejemplo, ocurre por presencia de agua en el producto que se transporta [13].
Dado esto y la alta frecuencia de ocurrencia, es importante inspeccionar continuamente el
problema de corrosión en toda la tubería [16].
4.2. Detección de los defectos de corrosión
Según el Código de Regulación Federal para líquidos y gases (CFR 192 y CFR 195), existen
tres métodos aprobados para detectar corrosión en tuberías: pruebas hidrostáticas,
evaluación directa, e inspección en línea [17].
11
4.2.1. Pruebas Hidrostáticas
Esta técnica prueba la resistencia de la tubería a través de agua a una presión mayor que
la presión de operación [17], usualmente, el 125% de la presión máxima de operación de la
tubería (MOP) [2]. Es un método destructivo debido a las altas presiones a las que se
somete la tubería, es muy costoso e involucra problemas asociados con la adquisición,
tratamiento y eliminación del agua usada [2]. Asimismo, es posible que mediante este
método no se detecten fallas pequeñas y sea necesario hasta otra prueba hidrostática para
identificarlas [2]. Finalmente, se realiza por secciones de tubería lo que involucra detener el
flujo del producto transportado y es necesario realizar excavaciones que pueden afectar la
integridad de la tubería [2].
4.2.2. Evaluación directa
Como parte de los programas de monitoreo, se suele utilizar investigación de campo

(evaluación directa) [2]. Específicamente, se evalúa el estado general de la tubería y se
identifica la presencia de defectos de corrosión. Para esto, se utilizan métodos
electroquímicos, mediciones de potencial, mediciones de resistencias a la polarización
lineal, espectroscopias de impedancias electroquímicas, sensores galvánicos, pruebas de
resistencias eléctricas, métodos ópticos, entre otros [18]. Sin embargo, este tipo de técnicas
se usan principalmente después de haber usado modelos que predicen la presencia de
defectos severos de corrosión, de tal forma, que se prioriza la evaluación directa en ciertos
puntos determinados [2]. Es una técnica muy usada en sistemas donde no es posible
realizar inspecciones en línea [17].
4.2.3. Inspección en línea (ILI)
La técnica ILI se define como la inspección realizada por un Smart o Intelligent Pig (Figura
2), desde el interior de una tubería [19]. Este equipo es impulsado por el flujo del líquido o
gas producto, lo que permite realizar pruebas no destructivas para inspeccionar la tubería
[19]. Específicamente, el Smart Pig es capaz de detectar la mayoría de pérdidas de metal
causadas por corrosión. Para esto, puede usar dos tipos de tecnologías de inspección: MFL
(Magnetic Flux Leakage) y UT (Ultrasonic Tools) [2]. Por un lado, el MFL mide el cambio
generado en las líneas del flujo magnético por los defectos de corrosión. Este cambio
produce una señal que puede relacionarse con la longitud y profundidad de un defecto [2].
Por otro lado, en la tecnología UT se utilizan grandes conjuntos de transductores
12
ultrasónicos que reciben y envían ondas de sonido. Estas últimas viajan a través del grosor
de la pared, lo que permite un mapeo detallado de la tubería [2].
Figura 2. Esquema de una inspección en línea mediante un Smart Pig [3].
Como ventajas se puede destacar que ILI tiene la capacidad de detectar y cuantificar una
gran cantidad de fallas además de las de corrosión y adicionalmente, ofrece una cobertura
total de tubería [19]. En comparación con las pruebas hidrostáticas, ILI puede reportar
pequeñas fallas inclusive aquellas que hasta ahora están iniciando [19]. Este tipo de
detecciones, por ejemplo, extiende el intervalo de tiempo entre inspecciones y permite
mejorar la estimación de las tasas de crecimiento de corrosión [19]. Sin embargo, el
mantenimiento del equipo es fundamental para no perder efectividad de la lectura y su
implementación requiere de un alto conocimiento, experticia y habilidad por parte de los
operarios [19]. A pesar de esto, la técnica de inspección en línea es la de mayor preferencia
en la industria petrolera [19] y por tal motivo, en el presente proyecto se utilizarán datos
obtenidos mediante esta técnica para realizar el respectivo análisis.
4.3. Evaluación de los defectos de corrosión
Una vez detectados los defectos de corrosión se vuelve indispensable tener métodos que
permitan cuantificar el nivel y/o magnitud de la corrosión presentada. En los procesos de
inspección en línea cuando se detecta el defecto de corrosión, se reportan las dimensiones
del mismo (longitud, ancho, profundidad) [2]. Con estas medidas, se establece una relación
con alguna de las variables de operación de la tubería (presión, flujo, etc.) y de esta manera,
se determina la magnitud de la anomalía [2]. Específicamente, las dimensiones de los
defectos de corrosión se asocian con la presión segura que previene un estallido o también
denominada como presión de estallido [20]. Para esto, existen diferentes estándares,
siendo los más utilizados ASME B31G y DNV-RP-F101 [20]. Estos son métodos aprobados
por la industria y diseñados para calcular las presiones seguras de operación de tuberías
corroídas [9]. Además, estos estándares contienen modelos calibrados mediante pruebas
13
en las que se llevan, a diferentes tipos de tuberías corroídas, hasta una presión en la que
se presenta una falla (rotura o estallido) del material [21]. A continuación, se presenta la
forma con la que se calcula la presión de estallido en cada uno de los métodos:
4.3.1. Nomenclatura
- 𝒅: Profundidad máxima del defecto de corrosión [in]

- 𝒕: Espesor de la tubería [in]
- 𝒍: Longitud máxima del defecto de corrosión [in]
- 𝑫: Diámetro externo de la tubería [in]
- 𝝈𝒚 : Esfuerzo de fluencia [psi]
- 𝒇𝒖 : Resistencia a la tracción, estimada como 1.2𝜎𝑦 [psi]
4.3.2. ASME B31G
Este método es el más utilizado y es conocido por proporcionar estimaciones de la presión

de estallido conservadoras [20]. De acuerdo al método, la presión de estallido (𝑃𝑠𝐵31𝐺 ) se
calcula mediante las siguientes ecuaciones [21]:
2 𝑑
1 − (3) ( 𝑡 )
𝑃𝑠𝐵31𝐺 = 𝑃𝑠𝑖 ∗ [ ] (1)
2 𝑑
1 − (3) ( 𝑡 ) 𝑀−1
Donde,
𝑙 2 𝐷 (2)
𝑀 = √1 + 0.81 ( ) ( )
𝐷 𝑡
1.1𝜎𝑦 2𝑡
𝑃𝑠𝑖 = (3)
𝐷
4.3.3. DNV-RP-F101
Este método fue publicado por la organización noruega DNV en una guía para evaluar la
corrosión en tuberías [9]. Específicamente, se realizó con pruebas a gran escala y análisis
numéricos de los defectos de corrosión [9]. De acuerdo al método, la presión de estallido
(𝑃𝑠𝐷𝑁𝑉 ) se calcula mediante las siguientes ecuaciones [20]:
𝑑
2𝑡𝑓𝑢 (1 − 𝑡 )
𝑃𝑠𝐷𝑁𝑉 = 1.05 ∗ [ ] (4)
𝑑
(𝐷 − 𝑡) (1 − 𝑡𝑄 )
14
Donde,
2
𝑙
𝑄 = √1 + 0.31 ( ) (5)
√𝐷𝑡
4.4. Cálculo del ERF
Una vez realizada la estimación de la presión de estallido, que determina la magnitud del
estado del defecto de corrosión, es posible calcular el factor estimado de reparación, ERF
por sus siglas en inglés. Este factor permite jerarquizar las anomalías reportadas en una
misma tubería al tomarse como un criterio del tiempo de vida restante [12]. Entre mayor sea
este factor, la integridad de la tubería es más crítica. Además, si el ERF toma valores
mayores a 0.95 o 1, indica que la tubería requiere de una reparación inmediata en la zona
afectada por el defecto [12]. Este factor se estima de la siguiente manera:
𝑀𝐴𝑂𝑃
𝐸𝑅𝐹 = (6)
𝐷𝐹 ∗ 𝑃𝑠
Donde,
𝑆𝑀𝑂𝑃 = 𝐷𝐹 ∗ 𝑃𝑠 (7)
En las ecuaciones anteriores, 𝑀𝐴𝑂𝑃 hace referencia a la máxima presión de operación

admisible, es decir, la presión máxima que la tubería puede resistir antes de sufrir una
deformación plástica [12]. Respecto a 𝐷𝐹, esta hace referencia a un factor de diseño de la
tubería que va a depender de la norma con la que se realice (B31G, DNV, etc.) [12]. Tanto
el 𝑀𝐴𝑂𝑃 como el 𝐷𝐹, son variables determinadas durante el proceso de diseño de la
tubería. Finalmente, 𝑃𝑠 es la presión de estallido estimada en la sección anterior.
4.5. Inspección periódica de los defectos de corrosión
Después de haber detectado y cuantificado los defectos de corrosión, es indispensable

dentro un programa de gestión de integridad, establecer una metodología de inspección
continua y un mantenimiento periódico a través de políticas que incluyen intervalos óptimos
de inspección [22]. Si este intervalo es demasiado corto, se realizarán inspecciones y
acciones de mitigación innecesarias, mientras si el intervalo de inspección es demasiado
largo se podrían desencadenar fallas debidas a la criticidad de los defectos [23]. Es todo un
reto establecer el intervalo óptimo principalmente por las diferentes incertidumbres que se
involucran en la toma de decisiones [23].
15
Como primera fuente de incertidumbre se encuentran los errores asociados a la
herramienta de medición. Específicamente, existen errores debidos a umbrales de
detección, medición y reporte, a errores de detección, a errores por falsas alarmas y a
errores de localización [24]. En segundo lugar, el deterioro o degradación de las paredes
de la tubería debido a la corrosión también es incierto. Esto se debe principalmente a que
el crecimiento del defecto de corrosión tanto individual como en agrupaciones varía con el
tiempo [23]. En otras palabras, se tiene una incertidumbre asociada a la tasa de crecimiento
del defecto de corrosión. En tercer lugar, la geometría de la tubería, las propiedades del
material, y la presión interna son valores inciertos en la realidad [23]. Finalmente, los
modelos de capacidad para tuberías corroídas también tienen asociados un nivel de
variabilidad [23]. Todas estas incertidumbres mencionadas deberían tenerse en cuenta al
momento en el que se determine el intervalo de inspección óptimo.
El principal reto consiste en calcular la tasa de crecimiento de los defectos de corrosión

debido a que está sujeta a incertidumbres significativas y a la variabilidad de las
características del flujo o de las condiciones preexistentes [25]. Por ejemplo, los defectos
de corrosión están influenciados por parámetros como: temperatura, presión, flujo (régimen
y velocidad), pH, concentraciones de producto de corrosión disuelto, soldaduras, humedad,
y hasta la historia del metal usado [26]. La influencia de cada uno de estos factores es muy
poco conocida. Sin embargo, un pequeño cambio de alguno puede afectar
significativamente el crecimiento de la tasa de corrosión. Además, algunos de ellos están
estrechamente relacionados entre sí [26]. Con el objetivo de tener la mayoría de variables
de incertidumbre en cuenta, se han propuesto diferentes modelos desde una perspectiva
de seguridad o desde el punto de vista de la relación costo-beneficio.
Desde el punto de vista de la seguridad, la selección del intervalo óptimo de inspección se

realiza basado en criterios de confiabilidad como probabilidades de falla [23]. Desde esta
perspectiva, se encuentran estudios como el de Provan y Rodriguez [27], que desarrollaron
un modelo basado en un proceso de Markov para tener en cuenta el crecimiento de los
defectos de corrosión y de esta manera, determinar el tiempo de inspección óptimo. Para
esto, tuvieron en cuenta la incertidumbre en la detección del defecto por parte de las
herramientas de inspección, pero ignoraron la incertidumbre de la medición de estas
mismas. Hong [28] también empleó un proceso de Markov para modelar el crecimiento de
defectos de corrosión, y además, incorporó la incertidumbre de detección y de medición de
la herramienta de inspección en la determinación de una probabilidad de falla.
16
Adicionalmente, utilizó un proceso de Poisson para modelar la generación de nuevos
defectos. En otro trabajo de Hong [29], el crecimiento del tamaño del defecto de corrosión
se modela como una cantidad aleatoria, independiente del tiempo. Finalmente, Morrison y
Worthingham [30], usaron el mismo modelo de crecimiento de los defectos de corrosión.
Sin embargo, no tuvieron en cuenta la incertidumbre de detección ni la incertidumbre de
medición de las herramientas de inspección.
De la selección del intervalo óptimo de inspección basado en la relación costo-beneficio,

también se han presentado varios trabajos interesantes. Cheng y Pandey [31], utilizaron
metodologías analíticas para determinar el intervalo de inspección óptimo. Para esto,
consideraron la degradación del sistema como un proceso gamma homogéneo. Además,
la inspección interna óptima se seleccionó en función de la regla de costo mínimo esperado.
Gomes et al. [32] utilizaron un enfoque basado en una simulación para determinar el
intervalo de inspección óptimo según la regla del mínimo costo esperado. En esta
simulación se incorporó un modelo de ley de potencia para describir el crecimiento de la
profundidad del defecto. En este trabajo, la incertidumbre de detección de los defectos fue
tenida en cuenta, pero se ignoraron los errores de medición y la generación de nuevos
defectos de corrosión. Finalmente, Zhang y Zhou [23] utilizaron una simulación de Monte
Carlo para determinar el intervalo de inspección óptimo. Para esto, consideraron la
generación de nuevos defectos, mediante un proceso de Poisson no homogéneo, y el
crecimiento de los defectos de corrosión mediante un proceso de gamma homogéneo.
Además, utilizaron la regla del costo mínimo esperado y tuvieron en cuenta, las
incertidumbres de detección y de medición de los defectos.
En resumen, los trabajos presentados buscan principalmente describir el proceso de

crecimiento de la corrosión o, en otras palabras, describir el proceso de degradación
progresiva de la estructura de las paredes de la tubería.
4.6. Modelos de crecimiento de defectos de corrosión
De acuerdo con Amaya et al. [33] y su revisión bibliográfica existen diferentes enfoques
para modelar el crecimiento de los defectos de corrosión: (i) descripciones fenomenológicas
[34] [35]; (ii) ajustes de variables aleatorias [36] [37]; (iii) procesos estocásticos [38]; (iv)
procesos de simulación [39] [40]; (v) enfoques empíricos [41] [42] y (vi) enfoques
determinísticos [43]. Sin embargo, estos enfoques tienden a ser evaluaciones muy
detalladas o muy simplificadas que conllevan a restricciones para su uso.
17
Por un lado, los enfoques empíricos y determinísticos no tienen en cuenta el proceso de
degradación y sus incertidumbres asociadas [33]. Por otro lado, las descripciones
fenomenológicas y los enfoques de simulación requieren de recursos computacionales
significativos al intentar describir en detalle cada uno de los mecanismos [33]. Como punto
intermedio están los procesos estocásticos que, aunque permiten tener en cuenta el
mecanismo de degradación y las incertidumbres asociadas, modelar todo en conjunto
puede llegar a ser algo complejo. A pesar de esto, describir adecuadamente el crecimiento
de la corrosión es una parte esencial en los programas de gestión de la integridad de la
tubería. Dependiendo que tan bien se haga, se pueden obtener mejores predicciones del
estado de la integridad de la tubería entre inspecciones programadas y de esta manera, se
puede evitar cualquier posible falla [33].
Se puede construir un modelo de crecimiento de defectos de corrosión no solo a partir de

una base de datos tomados mediante una herramienta de inspección en línea (ILI), sino
también, mediante el uso de datos simulados [44]. Por ejemplo, Timashev y Bushinskaya
[44] proponen un método de simulación de Monte Carlo para crear las profundidades de
defectos simulados utilizando una distribución lognormal. Con estos defectos simulados, se
construye un modelo de ecuaciones diferenciales y se compara con un modelo Pure Birth
Markov Model construido a partir de datos ILI, obteniendo resultados muy similares. Sin
embargo, según Xie y Tian [5], con los modelos basados en datos tomados a través de una
herramienta de inspección en línea se obtienen mejores estimaciones del crecimiento de
los defectos de corrosión siempre y cuando, estén disponibles múltiples conjuntos de datos
de ILI. En el presente proyecto se entrenarán modelos de Machine Learning a partir de una
base de datos de defectos de corrosión obtenidos mediante una herramienta de inspección
en línea.
4.7. Modelos de Machine Learning
En la actualidad, los modelos de Machine Learning han demostrado tener la capacidad para
adaptar y extraer conocimiento en una variedad de problemas y contextos complejos [45].
Específicamente, estos modelos tienen la capacidad de encontrar patrones confusos en los
datos y aprender de ellos sin la necesidad de depender de un modelo predeterminado.
Además, son capaces de realizar predicciones sobre nuevos datos a partir de lo aprendido
[45]. Por ejemplo, Campos et al [45] presentan un estudio exploratorio de técnicas de
Machine Learning como soporte de predicción de fallas de software. En este estudio,
demuestran que los modelos de Machine Learning tienen el potencial de crear modelos de
18
predicción precisos en el contexto propuesto. Inspirado en este estudio, el presente
proyecto busca aplicar técnicas de Machine Learning como soporte de predicción de fallas
en tuberías de transporte de la industria petrolera. Específicamente, se aplican a la
predicción del estado de un defecto de corrosión.
En la literatura, se encontraron aplicaciones de algoritmos de Machine Learning para el

contexto planteado especialmente orientados a la detección y evaluación del estado de los
defectos de corrosión. Respecto a la detección, Zajam et al. [46] investigaron la aplicabilidad
del modelo de Support Vector Machine y un análisis wavelet sobre vibraciones con el
objetivo detectar varios tipos de defectos en la tubería a partir de esta variable respuesta.
También, se encuentra el ejemplo de Bastian et al. [47], los cuales proponen una red
neuronal convolucional para clasificar imágenes de una tubería a partir de su nivel de
corrosión. De esta forma, se discrimina imágenes de la tubería entre aquellas que tienen
corrosión y aquellas que no. Finalmente, Liu et al. [48] implementan modelos como Support
Vector Machine, árboles de decisión, Random Forest, y ensambles para realizar el proceso
de coincidir defectos en múltiples corridas de inspección en línea a partir de sus
características. A esta aproximación se le conoce como análisis defecto a defecto.
Respecto a los ejemplos de modelos que evalúan el estado de los defectos, se encuentra
el presentado por Gentile et al. [25]. En este se propone un modelo de regresión
multivariable para establecer que factores tienen una mayor influencia en la determinación
de la tasa de crecimiento de corrosión. Además, se propone un modelo de una red neuronal
artificial para poder determinar un valor adecuado de la tasa de corrosión. Sin embargo,
como se mencionó anteriormente, estas aplicaciones están orientadas hacia la evaluación
actual de la integridad de la tubería. Es decir, se analiza la tubería en el mismo instante de
tiempo. En el presente proyecto, el valor agregado está en el hecho de que se busca aplicar
los modelos de tal forma que se pueda evaluar los defectos de corrosión en la tubería en
instantes de tiempo diferentes, de tal manera, que se pueda predecir su crecimiento.
Específicamente, este proyecto busca implementar los algoritmos de Machine Learning de

tal forma que permitan predecir el factor estimado de reparación (ERF) de los defectos de
corrosión en una inspección futura. Para este propósito, se propondrá una segmentación
de la tubería que permita la identificación de zonas críticas debido a la corrosión.
Posteriormente, se propondrán modelos de aprendizaje supervisado para que sean
entrenados con datos que pertenecen a una base de reportes generada por una
herramienta de inspección en línea (ILI) a una tubería tomada como caso de estudio. Estos
19
datos se pre-procesarán de tal forma que describan el estado actual de la integridad de los
defectos de corrosión en las zonas críticas (dimensiones, ERF, entre otras). A partir del
entrenamiento realizado, se buscará encontrar patrones complejos en los datos de tal
forma, que se pueda realizar predicciones sobre el ERF que permitan identificar cuales
defectos serán críticos en una próxima inspección. De esta manera, este trabajo busca
soportar la toma de decisiones en pro de prevenir pérdidas de contención al identificar
secciones críticas que luego deben ser evaluadas para su mantenimiento.
20
5. METODOLOGÍA
La metodología general propuesta en este documento para evaluar la integridad de la

tubería basada en mediciones de defectos de corrosión realizadas por ILI y mediante la
predicción del factor estimado de reparación (ERF) se muestra en el diagrama de flujo
presentado en la Figura 3. Esta es una metodología que se basa en la presentada por Liu
et al. [48] con algunas modificaciones que la adaptan al objetivo de este proyecto.
Figura 3. Esquema de la metodología propuesta. Modificación de [48].
21
Específicamente, la metodología se divide en cuatro grandes secciones. En la primera
sección, se realiza una exploración de la base de datos. En la segunda sección, se realiza
una segmentación de la tubería para identificar zonas vulnerables a la corrosión y para
poder analizarla en periodos de tiempo diferentes. En la tercera sección, se realiza un pre-
procesamiento de la base de datos y se divide en dos partes, una para realizar el
entrenamiento y otra para realizar la prueba del modelo. En general, en esta tercera sección
se entrena cada uno de los modelos propuestos (con los datos de entrenamiento), se
calibran los parámetros específicos, se validan los modelos obtenidos y finalmente, se
prueba cada uno de ellos (con los datos destinados para prueba). En la última sección, se
evalúa los modelos como parte del proceso de toma de decisiones para la asignación de
tareas de reparación a lo largo de la tubería. Esta metodología se describirá con más detalle
a continuación:
5.1. Base de datos ILI
De acuerdo con el Foro de Operadores de Tuberías (POF) [49], el resultado de una

inspección en línea (ILI) contiene: (i) un reporte de los componentes y anomalías
encontradas de la tubería, (ii) un reporte específico de las anomalías encontradas y (iii) un
reporte de agrupaciones.
En el primer reporte, se especifica cada uno de los componentes (como válvulas, puntos
de soldaduras, accesorios tipo te, entre otros) y cada una de las anomalías identificadas
(como corrosión, grietas, abolladuras, desprendimientos, ovalidad, entre otras). Cada uno
de estos se caracterizan mediante: parámetros de ubicación como la distancia longitudinal
y la orientación usando la analogía de la posición horaria (ver Figura 4); parámetros
estructurales como diámetro externo, espesor de la pared, presión de diseño, la máxima
presión de operación admisible (MAOP), entre otros; y por último, la información respecto
a las anomalías o irregularidades encontradas [49].
Figura 4. Localización y orientación de los componentes y anomalías encontradas en ILI. (a) Vista
Longitudinal. (b) Vista transversal. [50]
22
En el segundo reporte, se especifica mucho más la información respecto a las anomalías
encontradas. También se detallan todos los defectos con sus parámetros de ubicación y
orientación como se observa en la Figura 4 [49]. Además, se especifican las dimensiones
ancho, largo y profundidad de cada uno de los defectos mediante una aproximación
conservadora a un rectángulo, como se observa en la Figura 5 [49]. Finalmente, se reporta
el tipo de defecto y una clasificación del mismo [49]. Para este proyecto es de interés este
reporte dado que caracteriza las anomalías o defectos presentes en la tubería.
Específicamente, es de interés aquellos registros referentes al tipo de anomalía de
corrosión.
Figura 5. Dimensionamiento de los defectos. [49]
El tercer reporte indica aquellos defectos de corrosión que fueron agrupados. Para esto, se
tienen dos reglas de interacción: la primera es que se agrupan dos defectos de corrosión si
la distancia entre ellos (longitudinal o circunferencialmente) es menor a seis veces el
espesor de la pared y la segunda, es que se agrupan si la distancia entre ellos es menor
que la mínima extensión de los dos defectos (es decir, longitud o ancho, respectivamente)
[49]. En la Figura 6 se puede observar cómo funcionan las reglas de agrupación.
23
Figura 6. Ilustración de agrupación de defectos mediante las reglas de interacción. [36]
Es muy importante destacar que los reportes de la inspección en línea involucran

incertidumbres sobre la caracterización de los defectos identificados. Inicialmente, se tiene
una probabilidad asociada a la detección de los defectos determinada a partir de la
condición de la tubería y suele ser del 90% o mayor [36]. Esto conlleva a que no se reporte
la totalidad de los defectos que tiene la tubería. Adicionalmente, se presenta incertidumbre
en las mediciones realizadas sobre los defectos. Por ejemplo, en el largo, el ancho o en la
posición del defecto. También, es posible que la herramienta de inspección en línea detecte
falsas alarmas, es decir, reporta defectos en la tubería que realmente no existen.
Finalmente, dependiendo de la herramienta de MFL (Magnetic Flux Leakage) y de UT

(Ultrasonic Tool) incorporada en el Smart Pig, existe un umbral de detección que determina
desde que espesor de la tubería merece reportar un defecto de corrosión. En general, para
herramientas MFL el umbral suele ser del 5% y de 0.5 mm para herramientas UT [49]. A
pesar de esto, se busca que la variabilidad que se genera en los datos por los errores de
medición sea capturada por los modelos propuestos en la presente metodología. Para
mitigar el efecto de los errores de detección se buscará segmentar la tubería en secciones
que incorporen más de un defecto de tubería. Respecto a las falsas alarmas, estas se
tratarán en el pre-procesamiento de los datos. En relación con el umbral de reporte se
consideran los datos no reportados como defectos que no tienen la gravedad suficiente
para pensar que en una próxima inspección se conviertan en defectos de corrosión críticos.
De lo mencionado anteriormente, se puede visualizar un ejemplo en la Figura 7.
24
Figura 7. Ilustración del efecto de los errores de medición y el umbral de reporte de ILI. [51]
Cabe mencionar que la metodología propuesta en este documento se presenta de forma

general para que pueda ser usada a partir de cualquier base de datos generada por una
herramienta de inspección en línea (ILI). Adicionalmente, es necesario tener en cuenta que
se requiere de una base de datos compuesta por al menos dos corridas de inspección en
línea de la tubería. Esto se debe principalmente a que con la primera corrida se realiza un
proceso de segmentación y se evalúa el estado de los defectos de corrosión para tratar de
predecir el factor estimado de reparación (ERF) en una siguiente inspección. Dado que se
requiere información para entrenar los modelos, es fundamental conocer el estado de los
defectos de corrosión en la siguiente inspección. Por este motivo, es necesario contar con
al menos dos corridas ILI en la base de datos.
25
5.2. Exploración de la base de datos
Como se había mencionado anteriormente, la base de datos está compuesta de tres tipos
de reportes, de los cuales el segundo tipo es el de interés para el presente proyecto. Este
tipo de reporte caracteriza cada una de las anomalías encontradas. Para cada uno de estos
reportes, la herramienta ILI caracteriza los defectos de corrosión mediante 13 variables que
se muestran en la Tabla 1 [49].
Tabla 1. Descripción de las variables reportadas por la herramienta de inspección en línea para los defectos
de corrosión.
Nombre de la Unidades Tipo de

Descripción de la variable
variable de reporte Variable
Distancia longitudinal de registro del
𝑑𝑖𝑠𝑡𝐿𝑜𝑛𝑔 defecto de corrosión desde el punto de Metros Continua
referencia. Ver Figura 4a.
𝑝𝑜𝑠𝐻𝑜𝑟𝑎𝑟𝑖𝑎 Posición horaria en la tubería del defecto. Hora:Minuto -
Ver Figura 4b.
𝑠𝑢𝑝𝑒𝑟𝑓𝑖𝑐𝑖𝑒 Superficie en la que se localiza el defecto. - Binaria
Interna o Externa.
𝑙𝑎𝑟𝑔𝑜 (𝐿) Longitud del defecto. Ver Figura 5. Milímetros Continua
𝑎𝑛𝑐ℎ𝑜 (𝑊) Ancho del defecto. Ver Figura 5. Milímetros Continua

Profundidad máxima del defecto
𝑝𝑟𝑜𝑓𝑢𝑛𝑑𝑖𝑑𝑎𝑑 (𝑑) expresada como el porcentaje en % Continua
comparación con el espesor.
Profundidad promedio del defecto de
𝑝𝑟𝑜𝑓𝑃𝑟𝑜𝑚 corrosión expresada como el porcentaje % Continua
en comparación con el espesor.
𝐸𝑅𝐹 Factor estimado de reparación (ERF) del - Continua
defecto.
𝑃𝑏𝑢𝑟𝑠𝑡 Presión de estallido. Presión segura que PSI Continua
previene un estallido.
𝑑𝑖𝑠𝑡𝑆𝑜𝑙𝑑𝐶𝑒𝑟𝑐𝑎𝑛𝑎 Distancia a la soldadura más cercana. Metros Continua
𝑗𝑢𝑛𝑡𝑎 Número de la junta en la que se encuentra - Discreta

el defecto.
𝑒𝑠𝑝𝑒𝑠𝑜𝑟𝐽𝑢𝑛𝑡𝑎 Espesor de la pared de la junta en la que Milímetros Continua
se encuentra el defecto.
Clasificación del defecto a partir de sus
𝑐𝑙𝑎𝑠𝑖𝑓𝑖𝑐𝑎𝑐𝑖ó𝑛 dimensiones y de un parámetro - Discreta
geométrico A. Permite tener una idea de
la forma de la corrosión. Ver Figura 8.
26
Figura 8. Diagrama de clasificación de los defectos. Si el espesor de la tubería es menor a 10 mm, entonces
A = 10 mm, de lo contrario, A = Espesor de la pared. [49]
A partir de estas variables, es conveniente realizar una exploración y limpieza de los datos
de tal forma que se identifiquen errores o valores ausentes en los datos. Por ejemplo, en la
base de datos se encuentran tanto los reportes de las agrupaciones como los reportes
individuales de los defectos agrupados. Dado esto, es necesario eliminar aquellos reportes
de los defectos que fueron agrupados con el motivo, de considerar la agrupación como un
único defecto. También, existe el caso de las observaciones que no se les reporta el ERF.
Como se cuenta con la información de las dimensiones de los defectos, es posible calcular
el ERF para cada uno utilizando, por ejemplo, la ecuación (1) o (4). Esta ecuación debe
hacer referencia al estándar con el que la herramienta reporta los ERF de tal forma, que se
es congruente con los demás datos que sí están reportados.
Adicionalmente, es importante identificar que variables se encuentran en diferente

proporción de tal manera, que se evalúe si es correcto tener en cuenta dicha variable o si
puede llegar a generar ruido en los modelos [52]. Además, es importante identificar aquellas
variables con varianza próxima a cero. Esto dado a que, si una variable tiene el mismo o
casi el mismo valor para todas las observaciones, su varianza es igual o próxima a cero.
Frente a esta situación, es conveniente excluirla dado que puede añadir al modelo más
ruido que información [52].
27
Finalmente, es útil observar la correlación entre las variables reportadas por la herramienta
de inspección en línea. Esto para conocer qué tipo de relación existe entre las variables
predictoras y la variable respuesta. Asimismo, para conocer la relación entre las variables
predictoras dado que si un par de variables están muy correlacionadas pueden conllevar a
problema de multicolinealidad en modelos como por ejemplo la regresión lineal. Para esto
se puede determinar la matriz de correlaciones la cual permite conocer la relación entre
cada par de variables.
5.3. Segmentación – Clustering
Una vez realizada la exploración de los datos se propone establecer una segmentación de
la tubería de tal forma, que se establezcan zonas críticas afectadas por la corrosión y con
el objetivo de poder evaluar y analizar la tubería en dos instantes de tiempo diferentes.
Específicamente, la segmentación es el proceso de dividir las tuberías en sectores que
puedan usarse como una unidad para la evaluación de la integridad [6]. Dado esto, se
crearán segmentos de diferente longitud que agruparán un número de defectos de corrosión
reportados como se puede observar en la Figura 9. Esto se realiza con tres motivos
principales. El primer motivo es que se busca controlar la variabilidad e incertidumbre
generada tanto por los errores de medición como los errores de detección de la herramienta
de inspección [53]. La segunda justificación consiste en considerar el comportamiento de
las posibles interacciones que se pueden generar entre defectos de corrosión, problema
que ya se había mencionado anteriormente en la sección 4.1 como colonias de corrosión.
Figura 9. Ilustración de la segmentación de la tubería. Modificación de [53].
La última justificación de la segmentación, pero no menos importante, radica en el

crecimiento de los defectos de corrosión (ver Figura 10). Esto conlleva a que los defectos
no sean caracterizados de la misma manera en inspecciones realizadas entre tiempos
28
diferentes [48]. Principalmente, se debe a cambios de los reportes tanto en la ubicación
como en el dimensionamiento de cada uno. Por consiguiente, al intentar hacer la
correspondencia para analizar el crecimiento del defecto, entre los reportes de las dos
inspecciones realizadas, puede llegar a ser un trabajo dispendioso y de gran tiempo de
dedicación [48]. Especialmente, si se realiza manualmente que es como es como
comúnmente se suele hacer en los modelos que intentan describir el crecimiento y el tiempo
de falla de un defecto [48]. Frente a esto, al considerar la tubería como un sistema de
segmentos es posible analizar los defectos de corrosión en dos instantes de tiempo
diferentes al tomarse cada segmento como una unidad que contiene dichos defectos.
Figura 10. Ilustración del crecimiento de la corrosión. [48]
Dado que el objetivo de la presente metodología es analizar un estado actual de la corrosión

de la tubería para poder realizar una predicción del estado de los defectos en una
inspección futura, la segmentación se realiza sobre los reportes de la primera inspección
de la base de datos de ILI. De esta manera, se utiliza esta información como estado actual
de la tubería para predecir el estado de la integridad en la segunda corrida de inspección.
5.3.1. Tipos de segmentación
Según Amaya et al. [6] , el tamaño de los segmentos generados puede ser un valor estático
o dinámico. Si es estático quiere decir que cada segmento tiene un tamaño fijo, inicialmente
predefinido. Este valor puede ser arbitrario, por ejemplo, 1 kilómetro, o puede asociarse al
tamaño de las juntas de la tubería o inclusive, puede ser definido a partir de componentes
de particular interés como las válvulas [6]. Sin embargo, según Amaya et al. [6] “la
segmentación estática conlleva a una variabilidad significativa en los resultados de la
evaluación de riesgos, generando inclusive, aumentos en los costos de intervención debido
29
a evaluaciones innecesarias”. Además, “zonas críticas pueden ocultarse si los riesgos se
ponderan a lo largo de segmentos de gran tamaño” [6].
Por otro lado, la segmentación dinámica es adaptable a condiciones externas o mecánicas

[6]. Además, se realiza con la propiedad de que cada sección tiene caracterización
constante a lo largo del segmento [54]. Por ejemplo, Amaya et al [6] realizaron una
segmentación dinámica para determinar la longitud de cada sección a partir de la
probabilidad de falla de los defectos y determinaron que al utilizar la segmentación
dinámica, el proceso de crecimiento de la corrosión se estima mejor en comparación con la
segmentación estática. En el presente proyecto, se propone determinar los segmentos a
partir de modelos de aprendizaje no supervisado, concretamente mediante modelos de
Clustering, que permitan establecer zonas vulnerables (segmentos) de la tubería al
problema de corrosión mediante la agrupación de los defectos reportados.
5.3.2. Modelos de Clustering
Clustering hace referencia a un conjunto amplio de técnicas para encontrar subgrupos o

Clusters en una base de datos [52]. Esto lo realizan de tal manera que las observaciones
de cada grupo sean similares entre sí, mientras que las observaciones en distintos grupos
sean diferentes entre sí [52]. Para realizar esto, es necesario definir que significa que dos
o más observaciones sean similares o diferentes [52]. Dado que en este contexto lo que se
busca es crear zonas vulnerables (segmentos) de la tubería mediante la agrupación de los
defectos de corrosión que se encuentren cercanos entre sí, el criterio para establecer
similitud es la distancia entre ellos.
Para establecer la distancia entre los defectos, se utilizan los parámetros de localización y
orientación, es decir, la distancia longitudinal y la posición horaria de cada uno de los
reportes. A partir de estas dos variables, se calcula la distancia entre los defectos y aquellos
que estén más cercanos entre sí, se agrupan. Sin embargo, al observar las variables de la
Tabla 1, se puede identificar que la variable de la posición horaria se reporta mediante la
analogía de un reloj (ver Figura 5). Es decir, este valor se reporta en horas y minutos. Dado
esto, es necesario transformar esta variable para poder calcular adecuadamente las
distancias entre los defectos. Para esto, se determina la distancia de arco desde un punto
de referencia (0:00 horas) de tal manera, que se ubica cada uno de los defectos en el
perímetro de la tubería. Con esta ubicación (𝑦) y la localización mediante la distancia
longitudinal (𝑥), es posible calcular la distancia entre defectos.
30
Existen diferentes formas de estimar la distancia entre los defectos: distancia Euclidiana,
Manhattan, máxima, Canberra, binaria, Minkowski, entre otras. En este documento, se
proponen dos formas en específico al ser las más utilizadas. La primera es la distancia
Euclidiana cuya fórmula se presenta en la ecuación (8) y el segundo criterio es la distancia
Manhattan la cual se presenta en la ecuación (9).
𝑑1,2 = √(𝑥1 − 𝑥2 )2 + (𝑦1 − 𝑦2 )2 (8)
𝑑1,2 = |𝑥1 − 𝑥2 | + |𝑦1 − 𝑦2 | (9)
En las anteriores ecuaciones, 𝑑1,2 hace referencia a la distancia entre los puntos centrales
del defecto 1 y del defecto 2. Además, 𝑥i hace referencia a la distancia longitudinal y 𝑦i a la
posición horaria del defecto i. Con estos criterios, se realiza la segmentación mediante el
modelo de Clustering jerárquico dado que es uno de los más conocidos y porque la
metodología de construcción de los Clusters va acorde con el contexto propuesto [52]. A
continuación, se da una breve explicación de la metodología del modelo propuesto.
5.3.3. Clustering Jerárquico
En el modelo de Clustering jerárquico no se conoce inicialmente cuantas agrupaciones se

quiere. En cambio, se determina una representación visual en forma de árbol de las
observaciones, llamado dendograma [52]. En la Figura 11, se observa un ejemplo de este
donde, haciendo la analogía de un árbol invertido, cada hoja hace referencia a una
observación y a medida que se sube a través del árbol, las hojas se fusionan en ramas [52].
Estas fusiones corresponden a observaciones que son similares entre sí. Entre más abajo
del dendograma se dé la fusión de las hojas y ramas, más similares van a hacer entre si las
observaciones y entre más arriba, va a ver una mayor diferencia [52]. En otras palabras, la
altura de fusión indica que tan similares o que tan diferentes son dos observaciones. Dentro
del contexto de este proyecto, dos observaciones (defectos) son más similares uno al otro,
si se encuentran cerca, es decir, si la distancia entre ellos es pequeña. De esta manera, se
logra ver todos los posibles agrupamientos desde 1 hasta 𝑛, siendo 𝑛 el número de
observaciones, es decir, cada observación es un grupo [52].
31
Figura 11. Ejemplo de un dendograma para una base de datos de 45 observaciones. [52]
Para construir el dendograma, se realiza un proceso iterativo que comienza desde la parte
inferior del árbol tomando cada observación como un grupo [52]. Es decir, se inicializa con
𝑛 grupos. En la siguiente iteración, los dos grupos que son más similares se fusionan
formando 𝑛 − 1 grupos. A continuación, los dos grupos actuales que son más similares
nuevamente se fusionan, resultando en 𝑛 − 2 grupos [52]. De esta manera, se continúa con
el proceso iterativo hasta que solamente quede un grupo.
Para saber si dos grupos son similares entre sí, se utiliza el concepto de enlace o
vinculación. Este puede ser de cuatro tipos: completo, promedio, simple o centroide [52]. El
enlace completo toma como referencia a la máxima disparidad entre grupos. Para esto, se
calculan todas las diferencias entre cada una de las observaciones de un grupo 1 y las
observaciones del grupo 2, y se toma como similitud entre los dos grupos, la mayor de estas
diferencias [52]. Para este proyecto, las diferencias se interpretan como la distancias entre
un par de defectos. El enlace tipo simple es el opuesto al completo. Es decir, no se toma la
máxima diferencia sino por el contrario, se toma la mínima diferencia como similitud entre
grupos. Esto puede conllevar a que resulte una gran cantidad de grupos en las que se fue
fusionando cada observación una a la vez y no por grupos [52]. Respecto al enlace tipo
promedio, no se toma ni la mínima ni la máxima diferencia sino más bien se toma el
promedio de todas las diferencias. Finalmente, el enlace tipo centroide consiste en calcular
el centroide (vector medio de longitud 𝑝 variables) para los defectos del grupo 1 y los
defectos del grupo 2 y la similitud va a depender de la diferencia entre los dos centroides.
32
Figura 12. Ejemplo del uso de los diferentes tipos de enlace para un mismo caso de estudio. [52]
De todos estos tipos de enlace, el completo y el promedio son los más utilizados porque
los enlaces simples tienden a generar dendogramas desequilibrados y los enlaces tipo
centroide tienden a generar dificultades de interpretación [52]. Dado esto, el dendograma
va a depender significativamente del tipo de enlace a utilizar (ver Figura 12). En el presente
proyecto se propone evaluar el método de Clustering jerárquico mediante los enlaces tipo
completo, promedio y simple.
5.3.4. Caracterización de los Clusters
Al realizar el proceso de Clustering sobre los reportes obtenidos en la primera inspección,

cada uno de los segmentos agrupa un número de defectos de corrosión. Como
consecuencia de esto, se divide la tubería en diferentes segmentos o Clusters de distinta
longitud. Dicha longitud está definida por los defectos que agrupa cada segmento.
Específicamente, se establece el límite inferior y el límite superior de cada uno de los
segmentos a partir de las distancias longitudinales de los defectos. El límite inferior de cada
segmento se determina ubicando aquel defecto agrupado con menor distancia longitudinal.
De ese defecto se toma distancia la distancia longitudinal, se le resta la mitad del largo del
defecto y se le resta un parámetro de precisión de longitud de la herramienta ILI (0.15m).
El mismo procedimiento se realiza con el límite superior para el cual, se ubica aquel defecto
agrupado con mayor distancia longitudinal. De ese defecto se toma la distancia longitudinal,
se le suma la mitad del largo del defecto y se le suma un parámetro de precisión de longitud
(0.15m). Al sumar y restar el parámetro de precisión de la longitud se busca tener en cuenta
33
la incertidumbre de los parámetros de localización y, además, tener en cuenta parte del
posible crecimiento del defecto. A continuación, se presenta el procedimiento mediante la
ecuación (10) y (11) para determinar el límite inferior y el límite superior del segmento 𝑖,
respectivamente:
𝑙𝑎𝑟𝑔𝑜𝑘
𝑙𝑖𝑚𝐼𝑛𝑓𝑒𝑟𝑖𝑜𝑟𝑖 = 𝑑𝑖𝑠𝑡𝐿𝑜𝑛𝑔𝑘 − − 𝑝𝑎𝑟á𝑚. 𝑝𝑟𝑒𝑐𝑖𝑠𝑖ó𝑛 (10)
2
𝑙𝑎𝑟𝑔𝑜𝑘
𝑙𝑖𝑚𝑆𝑢𝑝𝑒𝑟𝑖𝑜𝑟𝑖 = 𝑑𝑖𝑠𝑡𝐿𝑜𝑛𝑔𝑘 + + 𝑝𝑎𝑟á𝑚. 𝑝𝑟𝑒𝑐𝑖𝑠𝑖ó𝑛 (11)
2
En las anteriores ecuaciones, 𝑘 hace referencia al defecto con menor y mayor distancia
longitudinal del segmento 𝑖 para el límite inferior y superior, respectivamente.
Por otro lado, dado que el objetivo es describir el estado de corrosión actual de la tubería
mediante los segmentos es necesario buscar variables que caractericen adecuadamente
cada uno de los segmentos. Puesto que solo se cuenta con la caracterización de cada uno
de los defectos de forma individual, se extrapola el concepto de que un defecto se
caracteriza por un perfil crítico definido por las dimensiones más grandes del defecto
(profundidad, ancho y longitud) [26]. De esta manera, un segmento se caracteriza a partir
del defecto más crítico, de tal forma, que se realicen predicciones, a partir de este, que
permitan identificar ubicaciones de la tubería donde la corrosión conllevaría potencialmente
a fallas en una próxima inspección.
Existen otras posibilidades de caracterizar el segmento como, por ejemplo, mediante un

promedio de todos los defectos o a partir del defecto menos crítico. Sin embargo, estas
opciones no permiten tener predicciones adecuadas de los defectos más críticos dentro del
segmento. Por lo cual, es posible que las predicciones no sean capaces de identificar
defectos de corrosión que resulten, por ejemplo, en pérdidas de contención. Esto
conllevaría a que la metodología propuesta perdiera el valor agregado de ser una
herramienta que facilite la toma de acciones de inspección, mantenimiento y reparación de
la tubería y que permita la prevención de fallas. Por este motivo, en el presente proyecto se
caracteriza el segmento mediante el defecto más crítico y otras variables adicionales.
El defecto más crítico se considera como aquel que tiene un mayor factor estimado de
reparación (ERF). Dado esto, después de realizar el proceso de segmentación de la tubería,
se debe buscar, para cada uno de los Clusters generados, el reporte del defecto que tenga
un mayor ERF entre los agrupados. De este defecto crítico, se toman el ERF y las
34
dimensiones (largo, ancho y profundidad) para caracterizar el Cluster o segmento al que
pertenece.
Dado que se quiere tener en cuenta la variabilidad asociada a la formación de colonias se

crea una nueva variable que represente la distancia mínima que tiene el defecto crítico con
los defectos a su alrededor. También, se toma la distancia de la soldadura más cercana al
defecto más crítico porque las soldaduras suelen ser puntos de acumulación de material lo
que conlleva a la concentración de defectos de corrosión y de esta manera, puede ser un
foco de formación de colonias de corrosión. Finalmente, se calcula otra variable que
represente un estado general del segmento. Esta variable es el porcentaje del área afectada
del segmento por los defectos de corrosión.
En resumen, las variables que se usan para describir cada uno de los segmentos
determinados son las siguientes:
- 𝐸𝑅𝐹𝑚𝑎𝑥1𝑖 : Factor estimado de reparación del defecto más crítico del segmento 𝑖
en la primera inspección.
- 𝑙𝑎𝑟𝑔𝑜𝑖 : Longitud del defecto más crítico del segmento 𝑖 en la primera inspección.
- 𝑎𝑛𝑐ℎ𝑜𝑖 : Ancho del defecto más crítico del segmento 𝑖 en la primera inspección.
- 𝑝𝑟𝑜𝑓𝑢𝑛𝑑𝑖𝑑𝑎𝑑𝑖 : Profundidad del defecto más crítico del segmento 𝑖 en la primera
inspección.
- 𝑑𝑖𝑠𝑡𝑆𝑜𝑙𝑑𝐶𝑒𝑟𝑐𝑎𝑛𝑎𝑖 : Distancia a la soldadura más cercana del defecto más crítico del
segmento 𝑖 en la primera inspección.
- 𝑑𝑖𝑠𝑡𝐶𝑒𝑟𝑐𝑎𝑛𝑎𝑖 : Distancia mínima que tiene el defecto más crítico con los defectos a
su alrededor y que pertenecen al segmento 𝑖.
- %𝑎𝑓𝑒𝑐𝑡𝑎𝑐𝑖𝑜𝑛𝑖 : Porcentaje del área afectada del segmento 𝑖 por los defectos de
corrosión.
Para poder analizar el estado de un segmento en dos inspecciones diferentes (realizadas

en tiempos distintos), se utiliza la segmentación realizada sobre la primera corrida de
inspección en los datos de la segunda. Así, se localiza el defecto más crítico en la segunda
inspección para cada uno de los segmentos y se evalúa el estado de la integridad de la
tubería mediante el nuevo ERF. Esta es la variable de respuesta que se busca predecir con
las variables que caracterizan los segmentos de la primera corrida:
- 𝐸𝑅𝐹𝑚𝑎𝑥2𝑖 : Factor estimado de reparación del defecto más crítico del segmento 𝑖
en la segunda inspección.
35
De esta manera, cada segmento se convierte en una observación que conforma una nueva
base de datos con la que se entrenan los modelos de predicción. Cada observación es un
segmento que está caracterizado por las variables establecidas para la primera inspección
y tiene asociado un ERF de la segunda inspección.
5.3.5. Selección del mejor modelo de Clustering
Una vez descrita la forma como se caracterizan cada uno de los Clusters o segmentos, es
necesario determinar qué modelo de Clustering es el más adecuado. Principalmente, es
importante seleccionar el tipo de enlace (completo, promedio o simple) y el número de
Clusters o segmentos (𝑛) con los que se realiza el proceso de Clustering. Realizar esto a
través del dendograma no es procedimiento claro [52]. Por este motivo, en la presente
metodología se escoge aquel modelo con su respectiva configuración de parámetros que
minimice la variabilidad de los máximos ERF en la primera y la segunda corrida de
inspección. Para esto, se utiliza como indicador el error cuadrático medio (MSE) para
determinar la diferencia del ERF entre las dos inspecciones para cada uno de los 𝑛
segmentos generados. La ecuación para calcular este indicador se presenta a continuación:
∑𝑛𝑖=1(𝐸𝑅𝐹𝑚𝑎𝑥1𝑖 − 𝐸𝑅𝐹𝑚𝑎𝑥2𝑖 )2
𝑀𝑆𝐸 = (12)
𝑛
5.4. Pre-procesamiento de los datos
Después de realizar el proceso de segmentación de la tubería y la respectiva

caracterización es indispensable realizar un tratamiento de la base de datos que se va a
utilizar para entrenar los modelos. Esto con la finalidad de que se utilicen correctamente en
los algoritmos y se obtengan mejores resultados.
Como primer paso se deben eliminar de la base aquellas observaciones que corresponden
a falsas alarmas y a reparaciones. Las falsas alarmas se identifican por aquellos segmentos
que no tienen defectos de corrosión en la segunda inspección. Es decir, aquellas
observaciones que no tienen asociado ningún ERF en la segunda inspección. Respecto a
las reparaciones, se identifican al observar que el ERF disminuye en la segunda corrida de
inspección en comparación con el ERF determinado para la primera inspección. Estas
deben eliminarse para eliminar el ruido que genera la incertidumbre asociada a las
reparaciones realizadas.
36
Finalmente, después de haber realizado el pre-procesamiento, se divide la base de datos
en dos partes. Una parte es destinada para el entrenamiento de los modelos en el cual se
busca que el modelo aprenda, a partir de las observaciones, como estimar la variable
respuesta (𝐸𝑅𝐹𝑚𝑎𝑥2) [52]. Con la segunda parte, se busca evaluar la precisión del modelo
al probarlo con datos con los que no ha sido entrenado, es decir, con datos que el modelo
no ha “visto” [52]. Sin embargo, antes de realizar esto es necesario comprobar que la base
de datos esté correctamente balanceada respecto a la variable respuesta. Esto porque se
quiere que los modelos aprendan correctamente a predecir tanto segmentos que serán
críticos como los que no en una próxima inspección. Un segmento será crítico cuando en
una próxima inspección se caracterizará por tener un ERF mayor a 0.90. Es muy posible
que la base de datos esté no balanceada respecto a los segmentos que no serán críticos
porque los conjuntos de datos del mundo real se componen predominantemente de
ejemplos “normales” con solo un pequeño porcentaje de observaciones “anormales” [55].
Frente a esta situación, si se entrena los modelos con la base de datos desbalanceada, es
muy probable que los modelos tiendan a subestimar la criticidad de los segmentos en una
próxima inspección. Por tal motivo, es fundamental balancear la base de datos.
Por un lado, si la cantidad de datos es lo suficientemente grande, se puede realizar un

balanceo manual donde se seleccione un porcentaje similar entre los datos de segmentos
que serán críticos y los que no. Por otro lado, si no se cuenta con la cantidad de datos
suficiente, se pueden utilizar técnicas de Oversampling, que permitan aumentar el número
de observaciones de la clase minoritaria, o técnicas de Undersampling, que permitan
disminuir las observaciones de la clase mayoritaria.
5.4.1. SMOTE
En el presente proyecto, se propone utilizar la técnica de Synthetic Minority Over-Sampling

Technique (SMOTE). Este es un método que combina el Oversampling de la clase
minoritaria y el Undersampling de la clase mayoritaria [55]. El Oversampling se realiza
generando observaciones sintéticas a partir de las observaciones que actualmente se
tienen. Esto se realiza tomando muestras de la clase minoritaria e introduciendo ejemplos
sintéticos entre la muestra [55]. El Undersampling se realiza eliminando aleatoriamente
muestras de los datos de la clase mayoritaria hasta que la clase minoritaria se convierta en
un porcentaje específico de la clase mayoritaria [55]. De esta manera, se busca generar
una base de datos con observaciones balanceadas respecto a si el ERF es crítico o no en
la segunda inspección.
37
Antes de realizar el SMOTE se toma aleatoriamente el 70% del número de observaciones
clasificadas como críticas para incluirlas dentro de la base destinada para prueba. Esto con
el objetivo de probar los modelos con datos que si son reales. Con el 30% de observaciones
restantes y las observaciones clasificadas como no críticas se realiza el SMOTE obteniendo
nuevas observaciones sintéticas clasificadas como críticas y eliminando observaciones
clasificadas como no críticas. Esto con el objetivo de balancear los datos. La totalidad de
estas observaciones generadas con el método SMOTE se destinan para la base de
entrenamiento. Para complementar la base de prueba con observaciones no críticas se
seleccionan aleatoriamente, de las observaciones originales, una cantidad suficiente para
que la base de prueba quede igual de balanceada, entre críticos y no críticos, a la base de
entrenamiento.
5.5. Entrenamiento de los modelos
Una vez pre-procesados los datos se realiza el entrenamiento de los modelos de Machine
Learning. Para realizar el ajuste de los modelos propuestos se utiliza la parte de la base de
datos destinada para el entrenamiento. Dado que se quiere desarrollar un modelo preciso
que pueda ser usado para predecir una variable respuesta con base en variables de
entrada, se deben considerar los modelos supervisados. Adicionalmente, dado que la
variable de respuesta es de tipo cuantitativa, es decir, de valores numéricos continuos, los
modelos más adecuados son los de regresión. En el presente proyecto se propondrán tres
algoritmos en específico del tipo mencionado: regresión lineal, regresión con componentes
principales y Random Forest. El primero, regresión lineal, se propone para tener como base
un modelo clásico de predicción. El segundo modelo, regresión con componentes
principales, se propone para tener un punto de comparación en caso de existan variables
correlacionadas. Por último, se propone el modelo de Random Forest para tener un punto
de comparación con un modelo mucho más moderno y cuyo principal objetivo es tener un
alto nivel de predicción. A continuación, se realiza una descripción de la metodología de
cada uno de los métodos propuestos:
5.5.1. Regresión lineal
El método de regresión lineal es un enfoque muy simple pero muy útil y ampliamente
utilizado dentro de las herramientas de aprendizaje estadístico [52]. Es un método que
permite predecir una respuesta cuantitativa y, además, sirve como un buen punto de partida
para comparar herramientas más modernas [52]. En general, este modelo busca predecir
una variable de respuesta 𝑌 a partir de múltiples variables (𝑝) predictoras 𝑋′𝑠. Para esto,
38
asume que existe una relación aproximadamente lineal entre las 𝑋′𝑠 y 𝑌 [52].
Matemáticamente, el modelo se puede escribir de la siguiente manera:
𝑌 = 𝛽𝑜 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + ⋯ + 𝛽𝑝 𝑋𝑝 (13)
En la ecuación (13), los 𝛽𝑗 son los coeficientes o parámetros del modelo de regresión lineal.
Sin embargo, son constantes no conocidas que pueden ser estimadas a partir de los datos
destinados para el entrenamiento [52]. Estas estimaciones son los 𝛽̂𝑗 con los cuales se
puede llegar a hacer una predicción 𝑦̂ de la variable respuesta. Matemáticamente, la
predicción se puede observar de la siguiente manera:
𝑦̂ = 𝛽̂𝑜 + 𝛽̂1 𝑋1 + 𝛽̂2 𝑋2 + ⋯ + 𝛽̂𝑝 𝑋𝑝 (14)
Para estimar los coeficientes de regresión 𝛽̂𝑗 , existen un gran número de formas que lo
hacen con gran precisión [52]. Sin embargo, la forma más utilizada es mediante el criterio
de mínimos cuadradados. En este, se selecciona los 𝛽̂𝑗 de tal manera que se minimice la
suma de los residuos al cuadrado:
𝑅𝑆𝑆 = ∑(𝑦𝑖 − 𝑦̂𝑖 )2 (15)

𝑖=1
5.5.2. Regresión con componentes principales
En el anterior método de regresión lineal, la predicción se realizaba a partir de las variables

o predictores originales. En este algoritmo, se busca transformar los predictores para
después ajustar un modelo de mínimos cuadrados usando las variables transformadas [52].
Específicamente, la transformación consiste en crear 𝑀 < 𝑝 variables, 𝑍1 , 𝑍2 , … , 𝑍𝑀 ,
mediante una combinación lineal de los 𝑝 predictores originales de la siguiente manera [52]:
𝑍𝑚 = ∑ 𝜙𝑗𝑚 𝑋𝑗 (16)
𝑗=1
Como se puede observar en la anterior ecuación, cada 𝑍𝑚 , también denominado

componente principal 𝑚, se determina a partir de la asignación de los pesos 𝜙𝑗𝑚 . Por
ejemplo, para el primer componente principal 𝑍1 los pesos se asignan de tal manera que se
defina una línea que sea lo más cercana posible a los datos [52]. En otras palabras, el
39
primer principal componente captura la mayoría de la información contenida en los
predictores. Para el segundo componente principal, se determinan los pesos de tal manera,
que 𝑍2 sea una combinación lineal de las variables que son no correlacionadas con 𝑍1 y
tienen la mayor varianza sujeta a esta restricción [52]. En otras palabras, 𝑍2 termina siendo
perpendicular u ortogonal a 𝑍1 . De esta manera, se construyen los demás componentes
principales, buscando que el nuevo componente sea lo más no correlacionado al anterior
componente.
Después de transformar las variables, asignando cada constante 𝜙𝑗𝑚 , se ajusta el modelo
de regresión de la siguiente manera [52]:
𝑦 = 𝜃𝑜 + ∑ 𝜃𝑚 𝑧𝑖𝑚 (17)
𝑚=1
Ahora los coeficientes de regresión son 𝜃0 , 𝜃1 , … , 𝜃𝑀 y también son constantes no conocidas

por lo que es necesario determinar su valor estimado (𝜃̂𝑗 ) por ejemplo, mediante el método
de mínimos cuadrados [52]. A esta técnica se le conoce como reducción de dimensiones
porque convierte un problema de estimar 𝑝 + 1 coeficientes (𝛽0 , 𝛽1 , … , 𝛽𝑝 ) a un problema en
el que se estiman 𝑀 + 1 coeficientes (𝜃0 , 𝜃1 , … , 𝜃𝑀 ), donde 𝑀 < 𝑝 [52]. Con este método, se
busca disminuir la variabilidad de los coeficientes ajustados y eliminar aquellas variables
que estén correlacionadas con otras. En general, la idea principal es encontrar la menor
cantidad 𝑀 componentes que expliquen la mayor variabilidad en los datos y tengan la mayor
relación con la variable respuesta [52].
Dado que el algoritmo de regresión con componentes principales consiste en identificar

aquellas direcciones en donde la variabilidad de los datos es mayor, las variables cuya
escala sea mayor a las demás pueden perturbar el análisis [52]. Por este mismo motivo,
este método es altamente sensible a Outliers [52]. Dado esto, es recomendable escalar
cada una de las variables antes de aplicar este método para que las variables tengan media
0 y desviación estándar de 1 y finalmente, eliminar los Outliers encontrados [52].
5.5.3. Random Forest
El algoritmo de Random Forest tiene como base la generación de múltiples árboles de

decisión. Un árbol de decisión consiste en una serie de reglas de división que separan los
datos en múltiples regiones no superpuestas (ver Figura 13b) [52]. Estas reglas se pueden
40
ver gráficamente (ver Figura 13a) mediante la analogía de un árbol que se dibuja al revés.
En este sentido, las hojas, también denominadas nodos terminales, se encuentran en la
parte inferior del árbol y representan cada una de las regiones en que se dividen los datos.
Los puntos a lo largo del árbol donde se realizan las reglas de división se denominan nodos
internos [52].
Figura 13. Representación gráfica de un árbol de decisión. (a) Árbol de decisión. (b) Regiones generadas [52]
Para cada observación de entrenamiento que caiga en la región 𝑅𝑗 , la predicción se calcula

como la media de todos los valores de respuesta de las observaciones utilizadas como
entrenamiento en 𝑅𝑗 [52]. Las reglas de división que crean cada una de las regiones se
establecen con el objetivo de minimizar la suma de los residuos al cuadrado que está dada
por:
𝐽
2
𝑅𝑆𝑆 = ∑ ∑ (𝑦𝑖 − 𝑦̂𝑅𝑗 ) (18)
𝑗=1 𝑖𝜖𝑅𝑗
Sin embargo, es inviable considerar computacionalmente cada partición posible de los

datos. Por esta razón, se utiliza el proceso de división binaria recursiva [52]. Este consiste
en ir de arriba hacia abajo del árbol realizando la mejor división, es decir, aquella separación
de los datos que obtenga la mejor reducción del RSS [52]. Este proceso de división se
realiza hasta alcanzar un criterio de parada como, por ejemplo, que cada una de las
regiones contenga no más de un número determinado de observaciones [52]. Después de
crear las regiones, la predicción de una observación de prueba se calcula usando la media
de las observaciones de entrenamiento en la región a la que pertenece esa observación de
prueba [52].
41
El algoritmo de Random Forest consiste en construir un número determinado de árboles de
decisión sobre muestras de entrenamiento generadas por Bootstrap [52]. Se caracteriza
especialmente porque al realizar cada regla de división se tiene en cuenta una muestra
aleatoria de 𝑚 predictores de un total de 𝑝 predictores [52]. En otras palabras, el algoritmo
al momento de establecer la regla de división no considera la totalidad de los predictores
disponibles. De esta forma, se logra que los múltiples árboles que se generan no estén
correlacionados en dado caso que exista un predictor muy fuerte y además, que se
disminuya la alta varianza que se genera con un solo árbol [52]. Al final, la predicción del
modelo es resultado del promedio de las predicciones realizadas por cada uno de los
árboles construidos.
5.6. Selección de los modelos
Como se puede observar en la anterior sección, cada uno de los modelos propuestos tiene
una metodología específica de ajuste. Dependiendo de la forma, la flexibilidad del modelo
puede cambiar y, se pueden obtener múltiples modelos. Dado esto, es necesario tener en
cuenta una metodología de selección del mejor modelo. A continuación, se presenta la
respectiva descripción de cómo hacer el proceso de selección para cada uno de los
algoritmos propuestos:
La precisión del modelo de regresión lineal al predecir una variable de respuesta depende
significativamente de los predictores usados [52]. Es importante tener en cuenta todas
aquellas variables predictoras que estén relacionadas con la variable respuesta. Sin
embargo, a medida que se incrementa el número de predictores se puede reducir la
capacidad predictiva del modelo cuando se evalúa este en nuevas observaciones
(Overfitting) y además, se hace la interpretación del modelo cada vez más compleja [52].
Es posible que todos los predictores disponibles estén asociados con la variable respuesta,
pero es más frecuente que la respuesta solo esté relacionada a un subconjunto de
predictores [52]. Con el fin de conocer aquellas variables predictoras que realmente están
asociadas a la variable respuesta, se debe realizar un proceso de selección de variables.
Este proceso se puede hacer de cuatro diferentes formas: Best Subset Selection, Forward
Selection, Backward Selection, o Mixed Selection.
El método de selección de Best Subset Selection consiste en ajustar cada uno de los
modelos que se pueden proponer a partir de la combinación de todas las 𝑝 variables
42
posibles [52]. De esta manera, se generarían 2𝑝 posibles modelos que se pueden evaluar,
lo que puede llegar a ser un problema respecto al tiempo computacional requerido [52]. Al
final, se escoge aquel modelo con menor suma de residuos al cuadrado y un mayor 𝑅 2.
Forward Selection consiste en un método en el que se comienza con un modelo que no

contiene ninguna variable predictora [52]. Poco a poco se va agregando las variables
predictores al modelo, una a la vez, hasta que todas las variables predictoras estén en el
modelo. Específicamente, en cada etapa se va agregando aquella variable que brinde la
mayor mejora adicional al ajuste del modelo [52]. Mediante este método la cantidad de
modelos a evaluar disminuye significativamente [52].
El método de Backward Selection provee también una alternativa eficiente,

computacionalmente, de selección de variables predictoras [52]. Este método funciona al
contrario que el de Forward Selection dado que comienza con un modelo que tiene en
cuenta todas las posibles variables predictoras 𝑝 [52]. Una a la vez, se va retirando la
variable menos útil del modelo.
Finalmente, el método de Mixed Selection consiste en una aproximación híbrida entre los
modelos Forward Selection y Backward Selection [52]. En esta se va agregando variables
al modelo de manera secuencial. Sin embargo, después de agregar cada nueva variable,
el método puede remover alguna otra variable que mejore el ajuste del modelo [52]. Este
método busca imitar el de Best Subset Selection manteniendo las ventajas de los métodos
de Forward Selection y Backward Selection [52].
En el presente proyecto se evalúan tres de los cuatro posibles métodos de selección: Best
Subset Selection, Forward Selection y Backward Selection. Al final se comparan los mejores
modelos obtenidos por cada método y se selecciona el más adecuado. Después de esto es
importante realizar un análisis sobre los supuestos de este modelo para identificar la
estabilidad de las predicciones. Primero, se debe evaluar que exista una relación lineal
entre los predictores y la variable respuesta [52]. También, se debe revisar que los residuos
cumplan con los supuestos de normalidad y homocedasticidad [52]. Finalmente, se debe
evaluar si el modelo propuesto tiene problemas de autocorrelación y multicolinealidad [52].
Al igual que el método de regresión lineal, el entrenamiento del algoritmo de regresión con
componentes principales consiste en determinar la cantidad de variables predictoras. Sin
embargo, para este algoritmo no se utiliza algún proceso de selección de variables. Por el
43
contrario, se busca establecer el mínimo número de componentes principales que expliquen
la mayor variabilidad de los datos y tengan la mayor relación con la variable respuesta [52].
Entre más componentes principales se usen en el modelo de regresión, el sesgo disminuye,
pero la varianza aumenta [52]. Además, el modelo de regresión con componentes
principales suele funcionar adecuadamente cuando con solo los primeros componentes
principales son suficientes para capturar la mayor parte de variación en los predictores [52].
Para el algoritmo de Random Forest se genera un modelo diferente dependiendo de los

parámetros de construcción de los árboles. El primero de ellos es el que determina el
número de variables predictoras que se tienen en cuenta al momento de realizar cada una
de las reglas de división [52]. Se busca que este valor sea menor al total de las variables
predictoras existentes dado que genera que los árboles que se construyan estén menos
correlacionados entre sí. Además, un número pequeño de variables a tener en cuenta
beneficia la predicción cuando existe un amplio número predictores correlacionados [52].
También está el parámetro que determina el número mínimo de observaciones que deben
tener los nodos terminales [52]. Finalmente, existe un último parámetro que determina el
número de árboles que se construirán dentro del algoritmo de Random Forest [52]. En este
algoritmo, si se incrementa este parámetro no conlleva al Overfitting. Es decir, que entre
más árboles se generen no se conlleva al problema de Overfitting. Sin embargo, si afecta
la eficiencia computacional. Por este motivo, se busca que se construyan el número árboles
mínimos con el objetivo de ahorrar recursos computacionales.
Dado que son diversos parámetros a seleccionar, es necesario generar modelos a partir de
diferentes valores de estos de tal manera, que se seleccione aquellos parámetros que
permitan tener un modelo con mayor precisión.
5.7. Evaluación de los modelos
Para evaluar el desempeño de la capacidad predictiva y/o la selección apropiada del nivel
de flexibilidad de cada uno de los modelos que se generan, se emplea el error de prueba
[52]. Este error de prueba es el promedio de los errores obtenidos de las predicciones
realizadas (𝑓̂(𝑥𝑖 )) con el modelo usado para nuevas observaciones (𝑥𝑖 ) que no han sido
tenidas en cuenta en el entrenamiento [52]. Para modelos de regresión, la medida del error
más usada es el error cuadrático medio (MSE) el cual, se determina de la siguiente manera
para 𝑛 observaciones de prueba [52]:
44
2
∑𝑛𝑖=1(𝑦𝑖 − 𝑓̂(𝑥𝑖 ))
𝑀𝑆𝐸 = (19)
𝑛
Específicamente, se busca un modelo que permita tener el menor error de prueba posible
[52]. Con este, es posible comparar los múltiples modelos que se proponen y seleccionar
el mejor. Sin embargo, en muchas ocasiones no se cuenta con una base de datos lo
suficientemente grande para poder destinar una parte para entrenamiento y otra para
prueba. Por tal motivo, existen diferentes técnicas que permiten estimar el error de prueba
utilizando únicamente la base de datos de entrenamiento [52]. A continuación, se presentan
los utilizados en la presente metodología:
5.7.1. k-Fold Cross Validation
Este método consiste en dividir aleatoriamente la base de datos de entrenamiento en 𝑘

grupos de un tamaño aproximadamente igual [52]. El primer grupo es considerado como
grupo de “prueba” y los restantes se destinan para el entrenamiento. A ese primer grupo se
estima el error de prueba. Este procedimiento se repite 𝑘 veces tomando en cada iteración
un grupo diferente para prueba y estimando su respectivo error [52]. Al final, el estimado de
error de prueba se determina de la siguiente manera, tomando en cuenta el error cuadrático
medio como medida:
2
∑𝑘𝑖=1(𝑀𝑆𝐸𝑖 )
𝐶𝑉(𝑘) = (19)
𝑘
El valor de 𝑘 típicamente se suele asignar como 5 o 10, siendo esta última la más utilizada
[52]. También, 𝑘 puede ser igual al número de observaciones (𝑛) lo que conllevaría a que
en cada iteración se seleccionara una observación como prueba. Sin embargo, esto
conlleva a un alto requerimiento computacional [52].
En la presente metodología, este método se utiliza principalmente para estimar el error de

prueba para los modelos de regresión lineal y de regresión con componentes principales.
Para los modelos de Random Forests, se utiliza el Out of Bag Error para estimar el error de
prueba.
5.7.2. Out of Bag Error
El Out of Bag Error es una forma de estimar el error de prueba en modelos basados en
Bagging [52]. Es decir, aquellos modelos que consisten en la construcción de árboles de
decisión ajustados repetidamente a muestras de observaciones obtenidas mediante
45
Boostrap [52]. Específicamente, se ha demostrado que cada árbol basado en Bagging usa
alrededor de dos tercios de las observaciones como entrenamiento. Las observaciones
restantes, un tercio, son denominadas Out of Bag [52]. Si se toma una de esas
observaciones y se realiza una predicción por cada uno de los árboles generados, es
posible obtener una estimación del error de prueba al promediar cada uno de los errores
obtenidos con cada árbol. De esta manera, se puede determinar un Out of Bag MSE para
estimar el error de prueba.
5.8. Prueba de los modelos
Una vez que se han entrenado los modelos y se ha hecho el respectivo proceso de
selección y evaluación de cada uno, se identifica cuál de ellos obtiene una mejor predicción
de la variable respuesta. Para realizar esto, en la sección 5.4 se realizó una separación de
las observaciones de tal forma, que algunas se destinaron para el entrenamiento y otras
para la prueba. Con estas últimas, se busca probar la capacidad de predicción de cada uno
de los modelos bajo las mismas nuevas observaciones. Esta base de prueba se mantiene
aislada de toda la metodología de generación de observaciones sintéticas, entrenamiento,
selección y evaluación de los modelos. De esta manera, se pueden probar cada uno de los
modelos con observaciones que nunca han visto y además se permite asegurar que durante
la optimización de los modelos no se haya generado Overfitting.
Específicamente, se propone utilizar el indicador de error MSE, ecuación (19), de tal forma,
que entre menor sea, la predicción va a ser mucho más precisa.
5.9. Evaluación de modelo para toma de decisiones y reentrenamiento
Después de haber elegido el mejor modelo, la metodología propuesta finaliza con la

predicción del ERF en una próxima inspección. Es decir, se evalúa los modelos como parte
del proceso de toma de decisiones para la asignación de tareas de reparación a lo largo de
la tubería. Para esto, se recomienda reentrenar el modelo nuevamente con los datos
utilizados tanto en el entrenamiento como en la prueba de los modelos. Después, la
predicción se realizará utilizando las observaciones de la última corrida de inspección en
línea (ILI) disponible. De esta manera, se buscará predecir el ERF de los segmentos
actuales en una inspección futura. Luego de realizar las predicciones, es criterio del
ingeniero a cargo tomar las respectivas decisiones de inspección, mantenimiento y
reparación de los defectos de corrosión en la tubería.
46
Finalmente, los modelos deben reentrenarse con los datos que se van adquiriendo con las
nuevas inspecciones en línea (ILI) que se realicen. Para esto, se debe seguir la misma
metodología propuesta en este proyecto teniendo principal cuidado en el balanceo de la
base de datos. Es muy probable que las nuevas observaciones que se tomen se encuentren
desbalanceados hacia los defectos no críticos. Por tal motivo, es fundamental realizar un
adecuado pre-procesamiento de los datos antes de reentrenar el modelo propuesto.
47
6. RESULTADOS
Los siguientes resultados se obtuvieron utilizando el software R, específicamente, se

usaron las funciones hclust() para realizar el Clustering jerárquico, lm() para realizar las
regresiones lineales, pcr() para determinar el modelo de regresión por componentes
principales, y randomForest() para generar el ensamble de árboles. A continuación, se
presenta un caso de estudio en el que se prueba la metodología propuesta:
6.1. Base de datos ILI
Para evaluar la metodología propuesta en este proyecto, se utiliza una base de datos
compuesta de los reportes generados por dos inspecciones en línea (ILI) realizadas a una
tubería de gasolina con una longitud de 44 kilómetros, un diámetro externo de 273.1
milímetros, un espesor de pared promedio de 6.35 milímetros y una máxima presión de
operación admisible (MAOP) de 1500 psig. Las dos ILI fueron realizadas con dos años de
diferencia sobre la misma tubería. Por motivos de confidencialidad, no es posible divulgar
públicamente en ningún medio escrito o virtual más información acerca de la tubería y de
la compañía de la cual procede esta base de datos.
6.2. Exploración de la base de datos
En la tubería analizada se encuentran concretamente las siguientes anomalías:

abolladuras, defectos de manufactura, ovalidad, irregularidades de soldadura, y pérdidas
de metal por corrosión. En detalle, la base de datos está compuesta por 133,815 reportes
de anomalías encontradas durante la primera inspección y de 122,803 en la segunda
inspección. De estos reportes, 33,466 y 59,102 son defectos de corrosión, respectivamente.
Dentro de los 33,466 reportes de la primera inspección, se encuentran tanto los reportes de
las agrupaciones como los reportes individuales de los defectos agrupados. Dado esto, es
necesario eliminar aquellos reportes de los defectos que fueron agrupados con el motivo,
de considerar la agrupación como un único defecto. De este procedimiento, se encuentra
que 28,404 de los reportes se convierten realmente 1,796 reportes. Por lo cual, ahora la
base de datos cuenta con 6,858 reportes de corrosión de la primera inspección. Lo mismo
se realiza para los datos de la segunda inspección, resultando que de los 59,102 reportes
realmente son 15,013 reportes de corrosión.
Por otro lado, de los 6,858 reportes de corrosión de la primera inspección, el 13.14% se
encuentran en la pared externa de la tubería y el 86.86% se encuentran en la pared interna.
48
Respecto a la segunda inspección, el 8.11% de los reportes son externos mientras que el
91.89% son internos. Dado esto, se debe tener en cuenta que existen una mayor cantidad
de reportes internos en comparación con la cantidad de reportes externos y
específicamente, existe un desbalanceo respecto a esta variable.
Adicionalmente, en la Figura 14 se puede observar una descripción de los datos respecto

a la variable de clasificación de los defectos que realiza la herramienta ILI entre: Pitting
(PITT), Circumferential Slotting (CISL), Circumferential Grooving (CIGR), Axial Grooving
(AXGR), Axial Slottting(AXSL), Pinhole (PINH) y General (GENE).
Figura 14. Porcentaje de defectos pertenecientes cada clasificación. (a) Datos de la primera inspección. (b)
Datos de la segunda inspección.
De los 6,858 reportes de corrosión de la primera inspección, se puede identificar que a

4,192 no se les reporta el ERF. Como se cuenta con la información de las dimensiones de
los defectos, es posible calcular el ERF para cada uno utilizando la ecuación (1). Esta
ecuación es referente al estándar ASME B31G dado que los demás reportes se realizan
bajo este mismo estándar. De esta forma, se es congruente con las demás observaciones.
Finalmente, se analiza la correlación de las variables observando que existen varias que
son altamente correlacionadas. Por ejemplo, las dimensiones (largo, ancho y profundidad)
presentan un alto coeficiente de correlación (aproximadamente de 0.7 para cada una) con
el ERF y de las dimensiones entre sí (aproximadamente 0.5).
49
6.3. Segmentación – Clustering
Para realizar la segmentación de la tubería, en el presente trabajo se propone realizarla

mediante el método de Clustering jerárquico bajo los tipos de enlace completo, promedio y
simple. Además, teniendo en cuenta dos tipos de distancia, Euclidiana y Manhattan. Para
comprobar la mejor configuración, se realizó el proceso de Clustering para cada
combinación posible obteniendo los siguientes resultados de la medida de MSE propuesta
en la sección 5.3.5:
Figura 15. Evaluación del MSE vs el número de Clusters para los diferentes tipos de enlaces propuestos y
utilizando la distancia Euclidiana.
Figura 16. Evaluación del MSE vs el número de Clusters para los diferentes tipos de enlaces propuestos y
utilizando la distancia Manhattan.
50
Tanto en la Figura 15 como en la Figura 16, se observa que la menor variabilidad entre los
máximos ERF de la primera y la segunda corrida de inspección se obtiene utilizando el
Clustering jerárquico con el tipo de enlace simple. Específicamente, se logra el mínimo valor
posible utilizando aproximadamente 3,000 como el número de Clusters generados.
Concretamente, para este número de Clusters se obtiene un MSE de 0.006641 para la
configuración simple-Euclidiano y un MSE de 0.006652 para la configuración simple-
Manhattan. Consecuentemente, se escoge realizar la segmentación de la tubería mediante
el método de Clustering jerárquico utilizando el tipo de enlace simple y la distancia
Euclidiana. El dendograma obtenido mediante este método se observa a continuación:
Figura 17. Dendograma obtenido en el Clustering jerárquico utilizando el tipo de enlace simple y la distancia
Euclidiana.
Después de realizar el proceso de segmentación de la tubería, se caracteriza cada uno de

los segmentos de acuerdo a lo explicado en la sección 5.3.4. De esta forma, se crea una
nueva base de datos compuesta por 3,000 observaciones donde cada observación hace
referencia a un segmento caracterizado. A partir de esta base de datos, se realizará el
entrenamiento de los modelos propuestos.
6.4. Pre-procesamiento
Antes de realizar el entrenamiento de los modelos, se efectúa el pre-procesamiento de la

nueva base de datos. Como primer paso, se eliminan aquellas observaciones que
corresponden a falsas alarmas y a reparaciones. De los 3,000 datos existentes se
removieron 1,172 lo que conlleva a que la base de datos ahora solo cuente con 1,828
observaciones.
Finalmente, es necesario comprobar que la base de datos esté correctamente balanceada

respecto a la variable respuesta. Para esto, se clasifica cada una de las observaciones
teniendo en cuenta que, si el ERF de la segunda inspección (𝐸𝑅𝐹𝑚𝑎𝑥2) es mayor o igual a
51
0.9, el segmento (observación) se considera como crítico y, si es menor, como no crítico.
Al realizar esto, se observa la siguiente distribución:
Tabla 2. Descripción de la clasificación de la criticidad de la base de datos sin balancear.
Clasificación Crítico No Crítico

Número de observaciones 84 1744
Porcentaje del total de observaciones 4.6% 95.4%
Como se puede observar, la base de datos se encuentra desbalanceada respecto a la

variable respuesta. Dado esto, se utiliza la técnica propuesta de SMOTE para realizar
Oversampling y Undersampling sobre las observaciones. Sin embargo, antes de realizar el
SMOTE se toma aleatoriamente el 70% del número de observaciones clasificadas como
críticas (aproximadamente 58) para incluirlas dentro de la base destinada para prueba. Con
el 30% de observaciones restantes (26) y las 1,774 observaciones clasificadas como no
críticas se realiza el SMOTE obteniendo 263 observaciones sintéticas críticas y 217
observaciones no críticas. La totalidad de estas observaciones se destinan para la base de
entrenamiento. Para complementar la base de prueba con observaciones no críticas se
seleccionan aleatoriamente, de las 1,774 observaciones originales, una cantidad suficiente
para que la base de prueba quede igual de balanceada a la base de entrenamiento. A
continuación, se presentan el número de observaciones finales destinadas para cada una
de las bases de datos:
Tabla 3. Descripción de la clasificación de la criticidad para cada una de las bases

balanceadas.
Número de Observaciones Número de Observaciones

Base de Datos
Críticas No Críticas
Entrenamiento 263 217
Prueba 58 47
6.5. Entrenamiento de los modelos
Una vez pre-procesados los datos se realiza el entrenamiento de los modelos de Machine
Learning utilizando la base de datos de entrenamiento. A continuación, se presentan los
resultados del entrenamiento, selección y evaluación para cada uno de los algoritmos
propuestos:
52
Para la regresión lineal, se realiza el proceso de selección de variables predictoras

mediante los métodos Best Subset Selection, Forward Selection y Backward Selection.
Estos métodos de selección se combinan con el algoritmo de k-Fold CrossValidation de tal
forma que se pueda estimar el error de prueba MSE y se pueda comparar cada uno de los
modelos obtenidos mediante este indicador. El algoritmo de k-Fold CrossValidation se
realiza con un valor 𝑘 = 10. Para los tres métodos de selección se obtienen exactamente
los mismos resultados que se muestran a continuación:
Figura 18. Resultados de la selección de variables predictoras para el modelo de regresión lineal.
Al observar los resultados obtenidos, se identifica que el modelo que minimiza el MSE es
el que utiliza una sola variable predictora. Específicamente, esta variable es la de la
profundidad del defecto de corrosión más crítico. A partir de esto, el modelo para predecir
el ERF en una próxima inspección (𝐸𝑅𝐹𝑚𝑎𝑥2) del segmento 𝑖 se puede expresar mediante
la siguiente ecuación:
𝐸𝑅𝐹𝑚𝑎𝑥2𝑖 = 0.5174 + 0.0164 ∗ 𝑝𝑟𝑜𝑓𝑢𝑛𝑑𝑖𝑑𝑎𝑑𝑖 (20)
53
Con este modelo, se obtiene un R2 ajustado de 0.7283. Sin embargo, para los modelos de
regresión lineal es importante verificar los supuestos. Primero, se debe verificar la
suposición de una relación lineal entre los predictores y la variable respuesta. Para esto se
grafica los valores ajustados (predichos) en contra de los residuales del modelo. En la
Figura 19 se puede observar la gráfica resultante de la cual se puede identificar que existe
un patrón no lineal que no puede ser modelado con precisión usando una regresión lineal.
Especialmente, cuando se intenta realizar predicciones con valores de ERF mayores a 1.2.
Para solucionar esto, se puede utilizar transformaciones no lineales como log 𝑋, √𝑋 o 𝑋 2
sobre las variables predictoras.
Figura 19. Resultados de la selección de variables predictoras para el modelo de regresión lineal.
También es conveniente revisar la normalidad y la homocedasticidad de los residuos del

modelo. Para comprobar esto, se usa el Q-Q plot (Figura 20) para el caso de normalidad y
el gráfico de residuos estandarizados versus los valores ajustados (Figura 21) para el caso
de la homocedasticidad. Al observar las Figuras 20 y 21, se puede ver claramente que no
se cumple ninguno de los supuestos de normalidad y homocedasticidad, respectivamente.
Primero, en la Figura 20 los datos de los extremos se alejan notoriamente de la recta lo que
conlleva a decir que los residuos no se asemejan a una distribución normal. En la Figura
21, la línea de ajuste (línea roja) de los residuos no es una recta horizontal sino por el
contrario, tiene un comportamiento exponencial. Consecuentemente, la varianza de los
residuos no es constante.
54
Figura 20. Q-Q plot para observar la normalidad de los residuos.
Figura 21. Gráfico de residuos estandarizados contra los valores ajustados para observar la
homocedasticidad de los residuos.
Todo lo mencionado anteriormente se puede comprobar utilizando las pruebas de Shapiro-

Wilk y de Breush-Pagan para probar normalidad y homocestadicidad. Los resultados de los
p-valores de cada prueba se muestran a continuación:
Tabla 4. P-valores para las pruebas de normalidad y homocedasticidad de los residuos.
Prueba p-valor
Shapiro-Wilk (Normalidad) 5.72 ∗ 10−16
Breush-Pagan (Homocedasticidad) 1.43 ∗ 10−9
55
A partir de los resultados de la Tabla 4, se puede observar que los p-valores para ambas
pruebas son menores a 0.05. Por tal motivo, se puede concluir con un nivel de confianza
del 95% que los residuos no cumplen los supuestos de normalidad ni de homocedasticidad.
Otro supuesto importante de la regresión lineal es que los residuales del modelo no estén
correlacionados y sean independientes. Dado el contexto del problema donde se está
utilizando una base de datos compuesta por observaciones tomadas en inspecciones en
línea (ILI) realizadas en puntos de tiempos discretos puede llegar a suceder que las
observaciones estén autocorrelacionadas como una serie de tiempo. Para observar esto,
se utiliza la gráfica de residuos versus las observaciones ordenadas (Figura 22). En este
caso, no se observa ningún patrón que conlleve a concluir algún tipo de correlación de los
datos.
Figura 22. Gráfico de residuos versus las observaciones ordenadas para observar independencia.
Por último, no se evalúa problemas de multicolinealidad porque es un modelo de una sola

variable. Frente a lo expuesto anteriormente el modelo regresión lineal no es adecuado para
el contexto presentado. Por tal motivo, las conclusiones que se obtengan del ajuste del
modelo solo pueden ser tomadas como sospechas. Sin embargo, es interesante analizar la
precisión sobre la predicción de la variable respuesta que se puede lograr con este modelo
dado que el objetivo principal es predecir más no interpretar el modelo. Por esta razón, es
que inicialmente se selecciona el modelo de regresión lineal con menor MSE estimado de
prueba.
56
Dado que algunas variables predictoras presentan una alta correlación entre ellas, se
propone usar el algoritmo de regresión con componentes principales. Para determinar los
componentes principales y específicamente, establecer el mínimo número de componentes
a tener en cuenta en el modelo, se utiliza el algoritmo de k-Fold CrossValidation. De esta
forma se puede estimar el error de prueba MSE y se puede comparar cada uno de los
modelos obtenidos mediante este indicador. El algoritmo de k-Fold CrossValidation se
realiza con un valor 𝑘 = 10. A continuación, se muestran los pesos asignados a cada
variable para el cálculo de cada uno de los componentes (𝜙𝑗𝑚 ):
Tabla 5. Pesos asignados a cada variable en el cálculo de cada uno de los componentes.
Variable Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7

𝐸𝑅𝐹𝑚𝑎𝑥1 0.503 -0.333 0.208 - 0.173 - 0.745
𝑙𝑎𝑟𝑔𝑜 0.446 0.414 - - -0.39 0.669 -0.112
𝑝𝑟𝑜𝑓𝑢𝑛𝑑𝑖𝑑𝑎𝑑 0.441 -0.474 0.134 -0.137 0.352 - -0.645
𝑎𝑛𝑐ℎ𝑜 0.498 0.223 - - -0.401 -0.728 -
%𝑎𝑓𝑒𝑐𝑡𝑎𝑐𝑖𝑜𝑛 0.238 0.582 -0.343 - 0.694 - -
𝑑𝑖𝑠𝑡𝑆𝑜𝑙𝑑𝐶𝑒𝑟𝑐𝑎𝑛𝑎 -0.203 0.168 0.332 -0.898 - - -
𝑑𝑖𝑠𝑡𝐶𝑒𝑟𝑐𝑎𝑛𝑎 - 0.275 0.837 0.402 0.215 - -
Al interpretar la Tabla 5, se puede identificar que el primer componente recoge

mayoritariamente la información del ERF1 y de las dimensiones de los defectos, es decir,
largo, ancho y profundidad. Para el segundo componente, se toma en mayor proporción
información del porcentaje del área afectada y la profundidad. En la Figura 23, se puede
observar la proporción acumulada de la varianza que es explicada por cada uno de los
componentes principales. De esta gráfica se puede identificar que con los dos primeros
componentes se puede describir aproximadamente el 60% de la variabilidad de los datos.
Si se incluye 5 componentes en el modelo se logra describir aproximadamente el 95% de
la variabilidad de los datos.
57
Figura 23. Proporción acumulada de la varianza que es explicada por cada uno de los componentes
principales.
Finalmente, en la Figuras 24 y 25 se observa el comportamiento del MSE estimado y del

R2 en donde es posible identificar el número de componentes óptimo que debe contener el
modelo para obtener una buena predicción de ERF en una próxima inspección.
Figura 24. Comportamiento del MSE a partir del número de componentes principales incluidos en el modelo.
58
Figura 25. Comportamiento del R2 a partir del número de componentes principales incluidos en el modelo.
De estas gráficas se puede observar que se logra minimizar el MSE estimado y maximizar
R2 del modelo, cuando se incluyen 6 componentes principales. Sin embargo, a partir del
componente 5 la mejora es mínima. Dado que se busca asignar al modelo el menor número
de componentes, seleccionar el modelo que incluya 5 componentes es una buena decision.
Con este modelo se obtiene un valor de R2 ajustado de 0.7153. Finalmente, se comprueba
que existían variables predictoras que estaban correlacionadas y contenian en gran parte,
la misma información de la variable respuesta (𝐸𝑅𝐹𝑚𝑎𝑥2) como se habia mencionado en
la seccion 6.2 del presente documento.
Con el objetivo de tener un punto de comparación con técnicas modernas de Machine

Learning, se propone el modelo de Random Forest. Para la selección del mejor modelo, se
busca aquellos parámetros de construcción de los árboles de tal manera que se obtenga el
menor error estimado de prueba. Para realizar la estimación del error de prueba se utiliza
el Out of Bag Error. En las Figuras 26, 27 y 28 se puede observar la evolución del Out of
Bag Error en función del número de predictores evaluados en cada división, del número de
mínimo de observaciones que debe tener los nodos terminales y del número de árboles
ajustados, respectivamente.
De la Figura 26, se puede determinar que el número óptimo de variables predictoras a

evaluar en cada una de las reglas de división, con el objetivo de minimizar el error de prueba
estimado, es 6. Sin embargo, el cambio del Out of Bag Error respecto a utilizar 5 es muy
59
pequeño. Dado que entre más pequeño sea la cantidad de variables a evaluar, menos
correlacionados van a estar los árboles que se construyen y además, favorece la predicción
cuando existen variables predictoras correlacionas, es conveniente usar 5 como el número
de variables predictoras a evaluar en cada división.
Figura 26. Evolución del Out of Bag Error en función del número de predictores empleados.
Figura 27. Evolución del Out of Bag Error en función del número mínimo de observaciones en nodos
terminales.
60
De la Figura 27 se puede determinar que el número óptimo de observaciones que deben
tener los nodos terminales, con el objetivo de minimizar el error de prueba estimado, es 1.
Adicionalmente, en la Figura 28 se puede observar que, a partir de la generación de 200
árboles, el cambio en el Out of Bag Error es mínimo. Por tal motivo, se selecciona este valor
como parámetro de construcción de los árboles.
Figura 28. Evolución del Out of Bag Error en función del número de árboles.
Al final, la selección del mejor modelo arroja como resultado utilizar el algoritmo de Random
Forest con 5 predictores evaluados en cada división, con 1 observación mínima que debe
tener los nodos terminales y ajustando 200 árboles. Con este modelo se obtiene un R2
ajustado de 0.8963. Adicionalmente, en la Figura 29 se encuentra la importancia de cada
una de las variables en el modelo propuesto. En esta figura, se reporta cuanto en promedio
disminuiría la precisión (MSE) en las predicciones de prueba cuando una variable se
excluye del modelo. De esta manera, se puede identificar que las variables más importantes
en el modelo son la profundidad del defecto más crítico (𝑝𝑟𝑜𝑓𝑢𝑛𝑑𝑖𝑑𝑎𝑑) y la distancia mínima
que tiene el defecto más crítico con los defectos a su alrededor (𝑑𝑖𝑠𝑡𝐶𝑒𝑟𝑐𝑎𝑛𝑎) para la
predicción del ERF en una próxima inspección.
61
Figura 29. Importancia de las variables en el mejor modelo de Random Forest construido.
6.6. Prueba de los modelos
Después de identificar el modelo más adecuado para cada uno de los algoritmos
propuestos, se valida cada uno de ellos con la base de datos de prueba. Los resultados
obtenidos se muestran en la siguiente tabla:
Tabla 6. Comparación de los resultados de predicción de los tres modelos propuestos.
R2 MSE
Modelo
Ajustado Prueba
Regresión lineal
0.7283 0.008885
𝐸𝑅𝐹𝑚𝑎𝑥2𝑖 = 0.5174 + 0.0164 ∗ 𝑝𝑟𝑜𝑓𝑢𝑛𝑑𝑖𝑑𝑎𝑑𝑖
Regresión con componentes principales

0.7183 0.008453
(Utilizando 5 componentes principales)
Random Forest
(Evaluando 5 predictores en cada división, con 1 0.8968 0.004869
observación mínima en los nodos terminales y
ajustando 200 árboles)
A partir de los anteriores resultados, se puede observar que el modelo de Random Forest
es el que mejor resultados obtiene tanto en el MSE de entrenamiento como en el MSE de
prueba. Además, es el que mejor R2 Ajustado tiene entre todos los modelos.
Teniendo en cuenta que la prioridad es minimizar el MSE de prueba (estimado en el

entrenamiento), es adecuado escoger el modelo de Random Forest como método de
predicción del ERF en una próxima inspección de la tubería.
62
6.7. Análisis de costos
Para justificar el uso del modelo propuesto, se realiza un análisis de costos en dos
escenarios diferentes. El primero donde no se cuenta con el modelo de predicción y el
segundo escenario donde sí se cuenta con el modelo y se toman las acciones pertinentes.
Para realizar esta comparación, se utiliza la base de datos de prueba de tal forma que el
análisis se base en datos imparciales respecto al modelo.
Adicionalmente, se utilizan los costos estimados por Zhang y Zhou [23], quienes reportan
unas aproximaciones a los costos asociados a: realizar una inspección en línea; realizar
una excavación asociada a una reparación de un defecto de corrosión y el uso de
recubrimientos y chaquetas/fundas para la reparación de los defectos. Además, realizan
una estimación de los costos asociados cuando se produce una falla (por ejemplo, pérdidas
de contención de la tubería). Concretamente, estos costos asociados a fallas se estiman
mediante unos costos directos, por ejemplo, de excavación y reemplazo de la sección
tubería, y unos costos indirectos que son muy complicados de especificar. Sin embargo,
presentan un punto de quiebre a partir del cual estos costos indirectos empiezan a tomar
valor. Para el presente análisis, se utiliza este punto de quiebre para estimar el costo total
asociado a una falla. Es importante decir que todos estos costos se estiman por junta, por
lo cual para el presente análisis se asume que es el mismo costo estimado para un
segmento. A continuación, se presentan los valores de cada uno de los costos en dólares
estadounidenses (USD), convertidos a la tasa actual, teniendo en cuenta que Zhang y Zhou
[23] los reportan en dólares canadienses (CAD):
Tabla 7. Costos estimados de reparación y falla de defectos de corrosión en tuberías [23].
Criterio Costo (USD/segmento)

Inspección en Línea (ILI) 53.2
Excavación por defecto de corrosión 15,200
Uso de recubrimientos 20,000
Uso de chaquetas/fundas 26,600
Costo directo por falla 98,800
Costo indirecto por falla >760,000
63
6.7.1. Primer escenario: sin modelo de predicción
Para evaluar el primer escenario, se realiza una revisión de la base de datos de prueba
para identificar aquellos segmentos que en la primera corrida de ILI no eran críticos, es
decir, tenían un ERF menor a 0.9, pero en la segunda corrida de ILI, se convirtieron en
críticos. Específicamente, se identifican 41 segmentos en la base de datos de prueba que
cumplen esos criterios. Sin embargo, para hacer un análisis adecuado se retiran aquellos
segmentos en los que el modelo no fue capaz de predecir que serían críticos, ERF mayor
a 0.9. Es decir, se dejan solo aquellos segmentos que realmente se les pudo evitar su falla
al utilizar el modelo de predicción. Al final, se encontraron 34 segmentos que cumplen con
todos los criterios mencionados. Estos segmentos se asumen que, dada su criticidad,
tuvieron una falla en la integridad. Por estas fallas, se generaron 29,199,200 USD en costos
(directos + indirectos) por fallas de la integridad de la tubería que se pudieron evitar.
6.7.2. Segundo escenario: con modelo de predicción
Al utilizar el modelo de predicción de ERF, pueden suceder cuatro tipos de resultados. El

primero de ellos es que el modelo prediga que el segmento no va a ser crítico en una
próxima inspección y realmente no sea crítico. El segundo consiste en que el modelo
predice que el segmento si va a ser crítico y verdaderamente no lo es. El tercero, muy
importante, radica en que el modelo predice que no va a ser crítico y ciertamente si lo es.
Finalmente, el último tipo consiste en que el modelo predice que sí va a ser crítico y
realmente sí lo es. Al evaluar estas posibles opciones en los resultados de predicción del
modelo sobre la base de datos de prueba, se obtienen los siguientes resultados:
Tabla 8. Desempeño de predicción del modelo sobre los datos de prueba.
Predicción / Real No Crítico Crítico

No Crítico 45 7
Crítico 2 51
A partir de los resultados mostrados en la Tabla 8, se realiza el respectivo análisis de costos.

Respecto al costo que se incurre cuando el modelo predice un segmento como crítico y
verdaderamente lo es, se asume un costo estimado por reparación de 74,100 USD. Para
estimar este costo se asumen que la mitad de las reparaciones requieren de recubrimiento
y la otra mitad de chaquetas/fundas. Además, se le agrega el costo por excavación.
64
Por un lado, el costo estimado en el que se incurre cuando el modelo predice un segmento
como no crítico en una próxima inspección y verdaderamente lo es, se toma como un valor
de 858,800 USD. Este se estima como la suma de costos directos e indirectos asociados a
la ocurrencia de una falla. Por otro lado, el costo estimado en el que se incurre cuando el
modelo predice un segmento como crítico en una próxima inspección y ciertamente no lo
es, se toma como un valor de 61,560 USD. Este se determina como el costo que requiere
la excavación y se le agrega el 20% de los costos de reparación con recubrimiento y con
chaquetas.
Finalmente, no existe un costo asociado cuando el modelo predice un segmento como no

crítico y realmente no lo es. Después de esto, todos los costos estimados se multiplican por
su respectivo número de ocurrencia de la Tabla 8 y se le agrega el costo de realizar una
inspección en línea (ILI) obteniendo un valor de 9,905,460 USD. Frente a este costo
obtenido, se puede observar que la diferencia entre los costos de ambos escenarios es de
19,293,740 USD. Cabe destacar que estos resultados, se obtienen a partir de evaluar los
casos de una forma pesimista, asumiendo consecuencias significativas. Es decir, que si
una falla ocurre se asume la totalidad de los costos indirectos que fueron estimados. Dado
lo anterior, se observa que desarrollar una herramienta que ayude en la toma de decisiones
de inspección, mantenimiento y reparación como lo es el modelo de predicción de ERF
propuesto, puede traer beneficios económicos significativos para la industria petrolera.
65
7. CONCLUSIONES
El propósito de este proyecto fue proponer una metodología que permita la aplicación de
algoritmos de Machine Learning para la evaluación de la integridad de tuberías corroídas,
en una próxima inspección, mediante la predicción del Factor Estimado de Reparación.
Para esto, se definió una metodología de segmentación de la tubería, mediante la técnica
de Clustering jerárquico, que permite analizar los defectos de corrosión en inspecciones
realizadas en instantes de tiempo diferentes y que permite crear zonas vulnerables a este
problema. Esta metodología de segmentación tiene la ventaja de que permite tener en
cuenta comportamientos como la interacción de los defectos de corrosión que se
encuentran cercanos entre sí y, además, permite controlar las diferentes incertidumbres
asociadas al análisis de los defectos. Sin embargo, conlleva a que la caracterización de
todo un segmento de tubería esté marcada por variables pertenecientes al defecto más
crítico. Adicionalmente, se propusieron diferentes modelos de aprendizaje supervisado que
permitieran realizar la predicción del Factor Estimado de Reparación entre inspecciones.
Específicamente, se propusieron los modelos de regresión lineal, regresión con
componentes principales y Random Forest. Para cada uno de estos modelos, se propuso
un procedimiento detallado para la aplicación y evaluación de tal manera, que puedan ser
usados a partir de cualquier base de datos generada por una herramienta de inspección en
línea (ILI). En general, se demostró que estos modelos de Machine Learning tienen el
potencial de crear modelos de predicción precisos. Teniendo en cuenta que la prioridad es
maximizar la capacidad predictiva más allá de la interpretabilidad de los modelos, se escoge
el modelo de Random Forest, entre los propuestos, como el mejor método de predicción
del Factor Estimado de Reparación en una próxima inspección de la tubería.
Finalmente, se justificó el uso de la metodología mediante un análisis de costos para

determinar la importancia de la propuesta realizada. De esto se pudo concluir que utilizar
herramientas, como los modelos de predicción propuestos, como soporte para la toma de
decisiones de inspección, mantenimiento y reparación puede traer beneficios económicos
significativos para la industria petrolera. De ahí que la metodología propuesta a lo largo de
todo el proyecto tenga un valor agregado, adicionándole que hasta lo que se conoce, este
tipo de aplicación de algoritmos de Machine Learning no se había realizado. Sin embargo,
esta metodología se tiene que ir mejorando y perfeccionando con el tiempo y con la
adquisición de nuevos datos.
66
8. TRABAJO A FUTURO
Dado que el contexto de aplicación del presente proyecto es tan amplio y tan complejo se
pueden proponer una gran cantidad de mejoras y de nuevas exploraciones. Por ejemplo,
para la segmentación de la tubería se podría tener en cuenta variables externas como el
tipo de suelo, cruces de vías, instalaciones, poblaciones cercanas o el historial de
mantenimiento. Otro ejemplo, tener en cuenta las distancias reales entre los defectos
mediante un posicionamiento georeferenciado. También se podría explorar la opción de
realizar la segmentación de la tubería dividida en dos partes. Una que agrupe los defectos
que estén ubicados solamente en la pared externa de la tubería y otra que agrupe los
defectos que estén ubicados solamente en la pared interna. Asimismo, sería interesante
probar el hecho de cambiar la metodología de segmentación por una metodología como la
de los autores Liu et. al. [48], presentada en la sección 4.7 de este documento, que consiste
en realizar un análisis defecto a defecto entre inspecciones. De esta se podría evaluar si
mejora o no la capacidad de predicción de los modelos.
Respecto a los modelos de predicción se propone como trabajo a futuro evaluar la opción
de predecir otra variable diferente al Factor Estimado de Reparación como, por ejemplo, la
presión de estallido. También sería interesante lograr una comparación de lo propuesto en
el presente proyecto con aproximaciones determinísticas o estocásticas que intenten
modelar el crecimiento de los defectos de corrosión. Adicionalmente, se podría trabajar en
la interpretrabilidad del modelo de Random Forest o inclusive se podría evaluar más
técnicas o algoritmos de Machine Learning que permitan mejorar aún más la capacidad de
predicción como, por ejemplo, Gradient Boosting o Extremely Randomized Trees.
Asimismo, se pueden evaluar otras variables predictoras que no fueron tenidas en cuenta
en el presente proyecto pero que pueden llegar a ser significativas en la predicción de la
variable respuesta como, por ejemplo, la clasificación de forma realizada por la herramienta
ILI y el espesor de la tubería (Tabla 1).
Todo lo mencionado anteriormente, se propone realmente con el objetivo principal de crear

modelos y desarrollar herramientas que permitan predecir con precisión el comportamiento
de los defectos de corrosión para que puedan usarse en sistemas reales.
67
9. REFERENCIAS
[1] H. Wang, A. Yajima, R. Y. Liang y H. Castaneda, «A clustering approach for assessing

external corrosion in a buried pipeline based on hidden Markov random field model,»
Structural Safety, nº 56, pp. 18-29, 2015.
[2] J. A. Beavers y N. G. Thompson, «External Corrosion of Oil and Natural Gas

Pipelines,» ASM Handbook, vol. 13C, 2006.
[3] G. Pluvinage, O. Bouledroua, M. H. Meliani y R. Suleiman, «Corrosion defect analysis

using domain failure assessment diagram,» International Journal of Pressure Vessels
and Piping, nº 165, pp. 126-134, 2018.
[4] A. F. Pérez Suárez, S. Cabrales, R. Amaya Gomez y F. Muñoz, «Model for optimal
sectioning of hydrocarbon transportation pipelines by minimization of the expected
economic losses,» Journal of Loss Prevention in the Process Industries, nº 62, 2019.
[5] M. Xie y Z. Tian, «A review on pipeline integrity management utilizing in-line inspection
data,» Engineering Failure Analysis, vol. 92, pp. 222-239, 2018.
[6] R. Amaya Gomez, M. Sanchez Silva y F. Muñoz, «Integrity assessment of corroded

pipelines using dynamic segmentation and clustering,» Process Safety and
Environmental Protection, vol. 128, pp. 284-294, 2019.
[7] H. A. Kishawy y H. A. Gabbar, «Review of pipeline integrity management practices,»

International Journal of Pressure Vessels and Piping, nº 87, pp. 373-380, 2010.
[8] R. Amaya Gomez, M. Sanchez Silva, E. Bastidas Arteaga, F. Schoefs y F. Muñoz,

«Reliability assessments of corroded pipelines based on internal pressure – A review,»
Engineering Failure Analysis, nº 98, pp. 190-214, 2019.
[9] P. Hopkins, «Assessing the significance of corrosion in onshore oil and gas pipelines,»
de Underground Pipeline Corrosion, Woodhead Publishing, 2014, pp. 62-84.
[10] V. S. Sastri, «Corrosion processes and the use of corrosion inhibitors in managing
corrosion in underground pipelines,» de Underground Pipeline Corrosion, Woodhead
Publishing, 2014.
[11] U. Bhardwaj, A. P. Teixeira, C. Guedes Soares, M. S. Azad, W. Punurai y P.

Asavadorndeja, «Reliability assessment of thick high strength pipelines with corrosion
defects,» International Journal of Pressure Vessels and Piping, nº 177, 2019.
[12] S. A. Timashev y A. V. Bushinskaya, «PRACTICAL METHODOLOGY OF

PREDICTIVE MAINTENANCE FOR PIPELINES,» de Proceedings of the 8th
International Pipeline Conference , Calgary, 2010.
68
[13] A. C. Benjamin, J. L. F. Freire, R. D. Vieira y D. J. Cunha, «Interaction of corrosion
defects in pipelines e Part 1: Fundamentals,» International Journal of Pressure Vessels
and Piping, nº 144, pp. 56-62, 2016.
[14] M. Askari, M. Aliofkhazraei y S. Afroukhteh, «A comprehensive review on internal

corrosion and cracking of oil and gas pipelines,» Journal of Natural Gas Science and
Engineering, nº 71, 2019.
[15] R. Norsworthy, «Understanding corrosion in underground pipelines: basic principles,»

de Underground Pipeline Corrosion, Woodhead Publishing, 2014.
[16] H. A. Kishawy y H. A. Gabbar, «Review of pipeline integrity management practices,»

International Journal of Pressure Vessels and Piping, vol. 87, pp. 373-380, 2010.
[17] B. Eiber, «Overview of Integrity Assessment Methods for Pipelines,» de Washington

Cities and Counties Pipeline Safety Consortium, 2003.
[18] C. S. Brossia, «The use of probes for detecting corrosion in underground pipelines,»
de Underground Pipeline Corrosion, Woodhead Publishing, 2014, pp. 286-303.
[19] S. Brockhaus, M. Ginten, S. Klein, M. Teckert, O. Stawicki, D. Oevermann y S. Meyer,

«In-line inspection (ILI) methods for detecting corrosion in underground pipelines,» de
Underground Pipeline Corrosion, Woodhead Publishing, 2014, pp. 255-285.
[20] O. G. Palencia, A. P. Teixeira y C. Guedes Soares, «SAFETY OF PIPELINES

SUBJECTED TO DETERIORATION PROCESSES MODELLED THROUGH
DYNAMIC BAYESIAN NETWORKS,» de Proceedings of the ASME 2017 36th
International Conference on Ocean, Offshore and Arctic Engineering, Trondheim,
2017.
[21] American Society of Mechanical Engineers, Manual for Determining the Remaining
Strenght of Corroed Pipelines: ANSI-ASME B31G-1984: a Supplement to ANSI-ASME
B31 Code for Pressure Piping, ASME, 1985.
[22] S. Kariyawasam y W. Peterson, «Effective Improvements to Reliability Based

Corrosion Management,» de 8th International Pipeline Conference, Calgary, 2010.
[23] S. Zhang y W. Zhou, «Cost-based optimal maintenance decisions for corroding natural
gas pipelines based on stochastic degradation models,» Engineering Structures, nº
74, pp. 74-85, 2014.
[24] M. R. Dann y C. Dann, «Automated matching of pipeline corrosion features from in-
line inspection data,» Reliability Engineering and System Safety, vol. 162, pp. 40-50,
2017.
[25] M. Gentile , R. Vichi, R. Bruschi y F. Marchesani, «The Role of Material and Corrosion
Engineering in Managing the Service-Life Integrity of Flow and Export Lines,» de
Integrity of Pipelines Transporting Hydrocarbons, Dordrecht, Springer
Science+Business Media, 2011, pp. 127-155.
69
[26] Y. Bai y Q. Bai, Subsea Pipeline Integrity and Risk Management, Waltham: Gulf
Professional Publishing , 2014.
[27] E. S. Rodriguez y J. W. Provan, «Part II: Development of a General Failure Control

System for Estimating the Reliability of Deteriorating Structures,» Corrosion, vol. 45,
nº 3, pp. 193-206, 1989.
[28] H. P. Hong, «Inspection and maintenance planning of pipeline under external corrosion
considering generation of new defects,» Structural Safety, nº 21, pp. 203-222, 1999.
[29] H. P. Hong, «Reliability based optimal inspection and maintenance for pipeline under
corrosion,» Civil Engineering Systems, vol. 14, pp. 313-334, 1997.
[30] T. B. Morrison y R. G. Worthingham, « Reliability of high pressure line pipe under

external corrosion,» ASME, OMAE, V-B, pp. 401-408, 1992.
[31] T. Cheng y M. D. Pandey, «An accurate analysis of maintenance cost of structures

experiencing stochastic degradation,» Structure and Infrastructure Engineering, vol. 8,
pp. 329-339, 2012.
[32] W. J. Gomes, A. T. Beck y T. Haukaas, «Optimal inspection planning for onshore

pipelines subject to external corrosion,» Reliability Engineering and System Safety, nº
118, pp. 18-27, 2013.
[33] R. Amaya Gomez, J. Riascos Ochoa, F. Muñoz, E. Bastidas Arteaga, F. Schoefs y M.

Sanchez Silva, «Modeling of pipeline corrosion degradation mechanism with a Lévy
Process based on ILI (In-Line) inspections,» International Journal of Pressure Vessels
and Piping, vol. 172, pp. 261-271, 2019.
[34] P. Tang, J. Yang, J. Zheng, L. Wong, S. He, J. Ye y G. Ou, «Failure analysis and
prediction of pipes due to the interaction between multiphase flow and structure,»
Engineering Failure Analysis, vol. 16, nº 5, pp. 1749-1756, 2009.
[35] G. A. Zhang, L. Zeng, H. Huang y X. P. Guo, «A study of flow accelerated corrosion at

elbow of carbon steel pipeline by array electrode and computational fluid dynamics
simulation,» Corrosion Science, vol. 77, pp. 334-341, 2013.
[36] R. Amaya Gomez, M. Sanchez Silva y F. Muñoz, «Pattern recognition techniques

implementation on data from In-Line Inspection (ILI),» Journal of Loss Prevention in
the Process Industries, vol. 44, pp. 735-747, 2016.
[37] M. D. Pandey y D. Lu, «Estimation of parameters of degradation growth rate

distribution from noisy measurement data,» Structural Safety, vol. 43, pp. 60-69, 2013.
[38] F. A. Vargas Bazán y A. T. Beck, «Stochastic process corrosion growth models for
pipeline reliability,» Corrosion Science, vol. 74, pp. 50-58, 2013.
70
[39] S. X. Li, S. R. Yu, H. L. Zeng, J. H. Li y R. Liang, «Predicting corrosion remaining life
of underground pipelines with a mechanically-based probabilistic model,» Journal of
Petroleum Science and Engineering, vol. 65, nº 3-4, pp. 162-166, 2009.
[40] F. Caleyo, J. C. Velázquez, A. Valor y J. M. Hallen, «Probability distribution of pitting

corrosion depth and rate in underground pipelines: A Monte Carlo study,» Corrosion
Science, vol. 51, nº 9, pp. 1925-1934, 2009.
[41] NORSOK, CO2 Corrosion Rate Calculation Model, Oslo, 1998.
[42] C. de Waard y U. Lotz, «Prediction of CO2 Corrosion of Carbon Steel,» de NACE

International, Houston, United States, 1993.
[43] NACE International, «RP0502-2002 Pipeline External Corrosion Direct Assessment

Methodology,» de Standard Recommended Practice, Houston, USA, 2002.
[44] S. Timashev y A. Bushinskaya, Diagnostics and Reliability of Pipeline Systems,

Springer International Publishing, 2016.
[45] J. R. Campos, M. Vieira y E. Costa, «Exploratory Study of Machine Learning

Techniques for Supporting Failure Prediction,» de 2018 14th European Dependable
Computing Conference (EDCC), Lasi, 2018.
[46] S. Zajam, T. Joshi y B. Bhattacharya, «Application of wavelet analysis and machine

learning on vibration data from gas pipelines for structural health monitoring,» Procedia
Structural Integrity, vol. 14, pp. 712-719, 2019.
[47] B. T. Bastian, J. N, S. K. Ranjith y C. V. Jiji, «Visual inspection and characterization of

external corrosion in pipelines using deep neural network,» NDT and E International,
vol. 107, 2019.
[48] H. Liu, Z. Liu, B. Taylor y H. Dong, «Matching pipeline In-line inspection data for
corrosion characterization,» NDT and E International, vol. 101, pp. 44-52, 2019.
[49] POF, Pipeline Operators Forum, Specifications and requirements for intelligent pig
inspection of pipelines, 2009.
[50] O. Bouledroua, D. Zelmati y M. Hassani, «Inspections, statistical and reliability

assessment study of corroded pipeline,» Engineering Failure Analysis, vol. 100, pp. 1-
10, 2019.
[51] M. R. Dann y M. A. Maes, «Stochastic corrosion growth modeling for pipelines using
mass inspection data,» Reliability Engineering and System Safety, vol. 180, pp. 245-
254, 2018.
[52] G. James, D. Witten, T. Hastie y R. Tibshirani, An Introduction to Statistical Learning

with Applications in R, New York: Springer Science+Business Media, 2013.
71
[53] Y. Sahraoui y A. Chateauneuf, «The effects of spatial variability of the aggressiveness
of soil on system reliability of corroding underground pipelines,» International Journal
of Pressure Vessels and Piping, vol. 146, pp. 188-197, 2016.
[54] W. K. Muhlbauer, Pipeline Risk Management Manual : Ideas, Techniques, and

Resources, Amsterdam: Gulf Professional Publishing, 2004.
[55] N. V. Chawla, K. W. Bowyer, L. O. Hall y W. P. Kegelmeyer, «SMOTE: Synthetic

Minority Over-sampling Technique,» Journal of Artificial Intelligence Research, vol. 16,
pp. 321-357, 2002.
[56] G. V. Chillingar, R. Mourhatch y G. D. Al-Qahtani, The fundamentals of corrosion and

scaling for petroleum and environmental engineers, Houston: Gulf Publishing
Company, 2008.
[57] J. L. Bogdanoff y F. Kozin, Probabilistic models of cumulative damage, New York: John
Wiley and Sons, 1985.
[58] S. Hasan, F. Khan y S. Kenny, «Probability assessment of burst limit state due to
internal corrosion,» International Journal of Pressure Vessels and Piping, vol. 89, pp.
48-58, 2012.
[59] A. P. Teixeira, C. Guedes Soares, T. A. Netto y S. F. Estefen, «Reliability of pipelines

with corrosion defects,» International Journal of Pressure Vessels and Piping, vol. 85,
nº 4, pp. 228-237, 2008.
[60] A. Amirat, A. Mohamed Chateauneuf y K. Chaoui, «Reliability assessment of

underground pipelines under the combined effect of active corrosion and residual
stress,» International Journal of Pressure Vessels and Piping , vol. 83, nº 2, p. 2006.
[61] G. Bolzon, T. Boukharouba, G. Gabetta, M. Elboujdaini y M. Mellas, Integrity of

Pipelines Transporting Hydrocarbons, Dordrecht: Springer Science+Business Media,
2011.
72

U 830339

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

U 830339

Cargado por

Copyright:

Formatos disponibles

METODOLOGÍA PARA LA EVALUACIÓN DE LA

INTEGRIDAD DE TUBERÍAS CORROÍDAS MEDIANTE LA

BRANDON BARRERA MARTINEZ

Trabajo dirigido por:

UNIVERSIDAD DE LOS ANDES

La corrosión es una de las principales causas de fallas en tuberías de transporte de crudo

Para cumplir con el objetivo propuesto, se implementa una metodología de segmentación

Adicionalmente, se proponen diferentes modelos de aprendizaje supervisado que permiten

Al final se justifica el uso de la metodología mediante un análisis de costos para determinar

El objetivo principal de la gestión de la integridad es mantener las tuberías en condiciones

El objetivo principal de este proyecto se concentra en proporcionar una metodología que

Para este propósito, se propondrá una segmentación de la tubería que permita la

 Proponer una metodología de Machine Learning para la evaluación de la integridad

 Definir una metodología de segmentación de la tubería, mediante técnicas de

 Examinar diferentes modelos de aprendizaje supervisado que permitan realizar la

 Establecer un procedimiento detallado para la aplicación y evaluación de los

 Evaluar el uso de la metodología mediante un análisis de costos para determinar la

La corrosión es un mecanismo complejo que reduce la integridad estructural de la tubería

Los métodos que se usan para controlarlo se basan principalmente en el uso de

4.2. Detección de los defectos de corrosión

4.2.2. Evaluación directa

Como parte de los programas de monitoreo, se suele utilizar investigación de campo

4.2.3. Inspección en línea (ILI)

Figura 2. Esquema de una inspección en línea mediante un Smart Pig [3].

4.3. Evaluación de los defectos de corrosión

- 𝒅: Profundidad máxima del defecto de corrosión [in]

4.3.2. ASME B31G

Este método es el más utilizado y es conocido por proporcionar estimaciones de la presión

4.4. Cálculo del ERF

En las ecuaciones anteriores, 𝑀𝐴𝑂𝑃 hace referencia a la máxima presión de operación

4.5. Inspección periódica de los defectos de corrosión

Después de haber detectado y cuantificado los defectos de corrosión, es indispensable

El principal reto consiste en calcular la tasa de crecimiento de los defectos de corrosión

Desde el punto de vista de la seguridad, la selección del intervalo óptimo de inspección se

De la selección del intervalo óptimo de inspección basado en la relación costo-beneficio,

En resumen, los trabajos presentados buscan principalmente describir el proceso de

4.6. Modelos de crecimiento de defectos de corrosión

Se puede construir un modelo de crecimiento de defectos de corrosión no solo a partir de

4.7. Modelos de Machine Learning

En la literatura, se encontraron aplicaciones de algoritmos de Machine Learning para el

Específicamente, este proyecto busca implementar los algoritmos de Machine Learning de

La metodología general propuesta en este documento para evaluar la integridad de la

Figura 3. Esquema de la metodología propuesta. Modificación de [48].

5.1. Base de datos ILI

De acuerdo con el Foro de Operadores de Tuberías (POF) [49], el resultado de una

Figura 5. Dimensionamiento de los defectos. [49]

Es muy importante destacar que los reportes de la inspección en línea involucran

Finalmente, dependiendo de la herramienta de MFL (Magnetic Flux Leakage) y de UT

Cabe mencionar que la metodología propuesta en este documento se presenta de forma

Nombre de la Unidades Tipo de

𝑎𝑛𝑐ℎ𝑜 (𝑊) Ancho del defecto. Ver Figura 5. Milímetros Continua

𝑗𝑢𝑛𝑡𝑎 Número de la junta en la que se encuentra - Discreta

Adicionalmente, es importante identificar que variables se encuentran en diferente

5.3. Segmentación – Clustering

Figura 9. Ilustración de la segmentación de la tubería. Modificación de [53].

La última justificación de la segmentación, pero no menos importante, radica en el

Figura 10. Ilustración del crecimiento de la corrosión. [48]

Dado que el objetivo de la presente metodología es analizar un estado actual de la corrosión

5.3.1. Tipos de segmentación

Por otro lado, la segmentación dinámica es adaptable a condiciones externas o mecánicas

5.3.2. Modelos de Clustering

Clustering hace referencia a un conjunto amplio de técnicas para encontrar subgrupos o

𝑑1,2 = √(𝑥1 − 𝑥2 )2 + (𝑦1 − 𝑦2 )2 (8)