Oil&Gas Big Data - Optimize Exploration&ProductionData Driven ModellESPA

Machine Translated by Google

Aceite de
arnés y
Gas Big Data
con análisis
Serie de negocios de Wiley & SAS
La serie de negocios de Wiley & SAS presenta libros que ayudan a los gerentes de alto nivel con sus
decisiones de gestión críticas.
Los títulos de Wiley & SAS Business Series incluyen:
Gestión basada en actividades para instituciones financieras: impulsando los resultados finales
por Brent Bahnub
Fraude bancario: Uso de la tecnología para combatir las pérdidas por Revathi Subramanian
Análisis de Big Data: convertir Big Data en mucho dinero por Frank Ohlhorst
¡Marcado! Cómo los minoristas involucran a los consumidores con las redes sociales y la movilidad
por Bernie Brennan y Lori Schafer
Business Analytics para Customer Intelligence por Gert Laursen
Business Analytics para gerentes: llevar la inteligencia comercial más allá de los informes por
Gert Laursen y Jesper Thorlund
El acuerdo de pronóstico empresarial: exponer las malas prácticas y brindar información práctica
Soluciones de Michael Gilliland
Inteligencia de Negocios Aplicada: Implementando una Información Efectiva y

Infraestructura de tecnología de comunicaciones por Michael Gendron
Business Intelligence en la nube: Guía de implementación estratégica por Michael S.

Gendron
Factores de éxito de Business Intelligence: herramientas para alinear su negocio en el mundo

Economía de Olivia Parr Rud
Mejores prácticas del CIO: habilitar el valor estratégico con la tecnología de la información, segundo
Edición de Joe Stenzel
Conexión de silos organizativos: llevar la gestión del flujo de conocimientos al siguiente

Nivel con las redes sociales por Frank Leistner
Evaluación del riesgo crediticio: el nuevo sistema de préstamos para prestatarios, prestamistas y
Inversores por Clark Abrahams y Mingyuan Zhang
Scorecards de riesgo crediticio: desarrollo e implementación de puntajes crediticios inteligentes por

Naeem Siddiqi
El activo de datos: cómo las empresas inteligentes gobiernan sus datos para el éxito empresarial por
tony pescador
Entrega de Business Analytics: Directrices prácticas para las mejores prácticas por Evan Stubbs
Pronóstico impulsado por la demanda: un enfoque estructurado para el pronóstico, segunda edición
por Charles Chase
Optimización y reabastecimiento de inventario impulsado por la demanda: creación de una cadena

de suministro más eficiente por Robert A. Davis
La guía del ejecutivo para la estrategia empresarial de redes sociales: cómo las redes sociales
están transformando radicalmente su negocio por David Thomas y Mike Barlow
Previsión Económica y Empresarial: Análisis e Interpretación Econométrica

Resultados de John Silvia, Azhar Iqbal, Kaylyn Swankoski, Sarah Watt y
sam bullard
Guía para ejecutivos de Solvencia II por David Buckham, Jason Wahl y Stuart
Rosa
Cumplimiento de préstamos justos: inteligencia e implicaciones para la gestión del riesgo crediticio
por Clark R. Abrahams y Mingyuan Zhang
Informes financieros en moneda extranjera de euros a yenes a yuanes: una guía para
Conceptos fundamentales y aplicaciones prácticas de Robert Rowan
Análisis de la salud: obtener información para transformar la atención médica por Jason Burke
Heurística en análisis: una perspectiva práctica de lo que influye en nuestro análisis

Mundo de Carlos Andre Reis Pinheiro y Fiona McNeill
Human Capital Analytics: cómo aprovechar el potencial de su organización

El mayor activo de Gene Pease, Boyce Byerly y Jac Fitz-enz
Implemente, mejore y amplíe su sistema de datos longitudinales en todo el estado:

Creación de una cultura de datos en la educación por Jamie McQuiggan y Armistead
savia
Revolución de la información: uso del modelo de evolución de la información para hacer crecer su
negocio por Jim Davis, Gloria J. Miller y Allan Russell
Killer Analytics: las 20 métricas principales que faltan en su balance general por Mark Brown
Mejores prácticas de fabricación: optimización de la productividad y la calidad del producto

Bobby casco
Automatización de marketing: pasos prácticos para un marketing directo más efectivo por Jeff
LeSueur
Dominar el flujo de conocimiento organizacional: cómo compartir el conocimiento

Obra de Frank Leistner
El nuevo conocimiento: innovación impulsada por análisis de Thornton May
Gestión del Desempeño: Integrando la Ejecución de la Estrategia, Metodologías, Riesgo y

Análisis por Gary Cokins
Análisis empresarial predictivo: capacidades prospectivas para mejorar el negocio

Actuación de Lawrence Maisel y Gary Cokins
Retail Analytics: El arma secreta por Emmett Cox
Análisis de Redes Sociales en Telecomunicaciones por Carlos Andre Reis Pinheiro
Pensamiento estadístico: mejora del rendimiento empresarial, segunda edición de Roger W.

Hoerl y Ronald D. Snee
Domar el maremoto de Big Data: encontrar oportunidades en grandes flujos de datos con
Analítica avanzada de Bill Franks
Demasiado grande para ignorar: el caso comercial de Big Data por Phil Simon
El valor de Business Analytics: identificación del camino hacia la rentabilidad por Evan
talones
Visual Six Sigma: cómo hacer que el análisis de datos sea eficiente por Ian Cox, Marie A. Gaudard,
Philip J. Ramsey, Mia L. Stephens y Leo Wright
Gane con el análisis comercial avanzado: creación de valor comercial a partir de sus datos por
Jean Paul Isson y Jesse Harriot
Para obtener más información sobre cualquiera de los títulos anteriores, visite www.wiley.com.
Aceite de
arnés y
Gas Big Data
con análisis
Optimice la exploración y la producción
con modelos basados en datos
Keith R. Holdaway
Imagen de portada: © iStockphoto.com/aleksandarvelasevic

Diseño de portada: Wiley
Copyright © 2014 por SAS Institute Inc. Todos los derechos reservados.
Publicado por John Wiley & Sons, Inc., Hoboken, Nueva Jersey.
Publicado simultáneamente en Canadá.
Ninguna parte de esta publicación puede reproducirse, almacenarse en un sistema de recuperación o transmitirse
de ninguna forma ni por ningún medio, ya sea electrónico, mecánico, fotocopiado, grabado, escaneado o cualquier
otro, excepto según lo permita la Sección 107 o 108 de la Ley de Estados Unidos de 1976. Ley de derechos de
autor de los Estados Unidos, sin el permiso previo por escrito del editor o la autorización mediante el pago de la
tarifa correspondiente por copia a Copyright Clearance Center, Inc., 222 Rosewood Drive, Danvers, MA 01923,
(978) 750-8400, fax (978) 646-8600, o en la Web en www.copyright.com. Las solicitudes de permiso al editor deben
dirigirse al Departamento de permisos, John Wiley & Sons, Inc., 111 River Street, Hoboken, NJ 07030, (201)
748-6011, fax (201) 748-6008, o en línea en http ://www.wiley.com/go/permissions.
Límite de responsabilidad/Descargo de responsabilidad de la garantía: Si bien el editor y el autor han

realizado sus mejores esfuerzos para preparar este libro, no hacen declaraciones ni garantías con respecto
a la precisión o integridad del contenido de este libro y específicamente renuncian a cualquier garantía implícita
de comerciabilidad. o aptitud para un propósito particular. Los representantes de ventas o los materiales de ventas
por escrito no pueden crear ni extender ninguna garantía.
Los consejos y estrategias contenidos en este documento pueden no ser adecuados para su situación.
Deberías consultar con un profesional apropiado. Ni el editor ni el autor serán responsables de ninguna pérdida
de ganancias ni de ningún otro daño comercial, incluidos, entre otros, daños especiales, incidentales,
consecuentes o de otro tipo.
Para obtener información general sobre nuestros otros productos y servicios o para obtener asistencia
técnica, comuníquese con nuestro Departamento de atención al cliente dentro de los Estados Unidos al (800) 762-
2974, fuera de los Estados Unidos al (317) 572-3993 o al fax (317) 572-4002.
Wiley publica en una variedad de formatos impresos y electrónicos y por impresión bajo demanda.
Es posible que parte del material incluido con las versiones impresas estándar de este libro no se
incluya en los libros electrónicos o en la impresión bajo demanda. Si este libro hace referencia a
medios como un CD o DVD que no está incluido en la versión que compró, puede descargar este
material en http://booksupport.wiley.com. Para obtener más información sobre los productos Wiley,
visite www.wiley.com.
Datos de catalogación en publicación de la Biblioteca del Congreso:
ISBN 9781118779316 (tapa dura)

ISBN 9781118910955 (PDF electrónico)
ISBN 9781118910894 (ePub)
Impreso en los Estados Unidos de América
10 9 8 7 6 5 4 3 2 1
Dedico este libro a mi paciente y amorosa

familia, Patricia, mi esposa y mis hijos, Elyse e Ian.
Contenido
Prefacio xi
Capítulo 1 Fundamentos de Soft Computing 1

Panorama actual en el análisis de datos upstream 2
Evolución de Platón a Aristóteles 9 Modelos descriptivos y
predictivos 10 El proceso SEMMA 13 Análisis de alto
rendimiento 14 Tres principios de los datos upstream 18
Propuestas de valor de exploración y producción 20 Análisis
de campos petrolíferos 22 Soy a. . . 27 Notas 31
Capítulo 2 Gestión de datos 33

Propuesta de valor de exploración y producción 34
Plataforma de gestión de datos 36
Matriz de repositorios de datos 45
Datos estructurados y datos no estructurados 49
Procesos de extracción, transformación y carga 50
Big Data Big Analytics 52
Fuentes de datos estándar 54
Estudio de caso: marco de control de calidad de datos de producción 55
Mejores prácticas 57
Notas 62
Capítulo 3 Análisis de atributos sísmicos 63

Propuestas de valor de exploración y producción 63
Exploración sísmica de lapso de tiempo 64
Atributos sísmicos 65
Caracterización de yacimientos 68
Gestión de yacimientos 69
Análisis de trazas sísmicas 69
Estudio de caso: Propiedades del yacimiento definidas por atributos sísmicos 90
Notas 106
Capítulo 4 Caracterización y simulación de yacimientos 107

Análisis exploratorio de datos 111
Ciclo de Caracterización de Yacimientos 114
Análisis tradicional de datos 114
Modelos de simulación de yacimientos 116
Estudios de casos 122
Notas 138
Capítulo 5 Optimización de la perforación y terminación 139

Flujo de trabajo uno: Mitigación del tiempo improductivo 142
ix
x ÿ CONTENIDO
Flujo de trabajo dos: optimización de parámetros de perforación 151

Notas 173
Capítulo 6 Gestión de yacimientos 175

Yacimiento petrolífero digital del futuro 179
Centro Analítico de Excelencia 185
Flujos de trabajo analíticos: mejores prácticas 188
Notas 212
Capítulo 7 Pronóstico de la producción 213

Solución de análisis de curva de declinación basada en web 216
Estimación de reservas no convencionales 235
Estudio de caso: Predicción de producción de petróleo para pozo de relleno 237
Notas 242
Capítulo 8 Optimización de la producción 243

Notas 273
Capítulo 9 Análisis exploratorio y predictivo de datos 275

Componentes EDA 278
Gráficas y diagramas estadísticos EDA 284
Segmentaciones de conjunto 290
Visualización de datos 292
Notas 308
Capítulo 10 Big Data: estructurados y no estructurados 309

Experto híbrido y sistema basado en datos 315
Geoestadística multivariante 330
Grandes flujos de trabajo de datos 332
Integración de Técnicas de Soft Computing 336
Notas 341
Glosario 343
Sobre el autor 349
Índice 351
Prefacio
Mi motivación para escribir este libro proviene de los problemas acumulados que he presenciado
durante los últimos siete años que ahora prevalecen en la industria del petróleo y el gas aguas
arriba. Los tres temas más destacados son la gestión de datos, la cuantificación de la
incertidumbre en el subsuelo y la evaluación de riesgos en torno a las estrategias de ingeniería
de campo. Con la llegada del tsunami de datos a través de los silos de ingeniería dispares, es
evidente que los modelos basados en datos ofrecen una perspectiva increíble, convirtiendo Big
Data sin procesar en conocimiento procesable. Veo a los geocientíficos adoptando poco a poco
metodologías analíticas que incorporan técnicas informáticas blandas a medida que llegan a la
conclusión inevitable de que los estudios interpretativos y deterministas tradicionales ya no son
viables como enfoques monolíticos para obtener el máximo valor de Big Data en toda la cadena
de valor de exploración y producción.
La perspectiva estocástica y no determinista ya no es un pasatiempo profesional, ya que
la variedad de técnicas informáticas blandas gana credibilidad con el inicio crítico de artículos
técnicos que detallan el uso de modelos predictivos y basados en datos. La Sociedad de
Ingenieros de Petróleo ha sido testigo de una publicación increíble de artículos en conferencias
a nivel mundial que brindan evidencia beneficiosa de la aplicación de redes neuronales, lógica
difusa y algoritmos genéticos a las disciplinas de modelado y simulación de yacimientos. A
medida que la vieja escuela se retire de la industria del petróleo y la nueva generación de
geocientíficos se gradúe con una apreciación avanzada de las estadísticas y las metodologías
informáticas, desarrollaremos una aplicación aún mayor en el upstream. La era del campo
petrolero digital plagado de pozos inteligentes genera una plétora de datos que, cuando se
extraen, revelan patrones ocultos para mejorar los estudios convencionales. Unir los primeros
principios con el modelado basado en datos se está volviendo más popular entre los científicos
e ingenieros de la tierra.
Este libro llega en un momento muy oportuno para la industria del petróleo y el gas, ya que
nos enfrentamos a una explosión de datos. Hemos visto un aumento en el análisis previo a la
acumulación de datos sísmicos 3D junto con la derivación de múltiples atributos sísmicos para
la caracterización de yacimientos. Con la llegada de sensores permanentemente instalados en
el lecho oceánico y en los múltiples pozos perforados en yacimientos no convencionales en
formaciones de esquisto, gas de vetas de carbón, drenaje por gravedad asistido por vapor y
activos en alta mar, estamos observando una proliferación de datos intensivos. actividad.
xi
xiii ÿ PREFACIO
Los conceptos de computación blanda incorporan información heurística. ¿Qué significa

eso? Podemos adoptar flujos de trabajo analíticos híbridos para abordar algunos de los
problemas upstream más desafiantes. Combine el conocimiento experto que se está retirando
rápidamente de la industria del petróleo con modelos basados en datos que exploran y predicen
eventos que tienen impactos negativos en CAPEX y OPEX. Conserve los muchos años de
experiencia mediante el desarrollo de un centro analítico colaborativo de excelencia que
incorpore habilidades blandas y experiencia con el activo más importante en cualquier operación
de petróleo y gas: los datos.
Me gustaría aprovechar esta oportunidad para agradecer a todos los colaboradores y
revisores del manuscrito, especialmente a Horia Orenstein por su experiencia diligente en
análisis predictivo y a Moray Laing por su excelente retroalimentación, experiencia en
perforación y contribución con las imágenes que ilustran muchos casos. estudios.
Stacey Hamilton del Instituto SAS ha sido una editora alentadora y paciente, sin la cual este
libro nunca se habría completado. Me gustaría agradecer a mis colegas de la industria que me
han brindado comentarios constructivos, especialmente Mike Pittman de Saudi Aramco,
Mohammad Kurdi, David Dozoul y Sebastian Maurice de SAS Institute, asegurando la relevancia
y aplicabilidad de los contenidos.
CAPÍTULO
1
Fundamentos de
Informática blanda
Hay más cosas en el cielo y en la tierra, Horacio,

de las que sueña tu filosofía.
William Shakespeare: Aldea
última década para adoptar técnicas de computación blanda como problemas aguas arriba
L a industria
volverse del petróleocomplejo
demasiado y el gas ha sido
para testigo
confiar de un argumento
disciplinas convincente
en silos con sobre la
métodos de
análisis de interpretación y deterministas. Nos encontramos en medio de una avalancha
de datos a lo largo de la cadena de valor de exploración y producción que está
transformando los modelos basados en datos de una curiosidad profesional a un imperativo de la industria.
En el centro de las metodologías analíticas multidisciplinarias se encuentran las
técnicas de minería de datos que brindan modelos descriptivos y predictivos para
complementar el análisis de ingeniería convencional basado en los primeros
principios. Los avances en la agregación de datos, la integración, la cuantificación
de incertidumbres y los métodos de computación suave están permitiendo
perspectivas adicionales sobre los datos dispares aguas arriba para crear modelos
de yacimientos más precisos de manera más oportuna. La computación blanda es
manejable, eficiente y robusta, además de requerir menos recursos que la
interpretación tradicional basada en matemáticas, física y la experiencia de expertos.
Exploraremos los beneficios multifacéticos obtenidos de la aplicación de la rica
variedad de técnicas informáticas en la industria del petróleo.
1
2 ÿ APROVECHE BIG DATA DE PETRÓLEO Y GAS CON ANÁLISIS
PANORAMA ACTUAL EN EL ANÁLISIS DE DATOS UPSTREAM
¿Qué es la inteligencia artificial a nivel humano? Las definiciones precisas son importantes,
pero muchos expertos responden razonablemente a esta pregunta afirmando que tales frases
aún no se han definido exactamente. Bertrand Russell comentó:
No pretendo comenzar con preguntas precisas. No creo que se pueda empezar

con nada preciso. Tienes que lograr la mayor precisión posible, a medida que
avanzas.1
La afirmación del conocimiento obtenido a partir de datos sin procesar, que incluye
impartir definiciones precisas, invariablemente resulta de una investigación exhaustiva en un
campo particular, como las disciplinas upstream de petróleo y gas (O&G). Estamos viendo
cuatro tendencias principales que afectan la cadena de valor de exploración y producción
(E&P): Big Data, la nube, las redes sociales y los dispositivos móviles; y estos impulsores
están dirigiendo a los geocientíficos a ritmos variables hacia la implementación de técnicas
informáticas blandas.
La visualización de Big Data a lo largo de la cadena de valor de E&P requiere el uso del
conjunto de tablas, mapas y gráficos2 de análisis de datos exploratorios de Tukey para
descubrir patrones y relaciones ocultos en un conjunto de sistemas upstream multivariado y
complejo. Detallaremos estas técnicas visuales en los Capítulos 3, 4 y 9, ya que son críticas
en las metodologías basadas en datos implementadas en O&G.
Las redes neuronales artificiales (ANN), la lógica difusa (FL) y los algoritmos genéticos
(GA) son técnicas de inteligencia artificial a nivel humano que actualmente se practican en la
gestión y simulación de yacimientos de petróleo y gas, optimización de producción y
perforación, automatización de perforación en tiempo real e instalación. mantenimiento. Las
metodologías de minería de datos que sustentan los modelos basados en datos son
omnipresentes en muchas industrias y, en los últimos años, las actitudes arraigadas y
anacrónicas de los ingenieros upstream en O&G se están diluyendo por las presiones
comerciales existentes para explorar y producir más hidrocarburos para abordar la creciente
demanda. demanda mundial de energía.
Los campos petrolíferos digitales del futuro (DOFF, por sus siglas en inglés) y los pozos
inteligentes con múltiples sensores y medidores están generando a alta velocidad una plétora
de datos dispares que definen un paisaje complejo y heterogéneo, como un sistema integrado
de instalaciones de pozos y depósitos. Estos datos de alta dimensionalidad se complementan
con datos no estructurados que se originan en la actividad de las redes sociales, y con los
dispositivos móviles que han demostrado ser valiosos en las operaciones de campo y la
computación en la nube que brindan una mayor flexibilidad y un mayor rendimiento en la
administración de redes y datos, estamos en una posición ideal para casarnos con software
metodologías informáticas a los enfoques deterministas e interpretativos tradicionales.
Grandes datos: definición
La intención a lo largo de las siguientes páginas es abordar los desafíos inherentes al análisis
de Big Data en toda la cadena de valor de E&P. Por definición,
F unda m entals of S oft C o mpu tingâ•‡ÿ 3
Big Data es una expresión acuñada para representar una agregación de conjuntos de datos
que son voluminosos, complejos, dispares y/o cotejados con frecuencias muy altas, lo que
genera dificultades analíticas sustanciales que no pueden ser abordadas por las aplicaciones
y herramientas de procesamiento de datos tradicionales. Existen limitaciones obvias al
trabajar con Big Data en un sistema de administración de bases de datos relacionales
(DBMS), implementando estadísticas de escritorio y software de visualización. El término Big
Data es relativo, dependiendo de la arquitectura existente de una organización y las
capacidades de software; invariablemente, la definición es un objetivo en movimiento a
medida que los terabytes se convierten en abytes domésticos e inexorablemente en exabytes.
Business Intelligence (BI) adopta estadísticas descriptivas para abordar datos para descubrir
tendencias e iniciar mediciones fundamentales; mientras que Big Data tiende a encontrar
recreación en los campos de juego de la estadística inductiva y los conceptos de la
identificación de sistemas no lineales. Esto permite que los profesionales de E&P administren
Big Data, identifiquen correlaciones, muestren relaciones y dependencias ocultas, y apliquen
flujos de trabajo analíticos avanzados basados en datos para predecir comportamientos en
un sistema complejo, heterogéneo y multivariable como un yacimiento. El Capítulo 2 analiza
Big Data con más detalle y los estudios de casos a lo largo del libro se esforzarán por definir
metodologías para aprovechar Big Data a través de un conjunto de flujos de trabajo analíticos.
La intención es resaltar los beneficios de casar los modelos basados en datos y los primeros principios en E&P.
Primeros principios
¿Qué son los primeros principios? La respuesta depende de su perspectiva como espectador
inquisitivo. En el campo de las matemáticas, los primeros principios hacen referencia a
axiomas o postulados, mientras que en filosofía, un primer principio es una proposición o
suposición evidente que no puede derivarse de ninguna otra proposición o suposición. Un
primer principio es, pues, aquel que no puede deducirse de ningún otro. El ejemplo clásico
es el de la geometría de Euclides que demuestra que las muchas proposiciones que contiene
pueden deducirse de un conjunto de definiciones, postulados y nociones comunes: los tres
tipos constituyen primeros principios. Estos fundamentos se acuñan a menudo como
verdades a priori . Más apropiado para el mensaje central de este libro, los primeros principios
sustentan el trabajo teórico que se deriva directamente de la ciencia establecida sin hacer
suposiciones. Los geocientíficos han implementado invariablemente técnicas analíticas y
numéricas para derivar una solución a un problema, las cuales se han visto comprometidas
por la aproximación.
Hemos recorrido la historia desde hace miles de años, cuando los modelos empíricos
adoptaron nuestro pensamiento, hasta hace solo unos siglos, cuando el paisaje estaba
poblado por intelectuales teóricos que defendían modelos basados en generalizaciones.
Luminarias como Sir Isaac Newton, Johannes Kepler y James Clerk Maxwell hicieron
enormes contribuciones a nuestra comprensión de los secretos de la Madre Naturaleza y,
por extensión, permitieron a la comunidad geocientífica comprender los fundamentos que
sustentan la física y las matemáticas. Estos fundamentos reflejan la heterogénea complejidad
inherente a los hidrocarburos.
4 ÿ APROVECHE BIG DATA DE PETRÓLEO Y GAS CON ANALÍTICA
embalses Solo han pasado unas pocas décadas desde que paseamos por la rama de la
ciencia computacional que fue testigo de la simulación de sistemas complejos, avanzando
hacia el panorama actual esculpido por un análisis exploratorio intensivo en datos, construyendo
modelos basados en datos. Deje que los datos relacionen la historia. Los datos de producción,
por ejemplo, reflejan el movimiento de los fluidos a medida que avanzan inexorablemente a
través de las rocas del yacimiento a través de poros interconectados para ser empujados bajo
presiones naturales o posteriormente fabricadas hacia los pozos productores. No se puede
argumentar que estos datos de producción son una enciclopedia que alberga el conocimiento
de la caracterización de los yacimientos, incluso si su utilidad está directamente relacionada
con áreas localizadas adyacentes a los pozos. Por lo tanto, saquemos a la luz las sutiles
tendencias y relaciones ocultas que correlacionan el rendimiento de un pozo con un conjunto
de propiedades de la roca y parámetros operativos influyentes en un sistema multivariado
complejo. Huellas dactilares geomecánicas lavadas en primeros principios han tocado las
rocas porosas de nuestros yacimientos, empujando los hidrocarburos hacia sus conductos
artificiales. No nos divorciemos de los primeros principios, sino que casemos el enfoque
interpretativo y determinista subrayado por nuestras enseñanzas científicas con una
metodología no determinista o estocástica mejorada por datos sin procesar que se convierten
en conocimiento a través de modelos basados en datos.
Modelos basados en datos
El nuevo modelo es para que los datos sean capturados

por instrumentos o generados por simulaciones antes de ser
procesados por software y para que la información y el
conocimiento resultantes sean almacenados en
computadoras.3
jim gris
Convertir una plétora de datos preliminares sin procesar de disciplinas de ingeniería

dispares en información útil es un desafío omnipresente para las empresas de petróleo y gas,
ya que las relaciones y las respuestas que identifican oportunidades clave a menudo yacen
enterradas en montañas de datos recopilados en varias escalas de profundidad, así como en
un tiempo. moda, tanto estacionaria como no estacionaria por naturaleza.
Los modelos de yacimientos de petróleo y gas se pueden caracterizar como físicos,
matemáticos y empíricos. Los desarrollos recientes en inteligencia computacional, en el área
del aprendizaje automático en particular, han ampliado enormemente las capacidades del
modelado empírico. La disciplina que engloba estos nuevos enfoques se denomina modelado
basado en datos (DDM) y se basa en el análisis de los datos dentro de un sistema.
Uno de los puntos focales inherentes a DDM es descubrir conexiones entre las variables de
estado del sistema (entrada y salida) sin un conocimiento explícito del comportamiento físico
del sistema. Este enfoque empuja los límites más allá
modelado empírico convencional para acomodar contribuciones de esferas de estudio superpuestas:4
ÿ Inteligencia artificial (IA), que es la contemplación de gran alcance de cómo la inteligencia humana
puede incorporarse a las computadoras.
ÿ Inteligencia computacional (CI), que abarca la familia de redes neuronales, sistemas difusos y
computación evolutiva, además de otros campos dentro de la IA y el aprendizaje automático.
ÿ Soft computing (SC), que se acerca a CI, pero con especial énfasis en
sistemas basados en reglas difusas postulados a partir de datos.
ÿ El aprendizaje automático (ML), que se originó como un subcomponente de AI, se concentra en

los fundamentos teóricos utilizados por CI y SC.
ÿ La minería de datos (DM) y el descubrimiento de conocimiento en bases de datos (KDD) suelen

estar destinados a bases de datos muy grandes. DM es visto como parte de un KDD más amplio.
Los métodos utilizados son principalmente de estadísticas y ML. Desafortunadamente, la
industria de O&G se está moviendo hacia la adopción de DM a una velocidad apreciada por
Alfred Wegener a medida que el tsunami de datos dispares en tiempo real inunda la cadena de
valor upstream de E&P.
Por lo tanto, el modelado basado en datos se centra en los métodos de CI y ML que se pueden
implementar para construir modelos que complementen o reemplacen los modelos basados en los
primeros principios. Se utiliza un algoritmo de aprendizaje automático, como una red neuronal, para
determinar la relación entre las entradas y salidas de un sistema empleando un conjunto de datos de
entrenamiento que refleja por excelencia el comportamiento completo inherente al sistema.
Presentemos algunas de las técnicas implementadas en un enfoque basado en datos.
Técnicas de computación suave
Enumeraremos algunos de los algoritmos más predominantes e importantes implementados en la cadena

de valor de E&P desde una perspectiva de modelado basado en datos. Tres de las técnicas más
comunes son las redes neuronales artificiales, los sistemas basados en reglas difusas y los algoritmos
genéticos. Se hace referencia a todos estos enfoques en los capítulos siguientes a medida que ilustramos
la aplicabilidad a través de estudios de casos en activos globales de petróleo y gas.
Redes neuronales artificiales
Las ANN muestran un gran potencial para generar análisis y predicciones precisos a partir de conjuntos
de datos históricos de E&P. Las redes neuronales deben utilizarse en los casos en que
el modelado matemático no es una opción práctica. Esto puede deberse a que no se conocen todos los
parámetros involucrados en un proceso en particular y/o a que
la interrelación de los parámetros es demasiado complicada para el modelado matemático

del sistema. En tales casos, se puede construir una red neuronal para observar el
comportamiento del sistema y esforzarse por replicar su funcionalidad y comportamiento.
Las RNA (Figura 1.1) son un sistema de procesamiento de información paralelo y
adaptable que puede desarrollar asociaciones, transformaciones o mapeos entre objetos o
datos. Son una técnica eficiente y popular para resolver problemas de regresión y clasificación
en la industria de exploración y producción de petróleo y gas. Los elementos básicos de una
red neuronal son las neuronas y sus fuerzas o pesos de conexión.
En un escenario de aprendizaje supervisado, se implementa un conjunto de patrones de datos
de entrada y salida conocidos para entrenar la red. El algoritmo de aprendizaje toma un modelo
inicial con algunos pesos de conexión anteriores (números aleatorios) y aplica un algoritmo de
actualización para producir pesos finales a través de un proceso iterativo. Las ANN se pueden
usar para construir un modelo representativo del desempeño de un pozo en un yacimiento en
particular bajo estudio. Los datos se utilizan como pares de entrada y salida para entrenar la
red neuronal. La información de pozos, los datos de calidad del yacimiento y los datos
relacionados con la estimulación son ejemplos de entrada a una ANN con tasas de producción
que describen los diversos contenedores de salida. Dado que los primeros principios necesarios
para modelar un proceso tan complejo utilizando las técnicas matemáticas convencionales
son, en el mejor de los casos, tenues, las redes neuronales pueden proporcionar una visión
explícita de las complejidades observadas entre las interacciones de la formación con un
proceso de estimulación, como una estrategia de fractura hidráulica o un plan de acidificación.
Una vez que se haya completado un modelo razonablemente preciso y representativo de los
procesos de estimulación para la formación en estudio, se pueden realizar más análisis. Estos
análisis pueden incluir el uso del modelo para responder a muchas preguntas hipotéticas que puedan surgir.
Además, el modelo se puede utilizar para identificar las mejores y peores prácticas de
terminación y estimulación en el campo.
Figura 1.1 Red neuronal artificial

Algoritmos genéticos
La teoría de Darwin de la supervivencia del más apto,5 junto con el seleccionismo de Weismann6 y
la genética de Mendel, han formado el conjunto de argumentos universalmente aceptado conocido
como la teoría de la evolución.
La computación evolutiva representa mecanismos de evolución como elementos clave en el
diseño e implementación algorítmica. Uno de los principales tipos de computación evolutiva es el
algoritmo genético (GA), que es un método de optimización global eficiente para resolver problemas
de mal comportamiento, no lineales, discontinuos y de criterios múltiples.
Es posible resolver una multitud de problemas en todo el espectro de la vida mediante la

adopción de un algoritmo o metodología de búsqueda. Vivimos en un mundo sobrevenido por un
conjunto casi ilimitado de permutaciones. Necesitamos encontrar el mejor momento para programar
reuniones, la mejor combinación de productos químicos, la mejor manera de diseñar una estrategia
de tratamiento de fractura hidráulica o las mejores acciones para elegir. La forma más común de
resolver problemas simples es el método de prueba y error . El tamaño del espacio de búsqueda
crece exponencialmente a medida que aumenta el número de parámetros asociados (variables).
Esto hace que encontrar la mejor combinación de parámetros sea demasiado costoso y, a veces,
imposible. Históricamente, los ingenieros abordarían estos problemas haciendo estimaciones
inteligentes e intuitivas en cuanto a los valores de los parámetros.
Podríamos aplicar una ANN para proporcionar intervalos de salida (p. ej., producción acumulada
de 3, 6, 9 y 12 meses) en función de la entrada a la red, es decir, el diseño de estimulación, la
información del pozo y la calidad del yacimiento para cada pozo en particular.
Obviamente, solo los parámetros de diseño de estimulación están bajo control de ingeniería.
La información de pozos y la calidad de los yacimientos son parte del dominio de la Madre
Naturaleza. Es esencial implementar flujos de trabajo de calidad de datos auxiliares y un conjunto
de técnicas de análisis exploratorio de datos (EDA) para descubrir patrones y tendencias ocultos.
Luego implementamos el algoritmo genético como un árbitro potencial para evaluar todas las
combinaciones posibles de esos parámetros de estimulación para identificar la combinación más
óptima. Dicho conjunto combinado de parámetros de estimulación está diseñado para cualquier
pozo en particular (basado en la información del pozo y la calidad del yacimiento) que proporciona
la producción más alta (3, 6, 9 y 12 meses de producción acumulada). La diferencia entre estos
valores acumulativos del tratamiento de estimulación óptimo y los valores acumulativos reales
producidos por el pozo se interpreta como el potencial de producción que puede recuperarse
mediante la (re)estimulación de ese pozo.
Sistemas basados en reglas difusas
¿Cómo resuena contigo la palabra fuzzy ? La mayoría de la gente le asigna una connotación
negativa a su significado. El término lógica difusa en la cultura occidental parece tanto realinear el
pensamiento como un proceso obtuso y confuso como implicar una
estado mental de la niebla de la mañana. Por otro lado, la cultura oriental promueve el concepto
de coexistencia de contradicciones tal como aparece en el símbolo Yin-Yang, tal como lo observa
Mohaghegh.7
El pensamiento humano, la lógica y los procesos de toma de decisiones no están empapados
de pureza booleana. Tendemos a usar palabras vagas e imprecisas para explicar nuestros
pensamientos o comunicarnos entre nosotros. Existe un conflicto aparente entre el proceso
impreciso y vago del razonamiento humano, el pensamiento y la toma de decisiones y el
razonamiento científico y nítido de la lógica informática booleana.
Este conflicto ha intensificado el uso de computadoras para ayudar a los ingenieros en el proceso
de toma de decisiones, lo que ha llevado inexorablemente a la inadecuación experimentada por la
inteligencia artificial tradicional o los sistemas convencionales basados en reglas, también
conocidos como sistemas expertos.
La incertidumbre representada por la teoría de conjuntos borrosos se debe invariablemente
a la naturaleza aleatoria de los eventos o a la imprecisión y ambigüedad de la información que
analizamos para resolver el problema. El resultado de un evento en un proceso aleatorio es
estrictamente el resultado de la casualidad. La teoría de la probabilidad es la herramienta ideal
para adoptar cuando la incertidumbre es producto de la aleatoriedad de los eventos. La
incertidumbre estadística o aleatoria puede determinarse mediante observaciones y mediciones
agudas. Por ejemplo, una vez que se lanza una moneda, no queda más incertidumbre aleatoria o estadística.
Cuando se trata de sistemas complejos como los yacimientos de hidrocarburos, encontramos
que la mayoría de las incertidumbres son el resultado de la falta de información. El tipo de
la incertidumbre que es el resultado de la complejidad del sistema surge de nuestra ineptitud para
realizar mediciones satisfactorias, de la imprecisión, de la falta de experiencia o de la borrosidad
inherente al lenguaje natural. La teoría de conjuntos borrosos es un medio plausible y efectivo
para modelar el tipo de incertidumbre asociada con la imprecisión.
Los pozos exploratorios ubicados invariablemente por un conjunto de interpretaciones

sísmicas deterministas se perforan en reservorios bajo una incertidumbre que invariablemente
está mal cuantificada, los modelos geológicos se abren para ser optimizados por una mentalidad
educada en una metodología basada en datos.
La lógica difusa fue introducida por primera vez por Zadeh8 y, a diferencia de la lógica binaria
o booleana convencional, que se basa en conjuntos nítidos de "verdadero" y "falso", la lógica
difusa permite que el objeto pertenezca tanto a conjuntos "verdaderos" como "falsos". con diversos
grados de pertenencia, que van de 0 a 1. En la geología de yacimientos, el lenguaje natural ha
desempeñado un papel muy importante durante algún tiempo y, por lo tanto, ha proporcionado
una metodología de modelado para sistemas complejos y mal definidos. Para continuar con el
flujo de trabajo de optimización de estimulación abordado en "redes neuronales artificiales",
podríamos incorporar un sistema de soporte de decisiones difusas. Este sistema experto difuso
utiliza la información proporcionada por las redes neuronales y los algoritmos genéticos.
Luego, el sistema experto aumenta esos hallazgos con información que se puede recopilar de los
ingenieros expertos que han trabajado en ese campo en particular durante muchos años para
seleccionar los mejores candidatos para la (re)estimulación. Mantener dentro
Tenga en cuenta que la información proporcionada al sistema experto difuso puede ser diferente
de una formación a otra y de una empresa a otra. Esta parte de la metodología proporciona los
medios para capturar, mantener y utilizar algunos conocimientos valiosos que permanecerán en la
empresa incluso si los ingenieros son transferidos a otras secciones de la empresa donde su
experiencia ya no está disponible. El sistema experto difuso es capaz de incorporar lenguaje
natural para procesar información. Esta capacidad proporciona la máxima eficiencia en el uso de
información imprecisa en situaciones menos seguras. Una regla típica en el sistema experto difuso
que ayudará a los ingenieros a clasificar a los candidatos a la (re)estimulación puede expresarse
de la siguiente manera:
SI el pozo muestra un alto potencial para un aumento de la producción acumulada de 3, 6, 9

y/o 12 meses
Y tiene una presión plausible pero moderada
Y tiene un bajo volumen de acidificación
ENTONCES este pozo es un buen candidato para la (re)estimulación.
Un valor de verdad está asociado con cada regla en el sistema experto difuso desarrollado
para esta metodología. El proceso de tomar decisiones a partir de subconjuntos borrosos usando
los parámetros y los valores de verdad funcionales relativos como reglas proporciona los medios
para usar un razonamiento aproximado. Se sabe que este proceso es uno de los métodos más
sólidos para desarrollar sistemas expertos de alto nivel en muchas industrias. Por lo tanto, es
factible incorporar reglas lingüísticas difusas, análisis de riesgo y soporte de decisiones en un
entorno impreciso e incierto.
EVOLUCIÓN DE PLATÓN A ARISTÓTELES
La aguda lógica de Aristóteles sustenta la ciencia contemporánea. La escuela de pensamiento

aristotélica hace observaciones basadas en una perspectiva bivalente, como blanco y negro, sí y
no, y 0 y 1. El matemático del siglo XIX George Cantor instituyó el desarrollo de la teoría de
conjuntos basada en la lógica bivalente de Aristóteles y, por lo tanto, tradujo esta lógica se adapta
a la ciencia moderna.9 La teoría de la probabilidad posteriormente hizo plausible y factible la lógica
bivalente. La teoría alemana define los conjuntos como una colección de objetos definidos y
distinguibles.
Las ciencias físicas de toda la Europa medieval se vieron profundamente moldeadas por las
opiniones de Aristóteles, extendiendo su influencia hasta el Renacimiento, para ser finalmente
revisadas por la física newtoniana. Al igual que su maestro Platón, la filosofía de Aristóteles apunta
a lo universal. Aristóteles, sin embargo, encuentra lo universal en cosas particulares, a las que
llama la esencia de las cosas, mientras que Platón encuentra que lo universal existe aparte de las
cosas particulares, y se relaciona con ellas como su prototipo o ejemplo. Para Aristóteles, por
tanto, el método filosófico implica el ascenso
del estudio de los fenómenos particulares al conocimiento de las esencias, mientras que para
Platón el método filosófico significa el descenso del conocimiento de las formas (o ideas)
universales a la contemplación de las imitaciones particulares de éstas. En cierto sentido, el
método de Aristóteles es tanto inductivo como deductivo, mientras que el de Platón es
esencialmente deductivo a partir de principios a priori .
Si estudias detenidamente el centro del fresco de Rafael titulado La Escuela de Atenas en
el Palacio Apostólico del Vaticano, notarás que Platón, a la izquierda, y Aristóteles son los dos
sujetos indiscutibles de atención. La interpretación popular sugiere que sus gestos a lo largo
de diferentes dimensiones son indicativos de sus respectivas filosofías. Platón apunta
verticalmente, haciéndose eco de su Teoría de las Formas, mientras que Aristóteles extiende
su brazo a lo largo del plano horizontal, representando su creencia en el conocimiento a través
de la observación empírica y la experiencia.
La ciencia está sobrecargada por las leyes de la lógica de Aristóteles, que está
profundamente arraigada en el fecundo paisaje griego cultivado diligentemente por científicos
y filósofos del mundo antiguo. Sus leyes están firmemente asentadas en el terreno fundamental
de “X o no-X”; algo es o no es. La lógica booleana convencional influye en nuestros procesos
de pensamiento a medida que clasificamos las cosas o hacemos juicios sobre las cosas,
perdiendo así los detalles finos o la plétora de posibilidades que oscilan entre los extremos
empíricos de 0 y 1 o verdadero y falso.
MODELOS DESCRIPTIVOS Y PREDICTIVOS
Hay dos ramas distintas de la minería de datos, predictiva y descriptiva/ exploratoria (Figura
1.2), que pueden convertir datos sin procesar en conocimiento procesable. A veces escucha
estas dos categorías llamadas dirigidas (predictivas) y no dirigidas (descriptivas). Los modelos
predictivos usan resultados conocidos para desarrollar (o entrenar o estimar) un modelo que
se puede usar para predecir valores para diferentes datos. Los modelos descriptivos describen
patrones en los datos existentes que pueden encontrarse en datos nuevos. Con los modelos
descriptivos, no hay una variable objetivo para la que se esfuerce por predecir el valor. La
mayor parte de la gran recompensa ha sido en el modelado predictivo cuando los modelos se
ponen en funcionamiento en un entorno del mundo real.
El modelado descriptivo implica la agrupación o segmentación, que es esencialmente la
agrupación de cosas similares, como pozos, mecánica de rocas o estrategias de fractura
hidráulica. Una asociación es una relación entre dos cantidades medidas que exhibe
dependencia estadística.
Las técnicas de modelado descriptivo cubren dos áreas principales:
1. Agrupación
2. Asociaciones y secuencias
El objetivo de agrupar o segmentar sus datos es colocar objetos en grupos o agrupaciones

sugeridas por los datos, de modo que los objetos en un agrupamiento dado tiendan a ser
similares entre sí en algún sentido y los objetos en diferentes agrupaciones.
Análisis predictivo
• ¿Que es lo que va a pasar? • Mayor
conocimiento sobre el futuro basado en correlaciones en
datos históricos
¿Qué es lo mejor que puede pasar?

Mejoramiento Análisis
Modelado predictivo Que es lo que va a pasar?
Pronóstico ¿Qué pasa si esta tendencia continúa?
análisis estadístico ¿Lo que está sucediendo?
alarmas
¿Qué acciones son necesarias?
Consultas/Profundizar Análisis descriptivo •
¿Exactamente dónde está el problema?
Información retrospectiva •
Informes ad hoc
¿Cuanto? ¿Cuándo? ¿Dónde? Patrones y tendencias ocultos • Análisis Informes
Acceso a los datos

Informes exploratorio de datos Acceso
datos
y
a
¿Qué sucedió?
estándar
Grado de perspicacia
Datos Información Conocimiento Visión
Figura 1.2 Ciclo de vida de Analytics Convertir datos sin procesar en conocimiento
11
tienden a ser diferentes. El término asociación insinúa una relación expansiva en oposición a la correlación
más limitada que se refiere a una relación lineal entre dos cantidades. Así, al cuantificar los valores de
los parámetros en O&G, el término asociación se adopta invariablemente para subrayar la no causalidad
en una relación aparente.
El modelado predictivo aparece de dos formas:
1. Modelos de clasificación que predicen la pertenencia a una clase
2. Modelos de regresión que predicen un número
Hay cuatro técnicas principales de modelado predictivo detalladas en este libro como
importantes metodologías analíticas upstream basadas en datos de petróleo y gas:
1. Árboles de decisión
2. Regresión
una. regresión lineal
b. Regresión logística
3. Redes neuronales
una. Redes neuronales artificiales
b. Mapas autoorganizados (SOM)
4. Agrupamiento de K-medias
Los árboles de decisión prevalecen debido a su inherente facilidad de interpretación.

También manejan muy bien los valores perdidos, proporcionando una interpretación sucinta y efectiva de
los datos plagados de valores perdidos.
Una ventaja del algoritmo del árbol de decisiones sobre otras técnicas de modelado, como el
enfoque de redes neuronales, es que produce un modelo que puede representar reglas inglesas
interpretables o declaraciones lógicas. Por ejemplo:
Si la relación mensual entre la producción de petróleo y la producción de agua es inferior

al 28 por ciento y la tasa de producción de petróleo está en declive exponencial y el OPEX
es superior a $ 100,000, entonces estimule el pozo.
Con el análisis de regresión estamos interesados en predecir un número, llamado respuesta o

variable Y. Cuando realiza regresiones lineales múltiples, todavía está prediciendo un número (Y), pero
tiene múltiples variables independientes o predictoras que intentan explicar el cambio en Y.
En la regresión logística, nuestra variable de respuesta es categórica, lo que significa que solo
puede asumir un número limitado de valores. Entonces, si estamos hablando de regresión logística
binaria, nuestra variable de respuesta tiene solo dos valores, como 0 o 1, activado o desactivado.
En el caso de regresiones logísticas múltiples, nuestra variable de respuesta puede tener muchos
niveles, como bajo, medio y alto o 1, 2 y 3.
Las redes neuronales artificiales fueron desarrolladas originalmente por investigadores que
intentaban imitar la neurofisiología del cerebro humano. Combinando
F u nda m entals of S oft C o mpu tingâ•‡ÿ 13
muchos elementos informáticos simples (neuronas o unidades) en un sistema altamente

interconectado, estos investigadores esperaban producir fenómenos complejos como la inteligencia.
Las redes neuronales son técnicas de modelado muy sofisticadas capaces de modelar funciones
extremadamente complejas.
Las razones principales por las que son populares son porque son muy potentes y fáciles de
usar. El poder proviene de su capacidad para manejar relaciones no lineales en los datos, que es
cada vez más común a medida que recopilamos más y más datos y tratamos de utilizarlos para el
modelado predictivo.
Las redes neuronales se están implementando para abordar una amplia gama de problemas
upstream de petróleo y gas en los que los ingenieros se esfuerzan por resolver problemas de
predicción, clasificación o control.
Las aplicaciones comunes de las redes neuronales en la cadena de valor de E&P incluyen el
mapeo de los atributos sísmicos de las propiedades del yacimiento, el cálculo de la estática sísmica
de superficie y la determinación de una estrategia optimizada de tratamiento de fracturas hidráulicas
en la explotación de los yacimientos no convencionales.
EL PROCESO SEMMA
SEMMA10 define la minería de datos como el proceso de muestreo, exploración, modificación,

modelado y evaluación de cantidades excesivas de datos para descubrir patrones y relaciones
ocultos en un sistema multivariado. El proceso de minería de datos es aplicable en una variedad de
industrias y proporciona metodologías para problemas de negocios tan diversos en la vertical de
O&G como maximizar la ubicación de pozos, optimizar la producción, determinar el factor de
recuperación máximo, identificar una estrategia de fractura hidráulica óptima en yacimientos no
convencionales, segmentación de campos , análisis de riesgos, predicción de fallas de bombas y
análisis de cartera de pozos.
Detallamos el proceso de minería de datos de SEMMA:
ÿ Muestree los datos extrayendo y preparando una muestra de datos para la construcción de
modelos usando una o más tablas de datos. El muestreo incluye operaciones que definen
o dividen filas de datos. Las muestras deben ser lo suficientemente grandes para contener
eficientemente la información significativa. Es óptimo incluir el conjunto de datos completo
y completo para el paso Explorar debido a patrones ocultos y tendencias que solo se
descubren cuando se analizan todos los datos. Las restricciones de software pueden
impedir tal ideal.
ÿ Explore los datos buscando relaciones anticipadas, tendencias imprevistas y anomalías

para obtener comprensión e ideas perspicaces que insinúan hipótesis que vale la pena
modelar.
ÿ Modifique los datos creando, seleccionando y transformando las variables para enfocar el
proceso de selección del modelo en los atributos más valiosos. Esto enfoca el proceso
de selección del modelo en aquellas variables que muestran atributos significativos con
respecto a la función objetivo o la(s) variable(s) objetivo.
Figura 1.3 Proceso SEMMA para flujos de trabajo de minería de datos
ÿ Modele los datos utilizando las técnicas analíticas para buscar una combinación de datos que
prediga de manera confiable un resultado deseado.
ÿ Evaluar los datos evaluando la utilidad y confiabilidad de los hallazgos del proceso de extracción
de datos. Compare diferentes modelos y diferencie y califique estadísticamente esos modelos
para determinar el rango óptimo de resultados probabilísticos, entregados bajo incertidumbre.
Es importante recordar que SEMMA (Figura 1.3) es un proceso, no una metodología. Como tal,
SEMMA es totalmente compatible con varias metodologías de minería de datos en la industria de TI.
ANÁLISIS DE ALTO RENDIMIENTO
Los análisis de alto rendimiento permiten a las empresas de O&G ser más ágiles y seguras en sus ciclos
de toma de decisiones a medida que se involucran en nuevas empresas, generando nuevo valor a partir
de un tsunami de datos. Los campos más desafiantes se pueden evaluar rápidamente, generando
conocimientos de alto impacto para transformar sus operaciones.
Con análisis de alto rendimiento puede lograr lo siguiente:
ÿ Obtener conocimientos oportunos necesarios para tomar decisiones en un número cada vez menor
ventana de oportunidad.
ÿ Revelar conocimientos que antes tomaban semanas o meses en solo horas o días para acelerar la
innovación.
ÿ Descubra respuestas precisas para problemas complejos.
ÿ Identificar oportunidades de crecimiento no reconocidas.
ÿ Consiga un rendimiento muy mejorado.
En la era de Big Data, las empresas de petróleo y gas dependen de análisis cada vez más
sofisticados del crecimiento exponencial en volúmenes y variedades de datos recopilados a tasas aún
más frecuentes en la comunidad geocientífica aislada.
Las velocidades de los datos, provenientes de pozos inteligentes equipados con fondo de pozo
sensores, están agregando enormes presiones sobre el pensamiento aguas arriba. ¿Cómo
podemos extraer el máximo conocimiento y cultivar información optimizada a partir de datos sin
procesar? ¿Cómo podemos imponer flujos de trabajo de control de calidad que filtren el ruido y los
valores atípicos, imputen los valores faltantes y normalicen y transformen los valores de los datos?
Debemos esforzarnos por generar una colección robusta de datos dispares que esté lista para los
flujos de trabajo deterministas y estocásticos. Es importante comprender que las enseñanzas que
sustentan la filosofía de este libro no desvían las interpretaciones tradicionales tan arraigadas en
nuestras instituciones de geofísica, geología, petróleo e ingeniería de yacimientos, sino que
simplemente enfatizan un importante complemento basado en los datos que arrojan sus secretos
ocultos. . Un enfoque híbrido es óptimo, casando ambas escuelas de pensamiento.
Análisis en memoria
Los análisis en memoria permiten flujos de trabajo analíticos en Big Data para resolver problemas
complejos de E&P upstream sin restricciones. También puede explorar soluciones a problemas
que ni siquiera ha considerado debido a las limitaciones del entorno informático.
Los análisis en memoria se adaptan a las necesidades de su negocio, proporcionando acceso

simultáneo, en memoria y multiuso a los datos, sin importar cuán grandes o pequeños sean. El
software está optimizado para arquitecturas distribuidas de subprocesos múltiples y procesamiento
escalable, por lo que las solicitudes para ejecutar nuevos escenarios o cálculos analíticos complejos
se manejan increíblemente rápido.
Corresponde a los geocientíficos upstream de O&G implementar tecnologías de análisis en
memoria para realizar análisis que van desde la exploración de datos, visualización y estadísticas
descriptivas hasta la construcción de modelos con algoritmos avanzados.
Cuando se trata de los cálculos de estadísticas descriptivas más comunes, las soluciones
basadas en SQL tienen una serie de limitaciones, que incluyen límites de columna, restricciones
de almacenamiento y compatibilidad limitada con el tipo de datos. Además, la naturaleza iterativa
de EDA y las operaciones de minería de datos, como la selección de variables, la reducción de
dimensiones, la visualización, las transformaciones de datos analíticos complejos y el entrenamiento
de modelos, requieren múltiples pases simultáneos a través de los datos: operaciones para las que
SQL y la tecnología relacional son necesarias. no es adecuado.11
Como ejemplo del poder detrás de una arquitectura analítica en memoria, mire el mapa de
calor simple en la Figura 1.4. Invariablemente, enviaría datos a las herramientas de generación de
informes frontales para realizar cálculos complejos en serie. Pero cuando se necesitan grandes
cantidades de cómputos para analizar y producir información, pueden ocurrir cuellos de botella. La
implementación de la tecnología en memoria realiza los cálculos en el servidor, sobre la marcha y
en paralelo. Como resultado, los cálculos son muy rápidos porque no se mueven grandes
cantidades de datos a otra parte para su procesamiento. El procesamiento puede tener lugar en el
Figura 1.4 Mapa de calor que destaca las plantas de separación de gas y petróleo (GOSP) y el corte de agua asociado
servidor analítico con los resultados delgados enviados al cliente para su presentación, en lugar de para el
cálculo.
Análisis en base de datos
El análisis en la base de datos puede ejecutarse dentro de los motores de la base de datos utilizando código
de base de datos nativo. El procesamiento tradicional puede incluir la copia de datos a una ubicación
secundaria, y luego los datos se procesan utilizando productos upstream de E&P. Los beneficios del
procesamiento en la base de datos incluyen un movimiento de datos reducido, tiempos de ejecución más
rápidos y la capacidad de aprovechar las inversiones existentes en almacenamiento de datos.12
Los análisis en la base de datos cubren invariablemente dos áreas clave:
1. Desarrollar nuevos productos que brinden acceso y procesen funciones existentes

dentro de la base de datos.
2. Mejorar los productos existentes para aprovechar la funcionalidad de la base de datos.
El procesamiento en la base de datos es una forma flexible y eficiente de aprovechar cantidades cada
vez mayores de datos mediante la integración de tecnología upstream selecta en bases de datos o almacenes
de datos. Utiliza la arquitectura de procesamiento paralelo masivo (MPP) de la base de datos o del almacén
de datos para lograr escalabilidad y un mejor rendimiento. Mover las tareas relevantes de administración de
datos, análisis e informes al lugar donde residen los datos es beneficioso en términos de velocidad, reduce el
movimiento de datos innecesario y promueve una mejor gobernanza de datos. Para los responsables de la
toma de decisiones aguas arriba, esto significa un acceso más rápido a los resultados analíticos y decisiones
más ágiles y precisas.
Las compañías petroleras operan en una economía global competitiva y cambiante, y cada problema
tiene una oportunidad adjunta. La mayoría de las organizaciones luchan por administrar y obtener información
de los datos y utilizar los resultados analíticos para mejorar el rendimiento. A menudo encuentran el desarrollo,
la implementación y la implementación de modelos analíticos
administración sea un proceso laborioso y que consuma mucho tiempo, especialmente cuando se
combina con un movimiento excesivo de datos y redundancia.
El procesamiento en la base de datos es ideal para dos escenarios clave. El primer escenario
es para el análisis empresarial de Big Data, donde el gran volumen de los datos involucrados hace
que sea poco práctico copiarlos repetitivamente a través de la red. El segundo escenario es en
entornos complejos y organizacionalmente diversos, donde las distintas comunidades empresariales
necesitan compartir fuentes de datos comunes, lo que impulsa la necesidad de un almacén de
datos empresarial centralizado. Las compañías petroleras deben implementar políticas de gobierno
de datos corporativos para promover una única versión de la verdad, minimizando la inconsistencia
y la redundancia de los datos, y alineando las necesidades de acceso a los datos con el uso
comercial común.
computación en red
A medida que las capacidades de integración de datos, análisis e informes crecen en importancia
estratégica y abarcan un número cada vez mayor de usuarios y mayores cantidades de datos, la
capacidad de escalar de manera rentable un sistema de análisis empresarial para obtener
flexibilidad operativa, mejorar el rendimiento y satisfacer las demandas máximas utilizando grid la
informática se convierte en una ventaja competitiva.
Grid computing permite a las empresas de petróleo y gas crear un entorno compartido y
administrado para procesar grandes volúmenes de datos y programas analíticos de manera más
eficiente. Brinda capacidades críticas que son necesarias para los entornos analíticos comerciales
de hoy en día, incluido el equilibrio de carga de trabajo, la priorización de trabajos, la alta
disponibilidad y la conmutación por error integrada, el procesamiento paralelo y la asignación de
recursos, y la supervisión.
Un administrador de cuadrícula proporciona un punto central para administrar políticas,
programas, colas y priorización de trabajos para lograr objetivos comerciales en múltiples tipos de
usuarios y aplicaciones bajo un conjunto determinado de restricciones. TI puede ganar flexibilidad
y cumplir con los niveles de servicio al reasignar fácilmente los recursos informáticos para cumplir
con las cargas de trabajo pico o las cambiantes demandas comerciales.
La presencia de varios servidores en un entorno de red permite que los trabajos se ejecuten
en el mejor recurso disponible y, si un servidor falla, sus trabajos pueden transferirse sin problemas
a otro servidor; proporcionando un entorno de análisis empresarial de alta disponibilidad. La alta
disponibilidad también permite al personal de TI realizar tareas de mantenimiento en servidores
específicos sin interrumpir los trabajos de análisis, así como introducir recursos informáticos
adicionales sin interrumpir el negocio.
Grid Computing proporciona capacidades críticas que son necesarias para los entornos de
análisis de negocios de O&G, que incluyen:
ÿ Gestión de la carga de trabajo y priorización de tareas
ÿ Alta disponibilidad
ÿ Paralelización de trabajos de análisis empresarial para mejorar el rendimiento

La gestión de la carga de trabajo permite a los usuarios compartir recursos para equilibrar la carga de
trabajo de la manera más eficaz y cumplir con los niveles de servicio en toda la empresa.
Los trabajos de análisis de negocios se benefician al tener flujos de trabajo que se ejecutan en el recurso más
apropiado y la carga de trabajo de múltiples usuarios se equilibra dentro de la cuadrícula para permitir el uso
óptimo de los recursos. Grid Computing proporciona la capacidad de priorizar trabajos, lo que permite que los
trabajos críticos comiencen de inmediato en lugar de esperar en una cola. Los trabajos de baja prioridad se
pueden suspender temporalmente para permitir que los trabajos críticos se procesen inmediatamente.
Grid Computing proporciona una gestión de carga de trabajo estandarizada para procesar de manera óptima
múltiples aplicaciones y cargas de trabajo para maximizar el rendimiento general.
Además, la computación en malla puede analizar grandes trabajos de análisis en tareas más pequeñas que se
pueden ejecutar, en paralelo, en servidores más pequeños y rentables con un rendimiento igual o mejor que el
que se ve en los grandes sistemas de multiprocesador simétrico (SMP).
La paralelización de los trabajos de análisis upstream permite a las empresas de O&G mejorar las velocidades
de procesamiento en órdenes de magnitud y ofrecer mejoras excepcionales en la productividad de los analistas.
Los programas de simulación de yacimientos son los más adecuados para el procesamiento paralelo debido
a conjuntos de datos potencialmente grandes y largos tiempos de ejecución.
Al combinar el poder de la gestión de cargas de trabajo, la priorización de trabajos y la alta disponibilidad, la
computación en red acelera el rendimiento y brinda a las empresas más control y utilización de su entorno de
análisis empresarial.
TRES PRINCIPIOS DE LOS DATOS HACIA ARRIBA
Los tres principios de los datos ascendentes son:
1. Gestión de datos
2. Cuantificación de la incertidumbre
3. Evaluación de riesgos
Estos son temas clave en la exploración y el desarrollo de petróleo. Las compañías petroleras se ven
obligadas a explorar en áreas geológicamente más complejas y remotas para explotar depósitos de hidrocarburos
más profundos o no convencionales. A medida que los problemas se vuelven demasiado complejos en áreas de
calidad de datos intrínsecamente deficiente y aumenta el costo asociado con predicciones deficientes (agujeros
secos), la necesidad de una integración adecuada de disciplinas, fusión de datos, reducción de riesgos y gestión
de la incertidumbre se vuelve muy importante. Los métodos de computación blanda ofrecen una excelente
oportunidad para abordar problemas, como la integración de información de varias fuentes con diversos grados
de incertidumbre, el establecimiento de relaciones entre las mediciones y las propiedades del yacimiento, y la
asignación de factores de riesgo o barras de error a las predicciones.

Gestión de datos
Discutimos en el Capítulo 2 las metodologías que sustentan la gestión de datos en el upstream. Es fundamental
enfatizar los beneficios corporativos detrás de los flujos de trabajo automatizados y semiautomatizados que
permiten la agregación de datos sin problemas, la integración de conjuntos de datos dispares de disciplinas de
ingeniería en silos y la generación de almacenes de datos analíticos (ADW) en preparación para procesos
analíticos avanzados.
Con la llegada de Big Data en upstream, estamos presenciando una explosión de datos de sensores de
fondo de pozo en pozos inteligentes distribuidos en DOFF. Cada vez es más esencial implementar un marco de
gestión de datos empresariales concreto para abordar algunos de los problemas comerciales actuales generados
por el activo crítico de una empresa de petróleo y gas: los datos.
ÿ Disparidad de datos entre sistemas
ÿ Silos organizacionales con diferentes datos
ÿ Múltiples vistas de clientes
ÿ La necesidad de acceder a datos no estructurados dentro de sus sistemas
ÿ Crecimiento abrumador en los volúmenes de datos
Cuantificación de la incertidumbre
¿Cree que la cuantificación de la incertidumbre en la cadena de valor de E&P ha mejorado en los últimos años?
¿Y este progreso se ha traducido en ciclos de toma de decisiones condensados y más efectivos? La respuesta a
la primera pregunta es un “Sí” demostrativo, pero la respuesta a la segunda es un “No” calificado.
¿Lo que está sucediendo? La cuantificación de la incertidumbre no es un fin en sí mismo; eliminar o incluso
reducir la incertidumbre no es el objetivo. Más bien el objetivo es tomar una buena decisión, lo que en muchos
casos requiere la evaluación de las incertidumbres relevantes. La industria de petróleo y gas parece haber perdido
de vista este objetivo en su esfuerzo de buena fe por brindar a los tomadores de decisiones una mejor
comprensión de los posibles resultados que se derivan de las decisiones más importantes. La industria cree
implícitamente que tomar buenas decisiones simplemente requiere más información. Para contrarrestar esto,
exploremos un marco de cuantificación de la incertidumbre centrado en las decisiones que ayudará en la
innovación de mejores herramientas y metodologías para la toma de decisiones. Discutiremos la cuantificación
de la incertidumbre como un tema común entrelazado a través de varios estudios de casos que describen análisis
avanzados y técnicas de computación blanda.
Evaluación de riesgos
La evaluación de riesgos permite que las decisiones bajo incertidumbre publiquen un análisis de riesgos, ya sea
a través de una clasificación de riesgos de las estrategias de reducción de peligros o mediante la comparación con
niveles de riesgo objetivo y análisis de costo-beneficio. El riesgo se puede definir como el producto
de las consecuencias del peligro potencial por la probabilidad de ocurrencia de los escenarios.
Después de calcular el riesgo, los resultados deben compararse con los criterios gubernamentales
o de la empresa para determinar si el riesgo es tolerable. Esto significa que el riesgo está en un
nivel que la gente generalmente está dispuesta a aceptar.
PROPUESTAS DE VALOR DE EXPLORACIÓN Y PRODUCCIÓN
Si imagina los algoritmos o técnicas analíticas como los átomos en una estructura molecular (Figura
1.5) unidos por metodologías o flujos de trabajo analíticos covalentes, tendrá una idea de cómo la
analogía enfatiza la conectividad perfecta de la computación blanda y los enfoques no deterministas
para agregar la funciones a lo largo de la cadena de valor de E&P que invariablemente se realizan
en silos geocientíficos.
Las compañías petroleras se esfuerzan por obtener el conocimiento oculto en su activo clave:
los datos. Estos datos están explotando en volumen, velocidad y variedad a medida que los datos
en tiempo real de pozos inteligentes a través de DOFF complementan las interpretaciones históricas
y los conjuntos de datos generados. Es fundamental obtener información de estos múltiples
conjuntos de datos y permitir que los ingenieros y las partes interesadas tomen decisiones más
rápidas y precisas en condiciones de incertidumbre. Al combinar los flujos de trabajo interpretativos
y deterministas tradicionales con un conjunto de análisis probabilístico basado en datos, es posible
predecir eventos que resultan en un desempeño deficiente del yacimiento o del pozo o fallas en las instalaciones.
Construyendo modelos predictivos basados en datos históricos limpios y analizando flujos de datos
en tiempo real, ahora es factible optimizar la producción. El control de costos y la garantía de
procesos eficientes que tengan un impacto positivo en HSE y el uso de recursos son beneficios
clave que quedan fuera de las metodologías analíticas.
Figura 1.5 Propuestas de valor de E&P

Cuando pensamos en el ciclo de vida de un activo, un campo o un pozo, hay una decisión
comercial que debe tomarse para cada fase. Esa decisión debe tener valor comercial y ese valor
intrínseco se puede lograr enriqueciendo la interpretación de los flujos de trabajo de visualización
inmersiva en 3D con modelos basados en datos.
Exploración
Podría estar ingresando a un nuevo campo y explorando para generar prospectos, esforzándose
por obtener información de los datos sísmicos y ubicar pozos exploratorios en yacimientos cada
vez más complejos.
Evaluación
La fase de evaluación de las operaciones petroleras sigue inmediatamente a la perforación
exploratoria exitosa. Debe evaluar las cantidades comerciales de hidrocarburos y mitigar los
riesgos mientras perfora pozos de delineación para determinar el tipo, la forma y el tamaño del
campo y las estrategias para un desarrollo óptimo.
Desarrollo
La fase de desarrollo de las operaciones petroleras ocurre después de que la exploración ha
demostrado ser exitosa y antes de la producción a gran escala. El campo de petróleo o gas
recién descubierto se evalúa durante una fase de evaluación, se crea un plan para explotarlo
total y eficientemente y, por lo general, se perforan pozos adicionales. Durante la etapa de
desarrollo, se implementa un programa de perforación con estrategias de terminación optimizadas
a medida que se ubican pozos adicionales para la etapa de producción. Las instalaciones de
superficie están diseñadas para una explotación eficiente de petróleo y gas. ¿Tenemos que
considerar la producción de agua? ¿Qué producciones líquidas acumuladas anticipamos? Estas
son algunas de las preguntas que debemos responder a medida que diseñamos esas instalaciones de superficie.
Producción
La fase de producción ocurre después de una exploración y desarrollo exitosos durante los
cuales se explotan hidrocarburos de un campo de petróleo o gas. La fase de producción requiere
una explotación eficiente de los hidrocarburos. Tenemos que considerar HSE y los programas
de mantenimiento. ¿Se maximiza la producción de hidrocarburos para cada pozo? ¿Qué tan
confiables son los pronósticos a corto y largo plazo?
Mejora
Por último, la mejora mantiene una producción óptima en función de una decisión comercial
sobre si un activo es económicamente viable. ¿Cómo identificamos los pozos que son candidatos
ideales para el levantamiento artificial? ¿Cuándo y cómo estimulamos bien a un candidato?
Una mejora de pozo es cualquier operación realizada en un pozo de petróleo o gas, durante o
al final de su vida productiva, que altera el estado del pozo y/o
o la geometría del pozo, proporciona diagnósticos de pozos o gestiona la producción del pozo. Hay
varias técnicas implementadas tradicionalmente para mejorar la producción de pozos que se
denominan categóricamente recuperación mejorada de petróleo (EOR) o procesos de levantamiento
artificial de recuperación mejorada de petróleo (IOR).
ANÁLISIS DE CAMPOS PETROLEROS
El marco de análisis de campos petroleros (OA) (Figura 1.6) propone una estructura simple y
flexible para posicionar metodologías basadas en datos en toda la cadena de valor de E&P.
Los perfiles de los principales actores/partes interesadas se asocian fácilmente con los siguientes
principios.
Gestión de datos de yacimientos petrolíferos
Un conjunto de datos robusto y consistente es de suma importancia para metodologías analíticas

avanzadas exitosas y creíbles. Una plataforma de gestión de datos estable y flexible es un requisito
previo para cualquier análisis informático. Una vez que se establece la base, se pueden generar
múltiples mercados de datos analíticos desde el entorno de gestión de datos maestros (MDM). Más
del 70 al 80 por ciento del tiempo se consume administrando y organizando los datos ascendentes,
y con la explosión de datos en evolución, tanto históricos como en tiempo real, es un problema
comercial creciente en la industria de petróleo y gas para garantizar la integridad de los datos. Los
flujos de datos hacia/desde las herramientas y productos de interpretación populares de los
proveedores de servicios deben integrarse en cualquier arquitectura elegida para una solución
integral. Describimos la gestión de datos de O&G en el Capítulo 2.
Análisis de exploración de yacimientos petrolíferos
Los datos sísmicos ahora se están volviendo fundamentales a medida que los levantamientos 3D
y 4D se aceleran en áreas verdes y abandonadas. Además del procesamiento habitual de datos
sísmicos wavelet, se está volviendo más importante apreciar completamente los atributos sísmicos
de los cuales hay cientos y construir un mercado de datos sísmicos para
análisis de avance. Las metodologías de computación blanda que asignan atributos sísmicos a las
propiedades de los yacimientos son increíblemente importantes como un medio para definir
definiciones de caracterización de yacimientos más creíbles y confiables que sustentan el campo (re)
desarrollo, complementación e integración de registros de pozos. La integridad espacial de los
yacimientos de grandes áreas requiere sísmica de alta resolución y una comprensión más profunda
de los atributos sísmicos que pueden identificar tanto las trampas estratigráficas como las
estructurales. Es esencial lograr precisión, fidelidad e integridad para un cubo de datos sísmicos
que contiene trazas previas y/o posteriores al apilamiento que se han procesado con flujos de
trabajo y algoritmos tradicionales, como la recuperación de amplitud real, la deconvolución, la
migración, el filtrado y el escalado. como estático y
Analítica Exploración Evaluación Desarrollo Producción Mejora
Yacimiento petrolífero Yacimiento petrolífero Yacimiento petrolífero

Contenido Perforación de yacimientos petrolíferos
Evaluación de yacimientos petrolíferos
Exploración y finalización Producción Intervención
Descubrimiento administración
Análisis Mejoramiento Mejoramiento administración
Procesamiento de datos
Gestión de yacimientos petrolíferos
Módulos de análisis de yacimientos petrolíferos
Datos Tiempo real Pozos candidatos

Sísmico Reservorio Bien
Visualización Identificación
Perforación
Análisis Modelos administración
Mejoramiento para EOR/IOR
Terminación Instalaciones Campo

Extracción de textos Modelos geográficos volumétrica
Mejoramiento administración Reingeniería
Alto Gestión de casos

Actuación Gestión del rendimiento
Analítica Inteligencia de negocios
Gestión de datos de yacimientos petrolíferos
Integración y análisis
Gestión y gobierno de Datos empresariales Modelo
Calidad de datos de datos
datos Acceso administración
Servicio
Figura 1.6 Marco potencial de análisis de campos petroleros
23
análisis de velocidad Esto es así porque estos rastros son los precursores del análisis de rastro
único y las metodologías derivadas de atributos descritas en el Capítulo 3.
La perforación exploratoria es el siguiente paso, utilizando equipos de perforación adecuados
para el entorno respectivo (es decir, tierra, aguas poco profundas o aguas profundas). Cubrimos
la optimización de perforación y terminación en el Capítulo 5.
Gestión de Evaluación de Yacimientos Petrolíferos
El proceso para caracterizar los reservorios de un campo potencial o maduro encapsula el

análisis de grandes conjuntos de datos recopilados de pruebas de pozos, historial de producción
y resultados de análisis de núcleos, mejorados por el mapeo de alta resolución de atributos
sísmicos a propiedades del reservorio. Es imperativo capturar las observaciones más sutiles
inherentes a estos conjuntos de datos, para comprender la estructura de los datos.
Invariablemente, se pueden implementar métodos geoestadísticos para cuantificar con precisión
la heterogeneidad, integrar datos escalables y capturar el alcance de la incertidumbre. Sin
embargo, entre el 70 y el 80 por ciento del tiempo asignado para cualquier estudio de
caracterización de yacimientos que valga la pena su inversión debe concentrarse en EDA. Como
una obertura para el análisis espacial, la simulación y la cuantificación de la incertidumbre, EDA
garantiza una integración de datos, una agregación de datos y una gestión de datos coherentes,
respaldados por un análisis univariante, bivariante y multivariante.
Es importante visualizar y realizar estadísticas descriptivas e inferenciales sobre datos upstream.13
Si se han encontrado hidrocarburos en cantidades suficientes, el proceso de desarrollo

comienza con la perforación de pozos de evaluación para evaluar mejor el tamaño y la
comercialidad del descubrimiento.
Es de suma importancia emprender el estudio de las incertidumbres de los parámetros de
diseño de ingeniería y las características de flujo de las rocas que no son accesibles a partir de
los datos sísmicos. Exploramos la caracterización de yacimientos en el Capítulo 4.
Optimización de la perforación y terminación de yacimientos petrolíferos
El objetivo de muchos operadores, particularmente en los activos no convencionales, es

determinar las variables que impactan la métrica de desempeño clave del costo por pie perforado.
Otras áreas de enfoque podrían ser la perforación hasta la profundidad total (TD) y los costos de
perforación y revestimiento de pozos horizontales. Mediante el uso de datos históricos de
perforación, es factible identificar cuantitativamente las mejores y peores prácticas que impactan
en el objetivo. La intención es que estos conocimientos mejoren las futuras operaciones de
perforación en áreas no convencionales y potencialmente en campos convencionales. Las
metodologías analíticas avanzadas finalmente desarrollarían un modelo predictivo que
proporcionaría una advertencia temprana de las desviaciones de las mejores prácticas u otros
eventos que afectarán negativamente el tiempo o los costos de perforación. El Capítulo 5 detalla
algunos estudios de casos y flujos de trabajo basados en datos para optimizar las estrategias de perforación y terminació
La visión de la optimización de la perforación en tiempo real es alcanzable. Se pueden aplicar

técnicas analíticas avanzadas para medir cómo se analizan los datos en tiempo real en relación
con el desempeño/eventos pasados para predecir fallas en las herramientas de fondo de pozo y la
capacidad de realizar actividades de causa raíz inmediatas e implementar soluciones en tiempo real.
Algunos de los beneficios obtenidos al establecer metodologías de perforación consistentes que
comparan los datos de perforación en tiempo real con las tendencias anteriores incluyen:
ÿ Evitar el tiempo improductivo potencial (NPT), al predecir una falla, como una falla del motor de
desplazamiento positivo (PDM) debido a una vibración excesiva, o en entornos de alta presión y
temperatura donde se puede predecir la longevidad de la herramienta/equipo.
ÿ Geodirección: Capaz de realizar ajustes en tiempo real en la trayectoria del pozo para lograr el máximo
contacto con el yacimiento en función de las actualizaciones en tiempo real de los datos de
geomodelado.
ÿ Capaz de realizar cambios en los parámetros de perforación en tiempo real (es decir, peso en la broca)
[WOB], par en la broca [TOB] y caudal).
ÿ Prevenir reventones: proceso iterativo multivariable para analizar presiones como la formación, el lodo
y las presiones del fluido de perforación.
Gestión de yacimientos petrolíferos
El componente de gestión de yacimientos de OA es el vivero o el inicio del campo petrolífero digital

del futuro (DOFF). El ámbito de E&P en todas las empresas de O&G está adoptando enfoques no
tradicionales para las actividades DOFF más tradicionales de optimización de la producción y
perforación en tiempo real. En última instancia, es un gran diseño realizar un DOFF y promover el
desarrollo o la evolución de un centro analítico de excelencia (ACE) o un centro de soluciones de
eventos que se encuentra en el centro de las actividades globales en el entorno ascendente. El
Capítulo 6 analiza las técnicas informáticas blandas en la gestión de yacimientos y detalla los pasos
necesarios para establecer un ACE.
En el quid de la gestión de yacimientos se encuentran las tecnologías y metodologías

respaldadas por análisis avanzados que son un requisito para un centro de control multidisciplinario
y con múltiples habilidades que permite manejar de forma remota todos los aspectos del desarrollo
y la producción. Cuando se les presenta un flujo continuo de información sobre reservorios,
instalaciones de pozos y tuberías, los geocientíficos e ingenieros deben tener sistemas
automatizados para analizar los datos y ayudarlos a formular respuestas efectivas a las condiciones
cambiantes de la superficie y el subsuelo, y los medios para implementar estas respuestas en la
realidad. tiempo.
Los flujos de trabajo de campos petroleros digitales automatizan los procesos de recopilación,
verificación y validación de los datos correctos para que las personas adecuadas los tengan en el
momento correcto en el contexto correcto. Sin embargo, a medida que las inversiones y las
capacidades continúan creciendo, particularmente con respecto a pozos y activos más inteligentes, O&G
las empresas tienen nuevas oportunidades para convertir esta información en conocimientos prácticos a partir de
estos esfuerzos. Si bien las herramientas analíticas tradicionales adecuadas para el propósito funcionan muy bien
para el propósito para el que fueron diseñadas originalmente, estas herramientas tienen dificultades para administrar
el crecimiento total de los datos. Y los activos más inteligentes generan desafíos sobre cómo administrar el
tremendo crecimiento en los volúmenes de datos, tanto estructurados como no estructurados. Sin embargo, las
nuevas tecnologías en el procesamiento analítico en tiempo real, el procesamiento de eventos complejos (CEP), el
reconocimiento de patrones y la extracción de datos se pueden aplicar para generar valor a partir del activo. La
sección del Capítulo 9 sobre el sistema de detección de alerta temprana estudia el procesamiento de flujo de
eventos en un flujo de trabajo analítico.
Gestión de Intervención en Yacimientos Petrolíferos
La optimización de intervención repara pozos que tienen problemas mecánicos o de formación. Es importante
desarrollar un conjunto de flujos de trabajo de minería de datos analíticos avanzados que implementen técnicas
informáticas blandas, como análisis de componentes principales (PCA), análisis multivariados, agrupamiento,
mapas autoorganizados (SOM) y árboles de decisión para generar modelos descriptivos y predictivos. que
identifiquen eficientemente los pozos candidatos para la remediación. La implementación de un módulo de
pronóstico del desempeño de campos petroleros para determinar pronósticos probabilísticos sólidos y confiables
para la cartera completa de pozos en un activo es un paso esencial. Luego de este paso, los datos de producción
en tiempo real se pueden comparar con las curvas tipo determinadas con límites de confianza del 90 por ciento
para identificar los pozos aptos para la intervención. El Capítulo 7 cubre un conjunto de metodologías probabilísticas
para pronosticar el desempeño en una cartera de pozos.
Pronóstico de rendimiento de campos petroleros
Los flujos de trabajo analíticos pueden incorporar un paso de análisis de curva de declive (DCA) que implementa
un flujo de trabajo de pronóstico de producción de yacimientos petrolíferos para identificar pronósticos a corto y
largo plazo para la producción de petróleo, gas y agua. Al implementar modelos de pronóstico maduros y principios
básicos como los algoritmos empíricos Arps14, puede estimar el rendimiento del pozo con precisión y la recuperación
final estimada (EUR) y medir el impacto, positivo o negativo, de las técnicas de remediación de pozos.
Al comparar las tasas de datos de producción en tiempo real y las curvas tipo con las tendencias
pronosticadas, puede:
ÿ Identificar de manera rápida y eficiente aquellos pozos que requieren remediación.
ÿ Segmente el campo a través de la agrupación de perfiles de pozos.
ÿ Ratificar desde la perspectiva de un campo, yacimiento o pozo si la producción actual se encuentra dentro
de los intervalos de confianza esperados y actuar en consecuencia.

Optimización de la producción de yacimientos petrolíferos
Las metodologías analíticas avanzadas son aplicables para realizar análisis multivariados en
conjuntos de datos aguas arriba dispares, tanto operativos como no operativos, para evaluar y
determinar aquellas variables que inhiben o mejoran el rendimiento del pozo. Los flujos de trabajo
analíticos predictivos y descriptivos se combinan para explorar los datos para descubrir patrones
ocultos e identificar tendencias en un sistema complejo.
La adopción de modelos basados en datos en las siguientes áreas permite una comprensión amplia
y eficiente y un descubrimiento significativo de parámetros influyentes para abordar los problemas
que afectan negativamente a la producción, sin depender únicamente de los primeros principios.
Hay muchos inhibidores de la producción, como el daño de la piel y el lijado, que se pueden
predecir mediante la generación de modelos inferidos por EDA. Agregar e integrar conjuntos de
datos de todos los silos geocientíficos para producir un conjunto de datos robusto diseñado para
estudios analíticos específicos es la base de todos esos estudios.
Se pueden implementar flujos de trabajo analíticos para lograr los siguientes objetivos:
ÿ Establecer variables que sean indicadores clave de producción.
ÿ Identificar los parámetros críticos y su rango de valores.
ÿ Automatizar la normalización y corrección de todos los datos por falta y

valores erróneos.
ÿ Identificar la función objetivo (es decir, la variable objetivo, como el factor de recuperación,
el remanente de líquido o la producción acumulada distinta de cero durante un cierto
período) y determinar los estudios de sensibilidad para identificar los impulsores clave.
Dichos flujos de trabajo pueden identificar impulsores de rendimiento clave y ofrecer estrategias
y tácticas para métodos de terminación de pozos y diseños optimizados de tratamiento de fractura
hidráulica. Un enfoque probabilístico ayuda a cuantificar la incertidumbre y evaluar el riesgo de los
planes de desarrollo de campos individuales.
Los resultados importantes de los estudios de rendimiento de producción que adoptan los
flujos de trabajo mencionados anteriormente adoptan una metodología automática para caracterizar
el deterioro, clasificar los pozos como buenos o malos candidatos para la estimulación de pozos,
predecir los resultados de rendimiento de parámetros operativos particulares y aumentar la
producción con ciclos de decisión más rápidos. El Capítulo 8 detalla los flujos de trabajo analíticos
avanzados para aumentar la producción, mientras que los Capítulos 9 y 10 abordan la gama de
modelos y flujos de trabajo de Big Data, respectivamente.
SOY UN . . .
geofísico
Los geofísicos invierten invariablemente una gran parte de su tiempo procesando e interpretando
datos sísmicos para delinear la estructura del subsuelo y evaluar la calidad del yacimiento
implementando flujos de trabajo analíticos en datos derivados antes y después del apilamiento.
conjuntos de datos Actualmente, la industria se enfoca en explotar acumulaciones de

hidrocarburos más desafiantes, lo que requiere la necesidad de incorporar un conjunto más
diverso de tipos de datos, como electromagnéticos y microsísmicos.
Ya sea que esté resolviendo desafíos de exploración, desarrollo o producción, necesita
herramientas de software y metodologías analíticas avanzadas que le permitan evaluar
fácilmente todas sus incertidumbres estructurales y estratigráficas.
El Capítulo 3, Análisis de atributos sísmicos, detalla algunos estudios de casos importantes
de computación suave con énfasis en la aplicación de flujos de trabajo estocásticos en la
matriz en evolución de atributos sísmicos derivados de cubos sísmicos 3D.
Geólogo
La geología tiene sus raíces firmemente plantadas en la ciencia, pero el geólogo alberga un
talento artístico latente que puede orquestar la riqueza del conocimiento del subsuelo para
recrear los procesos geológicos de deposición, erosión y compactación que predisponen a los
yacimientos de hidrocarburos. Es posible que esté abordando desafíos en toda la gama de la
cadena de valor de E&P, por lo que necesita la flexibilidad para aprovechar metodologías
analíticas avanzadas con visualización inmersiva en 3D para satisfacer las necesidades
comerciales apremiantes. El Capítulo 4, Caracterización y simulación de yacimientos, el
Capítulo 6, Gestión de yacimientos, el Capítulo 7, Pronósticos de producción y el Capítulo 8,
Optimización de la producción, muestran varios estudios de casos que ilustran un conjunto de
flujos de trabajo no deterministas que generan modelos basados en datos.
petrofísico
Los datos complejos adquiridos de pozos inteligentes representan una inversión importante.
Es esencial capitalizar esa inversión y obtener un conocimiento significativo que conduzca a
una caracterización precisa del yacimiento. El Capítulo 4, Caracterización y simulación de
yacimientos, y el Capítulo 9, Análisis de datos exploratorios y predictivos, ofrecen estudios de
casos y enumeran flujos de trabajo para permitir a los petrofísicos determinar el volumen de
hidrocarburos presentes en un yacimiento y los regímenes de flujo potenciales desde la roca
del yacimiento hasta el pozo.
Ingeniero en perforación
Los pozos son caros y complejos, especialmente con la llegada de los yacimientos no
convencionales. Es esencial integrar las geociencias y los conocimientos de perforación para
garantizar la optimización de la perforación y la terminación, lo que conduce a pozos más
inteligentes y de mayor calidad, una mejor gestión de riesgos y una reducción del tiempo
improductivo.
El control de pozos es crucial en ambientes desafiantes, particularmente en alta presión-
alta temperatura (HPHT) y aguas profundas, para evitar riesgos operativos
relacionados con la inestabilidad y la falla del pozo. El Capítulo 5, Optimización de la perforación y

terminación, analiza los flujos de trabajo analíticos y las técnicas informáticas blandas para
proporcionar una comprensión profunda de los modelos basados en datos para predecir problemas
de perforación en tiempo real, como tuberías atascadas.
Ingeniero de depósitos
La industria de petróleo y gas está inundada de software de simulación de yacimientos para generar
un conjunto de soluciones numéricas que se esfuerzan por proporcionar una predicción rápida y
precisa del comportamiento dinámico. Debido a la variedad de yacimientos y su complejidad inherente
en estructura, geología, fluidos y estrategias de desarrollo, es fundamental adoptar un flujo de trabajo
de arriba hacia abajo que incorpore inteligencia artificial y modelos basados en datos. La sabiduría
convencional asume que las características del reservorio definidas en un modelo estático pueden no
ser precisas y, por lo tanto, en un flujo de trabajo de coincidencia histórica se puede modificar para
lograr una coincidencia. Las relaciones funcionales entre esas características se consideran
constantes derivadas de primeros principios. Sin embargo, un ingeniero de yacimientos puede
cuestionar la constancia de las relaciones funcionales y adoptar una metodología de IA y DM que no
haga suposiciones a priori sobre cómo se relacionan entre sí las características del yacimiento y los
datos de producción. El Capítulo 4, Caracterización y simulación de yacimientos, el Capítulo 6,
Gestión de yacimientos y el Capítulo 9, Análisis de datos exploratorios y predictivos, ofrecen algunos
estudios de casos de apoyo y puntos de discusión destacados para enriquecer la caja de herramientas
de un ingeniero de yacimientos. El Capítulo 8, Optimización de la producción, analiza las metodologías
en un estudio de caso para optimizar la producción de hidrocarburos a través de estrategias de
ubicación de pozos maximizadas que implementan flujos de trabajo basados en datos.
ingeniero de produccion
Los modelos basados en datos son metodologías complementarias ideales que brindan mejoras de
rendimiento significativas en el panorama actual de E&P que está densamente poblado por campos
petroleros digitales y pozos inteligentes que generan una gran cantidad de datos sin procesar
dispares. La gestión de datos (capítulo 2), las operaciones de producción integradas y la optimización
del rendimiento son objetivos clave para cualquier activo.
Los ingenieros de producción pueden aprovechar las capacidades tecnológicas innovadoras que son
escalables y adaptadas a los activos individuales. Combine las técnicas de computación blanda y
basadas en datos con los modelos tradicionales para explotar al máximo las riquezas de un activo.
El Capítulo 6, Gestión de yacimientos, el Capítulo 7, Pronóstico de producción y el Capítulo 8,
Optimización de la producción, ofrecen flujos de trabajo no deterministas para respaldar la metodología
de computación blanda.
Ingeniero petrolero
Como ingeniero petrolero, le interesan todas las actividades relacionadas con la producción de
petróleo y gas. Es imperativo aprovechar al máximo todos los datos del subsuelo disponibles para
estimar el volumen recuperable de hidrocarburos y comprender una apreciación detallada del
comportamiento físico del petróleo, el agua y el gas dentro de las rocas porosas. Los frutos al
alcance de la mano de los yacimientos petrolíferos mundiales se han descubierto y se han
agotado gradualmente. Corresponde a los ingenieros petroleros aprovechar las mejoras en el
modelado por computadora, las estadísticas y el análisis de probabilidad a medida que la llegada
de Big Data a lo largo de la cadena de valor de E&P y la complejidad de los sistemas subterráneos
obligan a la industria a adoptar un análisis basado en datos. El Capítulo 4, Caracterización y
simulación de yacimientos, el Capítulo 7, Pronóstico de la producción y el Capítulo 8, Optimización
de la producción, ofrecen metodologías basadas en datos centradas en la optimización de la
producción. El Capítulo 9, Análisis de datos exploratorios y predictivos, analiza las técnicas
informáticas blandas que son parte integral del desarrollo de modelos basados en datos del
subsuelo, impulsando la solución analítica.
Economista de Petróleo
Es esencial aprovechar las habilidades técnicas de los ingenieros petroleros con la previsión de
los economistas para empoderar mejores decisiones comerciales en la industria de E&P.
El Capítulo 7, Pronósticos de producción, analiza una metodología integrada de análisis de
curvas de declive que brinda pronósticos sólidos a corto y largo plazo del desempeño de los pozos.
Especialista en Tecnologías de la Gestión de la Información
La industria de O&G continúa evolucionando hacia múltiples bases de datos, gestión de datos
estructurados (datos) y no estructurados (documentos), servicios web y portales, así como
dispositivos portátiles y computación en la nube. Se trata de aprovechar los avances tecnológicos
para brindar una solución integrada e innovadora que tenga un valor real y medible para el
negocio de E&P. Ahora deben resolverse los nuevos problemas de los clientes, incluida la gestión
de aplicaciones disruptivas y la creciente complejidad, frecuencia y volumen de los datos. Este
capítulo aborda varios temas que impactan al profesional de TI, particularmente las secciones
sobre análisis de alto rendimiento. El Capítulo 2, Gestión de datos, detalla parte del pensamiento
crítico detrás de la aprobación de que los datos son un activo clave, especialmente en la esfera
de los modelos basados en datos.
Analista de datos
¿Qué es un analista de datos? El análisis de datos es una tarea multifacética que incorpora
inspección, limpieza, transformación y modelado de datos. En el
En el mundo de las empresas de O&G, tal persona adopta técnicas de inteligencia artificial
y minería de datos en datos de E&P para buscar el descubrimiento de conocimiento.
Esencialmente, todo este libro complementa el perfil de los analistas de datos a medida
que implementan análisis de datos exploratorios, modelos descriptivos y predictivos a
través de técnicas de visualización de datos (Capítulo 9) e integran análisis de texto
(Capítulo 10) para obtener inteligencia empresarial.
NOTAS
1. Bertrand Russell, La filosofía del atomismo lógico (Londres: Fontana, 1972).

2. JT Tukey, Análisis de datos exploratorios (Reading, MA: Addison-Wesley, 1977).
3. Jim Gray, “A Transformed Scientific Method”, basado en la transcripción de una charla dada por Jim
Gray a la NRC-CSTB en Mountain View, CA, 11 de enero de 2007.
4. DE Goldberg, Algoritmos genéticos en búsqueda, optimización y aprendizaje automático (Reading, MA:
Addison-Wesley, 1989).
5. Charles Darwin, Sobre el origen de las especies, 4ª ed. (Londres: John Murray, 1866).
6. A. Weismann, Ensayos sobre la herencia (Londres: Oxford Clarendon Press, 1889).
7. S. Mohaghegh, Inteligencia virtual y sus aplicaciones en ingeniería petrolera, Parte 3. Fuzzy
Logic, Journal of Petroleum Technology, noviembre de 2000.
8. LA Zadeh, "Conjuntos borrosos", Información y control 8, no. 3 (1968): 338–353.
9. GFLP Cantor, "Sobre una propiedad de la colección de todos los números algebraicos reales", Journal fur
die reine und angewandte Mathematik 77 (1874): 258–262.
10. SAS Institute define la minería de datos como el proceso de muestreo, exploración, modificación, modelado y
evaluación (SEMMA) de grandes cantidades de datos para descubrir patrones previamente desconocidos.
11. “Análisis en memoria para Big Data”, SAS Institute Inc, White Paper, 2012.
12. Paul Kent, R. Kulkarni, U. Sglavo, “Convertir Big Data en información con alto rendimiento
Análisis”, Datanami, 17 de junio de 2013.
13. KR Holdaway, “Análisis exploratorio de datos en proyectos de caracterización de yacimientos”, Conferencia de
simulación y caracterización de yacimientos SPE/EAGE, 19 al 21 de octubre de 2009, Abu Dhabi, EAU.
14. JJ Arps, Análisis de las curvas de declinación, Transacciones del Instituto Estadounidense de Ingenieros de Minas 160
(1945): 228–247.
CAPÍTULO
2
Gestión de datos
Una de las decisiones de diseño y arquitectura más

críticas que deben tomar los usuarios de análisis
avanzados es si almacenar los datos analíticos en un
almacén de datos o en una base de datos analítica
independiente. ¿Adónde van los datos? ¿Dónde se
gestiona? ¿Dónde vamos a hacer nuestros procesos analíticos?
Philip Russom, gerente sénior, investigación de TDWI
disciplinas está ganando impulso debido a la demanda de predicción precisa

La integración de tipos
ciones y estrategias de datosdedispares
de ingeniería en ingeniería
campo efectivas upstream
que pueden en silos
abordar problemas
comerciales críticos en toda la cadena de valor de exploración y producción (E&P). Cuando
la interpretación de un solo tipo de datos es suficiente para proporcionar una idea de las
variaciones ocultas en un conjunto limitado de propiedades físicas o combinaciones de las
mismas, una perspectiva multivariante habilitada por la integración de diferentes tipos de
datos tendrá potencial para estimaciones más sólidas y una discriminación más astuta de
diferentes efectos físicos.
La industria del petróleo y el gas recopila cantidades masivas de datos de sensores de
operaciones que abarcan la exploración, la perforación y la producción. La velocidad y la
complejidad del crecimiento de los datos ha ejercido una enorme presión sobre el rendimiento de
las aplicaciones y las bases de datos. Este rápido crecimiento requiere un cambio fundamental
en la forma en que se recopilan, almacenan, analizan y acceden los datos para respaldar la
inteligencia en tiempo real y los ciclos de toma de decisiones condensados.
Los operadores de petróleo y gas se enfrentan a un desafío abrumador mientras se
esfuerzan por recopilar los datos sin procesar que sirven como base para el éxito de su negocio,
transformando esos datos sin procesar en conocimiento procesable. Sin embargo, con el
crecimiento exponencial de los volúmenes de datos y la amplitud de fuentes de datos dispares
y aisladas que aumentan a un ritmo cada vez más rápido, la industria se está dando cuenta de que los datos
33
la gestión es fundamental para su éxito. Exploremos algunos conceptos importantes en la gestión

de datos que permiten a los geocientíficos convertirse en científicos de datos efectivos como
guardianes del activo vital de una compañía de petróleo y gas (O&G): los datos.
PROPUESTA DE VALOR DE EXPLORACIÓN Y PRODUCCIÓN
La exploración y producción (E&P) es inherentemente una de las industrias analíticas de Big

Data más desafiantes del mundo. La industria del petróleo y el gas produce pequeños abytes de
datos y el tamaño de los datos no hace más que aumentar.
¿Qué es Big Data? La Figura 2.1 identifica los tres ingredientes clave de la amalgama de
Big Data: volumen, variedad y velocidad. Desafortunadamente, los métodos para analizar datos
no han seguido el ritmo y, por lo tanto, el valor puede aparecer como una meta inalcanzable.
La industria del petróleo y el gas siempre ha gestionado importantes volúmenes de datos.
Sin embargo, el clima de negocios ahora favorece a las empresas que están posicionadas para
usar la totalidad de los datos disponibles (no solo muestras espaciales o temporales) para afinar
las estrategias de E&P. La aparición de análisis avanzados dentro de un entorno de alto
rendimiento permite que más empresas aprovechen los conocimientos descriptivos y predictivos
que antes estaban encerrados en fuentes de datos aisladas.
Necesitamos establecer un entorno integrado de soluciones, herramientas, metodologías y
flujos de trabajo que permitan a las empresas de petróleo y gas gestionar Big Data como un
activo valioso, impulsando tanto los procesos operativos centrales como la toma de decisiones
estratégicas. Con capacidades de gestión de datos establecidas, las organizaciones pueden
hacer un uso completo de todos los datos entrantes para descubrir información oculta y aumentar
la ventaja competitiva.
Durante la última década, hemos sido testigos de la adopción de una estrategia de campo
petrolero digital y operaciones integradas. Como estos planos para automatización
Figura 2.1 Big Data combinado con Big Analytics

Gestión de datosâ•‡ ÿ 35
y los procesos semiautomáticos se vuelven más generalizados en la industria, veremos una

frecuencia cada vez mayor de generación de datos. Este fenómeno se traduce en altas velocidades.
A veces, los eventos de alta frecuencia y baja latencia deben resolverse para evitar eventos
catastróficos, como fallas en las bombas. Investigaremos algunos de estos casos de estudio en los
Capítulos 5 y 6 cuando analicemos la optimización de la perforación y terminación, así como la
gestión de yacimientos.
También es fundamental adoptar un entorno eficaz de sistemas de información geográfica

(GIS), así como un sistema de gestión del subsuelo (GGRE) dentro de la plataforma de gestión de
datos (DM). El conocimiento obtenido a partir de datos dispares sin procesar recopilados de los
diversos silos de ingeniería aguas arriba es equivalente a la sangre vital de las empresas de petróleo
y gas. Estos conjuntos de datos constituyen la variedad de fuentes de entrada. Esencialmente, los
buenos protocolos y arquitecturas GIS y DM son fundamentales para el éxito financiero de la empresa
mientras navega por las agitadas aguas económicas que se encuentran globalmente en un estado
de cambio constante.
Invariablemente, una compañía de petróleo y gas tiene múltiples sistemas de información, cada
uno de los cuales procesa una gran cantidad de datos para acelerar y mejorar los ciclos de toma de
decisiones. La administración exitosa de estos sistemas de información requiere prácticas
profesionales de gestión de datos. Las responsabilidades clave deben incluir.1
ÿ Supervisión de datos a través de la coordinación del programa
ÿ Integración entre sistemas
ÿ Buena administración
ÿ Establecimiento de procesos de calidad
ÿ Desarrollo de nuevos sistemas y operaciones de soporte
La industria se ha visto afectada por la introducción de Sarbanes-Oxley,2

catapultando la gestión de datos a un requisito previo crucial para un gobierno corporativo eficaz. Por
lo tanto, la alta dirección de O&G está más interesada que nunca en la procedencia, la plenitud y la
precisión de todo tipo de información fundamental para sus estados contables financieros y de
gestión. Por lo tanto, los procesos de gestión de datos deben estar claramente definidos, repetibles
y auditables, lo que permite cuantificar los riesgos y, en última instancia, mitigarlos.
Los cuadros de ingenieros, científicos, investigadores y otro personal de E&P aplican

rutinariamente sus propias rutinas de limpieza para manipular los datos antes de usarlos en los
procesos que pueden crear valor y conocimiento. Las rutinas de limpieza de datos y los datos limpios
rara vez se comparten entre las prácticas y los grupos regionales debido a las diferencias en los
sistemas de almacenamiento de datos y los sistemas de aplicación de los diferentes proveedores.
Los datos erróneos y duplicados reducen su eficiencia, aumentan sus costos de mantenimiento
y contribuyen a mayores costos de desarrollo para cada proyecto de TI. Cada
El proyecto debe navegar a través de datos heredados mal documentados para determinar qué
datos usar para un proyecto específico. A menudo, se desarrolla una "solución" única para un
proyecto en particular y se vuelve a desarrollar en proyectos posteriores. Estos "arreglos" se
revisan continuamente con el tiempo a medida que los sistemas de origen o de destino cambian
o se actualizan, lo que genera costos e ineficiencias adicionales. A menudo, los cambios
realizados en un sistema desencadenan fallas imprevistas en los procesos posteriores. La falta
de metadatos unificados sobre la creación, manipulación y uso de datos es la razón por la que
ocurren estos eventos.
Las empresas de E&P más exitosas contarán con una estrategia clara y precisa que
reconozca los datos como un pilar fundamental de su diferenciación competitiva. Aquellos que
tengan éxito al abordar los datos como un activo estratégico serán los líderes que puedan
abordar todas sus necesidades mediante el uso de una oferta integrada y, por lo tanto, tendrán
la flexibilidad para reaccionar rápidamente a los nuevos desafíos.
Una única oferta integrada acortará las curvas de aprendizaje y brindará a los tomadores de
decisiones la información y la confianza en los datos que realmente necesitan para respaldar las
decisiones. Los datos correctos se entregarán donde y cuando se necesiten con gran confianza.
Cualquier pregunta sobre el linaje de los datos se responderá con herramientas que identifican
el origen de los datos y todas las transformaciones aplicadas a esos datos. Eliminar el enfoque
fragmentado de vincular y administrar tecnologías de diferentes proveedores garantiza la
credibilidad de los datos, reduce el riesgo y acelera los resultados. Los clientes de O&G que
adopten esta estrategia se beneficiarán de mejores decisiones que se medirán como un tiempo
más rápido para generar ingresos, menos pozos secos, menos tiempo de inactividad y mayor
confiabilidad.
La oferta integrada única debe respaldar las necesidades de la empresa, abarcando tanto
las necesidades operativas como las analíticas. El uso de datos para operaciones puede abarcar
prácticamente todos los departamentos y todos los flujos de trabajo dentro de esos departamentos.
Las necesidades de calidad de datos de cada uno de estos flujos de trabajo deben identificarse
e incluirse en los requisitos mínimos de la solución de calidad de datos.
Especialmente importante en este análisis es captar las necesidades únicas de las ciencias
para las empresas de petróleo y gas. Mejorar la calidad de los datos sísmicos, de registros de
pozos y de procesos implica procesos estadísticos e interpretaciones manuales que no están
disponibles en la mayoría de las soluciones de calidad de datos.
PLATAFORMA DE GESTIÓN DE DATOS
Con una plataforma de administración de datos (DM), puede crear flujos de trabajo automatizados
y semiautomáticos para procesos de calidad de datos, integración de datos y administración de
datos maestros (MDM). Dicho marco libera un tiempo valioso para que los geocientíficos dediquen
su energía a las tareas de interpretación para las que están altamente capacitados, liberándolos
de la onerosa y tediosa tarea de cotejar los conjuntos de datos pertinentes.
Una plataforma de DM bien estructurada permite al personal de E&P:
ÿ Corrija, estandarice y valide la información en toda la empresa desde

una sola plataforma.
ÿ Perfile metadatos y datos para descubrir errores, inconsistencias, redundan
cias e información incompleta.
ÿ Haga coincidir, fusione o integre datos de una variedad de fuentes dispares.
ÿ Enriquezca los datos utilizando información de fuentes de datos internas y externas.
ÿ Verifique y controle la integridad de los datos a lo largo del tiempo con monitoreo de datos en
tiempo real, paneles y cuadros de mando.
ÿ Escriba reglas comerciales una vez y reutilícelas fácilmente en otros flujos de trabajo.
Los datos inconsistentes y desarticulados pueden poner en riesgo a su organización al poner en

peligro la planificación de recursos empresariales (ERP), la gestión de relaciones con los clientes (CRM),
el almacenamiento de datos, la inteligencia comercial (BI) o cualquier otra iniciativa que se base en datos
precisos extraídos de múltiples fuentes. Una estrategia de integración de datos efectiva puede reducir los
costos y mejorar la productividad al promover datos consistentes, precisos y confiables en toda su
empresa.
La plataforma DM es una plataforma única y unificada que permite en tiempo real, por lotes,
e integración de datos virtuales:
ÿ Haga coincidir, concilie y consolide múltiples fuentes de datos para crear la mejor vista posible de
un pozo, yacimiento, campo, activo, planta de separación de gas y petróleo (GOSP), operador,
instalación o ubicación geográfica.
ÿ Obtenga acceso a las fuentes de datos correctas en el momento adecuado para estimular una
mejor toma de decisiones.
ÿ Asegúrese de que la información de alta calidad llegue a nuevos objetivos de datos durante
esfuerzos de consolidación o migración de datos.
ÿ Acceda a sus datos en prácticamente cualquier plataforma durante un proyecto de integración.
ÿ Aumente la calidad de sus datos antes de cargarlos en nuevos sistemas.
MDM es la creación de una vista única, precisa y unificada de datos corporativos, integrando
información de varias fuentes de datos en un registro maestro.
Estos datos maestros luego se usan para enviar información a las aplicaciones, creando una vista
consistente de los datos en toda la empresa.
En un entorno económico desafiante, la toma de decisiones reactivas no es suficiente para mantener
una ventaja competitiva. Las empresas de petróleo y gas están recopilando más datos, lidiando con
problemas comerciales más complejos y experimentando una mayor competencia global. Nunca ha
habido una mayor necesidad de transformar los activos de datos en innovación y maximizar la
productividad de los recursos para impulsar el crecimiento sostenible. Es plausible combinar computación
grid y
procesamiento en la base de datos para impulsar decisiones comerciales proactivas basadas en evidencia y promover
estrategias ágiles para anticipar y administrar el cambio.
Los grandes conjuntos de datos anteriores, la complejidad de las relaciones de datos y el modelado de tal
complejidad hacían imposible resolver los cálculos analíticos comerciales de mayor valor de manera rápida y eficiente.
La computación de alto rendimiento, que combina el procesamiento en la base de datos y la computación grid, resuelve
problemas comerciales que antes se creían irresolubles. Con la computación de alto rendimiento, los usuarios
comerciales ven ganancias de rendimiento exponenciales, un aumento en la productividad y la capacidad de optimizar
sus procesos de análisis. Juntos, el procesamiento en la base de datos y la computación en red permiten una revolución
en el análisis de negocios y ofrecen a los clientes una diferenciación competitiva inmediata y ahorros de costos.
Desde sistemas heredados hasta aplicaciones de planificación de recursos empresariales (ERP), se puede
acceder, limpiar y procesar datos de prácticamente cualquier plataforma de hardware o sistema operativo. Se pueden
agregar fácilmente nuevos sistemas de origen y la seguridad se administra de forma centralizada. Esto ahorra tiempo,
acorta las curvas de aprendizaje y brinda a los tomadores de decisiones la información completa que necesitan.
Los datos son el factor común que permite tomar las mejores decisiones de negocio.
Tanto si es un ejecutivo como un ingeniero, la mejor decisión que tomará es la que se base en los datos. Pero los
tomadores de decisiones a menudo no confían en que los datos sean correctos, actuales, completos y utilizados
correctamente. La falta de confianza es el resultado directo de las dificultades de trabajar con datos, el crecimiento
explosivo de los datos provenientes de numerosas fuentes (yacimiento petrolífero digital) y la forma irregular en que se
utilizan normalmente en la empresa. Para ser efectivos, los datos deben considerarse un activo corporativo que debe
nutrirse y administrarse para que sean útiles para la creación de valor para la empresa.
Los problemas con la calidad de los datos existen desde hace más tiempo que las computadoras. Inicialmente
considerado como un irritante que podría corregirse con White-Out, el problema de la calidad de los datos ha seguido
creciendo con la proliferación de sistemas y la aplicación de la automatización en más y más áreas de operación.
La ola de ERP que barrió la industria del petróleo y el gas en la década de 1990 prometía corregir los problemas de
datos con una sola instancia de datos empresariales. Esa promesa nunca se cumplió, ya que los sistemas ERP rara
vez contenían todos los datos de la empresa, y las fusiones, adquisiciones y requisitos comerciales dieron como
resultado múltiples instancias de aplicaciones ERP. Además de la duplicidad, los datos incorrectos provienen de una
amplia variedad de fuentes, que incluyen:
ÿ Entrada de datos inexactos de los sistemas de origen
ÿ Errores tipográficos y de manipulación de datos
ÿ Procesos de entrada de datos defectuosos que utilizan datos mal entendidos o inexactos
campos
ÿ Entradas nulas o en blanco
ÿ Errores de transmisión de datos en datos de proceso

ÿ Tipos de datos no válidos
ÿ Ruido en datos sísmicos
ÿ Picos en los datos de proceso
ÿ Antigüedad de los datos debido a la falta de uso de los registros de pozos más recientes
ÿ Trabajos de extracción, transformación y carga (ETL) incorrectos
ÿ Pérdida de granularidad comúnmente encontrada con datos de proceso
ÿ Precisión numérica
ÿ Tipos de datos incorrectos
ÿ Correcciones de datos incorrectos
ÿ Transcripción de medios mal supervisada o ejecutada con la intención de extender los ciclos de vida
de los datos, corrompiendo los metadatos
El análisis de los requisitos de gestión de datos arroja luz sobre el estado actual de las cosas. El
siguiente modelo de gobierno de datos proporciona orientación para el viaje hacia el gobierno de datos de
clase mundial.
ÿ Indisciplinado
ÿ Duplicación desenfrenada
ÿ Silos de datos no integrados
ÿ Tramitación única de todas las iniciativas
ÿ Proyectos de calidad de datos solo de TI que abordan aspectos básicos como pozos, yacimientos y campos
ÿ Reactivo
ÿ Cierta colaboración interfuncional
ÿ Almacenes de datos para informes
ÿ Múltiples fuentes de datos aprovechadas para iniciativas únicas
ÿ Altos costos de mantenimiento y desarrollo de iniciativas
ÿ Usuarios empresariales que necesitan confiar en TI para sus iniciativas
ÿ Proactivo
ÿ TI y grupo empresarial que colaboran en dominios específicos de interés de datos

gracion y calidad de datos
ÿ Algunas vistas de toda la empresa en ciertos dominios
ÿ Cierta estandarización de la calidad de los datos
ÿ Datos reconocidos como activo social
ÿ Arquitectura de datos empresariales definida
ÿ Gobernado
ÿ Requisitos comerciales que impulsan los esfuerzos de TI
ÿ Procesamiento automatizado repetible de datos

ÿ Los consumidores de datos se ayudan a sí mismos de extractos integrados de datos de

múltiples fuentes
ÿ Desarrollo de optimización de procesos
Para abordar los problemas emergentes relacionados con la gestión, el control y la utilización de
datos, las organizaciones han estado adquiriendo una gran caja de herramientas y tecnologías de
integración de datos. Uno de los principales impulsores de estos y de la caja de herramientas de
integración de datos ensamblada posteriormente ha sido el mundo en constante evolución del almacén
de datos.
Las organizaciones necesitan herramientas y tecnologías que puedan abordar los nuevos
requisitos y permitir que los empleados se concentren en el trabajo que tienen entre manos en lugar
de dedicar su tiempo a integrar constantemente tecnologías dispares en la caja de herramientas. La
necesidad de una única plataforma de gestión de datos integrada que pueda abordar todos los aspectos
de la integración de datos, la calidad de los datos y la gestión de datos maestros podría estar sonando
la sentencia de muerte para la caja de herramientas de integración de datos. Estas áreas clave estarán
respaldadas por adaptadores y una capacidad de federación, y compartirán metadatos técnicos y
comerciales que ayuden en la colaboración. En última instancia, una sola interfaz de usuario debería
mostrar todas las capacidades de esta plataforma en lugar de un conjunto dispar de interfaces de
usuario. Enumeremos las funciones que debe proporcionar un único modelo de gobierno para llevar a
una empresa a un entorno controlado y propicio para la calidad:
ÿ Movimiento e integración
ÿ Migrar a nuevos almacenes de datos o implementación de nuevos sistemas.

ÿ Reducir las fuentes de datos.
ÿ Consolide desde múltiples entornos.
ÿ Sincronización
ÿ Garantizar la coherencia entre los sistemas donde los datos no se pueden mover o
conjunto.
ÿ Habilite la captura o el cambio de datos en entornos de baja latencia.
ÿ Calidad
ÿ Monitoreo y alerta de incidencias.
ÿ Inspeccionar y corregir errores de datos.

ÿ Estandarizar valores de datos.
ÿ Valide usando reglas comerciales definidas a medida.

ÿ Eliminar entradas de datos redundantes.
ÿ Incorporar herramientas de reporte, validación y análisis.
ÿ Gestión
ÿ Los administradores de calidad de datos están facultados para controlar los activos de datos.
ÿ Los datos se mejoran con la aplicación de reglas comerciales.

ÿ Servicios
ÿ Mantener enlaces de metadatos para mostrar los datos maestros según sea necesario.
ÿ Coordine y gestione el mantenimiento de los datos maestros en el sistema de origen con

actualizaciones en tiempo real proporcionadas como un servicio solicitado.
En resumen, las empresas de petróleo y gas deben adoptar una estrategia de gestión de la
información (IM) para respaldar una base analítica que proporcione la inteligencia necesaria, una que
se base en datos operativos históricos y "en vivo":
de ahí el concepto de lo que ahora se considera un almacén de datos "activo". Un almacén de datos
activo alinea la inteligencia empresarial, "Qué ha sucedido", y la inteligencia operativa, "Qué está
sucediendo", creando inteligencia activa que permite obtener información procesable, lo que permite
a una empresa decidir "Qué va a suceder". Los análisis sustentan estas estrategias en la gestión de
datos.
Mantendremos un hilo consistente de discutir el concepto de análisis .
a través del libro. Los análisis abarcan una amplia gama de técnicas y procesos para recopilar,
clasificar e interpretar datos para revelar patrones, anomalías, variables clave y relaciones. El objetivo
es obtener nuevos conocimientos que impulsen mejores decisiones y procesos operativos más
efectivos.
Para muchos usuarios, el análisis significa poco más que rebanar, dividir, clasificar, filtrar,
profundizar y visualizar datos para investigar eventos pasados. Sin embargo, un número creciente de
compañías de petróleo y gas están adoptando formas de análisis más avanzadas en una búsqueda
para predecir el futuro y adaptarse a cambios rápidos.
capacidades especialmente importantes en una economía implacable con fluctuaciones impredecibles
en el precio del petróleo y el gas.
La táctica inicial para todo análisis es una plataforma de gestión de datos como
la arquitectura de cuatro niveles discutida en la siguiente sección.
Arquitectura DM de cuatro niveles
Para transformar los datos sin procesar en un activo viable y efectivo, las organizaciones de E&P
buscan la implementación de una arquitectura de plataforma de cuatro niveles (Figura 2.2):
1. Plataforma de información
2. Plataforma de conocimiento
3. Colaboración y marco analítico
4. Plataforma de rendimiento
Plataforma de Información
La plataforma de información maneja la transformación de datos en información, asegura la

consistencia y precisión de la información, la adapta de acuerdo a las necesidades de los usuarios y
proporciona acceso total a la información. esta base
Actuación
Plataforma Supervisión y gestión del rendimiento
Planificación Integrada
Colaboración y
Analítica
Estructura Colaboración a
Subsuperficie Operacional
través de Siled
Inteligencia Excelencia
Geociencias
Conocimiento Documentación y Cumplimiento, Proceso

Plataforma Mejoramiento
Agregación de datos, Datos Datos exploratorios

control de calidad y almacenamiento Análisis Visualización
Información
Plataforma
Sísmico
SAVIA Rama PETRA SCADA
Producción
Sistemas
Mantenimiento
Logística HSE Perforación
Finanzas
Monitoreo de pozos
Control de procesos
Reservorio
Simulaciones
Figura 2.2 Arquitectura DM de cuatro niveles de petróleo y gas
Revoluciones
agacharse
por minuto
poco (BOB)
(RPM)
Tasa de
Penetración Tasa de flujo
(ROP)
peso en multivariante Esfuerzo de torsión
Bit (WOB) Problema (TOB)
Figura 2.3 Perspectiva multivariante
La plataforma garantiza que la información, las comunicaciones, las directivas y las

decisiones puedan fluir libremente, buscando un rango probabilístico de resultados
aceptables basados en un análisis multivariante, multidimensional, multivariante y
estocástico de los datos agregados.
¿Qué representan estos tipos de datos en un sentido analítico?
Multivariante: Múltiples variables independientes que afectan el resultado de una

singularidad como se muestra en la Figura 2.3.
Multidimensional: Dimensiones que afectan a las variables independientes. Por ejemplo,

las vibraciones pueden ser axiales, tangenciales y laterales, como se ilustra en la Figura 2.4.
Se refiere a un espacio de entrada donde varias variables exploratorias pueden
personificar la propiedad de colinealidad donde los valores demuestran una relación lineal
exacta o aproximada. La anisotropía inherente a algunas propiedades de las rocas, como
la permeabilidad, aumenta la dimensionalidad del espacio de entrada ya que depende de
la dirección.
Multivariante: Múltiples variables dependientes que deben predecirse para alcanzar un

objetivo en una singularidad. Por lo general, estas son variables que tienen
interdependencias que pueden afectar el resultado de la singularidad. Por ejemplo, la
Figura 2.5 muestra los impactos de par RPM; el peso afecta el torque y las RPM; los tres
afectan la tasa de penetración (el resultado).
Porosidad
Módulo de Young •
• Volumen de vacío
Tensión • Deformación
espacio
• Volumen a granel
El coeficiente de Poisson
Presión: BHP
• +/– Deformación transversal
• Volumen de lodo •
Tasa de flujo de lodo • • Compresión/tensión axial • +/–
Deformación axial • Tensión/compresión
Longitud del hoyo
axial
Vibración
Permeabilidad •
• Axial • multivariante
Horizontal •
Lateral • Multidimensional
Vertical
Tangencial
Figura 2.4 Perspectiva multidimensional
Temporización de Volumen de apuntalante
Flowbak • Volumen de • Longitud lateral •

apuntalante • Productividad de etapa Geoquímica • Presión •
Temperatura
Escenario
Tasa de producción •
Productividad •
Saturación de gas • Longitud lateral • Total
de apuntalante • Total
Porosidad • H neta
de fluido de fractura • Etapas
de fractura
ROP Acumulativo
multivariante Producción
• WOB •
Multidimensional
RPM • •
multivariado
Torque Profundidad • Gravedad API
Figura 2.5 Perspectiva multivariada

Variación de par Reología de fluidos

• Peso sobre broca • Lodo
• Agua
• Aceites
Transporte de Corte
Porosidad
• Viscosidad aparente
• Profundidad
• Velocidades anulares
• Mecánica de rocas
• Reología de fluidos
propiedades
Corte de brocas multivariante Número de etapas

Eficiencia multivariado • Flujo de fluido
• Tiempo Multidimensional • Mecánica de rocas
• Mecánica de rocas estocástico
• Caudales
Figura 2.6 Perspectiva estocástica
Estocástico: Variabilidad y comportamiento aleatorio de variables independientes. Por ejemplo, el

rendimiento de la broca variará según el tiempo, la resistencia de la roca y las tasas de flujo, como
se ve en la Figura 2.6.
Plataforma de conocimiento
Esta capa contiene una colección estructurada de reglas para los datos, criterios de toma de decisiones,
mejores prácticas, estándares corporativos, patrones de eventos, etc. La plataforma de conocimiento
monitorea procesos, flujos y toma de decisiones. Asegura que estos cumplan no solo con la política
corporativa y las mejores prácticas, sino también con la legislación gubernamental. Los geocientíficos
pueden implementar primeros principios y conceptos de ingeniería, lo que permite que la base obtenga
un rico conjunto de datos ideal para soluciones híbridas que combinan modelos basados en datos con un
sistema experto basado en la interpretación y los flujos de trabajo deterministas. La esencia de esta capa
es un conjunto de conocimientos capturados y formalizados, accesible en cualquier momento por la
organización. Con la introducción rigurosa de las dos capas desde arriba, la organización puede evitar
procesos tediosos e ineficaces que resultan en tareas de manejo de datos obtusas y confusas. La base
de los procesos comerciales a partir de este momento se convierte en información precisa y conocimiento
formalizado.
Marco analítico y de colaboración
El marco analítico y de colaboración utiliza la información y el conocimiento tomados de las dos primeras
capas para preparar y automatizar decisiones. Esto le permite a su organización obtener una comprensión
completa del pasado y el presente, así como vislumbrar el futuro, mediante la creación de posibles
escenarios futuros y
luego analizándolos y clasificándolos. Esta plataforma incluye elementos analíticos con capacidades
como predicción, pronóstico y optimización. Forma el punto de decisión en el proceso, proporcionando
el entorno necesario para integrar y vincular varios procesos dispares, como comunicaciones y directivas.
Además, esta capa brinda la capacidad de transformar la toma de decisiones en todas las jerarquías
y disciplinas de una organización en una práctica eficiente que involucra la alineación total de los
participantes.
Plataforma de rendimiento
La plataforma final de la infraestructura de cuatro capas es responsable de establecer el marco

estratégico, planificar las métricas de rendimiento de acuerdo con la estrategia comercial y luego
combinar las decisiones de las plataformas anteriores en planes. La ejecución de estos planes puede
luego ser monitoreada por su progreso contra la configuración de métrica completa, que luego puede
establecerse para su modificación y mejora.
Esta capa se asegura de que la estrategia sea consistente, que los profesionales y la gerencia de
E&P estén alineados, y que todas las actividades operativas estén capturadas y enfocadas en los
objetivos y esfuerzos de mejora. También asegura que el plan de negocios y las operaciones se adapten
continuamente a los cambios del entorno empresarial.
La buena noticia es que este desafío se puede superar al tratar los datos como un activo crítico y
al implementar las estrategias y tecnologías adecuadas que permitan a las organizaciones tomar
decisiones comerciales sólidas basadas en datos confiables. Cada vez se está dando más cuenta de
que las empresas de petróleo y gas requieren un conjunto de software dedicado para respaldar una
infraestructura de gestión de la información que ofrezca a los geocientíficos un parque infantil propicio
para agregar e integrar fuentes de datos clave.
Un enfoque en la gestión de datos empresariales puede proporcionar información sin precedentes
sobre las eficiencias y deficiencias de E&P al tiempo que identifica la posible reducción de costos de
CAPEX y OPEX, mitigando así los riesgos y maximizando el rendimiento.
Los datos sólidos conducen a una mejor toma de decisiones, lo que, en última instancia, conduce a
cartera de activos mejorada.
VARIEDAD DE REPOSITORIOS DE DATOS
Distingamos entre un almacén de datos, un mercado de datos y una base de datos analítica. Las
empresas de petróleo y gas deben aclarar las definiciones de cada uno de estos repositorios, debido a
su inherente variabilidad y adecuación para admitir análisis avanzados. Estos repositorios de datos
tienen propósitos fundamentalmente diferentes:
ÿ Un almacén de datos empresarial es una plataforma integral que administra datos para múltiples
departamentos geocientíficos y sus funciones autónomas. Está diseñado para ser la única
versión de la verdad y un historiador complementario del desempeño empresarial.
ÿ Los data marts tienden a tener una definición más estrecha y, por lo general, abordan un solo
tema, como datos sísmicos o datos de registros de pozos.
ÿ “Una base de datos analítica es un término confuso”, dijo Russom.3 “Puede significar muchas cosas
para diferentes personas. Como colección de datos analíticos, puede ubicarse físicamente dentro de
un almacén de datos empresarial. Para algunos, puede parecer un data mart. Cada vez más, he visto
a personas armar una base de datos separada fuera de su almacén de datos o data marts que
contiene datos analíticos específicamente para fines analíticos.
Dondequiera que resida físicamente, una base de datos analítica no se considera un registro
permanente del desempeño de la empresa, sino más bien un banco de pruebas para explorar el
cambio y la oportunidad”.
Los tres tipos de repositorios de datos están optimizados por diferentes procesos.
“Por ejemplo, muchos almacenes de datos empresariales están optimizados para que pueda introducir datos
en ellos a diferentes velocidades de actualización y realizar consultas de alta velocidad con esos datos”, dijo
Russom.
Los data marts tienen atributos muy similares, excepto que son más pequeños. Por el contrario,
las bases de datos analíticas están optimizadas para conjuntos de datos bastante impredecibles,
porque los datos no son tan estables como en un almacén de datos o un mercado. Cuando
intenta averiguar el cambio comercial, los datos cambiarán bastante.
El procesamiento analítico en línea (OLAP) permite consultas multidimensionales mediante el

almacenamiento en caché de datos en cubos. “Al igual que con los informes, este tipo de datos
multidimensionales se limpian y documentan cuidadosamente”, dijo Russom. “Pondrías mucho esfuerzo en los
metadatos, tal vez en los datos maestros. Hay transformación a través de procesos ETL, etc. Todas las
prácticas que asociamos con la preparación de datos para un almacén de datos son apropiadas para el
procesamiento analítico en línea”.
Con el análisis basado en consultas, los usuarios a menudo desean comenzar el análisis muy rápidamente
en respuesta a un cambio repentino en el entorno empresarial. El análisis puede requerir grandes volúmenes
de datos, a menudo varios terabytes de datos operativos sin procesar. La urgencia del análisis excluye
oportunidades para la transformación, limpieza y modelado de datos sustanciales.
"No es que quieras", dijo Russom.
Demasiada preparación al comienzo de un proyecto de datos analíticos puede hacer perder

algunas de las "pepitas de datos" que alimentan el descubrimiento. Ya sea basado en consultas
o predictivo, o alguna variación de estos, necesita los datos de origen detallados prácticamente
intactos para hacer su primer paso de descubrimiento. Más tarde puede volver y comenzar a
transformar los datos.
“Algunas herramientas o algoritmos predictivos necesitan estructuras de datos específicas”, dijo Russom.
Muchas de estas herramientas se ejecutan rápidamente en una estructura de registro plana,

por lo que si tiene jerarquías de datos, es posible que deba aplanarlas. Si usted tiene
datos esparcidos en varias tablas, tal vez relacionados a través de claves, es posible que desee
combinarlos en registros únicos pero muy amplios. La herramienta analítica puede preferir campos de
rango, por lo que es posible que ciertos valores de datos deban transformarse en rangos en un
proceso llamado agrupamiento. Algunos algoritmos exigen un archivo plano (a diferencia del
procesamiento en la base de datos), por lo que generar un archivo plano muy grande es fundamental
para la preparación de datos.
El descubrimiento analítico depende de los fragmentos de datos que se encuentran en los datos de origen sin procesar.
“Tanto el análisis predictivo como el basado en consultas dependen de grandes cantidades de datos de origen sin
procesar”, dijo Russom. “No es solo el hecho de que se trata de una muestra de gran tamaño, sino que también son
datos bastante crudos, que brindan detalles que son esenciales para descubrir hechos, relaciones, grupos y anomalías”.
Los datos analíticos también pueden no estar estructurados. Las herramientas de minería de texto o análisis de
texto a menudo introducen datos en análisis predictivos, herramientas de minería de datos y herramientas estadísticas.
La minería de texto proporciona una rica fuente adicional de datos para los flujos de trabajo de análisis predictivo. Si
aprovecha los recursos de datos no estructurados, como los informes de perforación diarios, puede tener modelos
predictivos más precisos.
Los datos de un almacén de datos empresarial también pueden ser analíticos. “Aunque los análisis avanzados
tienden a necesitar nuevos conjuntos de datos, también pueden aprovechar el contenido de un almacén de datos”,
dijo Russom. “Los datos del almacén proporcionan un contexto histórico para los hechos recién descubiertos, además
de dimensiones adicionales y otros detalles útiles. Los conocimientos de análisis deben incorporarse al registro
histórico del almacén de datos”.
Un concepto erróneo común es que preparar datos para análisis es lo mismo que prepararlos para el
almacenamiento de datos. Pero, como se mencionó anteriormente, hay peligros en "mejorar" demasiado los datos
analíticos, demasiado pronto en el proceso.
“A menudo, desea hacer un descubrimiento con datos de origen bastante crudos”, dijo Russom.
“Estandarizar y limpiar los datos demasiado o demasiado pronto puede inhibir los conocimientos que se extraen de
ellos”. Por ejemplo, la anisotropía de permeabilidad a menudo se revela en datos no estándar o atípicos, por lo que no
desea eliminar o estandarizar demasiado los datos, como lo haríamos con el almacenamiento de datos, porque eso
podría enmascarar los problemas que está tratando de resolver.
¿Qué pasa con la remodelación de datos para acelerar las consultas y habilitar multidimen
puntos de vista sionales? “No es aconsejable para análisis avanzados”, dijo Russom.
También puede perder detalles de los datos y limitar el alcance de las consultas. Es el tipo de cosa
que haría eventualmente, pero no al comienzo de un proyecto analítico. Haga solo lo que se requiere
para las herramientas analíticas, como aplanar y agrupar.
Desea que los analistas y administradores de datos trabajen con los datos analíticos rápidamente,
cuando los datos todavía están bastante crudos. Luego regresa más tarde y comienza a limpiar los
datos y tal vez a remodelarlos. Es posible que realice un trabajo de preparación de datos similar al del
almacenamiento de software de datos, pero en una fase posterior, después de que los analistas hayan
trabajado con los datos durante un tiempo.
La mayoría de las organizaciones tienen procesos automatizados en torno a su almacén de datos

empresarial y data marts, pero la preparación de datos para el análisis tradicionalmente se ha realizado de
manera muy ad hoc, lo que es ineficiente, inconsistente e insostenible. A medida que la empresa se vuelve
más dependiente de los análisis avanzados, debe asegurarse de que las mejores prácticas se apliquen de
manera uniforme en todas las aplicaciones analíticas y en la puesta en práctica de los resultados.
Un marco estructurado para automatizar la preparación de datos para análisis es

crítico para permitir a las organizaciones:
ÿ Documente y automatice los procesos de preparación de datos analíticos, haciéndolos más

consistentes y repetibles, con metadatos trazables.
ÿ Incorporar las mejores prácticas de los expertos en gestión de datos de la organización en una mejor
práctica compartida, estandarizada y reutilizable.
ÿ Programe las etapas de preparación de datos antes ad-hoc para análisis, como actualizaciones
incrementales, carga de datos transaccionales o actualizaciones más frecuentes de datos de cubos
OLAP.
ÿ Automatice el proceso de llevar los resultados del análisis a las operaciones, ya sea directamente en
las bases de datos o para respaldar decisiones de acción rápida en la organización.
ÿ Marque los datos sospechosos, los datos faltantes y los valores atípicos (según lo determinen las
variables de rango o categoría predefinidas), sin cambiar necesariamente los datos antes del
análisis.
ÿ Ejecute proactivamente modelos de "clasificación" en el repositorio central según corresponda, como

la segmentación de clientes, el valor de por vida del cliente y la puntuación de riesgo, para que los
analistas puedan comenzar el trabajo de descubrimiento más rápidamente.
ÿ Configure alertas en vivo sobre el gobierno de datos analíticos que sean consistentes en toda la
empresa, como, "Si el BHP promedio de alto riesgo del pozo cambia por x o y, entregue una alerta".
La excelencia operativa comienza con la comprensión de sus datos. Necesita capturar, almacenar,
contextualizar y visualizar información en tiempo real y ponerla a disposición de las personas adecuadas en
el momento adecuado para permitir las decisiones correctas.
La industria del petróleo y el gas tiene un apetito voraz por los datos. Las cadenas de valor de
exploración y producción adquieren terabytes de datos sísmicos que se procesan para producir nuevos
proyectos, creando un crecimiento exponencial de la información.
Además, estos datos se adquieren cada vez más en tres o cuatro dimensiones, lo que crea algunos de los
escenarios de gestión de datos de respaldo y archivado más desafiantes de cualquier industria.
Con el auge de los yacimientos petrolíferos digitales, la industria del petróleo y el gas recopila más
datos, con mayor frecuencia, en cada etapa del ciclo de vida empresarial. Su empresa está invirtiendo
millones de dólares para recopilar, analizar e interpretar esos datos sin ninguna garantía de que los datos
sean completos, correctos y contextuales.
La falta de una vista única de los datos ascendentes conduce a:
ÿ Proyectos retrasados
ÿ Capacidad de producción subutilizada
ÿ Oportunidades de ingresos perdidas
ÿ Costos fuera de control
ÿ Incumplimiento normativo
DATOS ESTRUCTURADOS Y DATOS NO ESTRUCTURADOS
Los datos están ampliamente disponibles; lo que escasea es la

capacidad de extraer sabiduría de ella.
Hal Varian, economista jefe, Google
Una forma de acelerar la toma de decisiones es vincular datos estructurados y no estructurados

para mejorar el reconocimiento de patrones que pueden mejorar la optimización de las operaciones
de petróleo y gas. Por ejemplo, las entradas de datos en tiempo real se pueden comparar con
patrones extraídos de una base de datos histórica a través de análisis de base o técnicas de
visualización mejoradas. Las empresas pueden identificar problemas y causas raíz en volúmenes
masivos de información, y luego identificar e implementar acciones apropiadas que tratarán la
causa al detectar el patrón, en lugar de esperar a que una crisis desencadene la acción.
El desafío en E&P es proporcionar acceso rápido, continuo y automatizado a datos sísmicos

estructurados y no estructurados para la interpretación geofísica.
Este vínculo permite a los profesionales geotécnicos comprender el contexto en el que se
realizaron los estudios sísmicos y pone a disposición información complementaria en tiempo real
para respaldar el proceso de toma de decisiones. Se obtienen beneficios adicionales cuando los
datos maestros de pozos se integran con información no estructurada. La correlación de datos
sísmicos y de producción de pozos es fundamental para permitir un análisis unificado de producción
y rentabilidad.
La integración y posible movilización de esta información ayuda a las empresas de petróleo y
gas a optimizar los procesos al proporcionar información colaborativa e integrar la gestión de datos
sísmicos con información no estructurada. Esto admite la conservación de datos, la calidad de los
datos, la accesibilidad de los datos y la actualización de procesos en tiempo real.
Las empresas de petróleo y gas pueden aprovechar la información recopilada en el sitio de
desarrollo para mejorar los resultados obtenidos durante el proceso de perforación. Usando
algoritmos complejos que correlacionan múltiples fuentes de información, los ingenieros pueden
identificar firmas y patrones asociados con resultados no deseados. Luego, la información se
retroalimenta a los procesos de control automatizados o manuales para capturar eventos
potenciales en tiempo real o abordar los cambios de proceso necesarios para evitar resultados
subóptimos.
Podemos identificar firmas apropiadas mediante el uso de algoritmos para analizar información
de múltiples sistemas de control e historiadores de datos. Estos algoritmos luego se implementan en
sistemas de control en tiempo real apropiados para actuar automáticamente o respaldar procesos
manuales para intervención o cambio de proceso.
Es factible optimizar resultados como el tiempo de actividad con técnicas de mantenimiento
basadas en la condición que implican la vinculación y el análisis de datos operativos en tiempo real
con datos de inspección y mantenimiento de activos. El mayor uso de soluciones de movilidad, ya
sea que se basen en dispositivos móviles comunes o en sofisticados sistemas de máquina a máquina,
proporciona otro conjunto de flujos de datos potenciales para actividades de análisis o monitoreo
basado en condiciones.
En apoyo de esto, la tendencia hacia un modelo de operaciones integradas que proporciona
datos comunes y estandarizados para mejorar los procesos y mejorar la capacidad de detectar,
analizar y mostrar tendencias en las aberraciones de datos operativos ayuda a facilitar
significativamente la optimización del tiempo de actividad. Por ejemplo, al aprovechar un modelo
predictivo/preventivo, las compañías de petróleo y gas pueden determinar mejor si un equipo se está
degradando o requiere inspección o mantenimiento, o si debe cambiar su función principal en función
de la fatiga o los ciclos de potencia.
La creciente red de regulaciones locales, estatales y federales que cambian y maduran con el
aumento de la actividad de los activos no convencionales ha incrementado los requisitos de
cumplimiento a lo largo del ciclo de vida del petróleo y el gas. La documentación y la capacidad de
mostrar la trazabilidad a través de la información estructurada y no estructurada ayudan a demostrar
qué actividad ocurrió y cuándo, de modo que quede claro cuándo la empresa de energía ha
completado los pasos necesarios para evitar incidentes, mitigar impactos, resolver problemas y
prevenir incidentes similares en el futuro.
PROCESOS DE EXTRACCIÓN, TRANSFORMACIÓN Y CARGA
La carga de data warehouses y data marts dentro de las ventanas de tiempo asignadas, la
construcción rápida de marts analíticos para proyectos especiales y la creación de archivos de
extracción para aplicaciones de informes y análisis son tareas que las organizaciones de TI enfrentan cada día.
Es necesario construir flujos de trabajo de procesos lógicos, identificar rápidamente los almacenes
de datos de entrada y salida y crear reglas comerciales en los metadatos. Esto permite la generación
rápida de almacenes de datos, data marts y flujos de datos. Los usuarios también pueden elegir que
se lleven a cabo muchas transformaciones y procesos dentro de una base de datos conectada, un
almacén de datos o un sistema de almacenamiento. Esto se conoce como ETL, pushdown o
procesamiento en la base de datos, y puede acelerar sustancialmente los tiempos de procesamiento
generales al reducir el movimiento de datos innecesario.
Tareas principales en la preparación de datos
Los flujos de trabajo que sustentan el procesamiento de datos en preparación para las metodologías
analíticas estocásticas se dividen en cinco categorías principales:
1. Limpieza de datos para imputar valores faltantes, suavizar datos ruidosos, identificar y
elimine los valores atípicos y resuelva las inconsistencias
2. Integración de datos de múltiples conjuntos de datos, ya sean cubos, archivos planos o de

naturaleza temporal y espacial
3. Transformación de datos para normalizar y agregar a través de silos Ingeniero de E&P

disciplinas educativas
4. Reducción de datos para obtener una representación mínima en dimensión y volumen, así como
mantener una varianza y entropía constantes para resultados analíticos similares
5. Discretización de datos para aplicar técnicas de reducción de datos para datos numéricos
tipos
Algunos de los pasos importantes que definen la limpieza de datos requieren centrarse en la
adquisición de datos con énfasis en los metadatos. ¿Qué son los metadatos? Son esencialmente datos
que describen datos. El término conlleva cierta ambigüedad ya que hay dos tipos fundamentales o
variaciones sobre un tema. Los metadatos estructurales se refieren al diseño y la especificación de
estructuras de datos y se acuñan de manera más sucinta como "datos sobre los contenedores de datos",
mientras que los metadatos descriptivos se refieren más a instancias individuales de datos de aplicación
(es decir, contenido de datos).
La imputación es el cálculo de los valores de reemplazo para los valores de entrada que faltan.
Esto se puede lograr adoptando la media del atributo para todas las muestras que pertenecen a la misma
clase. El valor más probable podría inducirse mediante la adopción de un enfoque basado en la inferencia,
como una fórmula bayesiana o un árbol de decisión. También es fundamental unificar los formatos de
datos, como las fechas, y convertir el tipo nominal en numérico para que sea propicio para las metodologías
informáticas blandas, como las redes neuronales artificiales, la regresión y el vecino más cercano. Una
vez que se identifican los valores atípicos, es un proceso interpretativo determinar si dichos valores deben
eliminarse o integrarse en los datos de la muestra en estudio. Habiendo eliminado el ruido de los datos
mediante la aplicación de algoritmos de suavizado o técnicas de filtrado, podemos obtener datos correctos,
consistentes y sólidos en preparación para los flujos de trabajo analíticos.
La integración de datos de múltiples conjuntos de datos de diferentes bases de datos o data marts
podría resultar en redundancia ya que el mismo atributo puede tener diferentes nombres.
Los flujos de trabajo de correlación pueden ayudar a reducir este exceso de atributos.
La transformación de datos también puede eliminar el ruido inherente a los datos.
como realizar resúmenes y construcción de cubos de datos y desarrollo de una jerarquía de conceptos. La
normalización se esfuerza por garantizar que los atributos, cuando se comparan en diferentes ejes
temporales o espaciales, conserven información y tendencias válidas y plausibles. Quizás los datos de la
herramienta de registro de producción (PLT) se recopilan en diferentes momentos en una cartera de
pozos. Es esencial generar un nuevo atributo, como QgN, que represente la producción de gas acumulada
medida N días después de que se iniciaron los datos PLT en cada pozo, lo que garantiza un parámetro
comparativo en todos los pozos del estudio.
Normalización mín-máx:
v' = v - minA/maxA - minA(nuevo_maxA - nuevo_minA) + nuevo_minA
Existen varias técnicas de reducción de datos, como la agregación de cubos, la reducción de la

dimensionalidad del espacio de entrada, la reducción y discretización de la numerosidad y la generación de
jerarquías de conceptos. La reducción de la dimensionalidad abarca la selección de características mediante
la cual se determina un conjunto mínimo de características de modo que la distribución de probabilidad de
diferentes clases dados los valores de esas características sea lo más cercana posible a la distribución
original. También existen métodos heurísticos, como la selección progresiva hacia delante y la eliminación
progresiva hacia atrás, así como la inducción del árbol de decisión.
GRANDES DATOS GRANDES ANALÍTICAS
Los flujos de trabajo analíticos basados en datos incorporan "datos duros" denominados datos de campo
reales o medidos, como registros de pozos (rayos gamma, densidad, sónicos, etc.), tipo de fluido y tasas
de producción, así como "datos blandos" que se refieren a parámetros interpretados o estimados.
En exploración, los conjuntos de datos sísmicos que se generan pueden resultar en una plétora
de datos blandos por medio de atributos sísmicos.
ÿ Volumen
ÿ Adquisición de datos sísmicos marinos de azimut amplio
ÿ Velocidad
ÿ Transmisión de datos en tiempo real desde cabezales de perforación y sensores de equipos
ÿ Variedad
ÿ Datos estructurados, no estructurados y semiestructurados
ÿ Valor
ÿ Mayor velocidad al primer aceite
ÿ Producción maximizada
ÿ Reducción de riesgos y costos
La industria del petróleo no es ajena a los grandes volúmenes de datos. Operando posiblemente en la
industria original basada en sensores, las compañías de petróleo y gas han utilizado durante décadas
decenas de miles de sensores de recolección de datos instalados en pozos subterráneos e instalaciones
de superficie para proporcionar un monitoreo continuo y en tiempo real de activos y condiciones ambientales.
Estas empresas monitorean de cerca el desempeño de sus activos operativos. También llevan a cabo
modelos y simulaciones avanzados basados en la física para respaldar el análisis y la optimización
operativos y comerciales.
Las organizaciones están capturando un mayor volumen y variedad de datos, a una velocidad más
rápida que nunca. Además de los datos de los sensores, estos Big Data incluyen grandes volúmenes de
datos semiestructurados y no estructurados, que van desde
mediciones de perforación y producción de alta frecuencia a registros diarios de operaciones

escritos que agregan rápidamente terabytes de nuevos datos. También contienen una colección
masiva de datos comerciales, como resultados financieros internos y noticias sobre competidores
de energía y petróleo que licitan contratos de arrendamiento y realizan importantes inversiones
de capital. Esas organizaciones acumulan petabytes de dicha información con el objetivo de
utilizarla para mejorar el rendimiento y aumentar su ventaja competitiva.
Con las soluciones tecnológicas adecuadas, estas empresas pueden ir más allá del
monitoreo tradicional en tiempo real hacia una predicción en tiempo real más ágil. Al analizar
rápidamente los datos comerciales y técnicos entrantes y aplicar esa información a modelos
complejos en tiempo real, pueden generar conocimientos tácticos que ayuden a aumentar el
rendimiento de la perforación y la producción mientras previenen problemas.
Al buscar y analizar rápidamente un gran volumen y variedad de inteligencia competitiva, como
noticias sobre fusiones, adquisiciones o nuevas inversiones, pueden mejorar sustancialmente la
toma de decisiones estratégicas.
Big Data puede ayudar a las empresas a desarrollar el yacimiento petrolífero digital,
operaciones integradas que unen la tecnología de la información (TI) con la tecnología operativa (OT)4
para mejorar la toma de decisiones y mejorar el desempeño operativo y comercial como se
muestra en la Figura 2.7. Agregar análisis empíricos a los análisis basados en la física
existentes puede llevar a la industria a un nuevo nivel de mejora comercial.
Para capitalizar estas oportunidades, muchas empresas de petróleo y gas deberán adoptar
nuevas soluciones de TI diseñadas para abordar los desafíos específicos de Big Data. Necesitan
tecnología que pueda recopilar, administrar y analizar volúmenes de datos grandes y en rápido
crecimiento, como los petabytes de datos de producción generados por sensores de campos
petroleros. Además, necesitan soluciones que puedan analizar una amplia variedad de tipos de
datos, incluida la transmisión de datos numéricos desde sensores de plataformas de perforación
y datos no estructurados de registros, microsísmica y otras fuentes.
Las nuevas soluciones deben ayudar a integrar los datos comerciales con los datos técnicos,
reuniendo múltiples sistemas de TI y OT. Deben habilitar búsquedas de Big Data
ESO Antiguo Testamento
Objetivo • Gestión de la información, • Gestión de Activos, Control

Automatice los procesos comerciales Procesos Tecnológicos
Arquitectura • Impulsado por eventos, en tiempo real,

• Transaccional, Publicación o
software integrado,
Colaboración
Motores de reglas
Interfaces • Navegador Web, Terminal y
• Sensores, pantallas codificadas
Teclado
custodios • CIO, Infraestructura, Operaciones y • Ingenieros, Técnicos
Aplicaciones Profesionales y gerentes LOB
• Red Corporativa, IP- • Redes de Control
Conectividad
Basado, Basado en web, Móvil (Cada vez más basado en IP
Inalámbrica e inalámbrico)
Ejemplos • ERP, SCM, CRM, • SCADA, PLCs, Modelado,

Correo electrónico, EAM, Facturación Sistemas de control
Figura 2.7 Comparación de tecnología operativa y de información

repositorios para ayudar a las empresas de petróleo y gas a identificar y visualizar rápidamente
información entre grandes cantidades de datos estructurados y no estructurados, y entregar resultados
para respaldar procesos sensibles al tiempo.
FUENTES DE DATOS ESTÁNDAR
Hay varios organismos de estándares cruciales en la industria de E&P que identifican áreas de
intersección para evitar la duplicidad o el conflicto al determinar los estándares de O&G en los datos.
Energistics es un consorcio mundial que permite el desarrollo, la gestión y la adopción de

estándares de intercambio de datos para la industria de petróleo y gas corriente arriba. Hay un
enfoque en la gestión de activos y datos, así como en los procesos de trabajo.
Su cartera de normas cubre las siguientes áreas:
ÿ WITSML
ÿ PRODML
ÿ REQML
Estos puntos focales abordan la transferencia de datos y, por lo tanto, de conocimientos entre las
geociencias, las perforaciones, las terminaciones, las intervenciones, la producción y las organizaciones
de yacimientos.
PPDM es la asociación Professional Petroleum Data Management que proporciona un modelo
de datos que cubre múltiples áreas temáticas que esencialmente podrían actuar como un MDM. El
organismo se esfuerza por evangelizar el uso de taxonomías facetadas para ayudar a controlar las
olas de Big Data en evolución a través de los silos de ingeniería dispares dentro de E&P.
PODS es un acrónimo de Pipeline Open Data Standard, que proporciona una arquitectura de
base de datos escalable para integrar registros críticos y datos de análisis con ubicación geoespacial
para cada componente de un sistema de tubería.
PCA significa POSC Caesar Association y, bajo sus auspicios, desarrolla especificaciones
abiertas para permitir la interoperabilidad de datos y software. Como organismo, participa en proyectos
industriales conjuntos y de investigación para desarrollar datos de referencia y tecnología semántica.
OPC, OPen Connectivity, es un estándar de comunicación industrial ampliamente aceptado que

permite el intercambio de datos entre dispositivos de múltiples proveedores y aplicaciones de control
sin restricciones de propiedad.
Datos semánticos
Los estándares de datos semánticos existen en la industria del petróleo y el gas para permitirle
integrar diferentes tipos de datos. La industria de O&G se esfuerza por agregar significado a los datos.
En el Capítulo 10, profundizamos en el análisis de texto para identificar la gestión de ontologías de los
datos aguas arriba. Dicho sistema de gestión es una lente organizativa en su contenido ascendente,
proporcionando interfaces para definir las relaciones
entre entidades de petróleo y gas, como pozos en una cartera, yacimientos y campos en un activo, y
caracterización global de cuencas. Podemos generar términos semánticos que codifiquen la experiencia en
temas de ingeniería en geología, geofísica, petróleo e ingeniería de yacimientos, así como perforación y
terminación.
Los datos semánticos relacionan los almacenes de contenido y los silos informativos con definidos
términos para ayudar a propagar el valor de los expertos en dominios. Es esencial enfatizar que el análisis
basado en datos, que es el tema central de este libro, debe estar casado con los primeros principios o, al
menos, estar limitado por las metodologías empíricas e interpretativas. Este enfoque promueve la adopción
ahora rápida de soluciones híbridas en el upstream donde vemos la combinación de un sistema experto
dirigido por el usuario y un sistema de captura de conocimiento basado en datos calibrado con datos
históricos.
ESTUDIO DE CASO: DATOS DE PRODUCCIÓN

MARCO DE CONTROL DE CALIDAD
Los datos de producción en ingeniería petrolera a menudo se ven afectados por errores que ocurren durante
la adquisición y el registro de datos. Como las intervenciones en el pozo alteran el decaimiento exponencial
natural de la curva de producción, se ocultan los errores cometidos durante la adquisición y registro de
datos. Las técnicas de validación automática de datos pueden ayudar a limpiar los datos de producción.
ÿ Detección de valores atípicos en señales no estacionarias
ÿ Detección de cambios repentinos que alteran la tendencia natural de la señal
ÿ Detección de valores no autorizados que interrumpen la tendencia de la señal a la luz de variables

relacionadas estadísticamente
La validación de datos se ocupa de encontrar datos erróneos en una serie de tiempo y, cuando
corresponda, sugerir un valor alternativo plausible. La validación de datos se puede definir como un proceso
sistemático en el que los datos se comparan con un conjunto de reglas de aceptación que definen su
validez. En ingeniería petrolera, las causas de datos erróneos incluyen ruido, fallas de sensores y errores
de manipulación de datos.
Los valores atípicos son observaciones numéricamente distantes del resto de los datos.
Sorprendentemente, no existe un método estándar para identificarlos. A menudo se supone que los datos
cumplen con una distribución gaussiana y un criterio de distancia (p. ej., la desviación del descriptor de
distribución determina la condición atípica de una muestra de datos). Los datos de producción de pozos de
petróleo son un proceso no estacionario y, por lo tanto, el enfoque ingenuo no es suficiente. Sin embargo,
al observar un vecindario de muestra, se puede asumir la estacionariedad. Aquí proponemos una solución
local para la identificación de valores atípicos.
Los cambios repentinos atípicos que se desvían de la tendencia natural de la señal a menudo
corresponden a ruido o fallas en la grabación de datos. El ruido en el contexto de la producción de pozos
petroleros a menudo se puede asociar a intervenciones en pozos. Ahí
Ya existen una serie de enfoques para la detección de cambios repentinos como, por ejemplo, el uso
del operador laplaciano o gaussiano. Aquí usamos wavelets de Haar para la detección de cambios
repentinos en la señal, proponiendo una variante de un enfoque existente desarrollado para datos de
neuroimagen.
El problema de validación final que se aborda aquí es la detección de valores sospechosos que
pueden estar dentro del rango y estar de acuerdo con la tendencia de la señal pero que contradicen
la tendencia en las variables estadísticamente dependientes. Para detectar estos valores maliciosos,
recomendamos un enfoque basado en redes bayesianas. El uso de una red bayesiana para validar
datos por variables relacionadas capitaliza la siguiente idea: la tendencia de las variables
estadísticamente relacionadas debe seguirse entre sí. Cuando se viola esta premisa, es probable que
la observación sea un valor deshonesto.
valores atípicos
Quizás la forma más sencilla de detección de valores atípicos consiste en imponer un rango de datos
válido dentro del cual se permiten datos variables y etiquetar los valores fuera del rango como valores
atípicos. A menudo, este rango se establece a partir de la distribución de datos definida por las
ecuaciones 1 y 2:
Límite inferior = m ÿ 3ÿm Ecuación (1)

Límite superior = m + 3ÿm Ecuación (2)
donde m es la mediana de la distribución y ÿm es la desviación de la mediana.
Si la estacionariedad no se cumple, la solución anterior no es satisfactoria.

No obstante, al aceptar que el decaimiento de la curva de producción del pozo de petróleo es lento,
se mantiene la estacionariedad local y la solución anterior puede ser reutilizada. Se puede construir
una detección de valores atípicos locales al crear ventanas con los datos. Entonces, la idea básica es
desplazar la ventana a lo largo de los datos y calcular los límites inferior y superior del rango de datos
solo para los datos visibles dentro de la ventana.
Cambio abrupto
La transformada wavelet descompone una señal en sus componentes de escala de tiempo y expresa
la función original en términos de la base de la familia wavelet. La transformada wavelet continua
(CWT) de una señal x(t) se define mediante la ecuación 3.
1 ÿ ÿ
ÿ
ÿ
* ÿ
tuberculosis
CWT ab( , ) = X()ÿt
ÿ
ÿ
ÿ
ÿ
dt Ecuación (3)
,
abdominales
ÿ ÿÿ
a
ÿ
ÿ
ÿ a ÿ
donde a y b son los parámetros de escala y desplazamiento respectivamente, y ÿ(t) es la

función wavelet utilizada para la descomposición de x(t).
Entre las familias de funciones de wavelets, las wavelets de Haar son especialmente adecuadas
capaz de detectar discontinuidades.
Para cada par de escalas de tiempo representado por (a, b), un coeficiente wavelet capta la
similitud de la señal x(t) y una versión extendida y desplazada de ÿ(t). Estas
coeficientes discriminan cambios repentinos en la señal. La aplicación del filtro de la mediana a los
coeficientes de forma independiente en cada escala refrenda las características de los cambios
repentinos además de minimizar la influencia del ruido blanco.
Determinando el límite entre cambios aceptables e inaceptables, se impone un umbral T en la matriz
de coeficientes. Por lo tanto, establecemos el umbral automáticamente utilizando el umbral universal
de acuerdo con la ecuación 4:
T I =s * 2* nn Ecuación (4)
donde ÿ es la desviación absoluta sobre la mediana y n es el número de

coeficientes
MEJORES PRÁCTICAS
Es imperativo adoptar una metodología que respalde todo el ciclo de vida de la integración de datos
a través de un enfoque integrado por fases (Figura 2.8). Estas fases incluyen perfiles de datos, calidad
de datos, integración de datos, enriquecimiento de datos y monitoreo de datos. La metodología puede
implementarse como un proceso continuo para controlar la calidad de la información que se carga en
los sistemas de información objetivo.
Además, esta metodología se ajusta a un enfoque de metodología empresarial global de tres
fases: analizar, mejorar y controlar. La primera fase de esta metodología se enfoca únicamente en el
descubrimiento o evaluación de datos para identificar con precisión la consistencia, exactitud y validez
de los datos de origen. Durante esta fase, se identifican y documentan los problemas de calidad de los
datos y se crean reglas comerciales para corregir los problemas. La segunda fase, mejorar, respalda
la corrección flexible de los problemas de calidad de datos identificados y, si corresponde, la mejora de
los procesos comerciales centrales. La última fase, el control, admite el monitoreo continuo y las
tendencias de los datos de origen para garantizar la precisión de la información y detectar y alertar
automáticamente a los usuarios si los datos violan las reglas comerciales definidas o los estándares
de calidad de datos corporativos.
perfilado
conjuntos de datos
En curso Calidad
Vigilancia Análisis
Datos Base de datos

Enriquecimiento Integración
Figura 2.8 Ciclo de vida de la gestión de integración de datos

Perfilado de datos
La primera fase de la metodología, la creación de perfiles de datos, incluye actividades de descubrimiento

y auditoría de datos que respaldan la evaluación completa de la validez, precisión e integridad de los datos
de origen. Las funciones de creación de perfiles incluyen la creación de perfiles del valor de registro real y
su información de metadatos. Demasiadas organizaciones se embarcan en proyectos de integración de
datos sin descubrir primero los niveles de calidad de los datos de origen. Los problemas de calidad de
datos no descubiertos generalmente aparecen tarde en el ciclo de vida de la integración y, a menudo,
causan excesos en el proyecto, retrasos y, potencialmente, la falla total del proyecto. Al incluir perfiles de
datos al comienzo del ciclo de vida de la integración, los usuarios pueden:
ÿ Identificar de inmediato si los datos se ajustarán al propósito comercial.
ÿ Planifique con precisión la estrategia de integración teniendo en cuenta todos los datos anom
aliados al frente.
ÿ Integre con éxito los datos de origen utilizando una calidad de datos automatizada
proceso.
Calidad de datos
La segunda fase, la calidad de los datos, admite la corrección de todos los problemas de calidad
descubiertos durante la fase de creación de perfiles. Esto a menudo incluye la eliminación de las diferencias
semánticas que se encuentran dentro de los datos de origen, la división de campos de valores múltiples
en elementos discretos, el traslado de la información a la ubicación adecuada, la normalización de
patrones, etc.
Por ejemplo, durante la fase de elaboración de perfiles, se puede descubrir un problema de calidad
de los datos, como múltiples versiones del mismo nombre de cuenca.
Este tipo de análisis avanzado es difícil de descubrir utilizando procesos manuales, y la creación de
reglas para corregir las versiones no estándar requiere mucho tiempo y requiere un proceso muy
dependiente de los datos. Otros problemas, como nombres de pozos o nomenclatura de yacimientos en el
campo incorrecto, versiones múltiples de descripciones de estrategias de fracturas hidráulicas e información
geomecánica faltante, pueden corregirse de inmediato utilizando rutinas de estandarización, análisis,
identificación y validación de datos listas para usar. .
Una solución de calidad de datos propuesta para proporcionar datos agregados y sólidos en
un entorno de exploración y producción aguas arriba debe cumplir algunos objetivos rudimentarios:
1. Interactuar sin inconvenientes con todas las fuentes de datos identificadas en E&P.
2. Motores de acceso para facilitar la transferencia de datos históricos y en tiempo real.
3. Automatice y semiautomatice los flujos de trabajo para el análisis exploratorio de datos:
una. Identificar valores atípicos.
b. Realiza transformaciones.
C. Imputar datos faltantes.

d. Limpiar datos.
mi. Patrones ocultos en la superficie.
F. Identificar tendencias y correlaciones.
4. Realizar análisis factorial y/o análisis de componentes principales para reducir

espacio de entrada
5. Generar metadatos.
6. Cree informes de evaluación de la calidad de los datos:
una. Resalte los problemas de calidad de los datos.
b. Pista de auditoría para cambios en el valor de los datos.
7. Actualizar o sincronizar valores en base a reglas de negocio a priori .
La regla del 80/205 (Figura 2.9) significa que en cualquier cosa unos pocos (20%) son vitales y muchos
(80%) son triviales. En el caso de Pareto, significaba que el 20 por ciento de la gente poseía el 80 por ciento
de la riqueza. Después de que Pareto hizo su observación y creó su fórmula, muchos otros observaron
fenómenos similares en sus propias áreas de especialización. Ostensiblemente, podemos aplicar este
principio al tiempo consumido al resolver un problema comercial en E&P, agotando el 80 por ciento de
nuestro tiempo en la gestión y preparación de datos antes de abordar el problema a través de un conjunto de
flujos de trabajo invariablemente deterministas o interpretaciones visuales.
La solución de gestión de datos debe revertir este paradigma y garantizar que el 80 por ciento del
tiempo de los geocientíficos se consuma interpretando los datos y combinando los primeros principios con
metodologías estocásticas y basadas en datos.
Integración de datos
La tercera fase, la integración de datos, incluye procesos para identificar automáticamente información
relacionada dentro de una sola fuente de datos o en múltiples fuentes de datos dispares. Una vez que se
identifican estos registros, la fase de integración requiere que los registros se vinculen o se consoliden en un
solo "mejor" registro. Las estrategias de integración de datos pueden variar desde la simple detección y
eliminación de duplicados hasta la resolución avanzada de entidades en entornos tanto en tiempo real como
por lotes. Durante esta fase, la organización comienza a construir una vista unificada de sus activos,
reservorios, estrategias y tácticas de pozos o cualquier otro tipo de entidad que se encuentre dentro de los
sistemas fuente.
Figura 2.9 Principio de Pareto: la regla del 80/20

Enriquecimiento de datos
La cuarta fase, el enriquecimiento de datos, abarca técnicas para mejorar el valor de los datos de origen
utilizando otras fuentes de información de referencia. Al enriquecer la información de origen, las
organizaciones pueden completar campos incompletos, así como agregar información valiosa que
identificará mejor los atributos del pozo.
El enriquecimiento puede incluir la mejora de la nomenclatura de pozos, la mejora de códigos geográficos,
actualizaciones de códigos de activos, información de sedimentología de cuencas y otros datos que
agregan valor a la información existente.
Monitoreo de datos
La fase final de la metodología, el monitoreo de datos, respalda el análisis continuo de la calidad de los
datos y el seguimiento/tendencia de la calidad de los datos a lo largo del tiempo. Esta fase de la
metodología amplía los procesos de calidad de datos más allá de la aplicación tradicional basada en
proyectos y garantiza la precisión y confiabilidad de las fuentes de información a lo largo del tiempo. El
monitoreo puede incluir análisis de tendencias de perfiles de datos simples a lo largo del tiempo, o puede
incluir análisis de reglas comerciales específicas. Al configurar reglas que definen valores de calidad de
datos aceptables, el monitoreo se puede usar para identificar automáticamente los registros que violan
los estándares de calidad y alertar a los usuarios de las violaciones. El monitoreo permite que el equipo
tome medidas mucho antes de que la anomalía de los datos afecte las decisiones comerciales, los
procesos o los proyectos.
Comprender y aprovechar los datos en el segmento comercial upstream permite a las empresas
seguir siendo competitivas durante la planificación, la exploración, la delineación y el desarrollo del
campo. El segmento downstream depende de los datos para maximizar la producción con respecto al
mantenimiento y la previsión.
Afortunadamente, las compañías de petróleo y gas tienen acceso a una gran cantidad de datos valiosos
tanto en operaciones upstream como downstream. Desafortunadamente, esta información viene en
formas diversas y cada vez más complejas, lo que hace que sea un desafío para las empresas de energía
recopilar, interpretar y aprovechar los datos dispares.
Es de suma importancia integrar conjuntos de datos comunes y dispares para entregar la información
correcta en el momento apropiado al tomador de decisiones correcto. Estas capacidades ayudan a las
empresas a actuar sobre grandes volúmenes de datos, transformando la toma de decisiones de reactiva
a proactiva y optimizando todas las fases de exploración, desarrollo y producción.
Beneficios:
ÿ Reducción del tiempo hasta el primer aceite
ÿ Aumentar la productividad de los activos a lo largo de sus ciclos de vida
ÿ Aplicación de inteligencia empresarial avanzada y análisis integrado
ÿ Asegurar que la información correcta esté disponible para la fuerza laboral en el momento correcto
ÿ Mejora de los resultados de planificación y previsión
La Figura 2.10 representa una matriz de madurez que encapsula todos los pasos necesarios en la
gestión de datos, la cuantificación de la incertidumbre en los datos y el riesgo
Matriz de vencimientos
¿Qué es lo mejor que puede

Mejoramiento pasar?
Profético ¿Qué pasa después?

Modelado
Analítica
Pronóstico / ¿Cuáles son las tendencias?

Diagnóstico ¿Y si continúan?
Competitivo
Estadístico Ventaja
Crecimiento ¿Por qué está pasando esto?
Análisis
Alertas / ¿Qué acciones son

alarmas necesarias para remediar?
Consulta / Explorar ¿Cuál es exactamente

bajas el problema?
Actuación
Mejorando
informes
Acceso
e
Ad hoc Crecimiento ¿Cuántos, con qué frecuencia,
Consultas dónde?
Estándar ¿Qué pasó

Informes retrospectivamente?
Cerca de Real
Tiempo real modelado
Tiempo
baja frecuencia Filtrado,
estructurado
no
/ Bajo Alta frecuencia / alta limpiado, Calculado Interpretado

Volumen Intensidad / Alta Acondicionado Estadística Física
Volumen
Datos de medición Datos tratados Datos creados
• Datos de procesos físicos
• Datos transaccionales de atributos (espaciales, temporales)
Figura 2.10 Datos convertidos de su estado sin procesar a conocimiento de Garner
61
evaluación resultante de flujos de trabajo analíticos y metodologías basadas en datos almacenados en repositorios
ascendentes.
NOTAS
1. J. Cruise y U. Algan, "Gestión de la información de exploración y producción: más allá de los portales web", First Break
24 (enero de 2006).
2. Sarbanes-Oxley (2002) legisló cambios estrictos a la regulación de la práctica financiera y
gobierno corporativo
3. Philip Russom, gerente sénior de TDWI Research, el Instituto de almacenamiento de datos, "Preparación de datos
analíticos 101: mejores prácticas para administrar datos para análisis avanzados", ideas de un seminario web, mayo
de 2010.
4. Edward Evans, director general de NDB Ltd., “Controlling the Applications Portfolio: A Beach Head for IM Strategy”,
Finding Petroleum, Londres, abril de 2011.
5. R. Koch, El principio 80/20: El secreto para lograr más con menos, (Londres: Nicholas Brealey, 2001).
CAPÍTULO 3
Atributo sísmico
Análisis
En la medida en que las leyes de las matemáticas se refieren a la

realidad, no son ciertas, y en la medida en que son ciertas, no se
refieren a la realidad.
Alberto Einstein (1879-1955)
identificar trampas estratigráficas y estructurales y actuar como apoyo adyuvante

Tradicionalmente, los datos sísmicos
puerto en la caracterización han sido adquiridos,
de yacimientos. procesados
Sin embargo, e interpretados
los atributos sísmicos
han adquirido una importancia cada vez mayor a medida que las técnicas de
procesamiento y adquisición sísmica han mejorado durante la última década. La
multitud de atributos sísmicos y la comprensión de su relevancia han generado un
gran interés para explorar las correlaciones entre las propiedades acústicas y la petrofísica de rocas.

Los datos sísmicos desempeñan un papel cada vez más importante en la vigilancia de
yacimientos, la caracterización y la correspondencia histórica integrada. El uso cuantitativo
de datos sísmicos de lapso de tiempo (sísmica 4D) requiere modelar relaciones y
correlaciones entre los cambios en la saturación del yacimiento, las presiones, las
propiedades elásticas y los atributos sísmicos.
Los datos sísmicos ahora se están convirtiendo en fundamentales a medida que los
levantamientos 3D y 4D se aceleran en zonas verdes y abandonadas. Además del habitual
procesamiento de datos de ondas sísmicas que queda fuera del alcance de este libro, cada
vez es más importante apreciar plenamente la amplia gama de atributos sísmicos que se
pueden generar a partir de las trazas previas y posteriores a la acumulación. Discutiremos el
valor de construir un mercado de datos sísmicos para un análisis avanzado basado en estos atributos. Suave
63
Las metodologías informáticas que asignan los atributos sísmicos a las propiedades de los yacimientos
son increíblemente importantes como un medio para definir definiciones de caracterización de yacimientos
más creíbles y confiables que sustentan el (re)desarrollo del campo. La integridad espacial de los
yacimientos de grandes áreas requiere sísmica de alta resolución y una comprensión más profunda de los
atributos sísmicos que pueden reflejar patrones o firmas indicativas de hidrocarburos.
Las técnicas de interpretación sísmica siempre han trabajado para ser aceptadas a lo largo de las
décadas, comenzando con la introducción del color en el análisis sísmico unido a la idea de la representación
sísmica temporal convertida a una perspectiva de profundidad dominada digitalmente en la década de
1970. El término red neuronal fue menospreciado en las décadas de 1980 y 1990 debido a una propuesta
de valor distorsionada y tergiversada.
El análisis de atributos y los levantamientos sísmicos 3D también encontraron resistencia por parte de los
geofísicos tradicionales atrincherados. Resaltaremos cómo una combinación de análisis de componentes
principales (PCA) y redes neuronales (supervisadas y no supervisadas) puede forjar una metodología
analítica que forma un poderoso flujo de trabajo de reconocimiento de patrones para identificar aquellos
atributos que inherentemente tienen la mayor capacidad predictiva para determinar datos geológicos y
estratigráficos. características, gradientes de presión intersticial e indicadores directos de hidrocarburos
(DHI).
Cuantifiquemos el valor de integrar flujos de trabajo de análisis de atributos sísmicos en el
procesamiento sísmico 4D tradicional para construir modelos geológicos estáticos y dinámicos más ricos.
¿Cómo podemos mejorar el mapeo del flujo de fluidos a través de reservorios heterogéneos complejos e
identificar la efectividad de las estrategias de recuperación mejorada de petróleo (EOR) como agua-
alternancia-gas (WAG)?
EXPLORACIÓN SÍSMICA DE LAPSO DE TIEMPO
La metodología sísmica de lapso de tiempo implica la adquisición, el procesamiento y la interpretación de

levantamientos sísmicos 3D repetidos sobre un campo de producción de hidrocarburos. El objetivo es
determinar los cambios que ocurren en el yacimiento como resultado de la producción de hidrocarburos o
la inyección de agua o gas en el yacimiento comparando los conjuntos de datos repetidos. Un producto de
procesamiento final típico es un conjunto de datos de diferencia de lapso de tiempo. (Los datos sísmicos
del Estudio A se restan de los datos del Estudio B.) La diferencia debe ser cercana a cero, excepto donde
se hayan producido cambios en el yacimiento.
Las modificaciones en la fuerza de la reflexión sísmica en la parte superior del yacimiento están
relacionadas no solo con el cambio de saturación, sino también con la altura original de la columna de
petróleo. Cuando el agua reemplaza al petróleo, la impedancia acústica en el yacimiento aumenta,
provocando un efecto de atenuación en lo que solía ser una fuerte respuesta desde la parte superior del
yacimiento. La fuerte respuesta sísmica del contacto agua-petróleo (OWC) también puede atenuarse debido
a la producción.
La vigilancia sísmica de yacimientos de lapso de tiempo se basa en el hecho de que la producción o
inyección cambia significativamente las saturaciones, presiones y condiciones de los fluidos del yacimiento.
A nálisis de atributos sísmicosâ•‡ ÿ 65
y temperaturas, que posteriormente alteran la respuesta acústica de la roca del yacimiento,

y esto puede detectarse utilizando datos sísmicos. Los cambios en la saturación y la presión
del yacimiento se pueden derivar a través de la inversión sísmica de alta resolución y la
posterior calibración petroelástica.
ATRIBUTOS SÍSMICOS
Un atributo sísmico se define como una medida cuantitativa de una característica sísmica
que refleja un punto de interés o enfoque para explicar una característica geológica. Hemos
estado estudiando atributos sísmicos desde la década de 1930 cuando los geofísicos eligieron
tiempos de viaje para reflexiones sísmicas coherentes a través de registros de disparos de
campo. Pero esencialmente, la génesis del análisis complejo de atributos de trazas sísmicas
tiene sus raíces a principios de la década de 1970. Se ha escrito un vasto compendio de
documentos técnicos para describir la metodología popular de utilizar atributos sísmicos como
discriminadores efectivos para clasificaciones de caracterización geológica. Los atributos se
generan a partir de conjuntos de datos previos y posteriores al apilamiento, así como de la
implementación previa y posterior a la migración. Las tablas 3.1 y 3.2 enumeran muchos de
los atributos actuales más populares.
Tabla 3.1 Atributos de curvatura
Salidas primarias Geométrico Alta resolución formas Apariencia
mín. Curvatura Buzamiento Azimut Curvatura de buzamiento Hazme Correlación cruzada de lo
real frente a lo imaginario
máx. Curvatura Magnitud de buzamiento Curvatura gaussiana Cresta Derivada de Total
Energía
más positivo Aparente en línea Curvatura de golpe Sillín Producto exterior
Curvatura Aderezo
más negativo Línea de cruce Cuenco de disconformidad angular

Curvatura buzamiento aparente
Tabla 3.2 Atributos sólidos como una roca
Atributos instantáneos Atributos de Wavelet Atributos Geométricos
Parte real de la traza compleja Fase de ondícula Continuidad del evento
Parte imaginaria de la traza compleja Frecuencia de onda Relación arena/lutita
Sobre de seguimiento Factor Q de ondícula Variación de buzamiento
Fase Instantánea Frecuencia dominante Inmersión instantánea
Factor Q instantáneo Polaridad aparente de Wavelet Buzamiento Azimut

Hay varias escuelas de pensamiento que clasifican los atributos sísmicos de manera
diferente. Estudiemos los atributos en base a una clasificación determinada por características
de dominio inherentes a los atributos.
Atributos instantáneos
Cuando una traza sísmica se estudia como una señal analítica en el sentido matemático, se
puede representar como una función de valor complejo. La parte real es la propia señal
sísmica registrada. La parte imaginaria es la cuadratura que es la versión desfasada de 90
grados de la parte real. La transformada de Hilbert de la parte real es la traza en cuadratura.
Es un proceso simple para calcular los atributos instantáneos de la señal sísmica una vez
que se establece la traza sísmica compleja.
Los atributos denominados envolvente de amplitud (o amplitud instantánea), fase instantánea
y frecuencia instantánea se calculan comúnmente a partir de la traza sísmica compleja y se
muestran como secciones coloreadas o superpuestas con fines interpretativos. Estos
atributos pueden denominarse colectivamente atributos instantáneos ya que describen de
manera concisa y cuantitativa la forma de onda sísmica (o carácter) en cualquier punto de
muestra. Como tales, pueden ser extremadamente útiles para correlacionar eventos sísmicos.
La amplitud instantánea mide la fuerza de la reflectividad que es proporcional a la raíz
cuadrada de la energía total de la señal sísmica en un instante particular de tiempo. La
continuidad de los eventos en un perfil sísmico es una medida reflejada por la fase
instantánea y la tasa de cambio temporal de la fase instantánea se representa como la
frecuencia instantánea.
La amplitud instantánea que refleja la fuerza de la reflectividad es un buen indicador de
puntos brillantes y oscuros. El atributo de fase suele ser un delineador robusto de pinch-outs,
fallas y on-laps, mientras que el atributo de frecuencia puede ayudar a describir algunos
yacimientos de condensado que tienen tendencia a atenuar las altas frecuencias.
Una vez que estos atributos instantáneos se han generado a través de un cubo sísmico
3D, por lo general posterior a la atenuación múltiple y la supresión de ruido aleatorio, es
factible implementar un conjunto de flujos de trabajo de análisis de datos exploratorios para
descubrir patrones ocultos y correlaciones explicadas por estos atributos como el espacio
de entrada. La función objetivo podría ser identificar todos los pinch-outs estratigráficos
potenciales que no son fáciles de discernir en una sección sísmica de resolución baja a
media con una relación señal-ruido deficiente. Esas variables independientes representadas
por los atributos sísmicos generados pueden correlacionarse estadísticamente con la función
objetivo para clasificar las más influyentes en la identificación de características tales como pinch-outs.
Media cuadrática
La raíz cuadrada media (RMS), o media cuadrática, es una medida estadística popular de
la magnitud de la variación en un conjunto de datos. El RMS demuestra particularmente
útil cuando los valores pasan por el dominio positivo y negativo, como en los sinusoides o las
trazas sísmicas. El atributo RMS enfatiza las variaciones en la impedancia acústica sobre un
intervalo de muestra seleccionado. En general, cuanto mayor sea la variación de la impedancia
acústica de las litologías apiladas (con espesores de lecho por encima de la resolución sísmica),
mayores serán los valores RMS. Por ejemplo, un RMS alto en un canal resulta de un alto
contraste de impedancia acústica del relleno del canal con la litología circundante o contrastes
de impedancia acústica dentro del relleno.
Diferencia
El atributo de varianza (lo opuesto a la coherencia) se calcula en tres dimensiones y representa

la variabilidad de trazo a trazo en un intervalo de muestra particular y, por lo tanto, produce
cambios laterales interpretables en la impedancia acústica. Las trazas similares producen
coeficientes de varianza bajos, mientras que las discontinuidades tienen coeficientes altos.
Debido a que las fallas y los canales pueden causar discontinuidades en las litologías vecinas y,
posteriormente, en la variabilidad de traza a traza, se vuelven detectables en volúmenes sísmicos
3D.
Atributos de preapilado
Durante la secuencia de procesamiento sísmico previo al apilamiento, podemos generar atributos

a partir del punto de profundidad común (CDP) o trazas de recolección de disparos. La
información crítica que debe surgir de tales imágenes sísmicas es el conocimiento direccional o
azimutal y relacionado con la compensación. Es evidente que se crea una gran cantidad de datos
en el grupo de clasificación previa a la pila de múltiples trazas.
Es esencial adoptar un conjunto de metodologías de Big Data y Big Analytics que pueda
almacenar una gran cantidad de atributos sísmicos en la memoria y, a través de un conjunto de
procesos de correlación y regresión, realizar un análisis exploratorio de datos para descubrir
tendencias y patrones ocultos. El conocimiento arraigado en los atributos previos al apilamiento
es fundamental para comprender el contenido de fluidos y la orientación de las fracturas. Incluido en este
la clasificación de los atributos son amplitud versus desplazamiento (AVO), velocidad y variación
azimutal.
Atributos posteriores a la pila
El proceso de apilamiento elimina el conocimiento relacionado con el desplazamiento y el azimut

a medida que unimos las trazas a un nivel de CDP mediante la aplicación de un modelo de
velocidad para eliminar los efectos de salida normal (NMO). Los datos migrados en el tiempo
obviamente conservan sus relaciones temporales, por lo que la frecuencia, por ejemplo, reserva
sus dimensiones físicas. Pero los datos migrados en profundidad se analizan desde la perspectiva
del número de onda que es una función de la velocidad y la frecuencia de propagación. Debido
al número condensado de trazas sísmicas en la arena posterior al apilamiento, es más manejable

analizar los atributos sísmicos posteriores al apilamiento.
Podemos clasificar aún más observando las características computacionales de
atributos
Norman Neidell1 sugirió el uso de una transformada de Hilbert como punto de partida para el
análisis de trazas complejas. Posteriormente, Taner y Koehler2 desarrollaron un marco matemático
único para el cálculo de atributos. Por lo tanto, podemos determinar la amplitud de la traza sísmica
como la parte real de la señal analítica compleja, mientras que la parte imaginaria de la señal se
calcula tomando su transformada de Hilbert.
CARACTERIZACIÓN DEL RESERVORIO
La caracterización de yacimientos es el proceso de calibrar o mapear el espesor del yacimiento, la

relación neta-bruta, la porosidad, la permeabilidad y la saturación de agua. Los registros de pozos han
proporcionado habitualmente la fuente de los datos para generar los mapas, pero los atributos
sísmicos fragmentados han ganado popularidad cuando se calibran con el control de pozo existente.
Los datos sísmicos se pueden utilizar para interpolar y extrapolar entre y más allá del control de pozos
dispersos que solo proporciona conocimiento localizado.
Enumeremos ahora los atributos sísmicos que son más propicios para
caracterización de yacimientos. Una metodología para clasificar los atributos sísmicos es agruparlos
en las siguientes cuatro categorías:
1. Los atributos cualitativos como la coherencia y quizás la fase instantánea o la frecuencia

instantánea son ideales para identificar patrones espaciales como fallas o cambios de facies.
Es esencialmente imposible asignar estos atributos directamente a una propiedad del
yacimiento como la porosidad y, en consecuencia, estos atributos no se implementan para
cuantificar las propiedades del yacimiento.
2. Atributos cuantitativos: el atributo cuantitativo más fundamental es la amplitud en datos de fase

cero, datos de impedancia relativa o datos de impedancia absoluta. Tradicionalmente,
identificamos estos tres atributos como los más pertinentes para la caracterización cuantitativa
de yacimientos.
3. Los atributos de intervalo son aquellos que cuantifican una lente en los datos sísmicos que
muestran más de un pico o valle. La mayoría de los atributos sísmicos se pueden categorizar
de esta manera. Los atributos de intervalo incluyen el número de cruces por cero, la energía
promedio y la frecuencia dominante.
Estos atributos se adoptan invariablemente cuando la reflexión sísmica de un yacimiento es
discontinua como para evitar un "punto" obvio en el mismo pico o valle en todas las trazas.
Un atributo de intervalo es análogo a la sección transversal de un registro de pozo con varias
arenas delgadas y discontinuas que no se pueden correlacionar con certeza.
4. Los atributos AVO son aquellos que se generan utilizando las amplitudes previas al
apilamiento de un reflejo. Ejemplos de atributos preapilados son gradiente AVO, intercepción
AVO, amplitud cercana y amplitud lejana. Los atributos de preapilado en 3D solo han estado
disponibles recientemente con la llegada de migraciones de tiempo de preapilado asequibles.
Exploramos una variedad de metodologías basadas en datos de computación suave en

Capítulo 4 que dan credibilidad y apoyan la caracterización de yacimientos.
GESTIÓN DE EMBALSES
Los análisis de procesamiento de ondículas y atributos sísmicos han evolucionado hasta convertirse
en una de las piedras angulares de la gestión de yacimientos, proporcionando una fuente de
conocimiento muy importante que arroja luz sobre la identificación de metodologías para reducir el
riesgo de oportunidades. Fundamental para obtener el valor intrínseco de la dimensión temporal en
los datos sísmicos 4D es el oficio de enumerar metodologías analíticas combinadas con estrategias
de interpretación. Con la llegada de Big Data, Big Analytics en la industria de petróleo y gas, es
fundamental adoptar una visión más amplia hacia el análisis de datos sísmicos, complementando la
interpretación tradicional de cubos de datos sísmicos 3D con un conjunto de metodologías basadas
en datos estocásticos o no deterministas.
Los geocientíficos están atrincherados en sus distritos aguas arriba mientras continúan
trabajando en forma aislada, ahogándose en un mar de rastros sísmicos y atributos concomitantes.
Es cierto que la multitud de trazos de ondulación con sus picos y valles son una perspectiva
desalentadora con firmas sutiles no solo influenciadas por cambios de presión y fluidos en los poros
de las rocas, sino también manchadas por respuestas convolucionadas ancladas en primeros
principios.
El estudio de las amplitudes sísmicas y los cambios de tiempo entre conjuntos de datos 3D
puede constituir un flujo de trabajo que sustenta una interpretación importante, pero tales enfoques
deterministas a menudo necesitan apoyo en una combinación con una metodología analítica basada
en datos que pueda enfocarse muy rápidamente en esas correlaciones y patrones ocultos en el
vasto conjunto de firmas sísmicas. Las respuestas 3D no son únicas y es imperativo respaldar una
interpretación con conjuntos de datos adicionales, como datos de producción e inyección,
herramienta de registro de producción (PLT) e información de seguimiento.
El Capítulo 6 explora los campos petroleros digitales y los flujos de trabajo analíticos para
mejorar la gestión de yacimientos.
ANÁLISIS DE TRAZAS SÍSMICAS
Tradicionalmente, los geofísicos se enfocan en las diferencias de amplitud y las variaciones en el

campo de velocidad que se reflejan en los cambios de tiempo a través de cubos de datos sísmicos
3D en una dimensión temporal. Cualquier atenuación o aumento de la amplitud son invariablemente
correlacionado con el aumento de la saturación de agua y gas, respectivamente. Además, un cambio de tiempo
positivo refleja una disminución de la presión y, por el contrario, un cambio de tiempo negativo implica un aumento
de la presión.
Estudiemos un flujo de trabajo analítico que integra un conjunto de atributos sísmicos y puntos de datos
adicionales del subsuelo obtenidos de registros de pozos y tasas de inyección y producción existentes de pozos
existentes. La figura 3.1 describe una metodología pictórica que implementa técnicas de computación blanda a
través del procesamiento de reconocimiento de patrones, mapas de autoorganización (SOM) y algoritmos de
agrupación. Los entregables de tal estudio no se limitan a los resultados representados en la Figura 3.1, ya que
solo la limitación en la arquitectura de software existente y las restricciones para pensar fuera de la caja pueden
restringir el impulso de los ingenieros y el retorno de la inversión.
Análisis de traza única
ÿ Análisis espectral
ÿ Análisis de series temporales
ÿ Descomposición wavelet
ÿ Transformada rápida de Fourier
ÿ Análisis de componentes principales
ÿ Transformada de Hilbert
Análisis espectral
La identificación de fallas subterráneas individuales en un sistema de fallas más grande es importante para
caracterizar y comprender la relación entre la microsismicidad y los procesos del subsuelo. Esta información puede
ayudar potencialmente a impulsar la gestión de yacimientos y mitigar los riesgos de sismicidad natural o inducida.
Hemos evaluado un método de agrupación estadística de espectros de potencia de eventos microsísmicos
asociados con una operación de recuperación mejorada de petróleo. Específicamente, pudimos proporcionar una
distinción clara dentro de un conjunto de eventos originalmente designados en el dominio del tiempo como un grupo
único e identificar evidencia de fallas en escalón . Las sutiles diferencias en el dominio del tiempo entre eventos se
acentuaron en el dominio de la frecuencia. Se utilizaron espectros de potencia basados en la transformada de
Fourier de la función de autocorrelación en el dominio del tiempo, ya que esta formulación da como resultado
intensidades estadísticamente independientes y está respaldada por un cuerpo completo de teoría estadística sobre
la cual se pueden desarrollar marcos de decisión.
Hay muchas formas de implementar un flujo de trabajo de análisis espectral. Algunos que son particularmente
adecuados para datos de trazas sísmicas se presentarán aquí junto con ejemplos para ilustrar cómo se pueden
representar los resultados informados.
Todos los resultados aquí se basan en un conjunto de datos SEG-Y con 390 seguimientos posteriores a la pila
tomados en un período de muestra de 4 milisegundos durante 4 segundos.

Sísmico Atributo
Seguimiento único
Datos Generación
Análisis
Bien
Registros
Minería de datos
y patrones
Núcleos Reconocimiento
y
Traza sísmica
mapas
Rasgo
Reservorio Identificación
Mapa de calor
Caracterización de yacimientos
Tiempo Datos sísmicos 3D SOM y análisis de conglomerados
Lapso comparaciones
Sísmico
Analítico
contra
Nuevo 3D
pronosticado
Sísmico
Resultados Optimización de la Producción
Estrategias y Tácticas: Fluido
Saturación y Reservorio
Caracterización Evolución
Producción
Flujos de trabajo analíticos de datos en tiempo real e
Flujos de trabajo analíticos indicadores clave de rendimiento
Figura 3.1 Pasos clave del flujo de trabajo en un análisis integral de datos sísmicos
71
Aquí se demostrarán las siguientes herramientas:
ÿ Una herramienta de minería de datos con técnicas de cepillado de visualización
ÿ Análisis de componentes principales en datos SEG-Y
ÿ Descomposición de trazas de wavelet
ÿ Transformada rápida de Fourier (FFT) en datos de seguimiento
ÿ Discusión sobre cómo se pueden analizar estadísticamente los datos sísmicos
ÿ Modelos estadísticos para encontrar/agrupar atributos que comprenden los de mayor interés
caracteristicas
En la Figura 3.2 vemos un ejemplo de rotación y zoom de trazados de trazas 3D.
Tres gráficos en la Figura 3.3 ilustran cómo se puede aplicar la técnica de cepillado para comprender
mejor la relación entre los trazos. Marcar puntos en un gráfico resalta los puntos respectivos en otros gráficos.
Otra manera fácil de encontrar dependencias en los datos de seguimiento es modelar o seleccionar
seguimientos sistemáticamente y compararlos con cualquier otro seguimiento. Un ejemplo, ilustrado en las
Figuras 3.4 y 3.5, se basa en una comparación de este tipo realizada en un flujo de trabajo de minería de datos
donde al hacer clic en el botón Reproducir se muestra la comparación a medida que itera a través de todos los
rastros. También ilustra un polinomio de tercer grado ajustado a cada traza. Las trazas con el ajuste más
cercano se pueden representar y estudiar.
En la Figura 3.6 vemos un ejemplo de agrupación de las trazas. el dendograma

muestra los grupos madre y las distancias entre sí.
Análisis de series temporales
El análisis de series temporales comprende dos objetivos:
1. Comprender el modelo subyacente que genera los datos bajo estudio.
2. Pronosticar tendencias futuras y valores discretos en los datos basados en el
análisis histórico.
Figura 3.2 Gráficos de trazas en 3D

Figura 3.3 Relaciones de atributos de seguimiento
Figura 3.4 Comparación de trazas que ilustra la amplitud media

Figura 3.5 Gráfico de dispersión de amplitudes que compara las trazas 101 y 224
Figura 3.6 Análisis de conglomerados de trazas
La naturaleza no estacionaria de los datos sísmicos requiere un algoritmo de segmentación

ritmo para identificar rápidamente porciones temporales y contiguas cuasiestacionarias.
Descomposición Wavelet
El análisis wavelet es una técnica matemática utilizada para representar datos o funciones. Las wavelets
utilizadas en el análisis son funciones que poseen ciertas propiedades matemáticas y descomponen los
datos en diferentes escalas o resoluciones.
Las wavelets son más capaces de manejar picos y discontinuidades que el análisis de Fourier tradicional,
lo que las convierte en una herramienta perfecta para eliminar el ruido de los datos.
Las aplicaciones tradicionales del análisis wavelet se han centrado en la compresión de imágenes,
pero también se utilizan para analizar series temporales, procesos biológicos,
Gráfico de coeficiente de detalle Espectro de trazas
Escalado uniforme
Tamaño de datos
9
norte: 1001
Nivel superior: 10
Nivel de inicio: 0
Especificación de ondícula
Familia: Symmlet 10
7
Límite: extensión cero
Sin umbral
Figura 3.7 Gráfica detallada del coeficiente de descomposición Wavelet
datos espectroscópicos de compuestos químicos, señales sísmicas para la predicción de terremotos

y datos atmosféricos para la predicción del tiempo.
Los análisis Wavelet basados en las familias Daubechies y Symmlet se ilustran en la figura 3.7.
Los ejemplos se centran en la descomposición de ondículas de una traza.
El análisis incluye características tales como:
ÿ Gráfica de descomposición multiresolución
ÿ Diagrama del coeficiente Wavelet antes de la reducción
ÿ Diagrama del coeficiente Wavelet después de la reducción
ÿ Scalograma Wavelet con o sin reducción y umbralización, utilizando tres tipos diferentes de
algoritmos de umbralización
La Figura 3.8 detalla los gráficos que son representativos de los resultados después de aplicar
algoritmos de reducción y puesta a cero para limpiar coeficientes insignificantes.
El módulo de escalograma amplifica los coeficientes de pequeñas ondículas escalando las
magnitudes de todos los coeficientes para que se encuentren en el intervalo [0, 1] y luego elevando las
magnitudes escaladas a una potencia predeterminada de 1/3. El escalograma de la izquierda representa
los coeficientes de wavelet sin umbral aplicado. La barra de la izquierda muestra la energía total de
cada nivel, que se define como la suma de los cuadrados de los coeficientes de wavelet. La energía
total es más alta en los niveles 6, 7 y 8, lo que es coherente con los resultados del gráfico de coeficientes
detallado. los
Descomposición multiresolución Espectro de trazas

Nivel
Tamaño de datos
10
norte: 1001
Nivel superior: 10
Escalado de nivel independiente Nivel de inicio: 0
9 Especificación de ondícula
Familia: Symmlet 10
8 Límite: extensión cero
Sin umbral
escalograma Espectro de trazas
Tamaño de datos
Energía norte: 1001
Nivel superior: 10
Nivel de inicio: 0
9 Especificación de ondícula
Familia: Symmlet 10
Límite: extensión cero
Detalles de umbral
8
Política: Difícil
Método: Minimax
Niveles: 0 – 9
7
Figura 3.8 Descomposición Wavelet
el escalograma representa la descomposición de ondículas después de aplicar el umbral HardShrink. El nivel

9 refleja cómo HardShrink puso a cero o redujo los coeficientes de detalles pequeños.
Transformada rápida de Fourier
La transformada discreta de Fourier se usa principalmente para transformar datos del dominio del tiempo al
dominio de la frecuencia, como en la gráfica del espectro unilateral de la figura 3.9. La Figura 3.10 es el
resultado de limpiar el espectro trazando solo las 10 frecuencias más dominantes.
Figura 3.9 Análisis de espectro de un solo lado
Figura 3.10 Limpieza del espectro ilustra 10 frecuencias dominantes
Análisis de componentes principales
El PCA de series temporales se ha desarrollado especialmente para mejorar las propiedades

de los datos longitudinales, como los datos espectrales o sísmicos. Los resultados representados
en las Figuras 3.11 y 3.12 se realizan para 39 trazas, traza 352 a 390 (el conjunto de datos
completo se dividió en 10 grupos) con 971 disparos sísmicos distintos de cero muestreados en
intervalos de 4 milisegundos. Los resultados se pueden utilizar de dos maneras, tanto como
exploratoria como en una fase posterior, cuando se identifiquen las ubicaciones de los pozos, como una
Gráfico de sedimentación Explicación de la varianza
150 0.8
0.6
10
0.4
50
0.2
0 0.0
0 5 10 15 0 5 10 15
Componente principal Componente principal
Acumulativo
Proporción
Figura 3.11 Gráficas de descarte y varianza
Figura 3.12 Perfiles de patrones de componentes
herramienta de clasificación para un mayor análisis de agrupamiento y correlación. Aquí, los valores de
amplitud sin procesar están en bucle, pero incluso los resultados de la wavelet, el escalograma o las
densidades/frecuencias espectrales también pueden someterse al mismo proceso analítico y evaluarse
juntos, dando alguna medida probabilística de las porosidades.
Primero vemos que 14 componentes principales construidos sobre casi 1000 disparos explican casi
el 90 por ciento de la varianza, debido a los diagramas de sedimentación en la Figura 3.11. El perfil del
patrón del componente muestra los valores de los parámetros de carga para todas las trazas. Estos
pueden usarse para representar las amplitudes más dominantes en los datos y, por lo tanto, usarse como filtro.
A continuación, se investiga el espectro de nuestros datos. El gráfico de puntuación para los 39
rastros se presenta en la Figura 3.13.
Vemos que muestra una apariencia típica de gusano. Los componentes 1 y 2 producen
los rastros 1 y 39 como los menos importantes, ya que se encuentran cerca del punto [0, 0]
en comparación con el valor opuesto visto en el componente 3. Los valores de puntuación
para estos 39 rastros se pueden usar para discriminar entre patrones de grupos de trazas con
atributos de amplitud similares o totalmente diferentes.
La Figura 3.14 muestra los gráficos Hotteling T2 basados en 14 PC. Vemos que todas
las trazas, excepto las de los extremos, no se desvían de los valores medios del modelo PCA.
Gráfico de puntuación para el componente 1 y 2 Gráfico de puntuación para los componentes 1 y 3

Todas las observaciones. Todas las observaciones.
2 2
21 21
20 20
22 22
19 19
23 23
18 18
24 24
25 25
17 17
1 1
26 26
PRIN1 PRIN1
dieciséis dieciséis
27 27
28
28 15 15
29 29
0 0
30 14 30 14 35 38
39
31 3638 31
13 35
333435 37 13 32 33 36
32 34 37
12 12
234 11 21 4 11
4 1 4
6 10 356 10
5
7 9 87 9
8
–1 0 1 2 –1 0 1 2
PRN2 PRN3
Figura 3.13 Gráfico de puntuación para las 39 trazas en estudio
Gráfico T2 de Hotteling
PCA con 14 componentes principales
Intervalo de observación 1:39 ÿ = .05 Límites
35 Para n = 1:
99 × LCC = 31
30
LCC = 26,0
25
cuadrado
Hotteling
de
T-
20
15
Mediana
10
5 LCL = 5,7
350 355 360 365 370 375 380 385 390
Índice de subgrupos (Trace_num)
Figura 3.14 Gráfico T2 de Hotteling

Distancia de observación al modelo para intervalo de observación 1:39

Modelo PCA con 14 componentes principales
1.3 DCrit doble = 2.6
CCrit = 1.3
1.2
1.1
1.0
0.9
0.8
0.7
0 10 20 30 40
Figura 3.15 Valoración de la distancia al modelo
En la Figura 3.15, el valor de Distancia al modelo muestra que todas las trazas están bien
ajustadas al modelo.
Con base en este análisis de PCA, si esos rastros se ubicaron en las ubicaciones de los
pozos, están construyendo un buen modelo de PCA que puede formar un patrón o grupo para
correlacionar con otros grupos de rastros.
Transformada de Hilbert
Posteriormente, a principios del siglo XX, el científico alemán David Hilbert (1862-1943)
demostró que la función sin() es la transformada de Hilbert de cos(). Esto nos dio el operador
de cambio de fase, que es una propiedad básica de la transformada de Hilbert.
Una función real a(t) y su transformada de Hilbert están relacionadas entre sí de tal manera
que juntas crean una señal analítica fuerte, como se ve en la figura 3.16. La señal analítica
fuerte se puede escribir con amplitud y una fase donde la derivada de la fase se puede
identificar como la frecuencia instantánea. La transformada de Fourier de la señal analítica
fuerte nos da un espectro unilateral en el dominio de la frecuencia.
Transformada de Hilbert
ÿ
1 1
H un =[ (=)] att ( )
ÿ ÿ a( ) t ÿ
ÿ
ÿ
dÿ
ÿ
1 1
= ( )*
a las
ÿ
t
Figura 3.16 Trace con su transformada de Hilbert
Los atributos más comunes se derivan de la transformación:
Señal Analítica - Descriptores
Magnitud
ÿ
a () = 2
atat
() 2 + ()
Fase Instantánea
un( 1t)
) =
ÿ
ÿ (bronceado
a)
Instantáneo
Frecuencia
1 reÿ (t)
f i(t) =
2 ÿ dt
donde ã es la transformada de Hilbert y a es la señal.
Las figuras 3.17, 3.18 y 3.19 presentan gráficos de descriptores de señal de una traza
derivado con una transformada de Hilbert.
Minería de datos y reconocimiento de patrones
Es esencial adoptar un conjunto de flujos de trabajo de análisis de datos exploratorios que, a

través de visualizaciones intuitivas, muestre patrones ocultos, correlaciones y tendencias en el
Figura 3.17 Gráfica de atributo de fase instantánea
Figura 3.18 Gráfica de atributo de frecuencia instantánea
conjuntos de datos subyacentes. En el caso del análisis sísmico, podría agregar múltiples
atributos desde una perspectiva anterior o posterior al apilamiento según la función objetivo
o el problema comercial que se esté estudiando, por ejemplo, la optimización de la
producción o la efectividad de una técnica de recuperación mejorada de petróleo como WAG.
La metodología basada en datos complementa la interpretación tradicional de los flujos de
trabajo de visualización inmersiva en 3D. La clave es asegurarse de que la informática blanda
Figura 3.19 Envolvente de señal deducida a través de una transformada de Hilbert
Las técnicas adoptadas no son meras reencarnaciones de visualizaciones existentes. ¿Qué

quiero decir con esa declaración? Con demasiada frecuencia soy testigo de la implementación
de software "analítico" que aboga por algoritmos multidimensionales, multivariantes,
multivariantes y estocásticos, pero si sumerges el dedo en las corrientes poco profundas del
código, pronto te das cuenta de que los sistemas subterráneos complejos y heterogéneos son
más allá de su alcance y su dedo está relativamente seco! No se limite a volver a crear una
imagen de su activo importante desde múltiples perspectivas, enriquecido con diferentes
gráficos y tablas boutique. Habilite los datos para que realmente funcionen para usted y
déjelos viajar por la autopista no determinista basada en datos para convertir datos sin
procesar en conocimiento procesable.
Una metodología simple pero muy efectiva que genera observaciones intuitivas y
perspicaces en un cubo sísmico 3D se basa en los flujos de trabajo de reconocimiento de
patrones a través del análisis de componentes principales y redes neuronales, tanto sin
supervisión (mapas autoorganizados) como supervisados. La sección “Estudio de caso:
propiedades del yacimiento definidas por atributos sísmicos” detalla el paso de análisis de
PCA que estudia las amplitudes en un conjunto de datos sísmicos.
Dado un volumen de datos sísmicos 3D, se pueden definir atributos sísmicos que tengan
un valor numérico para cada punto en ese volumen. Los atributos sísmicos abarcan una
amplia gama de mediciones derivadas de trazas sísmicas, como amplitud, descomposición
espectral, zonas de discordancia, varianza de similitud e indicador de lecho delgado. Podemos
calcular múltiples atributos para cada punto en una cuadrícula 3D. La generación de tal
volumen de datos de atributos sísmicos esencialmente deshabilita el flujo de trabajo
interpretativo tradicional por temor a perder los matices, los patrones ocultos y las relaciones
multivariadas que solo surgen mediante una metodología de computación suave, como se
muestra en la Figura 3.20.
Figura 3.20 Flujo de trabajo de reconocimiento de patrones PCA/SOM/ANN de atributos sísmicos
Habiendo determinado la función objetivo, y esto incluye la identificación de

características geológicas y estratigráficas, gradientes de presión intersticial e
indicadores directos de hidrocarburos (DHI), podemos crear un conjunto de atributos
sísmicos con valores derivados. El paso PCA establece aquellos atributos que pintan
la imagen más pertinente del subsuelo con respecto a la función objetivo, filtrando
aquellos atributos que son esencialmente portadores de ruido, proporcionando poca o
ninguna contribución al estudio. Si hay registros y/o núcleos de pozos disponibles para
entrenar la red neuronal, se puede implementar una ANN supervisada con las lecturas
de datos duros localizados. La ANN asigna los atributos sísmicos a las propiedades
del yacimiento entre los pozos. La red neuronal no supervisada basada completamente
en datos de respuesta sísmica se puede usar potencialmente para reducir el riesgo de
exploración y los recursos en un campo nuevo.
Como declaró el Dr. Tom Smith de Geophysical Insights:3
En un ejemplo, el software se utilizó para evaluar un volumen 3D en alta

mar en América del Sur. Se había perforado un pozo en aguas profundas
y se encontró con altas presiones inesperadas, lo que impidió perforar a la
profundidad planeada originalmente. Esta zona de alta presión no se vio
en la interpretación inicial utilizando un sistema de interpretación
ampliamente adoptado. Una evaluación del volumen sísmico 3D sugirió
que puede haber facies y variaciones estratigráficas en la zona de alta
presión.
Luego de una interpretación de la geología local y de ponerla en un
contexto regional, se analizaron 5 conjuntos diferentes de atributos. Se
encontró que un conjunto particular de 6 atributos revela claramente la
zona de alta presión.
La zona de presión anómala parecía estar asociada con una facies de pendiente, un tipo
de relleno de depósito marino que suele ser un objetivo para la exploración de hidrocarburos.
Las facies de taludes se asocian típicamente con un entorno de taludes en el que ha habido
cambios rápidos en la deposición, incluidos lechos discontinuos de limolitas y lutitas y, en
ocasiones, arenas canalizadas con lutitas entre canales.
Identificación de elementos de trazas sísmicas
Esta acción es para hacer coincidir los parámetros de datos del pozo con la firma de la traza para identificar las
características de la traza relevantes reflejadas en los atributos y patrones.
Casi todos los pozos se registran con registros convencionales como SP, rayos gamma, densidad e inducción
al perforar y completar. Algunos pozos pueden tener registros de resonancia magnética que tienen la capacidad
de medir in situ la porosidad efectiva, la saturación de fluidos y la permeabilidad. Los métodos de identificación
y extracción de características son esenciales para vincular las firmas sísmicas con los registros de pozos en
puntos focales locales a lo largo de un yacimiento.
Dado que los datos de series temporales tienen una estructura de datos única, no es fácil aplicar algunas
herramientas de minería de datos existentes directamente a los datos. Por ejemplo, cada punto de tiempo a
menudo se considera una variable y cada serie de tiempo a menudo se considera una observación en el
problema de clasificación. A medida que aumenta la dimensión temporal, el número de variables también
aumenta proporcionalmente. Por lo tanto, para clasificar grandes cantidades de series temporales de manera
eficiente, es fundamental aplicar algunas técnicas de extracción de características para hacer más concisa cada
serie temporal en una forma de dimensión significativamente menor. Las técnicas más comunes para la
reducción de dimensiones en series de tiempo son la descomposición de valores singulares, la transformación
discreta de Fourier, la transformación discreta de ondículas y las aproximaciones de segmentos de línea.
Dada una dimensión de tiempo de tamaño T, el método del segmento de línea divide la dimensión de
tiempo en d segmentos de igual tamaño (o intervalos de tiempo). Después de la segmentación, se puede
calcular la suma, la media u otra estadística de agregación para cada segmento. Por ejemplo, supongamos que
tenemos una serie de tiempo con 12 puntos de tiempo, digamos {1, 2, 5, 7, 8, 5, 5, 7, 8, 2, 5, 3}, y queremos
tener un tiempo reducido Serie con 3 puntos. En este caso podemos transformar la serie original en una serie
reducida {3.75, 6.25, 4.5} con el estadístico medio de cada segmento. La figura 3.21 muestra la serie original y
la serie transformada con tres medias. keogh y lin4
propuso este método primero con una estadística media. Lo llaman aproximación agregada por partes. La
mayor ventaja de este enfoque es que es simple de entender e implementar.
La extracción de características de series temporales se puede explicar de dos maneras diferentes:
1. Extracción de características a través de series de tiempo clásicas
2. Extracción de características para reducción de dimensiones

0
1 2 3 4 5 6 7 8 9 10 11 12
series originales serie transformada
Figura 3.21 Reducción de dimensiones utilizando segmentos de línea con media
Algunos análisis clásicos de series de tiempo para la extracción de características, tales como
la estacionalidad, la tendencia, la descomposición y los ajustes estacionales, y el análisis de
correlación conducen a identificar características críticas de trazas sísmicas.
Modelo analítico de caracterización de yacimientos
Uno de los flujos de trabajo analíticos más efectivos es el análisis de conglomerados y es un

candidato ideal para la minería de datos para describir patrones obtenidos a partir de atributos sísmicos.
Veamos dos técnicas de agrupación: jerárquica y K-means.
Agrupación jerárquica
La opción jerárquica agrupa filas que agrupan los puntos (filas) de una tabla en grupos cuyos valores
están cerca entre sí en relación con los de otros
racimos El agrupamiento jerárquico es un proceso que comienza con cada punto en su propio grupo.
En cada paso, los dos grupos que están más cerca se combinan en un solo grupo. Este proceso
continúa hasta que solo hay un grupo que contiene todos los puntos. Este tipo de agrupamiento es
bueno para conjuntos de datos más pequeños (algunos cientos de observaciones).
La secuencia de agrupamiento se visualiza fácilmente con la ayuda de un dendrograma

(Figura 3.22), que es un diagrama de árbol que enumera cada observación y muestra en qué grupo
se encuentra y cuándo ingresó a su grupo.
Los detalles técnicos detrás de la agrupación jerárquica se enumeran en cinco

métodos:
1. Vinculación media
2. Método del centroide
3. Método de Ward
4. Enlace único
5. Vinculación completa
cuadrado
sísmico
parcial
R-
FRKY
Z1
1- FRKY
Z3
1- FRKY
Z7
1- FRKY
Z9
1- FRKY
Z2
1- FRKY
Z4
1- FRKY
Z5
1- FRKY
Z6
1- FRKY
Z8
1-
FRKY
Z13
1- FRKY
Z11
1- FRKY
Z16
1- FRKY
Z17
1- FRKY
Z18
1- FRKY
Z19
1- FRKY
Z20
1- FRKY
Z12
1- FRKY
Z14
1- FRKY
Z15
1- FRKY
Z21
1- FRKY
Z10
1- FRKY
Z22
1- FRKY
Z23
1-
FRKY
Z210
1-
Figura 3.22 Dendrograma de Pozos Clasificados por Líquidos Acumulativos
Vinculación promedio
En el enlace promedio, la distancia entre dos conglomerados es la distancia promedio entre pares
de observaciones, o una en cada conglomerado. El enlace promedio tiende a unir conglomerados
con pequeñas varianzas y está levemente sesgado hacia la producción de conglomerados con la
misma varianza.
Método centroide
En el método del centroide, la distancia entre dos grupos se define como la distancia euclidiana al
cuadrado entre sus medias. El método del centroide es más resistente a los valores atípicos que la
mayoría de los otros métodos jerárquicos, pero en otros aspectos podría no funcionar tan bien
como el método de Ward o el vínculo promedio.
método de Ward
En el método de varianza mínima de Ward, la distancia entre dos conglomerados es la suma de
cuadrados ANOVA entre los dos conglomerados sumados sobre todas las variables.
En cada generación, la suma de cuadrados dentro del grupo se minimiza en todas las particiones
que se pueden obtener fusionando dos grupos de la generación anterior. Las sumas de cuadrados
son más fáciles de interpretar cuando se dividen por la suma total de cuadrados para dar las
proporciones de varianza (correlaciones semiparciales al cuadrado).
El método de Ward une grupos para maximizar la probabilidad en cada nivel de la jerarquía
bajo los supuestos de mezclas normales multivariadas, matrices de covarianza esférica y
probabilidades de muestreo iguales.
El método de Ward tiende a unir conglomerados con un pequeño número de observaciones y
está fuertemente sesgado hacia la producción de conglomerados con aproximadamente el mismo
número de observaciones. También es muy sensible a los valores atípicos.
Enlace único
En el enlace simple, la distancia entre dos conglomerados es la distancia mínima entre una observación
en un conglomerado y una observación en el otro conglomerado.
El enlace único tiene muchas propiedades teóricas deseables.5 Sin embargo, el enlace único no ha
obtenido resultados satisfactorios en los estudios de Monte Carlo.6 Al no imponer restricciones sobre
la forma de los grupos, el enlace único sacrifica el rendimiento en la recuperación de grupos compactos
a cambio de la capacidad de detectar racimos alargados e irregulares. El enlace único tiende a cortar
las colas de las distribuciones antes de separar el grupo principal.
Vinculación completa
En el enlace completo, la distancia entre dos conglomerados es la distancia máxima entre una
observación en un conglomerado y una observación en el otro conglomerado.
El enlace completo está fuertemente sesgado hacia la producción de agrupaciones con diámetros
aproximadamente iguales y puede verse gravemente distorsionado por valores atípicos moderados.
Agrupación de K-Means
El enfoque de K-medias para el agrupamiento realiza un proceso de ajuste alternativo iterativo para
formar el número de agrupamientos especificados, como se muestra en la figura 3.23. El método de K-
medias primero selecciona un conjunto de n puntos llamados semillas de conglomerados como una
primera suposición de las medias de los conglomerados. Cada observación se asigna a la semilla más
cercana para formar un conjunto de grupos temporales. Las semillas luego son reemplazadas por el racimo.
Bueno Grupo A
Baja porosidad, alta permeabilidad, baja
Producción, Alta Presión, Caudal, etc.
Bueno Grupo B Bueno Grupo C

Alta porosidad, baja permeabilidad, baja Baja porosidad, baja permeabilidad, baja
Producción, Baja Presión, Caudal, etc. Producción, Alta Presión, Caudal, etc.
Figura 3.23 Agrupamiento jerárquico y de K-medias para evaluar EOR

significa que los puntos se reasignan y el proceso continúa hasta que no se produzcan más
cambios en los grupos. Cuando finaliza el proceso de agrupación, verá tablas que muestran
breves resúmenes de las agrupaciones. El enfoque de K-medias es un caso especial de un
enfoque general llamado algoritmo EM; E significa expectativa
(el clúster significa en este caso), y M significa maximización, lo que significa asignar puntos a
los clústeres más cercanos en este caso.
El método de K-medias está diseñado para usarse con tablas de datos más grandes, de
aproximadamente 200 a 100 000 observaciones. Con tablas de datos más pequeñas, los
resultados pueden ser muy sensibles al orden de las observaciones en la tabla de datos.
La agrupación en clústeres de K-Means solo admite columnas numéricas. El agrupamiento
de K-Means ignora los tipos de modelo (nominal y ordinal) y trata todas las columnas numéricas
como columnas continuas.
Una vez que se ha implementado la metodología de agrupamiento, es factible segmentar el
yacimiento o campo en función de los resultados. Por ejemplo, al agrupar los atributos sísmicos
y las propiedades de las rocas que se pueden mapear a través de redes neuronales artificiales a
partir de los atributos, puede identificar los pozos que son buenos y malos desde la perspectiva
de un productor o un inyector.
A partir de las características de rastreo combinadas con los datos de producción, ahora
es posible generar un modelo analítico que se puede visualizar en un mapa e identificar el punto
ideal para asesorar sobre futuros pozos de exploración/evaluación y reducir la probabilidad de
pozos secos.
Comparaciones de datos sísmicos 3D
La magia del 3D se transmite mejor al considerar cómo capturamos las mediciones de un campo
de ondas que regresa. Cuando introducimos energía acústica en la tierra, es como dejar caer
una gran bolsa de pelotas de ping-pong desde el techo de una habitación grande.
Las pelotas rebotarán de manera errática debido a la falta de homogeneidad en la habitación
(sillas, escritorios y personas). Muchas de las bolas regresarán al techo donde se podrá observar
y medir su retorno. Al analizar el tiempo y la posición de las bolas que regresan, podemos inferir
qué irregularidades pueden existir en la sala.
En la exploración de petróleo y gas, estamos tratando de obtener imágenes de reservorios y
trampas. Nuestra imagen y reconstrucción del subsuelo se verá limitada si solo recibimos las
“pelotas de Ping-Pong” en distintas líneas 2D. Sin embargo, si observamos el campo de ondas
reflejado (pelotas de ping-pong) sobre un área grande, tendremos información mucho más útil
para construir nuestras imágenes del subsuelo. Por lo tanto, si tenemos dos campos de ondas
3D separados por el tiempo, es concebible restar uno del otro y notar la diferencia en los patrones
de atributos sísmicos como la amplitud y la fase.
Tenga en cuenta los cambios sutiles en los cambios de tiempo a medida que las firmas de trazas
sísmicas difieren entre los dos conjuntos de datos 3D. Estas comparaciones muestran patrones
y relaciones que son indicativos de los movimientos de hidrocarburos a través del yacimiento.
Preguntas como, ¿Qué tan efectiva es mi estrategia WAG?, pueden medirse y cuantificarse.
La enorme cantidad de muestras sísmicas y los atributos generados deben correlacionarse

para identificar aquellas áreas del campo de ondas sísmicas que requieren una mayor investigación.
Resultados analíticos versus pronosticados
Al comparar nuevos datos sísmicos de lapso de tiempo con trazas/modelo originales, pudimos
evaluar la eficiencia de los pozos de inyección/producción, ubicar dónde fluye la inyección y
cuantificar los cambios en la saturación de fluidos durante la vida del yacimiento. Al comparar
nuevos datos sísmicos (de una ubicación diferente) con el modelo de yacimiento/
expectativas de trazas sísmicas, pudimos identificar la desviación del modelo y, por lo tanto, lograr
la calidad de los datos en tiempo real durante la adquisición sísmica.
Es crítico durante la fase de exploración sísmica de la cadena de valor de E&P capturar tanto
conocimiento como sea posible que sea relevante para comprender la deposición, generación,
migración y atrapamiento de hidrocarburos en el subsuelo. Por lo tanto, una de las tareas más
importantes para los geofísicos es identificar las características geológicas que se pueden mapear
en el ciclo de vida del petróleo y el gas. Tanto las características estáticas como las dinámicas
inherentes a los yacimientos deben emerger de la plétora de trazas de movimiento sísmico. Estas
características son enumeradas por Cosentino a modo de léxico de parámetros:7
1. Estructura: profundidad del horizonte, espesor del yacimiento, fallas, etc.
2. Arquitectura interna: heterogeneidad
3. Propiedades petrofísicas: permeabilidad, porosidad, etc.
4. Propiedades de los hidrocarburos: producto, termodinámica, etc.
Obviamente, la recopilación tradicional de información a través de registros de pozos

proporciona solo conjuntos de datos localizados y, por lo tanto, escasamente muestreados en una
perspectiva unidimensional. Es evidente que necesitamos generar atributos sísmicos para mejorar
y complementar el conocimiento sísmico obtenido de la interpretación de las secciones sísmicas
del subsuelo. Necesitamos llenar el vacío de conocimiento que se encuentra entre las ubicaciones
de pozos adyacentes. La geoestadística puede interpolar y extrapolar entre y más allá de los
registros de pozo recopilados por medio de algoritmos informáticos avanzados. Analizamos las
geoestadísticas multivariantes con más detalle en el Capítulo 10 "Geoestadísticas multivariantes".
Otra metodología es la derivación y análisis de atributos sísmicos.
ESTUDIO DE CASO: DEFINICIÓN DE LAS PROPIEDADES DEL RESERVORIO
POR ATRIBUTOS SÍSMICOS
Un flujo de trabajo de análisis de componentes principales (PCA) implementa pasos estadísticos

para obtener información sobre la caracterización de las propiedades del yacimiento. Al estudiar un
conjunto de datos sísmicos 3D con valores de amplitud derivados, es factible ofrecer una predicción
Capacidad para comprender las propiedades del yacimiento en un yacimiento de arena con muchas
fallas con inclusiones de lutita.
Como estamos aplicando PCA a un solo atributo sísmico, a saber, la amplitud, debemos muestrear
el volumen 3D con una ventana deslizante que encapsula muchas muestras de amplitud contiguas de
trazas sísmicas adyacentes. Esto nos permite poblar vectores de valores de amplitud muestreados
para múltiples ventanas a través del volumen sísmico 3D. Estos vectores actúan como un espacio de
entrada para el algoritmo estadístico PCA, produciendo un espacio de salida que consta de un cubo
de componentes principales (PC) agrupados que actúan como una variable categórica cuando se
predicen las propiedades del yacimiento distantes de los núcleos de control de pozos localizados y los
registros con cable.
En áreas de variación estratigráfica lateral acelerada dentro del yacimiento, esta metodología
demuestra ser un flujo de trabajo predictivo eficiente y preciso que permite a los geocientíficos construir
modelos de yacimiento rigurosos. Las geoestadísticas tradicionales adoptan un flujo de trabajo basado
en variogramas que implementan un conjunto de kriging
y pasos de simulación. Sin embargo, dichos flujos de trabajo no pueden capturar en detalle las
distribuciones de las litofacies debido a las limitaciones inherentes al sesgo de muestreo de los datos
duros en cada ubicación de control.
La implementación de análisis multivariado para anomalías estratigráficas de superficie en datos

sísmicos se ha discutido desde 1969. Pero la adopción de flujos de trabajo analíticos predictivos en
geofísica se ha acelerado recientemente con el advenimiento de datos sísmicos 3D de alta fidelidad
comúnmente alcanzables y la subsiguiente derivación de datos sísmicos predichos. y atributos sísmicos
posteriores a la acumulación.
Un atributo sísmico es cualquier propiedad derivada de la señal de reflexión sísmica y, como tal,
puede utilizarse como un medio para predecir una propiedad primaria del yacimiento distante del
control del pozo. Existen varias técnicas de computación blanda que se pueden utilizar como vehículos
de carácter predictivo. El panorama estocástico está lleno de metodologías como un multiplicador lineal
básico (atributo único), análisis multivariante y multivariante utilizando técnicas de correlación canónica,
enfoques geoestadísticos, métodos no lineales y difusos y redes neuronales artificiales.
Parece que el número y la variación de los atributos sísmicos derivados ha sido
más expedito que la adopción de la implementación de técnicas de computación blanda que abarquen
dichos atributos para determinar las propiedades del yacimiento areal fuera de los procesos
deterministas.
Por supuesto, los primeros principios que vinculan de manera invisible los atributos con las
propiedades específicas del yacimiento están bien definidos, pero las relaciones desde una perspectiva
basada en datos están rodeadas de incertidumbre. Esa incertidumbre debe cuantificarse para limitar la
confianza en los resultados. Sin embargo, es posible que nunca se logre la falta de ambigüedad; pero
para equilibrar el argumento, ¿podemos afirmar que los científicos no han probado de manera
demostrable más allá de toda duda esos procesos físicos ahora acuñados como verdades empíricas?
También están las viejas preguntas al profundizar en el ámbito de las estadísticas que encuentran
sus raíces en la lógica de la caja negra. ¿Podemos confiar en los resultados basados en empujar un
espacio de entrada de alta dimensionalidad a través de un algoritmo que
¿Se puede engañar fácilmente si se entrena demasiado? Se ha demostrado que existe una
clara posibilidad de que una correlación falsa sea factible, si no anticipada, cuando el número
de atributos en el espacio de entrada alcanza un cierto límite, invitando a invitados no deseados:
redundancia y colinealidad.
Lendzionowski, Walden y White sugieren que el número máximo de atributos independientes
para representar integralmente un segmento de traza puede designarse mediante una ecuación
simple:8
2BT: B = ancho de banda (Hz) y T = longitud del segmento de traza (segundos)
La implicación es que la mayoría de los atributos comunes son redundantes. Y esta

redundancia resalta el potencial de colinealidad entre múltiples atributos sísmicos aparentemente
independientes que tienen correlaciones similares a un objetivo o variable dependiente.
Necesitamos transformar el espacio de entrada que consiste en el conjunto de trazas

sísmicas en un conjunto único de atributos representativos de la singularidad en las
características de la señal. PCA es ideal para descubrir tanto las tendencias temporales fluidas como
cualquier cambio de tiempo repentino en un conjunto de datos multivariante. Además, también
obtenemos una comprensión de las relaciones entre los valores de los atributos. ¿Cuáles
aportan información similar al modelo PCA y cuáles brindan información única sobre las
observaciones? PCA describe la estructura de correlación entre las variables de entrada.
Esencialmente, el análisis PCA inicial revela agrupaciones entre las observaciones e
invariablemente dos o tres grupos principales de observaciones no son infrecuentes.
Recuerde que nos esforzamos por identificar a través de una aplicación PCA la
"comprensión descriptiva más completa de la señal" que es "única y mutuamente independiente".
Estas dos definiciones son a propósito ya que corresponden a la nomenclatura que explica la
esencia de PCA: máximamente variante y mutuamente ortogonal, respectivamente.
El primer paso en el flujo de trabajo de PCA es calcular todas las covarianzas para los
componentes de entrada N. El segundo paso proporciona la inversión de la matriz de covarianza
para crear un conjunto de vectores propios N-ortogonales y valores propios correspondientes.
Cada par vector propio-valor propio representa un componente principal distinto (PC). Todos
los N-PC se calculan de forma solitaria y concurrente a partir del conjunto de vectores de
entrada. La inversión de la matriz de covarianza garantiza la identificación única del componente
de "variante máxima" (PC de valor propio más alto).
Todas las PC secundarias, clasificadas en orden de valor propio decreciente, son mutuamente
ortogonales (el vector propio garantiza esto).
Luego derivamos un conjunto completo de atributos sísmicos representados como PC y
este proceso alcanza las siguientes características importantes para los atributos bajo estudio:
ÿ Máximamente descriptivo de la señal
ÿ Mutuamente independientes y, por lo tanto, máximamente únicos

PCA requiere múltiples (N) entradas, aunque estamos aplicando PCA contra un solo atributo
sísmico: amplitud. Pero recuerde que estamos analizando muchos valores de amplitud adyacentes
simultáneamente a través de una ventana de muestreo.
La metodología sísmica inherentemente dispersa el conocimiento del reflector del subsuelo a
través de un volumen más grande de datos de amplitud registrados fuera del alcance inmediato de
un reflector localizado. La wavelet sísmica tiene un ancho de banda limitado de componentes
espectrales y está dominada por longitudes de onda largas (frecuencias bajas), lo que da como
resultado su naturaleza dispersiva. Por lo tanto, la wavelet representa de manera ambigua cualquier
característica localizada y agrupada estrechamente.
Es necesario diseñar una ventana de muestreo para encapsular la señal dispersa resultante de
una característica de pequeña escala en el subsuelo, pero asegurando la exclusión de la mayor
cantidad posible de señales no relacionadas.
La ventana de muestreo selecciona todos los valores de amplitud (N-muestras) como un vector
N-dimensional ordenado que actúa como entrada al algoritmo PCA. Al muestrear todo el volumen
de datos sísmicos en 3D con múltiples ventanas de tamaño uniforme, generamos la matriz estadística
de muestras vectoriales necesarias para el cálculo de las covarianzas. Este paso precede
inmediatamente a la inversión de la matriz de covarianza. El tamaño de la ventana de muestreo se
calcula identificando el número de muestras de cuadrícula por encima y por debajo de un punto de
referencia relativo que se encuentra en el centro de cada ventana. Se decidió limitar el tamaño de la
ventana en la dimensión vertical a aproximadamente el período medio de la wavelet sísmica, ~34
milisegundos en este conjunto de datos. Por lo tanto, al limitar la ventana de muestreo a

aproximadamente el tamaño de la ondícula de impulso, capturamos la señal que está directamente
relacionada con cualquier reflector dado y minimizamos la influencia de la señal generada por otros
reflectores no relacionados.
Estamos interesados principalmente en los componentes estacionarios que se correlacionan

con los reflectores localizados y para brindar este conocimiento es necesario calibrar las PC con
registros de pozos.
El proceso mediante el cual calibramos las PC con los datos del pozo se esfuerza por “aplastar”
el conocimiento disperso en escala fina de regreso al lugar físico inicial de los reflectores, en
comparación con los datos de propiedades del yacimiento altamente resueltos en los pozos. El
objetivo final es lograr una representación de las propiedades del yacimiento altamente resuelta e
inequívoca en 3D directamente a partir de la señal sísmica descompuesta. Primero se aplica un
algoritmo de agrupamiento a los componentes principales. Posteriormente, determinamos una
propiedad del yacimiento pronosticada (porosidad efectiva) en la cuadrícula, implementando las
estadísticas de la propiedad del yacimiento en los pozos para cada grupo.
En la Figura 3.24, la primera PC con el valor propio más alto contiene la mayor cantidad de
conocimiento sobre la traza y cada PC subsiguiente tiene menos información sobre la traza
estudiada. Esto refleja contribuciones de varianza progresivamente más pequeñas del volumen total
de la señal.
En el gráfico de pantalla representado en la Figura 3.24, observamos un gráfico de segmento
de línea simple que muestra la fracción de la varianza total en los datos de amplitud como se explica o
Determinado
por las dimensiones
de la ventana de
muestreo • N Salidas rangos
transformadas • Total PC
PC • Mutuamente
norte
linealmente Varianza • Ortogonal •

Entradas • Vectores propios Descendente Completamente
• Principal Valores propios Independiente
Componentes
Piedra
Gráfico
3
0.0 2,5 5,0 7,5 10,0 12,5 15,5

Número de componentes
Figura 3.24 Análisis de Componentes Principales de Atributo Sísmico Singular
94
representado por cada PC. Los PC están ordenados y, por definición, se les asigna una
etiqueta numérica, por orden decreciente de contribución a la varianza total.
La PC con la contribución de fracción más grande se etiqueta con el nombre de la etiqueta
del archivo de preferencias. Tal gráfico, cuando se lee de izquierda a derecha a lo largo de la
abscisa, a menudo puede mostrar una clara separación en fracción de la varianza total donde
cesan los componentes "más importantes" y comienzan los componentes "menos importantes".
El punto de separación a menudo se llama "codo".
La característica totalmente independiente se adopta como premisa para agrupar y
clasificar la población de vectores de entrada transformados.
La dimensionalidad del espacio de entrada no se redujo mediante el análisis factorial,
sino que se logró mediante el uso de un enfoque de agrupación. El agrupamiento nos permite
producir un volumen de clases discretas que se calculan directamente, utilizando todas las
PC significativas de manera objetiva. Esta estrategia combina la información significativa
contenida en todas las PC con la compacidad de una descripción categórica.
Los componentes principales mutuamente ortogonales ocupan inherentemente un mundo

de dimensiones espaciales N-ortogonales (el llamado espacio de componente principal).
Al comprender sus coeficientes de vectores propios en este espacio multidimensional, es
plausible que cada vector de muestra se ubique de manera única. Con todos los vectores de
muestra (ventanas de muestra sísmica) que contienen loci únicos en este espacio de PC, se
puede implementar un esquema de agrupamiento basado en proximidad (método de K-
medias). Este enfoque de agrupamiento agrupa y clasifica conjuntamente cada ventana de
los datos sísmicos. Es razonable suponer que el mismo índice de conglomerado se asociará
a aquellos vectores de muestra que se encuentren próximos entre sí en el espacio PC. Una
vez resuelta la pertenencia a un conglomerado para una muestra dada, el índice de
conglomerado se puede publicar en la cuadrícula sísmica original en el punto de referencia
de cada ventana de muestra. El cubo resultante poblado por índices de clúster de PCA
representa un conjunto de propiedades categóricas únicas. Por lo tanto, el componente de
agrupamiento de PC en el flujo de trabajo representado en la Figura 3.25 conserva la
singularidad característica de todas las PC, pero reduce la dimensionalidad del espacio del
problema al formar una sola variable categórica que usamos para calibrar los datos del pozo.
inversión de
covarianza
matriz a
Calcular todo generar N K-medias Nube
covarianza para
ortogonal transformar
agrupamiento
N-entrada vectores propios
algoritmo y SGS
componentes y
correspondiente
valores propios
Figura 3.25 Flujo de trabajo de PCA

Es necesario determinar el parámetro representativo del número de agrupaciones antes de

ejecutar el algoritmo de agrupamiento. En última instancia, debemos calibrar los conglomerados
comparándolos con los valores de las propiedades del yacimiento espacialmente correspondientes
en los pozos, y el número de conglomerados retenidos determinará en parte el éxito de esta
operación. Hay dos consideraciones influyentes a evaluar que compiten por la configuración ideal
del parámetro del número de conglomerados:
1. La selección de un mayor número de conglomerados disminuye el volumen muestreado

promedio por conglomerado. Esto aborda el concepto detrás de producir una caracterización
lo más finamente resuelta posible, en un intento de capturar detalles finos del yacimiento.
2. Para calibrar los conglomerados con mayor peso estadístico es necesario capturar tantos
puntos de datos de pozo dentro de cada conglomerado como sea posible.
Este objetivo resulta en seleccionar menos conglomerados, aumentando el volumen
muestreado por conglomerado.
Se decidió elegir 50 clústeres como óptimos para lograr un equilibrio entre estos dos objetivos
competitivos. Se requiere experimentación y algún análisis subjetivo para llegar a la elección óptima
del número de conglomerados y, por lo general, retener múltiples opciones de números de
conglomerados servirá para capturar la incertidumbre impuesta por este paso.
La variable categórica (índice de clúster) permite la implementación de una estimación

geoestadística (simulación) definida como una transformación de nube categórica.
Esto genera múltiples realizaciones de las estimaciones de propiedades basadas en las
propiedades del grupo y del pozo coubicado.
Usamos esta técnica para poblar la grilla sísmica con porosidad efectiva (PHIE) usando los
conglomerados PCA como guía. PHIE es la proporción de fluidos en la matriz (Figura 3.26). En
general, se acepta que PHIT debe usarse preferentemente para calcular la saturación de agua y los
volúmenes de hidrocarburos. Lamentablemente, actualmente no hay registros que permitan el
cálculo directo de PHIT. Se requieren mediciones de laboratorio y de extracción de testigos antes
de que se pueda calcular con precisión el PHIT a partir de los registros. Por lo tanto, PHIE debe
usarse en pozos de exploración o cuando no se dispone de suficientes mediciones de laboratorio.
Vinculado
Matriz Arcilla Agua Petróleo Gas
Agua
efectivo Porosidad
Sólidos PHI
Porosidad Total
PHIT
Figura 3.26 Distribución de fluidos y sólidos de formación

Una transformación de nube es una técnica de estimación estocástica que permite a los
geocientíficos simular una variable a partir de otra variable utilizando el diagrama de dispersión entre
ellas y se basa en hacer coincidir una gráfica cruzada (nube) de puntos que relacionan las dos
variables. La nube es simplemente el gráfico bivariado físico de datos blandos versus datos duros en
las ubicaciones de muestreo de los pozos. Para aplicar la transformación de manera ubicua, los
datos blandos deben estar ubicados en todas partes. Los datos duros deben existir en las ubicaciones
de los pozos muestreados y están destinados a la estimación en toda la cuadrícula, guiados por los
datos blandos. Aquí, los grupos de PCA son los datos blandos y los valores PHIE son los datos duros.
La transformación de la nube es un derivado de la metodología de estimación de propiedades

de simulación gaussiana secuencial (SGS) comúnmente utilizada y es capaz de generar múltiples
estimaciones únicas de valores de propiedad. Todos estos volúmenes estimados obedecen al modelo
geoestadístico espacial impuesto (estructura de variograma) y respetan los datos duros.
SGS crea una estimación de la propiedad mediante los siguientes cinco pasos, como se muestra
en la Figura 3.27:
Paso 1. Se determina una ruta de viaje aleatoria para pasar a través de las celdas despobladas
de la cuadrícula. Una vez establecida, la primera celda se puede llenar.
Paso 2. Calcule la solución de kriging local restringida por los valores de PHIE y complete la
primera celda de la ruta.
Paso 3. Se realiza una selección aleatoria de la población gaussiana univariante limitada por la
media y la varianza para esa ubicación del paso 2.
Paso 4. El valor seleccionado en el paso 3 se publica en la primera ubicación de la cuadrícula y

se convierte en miembro de los datos duros.
Paso 5. Luego, el algoritmo avanza a la siguiente ubicación de ruta aleatoria, repitiendo los
pasos 1 a 4 hasta que se llena toda la cuadrícula.
Debe señalarse que dado que los puntos previamente simulados influyen en los valores
simulados posteriormente, cada elección de ruta aleatoria generará esencialmente una realización
de la propiedad claramente única, pero igualmente válida.
Figura 3.27 Flujo de trabajo de simulación gaussiana secuencial

Sinopsis
Las anomalías de amplitud asociadas tanto con el gas libre como con el petróleo ligero en las secciones de
arenisca se pueden observar dentro de los datos. Estos efectos se muestran como valores de gran amplitud
en el lado derecho de las amplitudes en los contactos. La presencia de efectos de amplitud relacionados con
los hidrocarburos presenta un problema para el análisis de atributos convencional, ya que el PHIE
generalmente varía independientemente de la saturación de hidrocarburos. Una caracterización de PHIE que
se ve afectada por la saturación de hidrocarburos suele ser poco fiable. Nuestros resultados que utilizan
grupos de PCA parecen no verse afectados en gran medida por estas anomalías de hidrocarburos gracias al
método de calibración que se utiliza.
Análisis de espectro singular
El análisis de espectro singular (SSA) es un enfoque relativamente nuevo para modelar datos de series
temporales. El método SSA de análisis de series de tiempo aplica técnicas no paramétricas para descomponer
series de tiempo en componentes principales. SSA es particularmente valioso para series de tiempo largas,
para las cuales los patrones (como tendencias y ciclos) son difíciles de visualizar y analizar.
Los datos de series de tiempo a menudo contienen tendencias, ciclos, anomalías y otros componentes.
Para series temporales largas, estos patrones suelen ser difíciles de visualizar y descubrir. El análisis de
espectro singular (SSA) aplica técnicas no paramétricas que adaptan el análisis de componentes principales
(PCA) comúnmente utilizado para descomponer datos de series temporales. Estos componentes pueden
ayudar al analista a descubrir y comprender los diversos patrones contenidos en la serie temporal. Una vez
que el analista entiende estos componentes, cada serie de componentes se puede modelar y pronosticar por
separado; luego, los pronósticos de las series componentes pueden agregarse para pronosticar la serie
original bajo investigación.
Para ilustrar el uso de SSA en geofísica, los datos sísmicos 3D adquiridos de un

ambiente marino se analizan para descubrir patrones significativos.
Análisis básico de series de tiempo
Los datos de la serie temporal sísmica posterior a la acumulación son representativos de una línea cruzada
con 390 trazas tomadas en un período de muestra de 4 milisegundos durante 4 segundos.
Análisis de espectro singular
A continuación, se aplica un análisis de espectro singular utilizando un valor de umbral para el espectro propio.
La serie de tiempo se analiza utilizando el procedimiento TIMESERIES de la siguiente manera:
proc timeseries data=noaa out=_NULL_ plot = (ciclos de serie SSA);

SSA / LONGITUD=120 UMBRAL=80;
intervalo de rastreo de id=ms;
amplitud var;
correr;
La opción LENGTH=120 de la declaración de SSA especifica una longitud de ventana de 120

(diez años), y la opción THRESHOLD=80 especifica un valor de umbral de espectro propio del 80 por
ciento. Incluyendo SSA como uno de los valores en PLOT=
La opción solicita que se trace el análisis SSA.
La figura 3.28 ilustra el diagrama de espectro propio. El primer gráfico ilustra el espectro propio,
y el segundo gráfico ilustra el porcentaje acumulativo del espectro propio en el eje Y, y el eje X
representa los retrasos de la ventana.
Como puede ver en este gráfico, el espectro propio disminuye rápidamente después del cuarto
retraso. Una inspección minuciosa revela que hay dos pasos de igual valor en la gráfica del espectro
propio: (1 2) (3 4).
A continuación, se aplica el análisis de espectro singular utilizando la agrupación del espectro
propio. La serie de tiempo se analiza utilizando el procedimiento TIMESERIES de la siguiente manera:
PROC timeseries data=noaa out=_NULL_ plot = (series ciclos SSA)
OUTSSA=SSA;
ssa / longitud=120 GRUPO = (1 2)(3 4);
amplitud var;
correr;
La instrucción SSA GROUP = (1 2) (3 4) especifica que la serie se descomponga en dos grupos

espectrales. El primer grupo contiene el primer retraso y el segundo retraso; el segundo grupo
contiene los rezagos tercero y cuarto. Dado que se solicitan dos grupos espectrales, el conjunto de
datos contiene dos variables (GROUP1 y GROUP2).
Valores singulares SSA para muestra
10
0.1
100
80
60
40
20
0
2 4 6 8 10 12
Índice de ventana
Figura 3.28 Valor único y espectro propio de porcentaje acumulativo

Como puede ver en la gráfica, el primer grupo representa el ciclo de corto plazo
dominante en la serie de anomalías de amplitud. A partir de este gráfico, parece que la
variación de amplitud es pequeña para la ventana de tiempo de 2400 milisegundos a
3000 milisegundos.
La Figura 3.29 ilustra el primer y segundo grupo. En el primer gráfico, la línea negra
representa la serie original y la línea azul representa el primer grupo. En el segundo
gráfico, la línea azul representa el segundo grupo.
La Figura 3.30 ilustra el primer grupo. En el primer gráfico, la línea negra representa
la serie original y la línea azul representa el primer grupo. En el segundo gráfico, la línea
azul representa el primer grupo.
Figura 3.29 Resultados del análisis de espectro singular
Figura 3.30 Primer y Segundo Grupo Espectral de la Anomalía de Amplitud

Como puede ver en la Figura 3.30, el segundo grupo representa el ciclo de mediano plazo
dominante en la serie de anomalías de amplitud. A partir de este gráfico, parece que la variación de
amplitud es muy grande para la ventana de tiempo de 1600 ms a 2400 ms.
La Figura 3.31 muestra el periodograma y la densidad espectral de las 390 trazas.
El análisis anterior descompuso la serie de tiempo en componentes aditivos. Los componentes
multiplicativos se pueden lograr tomando la transformación logarítmica de la serie temporal (de valor
positivo).
Análisis del modelo de componentes no observados
Ahora que la serie de tiempo se ha descompuesto efectivamente en grupos espectrales, la primera

agrupación espectral se analiza utilizando un modelo de tendencia básico (modelo de espacio de
estado) mediante el procedimiento del modelo de componentes no observados (UCM):
proc datos ucm=SSA;
modelo GRUPO1;
NIVEL;
PARCELA DE PENDIENTE=SUAVE;
correr;
La opción DATA= de la instrucción PROC UCM especifica el conjunto de datos de entrada. La

declaración de ID especifica que la variable de ID de tiempo es TRACE y el intervalo de tiempo es
milisegundos. La instrucción MODEL especifica que la variable bajo análisis es GROUP1 (el primer
grupo espectral). La instrucción LEVEL especifica que se incluya un componente de nivel variable en
el tiempo en el modelo de espacio de estado, y
Figura 3.31 Periodograma y Densidad Espectral de las Trazas Sísmicas

la instrucción SLOPE especifica que se incluya un componente de pendiente variable en el tiempo en el

modelo de espacio de estado. La figura 3.32 ilustra el componente de la pendiente a lo largo del tiempo.
Las Figuras 3.32 y 3.33 ilustran la distribución del componente de pendiente.
Los resultados de este análisis (no mostrado) indican que el componente de pendiente filtrada media/
mediana es de 0,00081 grados por milisegundo (alrededor de 1 grado por 1,25 segundos) con una
desviación estándar de 0,00125 por milisegundo y que el final
Figura 3.32 Componente de pendiente de la anomalía de amplitud
Distribución de F_SLOPE
12
10
0
–0.0023 –0,0017 –0,0011 –0,0005 0,0002 0,0009 0,0014 0,0020 0,0026 0,0032
Valores de pronóstico de pendiente
Figura 3.33 Distribución de componentes de pendiente

el componente de pendiente filtrado es (-0,0031) grados por milisegundo (alrededor de -3 grados por
segundo).
Se pueden aplicar otros análisis a cada uno de los grupos espectrales: análisis en el dominio del
tiempo, análisis en el dominio de la frecuencia, análisis de componentes, análisis de distribución,
pronósticos y otros.
El análisis de espectro singular (SSA) es una herramienta muy poderosa para detectar patrones
en series de tiempo largas con pocas suposiciones del modelo. SSA descompone efectivamente las
series de tiempo en agrupaciones espectrales. Estas agrupaciones espectrales se pueden analizar
individualmente utilizando técnicas de análisis de series temporales, como la previsión y el análisis de
componentes de espacio de estado.
Análisis sísmico no supervisado
Estimar las propiedades del yacimiento lejos del control de pozo localizado es una tarea peligrosa e
invariablemente ardua. Sin embargo, la adopción de un flujo de trabajo que se basa en atributos
sísmicos derivados que se analizan a través de algoritmos de reconocimiento de patrones permite que
una metodología basada en datos complemente la interpretación determinista tradicional de los
geofísicos.
Debido a la escasez de conocimientos geológicos, a menudo nos encontramos andando a tientas
en la oscuridad, ya que dependemos en gran medida de suposiciones empíricas para determinar los
cambios de facies y las asociaciones de atributos sísmicos con nuestros objetivos.
Propongamos dos metodologías basadas en técnicas de computación blanda. Los mapas de
autoorganización de Kohonen (SOM) permiten a los geofísicos crear mapas de facies, y las
transformaciones wavelet ayudan en la identificación de singularidades de trazas sísmicas.
Sabemos que las variaciones en la litología y los fluidos dan como resultado cambios en la
amplitud, la fase y la frecuencia instantáneas, la coherencia lateral y otros atributos sísmicos. Por lo
tanto, los atributos sísmicos juegan un papel auxiliar en la construcción de modelos de yacimientos. Es
factible detectar cambios laterales en el yacimiento a través de flujos de trabajo analíticos de atributos
sísmicos, con una calibración posterior con información del pozo y la experiencia obtenida de los
intérpretes geofísicos.
La implementación de datos sísmicos y técnicas de reconocimiento de patrones ha sido posicionada
por varias publicaciones científicas.9
La segmentación temporal y espacial del yacimiento está plagada de incertidumbres inherentes.
La estratigrafía sísmica permite a los geofísicos identificar y evaluar las facies sísmicas frente a la
heterogeneidad geológica.10 El análisis se lleva a cabo mediante el estudio de las trazas sísmicas para
mostrar las características de una ventana o grupo de reflexiones sísmicas compuestas de amplitudes,
fases, frecuencias, continuidad y configuración de dichos reflejos. ¿Podemos predecir bajo incertidumbre
la estratigrafía y el ambiente depositacional?
Iniciemos un estudio de facies sísmicas siguiendo el flujo de trabajo representado en

Figura 3.34. Este flujo de trabajo implementa la técnica de computación suave SOM.
El SOM está estrechamente relacionado con los métodos de cuantificación de vectores. Se supone
a priori que las variables de entrada (es decir, los atributos sísmicos) pueden representarse por
Figura 3.34 Flujo de trabajo de facies sísmicas
vectores en el espacio Rn, x = [x1 , x2, . . ., xn ]. La intención es organizar el conjunto de datos

de entrada que consta de atributos sísmicos en una estructura geométrica conocida como
SOM. Cada unidad SOM, definida como prototipo vectorial, está conectada con sus vecinos,
que en 2D suelen formar mapas estructurales hexagonales o rectangulares.
Estimemos el número de facies sísmicas a través de la visualización SOM. Inicialmente,
seleccionamos un número para los vectores prototipo de SOM que es mayor que el número de
grupos anticipados en los datos. Aunque solo se genera información cualitativa, al utilizar
conceptos de geomorfología, este procedimiento puede ser una herramienta de interpretación
bastante poderosa. Para obtener un agrupamiento más cuantitativo de las propiedades de los
datos, los grupos SOM podrían visualizarse utilizando la matriz U y elegirse manualmente.
El agrupamiento de SOM aglomerativo o partitivo o la segmentación de matriz U mediante
algoritmos de procesamiento de imágenes proporciona un medio automatizado de agrupamiento.
Se emplea como algoritmo una metodología de agrupamiento conocida como K-means
partitive . A diferencia de los medios K tradicionales, clasifica los vectores prototipo en lugar
de los datos originales. Por lo tanto, los conjuntos de datos muy grandes formados por los
vectores prototipo SOM se pueden agrupar indirectamente. Este enfoque no solo proporciona
una mejor comprensión de las formaciones de los grupos, sino que también es
computacionalmente más dinámico. Un beneficio adicional inherente a esta metodología es la
supresión de ruido debido a los vectores prototipo que representan promedios locales de los
datos originales sin pérdida de resolución. Un algoritmo de agrupamiento óptimo debería
minimizar la distancia entre los elementos de cada grupo y, al mismo tiempo, maximizar la
distancia entre los diferentes agrupamientos.
El modelo utilizado como entrada para generar el conjunto de datos sintético convolucional
se ilustra en la Figura 3.35. El yacimiento está representado por tres facies sísmicas diferentes
caracterizadas por sus velocidades de propagación de ondas P de 3240 m/s (metros por
segundo), 3300 m/sy 3375 m/s.
El estudio utilizó las amplitudes sísmicas dentro de una ventana de 30 muestras alrededor
de la base del yacimiento. Las amplitudes de trazas sísmicas contiguas adoptadas como
atributos de entrada equivalen a una clasificación de forma de onda en la zona de interés.
Los resultados del análisis se muestran en la Figura 3.36. Se pueden ver la matriz U, el
DBI y el mapa de facies resultante, respectivamente. En este ejemplo, tres grupos
Figura 3.35 Modelo de velocidad geológica y respuesta sísmica
Figura 3.36 Resultados del Análisis Implementando la Metodología Propuesta

o las facies se identifican fácilmente a partir de la matriz U, y el resultado de la clasificación fue

excelente. Sin embargo, el DBI mínimo de 4 no se correspondía con el número de facies
existentes. Por tanto, la elección del número de facies debería, siempre que sea posible,
hacerse de forma semiautomática; en otras palabras, la estimación del número de facies debe
confirmarse mediante la visualización de la matriz U.
Tal resultado está relacionado con el atributo sísmico elegido, que se sabe que
ser sensible a los desplazamientos de tiempo.11 Por lo tanto, la elección de los atributos
sísmicos para la clasificación de los patrones sísmicos es fundamental para obtener resultados
coherentes.12
NOTAS
1. Norman S. Neidell, "Modelado estratigráfico e interpretación", Departamento de AAPG de

Educación, 1979.
2. MT Taner, F. Koehler y RE Sheriff, "Análisis de trazas sísmicas complejas", Geofísica 44
(1979): 1196–1212.
3. T. Smith, "Datos sísmicos: ¿Es hora de reconsiderar las redes neuronales?" Digital Energy Journal 45 (Nov./
diciembre de 2013): 8–9.
4. J. Lin, E. Keogh, S. Lonardi, JP Lankford y DM Nystrom, "Visually Mining and Monitoring Massive Time
Series", en Actas de la Décima Conferencia Internacional ACM SIGKDD sobre Descubrimiento de
Conocimiento y Minería de Datos, Seattle, WA , 22–25 de agosto de 2004, KDD '04, Nueva York, ACM
Press, págs. 460–469.
5. Véase N. Jardine y R. Sibson, Mathematical Taxonomy, Londres, Wiley, 1971; L. Fisher y JW Van Ness,
"Procedimientos de agrupación admisibles", Biometrika 58 (1971): 91–104; y J. Hartigan, Clustering
Algorithms (Nueva York: John Wiley & Sons, 1975).
6. Véase GW Milligan, “An Examination of the Effect of Six Types of Error Perturbation on Fifteen
Algoritmos de agrupamiento”, Psychometika 45 (1980): 325–342.
7. L. Cosentino, Integrated Reservoir Studies (París: Editions Technip, 2001).
8. V. Lendzionowski, A. Walden y R. White, “Mapeo de caracteres sísmicos sobre depósitos
Intervalos”, Prospección Geofísica 38 (1990): 951.
9. J. Dumay y F. Fournier, "Análisis estadísticos multivariantes aplicados al reconocimiento de facies sísmicas",
Geofísica 53, no. 9 (1988): 1151-1159; F. Fournier y J. Derain, "Una metodología estadística para derivar
propiedades de yacimientos a partir de datos sísmicos", Geofísica 60, no. 5 (1995): 1437; y MM Saggaf, MN
Toksöz y MI Marhoon, "Clasificación e identificación de facies sísmicas mediante redes neuronales
competitivas", Geofísica 68 (2003): 1984–1999.
10. J. Dumay y F. Fournier, “Análisis estadísticos multivariantes aplicados a las facies sísmicas
Reconocimiento”, Geofísica 63, no. 9 (1988): 1151–1159.
11. EC Rankey y JC Mitchell, "Por eso se llama interpretación: el papel de la incertidumbre del horizonte en el
análisis de atributos sísmicos", The Leading Edge (2003): 820–828.
12. M. Poupon, T. Coléou y K. Azbel, "Clasificación de facies sísmicas no supervisadas: revisión y comparación
de técnicas e implementación", The Leading Edge (2003), 22: 942–953.
CAPÍTULO
4
Reservorio
Caracterización y
Simulación
Simplicidad es la máxima sofisticación.

leonardo da vinci
se define cara cuerpo de roca, incorporando todas las características distintivas

L a caracterización de yacimientos
que son pertinentes es el proceso
a la capacidad mediante el para
del yacimiento cual un modelo de
acumular un subsuelo
hidrocarburos.
Una de las funciones críticas en la gestión de yacimientos tradicional es la caracterización
de yacimientos, ya que permite a los ingenieros de aguas arriba tomar decisiones acertadas
con respecto a la explotación del petróleo y el gas almacenados en estos activos. Los
modelos se esfuerzan por explicar a través de la simulación el comportamiento de los fluidos
a medida que fluyen a través del yacimiento bajo un conjunto variable de circunstancias naturales.
El objetivo final es establecer un conjunto de estrategias óptimas para maximizar
la producción del oro negro.
A lo largo de la cadena de valor de exploración y producción (E&P), el alcance
del éxito en las estrategias de perforación, terminación y producción depende de la
precisión cuantificable de la caracterización del yacimiento. Un número cada vez mayor
de artículos técnicos de la Sociedad de Ingenieros del Petróleo (Figura 4.1) están
posicionando modelos basados en datos, análisis y la gama de técnicas de computación
suave (redes neuronales, lógica difusa y algoritmos genéticos) como procesos
demostrables para mejorar los modelos de yacimientos.
107
Aceleración del crecimiento de los artículos de la SPE Análisis de referencia

20
15
10
0
1965 1970 1975 1980 1985 1990 1995 2000 2005 2010 2015
–5
Año
Figura 4.1 Absorción acelerada de documentos técnicos de computación blanda
A menudo, los datos de pozos son deficientes en cantidad regular y los datos sísmicos exhiben
una resolución deficiente debido a reservorios fracturados, intrusiones de basalto y domos de sal.
El petróleo fácil es cosa del pasado y nos vemos obligados a explorar fronteras inexploradas,
como entornos de aguas profundas y yacimientos no convencionales que albergan gas de
arenas compactas y lutitas petrolíferas. Durante las fases de exploración, desarrollo y producción
de dichos recursos, es evidente que las estrategias comerciales se vuelven más problemáticas
y que quizás el enfoque tradicional que implica un estudio determinista necesita una metodología
complementaria. La cadena de valor de E&P (Figura 4.2) abre múltiples oportunidades para
obtener conocimiento de conjuntos de datos dispares al promover un conjunto de flujos de
trabajo basados en datos basados en modelos analíticos avanzados y al establecer modelos de
yacimientos más sólidos. Por lo tanto, es vital adoptar una postura híbrida que combine la
interpretación y las metodologías informáticas blandas para abordar problemas comerciales
como la cuantificación de la precisión de los modelos de yacimientos y la mejora del rendimiento
de la producción, así como la maximización de la ubicación de los pozos inyectores y de
producción.
La industria del petróleo y el gas dedica una gran cantidad de recursos y gastos al dominio
upstream de E&P. Cuando pensamos en el ciclo de vida de un activo, como un pozo o un
yacimiento, hay una decisión comercial que debe tomarse durante cada fase. Esa decisión debe
tener valor comercial.
Podría estar ingresando a un nuevo campo y explorando para generar prospectos, esforzándose
por obtener información de la sísmica y ubicar pozos exploratorios en yacimientos cada vez más
complejos. Necesitas tasar el comercial
CARACTERÍSTICAS DEL RESERVORIO z ación y S imu laciónâ•‡ ÿ 109
Exploración Evaluación Desarrollo Producción Mejora
Primario
prospecto Reservorio Perforación y Producción Mejorado
Generación Delineación Terminación Mantenimiento y Recuperación
HSE
Figura 4.2 Cadenas de valor de exploración y producción
cantidades de hidrocarburos y mitigar los riesgos mientras se perforan pozos de delineación para
determinar el tipo, la forma y el tamaño del yacimiento y las estrategias para un desarrollo óptimo.
Durante la etapa de desarrollo, se implementa un programa de perforación con estrategias

de terminación optimizadas a medida que se ubican pozos adicionales para la etapa de producción.
Las instalaciones de superficie están diseñadas para la explotación eficiente de petróleo y gas.
¿Tenemos que considerar la producción de agua? ¿Qué producciones líquidas acumuladas
anticipamos? Estas son algunas de las preguntas que debemos responder a medida que
diseñamos esas instalaciones de superficie.
La fase de producción requiere una explotación eficiente de los hidrocarburos. Tenemos que
considerar los compromisos de salud, seguridad y medio ambiente (HSE) y los programas de
mantenimiento. ¿Se maximiza la producción de hidrocarburos para cada pozo? ¿Qué tan
confiables son los pronósticos a corto y largo plazo?
Mantener una producción de campo óptima requiere decisiones comerciales que determinen
si un activo es económicamente viable. ¿Cómo identificamos los pozos que son candidatos ideales
para el levantamiento artificial? ¿Cuándo y cómo estimulamos bien a un candidato?
Debemos ser conscientes de los tres principales desafíos en la cadena de valor de E&P:
1. Integración y gestión de datos
2. Cuantificación de la incertidumbre en un sistema de subsuelo multivariante

3. Evaluación de riesgos
Estos tres principios se han abordado recientemente al enfocar una enorme cantidad de
esfuerzo para descubrir metodologías innovadoras que puedan remediar los problemas inherentes
a los ejercicios tradicionales de construcción de modelos deterministas. la exploración y producción
los problemas se están convirtiendo en restricciones complejas e indeterminables sobre el descubrimiento,

la explotación y el rendimiento efectivos de los activos. Existe una necesidad creciente de una integración de
datos eficiente en todas las disciplinas ascendentes a medida que nos esforzamos por convertir los datos sin
procesar en conocimiento procesable mediante la cuantificación de la incertidumbre y la evaluación desde
una perspectiva probabilística de un conjunto de estrategias que mitigan el riesgo.
Las técnicas informáticas blandas que implican el análisis descriptivo y predictivo y la adopción de
análisis basados en datos para extraer volúmenes cada vez mayores de datos dispares nos obligan a pasar
de una gestión reactiva a una proactiva de los activos de petróleo y gas. El grado de comprensión pasa de
los datos sin procesar a través de la información y la perspicacia al conocimiento procesable.
La metodología analítica siempre debe comenzar con un paso de análisis exploratorio de datos (EDA)
que revela tendencias y relaciones ocultas en el sistema complejo multivariante que es un yacimiento de
hidrocarburos. No modele datos sin procesar; determine un conjunto de hipótesis que valga la pena modelar
a través de una exploración de su activo clave: los datos.
Concentrémonos en las técnicas informáticas blandas a nuestra disposición para comprender cómo se
puede mejorar la caracterización de yacimientos a medida que nos esforzamos por
cuantificar la incertidumbre en las propiedades de la roca. En última instancia, debemos mitigar los riesgos
asociados con las tácticas y estrategias de ingeniería de campo que se desarrollan a partir de un ciclo
comprimido de toma de decisiones. Podemos acelerar este proceso mediante metodologías basadas en
datos que emplean análisis avanzados.
A medida que un campo madura con el tiempo y el rendimiento de la producción disminuye debido a
los cambios naturales de presión en el yacimiento, corresponde un paso de reevaluación que estudie
nuevamente el ciclo de vida de los hidrocarburos a través de un cuerpo dinámico que es el yacimiento. La
caracterización de reservorios calibrada por comparación histórica ofrece un modelo geológico más sustancial
para respaldar ese paso de reevaluación.
La caracterización de yacimientos de una zona contaminada que ha estado produciendo durante
décadas requiere el análisis de conjuntos de datos invariablemente muy grandes agregados a partir de
registros de pozos, historial de producción y resultados de análisis de núcleos mejorados por mapeo de alta
resolución de atributos sísmicos a propiedades de yacimientos. Es imperativo sacar a la superficie las
relaciones más sutiles inherentes a estos conjuntos de datos, comprender la estructura de los datos e
identificar las correlaciones en un sistema multivariado complejo.
Para cuantificar con precisión la incertidumbre en las variables del subsuelo es necesario apreciar la
heterogeneidad de un sistema complejo como un reservorio de hidrocarburos. ¿Cuál es la mejor manera de
lograr este objetivo? Necesitamos alejarnos del modelo determinista tradicional singular de datos que son
invariablemente crudos con poco o ningún control de calidad. Entre el 50 y el 70 por ciento del tiempo
atribuido a un estudio de caracterización de yacimientos debe invertirse en una metodología analítica que
comience con un conjunto de flujos de trabajo de gestión de datos. Luego, diseña un proceso iterativo que
implementa una exploración de datos para descubrir patrones ocultos y comprender las correlaciones,
tendencias y relaciones entre esas variables.
tanto operativos como no operativos, que tienen la mayor influencia estadística en una función
objetivo.
ANÁLISIS EXPLORATORIO DE DATOS
EDA abarca un enfoque iterativo y mejora el proceso hacia la integración, la agregación y la

gestión de datos coherentes. La EDA se logra mediante la adopción de un conjunto de técnicas
de visualización desde una perspectiva univariante, bivariante y multivariante.
Enumeremos algunas de las técnicas de visualización comunes y construyamos una

secuencia lógica que sustente la metodología para proyectos de caracterización de yacimientos
eficientes durante las etapas de exploración, desarrollo y producción en la cadena de valor de
E&P. Es importante enfatizar el impacto positivo detrás de la escuela de pensamiento EDA
que a menudo se olvida o incluso se excluye antes de cualquier análisis espacial tradicional,
como kriging, simulación y pasos de cuantificación de incertidumbre. La Figura 4.3 refleja un
diagrama de flujo que generalmente involucra la metodología EDA.
Es imperativo reducir la dimensionalidad de un problema de ingeniería ya que los sistemas

complejos invariablemente consisten en un conjunto multivariado de variables independientes
y dependientes. ¿Qué parámetros son estadísticamente más sensibles y, por lo tanto, más
dominantes o relevantes frente a una función objetivo que puede identificarse como una o más
variables dependientes? Podemos abordar la dimensionalidad
Datos exploratorios
analisis implementando
procesamiento de datos
Análisis de incertidumbre
Continuidad espacial
análisis y modelado—
el variograma
Diseño de elipse de búsqueda

y validación cruzada
de modelos
Simulación condicional
Kriging: una geoestadística

técnica de interpolación
Figura 4.3 Ciclo de caracterización de yacimientos

y, en consecuencia, formular modelos más realistas mediante la adopción de un conjunto de flujos de trabajo
analíticos que implementan técnicas como análisis de factores y componentes principales.
EDA1 es una filosofía para el análisis de datos que emplea una variedad de técnicas (principalmente gráficas)
para lograr lo siguiente:
ÿ Maximice la percepción de un conjunto de datos.
ÿ Descubrir la estructura subyacente.
ÿ Extraer variables importantes.
ÿ Detectar valores atípicos y anomalías.
ÿ Probar los supuestos subyacentes.
ÿ Desarrollar modelos parsimoniosos.
ÿ Determinar la configuración óptima de los factores.
El objetivo principal de cualquier estudio EDA es maximizar la comprensión de un conjunto de datos.
Insight connota determinar y revelar la estructura subyacente en los datos.
La percepción significativa y concreta de un conjunto de datos surge a medida que el analista examina y explora
adecuadamente los diversos matices de los datos. Cualquier apreciación de los datos se deriva casi exclusivamente
del uso de varias técnicas gráficas que producen la esencia de los datos. Por lo tanto, los gráficos bien elegidos no
solo son insustituibles, sino que también están en el centro de todas las determinaciones perspicaces, ya que no
se adoptan análogos cuantitativos en un enfoque más clásico. Es esencial aprovechar su propio reconocimiento
de patrones y habilidades correlativas mientras estudia las representaciones gráficas de los datos en estudio, y
alejarse de las técnicas cuantitativas que son de naturaleza clásica. Sin embargo, la EDA y las escuelas de
pensamiento clásicas no se excluyen mutuamente y, por lo tanto, pueden complementarse durante un proyecto de
caracterización de yacimientos.
En un EDA, la recopilación de datos de flujo de trabajo no va seguida de una imposición de modelo; más
bien es seguido inmediatamente por el análisis y el objetivo de inferir qué modelo sería apropiado. La atención se
centra en los datos, su estructura, los valores atípicos y los modelos sugeridos por los datos y, por lo tanto, en las
hipótesis que vale la pena seguir. Estas técnicas son generalmente gráficas. Incluyen diagramas de dispersión,
diagramas de caracteres, diagramas de caja, histogramas, diagramas de probabilidad, diagramas de residuos y
diagramas de medias. Las técnicas EDA no comparten la exactitud o formalidad que se observa en las técnicas
clásicas de estimación que tienden a modelar los datos antes del análisis. Las técnicas EDA compensan cualquier
falta de rigor al adoptar una perspectiva muy significativa, característica y perspicaz sobre cuál debería ser el
modelo aplicable. Hay dos protocolos que se imponen a los datos del yacimiento y están dirigidos por modelos:
modelado determinista, como modelos de regresión y modelos de análisis de varianza (ANOVA), y modelos
probabilísticos que tienden a suponer que los errores inherentes a los modelos deterministas se distribuyen
normalmente. . Tal enfoque clásico, de naturaleza cuantitativa, contrasta con el EDA

metodología que no impone modelos deterministas o probabilísticos sobre los datos, prefiriendo que los
datos sugieran modelos aceptables que revelen un ajuste óptimo a esos datos.
Por lo tanto, las técnicas EDA son instintivas y se basan en interpretaciones que pueden variar en
un amplio espectro de análisis individuales, aunque los analistas experimentados invariablemente llegan
a conclusiones idénticas. En lugar de adoptar un proceso de filtrado clásico que tiende a centrarse solo
en unas pocas características importantes dentro de una población mediante la determinación de
estimaciones, EDA explota todos los datos disponibles para garantizar que las características inherentes
de los datos, como la asimetría, la curtosis y la relación de autocor, no se pierdan. población. Además,
a diferencia de cualquier suposición intrínseca como la normalidad que se hace en un enfoque clásico,
las técnicas EDA hacen pocas o ninguna conjetura sobre los datos aguas arriba, en lugar de mostrar
todos los datos. EDA se esfuerza por perseguir como objetivo cualquier conocimiento sobre el proceso
de ingeniería o científico detrás de los datos. Mientras que las estadísticas de resumen, como la
desviación estándar y la media, son pasivas e históricas, la EDA es activa y futurista. Para comprender
el proceso y mejorarlo en el futuro, EDA implementa los datos como una apertura para profundizar en
el núcleo del proceso que entregó los datos.
El análisis exploratorio de datos se utiliza para identificar relaciones sistemáticas entre variables
cuando no hay (o están incompletas) expectativas a priori en cuanto a la naturaleza de esas relaciones.
En un proceso típico de análisis exploratorio de datos, se tienen en cuenta y comparan muchas
variables, utilizando una variedad de técnicas en la búsqueda de patrones sistemáticos.
Los métodos exploratorios estadísticos básicos incluyen el examen de distribuciones de variables

(p. ej., para identificar patrones altamente sesgados o no normales, como patrones bimodales), la
revisión de matrices de correlación grandes para coeficientes que cumplan con ciertos umbrales o el
estudio de tablas de frecuencia de múltiples vías (p. ej., “rebanada por rebanada”, revisando
sistemáticamente combinaciones de niveles de variables de control). Las técnicas exploratorias
multivariadas diseñadas específicamente para identificar patrones en conjuntos de datos multivariados
(o univariados, como secuencias de mediciones) incluyen:
ÿ Análisis de conglomerados
ÿ Análisis factorial
ÿ Análisis de función discriminante
ÿ Escalado multidimensional
ÿ Análisis log-lineal
ÿ Correlación canónica
ÿ Regresión lineal y no lineal paso a paso
ÿ Análisis de correspondencia
ÿ Análisis de series temporales
ÿ Árboles de clasificación
CICLO DE CARACTERIZACIÓN DE RESERVORIOS
Es esencial analizar la plétora de datos en todos los dominios aguas arriba, integrando datos
limpios de los campos de geofísica, geología e ingeniería de yacimientos. El esfuerzo dedicado a
esta tarea es crítico para el éxito final del análisis de incertidumbre, y es apropiado adoptar flujos
de trabajo para optimizar el EDA requerido. La recopilación de muchos tipos diferentes de datos
en todos los dominios y aplicaciones geocientíficos puede estar contenida en un marco analítico.
EDA en sí se puede dividir en cuatro pasos de componentes discretos:
Paso 1. Análisis univariante
Paso 2. Análisis multivariante
Paso 3. Transformación de datos
Paso 4. Discretización
El análisis univariante perfila los datos y detalla los descriptores tradicionales, como la media,
la mediana, la moda y la desviación estándar. El análisis multivariado examina las relaciones
entre dos o más variables, implementando algoritmos como regresión lineal o múltiple, coeficiente
de correlación, análisis de conglomerados y análisis discriminante. La metodología de
transformación de datos abarca la conveniencia de colocar los datos temporalmente en un
formato aplicable a tipos particulares de análisis; por ejemplo, la permeabilidad a menudo se
transfiere al espacio logarítmico para respetar su relación con la porosidad.
La discretización abarca el proceso de engrosar o bloquear datos en capas consistentes dentro

de un marco estratigráfico secuencial. Por lo tanto, los datos de registros de pozos o las
propiedades del núcleo se pueden volver a muestrear en este espacio.
ANÁLISIS TRADICIONAL DE DATOS
EDA es un enfoque de análisis de datos. ¿Qué otros enfoques de análisis de datos existen y en
qué se diferencia EDA de estos otros enfoques?
Tres enfoques populares de análisis de datos son:
1. Clásico
2. Exploratorio (EDA)
3. bayesiano
Estos tres enfoques son similares en el sentido de que todos comienzan con un problema general
de ciencia e ingeniería y todos producen conclusiones de ciencia e ingeniería. La diferencia está
en la secuencia y el enfoque de los pasos intermedios.
Para el análisis clásico la secuencia es:
Problema Datos Modelo Análisis Conclusiones
Para EDA la secuencia es:
Problema Datos Análisis Modelo Conclusiones
Para bayesiano la sucesión es:
Previo
Problema Datos Modelo Análisis Conclusiones
Distribución
Por lo tanto, para el análisis clásico, la recopilación de datos va seguida de la imposición

de un modelo (normalidad, linealidad, etc.) y el análisis, la estimación y las pruebas que siguen
se centran en los parámetros de ese modelo. Para EDA, la recopilación de datos no va seguida
de una imposición de modelo; más bien es seguido inmediatamente por un análisis con el
objetivo de inferir qué modelo sería apropiado.
Finalmente, para un análisis bayesiano, el analista intenta incorporar conocimientos y
experiencia científicos y de ingeniería en el análisis al imponer una distribución independiente
de datos en los parámetros del modelo seleccionado; por lo tanto, el análisis consiste en
combinar formalmente tanto la distribución previa de los parámetros como los datos recopilados
para hacer inferencias y/o probar supuestos sobre los parámetros del modelo en forma conjunta.
El propósito de EDA es generar hipótesis o pistas que nos guíen en la mejora de la calidad
o el desempeño del proceso. El análisis exploratorio está diseñado para descubrir “lo que nos
dicen los datos”. Su intención básica es buscar relaciones y estructuras interesantes en un
cuerpo de datos y exhibir los resultados de tal manera que sean reconocibles. Este proceso
implica resúmenes, quizás en forma de algunas estadísticas simples (p. ej., media y varianza
de un conjunto de datos) o quizás en forma de un diagrama simple (como un diagrama de
dispersión). También implica la exposición, es decir, la presentación de los datos para permitir
ver las características anticipadas e inesperadas de los datos. Descubrir lo inesperado antes
de confirmar lo sospechado para dilucidar conocimientos que conduzcan a decisiones de
desarrollo de campo.
En resumen, es importante recordar los siguientes principios que bajo

caracterización exitosa del yacimiento desde una perspectiva EDA:
ÿ EDA es un proceso iterativo que surge a partir de percepciones de prueba y error, y

estas observaciones intuitivas obtenidas de cada paso sucesivo son la plataforma para
los pasos subsiguientes.
ÿ Se debe entretener a un modelo en cada paso de EDA, pero no se le debe atribuir demasiada
responsabilidad. Mantenga una mente abierta y coquetee con el escepticismo con respecto a cualquier
posible relación entre los atributos del reservorio.
ÿ Mire los datos desde varias perspectivas. No descarte el paso EDA en el ciclo de caracterización del
yacimiento si no aparece ningún valor inmediato o aparente.
ÿ EDA generalmente abarca un conjunto de estadísticas sólidas y resistentes y
depende en gran medida de las técnicas gráficas.
MODELOS DE SIMULACIÓN DE RESERVORIOS
El hábito es el hábito y no debe ser arrojado por la ventana por

ningún hombre, sino persuadido a bajar las escaleras paso a paso.
Mark Twain
Una simulación de yacimientos es la metodología tradicional de la industria para comprender el comportamiento
de los yacimientos con miras a pronosticar el desempeño futuro. Debido a las complejidades del sistema
multivariante que es el yacimiento, una simulación de campo completo que integre mediciones tanto estáticas
como dinámicas produce un modelo plausible en manos de ingenieros expertos. Sin embargo, este enfoque de
abajo hacia arriba que comienza con un modelo geocelular que conduce a un modelo de yacimiento dinámico está
arraigado en los primeros principios y conceptos de flujo de fluidos que se resuelven numéricamente a pesar de la
variedad inherente de incertidumbres y falta de unicidad en un proceso de calibración como la comparación
histórica. .
El modelado inteligente de yacimientos de arriba hacia abajo (TDIRM), como postula Shahab Mohaghegh2
en varios artículos y comentarios de SPE, ofrece una metodología alternativa que se esfuerza por obtener
información sobre la complejidad heterogénea al iniciar flujos de trabajo con mediciones de campo reales. Este
enfoque es tanto complementario como eficiente, especialmente en escenarios con costos prohibitivos donde la
simulación tradicional de la industria exige una inversión inmensa de tiempo y recursos para generar simulaciones
de campo gigantes. En resumen, TDIRM y flujos de trabajo filosóficos similares implementan técnicas de minería
de datos e inteligencia artificial que son los temas que unen este libro a lo largo de la cadena de valor de E&P.
Una gran variedad de análisis avanzados proporciona enfoques eficientes y simples para flujos de trabajo
flexibles para abordar el análisis de datos exploratorios, el análisis de incertidumbre y la evaluación de riesgos en
proyectos típicos de caracterización de yacimientos. La adopción de una visualización de análisis reduce el tiempo
para apreciar la estructura subyacente de los datos dispares aguas arriba que son requisitos previos para elaborar
estrategias precisas de gestión de yacimientos.
Las ricas soluciones basadas en la web también permiten una distribución eficiente a la toma de decisiones.
ers de la información vital y el conocimiento extraído de las enormes cantidades de datos: registros de pozos,
datos de núcleos, datos de producción, datos sísmicos y datos de pruebas de pozos.

Flujo de trabajo de simulación analítica
Exploremos un conjunto lógico de procesos para permitir una mayor comprensión de la simulación
de yacimientos.
ÿ Dividir campos en regiones: Permitir comparaciones de desempeño de pozos.
ÿ Coincidencia histórica asistida y/ o optimizada: reducción de la incertidumbre con las

características del yacimiento.
ÿ Identificación de factores críticos de incertidumbre: durante el análisis de los datos de

producción, analice los datos para identificar y clasificar las áreas de mejora potencial de la
producción.
ÿ Análisis de ejecuciones de simulación de coincidencia de historial: Apuntando a comprender

cómo estas varias ejecuciones específicas son diferentes entre sí (o qué tienen en común).
ÿ Análisis de conglomerados: la aplicación del análisis de conglomerados con la creación de perfiles de
segmentos puede brindar una perspectiva adicional de las diferencias entre las ejecuciones de simulación
de coincidencias históricas.
ÿ Visualización interactiva de datos: el software de visualización permite visualizaciones

interactivas muy complejas debido a la capacidad de personalización con lenguaje de
secuencias de comandos patentado que mejora la eficacia analítica para obtener información
y acciones más rápidas.
ÿ Realización de beneficios: El complejo problema de la evaluación de la incertidumbre en el

pronóstico del desempeño se realiza con análisis utilizando modelos de simulación de
yacimientos con un amplio historial de producción.
ÿ Correlaciones de pozos: el acceso a datos sofisticados y los análisis automatizados de datos

de campo, como las correlaciones de pozos, ahora se pueden procesar en una cantidad de
tiempo significativamente reducida.
ÿ Análisis de la curva de declinación: En lugar de usar ciegamente todos los atributos de las
entradas para el modelado, es necesario realizar un análisis para determinar aquellos
atributos que aportan una cantidad significativa de información útil del problema.
Exploremos los primeros tres procesos.
División de campos en regiones
Aprovechando las regresiones multivariadas no lineales, los procedimientos de interpolación y

suavizado, el análisis de componentes principales, el análisis de conglomerados y el análisis de
discriminación, es factible dividir un campo en regiones discretas para tácticas y estrategias de
reingeniería de campo. La metodología clasifica los pozos de acuerdo con los indicadores de
producción y divide el campo en áreas.
Los resultados estadísticos se pueden mapear para identificar los mecanismos de producción
(p. ej., mejores productores, agotamiento, mantenimiento de la presión e identificar
y ubicar zonas mal drenadas que posiblemente contengan reservas remanentes).
La reingeniería de campo también se puede optimizar al identificar aquellos pozos donde se puede mejorar la
productividad.
La siguiente lista proporciona un breve resumen de los pasos en el proceso de clasificación de pozos:
ÿ Elaboración de datos estadísticos de producción:
ÿ Petróleo producido diariamente, porcentaje de corte de agua, gas producido diariamente.
ÿ Análisis de la curva de declinación:
ÿ Modelización de la producción diaria con regresiones no lineales.
ÿ Reducción de ruido de datos e interpolación de datos:
ÿ Implementación de métodos de suavizado que sean más aplicables a los datos disponibles. Por
ejemplo, en el caso de datos que no estén igualmente espaciados, puede utilizar la metodología de
suavizado LOWESS (mínimos cuadrados ponderados localmente). Utilice las curvas suavizadas
resultantes para interpolar puntos de datos faltantes para cortes de agua y curvas GOR.
ÿ Agrupación de pozos:
ÿ Análisis de componentes principales:
ÿ Se utiliza para crear una aproximación de baja dimensión al conjunto de datos de producción.
Esta técnica se usa a menudo antes del análisis de conglomerados.
ÿ Análisis de conglomerados:
ÿ Aplicado a conjuntos de datos condensados con menos puntajes de factores (transformación de
análisis de componentes principales de variables originales).
ÿ Análisis de clusters con diferentes métodos: perfilado de segmentos y dendrogramas.
ÿ Valuación de representación de pozos:
ÿ Puede ser útil para estudios posteriores tener solo un conjunto limitado de
pozos representativos y evitar un procesamiento intensivo.
ÿ Análisis discriminante:
ÿ Realizado para proporcionar las probabilidades de que cada pozo pertenezca al

agrupaciones obtenidas.
Coincidencia de historial asistida y/ u optimizada
El proceso de comparación histórica se lleva a cabo para reducir la incertidumbre con respecto a las
características del yacimiento. Esto se hace haciendo coincidir los resultados de la simulación con los datos
históricos observados (presiones, cortes de agua, etc.) por medio de variables variables de la matriz de
incertidumbre. La calidad de la coincidencia es una medida estadística que identifica qué tan cerca coincidió la
ejecución de la simulación con el historial (el valor cero significaría una coincidencia ideal). Es beneficioso
implementar algoritmos para semiautomatizar el

proceso de búsqueda de solución (Calidad = 0) en un espacio multidimensional definido por los rangos de
variables de la matriz de incertidumbre. Definimos tres pasos principales para este proceso:
Paso 1. Realice ejecuciones de alcance: para explorar las relaciones entre las variables de la matriz de
incertidumbre y los resultados de la simulación (variables de respuesta) y entrenar estimaciones
iniciales basadas en la información. Emplear un Estimador, también llamado proxy o modelo de
superficie de respuesta.
Paso 2. Realice las ejecuciones más informativas: intente mejorar la calidad de la coincidencia
explorando el espacio de soluciones en los lugares que son más prometedores según la información
actualmente disponible en el Estimador.
Paso 3. Realice las mejores ejecuciones de coincidencia: Optimización global por todas las variables
de la matriz de incertidumbre para ajustar el Estimador (modelo de superficie de respuesta) a los datos
de producción históricos.
Es plausible suponer que la calidad convergerá a algún valor cercano a cero, lo que no siempre es
cierto durante un proceso de comparación de historial. Mediante el análisis de ejecuciones (usando
convergencia de calidad, horquillado y otros tipos de análisis de ejecuciones) podemos determinar si las
simulaciones se movieron en la dirección incorrecta y buscaron en el lugar equivocado. En tal caso, la matriz
de incertidumbre se ajustará de acuerdo con el conocimiento de las características del yacimiento ya surgido
y el proceso de comparación histórica se reiniciará desde el principio (recorridos de alcance).
Los principales desafíos en el proceso son:
1. Identificar los factores críticos de incertidumbre: qué variables tienen mayor impacto
en la convergencia de la calidad?
2. Análisis de ejecuciones de simulación: descubrimiento de patrones y comparación de simulación

corre para revelar diferencias importantes.
3. Matriz de incertidumbre de ajuste: cómo evitar errores de juicio humano.
Exploremos una metodología de comparación de la historia funcional que establece un conjunto de

modelos que superan el nivel de calidad impuesto por los ingenieros de yacimientos.
Así tendemos a identificar aquellos modelos que tienen un valor de función objetivo bajo un valor predefinido.
Entonces, no estamos enfocados en problemas de optimización como el mínimo local, la convergencia y la
rapidez, sino más interesados en cómo se mide la calidad del modelo. Es fundamental definir la función
objetivo que mide la calidad. La comparación del historial funcional se combina invariablemente con el
análisis de incertidumbre que viene con un precio inflado cuando se aborda mediante simulaciones numéricas
tradicionales. Podemos demostrar el uso de modelos simplificados conocidos como proxies, tocando
modelos de respuesta de superficie y redes neuronales artificiales. El enfoque de coincidencia de historial
funcional se basa en el trabajo iniciado por Reis, quien propone un proceso ilustrado en la Figura 4.4.
Rango aceptable
dieciséis
14
12
10
8
Tolerancia
6
de mín. 2
0
123456 X 8 9 10 11 12
mínimo
máx.
Variable de incertidumbre
Rango factible completo

20
18
Filtrado dieciséis
Decisión 14 X
Variable 12
10
8
6
4
2 X
0
12345678 9 10 11 12
Variable de incertidumbre
Figura 4.4 Filtrado de la variable de decisión
Supongamos que se conocen todas las variables de entrada excepto una, por lo que la función
objetivo (OF) depende entonces de una sola variable de incertidumbre. Considerando todo el rango
posible de valores que podría representar la variable de incertidumbre, buscaríamos el valor mínimo
de OF y luego identificaríamos el valor “óptimo” x. En la figura 4.4, el valor x se correlaciona con el
valor y de la variable de decisión (p. ej., VPN). Sin embargo, este es el mejor modelo (valor de la
variable de incertidumbre) para la información disponible, pero este modelo no es necesariamente
cierto. En lugar de obtener el mejor modelo, se debe investigar un conjunto de modelos para análisis
posteriores. Este conjunto de modelos probabilísticos se encuentran dentro de un rango aceptable
limitado por la función objetivo y corresponden a valores de OF por encima del mínimo de acuerdo
con un umbral de tolerancia previamente establecido por los ingenieros de yacimientos.
Identificación de factores críticos de incertidumbre
Existen varias herramientas que pueden ayudar a resolver el problema de identificar los factores
críticos desde diferentes perspectivas:
ÿ Análisis de árboles de decisión: aprendizaje automatizado o supervisado.
ÿ Importancia de la variable basada en correlaciones estadísticas y otras medidas.
ÿ Las regresiones también pueden revelar interacciones entre la incertidumbre

variables
Estas técnicas se aplican a datos de producción, datos de registros de pozos y datos de núcleos.
Es importante apreciar los supuestos de estacionariedad tanto en el plano espacial como en el eje
temporal. Durante el análisis de los datos de producción, es necesario filtrar los datos para identificar
y clasificar las áreas de mejora potencial de la producción.
Un árbol de decisión representa una segmentación de los datos que se crea al aplicar una serie
de reglas simples. Cada regla asigna una ejecución de simulación a un segmento en función del valor
de una variable de entrada. Se aplica una regla tras otra, lo que da como resultado una jerarquía de
segmentos dentro de segmentos. La jerarquía se llama árbol y cada segmento se llama nodo. El
segmento original contiene todo el conjunto de datos y se denomina nodo raíz del árbol. La
implementación de una técnica de este tipo identifica aquellas propiedades del yacimiento que tienen
mayor poder predictivo y, por lo tanto, mayor influencia en un factor determinante o variable de objeto,
como OOIP o corte de agua.
Una matriz de incertidumbre puede tener cientos de variables potenciales que corresponden a la
respuesta de calidad de coincidencia histórica (mediante un modelo de simulador). Hay una serie de
enfoques estadísticos para reducir el número de variables, que pueden considerarse como
determinantes de la importancia de las variables en su poder de predecir la calidad del partido.
Desde un punto de vista estadístico, esto se puede hacer usando R-cuadrado o Chi
criterio de selección de variable cuadrada (o su combinación).
Modelos de reservorio sustituto
Los modelos proxy tradicionales, como el rango de superficies de respuesta o los modelos reducidos,
están siendo reemplazados poco a poco por modelos de reservorios sustitutos (SRM) que se basan en
las competencias de reconocimiento de patrones inherentes a una escuela de pensamiento de
inteligencia artificial y minería de datos. El modelo numérico de simulación de yacimientos es un tutor
del SRM, que lo entrena para apreciar la física y los primeros principios del flujo de fluidos a través de
medios porosos de un yacimiento específico, así como la naturaleza heterogénea y compleja de las
características del yacimiento, tal como se representa en la geología estática. modelo. La producción
de fluidos y los gradientes de presión a través del yacimiento se inculcan en la educación del SRM que
se define como un sistema inteligente
réplica de un modelo de simulación de yacimientos de campo completo.
Los SRM ofrecen una alternativa factible a las metodologías geoestadísticas convencionales
reflejadas en los modelos proxy y de superficie de respuesta. Como función objetivo en el análisis de
incertidumbre, los SRM son efectivos para generar simulaciones estocásticas del yacimiento, cuantificar
la incertidumbre y, por lo tanto, mitigar
algunos de los riesgos en la predicción del rendimiento y las estrategias de reingeniería de campo.
Se pueden observar beneficios adicionales en la optimización en tiempo real y la toma de
decisiones basadas en respuestas en tiempo real de la función objetivo.
Esforzarse por resolver un problema inverso es una metodología que es un denominador
común en la construcción de modelos de E&P que tienen una solución analítica ostensible. Las
soluciones numéricas asociadas con la simulación tradicional de yacimientos
prácticas no son candidatas ideales para resolver el problema inverso. Los SRM brindan las
herramientas necesarias para abordar el problema inverso, además de proporcionar un conjunto
clasificado de características del yacimiento determinado por indicadores clave de rendimiento.
que miden o cuantifican la influencia o el impacto estadístico que tiene cada característica del
yacimiento en el resultado de la simulación, como el GOR o el corte de agua.
ESTUDIOS DE CASO
Predicción de las propiedades del yacimiento
Estudiemos una metodología analítica multivariante que incorpora un conjunto de flujos de trabajo
de computación suave que conducen a una solución para el problema inverso de predecir las
propiedades del yacimiento en las capas geológicas en ausencia de datos de núcleo en pozos
localizados.
Uno de los primeros pasos es implementar un conjunto de gráficas de cuantil-cuantil (QQ) en

los datos disponibles. El gráfico QQ es un dispositivo gráfico exploratorio que se utiliza para
verificar la validez de una suposición de distribución para un conjunto de datos. La idea básica es
calcular el valor esperado teóricamente para cada punto de datos en función de la distribución en
cuestión. Si los datos efectivamente siguen la distribución asumida, entonces los puntos en el
gráfico QQ caerán aproximadamente en una línea recta, como lo ilustra la variable de rayos
gamma en la Figura 4.5.
La mayoría de las técnicas estadísticas multivariantes asumen que los datos siguen una
distribución normal multivariante basada en la experiencia de que las distribuciones de muestreo
de estadísticas multivariantes múltiples son aproximadamente normales a pesar de la forma de la
población original. Esto se debe al efecto del límite central que en la teoría de la probabilidad
establece que, dadas ciertas condiciones, la media de un número suficientemente grande de
variables aleatorias independientes, cada una con una media bien definida y una varianza bien
definida, tendrá una distribución aproximadamente normal. El histograma y la función de distribución
acumulativa (CDF) pueden usarse para evaluar el supuesto de normalidad describiendo si cada
variable sigue una densidad normal en forma de campana (Figura 4.6).
Después de las gráficas QQ, podemos usar componentes principales, análisis factorial y
conceptos de lógica difusa para identificar las variables dominantes y el número óptimo de
variables independientes de los registros de núcleos y pozos que están disponibles. Es imperativo
reducir la dimensionalidad del espacio de entrada para reducir las variables irrelevantes que harán
que el modelo se comporte mal. el neural
0.35
–0.671.28–1.64 0.610.0 1.28 1.64
* *
0.3
escala
normal de
cuantiles
0.25
* *
Límites
0.2
***** de confianza
***
******* de Lilliefors
****
0.15 ****
*******
*****
******* *****
* * ***** escala de
0.1 probabilidad
*
0.05
0.05 0,15 0,35 0,60 0,80
Figura 4.5 Variable de rayos gamma mostrada en un gráfico QQ
Figura 4.6 Gráficos QQ con histogramas y CDF para tres registros de rayos gamma
La red, por ejemplo, se ve algo socavada al abordar un espacio de entrada de alta dimensionalidad, ya que
deseamos evitar que la red neuronal use casi todos sus recursos para representar secciones irrelevantes
del espacio.
En el subsuelo, la mayoría de los algoritmos de caracterización de yacimientos son no lineales. Las
técnicas de computación suave han evolucionado exponencialmente durante la última década para permitir
la identificación de sistemas no lineales, temporales y no estacionarios, como los yacimientos de
hidrocarburos.
Si estamos estudiando más de una variable regresora, es plausible escalar los datos de entrada antes
de crear los coeficientes del modelo de regresión múltiple, ya que la escala garantizará que todos los
regresores de entrada tengan la misma varianza y media. Por lo tanto, las diferencias sutiles en los
coeficientes de regresión múltiple correspondientes serán indicativos del valor determinado para cada
regresor en el modelo. Consideremos, por ejemplo, el valor logarítmico de la permeabilidad dentro de una
formación particular. Suponga que este logaritmo es una función de la porosidad y la lectura de rayos
gamma (litología) que refleja una influencia alta y baja en la permeabilidad, respectivamente.
¿Qué significa esto? Sugiere que la porosidad tiene un papel más crítico que desempeñar en un
modelo de regresión múltiple que la lectura de rayos gamma que refleja las diferencias de litología.
Definamos un algoritmo (ecuación 1) que refleje un modelo inoperativo:
Log Kcore = 10 × GR(API) + 10 × ÿ(Fracción) Ecuación (1)
No hay escalado de entrada ni de salida y el rayo gamma en unidades API tiene más influencia en la
permeabilidad debido a la escala del rayo gamma y la porosidad, esta última definida como una fracción.
La ecuación 2 puede posicionarse como un modelo válido y lógico:
Log(Kcore)(Escalado) = 0.01 × GR(Escalado) + 10 × ÿ(Escalado) Ecuación (2)
Ahora vemos ambas variables, rayos gamma y porosidad, a la misma escala. Debido al coeficiente de
porosidad, tiene una influencia más crítica sobre la permeabilidad. Al escalar tanto los regresores como los
objetivos en el rango [–1, 1] implementando la ecuación 3, estamos adoptando el principio de igualdad de
varianza y media:
X(Escalado) = (2 × (X ÿ X(Mín)/X(Máx) ÿ X(Mín))) ÿ 1 Ecuación (3)
En la ecuación 3, X representa cualquier variable y refleja la importancia de escalar para modelar con
precisión en un sistema complejo y multivariante como un reservorio de hidrocarburos.
También podemos reducir la dimensionalidad y reducir los efectos de la colinealidad adoptando la

técnica de correlación cruzada. Los coeficientes determinados a través de la correlación cruzada son
indicativos del alcance y la dirección de la correlación.
Modelando cualquier variable objetivo que sea representativa de una función objetivo
como la tasa de producción o la duración de la meseta, podemos implementar un flujo de trabajo analítico
que incorpore como variables de entrada aquellas que tienen una alta correlación con el objetivo
identificado o la variable dependiente.
Si desea ver la disposición de los puntos en muchas variables correlacionadas, puede utilizar el
análisis de componentes principales (PCA) para mostrar las direcciones más destacadas de los datos de
alta dimensión. El uso de PCA reduce la dimensionalidad de un conjunto de datos y es una forma de
representar la estructura de los datos de la manera más completa posible utilizando la menor cantidad de
variables posible.
Para n variables originales, n componentes principales se forman de la siguiente manera:
ÿ El primer componente principal es la combinación lineal de las variables originales estandarizadas

que tiene la mayor varianza posible.
ÿ Cada componente principal posterior es la combinación lineal de las variables que tiene la mayor
varianza posible y no está correlacionada con todos los componentes definidos anteriormente.
Cada componente principal se calcula tomando una combinación lineal de un vector propio de la
matriz de correlación (o matriz de covarianza) con una variable.
Los valores propios muestran la varianza de cada componente y dado que los componentes principales
son ortogonales entre sí, no hay redundancia.
La representación de los componentes principales es importante para visualizar datos multivariados
al reducirlos a dimensiones que se pueden graficar ya que la varianza total representada por las variables
originales es igual a la varianza total explicada por los componentes principales.
Una vez reducido así el espacio de entrada, podemos implementar un proceso de lógica difusa.
Recuerde del Capítulo 1 la lógica detrás del pensamiento confuso y el comentario histórico sobre
Aristóteles y Platón.
Aristóteles formuló la Ley del Tercero Excluido. Establece que para cualquier proposición, o esa
proposición es verdadera, o su negación es verdadera. El principio fue enunciado como un teorema de
lógica proposicional por Russell y Whitehead en Principia Mathematica. 3 No hay término medio ni nada
entre las dos partes de una contradicción donde una proposición debe ser verdadera y la otra debe ser
falsa.
Sin embargo, los procesos de pensamiento humanos sugieren lo contrario, donde el mundo real se
aleja del blanco y negro bivalente hacia el área que es algo gris. ¿Es por eso que nos referimos a los
cerebros humanos como materia gris? ¿Cómo explicamos la variación en una curva que refleja una
función del volumen mineral en una roca específica basada en lecturas de rayos gamma? La lógica difusa
nos rescata de las cadenas aristotélicas de la lógica booleana. Esencialmente, el mundo de la lógica
difusa abarca cuatro componentes constitucionales:
1. Fuzzificación de variables de entrada/salida
2. Reglas difusas si-entonces

3. Factores de ponderación
4. Desfuzzificación
La lógica difusa es aparentemente un apéndice humano de la lógica booleana convencional.

Como miembros del homo sapiens sapiens , tendemos a pensar como miembros modernos de la raza
humana, no en ceros y unos sino en verdades parciales: esos valores que oscilan inexorablemente entre
“completamente cierto” y “completamente equivocado”.
Las leyes de la lógica de Aristóteles se basan en “X o no X”; es verdadero o falso. Inevitablemente
juzgamos y clasificamos de acuerdo con esta restricción. Tenemos un deseo innato de categorizar todo,
ya que mejora nuestro pensamiento convencional al colocar algo en una caja negra o blanca. Por supuesto,
la llegada de las computadoras solo logró reforzar esta lógica booleana, ya que un sistema binario sustenta
su mecanismo de razonamiento natural.
Pero piense en las restricciones impuestas por la lógica booleana en nuestro pensamiento a medida
que nos esforzamos por establecer metodologías analíticas para ayudar a resolver los problemas
comerciales en la cadena de valor de exploración y producción aguas arriba. La evolución continua del
yacimiento multivariante, dinámico y complejo, por ejemplo, sólo puede describirse en una aproximación
aproximada. Por lo tanto, estamos desprovistos de los detalles esenciales necesarios para comprender las
posibles soluciones a un sistema no determinista. No descartemos el rango de probabilidades establecido
bajo incertidumbre y descrito por los límites de confianza cuando evaluamos las respuestas a las preguntas
del subsuelo. La verdad no solo existe fundamentalmente en una escala móvil, sino que también se percibe
que cambia poco a poco por las incertidumbres en las medidas e interpretaciones. Irónicamente, los
ingenieros de E&P deben pasar del mundo de blanco y negro a las “sombras” donde predomina el gris.
Esta es la matemática de la lógica difusa.
La multitud de posibilidades que caracterizan este terreno gris debe ser domesticada por la
cuantificación de la grisura o borrosidad. La teoría probabilística es la rama de las matemáticas que se
ocupa de la probabilidad, el análisis de los fenómenos aleatorios. Los objetos centrales de la teoría de la
probabilidad son variables aleatorias, procesos estocásticos y eventos: abstracciones matemáticas de
eventos no deterministas o cantidades medidas que pueden ser ocurrencias únicas o evolucionar con el
tiempo de manera aparentemente aleatoria. Un evento aleatorio se puede describir como el lanzamiento
individual de una moneda o de dados, y si se repite muchas veces, la secuencia de estos eventos
aleatorios exhibirá ciertos patrones que se pueden estudiar y predecir.
Fuzzificación de variables de entrada-salida
Adoptando conjuntos difusos aplicables controlados por funciones de pertenencia, podemos determinar el
grado de afiliación de cada variable.
A = {z, µA | z ÿ Z} Ecuación (4)

En la ecuación 4, los elementos expresados por z están en el conjunto universal Z, y el conjunto
borroso A en Z se define como un conjunto de pares ordenados. La ÿA(z) es la función de pertenencia de

z en A y asigna cada elemento de Z a un valor de pertenencia entre 0 y 1.
El cálculo del volumen de arcilla en una roca específica, como la piedra caliza, por ejemplo, se puede
representar mediante una curva basada en lecturas de rayos gamma para identificar las ocurrencias entre
capas. Dicho cálculo puede explicarse mediante lógica difusa como los valores de rayos gamma (z) en el
volumen de arcilla (Z) en la ecuación 4, donde la función de membresía asigna cada lectura de rayos
gamma a un valor de membresía entre 0 y 1.
Reglas si-entonces difusas
Las reglas son esencialmente declaraciones de expresión para abarcar la imprecisión inherente al proceso
de pensamiento humano. Aquí hay un ejemplo de tal
declaración:
Si el valor de los rayos gamma es alto, entonces el volumen de arcilla es grande.
Nótese la articulación lingual de rayos gamma y arcilla-volumen asociada con etiquetas altas y grandes.
Por supuesto, podríamos adoptar varias partes del antecedente y aplicar los operadores de lógica difusa
AND, OR y NOT para describir los valores de pertenencia mínimos, máximos y complementarios de una
variable.
Factores de ponderación
Si una sola regla es inadecuada, entonces se pueden adoptar múltiples reglas, una contra la otra. El
conjunto borroso que es una salida de cada regla se puede fusionar con otros conjuntos borrosos de salida
en un solo conjunto borroso de salida. En cuanto a las contribuciones relativas de cada conjunto borroso
de salida en el conjunto borroso combinado, se puede asignar un conjunto de factores de ponderación
para dictar el conjunto borroso de salida combinado.
La pericia y la experiencia en ingeniería son diseños sobresalientes en los factores de ponderación para
cumplir con las diferentes situaciones en un sistema de inferencia difusa.
Defuzzificación
El conjunto borroso o conjunto borroso agregado se ingresa a un proceso de desborrosificación que genera
un valor sucinto.
El siguiente paso en la metodología es la aplicación de una red neuronal. El cerebro humano consiste
en una multitud de neuronas conectadas. Las redes neuronales artificiales son sistemas de procesamiento
de información paralelos y adaptativos que pueden desarrollar asociaciones, transformaciones o mapeos
entre objetos o datos. Por lo tanto, son técnicas eficientes y populares para resolver problemas de regresión
y clasificación en la industria upstream del petróleo y el gas. Los elementos básicos de una neurona
Aporte Oculto Producción
Nueva Hampshire
I1
Ni
O1
Nueva Hampshire No
I2
Ni
O2
Nueva Hampshire No
I3
Ni
Nueva Hampshire
Figura 4.7 Red neuronal artificial
red son las neuronas y sus fuerzas o pesos de conexión. En un escenario de aprendizaje
supervisado, se implementa un conjunto de patrones de datos de entrada y salida conocidos
para entrenar la red. El algoritmo de aprendizaje toma un modelo inicial con algunos pesos de
conexión previos (números aleatorios) y aplica un algoritmo de actualización para producir
pesos finales a través de un proceso iterativo. Las redes neuronales artificiales (Figura 4.7) se
utilizan para construir un modelo representativo de predicción de las propiedades del
yacimiento. Los datos se utilizan como pares de entrada y salida para entrenar la red neuronal.
La información del pozo, los datos de calidad del yacimiento y los datos relacionados se
utilizan como entrada y se combinan con otra categoría, los datos de producción, como salida.
Dado que los primeros principios para modelar un proceso tan complejo utilizando las técnicas
convencionales de modelado matemático son tenues en el mejor de los casos, las redes
neuronales pueden proporcionar una visión explícita de las complejidades observadas en la
caracterización de las propiedades del yacimiento en una dimensión espaciotemporal. Una
vez que se ha completado un neuromodelo razonablemente preciso y representativo de los
procesos del yacimiento para la formación en estudio, se pueden realizar más análisis. Estos
análisis pueden incluir el uso del modelo para responder a muchas preguntas hipotéticas que
puedan surgir.
Maximización de los factores de recuperación
Los estudios de caracterización de yacimientos requieren que se defina una función objetiva
que impulse la agregación de conjuntos de datos apropiados y, en última instancia, sustente
las metodologías analíticas para lograr modelos precisos. Es un problema continuo de la
industria pronosticar con precisión el desempeño de los yacimientos y clasificar los activos
como probados, probables o posibles. Las reservas están directamente ligadas al factor de recuperación.
Examinemos un enfoque probabilístico para calificar y cuantificar aquellas variables que tienen
una mayor influencia en el factor de recuperación. El factor de recuperación promedio mundial
actual de los campos de petróleo es del 30 al 35 por ciento (frente al 20 por ciento en 1980).
Este parámetro varía desde un promedio del 10 por ciento de los crudos extrapesados hasta un promedio
del 50 por ciento de los campos más avanzados del Mar del Norte. El aumento del factor de recuperación
aumenta las reservas incluso sin el descubrimiento de nuevos campos.
Aumentar solo un 1 por ciento la tasa de recuperación puede aumentar las reservas entre 35 000 millones
y 55 000 millones de barriles, aproximadamente uno o dos años de producción mundial de petróleo.
Para aumentar el factor de recuperación de hidrocarburos es necesario mejorar el conocimiento de los
campos petroleros y utilizar tecnologías avanzadas para perforar pozos y producir hidrocarburos.
Las ganancias futuras se basan en los barriles de petróleo y/o gas recuperables descritos como una
fracción del tamaño del yacimiento, y esto se denomina factor de recuperación. Sin embargo, existe un
grado inherente de incertidumbre con respecto a la recuperabilidad y la viabilidad económica de cualquier

reserva probada. La posición financiera de cualquier empresa pública depende de la cantidad de reservas
ubicadas, la tasa a la que se recuperan las reservas y los principios y estrategias económicos y de
ingeniería incorporados por la empresa para optimizar el yacimiento eficiente.
Se implementó un conjunto analítico avanzado de flujos de trabajo usando técnicas de regresión

lineal múltiple para desarrollar ecuaciones para elevar la recuperación de hidrocarburos en términos de
las propiedades aplicables de la roca del yacimiento y las propiedades del fluido del yacimiento. Sin
embargo, el primer paso en el camino para determinar los algoritmos apropiados para lograr factores de
recuperación mejorados es ejecutar un análisis exploratorio de datos que implique técnicas que sean de
naturaleza tanto gráfica como cuantitativa.
La mayoría de las técnicas EDA son de naturaleza gráfica con algunas técnicas cuantitativas. Los
gráficos o las visualizaciones brindan un poder sin precedentes para atraer a los datos para que revelen
sus secretos estructurales y las correlaciones y tendencias de la superficie que
señalar al ingeniero en la dirección correcta.

Las técnicas gráficas particulares empleadas en este estudio de caso son a menudo bastante
simples. Un diagrama de dispersión 3D que se muestra en la Figura 4.8 revela relaciones o asociaciones
entre tres variables. Tales relaciones se manifiestan por cualquier estructura no aleatoria en la trama. Los
diagramas de dispersión pueden proporcionar respuestas a las siguientes preguntas:
ÿ ¿Están relacionadas las variables X , Y y Z ?
ÿ ¿Las variables X , Y y Z están relacionadas linealmente?
ÿ ¿Las variables X , Y y Z están relacionadas de forma no lineal?
ÿ ¿La variación de Z cambia dependiendo de X o de Y?
ÿ ¿Hay valores atípicos?
Para ayudar a visualizar las correlaciones, se muestra un diagrama de dispersión para cada par de
variables de respuesta en un arreglo matricial, como se muestra en la Figura 4.9. De forma predeterminada,
se impone una elipse de densidad normal bivariada del 95 por ciento en cada diagrama de dispersión.
Figura 4.8 Diagrama de dispersión 3D Relación de superficies entre porosidad, permeabilidad y el factor de recuperación
de la función objetivo
Figura 4.9 Matriz de diagrama de dispersión que ilustra los grados de correlación con el factor de recuperación
Si las variables tienen una distribución normal bivariada, esta elipse encierra
aproximadamente el 95 por ciento de los puntos. La correlación de las variables se ve por
el colapso de la elipse a lo largo del eje diagonal. Si la elipse es bastante redonda y no
está orientada en diagonal, las variables no están correlacionadas.
Por lo tanto, se puede notar que el factor de recuperación tiene una fuerte correlación
con el aceite original en el lugar (OOIP)—obsérvese la elipse estrecha y angulada, una
correlación más débil con la porosidad, la permeabilidad y una distribución lognormal de la
saturación de agua—e incluso menos correlación con la temperatura del yacimiento, T.
Figura 4.10 Correlaciones multivariadas de parámetros de yacimiento influyentes
Con el amplio espectro de propiedades de los yacimientos y la plétora de observaciones

o filas de datos, para protegerse contra la inclusión de cualquier variable que contribuya poco
al poder predictivo de un modelo en la población, se debe especificar un nivel de significación
pequeño. En la mayoría de las aplicaciones, muchas variables consideradas tienen algún
poder predictivo, por pequeño que sea. Para elegir un modelo que proporcione la mejor
predicción utilizando las estimaciones de la muestra, debemos evitar estimar más parámetros
de los que se pueden estimar de manera confiable con el tamaño de muestra dado.
En consecuencia, un nivel de significancia moderado, quizás en el rango de 10 a 25 por
ciento, puede ser apropiado, y se subraya la importancia de un análisis de datos exploratorio
exhaustivo.
En la Figura 4.10 se muestra una tabla de correlaciones, que es una matriz de
coeficientes de correlación que resume la fuerza de las relaciones lineales entre cada par de
variables de respuesta (Y) . Esta matriz de correlación solo utiliza las observaciones que no
tienen valores perdidos para todas las variables del análisis. Se puede ver fácilmente que el
factor de recuperación tiene correlaciones más fuertes tanto con OOIP como con la porosidad
con valores de correlación de Pearson de 0.7509 y 0.6089, respectivamente.
Las estadísticas simples multivariadas (media, desviación estándar, mínimo y máximo)
proporcionan una plantilla para centrar la atención al considerar la estructura de los datos.
Estas estadísticas se pueden calcular de dos maneras que difieren cuando
Figura 4.11 Mapa de colores que representa las correlaciones y el análisis de un PCA
faltan valores en la tabla de datos. Las estadísticas simples multivariantes se calculan

eliminando cualquier fila que tenga un valor faltante para cualquier columna en el análisis. Estas
son las estadísticas que utiliza la plataforma multivariante para calcular las correlaciones. La
generación de un mapa de color sobre las correlaciones como en la Figura 4.11 produce el
diagrama de celdas que muestra las correlaciones entre las variables en una escala de rojo
(+1) a azul (–1).
PCA es una técnica para tomar combinaciones lineales de las variables originales de modo
que el primer componente principal tenga la máxima variación, el segundo componente principal
tenga la siguiente mayor variación sujeta a ser ortogonal al primero, y así sucesivamente. PCA
se implementa en un amplio espectro de datos exploratorios geocientíficos en proyectos de
caracterización de yacimientos. Es una técnica para examinar las relaciones entre varias
variables cuantitativas. PCA se puede utilizar para resumir datos y detectar relaciones lineales.
También se puede utilizar para explorar relaciones polinómicas y para la detección de valores
atípicos multivariados. PCA reduce la dimensionalidad de un conjunto de datos mientras intenta
preservar la estructura y, por lo tanto, puede usarse para reducir el número de variables en los
análisis estadísticos. El propósito del análisis de componentes principales es derivar un pequeño
número de combinaciones lineales independientes (componentes principales) de un conjunto
de variables que conservan la mayor cantidad posible de información en las variables originales.
El estudio PCA calcula valores propios y vectores propios a partir de la matriz de covarianza
no corregida, la matriz de covarianza corregida o la matriz de correlación de las variables de
entrada. Los componentes principales se calculan a partir de los vectores propios y se pueden
utilizar como entradas para nodos de modelado sucesores en un flujo de proceso. Dado que
interpretar los componentes principales suele ser problemático o imposible, es mucho más
seguro verlos simplemente como una transformación matemática del conjunto de variables originales.
Figura 4.12 Informe de correlaciones por pares con un diagrama de dispersión 3D
Un análisis de componentes principales es útil para la interpretación de datos y la reducción

de la dimensión de los datos. Suele ser un paso intermedio en el proceso de minería de datos.
Los componentes principales son combinaciones lineales no correlacionadas de las variables de
entrada originales; dependen de la matriz de covarianza o de la matriz de correlación de las
variables de entrada originales. Los componentes principales generalmente se tratan como el
nuevo conjunto de variables de entrada para los nodos de modelado sucesores.
En PCA se crea un conjunto de variables ficticias para cada clase de variables categóricas.
En lugar de las variables de clase originales, las variables ficticias se utilizan como variables de
entrada de intervalo en el análisis de componentes principales. El diagrama 3D de elipsoide
alterna un elipsoide de confianza del 95 por ciento en torno a tres variables seleccionadas.
Cuando se invoca el comando por primera vez, un cuadro de diálogo pregunta qué tres variables
incluir en el gráfico. La tabla Correlaciones por pares enumera las correlaciones producto-
momento de Pearson para cada par de variables Y , utilizando todos los valores disponibles. Los
valores de conteo difieren si algún par tiene un valor faltante para cualquiera de las variables.
Estos son valores producidos por la opción Density Ellipse en la plataforma Fit Y by X. El informe
Correlaciones por pares también muestra probabilidades significativas y compara las correlaciones
con un gráfico de barras, como se muestra en la Figura 4.12.
Usando una técnica de navaja, la distancia para cada observación se calcula con
estimaciones de la media, la desviación estándar y la matriz de correlación que no incluyen la
observación en sí. Las distancias cruzadas son útiles cuando hay un valor atípico, como se
muestra en la figura 4.13. La parcela incluye el valor de
Figura 4.13 Análisis de valores atípicos con límite de control superior (UCL) definido
el estadístico T2 calculado, así como su límite de control superior (UCL). Los valores que
quedan fuera de este límite pueden ser atípicos.
La figura 4.14 ilustra tres posibles distribuciones de porosidad: normal, log normal y
Weibull. La opción de ajuste normal estima los parámetros de la distribución normal en función
de la muestra de análisis. Los parámetros para la distribución normal son ÿ (media), que define
la ubicación de la distribución en el eje X, y ÿ (desviación estándar), que define la dispersión o
extensión de la distribución. La distribución normal estándar ocurre cuando ÿ = 0 y ÿ = 1. La
tabla de estimaciones de parámetros para el ajuste de distribución normal muestra
mu (estimación de ÿ) y sigma (estimación de ÿ), con límites de confianza superior e inferior del
95 por ciento.
La Figura 4.14 también muestra una superposición de la curva de densidad en el
histograma de porosidad utilizando las estimaciones de parámetros de los datos. El ajuste
lognormal estima los parámetros ÿ (escala) y ÿ (forma) para la distribución lognormal de dos
parámetros para una variable Y donde Y es lognormal si y solo si X = ln(Y) es normal. La
distribución de Weibull tiene diferentes formas dependiendo de los valores de ÿ (escala) y ÿ
(forma). A menudo proporciona un buen modelo para estimar la duración de la vida,
especialmente para dispositivos mecánicos y en biología.
Figura 4.14 Distribuciones de espesor y porosidad que exhiben poderes predictivos para el
factor de recuperación
El Weibull de dos parámetros es lo mismo que el Weibull de tres parámetros con un parámetro
de umbral (ÿ) de cero.
La opción Curva suave ajusta una curva suave al histograma de variable continua
mediante la estimación de densidad no paramétrica. La curva suave se muestra con un control
deslizante debajo del gráfico. Se puede usar el control deslizante para establecer la desviación
estándar del núcleo. La estimación se forma sumando las densidades normales de la
desviación estándar del kernel ubicadas en cada punto de datos.
Al cambiar la desviación estándar del kernel, puede controlar la cantidad de suavizado.
Por lo tanto, los resultados representados gráficamente en las Figuras 4.14 y 4.15 brindan
una idea de la distribución de cada propiedad del yacimiento y la estructura asociada de los
datos de población subyacentes que deben modelarse. Es un paso necesario para identificar
un modelo apropiado para el yacimiento.
Figura 4.15 Parámetros continuos con estimaciones ajustadas
La plataforma de partición divide recursivamente los datos del yacimiento según una relación
entre los valores X e Y , creando un árbol de particiones. Encuentra un conjunto de cortes o
agrupaciones de valores X que predicen mejor un valor Y. Lo hace buscando exhaustivamente
todos los posibles cortes o agrupaciones. Estas divisiones de los datos se realizan de forma
recursiva, formando un árbol de reglas de decisión hasta que se alcanza el ajuste deseado.
Las variaciones de esta técnica tienen muchos nombres y marcas comerciales: árbol de
decisiones, CARTTM, CHAIDTM, C4.5, C5 y otros. La técnica a menudo se enseña como una
técnica de minería de datos, porque
ÿ Es bueno para explorar relaciones sin tener un buen modelo previo.
ÿ Maneja grandes problemas con facilidad.
ÿ Los resultados son muy interpretables.
Cada paso de un análisis de árbol de partición representado en la Figura 4.16 intenta dividir
los datos del yacimiento en dos partes: una parte con un valor medio alto de REC (factor de
recuperación) y una parte con un valor medio bajo. En el primer paso, el valor medio alto de REC
es “todas las observaciones tales que OOIP tiene un valor mayor o igual a 1032”. Las demás
observaciones forman un conjunto con valores medios bajos de REC.
En el segundo paso, cada uno de los conjuntos del primer paso se subdivide aún más. El grupo
de “valor medio bajo” se divide en un grupo donde la porosidad es < 0,282 y un segundo grupo
donde la porosidad es > 0,282. El grupo de “valor medio alto” se divide en un grupo donde Sw <
0,28 y el complemento de ese grupo.
Este proceso continúa. La interpretación es un conjunto de reglas que predicen valores altos
o bajos de la variable REC o factor de recuperación. Para encontrar los valores más grandes
Figura 4.16 Clasificación del árbol de partición
de REC, primero elija observaciones donde OOIP >= 1032. Dentro de ellas, elija observaciones
donde Sw < 0.28. Continúe por tantas divisiones como desee.
Este modelo de árbol de partición subraya la importancia de dichos parámetros, OOIP y Sw,
al determinar una ecuación para el factor de recuperación del yacimiento.
Por lo tanto, se puede concluir del análisis del árbol de partición que los parámetros del
yacimiento más influyentes y sus valores asociados son: OOIP >= 1032, saturación de agua
connata < 0,28, factor de volumen de formación de petróleo a la presión de abandono >=
1,234 y porosidad > 0,256.
Un árbol empírico representa una segmentación de los datos que se crea aplicando una
serie de reglas simples. Cada regla asigna una observación a un segmento en función del
valor de una entrada. Se aplica una regla tras otra, lo que da como resultado una jerarquía de
segmentos dentro de segmentos. La jerarquía se llama árbol y cada segmento se llama nodo.
El segmento original contiene todo el conjunto de datos y se denomina nodo raíz del árbol. Un
nodo con todos sus sucesores forma una rama.
del nodo que lo creó. Los nodos finales se llaman hojas. Para cada hoja, se toma una decisión
y se aplica a todas las observaciones de la hoja. El tipo de decisión depende del contexto. En
el modelado predictivo, la decisión es simplemente el valor predicho.
Se pueden crear árboles de decisión que:
ÿ Clasifique las observaciones en función de los valores nominales, binarios y ordinales

objetivos
ÿ Predecir resultados para objetivos de intervalo.
ÿ Predecir decisiones apropiadas al especificar alternativas de decisión.
Una ventaja del árbol de decisión es que produce un modelo que puede representar reglas
inglesas interpretables o enunciados lógicos. Otra ventaja es el tratamiento de los datos faltantes. La
búsqueda de una regla de división utiliza los valores faltantes de una entrada. Las reglas sustitutas
están disponibles como respaldo cuando faltan datos que impiden la aplicación de una regla de división.
Los árboles de decisión producen un conjunto de reglas que se pueden usar para generar predicciones
para un nuevo conjunto de datos. Esta información se puede utilizar para impulsar decisiones
comerciales.
Si una observación contiene un valor faltante, entonces, de manera predeterminada, esa

observación no se usa para el modelado por nodos como la red neuronal o la regresión.
Sin embargo, rechazar todas las observaciones incompletas puede ignorar información útil o importante
que todavía está contenida en las variables que no faltan.
¿Cómo podemos lidiar con los valores faltantes? No hay una única respuesta correcta.
La elección de la "mejor" técnica de reemplazo de valores perdidos requiere inherentemente que el
investigador haga suposiciones sobre los datos verdaderos (faltantes). Por ejemplo, los investigadores
a menudo reemplazan un valor faltante con la media de la variable.
Este enfoque supone que la distribución de datos de la variable sigue una respuesta normal de la
población. Reemplazar los valores faltantes con la media, la mediana u otra medida de tendencia
central es simple, pero puede afectar en gran medida la distribución de la muestra de una variable.
Debe usar estas estadísticas de reemplazo con cuidado y solo cuando el efecto sea mínimo.
Otra técnica de imputación reemplaza los valores faltantes con la media de todas las demás
respuestas proporcionadas por esa fuente de datos. Esto supone que la entrada de esa fuente de
datos específica se ajusta a una distribución normal. Otra técnica estudia los datos para ver si los
valores faltantes ocurren solo en unas pocas variables. Si se determina que esas variables son
insignificantes, las variables pueden rechazarse del análisis. Los nodos de modelado aún pueden
utilizar las observaciones.
Por lo tanto, el análisis de datos exploratorios debe adoptar una técnica para identificar los datos
faltantes, a fin de manejar diligentemente tales ocurrencias a la luz del objetivo final del proyecto de
caracterización de yacimientos.
NOTAS
1. JW Tukey, Análisis de datos exploratorios (Reading, MA: Addison-Wesley, 1977).

2. S. Mohaghegh, AS Popa y S. Ameri, “Intelligent Systems Can Design Optimum Fracturing Jobs”, SPE 57433,
en Actas, Conferencia y Exposición Regional Eas de la SPE de 1999, Charleston, Virginia Occidental, 21 y 22
de octubre.
3. Alfred North Whitehead y Bertrand Russell, Principia Mathematica, vol. Yo (Londres: Cambridge
Prensa Universitaria, 1963).
CAPÍTULO 5
Perforación y
Terminación
Mejoramiento
Las estadísticas son como un bikini. Lo que revelan

es interesante. Pero lo que esconden es vital.
Aarón Levenstein
ciones en la industria del petróleo y el gas. Si bien los costos de perforación representan casi la mitad
La perforación es una
de los gastos de las operaciones
de pozos, más
solo el 42 por críticas,
ciento peligrosas,
del tiempo complejas
se atribuye a la yperforación.
costosas.
El 58 por ciento restante se divide entre problemas de perforación, movimiento de la plataforma,
defectos y períodos de latencia.
Algunos equipos de perforación no están completamente automatizados y ninguna compañía
de servicios brinda el conjunto completo de datos que los operadores necesitan para comprender
de manera integral el rendimiento de la perforación. Desafortunadamente, los errores cometidos
durante el proceso de perforación son muy costosos. Ocasionalmente, dañan la reputación y dan
lugar a fuertes demandas civiles y gubernamentales y sanciones financieras (considere el incendio
en aguas profundas y el derrame de petróleo de BP Horizon en 2010 en el Golfo de México). Los
programas de perforación ineficientes pueden tener un impacto financiero agregado aún mayor,
provocando retrasos en la terminación o abandono de pozos, paradas inesperadas, derrames de
hidrocarburos y otros accidentes. Existe una necesidad apremiante no solo de mejorar la eficiencia
de la perforación, sino también de predecir situaciones peligrosas que podrían tener un impacto
negativo en la salud, la seguridad y el medio ambiente.
Las terminaciones inteligentes obtienen datos de temperatura y presión de fondo de
pozo en tiempo real para identificar problemas en el yacimiento o en el pozo y optimizar
la producción sin una costosa intervención en el pozo. Detección, transmisión de datos y
139
Alertas
sentencias
Perforación
Actuación
Métodos
Propuestas
Figura 5.1 Metodología de ingeniería de perforación en tiempo real
el control remoto del flujo zonal para aislar la formación de los fluidos de terminación ayuda a los
operadores a minimizar la pérdida de fluidos, administrar el yacimiento, mantener la integridad del
pozo y maximizar la producción.
Es imperativo que el personal de perforación comprenda los aspectos técnicos de las
operaciones de perforación y terminación de un pozo, para mejorar aún más la productividad de los
proyectos de perforación y reacondicionamiento, dada la creciente demanda de petróleo y gas
natural.
El proceso de ingeniería de perforación en tiempo real consta de cuatro etapas clave para
mitigar los riesgos y evitar problemas importantes, mejorar la eficiencia y establecer las mejores
prácticas, como se muestra en la Figura 5.1. Es fundamental integrar la experiencia de los
ingenieros y las tecnologías avanzadas existentes para generar valor comercial dentro de estas etapas:
Etapa 1. Alertas: Prevenir problemas operativos por cambios de tendencia inesperados

analizando parámetros de superficie o de fondo de pozo.
Etapa 2. Juicios: Brindar sugerencias sobre hidráulica, torque y arrastre, y direccional para
mejorar el desempeño de perforación del pozo.
Etapa 3. Propuestas: proponer cambios significativos en el diseño del pozo, como desvío de
trayectoria, opciones de pesca, análisis inesperado de alta presión de formación, pérdida total
de circulación y correlación de puntos de revestimiento.
Etapa 4. Métodos: Ajustar el programa del pozo para mejorar el desempeño de la perforación.
La optimización del rendimiento de perforación es un dominio rico en conocimientos. Implica la

aplicación de conocimientos relacionados con la perforación para identificar y diagnosticar barreras.
O p ti m izació n de taladrado y comple taciónâ•‡ ÿ 141
al desempeño de la perforación e implementar cambios de procedimiento y/o tecnológicos para superar

estas barreras. El objetivo general de la optimización del rendimiento de perforación es que el pozo se
perfore de la manera más eficiente posible.
El conocimiento requerido para ejecutar la optimización del rendimiento de la perforación proviene

de un conjunto de habilidades multidisciplinarias dentro del dominio de la perforación. Dichas habilidades
incluyen: ingeniería de fluidos, gestión de la presión del pozo, montaje de fondo de pozo (BHA) y diseño
de sartas de perforación, selección de brocas, gestión de vibraciones y mecánica de rocas.
Requiere una solución que proporcione una visión holística de todo el sistema de perforación y
brinde información casi en tiempo real sobre los parámetros que pueden mejorar la eficiencia de la
perforación, desde la planificación hasta la ejecución y la finalización.
ÿ Descubra patrones ocultos en los datos. Vincular datos de variables no operativas (propiedades
de la roca, características del yacimiento) con parámetros operativos de perforación (peso sobre
la barrena y revoluciones por minuto) y diseños de sistemas de perforación (modelos de
barrenas).
ÿ Cuantificar el éxito de la perforación. Las técnicas de minería de datos aplicadas a un conjunto

completo de datos identifican las posibles correlaciones entre la actividad de perforación y la
tasa de penetración incremental (ROP). Esto calcula el éxito de la perforación en tiempo real,
bajo condiciones y restricciones geomecánicas específicas.
ÿ Confíe en el análisis de causa raíz para guiar las decisiones. Las técnicas analíticas avanzadas
miden cómo analizar los datos en tiempo real en relación con el desempeño o los eventos
pasados para que pueda predecir las fallas de las herramientas de fondo de pozo y determinar
de inmediato qué parámetros operativos ajustar.
ÿ Mejore la eficiencia de perforación a través de su amplia experiencia en integración de datos,

calidad de datos y análisis avanzado, incluida la optimización y la extracción de datos. Nuestras
soluciones fomentan la colaboración y ayudan a los operadores a tomar decisiones confiables
basadas en datos.
ÿ Identificar indicadores clave de rendimiento (KPI) detrás de operaciones de perforación eficientes.

Es imperativo analizar la relación estadística entre los datos sobre incidentes de perforación
relevantes (p. ej., fallas de equipos, problemas de control de pozos, pérdidas, tuberías
atascadas) y los KPI (p. ej., ROP, costo por pie y pie por día), dadas las restricciones
geomecánicas. .
ÿ Reduzca el tiempo improductivo con la gestión e integración integral de datos.

Recopila y analiza datos clave de todo el ecosistema de perforación, los valida con procesos
de control de calidad y luego los integra con un data mart analítico.
ÿ Visualice y analice el rendimiento de perforación casi en tiempo real. La visualización ofrece

acceso rápido y fácil para ver los datos más recientes sobre parámetros de perforación, eventos
y resultados analíticos.
El sistema (Figura 5.2) combina flujos de trabajo analíticos multivariantes, multidimensionales,

multivariantes y estocásticos. Los enfoques que utilizan análisis multivariante y/o multidimensional no
logran representar un sistema complejo y heterogéneo.
ÿ Multivariante: Múltiples variables independientes que impactan el resultado de

una singularidad.
ÿ Multidimensional: Dimensiones que afectan a las variables independientes. Para

ejemplo, las vibraciones pueden ser axiales, tangenciales y laterales.
ÿ Multivariante: Múltiples variables dependientes que deben predecirse para alcanzar un objetivo en
una singularidad. Estas son típicamente variables que tienen interdependencias que pueden
afectar el resultado de la singularidad. Por ejemplo, el torque afecta las RPM, el peso afecta el
torque y las RPM, y los tres afectan la tasa de penetración (el resultado).
ÿ Estocástico: Variabilidad y comportamiento aleatorio de variables independientes. Por ejemplo, el

rendimiento de la barrena variará según el tiempo, la resistencia de la roca, las tasas de flujo,
etc.
FLUJO DE TRABAJO UNO: MITIGACIÓN DEL TIEMPO NO PRODUCTIVO
Las métricas de cuantificación del desempeño más comunes de la industria—costo por pie (CPF), pie
por día (FPD) y tasa de penetración (ROP)—están fuertemente influenciadas por la energía mecánica
específica (MSE), pero MSE no debe equipararse a solo la eficiencia de perforación. Es solo uno de
varios parámetros que influyen en la productividad de la perforación.
Es de suma importancia analizar las tendencias en todo el rendimiento de perforación cuantificando

métricas para identificar posibles ineficiencias de perforación, y así aprender de ellas y hacer ajustes a
los parámetros de perforación para lograr un proceso de perforación optimizado. Para lograr la eficiencia
de perforación, se deben cumplir ciertos requisitos y condiciones básicos.
El objetivo final debe orientarse a confirmar que el menor costo por tramo y la construcción de
pozos utilizables son los factores más críticos en el desempeño de la perforación y, en su caso, definir
las iniciativas estratégicas y soluciones operativas que lo conduzcan. En este sentido, las fuentes del
tiempo improductivo (NPT), a saber, el tiempo perdido visible (VLT) y el tiempo perdido invisible (ILT),
deben analizarse en detalle. Su contribución al rendimiento de la perforación debe describirse
analíticamente. La identificación de otros posibles contribuyentes críticos a la reducción del rendimiento
de la perforación debe realizarse de forma analítica. En última instancia, se deben identificar las causas
de estos parámetros críticos a lo largo del proceso de perforación, y también se debe describir la
eliminación de esas causas primarias de ineficiencia.
RPM
• Superficie Tasa de flujo

• Fondo de pozo
Esfuerzo de torsión
• Superficie Dif. Presión

• Fondo de pozo
HKLD
• WOB de fondo de pozo

Velocidad del motor
multivariante
Vibración
Multidimensional
multivariado
ROP • Axial •
estocástico
Tangencial •
Lateral
MSE
Figura 5.2 Perforación multivariante, multidimensional, multivariante y estocástica
143
Para lograr este objetivo, se deben definir tanto la eficiencia de perforación como la ROP,
y se deben identificar los factores que influyen en la ROP y la eficiencia de perforación. Lo que
es más importante, los diferentes factores que influyen en la eficiencia de la perforación, que
incluyen pero no se limitan a la ROP, deben analizarse en función de los objetivos específicos
del proyecto.
La eficiencia de perforación tendrá los efectos deseados en los costos cuando se
identifiquen y evalúen todos los parámetros operativos críticos. Estos parámetros, denominados
calificadores de rendimiento (PQ), deben analizarse y cuantificarse a través de una metodología
de análisis exploratorio de datos (EDA) que descubre patrones ocultos e identifica tendencias
y correlaciones en un sistema complejo multivariado. Se enumerarán hipótesis que vale la
pena modelar como resultado de los procesos de EDA. Los resultados conducirán a una base
fáctica para permitir la gobernanza sobre el proceso de perforación, con una lógica de
evaluación del desempeño establecida como reglas comerciales. La normalización y la limpieza
de los parámetros de perforación clave proporcionarán una base sólida para EDA, lo que
conducirá a la definición de eficiencia operativa a través de reglas comerciales basadas en
observaciones de escala y variabilidad de patrones.
Para mejorar la eficiencia de la perforación, las PQ no deben analizarse de forma aislada
porque están interrelacionadas. En consecuencia, la maximización de cualquier PQ en
particular, sin identificar y abordar los efectos que el esfuerzo tiene sobre los otros PQ, siempre
compromete la eficiencia de la perforación.
La implementación de un Centro de operaciones en tiempo real (RTOC, por sus siglas en
inglés) aborda la mayor complejidad inherente al volumen y la variedad de datos de perforación
actualmente recopilados de sensores en el pozo, así como parámetros de superficie, LWD,
MWD, PWD y lodo de terceros. -registro de datos. La Figura 5.3 ilustra algunas de las etapas
clave en un flujo de trabajo de ingeniería de perforación en tiempo real que se esfuerza por
lograr las mejores prácticas. El marco de gestión de datos que encapsula el flujo de trabajo de
la información y garantiza la calidad de la información generada en tiempo real respalda un
ciclo de toma de decisiones eficaz.
La información en tiempo real se hace eco de la condición existente del pozo bajo estudio.
Entonces es una formalidad integrar las aplicaciones técnicas de perforación en el proceso en
tiempo real.
Los flujos de trabajo/procesos analíticos avanzados pueden establecer y evaluar los
impulsores de rendimiento clave que son fundamentales para la identificación y reducción del
tiempo improductivo (NPT) y el tiempo perdido invisible (ILT) durante la perforación. Al realizar
un análisis multivariante en fuentes de datos discretas, los flujos de trabajo analítico pueden
determinar patrones desconocidos para identificar tendencias en un sistema de perforación.
A través de un conjunto de metodologías de limpieza, transformación y análisis exploratorio
de datos (EDA) empaquetadas en un nuevo proceso operativo para la identificación, selección,
diagnóstico y búsqueda de soluciones de problemas, crearemos modelos que definen las
correlaciones, tendencias y firmas que prediga tubería atascada en un formato operacionalizado
que mejorará el proceso de vigilancia y control de perforación.
Mejores prácticas y perforación en tiempo real

Métodos de ingeniería
• ingenio
• Equipo diario
Informes
Datos
Recopilación
Vigilancia Gráficos de datos Optimizar

Perforación
• Correlación Bien Perforación
Parámetros Actuación
• Grupo Condiciones
Poro
• RoP Análisis Presión TNP
Riesgo
• WoB y RoP
Técnico Degradado Mitigación
Estrategias
Análisis
Figura 5.3 Metodología de perforación en tiempo real
Hay múltiples variables y componentes que componen un sistema de perforación y, por lo tanto,
muchas áreas potenciales que pueden crear desafíos desde una perspectiva de optimización. Al agregar
todos los datos relevantes (p. ej., información de compensación, mecánica de rocas, propiedades del lodo,
diseño de BHA, capacidades de la plataforma, etc.) podemos generar modelos que pueden predecir puntos
potenciales dentro del sistema de perforación que podrían optimizarse. Luego se pueden desarrollar flujos
de trabajo/procesos analíticos para lograr muchos objetivos, que incluyen:
ÿ Niveles continuos de mejora a través de la automatización de todo el

flujo de trabajo
ÿ Validación de datos para construir modelos analíticos avanzados precisos
ÿ Análisis de causa raíz para identificar indicadores clave de desempeño y su rango de valores
operativos que cubren diferentes funciones en el proceso de perforación, incluyendo lo siguiente:
ÿ Calidad del pozo: evite posibles problemas, como tuberías atascadas asociadas con las actividades
de limpieza del pozo.
ÿ Rendimiento de la plataforma: por qué las plataformas específicas funcionan mejor que otras en
el mismo activo/jugada.
ÿ Optimice las operaciones de perforación reuniendo y analizando datos estáticos y

datos de perforación en tiempo real.
ÿ Estabilidad del pozo: establecer un conjunto de metodologías para modelar y prever

estabilidad del pozo fundido.
ÿ Identificación en tiempo real de la inestabilidad del pozo y modos asociados de

falla.
ÿ Flujos de trabajo de pronóstico que encapsulan los parámetros de perforación para evitar
diseños de pozos inestables.
ÿ Manejo de presión de pozo: Metodologías para analizar y monitorear vari

nuestras presiones.
Además de un sistema basado en datos que traduce los datos sin procesar en conocimiento
tangible y efectivo, vemos que la yuxtaposición de un sistema dirigido por el usuario respaldado por
el conocimiento experto obtenido a través de la experiencia completa un enfoque híbrido. Esta
composición de fuentes de datos diferentes o incongruentes sustenta una técnica informática basada
en una metodología basada en flujos de trabajo analíticos avanzados que implementan mapas de
autoorganización (SOM), agrupamiento y enfoques bayesianos. El enfoque basado en datos requiere
un flujo de datos sólido y de calidad garantizada.
En la Figura 5.4 se ilustra una arquitectura de solución para realizar y estimar eventos que
conducen a NPT. Debemos analizar la frecuencia histórica y la probabilidad de ocurrencia, cruzando
las fallas con las empresas de servicios y los recursos para mejorar la toma de decisiones temprana.
Es necesario establecer un flujo de trabajo para identificar pozos críticos con mayor probabilidad de
experimentar NPT como candidatos para remediación y clasificar una comparación de eventos de
NPT entre pozos.
La solución de identificación de NPT puede iterar a través de varias capas de flujos de trabajo
lógicos e integrados que forman una metodología de arriba hacia abajo (Figura 5.5) que finalmente
se transforma en un catálogo de eventos históricos con diagnósticos asociados y mejores prácticas
para la remediación.
Segmente los pozos de acuerdo con las tácticas/estrategias y los eventos NPT, como se ilustra
en la Figura 5.6. Los objetivos de negocio determinan una segmentación de pozos
Figura 5.4 Arquitectura de la solución para reducir el NPT

Nivel 1 Nivel 2 Nivel 3
Sistema de elevación
Sistema Rotativo
PERSPECTIVA DE CONSISTENCIA
Sistema circulatorio
Equipo Sarta de perforación Nivel 1
Sistema de poder
BHA
Broca
Espera en espera
Logística de suministro
EFICIENCIA AGILIDAD
Clima
Sin equipo Información Nivel 2
administración
Respuesta de emergencia
COSTO VELOCIDAD
Circulación Perdida
Tubería atascada
Cementación
ILT
Operaciones Nivel 3
TNP
Pescar
Quitar
COLABORACIÓN DE PRECISIÓN
Vibración
Figura 5.5 Catálogo NPT
147
a través de un módulo de agrupamiento para caracterizar sobre una base geográfica. Relacionar las NPT
con empresas y cuadrillas de perforación específicas.
Los diagramas de Pareto ayudan a identificar las NPT más importantes por pozo y/o campo,
considerando su impacto por la duración de los retrasos. Avalan la definición de prioridades para las
actividades de mejora de la calidad mediante la identificación de los problemas que requieren mayor
atención. Y los gráficos de control por pozo y categoría de falla permiten la identificación de fallas críticas y
su impacto en la profundidad de perforación y los tiempos de desempeño, así como el reconocimiento de
fallas fuera de control. Ambas formas de visualización sustentan la metodología NPT representada en la
Figura 5.7.
Figura 5.6 Análisis de conglomerados para identificar clases similares por tácticas/estrategias y NPT
Figura 5.7 Metodología NPT

Desarrollemos un flujo de trabajo basado en una metodología de mejores prácticas para reducir el NPT
al minimizar la ocurrencia de eventos de tubería atascada.
Modelo de tubería atascada
¿Qué es una tubería atascada y cuáles son los beneficios para obviar los efectos de tal ocurrencia? Durante
la operación de perforación, la sarta de perforación se atasca al perforar, hacer una conexión, realizar un
registro o cualquier operación que implique dejar el equipo en el pozo. Los problemas de tuberías atascadas
invariablemente se dividen en dos categorías: mecánicas y diferenciales. Lo primero ocurre mientras la sarta
de perforación es móvil y una obstrucción o restricción física da como resultado el evento de atascamiento.
Estas condiciones se dan en situaciones de inestabilidad del pozo, como una limpieza deficiente del pozo que
desencadena un par alto, un arrastre excesivo en la sarta de perforación y el taponamiento del pozo, lo que
lleva a un atascamiento de la tubería. Esto último ocurre debido a una mayor presión en el lodo que en el fluido
de formación. El atascamiento del diferencial se observa cuando el collar de perforación descansa contra la
pared del pozo, hundiéndose en el revoque de lodo.
El área del collar de perforación que no está incrustada en el revoque de lodo tiene una presión que es igual
a la presión hidrostática (Ph) en el lodo de perforación, mientras que el área incrustada exhibe una presión
igual a la presión de formación de roca ( Pf) actuando sobre él. La Figura 5.8 ilustra que la presión hidrostática
en el pozo es más alta que la presión de formación, lo que da como resultado una fuerza neta que empuja el
collar hacia la pared del pozo.
Por lo tanto, un incidente de tubería atascada es un desafío técnico generalizado que invariablemente
da como resultado una cantidad significativa de tiempo de inactividad y un aumento en los costos de reparación.
Figura 5.8 Adhesión diferencial: Ph (presión hidrostática) que exhibe un valor más alto que Pf (presión
intersticial de una formación permeable)
La perforación de pozos de petróleo y gas es un proceso lleno de problemas potenciales y los

múltiples mecanismos que pueden contribuir a una situación de tubería atascada deben
discriminarse para identificar los parámetros operativos y no operativos que tienen un impacto
importante en cada mecanismo. Para evitar el impacto adverso de alcanzar objetivos críticos de
éxito en un programa de perforación y en vista de los recientes aumentos en la actividad de
perforación en activos de alto riesgo agravados por una escasez cada vez mayor de personal de
perforación con experiencia, es imperativo introducir un conjunto analítico avanzado. de
metodologías que implementan una solución híbrida para abordar tales problemas de perforación.
Una solución híbrida de este tipo, entregada en torno a un sistema centrado en el usuario
combinado basado en la experiencia y un componente basado en datos que captura datos
históricos, permite a los ingenieros, tanto jóvenes como mayores, obtener información crítica
crucial sobre aquellos parámetros que tienen un impacto estadístico importante. impacto en un
incidente de tubería atascada.
Comprender y anticipar los problemas de perforación, evaluar sus causas y planificar las
soluciones son necesarios para el control general de los costos del pozo y para alcanzar con éxito
la zona objetivo. Por lo tanto, los beneficios son tanto tangibles como económicamente viables
para identificar metodologías, tanto determinísticas como estocásticas, que mitiguen el riesgo e
incluso predigan la ocurrencia del evento de estancamiento y, en última instancia, aseguren la
integridad del pozo que evite la inestabilidad del pozo (Figura 5.9) que conduce a la obstrucción
de la tubería. .
Existen múltiples mecanismos que pueden contribuir a una situación de tubería atascada.
Uno de los principales desafíos técnicos del programa de perforación es la frecuencia de los
incidentes de tubería atascada. Dichos sucesos invariablemente dan como resultado una cantidad
significativa de tiempo de inactividad y un aumento en los costos de reparación, lo que afecta
negativamente el logro de los objetivos críticos de éxito del programa de perforación.
Desafortunadamente, con el reciente aumento en la actividad de perforación y la escasez de
personal de perforación experimentado, la perforación en activos de alto riesgo ha aumentado el
potencial de eventos de tubería atascada.
Figura 5.9 La inestabilidad del pozo es propensa a un evento de tubería atascada, lo que conduce a NPT
¿Cómo identificamos la aparición de atascamientos en todas sus formas, encontramos los escenarios
de atascamientos más críticos y frecuentes, los diagnosticamos y encontramos una solución operativa que
prevenga o mitigue su ocurrencia? Para hacer esto, es necesario analizar y cuantificar los parámetros más
influyentes para todos los mecanismos de tubería atascada, segmentar escenarios por firma de comportamiento
de grupos de parámetros, clasificar estos escenarios por frecuencia y criticidad, seleccionar los pocos
escenarios de mayor rango, realizar análisis causales para detectar indicadores tempranos, y al mismo tiempo
emitir un modelo predictivo para ser utilizado operativamente. Al final de este proceso, y bajo el supuesto de
que los indicadores predictivos ofrecen un tiempo de anticipación suficiente para que los operadores actúen,
es necesario tomar una decisión sobre las acciones operativas a realizar para prevenir o mitigar
significativamente el escenario analizado.
Por lo tanto, el objetivo a largo plazo es identificar medidas preventivas o mitigadoras a la luz de las
señales de advertencia ocultas en los parámetros operativos y no operativos apropiados que se consideren
necesarios para cada mecanismo de tubería atascada.
Los principales datos requeridos son:
ÿ Datos de mecánica de rocas
ÿ Datos de fluidos
ÿ Datos litológicos
ÿ Datos de dinámica BHA
ÿ Datos de vibración
ÿ Datos MWD/LWD
ÿ Datos de equipos de superficie
FLUJO DE TRABAJO DOS: OPTIMIZACIÓN DE PARÁMETROS DE TALADRADO
Con el fin de lograr un costo mínimo por pie con una comprensión de la cuantificación de la incertidumbre y la
evaluación de riesgos controlados, una metodología de optimización de brocas identifica la broca óptima para
el intervalo perforado. Incorpore datos de pozos vecinos para seleccionar la broca de perforación adecuada y
las características críticas asociadas.
Los flujos de trabajo analíticos avanzados abarcan un análisis exhaustivo de los datos de pozos vecinos,
incluidos registros de pozos, topes de formación, registros de lodo, análisis de núcleos, mecánica de rocas,
parámetros de perforación, registros de barrenas y condiciones de barrenas desafiladas.
Al adoptar flujos de trabajo analíticos personalizados que incorporan conjuntos de datos dispares, es
factible lograr un costo mínimo por pie con una comprensión de la cuantificación de la incertidumbre y la
evaluación de riesgos controlados en una metodología de optimización de brocas. Tal proceso de evaluación
incluiría pasos tales como:
ÿ Evaluación de los tipos de formación esperados
ÿ Recopilación de datos de pozos compensados

ÿ Determinación de la resistencia a compresión de rocas no confinadas, poros efectivos

idad, características de abrasión y potencial de impacto
ÿ Identificación de tipos de bits potencialmente óptimos y varios

características
ÿ Predicción del costo por pie para cada broca potencial
ÿ Recomendación óptima de broca
El análisis posterior a la ejecución evalúa el rendimiento de la broca a partir de los datos

disponibles, como la ROP en tiempo real, las RPM, el par y las condiciones de la broca. Dichos
resultados analíticos ofrecen comentarios sobre el diseño y la aplicación a los ingenieros para un
proceso de mejora continuo e iterativo.
Buen control
La metodología generalmente requiere múltiples iteraciones de ciclos analíticos para monitorear las
diversas presiones en tiempo real: presión del fluido de perforación en el pozo, gas, petróleo y agua
bajo presión (presión de formación) y presión del lodo. Si la presión de la formación es mayor que la
presión del lodo, existe la posibilidad de una explosión.
Proyecto Analítico de Optimización de Perforación:
ÿ Un proceso automatizado para medir tanto la broca real como la teórica por
rendimiento y detectar desviaciones anormales.
ÿ Creación de un modelo estadístico multivariante que identifica automáticamente

y cuantifica los impulsores del rendimiento de la broca.
ÿ Los informes diarios facilitan la detección y alerta de eventos en la vigilancia de la perforación.
ÿ Conocimiento de las funciones de rendimiento y sus impulsores uno por uno y en combinación:
esto permite a los ingenieros de vigilancia, confiabilidad, procesos y operaciones comprender
la importancia de los impulsores en estados de rendimiento anormales, detectar patrones de
desviación del rendimiento y sus indicadores, encontrar causas, mejorar los patrones con
indicadores analíticos de causa, determinar el desempeño a corto plazo y los riesgos de
confiabilidad a largo plazo, y desarrollar medidas de prevención.
Al agregar todos los datos relevantes (como información de compensación, mecánica de rocas,
propiedades del lodo, diseño de BHA, capacidades de la plataforma, etc.) podemos generar modelos
que pueden predecir puntos potenciales dentro del sistema de perforación que podrían optimizarse.
Se pueden desarrollar flujos de trabajo/procesos analíticos para lograr muchos objetivos, entre ellos:
ÿ La validación de datos para construir modelos analíticos avanzados precisos.
ÿ Niveles continuos de mejora a través de la automatización de todo el

flujo de trabajo.
ÿ Análisis de causa raíz para identificar indicadores clave de desempeño y su rango de valores operativos
que cubren diferentes funciones en el proceso de perforación, incluyendo lo siguiente:
ÿ Integridad/ calidad del pozo: evite posibles problemas, como tuberías atascadas,
asociados con las actividades de limpieza de pozos.
ÿ Rendimiento de la plataforma o detección del estado de la plataforma: examine por qué las
plataformas específicas funcionan mejor que otras en el mismo activo/jugada. Optimice las
operaciones de perforación recopilando y analizando datos de perforación estáticos y en tiempo
real durante la ejecución y las operaciones posteriores a la perforación.
ÿ Estabilidad del pozo: establecer un conjunto de metodologías para modelar y pronosticar la

estabilidad del pozo. En tiempo real, identifique la inestabilidad del pozo y los modos de falla
asociados para minimizar los costos y optimizar los regímenes de perforación. Cree un flujo de
trabajo de pronóstico que encapsule y analice los parámetros de perforación para evitar diseños
de pozos costosos e inestables.
ÿ Control de pozos: Metodología para analizar y monitorear diversas presiones.
Al adoptar una visión holística de todo el sistema de perforación, los modelos analíticos pueden
determinar los atributos de rendimiento clave dentro de cada componente discreto y determinar la correlación
entre múltiples variables.
Interpretación de datos en tiempo real para predecir eventos futuros
Se pueden aplicar técnicas analíticas avanzadas para medir cómo se analizan los datos en tiempo real en
relación con el desempeño/eventos pasados para predecir fallas en las herramientas de fondo de pozo y la
capacidad de realizar actividades causales inmediatas e implementar soluciones en tiempo real.
La comparación de datos de perforación en tiempo real con tendencias anteriores permite lo siguiente:
ÿ Evite NPT potenciales al predecir una falla, como un PDM debido a un exceso
vibración pasiva.
ÿ Geodirección: Capaz de hacer ajustes en tiempo real a la trayectoria del pozo

tory (es decir, zonas de transición imprevistas).
ÿ Capaz de realizar cambios de parámetros de perforación en tiempo real (es decir, WOB, TOB, flujo
Velocidad).
ÿ Prevenir reventones: proceso iterativo multivariable para analizar presiones como la formación, el lodo
y las presiones del fluido de perforación.
El análisis estadístico usa patrones predefinidos (modelo paramétrico) y compara medidas de

observaciones con métricas estándar del modelo, probando hipótesis. Implementamos un modelo para
caracterizar un patrón en los datos de perforación y relacionar patrones predeterminados con datos de
manera deductiva siguiendo el método aristotélico.
camino a la verdad. Luego construimos un modelo con los datos de perforación y, por lo tanto, no
comenzamos con un modelo. Los patrones en los datos se utilizan para construir un modelo y descubrir
patrones en los datos siguiendo inductivamente un enfoque platónico de la verdad.
ÿ Gestión de datos
ÿ Calidad de los datos
ÿ Modelado predictivo y minería de datos
ÿ Informe de resultados
Es necesario desarrollar flujos de trabajo para cada una de las capacidades anteriores para
evitar cantidades significativas de intervención manual y proporcionar procesos eficientes y
optimizados que sean consistentes y repetibles en múltiples activos globales dispares. A medida que
sus problemas de perforación se vuelven demasiado complejos para depender de una sola disciplina
y se encuentran en medio de una explosión de información, los métodos de análisis multidisciplinarios
y los enfoques de minería de datos se vuelven más una necesidad que una curiosidad profesional.
Para abordar problemas difíciles en la perforación de áreas no convencionales, debe derribar los
muros construidos alrededor de las disciplinas tradicionales y embarcarse en verdaderas soluciones
multidisciplinarias respaldadas por flujos de trabajo analíticos avanzados.
ESTUDIOS DE CASO
Finalización del drenaje por gravedad asistido por vapor
Con la producción de bitumen y petróleos pesados volviéndose económicamente viable, la técnica

SAGD1 (drenaje por gravedad asistido por vapor) del Dr. Roger Butler se ha convertido en una
norma en los campos petroleros en dichos activos. Al igual que con toda la producción de petróleo
no convencional, SAGD es un proceso operativo complejo y dinámico en el que las influencias del
subsuelo se gestionan desde una ubicación de control en la superficie. Esta combinación de sistemas
mecánicos y heterogeneidad del subsuelo crea un sistema estocástico plagado de incertidumbre.
Lograr una reducción en los costos variables de producción y un aumento en la tasa de recuperación
requiere una disminución en la relación vapor-aceite (SOR). A su vez, SOR se optimiza reduciendo
las tasas de inyección de vapor y/o aumentando la producción de petróleo.
El surgimiento de la detección distribuida en el fondo del pozo (DTS) combinada con el
levantamiento artificial y las propiedades del yacimiento proporciona un rico conjunto de datos
multivariados. En este estudio de caso, presentaremos un enfoque basado en datos donde los
comportamientos observados de una operación SAGD se utilizan para modelar un proceso dinámico
limitado por los primeros principios, de modo que podamos aprovechar los grandes volúmenes y
variedades de datos recopilados para mejorar la eficacia operativa de el proceso SAGD.
Finalmente, demostremos cómo se puede colocar un modelo analítico para SAGD en un sistema de
circuito cerrado y utilizarlo para automatizar la producción de petróleo pesado de manera predecible
y predeterminada, asegurando estrategias de finalización consistentes y optimizadas en tales activos.
En el proceso SAGD, se perforan dos pozos de petróleo horizontales paralelos en la formación,

uno de cuatro a seis metros por encima del otro. El pozo superior inyecta vapor y el inferior recoge el
petróleo crudo calentado o el betún que sale de la formación, junto con el agua de la condensación del
vapor inyectado. La base del proceso es que el vapor inyectado forma una “cámara de vapor” que crece
vertical y horizontalmente en la formación. El calor del vapor reduce la viscosidad del petróleo crudo
pesado o bitumen, lo que le permite fluir hacia el pozo inferior. El vapor y los gases ascienden debido a
su baja densidad en comparación con el crudo pesado que se encuentra debajo, lo que garantiza que
no se produzca vapor en el pozo de menor producción. Los gases liberados, que incluyen metano,
dióxido de carbono y, por lo general, algo de sulfuro de hidrógeno, tienden a elevarse en la cámara de
vapor, llenando el espacio vacío que deja el aceite y, hasta cierto punto, formando una manta térmica
aislante sobre el vapor. El flujo de petróleo y agua se realiza mediante un drenaje a contracorriente
impulsado por la gravedad hacia el pozo inferior. El agua condensada y el petróleo crudo o el betún se
recuperan en la superficie mediante bombas como las bombas de cavidad progresiva, que funcionan
bien para mover fluidos de alta viscosidad con sólidos en suspensión.
Una medida clave de la eficiencia de las operaciones que utilizan la tecnología SAGD es la
cantidad de vapor necesaria para producir un barril de petróleo, denominada relación vapor-petróleo.
(SO). Un SOR bajo nos permite crecer y mantener la producción con plantas comparativamente más
pequeñas y un uso de energía y emisiones más bajos, todo lo cual da como resultado una huella
ambiental más pequeña.
La metodología basada en datos se esfuerza por determinar los valores óptimos para aquellas
variables de control que conducen a la máxima producción de petróleo:
ÿ Velocidad de la bomba
ÿ Cadena de inyección corta
ÿ Cadena de inyección larga
ÿ Gas de revestimiento
ÿ Presión del cabezal

ÿ Emulsión producida
Hay tres flujos de trabajo potenciales que constituyen una metodología multivariante:
Flujo de trabajo 1: se hacen suposiciones sobre el comportamiento predeterminado de los

datos.
una. Implementar modelos de regresión lineal.
i. Variables dependientes:
1. agua
2. Aceite
ii. Variables independientes:
1. Producción a presión de cabecera
2. Gas de revestimiento a presión del colector
3. Velocidad de la bomba
4. Inyección de vapor a tubería corta
5. Inyección de vapor a tubería larga
Flujo de trabajo 2: no se hacen suposiciones sobre ningún comportamiento predeterminado de los

datos.
una. Implementar modelos de redes neuronales.
i. Variables de salida:
1. agua
2. Aceite
ii. Variables de entrada:
1. Producción a presión de cabecera
2. Gas de revestimiento a presión del cabezal
3. Velocidad de la bomba
4. Inyección de vapor a tubería corta
5. Inyección de vapor a tubería larga
Flujo de trabajo 3: no asume ningún comportamiento predeterminado en los datos y no asume ninguna
formulación de modelo.
una. Implementar reglas de asociación.
i. Muestra reglas de tipo IF/THEN en los datos.
Los flujos de trabajo analíticos agregaron datos de dos plataformas de pozos con enfoque en dos pares
de pozos: P1 y P3. Separamos las variables dependientes, agua y petróleo, de la emulsión de producción en
función de los valores de corte de agua en el dominio de entrada. Los datos de entrada no incluyeron ningún
parámetro no operativo, como las propiedades del yacimiento o la geomecánica. Reservamos el 75 por ciento
de los datos existentes con fines de capacitación para construir los modelos; el 25 por ciento restante se utilizó
con fines de validación.
Flujo de trabajo uno
El lado izquierdo de la Figura 5.10 detalla el modelo de regresión lineal para la producción de agua, mientras
que el lado derecho representa los resultados aplicados a los datos de producción de petróleo. Tenga en cuenta
que el petróleo se sobredijo y, por el contrario, el agua se subestimó. Los valores de R-cuadrado para agua y
aceite son 0.7188 y
Figura 5.10 Resultados del estudio para el par de pozos 1
Figura 5.11 Modelos de redes neuronales para agua y petróleo para el par de pozos 3
0,3411, respectivamente. El valor R-cuadrado es el coeficiente de determinación y refleja qué tan bien se
ajustan los puntos de datos a la línea de regresión.
Flujo de trabajo dos
La red neuronal implementada fue una adaptación de alimentación hacia adelante con un modo de
aprendizaje supervisado con propagación hacia atrás para realizar un análisis de sensibilidad que determina
cómo cada parámetro de entrada influye en la salida (producción de agua y petróleo; consulte la Figura 5.11).
Por lo tanto, había cinco variables de entrada para cada red neuronal que modelaba la producción de agua y
petróleo. Los nodos ocultos se restringieron a dos o tres.
Los valores de R-cuadrado para el agua y el aceite son comparables, cada uno alrededor de
0,7, lo que ilustra una correlación bastante buena. Parece que el flujo de trabajo de análisis
multivariado que implementa la red neuronal artificial proporciona una muy buena metodología
para predecir la producción de agua o petróleo.
Flujo de trabajo tres
El enfoque final utilizó cinco reglas de asociación como se detalla en las Figuras 5.12 y 5.13 para
los pares de pozos 1 y 3, respectivamente.
Figura 5.12 Reglas de asociación implementadas en el conjunto de datos SAGD para el par de pozos 1
Figura 5.13 Reglas de asociación implementadas en el conjunto de datos SAGD para el par de pozos 3
Conclusiones
Al seleccionar las variables de control óptimas para los pares de pozos 1 y 3, concluimos que
era aplicable un diagnóstico de tres pasos:
Paso 1. Implemente los coeficientes estimados del flujo de trabajo 1 o los pesos
determinados en el flujo de trabajo 2.
Paso 2. Adopte los rangos sugeridos para las variables de control por las reglas de
asociación en el flujo de trabajo 3 e impleméntelos como restricciones para un modelo de
programación no lineal.
Paso 3. Establecer una función objetivo.
Examinando los resultados de los tres flujos de trabajo, derivamos las siguientes
relaciones funcionales para cada par de pozos que posteriormente podrían ponerse en
funcionamiento en un proceso de circuito cerrado para maximizar la producción de
hidrocarburos a través de un conjunto de parámetros operativos controlados en la terminación SAGD.
Bueno Par 1:
Función objetivo: MAX Oil =
0.000117*Pozo_Producción_a_Cabeza_Presión
– 0.000732*Presión_de_gas_de_revestimiento_de_pozo_a_cabezal +
0,0976*Referencia_velocidad_bomba_en_hercios
– 0.000034*Vapor_a_tubo_corto –
0.000299*Vapor_a_tubo_largo
Sujeto a (Figura 5.14):

2396 <Producción_de_pozo_a_presión_del_cabezal <= 2403
626.5 < Gas_del_revestimiento_del_pozo_a_la_presión_del_cabezal <= 677.8
Elecciones óptimas de variables de control Estimar
Well_Production_to_Header_Pressure 2403
Well_Casing_Gas_to_Header_Pressure 626.5
Pump_Speed_Reference_in_Hertz 63
Steam_to_Short_Tubing 98.15
Steam_to_Long_Tubing 0
Figura 5.14 Valores óptimos de la variable de control para el par de pozos 1

62.5 <Referencia_velocidad_bomba_en_hercios <=63
98.15 < Steam_to_Short_Tubing <= 10516
0 < Vapor_a_tubo_largo <= 191,8
Bueno Par 3:
Función objetivo: MAX Oil = –
0.003300*Pozo_Producción_a_presión_del_cabezal
+ 0.001091*Presión_del_gas_del_revestimiento_del_pozo_al_cabezal +
0,2674*Referencia_velocidad_bomba_en_hercios
– 0.000226*Vapor_a_tubo_corto +
0.0000133*Vapor_a_tubo_largo
Sujeto a (Figura 5.15):
2289 <Producción_de_pozo_a_presión_del_cabezal <= 2307
1172 < Gas_del_revestimiento_del_pozo_a_la_presión_del_colector <= 1211
64 <Referencia_velocidad_bomba_en_hercios <= 65
10969 < Vapor_a_tubo_corto <= 11229
4076 < Vapor_a_tubo_largo <= 4524
Para el par de pozos 1, la producción de petróleo promedio de los datos de entrenamiento es

de 4,3 m3 /hora; pero el uso de las variables de control óptimas dio como resultado una producción
máxima de aceite de 5,97 m3 /hora, un aumento en el rendimiento del 39 por ciento.
Por el contrario, para el par de pozos 3, la producción de petróleo promedio de los datos de
entrenamiento es de 5,4 m3/hora; pero el uso de las variables de control óptimas dio como resultado
una producción de aceite maximizada de 8,73 m3/hora, un aumento en el rendimiento del 62 por ciento.
Elecciones óptimas de variables de control Estimar
Well_Production_to_Header_Pressure 2289
Well_Casing_Gas_to_Header_Pressure 1211
Pump_Speed_Reference_in_Hertz sesenta y cinco
Steam_to_Short_Tubing 10969
Steam_to_Long_Tubing 4524
Figura 5.15 Valores óptimos de las variables de control para el par de pozos 3
En resumen, notamos heterogeneidades inherentes entre los pares de pozos y se necesitaban diferentes
enfoques analíticos para predecir con precisión la producción de petróleo y agua. El enfoque de red neuronal
fue más preciso para predecir la producción de petróleo y agua que el flujo de trabajo de regresión lineal. Las
reglas de asociación pueden agregar más información y guiar los ajustes operativos en las variables de
control.
La programación no lineal puede ayudar a sugerir opciones de variables de control óptimas para maximizar
la producción de petróleo para los datos analizados.
Reconocimiento de patrones de serie temporal de perforación
La mejora del proceso de perforación se basa en el análisis de rendimiento que se basa principalmente en
los desgloses de la actividad diaria. La perforación de un pozo puede dividirse en varias operaciones distintas,
como la perforación, la rotación y la realización de una conexión. Cada operación genera información
detallada sobre el estado en el sitio de perforación. Los datos de series temporales de perforación son
inherentemente multidimensionales, lo que lleva a tiempos de acceso muy lentos y cálculos costosos. La
aplicación de técnicas de aprendizaje automático en datos de series temporales sin procesar no es una
solución práctica. Lo que se necesita es una representación de nivel superior de los datos sin procesar que
permita un cálculo eficiente y extraiga características de orden superior.
Un análisis innovador de datos de series temporales de perforación agrega aproximaciones basadas en

tendencias y valores. Este consta de cadenas simbólicas que representan las tendencias y los valores de
cada variable en la serie temporal contigua.
Existen múltiples estudios que emplean análisis de datos exploratorios para descubrir patrones ocultos
en una serie de tiempo. Lambrou2 emplea la media, la varianza, la asimetría, la curtosis y la entropía como
características estadísticas para clasificar las señales de audio. Pueden utilizarse técnicas de análisis visual2
para explorar las características estadísticas de la medición de los sensores. Las características estadísticas
son importantes para detectar diferentes escenarios en el proceso de perforación subyacente. Además,
identificar la asimetría y la entropía características puede llevar a determinar los precursores de eventos
críticos como el atascamiento de tuberías.
Los datos sin procesar generados por sensores se utilizan como entrada. Los sistemas de registro de
lodo proporcionan flujos de datos de series temporales que identifican parámetros mecánicos importantes.
La Tabla 5.1 enumera los parámetros de datos comúnmente utilizados.
En otras palabras, la entrada es una serie temporal multivariante con nueve variables:
{T1 , T2 , . . . T9 }
donde Ti es una serie de números reales {X1 , X2, . . . Xn } registrado secuencialmente durante un
período de tiempo específico.
Los datos generados por sensores no están directamente listos para construir los modelos de
clasificación. Estos datos contienen, en la mayoría de los casos, valores atípicos y faltantes que influirán en
la precisión del cálculo de características.
Tabla 5.1 Parámetros de entrada de datos estándar
Datos Descripción
Flowinav Tasa de flujo de lodo promedio
Hkldav Carga media del gancho
Mdbit Medir la profundidad de la broca
Agujero Profundidad medida del agujero
prebomba Presión media de la bomba
Ropav Tasa media de penetración
Rpmv Revoluciones promedio de la sarta de perforación
Tqav Par medio
Wobav Peso medio sobre broca
La limpieza de datos es una fase elemental que debe preceder a todas las demás fases
de aprendizaje automático. En la tarea de limpieza de datos se ejecutaron dos subtareas que
son:
ÿ Identificación y manejo de valores faltantes
ÿ Identificación y manejo de valores atípicos
Un valor atípico es un valor numérico que tiene una desviación inusualmente alta del valor
medio o de la mediana. Aunque existen numerosos algoritmos sofisticados para la detección
de valores atípicos, en este trabajo se utiliza un método estadístico simple. Este método se
basa en el rango intercuartílico (RIC), que es una medida de la variabilidad de los datos. IQR
fue calculado por esta ecuación:
IRQ = Q3 ÿ Q1 . . . 1
Aquí, Q1 y Q3 son los valores medios en la primera y tercera mitad del conjunto de datos,
respectivamente. Un valor atípico es cualquier valor X que esté al menos 1,5 rangos
intercuartílicos por debajo del primer cuartil
encima
Q1 , odel
al menos
tercer cuartil
1,5 rangos
Q3 . Una
intercuartílicos
de estas ecuaciones
por
debe ser satisfecha:
X < Q1 ÿ 1,5 * RIC . . . 2
X > Q3 ÿ 1,5 * RIC . . . 3
Los diagramas de caja y bigotes se implementaron como una representación gráfica para
mostrar la dispersión de los datos, resaltando los valores considerados atípicos.
La Figura 5.16 muestra que no hay valores atípicos en los datos de "mdbit" tomados de
un escenario de perforación e ilustra los valores atípicos en los datos de "mdhole" y "carga de
gancho" tomados del mismo escenario de perforación.
0
1 2 3
mdbit mdhole Gancho de carga
Figura 5.16 Diagrama de caja para mdbit, mdhole y hkldav
La longitud de la caja equivale a la diferencia entre Q3 y Q1 , que es IRQ. La línea dibujada dentro
de la caja es el valor de la mediana. Todos los puntos de datos por encima de la línea horizontal superior
o por debajo de la línea horizontal inferior se tratan como valores atípicos.
Los datos se normalizaron para reducir la variación no deseada entre conjuntos de datos.
La normalización también permite comparar los datos representados en diferentes escalas al convertirlos
a una escala común.
Como la profundidad total de cada pozo perforado varía en la cartera de pozos, todos los
parámetros relacionados con la profundidad (p. ej., "hkldav", "mdbit" y "mdhole") se normalizaron
dividiéndolos por la profundidad total del pozo elegido. . Los parámetros no relacionados (p. ej., "ropav")
no se normalizaron.
El segundo paso del enfoque es la extracción de características, que es la transformación de
patrones en características que se consideran como una representación comprimida.
Dado que los datos de series temporales de perforación representan un espacio de entrada
multidimensional, es difícil analizarlos debido a la gran cantidad de características que se pueden extraer
de los datos sin procesar.3 Para reducir la dimensionalidad de los datos, se construye una representación
de alto nivel donde se calcula un conjunto de características significativas.
Estas características proporcionan una aproximación de los datos originales de la serie temporal.
Para cada variable de serie de tiempo Ti = {X1 , X2 , . . ., Xn }, i = 1..10 se calcularon muchas

características estadísticas para medir diferentes propiedades de esa variable. Los principales grupos
de medidas estadísticas calculadas fueron:
ÿ Medidas de tendencia central: media, mediana y moda
ÿ Medidas de variabilidad: varianza, desviación estándar, IRQ y rango

ÿ Medidas de forma: asimetría, curtosis y segundo momento

ÿ Medidas de posición: percentiles
ÿ Medidas de impureza: entropía
Los datos de alta dimensión pueden contener un alto grado de redundancia que
impacte negativamente en el rendimiento de los algoritmos de aprendizaje.4 Por lo tanto,
la selección de características es un paso importante en el flujo de trabajo. El paso inicial
en la fase de selección de características es eliminar las características correlacionadas
(colinealidad) para reducir la dimensionalidad de los datos y aumentar la eficiencia
computacional. El método más eficiente para la selección de características es clasificar
las características con alguna prueba estadística y luego seleccionar las k características
con la puntuación más alta o aquellas con una puntuación superior a un umbral t. Dichos
filtros univariados no toman en cuenta la interacción de las características, pero permiten
una primera inspección de los datos y lo más probable es que brinden resultados razonables.5
Aunque los algoritmos de la Tabla 5.2 no produjeron resultados idénticos, hubo
alrededor del 70 por ciento de similitud entre estos resultados. Por ejemplo, la mayoría
Tabla 5.2 Algoritmos de clasificación de características
Algoritmo Descripción
SAM Calcula un peso de acuerdo con el “Análisis de significancia para

micromatrices”
PCA Utiliza los factores de uno de los análisis de componentes principales como
ponderaciones de características
MVS Utiliza los coeficientes del vector normal de una máquina de vectores de soporte
lineal como ponderaciones de características
chi-cuadrado Calcula la relevancia de una característica calculando para cada

atributo el valor de la estadística chi-cuadrado con respecto al atributo de
clase
Alivio Mide la relevancia de las características muestreando ejemplos y

comparando el valor de la característica actual con el ejemplo más cercano
de la misma clase y de una clase diferente
Índice Gini Calcula la relevancia de los atributos en base al índice de impurezas
de Gini
Correlación Calcula la correlación de cada atributo con la etiqueta

atributo y devuelve el valor absoluto o al cuadrado como su peso
Relevancia Máxima Selecciona correlación de Pearson, información mutua o prueba F,

según la función y el tipo de etiqueta
Incertidumbre Calcula la relevancia de un atributo midiendo la incertidumbre simétrica

con respecto a la clase
Los algoritmos colocan las funciones de flujo en p90, asimetría de wobav, varianza de rpm y rango de
presumppav en la parte superior de la lista de clasificación.
La pregunta resultante ahora es: ¿Cuántas funciones se deben usar para obtener el mejor modelo
en términos de precisión? Para responder a esta pregunta, era imperativo realizar múltiples pruebas. Se
desarrollaron muchos modelos con diferentes números de características y, posteriormente, se determinó
un indicador de precisión para cada modelo.
Se utilizó un algoritmo de análisis de componentes principales (PCA) para clasificar las

características. Las características se agregaron una a la vez, comenzando con la característica superior
identificada por los valores propios correspondientes.
Una vez que se han extraído las características más informativas, se inicia el proceso de
clasificación. En este estudio se utilizaron cinco técnicas de clasificación. Estas técnicas son: Máquina
de vectores de soporte (SVM),6 Red neuronal artificial (ANN),8 Inducción de reglas (RI), Árbol de
decisión (DT) y Naïve Bayes (NB).
El desempeño de los clasificadores se evaluó utilizando el método de validación cruzada. El peor

clasificador es invariablemente el NB, y los clasificadores óptimos son SVM y RI.
Mejores prácticas de terminación no convencional
El objetivo del estudio es identificar una estrategia de terminación para un plan de tratamiento de fractura
hidráulica optimizado. ¿Qué variables jugarán el papel más importante e impondrán un impacto en los
volúmenes de producción de hidrocarburos y el desempeño posterior al tratamiento?
Se desarrollaron flujos de trabajo y modelos capaces de clasificar una estrategia de terminación y

enumerar planes de tratamiento similares realizados previamente para ayudar a los ingenieros a evitar
posibles desafíos (diseño basado en la similitud).
Además, se identifican los principales factores que influyen en el éxito o fracaso del tratamiento.
ÿ Preparar datos: el conjunto de datos proporcionado incluía múltiples yacimientos y estrategias de

terminación de fracturas hidráulicas. Debido a la variabilidad inherente impulsada por los
parámetros del yacimiento, se ha desarrollado un conjunto de indicadores para normalizar las
mediciones con respecto a los parámetros del yacimiento y otras variables no controlables.
ÿ Calificar terminaciones: los tratamientos se agrupan en contenedores de similitud para permitir

una exploración de las tendencias y patrones ocultos que sustentan la generación posterior de
modelos. Además, la agrupación de terminaciones sirve para identificar pozos que son atípicos
para un conglomerado o que no pueden asignarse a un conglomerado específico y, por lo tanto,
se consideran atípicos. Luego se diagnostican como candidatos para futuras investigaciones.
ÿ Cuantificar el agrupamiento de finalización: según los indicadores definidos en el primer paso,

cada finalización puede clasificarse en uno de los contenedores definidos en el segundo paso
del estudio. Esto permite a los ingenieros clasificar nuevos tratamientos basados en análogos
durante la fase de planificación en su contenedor más probable para poder identificar similitudes
y prever posibles desafíos.
ÿ Deducir el rendimiento de la terminación: se desarrollaron modelos predictivos para inferir el

resultado de terminación más probable en aquellos intervalos en los que el número de
mediciones fue lo suficientemente amplio como para mostrar tendencias y relaciones bajo
incertidumbre. Los flujos de trabajo y los modelos se implementan para planificar pozos futuros
comparando las propiedades del yacimiento objetivo con las del almacén de datos de
terminaciones existentes. Luego podemos formular una lista de los pozos más similares con el
mejor rendimiento para ayudar en la planificación de nuevos tratamientos.
Los objetivos de un modelo basado en datos son comunes tanto para la planificación
y fases operativas de una estrategia de tratamiento de fractura hidráulica:
ÿ Minimiza la piel total.
ÿ Optimizar el volumen de fluido de fractura.
ÿ Optimizar el volumen de ácido.
ÿ Optimizar el volumen de apuntalante.
ÿ Maximizar el rendimiento de la etapa de hidrocarburos acumulados.
ÿ Minimizar la producción de etapas de arena y agua.
Durante las fases de planificación y operación, estamos estudiando aquellos parámetros geológicos
que caracterizan la optimización de la ubicación de un pozo para un máximo contacto con el yacimiento
y drenaje de hidrocarburos:
ÿ Área de perforación y longitud

ÿ Dimensiones de la fractura
ÿ Espesor productivo bruto de la formación
ÿ Número de etapas
ÿ Segunda derivada de LaPlacian
ÿ inmersión
Además, la fase de planificación debe considerar la geomecánica del yacimiento y las propiedades
de la roca, como la permeabilidad y la porosidad. Sin embargo, el estudio se centra principalmente en
identificar aquellos parámetros controlables que pueden medirse y entenderse como efectivos para
lograr los objetivos enumerados anteriormente.
• Perforación y terminación (límites de tamaño de revestimiento)
Perforación
• Determinación de las propiedades del yacimiento
operación
• Según el espesor de la zona productiva

• Perforación desequilibrada: menos piel
Perforación
• Previene la producción de arena

• Reducir los problemas de erosión en las tuberías
Pantalla
• Reducción de piel
• Limpieza del área cercana al pozo posterior a la perforación
Acidificante
• Obtener la presión de cierre de la fractura que limita la selección del apuntalante

minifractura
Pruebas
• Conectar el pozo al yacimiento y al control de arena

• Tip screen out (TSO)—Optimice las dimensiones de la fractura y obtenga un FC alto
Fractura
Fractura • Registro para la estimación de la geometría de la fractura

evaluación
Figura 5.17 Complejidad de una estrategia de terminación de una fractura hidráulica
La estrategia de terminación de la fractura es una operación de múltiples etapas

compuesta por varios procesos complejos que pueden resultar en falla o éxito. La Figura 5.17
proporciona una descripción general de la complejidad de una estrategia común de terminación
de fracturas.
Para yacimientos de alta permeabilidad, las fracturas conductivas cortas son ideales.
Al fracturar una formación de alta permeabilidad, la fractura debe diseñarse para extenderse
más allá del radio externo de la región dañada.
Las fracturas que no se extienden más allá de la región dañada no mejorarán la producción a
niveles óptimos y no disminuirán significativamente el potencial de producción de arena. Las
fracturas que se extienden significativamente más allá de la región dañada no tendrán un
impacto significativo en la productividad, pero darán como resultado costos de estimulación
más altos.
Metodología
La base de datos investigada contenía 105 tratamientos de terminación de paquetes de

fracturas de 12 yacimientos diferentes. Los tratamientos se llevaron a cabo en diferentes pozos
tipos (productor de petróleo, productor de gas, inyector de agua). En este estudio solo nos
enfocamos en los tratamientos de los 67 pozos productores de petróleo y dividimos los datos en tres
Durante las operaciones de terminación
Entradas estáticas Operacionalmente controlable Resultados objetivos
Área de perforación y longitud Volumen de líquido ácido Minimizar la piel total
Altura de la fractura, ancho y Tasa de fluido ácido Optimice el volumen de líquido de fracturación
Longitud
Espesor bruto real de Startigraphic Volumen de fluido de la almohadilla de fracturamiento Optimice el volumen de fluido ácido
Tasa de fluido de la almohadilla de fracturación

Conductividad de fractura Optimice el volumen de apuntalante
Permeabilidad promedio del yacimiento Flujo de retorno/volumen de sobretensión Optimice la producción acumulada
Porosidad promedio del yacimiento Tasa de reflujo/oleada Optimizar el rendimiento del escenario
Saturación de agua Tiempo de reflujo/oleada Minimizar y Producción
transmisibilidad Volumen de apuntalante Minimizar la producción de agua
Perf OB/UB Gradiente MD y Tamaño de malla de apuntalante bombeado por

TVD Escenario
Gradiente inicial de BHP Tasa de aceite inicial
Tratamiento con ácido Gradiente de presión Ganancia neta de presión
Tratamiento final de almohadilla y fractura Índice de adición inicial

Gradiente de presión
Gradiente BHPi Índice de Inyectividad Final Acidificación
TVD Índice de Inyectividad Final por Perf
Tasa Tasa de Petróleo y Transmisibilidad
Número de etapas
Tamaño de malla de apuntalante planeado por
Escenario
laplaciano
Aderezo
El módulo de Young
El coeficiente de Poisson
Figura 5.18 Ejemplos de los conjuntos de datos estudiados
cubos: entradas estáticas, controlables operativamente y salidas objetivas, como se ilustra en la Figura 5.18. Cada
tratamiento tenía 280 parámetros agrupados en las siguientes secciones:
ÿ Generalidades
ÿ Datos de pozos y yacimientos

ÿ Información de perforación
ÿ Información posterior a la perforación
ÿ Información del empacador de grava (GP)

ÿ Información de pantalla de médico de cabecera
ÿ Información acidificante
ÿ Información de prueba de tasa de paso
ÿ Información sobre minifracturas
ÿ Información de fracturamiento
ÿ Análisis posterior al trabajo
ÿ Información de finalización y rendimiento
ÿ Propiedades del yacimiento
Durante el primer paso, diferenciamos entre parámetros de entrada y salida y filtramos aquellos
que tienen una influencia menor o nula en el conjunto.
éxito del tratamiento. Las pruebas de frecuencia escalonada y minifractura son esenciales para planificar
el tratamiento, pero no afectan directamente a la función objetivo.
Los SOM se llevan a cabo con cinco variables a la vez para investigar cómo los parámetros del
yacimiento influyen en la geometría de la fractura. Las variables examinadas son la permeabilidad del
yacimiento, la porosidad, la longitud de la fractura, el ancho de la fractura y la altura de la fractura. El
objetivo era averiguar qué tipo de relación existe entre el yacimiento y las propiedades de la fractura.
Con base en la ontología, se crearon matrices de correlación para encontrar una asociación entre
varias variables de entrada y salida, y también entre las variables de salida. La única correlación fuerte
que se encontró fue entre la eficiencia del flujo y la piel total, que resultó del hecho de que los ingenieros
de campo calcularon la eficiencia del flujo a partir de la piel total. En la Figura 5.19 se representa la
matriz de correlación de las variables de salida más importantes.
Para reducir la complejidad y la varianza solo se tomaron en cuenta los tratamientos en los pozos
productores de petróleo. Todo el análisis PCA se realizó para 77 pocillos con 86 variables. Con las
primeras nueve PC, se pudo explicar el 71 por ciento del comportamiento total de los datos y la
complejidad de los datos se redujo en un 88 por ciento. Sin embargo, las variables no están ordenadas
por los criterios de la ontología.
Durante el primer paso se normalizaron las variables para que fueran comparables entre sí. El
flujo de trabajo de importancia variable predice aquellas variables que juegan un papel importante
mediante la evaluación de los componentes principales.
Se crearon indicadores para hacer que las observaciones sean comparables entre diferentes
embalses a fin de permitir la extracción de patrones y reglas. Primero distinguimos entre variables
controlables, no controlables y de salida o funciones objetivo.
Figura 5.19 Matriz de correlación
Para cada etapa de la estrategia de finalización hay indicadores de entrada, que son los parámetros de
diseño normalizados. Los indicadores de salida se dividen en dos grupos principales indicados por el código de
color. Representan la respuesta normalizada del reservorio en cada etapa de tratamiento y en el total (total)
éxito.
Estos indicadores se enumeran a continuación:
1. Indicadores de entrada:
una. Perforación
i. En la Perforación A = Longitud de la Perforación/Estratigráfica Bruta Verdadera

Espesor
b. Acidificante
i. En ácido A = Volumen de fluido/(permeabilidad promedio*Longitud de perforación

MARYLAND)
ii. In Acid B = Gradiente de presión de tratamiento de ácido

C. Fractura
i. En Fractura A = Gradiente de presión de tratamiento de almohadilla final/Gradiente BHPi
ii. En fractura B = Gradiente de presión de tratamiento de fractura final/BHPi

Degradado
iii. En Fractura C = Volumen de líquido de la almohadilla de fractura/(Perm. promedio*Perforación

MD de longitud)
IV. En Fractura D = Volumen Total de Líquido de la Fractura/(promedio Perm*Perforación

MD de longitud)
v. En fractura E = Volumen de líquido de la almohadilla de fractura/Volumen de líquido total de fractura
vi. En Fractura F = Nr. de Etapas
vii. En Fractura G = Máx. Concentración de apuntalante
2. Indicadores de productos:
una. Perforación
i. Perforación de salida A = (Perforación. Presión OB/UB)/TVD
b. Acidificante
i. Out Acid B = (Índice de Inyectividad Final-Índice de Inyectividad Inicial)/

(Área de Perforación*(Tasa de Petróleo Inicial/Transmisibilidad))
C. Fractura
i. Fuera Fractura A = lbs/ft en TST Perforaciones
ii. Fractura exterior B = Altura est. de fractura
iii. Fractura exterior C = Ancho de fractura est
IV. Fuera Fractura D = Est. Longitud de fractura
v. Fuera Fractura E = Est. CFDs
d. Total
i. Total A = Tasa Inicial de Petróleo/Transmisibilidad
ii. B Total = Ganancia de Presión Neta/BHPi
iii. C Total = Eficiencia de Flujo
IV. D Total = Piel Total
El PCA se repitió para calificar las correlaciones entre los indicadores. Los primeros ocho componentes
principales se consideraron una representación adecuada de la variabilidad. En este punto, los dos primeros
componentes principales derivados del PCA sobre los indicadores se tomaron para construir los clústeres de
modo que la
Se puede matizar la relación entre indicadores y tratamientos.

Hay dos grupos principales que se pueden identificar fácilmente como se muestra en la Figura 5.20. El
que está en el lado superior derecho se comporta de manera completamente diferente.
Figura 5.20 Resultados de agrupamiento oblicuo en los indicadores
172
del que está en el lado inferior izquierdo. En el lado superior derecho hay indicadores que están
influenciados principalmente por los parámetros de diseño de fracturamiento. En el lado inferior
izquierdo, el grupo principal se puede dividir en otras dos subclases. El de los Clusters 3 y 5
incluye los indicadores que son principalmente indicadores relacionados con el volumen y los
otros (Clusters 1 y 4) son principalmente relacionados con la presión.
A continuación, se repitió el agrupamiento oblicuo, pero ahora también se tienen en cuenta
los tratamientos para ver qué tratamiento se describe mejor con qué indicador.
Después de analizar el resultado, se pudieron descubrir los mismos tipos de dominación que en
el primer agrupamiento oblicuo. Sin embargo, hay algunos pozos que no podrían agruparse en
estos tipos de dominación de acuerdo con los dos primeros componentes principales. Son los
valores atípicos y se pasan por alto durante la investigación subsiguiente y la construcción del
modelo.
Se construyó un árbol de decisión de clasificación para cuantificar los tipos de dominación.
El árbol de decisión indica que solo se requieren tres indicadores (en ácido A, en fractura E y en
fractura A) para diferenciar entre los tipos de dominación.
En Acid 1, vemos la regla más fuerte. Muestra que si el volumen relativo de ácido
bombeado es superior a 1,6, entonces el pozo reflejará un tipo de dominancia de volumen.
Después de eso, In Fracture E e In Fracture B diferencian entre los tratamientos dominados
por el diseño y los dominados por la presión. Tenga en cuenta que hay dos subgrupos de
tratamientos dominados por el diseño y tres subgrupos de tratamientos dominados por la presión.
Luego de analizar los datos y fusionarlos con el conocimiento experto de la industria
petrolera, se construyó un modelo que clasifica los tratamientos existentes en varias categorías
según su diseño y desempeño. El resultado es una lista de tipos de pozos para cada categoría.
Este modelo se puede utilizar para planificar pozos futuros comparando sus propiedades de
yacimiento con las de la base de datos existente. Luego puede generar la lista de los pozos más
similares (basados en las variables no controlables) con el mejor desempeño. El esquema del
tipo de pozos puede ser utilizado como esquema de diseño por los ingenieros de planificación.
El "Activo de Pinedale" del Capítulo 8 detalla otro ejemplo de una estrategia de optimización
de la finalización determinada a través de una metodología analítica avanzada.
Este examen se realizó en el activo no convencional conocido como
Pinedale en el oeste de Wyoming.
NOTAS
1. Tom Keyser, “Roger Butler: Padre de SAGD”, Business Edge (2 de mayo de 2005).
2. T. Lambrou y P. Kudumakis, “Clasificación de señales de audio usando características estadísticas en
Tiempo y dominios de transformación de wavelet”, IEEE, 2002.
3. A. Arnaout, B. Esmael, RK Fruhwirth, G. Thonhauser, "Diagnóstico de problemas de perforación mediante análisis
visual de mediciones de sensores", 2012 In Proc. de la Conferencia Internacional de Tecnología de Medición e
Instrumentación IEEE I2MTC, Graz, Austria, 2012.
4. CA Ratanamahatana, J. Lin, D. Gunopulos, E. Keogh, M. Vlachos y G. Das, "Mining Time Series Data", en Data
Mining and Knowledge Discovery Handbook, 2.ª ed., ed. O. Maimon y L. Rokach (Nueva York: Springer, 2010),
1049–1077.
5. L. Yu y H. Liu, "Selección de características para datos de alta dimensión: una solución de filtro basada en
correlación rápida", Vigésima Conferencia Internacional sobre Aprendizaje Automático (ICML-2003), 2003.
6. B. Schowe, "Selección de características para datos de alta dimensión con RapidMiner", Technical
Universidad de Dortmund, 2010.
7. Adriane BS Serapiao, Rogerio M. Tavares, Jose Ricardo P. Mendes e Ivan R. Guilherme, "Clasificación de
las operaciones de perforación de pozos de petróleo mediante la máquina de vectores de soporte (SVM)",
en Actas de la Conferencia internacional sobre inteligencia computacional para modelado , Control y
Automatización (CIMCA 2006), IEEE Computer Society, Sydney, Australia, 2006.
8. R. Fruhwirth y G. Thonhauser, “Hybrid Simulation Using Neural Networks to Predict Drilling Hydraulics in Real
Time”, Exposición y conferencia técnica anual de la SPE, San Antonio, TX, 24 al 27 de septiembre de 2006.
CAPÍTULO 6
Reservorio
administración
El conocimiento os libera de las cadenas de la

ignorancia y revive vuestro corazón; el conocimiento
os saca de las tinieblas de las sospechas y
supersticiones, y da nueva luz a vuestros ojos.
Hazrat Abu Ali Saqfi
o el valor presente neto del activo (reservas de hidrocarburos) mientras se minimiza

El objetivo
CAPEX de la gestión
y OPEX.1 de yacimientos
El control es maximizar
de las operaciones la rentabilidad
para maximizar la produccióneconómica
tanto a
corto como a largo plazo predica una optimización del ciclo de vida basada en las incertidumbres
del modelo de yacimiento junto con la actualización del modelo mediante mediciones de
producción, sísmica de lapso de tiempo y otros datos disponibles. Los datos sísmicos de lapso
de tiempo, por ejemplo, ayudan a determinar los cambios en el yacimiento que ocurren con el
tiempo y se pueden usar como una nueva dimensión en la coincidencia histórica, ya que
contienen información sobre el movimiento de fluidos y los cambios de presión entre y más allá del pozo.
¿Cómo podemos procesar y utilizar la gran cantidad de información de manera
eficiente y garantizar que los modelos de yacimientos se mantengan actualizados y
sean consistentes con los datos? Exploraremos algunos de los datos y metodologías
analíticas asociadas apropiadas para la gestión de yacimientos en los estudios de caso.
Las tareas de gestión de embalses pueden clasificarse en términos generales en uno de cuatro grupos:2
1. Clasificación
2. Estimación
3. Segmentación
4. Descripción
175
La tarea de clasificación esencialmente pone etiquetas a todo lo que se considera

importante para un estudio. Por lo tanto, para identificar candidatos de pozos ideales para un
flujo de trabajo de estimulación, mediante la clasificación podríamos estipular un conjunto
predefinido de etiquetas como bueno, moderado o malo. Luego, el proceso atribuye los pozos
en función de las características entrantes a la clase apropiada. El conjunto de flujos de trabajo
de estimación imputa valores de datos faltantes y realiza transformaciones. Estas funciones se
pueden orientar en regresiones estadísticas y modelos de simulación numérica complejos que
están arraigados en los primeros principios. En la gestión de yacimientos, la determinación de
los pozos que son buenos candidatos para la estimulación es un proceso de clasificación, pero
la predicción del rendimiento del pozo posterior a la estimulación es una tarea de estimación.
A menudo, durante la aplicación de técnicas informáticas blandas, como las redes neuronales,
el espacio de entrada se caracteriza por una población multidimensional que captura ejemplos
de colinealidad. Este fenómeno se refiere a una relación lineal exacta o aproximada entre dos
variables explicativas; la multicolinealidad extiende el concepto a más de dos variables de
entrada. Entonces es beneficioso subpoblar el espacio de entrada original en grupos más
pequeños que tengan características o perfiles similares. Esta tarea es la segmentación. Un
conjunto de técnicas de agrupación permite esta tarea. Metodologías informáticas blandas que
implementan análisis de datos exploratorios para descubrir tendencias y relaciones ocultas, así
como modelos predictivos como redes neuronales, brindan a los ingenieros de yacimientos
una mejor descripción de los datos dispares agregados para un estudio.
Es fundamental casar los flujos de trabajo basados en datos con los primeros principios
en la gestión de yacimientos. Existe una variedad de modelos deterministas o paramétricos,
como la simulación de yacimientos, que se basan en parámetros de entrada determinados a priori.
A continuación, los datos blandos generados se evalúan y comparan con los datos medidos. El
conocimiento del dominio aparentemente controla la complejidad inherente a los cambios
determinísticos del modelo, suponiendo que la complejidad es demasiado compleja para confiar
en el ajuste automático del modelo para que coincida con los datos medidos.
En la gestión de yacimientos, se pueden producir modelos multivariantes arbitrariamente
complejos mediante una metodología basada en datos, mientras que los modelos paramétricos
tienden a estar limitados por la comprensión humana. ¿Los administradores de yacimientos
dependen demasiado de las observaciones empíricas? A medida que la industria genera más
variedades de datos y trata con una avalancha de datos en tiempo real de sensores en pozos
inteligentes, está evolucionando hacia un entorno que requiere un conjunto de técnicas
informáticas basadas en datos.
Halbouty3 declaró en 1977: “Es deber y responsabilidad de los gerentes de la industria
alentar la coordinación total de geólogos, geofísicos e ingenieros petroleros para avanzar en la
exploración, el desarrollo y la producción de petróleo”.
Sin embargo, la adopción de los procesos integrados y colaborativos de los que se hace eco
este sentimiento se ha hecho al azar y a un ritmo muy lento. Haldorsen y Van Golf-Raachtl4
presentaron una filosofía de gestión de yacimientos desde la exploración hasta el abandono.
El proceso de diseño económicamente óptimo
G esión de embalsesâ•‡ ÿ 177
los desarrollos de campo se discutieron extensamente, con énfasis en la descripción de yacimientos y la

interacción de las disciplinas.
La vida de un yacimiento comienza con la exploración, que lleva al descubrimiento; delineación de

yacimientos y desarrollo de campos; producción por medios primarios, secundarios y terciarios, e
inexorablemente la fase final de abandono (Figura 6.1).
El manejo adecuado de los yacimientos requiere un monitoreo y una vigilancia constantes del
desempeño del yacimiento desde una perspectiva holística. ¿Se ajusta el desempeño del yacimiento a
las expectativas de la gerencia? Las áreas importantes que agregan valor a lo largo de la cadena de
valor de E&P en lo que respecta al monitoreo y vigilancia involucran la adquisición y gestión de datos:
ÿ Tarifas de petróleo, agua y gas y producción acumulada
ÿ Inyección de gas y agua
ÿ Presiones de fondo de pozo estáticas y de flujo
ÿ Pruebas de pozos de producción e inyección
ÿ Perfiles de inyección y producción de pozos
ÿ Análisis de fluidos
ÿ Estudios sísmicos 4D
Determine un conjunto de flujos de trabajo de planificación de campo y rendimiento de yacimientos:
ÿ Vigilancia de embalses:
ÿ Gestión de pozos
ÿ Fiabilidad y optimización de pozos
EOR
Delineación
Exploración & Abandono
Producción
Descubrimiento
Desarrollo Estrategias
PRIMARIO TERCIARIO
SECUNDARIO
Figura 6.1 Cogs de gestión del depósito

ÿ Gestión de campo
ÿ Modelado de yacimientos
ÿ Rendimiento del embalse:
ÿ Monitoreo de la relación de producción de inyección (IPR)
ÿ Mantenimiento de la presión
ÿ Eficiencia de barrido
ÿ Detección y diagnóstico de entrada de agua y gas
Cada uno de estos flujos de trabajo seleccionados tiene actividades que podrían categorizarse
como actividades basadas en datos y/o actividades basadas en modelos. Las actividades basadas en datos
Los lazos están íntimamente involucrados en las áreas de monitoreo y detección de eventos, y parcialmente
en diagnóstico y análisis. Las actividades basadas en modelos están más relacionadas con los aspectos de
optimización de los diversos flujos de trabajo e involucran modelos de yacimientos y algoritmos de optimización.
Los análisis automatizados, ya sean univariados o multivariados, son esenciales para que los datos
sean sólidos para los flujos de trabajo que combinan los primeros principios con las técnicas informáticas para
garantizar una cuantificación confiable de la incertidumbre y la evaluación de riesgos a lo largo del ciclo de
vida del yacimiento.
La caracterización y simulación de yacimientos, como se analiza en el Capítulo 4, desempeña un papel
fundamental en el desarrollo de campos y la gestión moderna de yacimientos. Ayuda a tomar decisiones de
reservorio acertadas y mejora el valor de los activos de las compañías de petróleo y gas. Maximiza la
integración de datos y conocimientos multidisciplinarios y mejora la confiabilidad de la predicción del
desempeño del yacimiento. El producto final es un modelo de yacimiento con tolerancia realista a la
imprecisión y la incertidumbre.
La computación blanda es una colección de varias técnicas inteligentes que ahora juega un papel crucial
en la mejora del rendimiento. El objetivo de la computación blanda, en comparación con la computación “dura”
tradicional, es explotar la tolerancia a la imprecisión, la incertidumbre, el razonamiento aproximado y la verdad
parcial. Por lo tanto, la construcción e interpretación de modelos deterministas debe complementarse con
métodos estocásticos y basados en computación suave.
El sector upstream de petróleo y gas tiene algunos de los repositorios no administrados más grandes
de datos verticalmente especializados de cualquier industria. Los principales obstáculos de TI que enfrentan
las empresas de exploración y producción en el camino hacia el campo petrolero digital son la integración y
validación de datos.
Los análisis ayudan a las empresas a tomar mejores decisiones; Los análisis en la base de datos ayudan
a las empresas a tomar esas decisiones más rápidamente, brindando información en segundos y minutos en
lugar de semanas y meses. En un entorno tradicional, los datos se copian del almacén de datos de la empresa
(EDW) y se convierten para que los productos de nicho los analicen y procesen. Con las cantidades masivas
de datos que las empresas de O&G manejan hoy en día, los procesos analíticos pueden requerir una gran
movimiento de datos que consume mucho tiempo dentro de la organización. La ejecución de esos
procesos dentro del EDW reduce en gran medida la cantidad de datos que se deben copiar, mover y
convertir.
Como resultado, los problemas de redundancia y latencia disminuyen, la calidad de los datos y
la consistencia de los datos mejoran, y el costo total se reduce, ya que la empresa ya no tiene que
hacer toda esa administración de datos adicional.
Además de la tecnología, hay otras dos áreas importantes para alinear:
1. Personas: incorpore de manera efectiva la gestión del cambio y el conocimiento en sus

operaciones integradas para una colaboración efectiva y operaciones optimizadas.
2. Procesos: Mejore la toma de decisiones y aumente la eficiencia operativa al

vinculando efectivamente cada componente de su campo petrolero digital.
CAMPO PETROLÍFERO DIGITAL DEL FUTURO
El yacimiento petrolífero digital es una estrategia para mejorar un área específica del negocio de
una compañía petrolera mediante el despliegue efectivo de personas, tecnología y conocimientos.
Sin embargo, la iniciativa del campo petrolífero digital está transformando la forma en que trabaja la
gente. Un ingrediente clave del yacimiento petrolífero digital es el acceso rápido, fácil y oportuno a
datos de calidad: las empresas deben cambiar la carga de organizar los datos de las personas a los sistemas.
Lograr el yacimiento petrolífero digital requiere innovación en software y hardware informáticos
y en telecomunicaciones para "educar" y "equipar" de manera efectiva casi todos los aspectos de la
actividad de exploración y producción de petróleo y gas en una operación integrada en tiempo real.
Y esta innovación impacta a los expertos del dominio y la tecnología para sacar a la luz una
perspectiva colaborativa sobre el conocimiento acumulado de todas las facetas de los datos upstream.
Al igual que los londinenses que se preocupan por la brecha del metro, ¿por qué no nos
preocupamos por la brecha en el despliegue de inteligencia, ese abismo que debe salvarse para
hacer las preguntas correctas y determinar respuestas más oportunas y estratégicas? A medida que
aumenta la demanda de inteligencia y conocimiento, uno tiene que extraer los exabytes o los que
pronto serán petabytes de datos existentes en los silos aguas arriba para obtener valor de los activos,
tomando decisiones y estrategias casi en tiempo real para explotar las reservas en los reservorios. .
Cerrar la brecha de capacidad tecnológica
La industria del petróleo y el gas necesita cerrar la brecha de capacidad con tecnología pertinente
que adopte las tendencias actuales para mejorar la productividad. El costo que implican las
predicciones deficientes debe mitigarse mediante una mejor integración de las disciplinas y la fusión
de datos mediante la adopción de métodos informáticos suaves como redes neuronales, lógica difusa
y razonamiento probabilístico inculcado en flujos de trabajo eficientes.
En la gestión de yacimientos, es fundamental desarrollar modelos que contengan cualquier combinación

significativa de tipos de datos para formular un conjunto de datos espaciotemporales a partir de las siguientes
clases:
ÿ Datos relacionados con la profundidad (registros de pozos, parámetros de perforación, datos de núcleos, etc.)
ÿ Propiedades del pozo (PI, factor de daño y ubicación, etc.)
ÿ Datos de series temporales (presiones, historial de producción, pruebas de pozos, etc.)
ÿ Distribuciones de área (OOIP, permeabilidad, etc.)
Estas clases de datos difieren en cuanto al "patrón" que se introduce en una red neuronal para el
entrenamiento y la calibración de un modelo listo para la predicción.
Un patrón podría ser:
ÿ Datos relacionados con la profundidad: todos los datos recopilados a cierta profundidad
ÿ Propiedades de pozos: todos los datos recopilados con una periodicidad específica (diaria o mensual)
ÿ Distribuciones de área: todos los datos de una ubicación geográfica
Metodologías Analíticas Avanzadas
Hay cinco obstáculos principales que superar en la gestión de datos para lograr el verdadero campo petrolero
digital del futuro:
1. Disponibilidad de datos: las comunicaciones por satélite han recorrido un largo camino; sin embargo,
será necesario mejorar su confiabilidad y disponibilidad para garantizar que el 'campo petrolero
digital' pueda mantener sus niveles heterogéneos de uso.
2. Accesibilidad: Facilidad de uso. En la mayoría de los casos, muy pocas personas envían personal de
entrada de datos a las plataformas; el sistema tiene que ser fácil de usar para los operadores.
3. Agregación de información: esto es para garantizar que se proporcione conocimiento de la situación

global, para que el operador facilite el flujo adecuado de información a fin de permitir que las
empresas de servicios trabajen más cerca y, por lo tanto, reducir la entrada de datos humanos
cuando sea posible.
4. Disponibilidad de la información: los usuarios pueden estar dispersos geográficamente y requerirán

métodos de entrega remota (tecnología web) para obtener los datos que necesitarán para tomar
decisiones o informar.
5. Flexibilidad: El campo petrolero opera con muchas variables que afectan el progreso operativo de
cada proyecto. El sistema de TI tiene que hacer frente a los cambios desde el campo sin perder su
lugar en el mapa.
Gestión de datos
Las arquitecturas de administración de datos brindan a las organizaciones una solución flexible y confiable
para satisfacer sus necesidades básicas de integración de datos, al tiempo que conservan la opción de
actualizar a capacidades más completas a medida que cambian sus situaciones. Eso
elimina los retrasos en la entrega y los altos costos asociados con tener un código personalizado de
creación de TI para cada proyecto de integración o tener que ensamblar innumerables tecnologías no
integradas al proporcionar una solución única, integrada y fácil de usar.
Elimina la necesidad de que las organizaciones adquieran nuevas herramientas y aprendan nuevas
habilidades a medida que asumen proyectos de integración de datos nuevos y más complejos. Hay
proveedores que pueden establecer una única solución para acomodar las actividades básicas de
integración de datos ahora, que pueden expandirse a una solución completa más tarde, aprovechando
completamente las habilidades, los procesos y las reglas que una organización ha desarrollado previamente.
¿Tiene la tarea de construir y cargar almacenes de datos y data marts dentro de un período de
tiempo asignado, construir rápidamente un mart analítico para un proyecto especial o crear archivos
de extracción para aplicaciones de informes y muestreo? Es imperativo obtener un escritorio intuitivo
de diseño de procesos de apuntar y hacer clic que permita a los diseñadores crear fácilmente flujos de
trabajo de procesos lógicos, identificar rápidamente los almacenes de datos de entrada y salida y crear
reglas comerciales en metadatos, lo que permite la generación rápida de almacenes de datos, marts y
flujos de datos. Además, se necesita un lenguaje de transformación fácil de usar que admita la
colaboración, la reutilización y los metadatos compartidos.
La limpieza y el enriquecimiento de datos proporciona un conocimiento limpio, creíble y correcto.

Desde la duplicación de la información de la base de datos hasta la limpieza de los datos antes de
almacenarlos en el almacén de datos y el retorno a los datos operativos con las mismas mejoras de
calidad a través de la limpieza de transacciones en tiempo real, debe haber un enfoque empresarial
que le permita desarrollar y compartir una biblioteca. de reglas y procesos de datos entre proyectos y
en toda la solución de integración de datos.
Un entorno fluido lleva a los usuarios desde la creación de perfiles y reglas, pasando por el
procesamiento de integración de datos, hasta la supervisión de los resultados. Las reglas de calidad
de datos se pueden crear rápidamente mientras se perfilan los datos y luego se incorporan
automáticamente al proceso de transformación de datos. Un entorno de diseño de flujo de trabajo
facilita el aumento de los datos existentes con información de nuevas fuentes, aumentando el valor de
sus datos.
La creación de un entorno de datos maestros permite que las organizaciones proporcionen una
única fuente de verdad en torno a la cual se pueden sincronizar los sistemas empresariales. Esto
requiere extraer datos clave de diversos entornos operativos para crear un sistema de archivos de
registro, establecer vínculos para mantener sincronizados ese sistema y los archivos del sistema
operativo, y proporcionar un acceso rápido en todos los sistemas operativos para dominar los datos sin
degradar el rendimiento operativo. Con la capacidad de leer y escribir en prácticamente cualquier dato
en cualquier plataforma tecnológica por lotes y en tiempo real, este es el objetivo de proporcionar
acceso a datos sin igual.
Los datos son un activo estratégico de cualquier compañía petrolera, no pertenecen principalmente
al dominio que recolecta los datos. La integración de datos y la gestión de datos maestros son clave
para el conocimiento empresarial.
Las organizaciones deben crear procesos para administrar sus datos, o corren el riesgo de que
se extravíen o se pierdan. En un mundo de accesibilidad en tiempo real,
la inaccesibilidad de cualquier magnitud puede causar grandes daños. El daño se agrava si

los datos están dañados o caen en las manos equivocadas. Esto lleva a otro tema: la legislación
federal.
Legislación Federal
Muchas organizaciones están obligadas por ley a informar a las organizaciones federales, como
el Servicio de Administración de Minerales. Si los datos se ven comprometidos o se pierden,
esto puede provocar complicaciones graves. Además, las empresas que cotizan en bolsa o
aquellas que realizan negocios con ellas tienen la responsabilidad adicional de cumplir con
leyes como Sarbanes-Oxley, lo que aumenta aún más el riesgo.
Arquitectura
Las empresas de petróleo y gas ahora albergan miles de conjuntos de datos diferentes,
exponencialmente más que en cualquier otro momento de la historia. Cada disciplina dentro
de la organización, ya sea un geofísico o un ingeniero de perforación, debe tener fácil acceso a
los datos para procesar, administrar y optimizar de manera eficiente estos conjuntos de datos discretos.
Debemos centrarnos en una arquitectura orientada a servicios (SOA): una SOA ascendente
aumentará drásticamente la flexibilidad del entorno de TI y reducirá el mantenimiento del
software de integración de TI. SOA es un enfoque de la computación distribuida que abstrae
los sistemas de TI complejos y heterogéneos en servicios compuestos orientados al negocio.
Algunas aplicaciones son consumidores y algunos proveedores. Evite la evolución del sistema
punto a punto. La arquitectura de O&G debe contemplar la interoperabilidad para admitir la gran
cantidad de estándares, como el motor de intercambio XML, las API, la compatibilidad con
J2EE, .NET y los protocolos dispares, como HTTP, SOAP y T3. Define cómo se puede conectar
y usar.
Cumplir con los estándares de interoperabilidad impide o al menos evita un poco la creación de
silos digitales de información. Los datos deben ingresar una vez y ser utilizables a lo largo del
ciclo de vida del activo y por varias aplicaciones.
La arquitectura DOFF encapsula el paradigma de gestión de pozos y yacimientos que
refleja el arte de extraer el máximo valor de los activos de petróleo y gas al comprender y
optimizar el rendimiento de los yacimientos, pozos e instalaciones desde los poros de las rocas
del yacimiento hasta el yacimiento. a los pozos, a través de los pozos a las líneas de flujo e
instalaciones, y luego a las salidas aguas abajo: refinerías y gasolineras.
La médula y el núcleo de cualquier DOFF integran una versión del ciclo de vida ilustrado
en la Figura 6.2. Consta de cinco pasos:
Paso 1. Recopilación y gestión de los datos necesarios para comprender nuestros

yacimientos, pozos e instalaciones.
Paso 2. Usar estos datos para visualizar, interpretar y modelar los flujos de fluidos y las
presiones en el activo.
Datos planes
Activos Modelos
Decisiones
Evaluación Vigilancia Análisis
Económico Perforación Incertidumbre

Riesgo Levantar TNP
seguridad, salud y medio ambiente
Inyección DCA
Figura 6.2 Ciclo de vida de la gestión de pozos y yacimientos
Paso 3. Llevar a cabo un conjunto de revisiones estructuradas para convertir de manera

eficiente estos análisis en una sólida comprensión multidisciplinaria tanto de los
componentes como de la totalidad del activo.
Paso 4. Traducir este entendimiento en un conjunto concreto de acciones diseñadas para

mejorar el desempeño del yacimiento, los pozos y las instalaciones.
Paso 5. Ejecutar estas acciones en el campo para mejorar el rendimiento del activo físico
y realizar un seguimiento del rendimiento financiero de estas acciones.
Flujos de trabajo analíticos en tiempo real
Parece que la industria aún persigue esta abstracción de la gestión de yacimientos. En

respuesta a la plétora de datos en tiempo real de sensores desplegados en pozos inteligentes,
una solución de gestión de yacimientos abarca herramientas técnicas avanzadas, así como
flujos de trabajo analíticos automatizados y semiautomáticos.
Las prácticas de trabajo remoto promueven centros colaborativos de excelencia.
La mejora continua es fundamental para mantener cualquier éxito tangible en la cadena
de valor de exploración y producción de la industria del petróleo y el gas. Debe centrar sus
esfuerzos de DOFF en la mejora continua para empoderar a los equipos de activos a medida
que obtienen apoyo y atraen inversiones de la alta dirección.
¿Cuáles son los beneficios documentados de DOFF?
ÿ Aumento de la recuperación del yacimiento
ÿ Tasas de producción mejoradas

ÿ Reducción en OPEX
ÿ Menor CAPEX
El conocimiento total de los activos, junto con la ejecución oportuna y el análisis en el momento
adecuado, permiten ciclos de toma de decisiones más rápidos y efectivos. Respaldado por el análisis
basado en datos, es plausible transformar sustancialmente a las personas mediante el establecimiento
de flujos de trabajo y procesos optimizados respaldados por tecnología avanzada. Estas iniciativas
DOFF abren inexorablemente oportunidades para aumentar los factores de recuperación, mejorar las
tasas de producción de hidrocarburos con ahorros tangibles en los costos operativos y los gastos de
capital. Es esencial pasar de las aplicaciones de tecnología individuales en todo el panorama DOFF a
la optimización de activos cruzados después de la integración funcional en una implementación de
optimización de activos. ¿Cuáles son algunas de las tecnologías que aparentemente son los principales
contribuyentes a una cartera DOFF?
Enumeremos aquellas tecnologías que pueden depender de técnicas de computación blanda:
ÿ Sensores eléctricos de pozo
ÿ Terminaciones inteligentes
ÿ Gestión de datos en tiempo real
ÿ Análisis predictivo
ÿ Adquisición/procesamiento de datos sísmicos 4D
ÿ Tuberías de perforación cableadas
ÿ Geo-navegación
ÿ Levantamiento artificial
ÿ Equipos rotativos
ÿ Garantía de flujo
ÿ Planificación integrada
ÿ Optimización zonal
ÿ Perforación
ÿ Planificación y logística
ÿ Mantenimiento y confiabilidad
ÿ Centros colaborativos de competencia analítica
Hay múltiples ejemplos de iniciativas DOFF implementadas en los activos globales de O&G;
Algunos tienen más éxito que otros. Expliquemos en detalle una de esas iniciativas ejecutadas en uno
de los campos del Mar del Norte.
Figura 6.3 Acciones integradas de DOFF enhebradas por flujos de trabajo analíticos
Los elementos clave del programa DOFF, como se muestra en la Figura 6.3, que implementan
metodologías analíticas avanzadas incluyen:
ÿ Planificación integrada (IPL)
ÿ Gestión y vigilancia remota de proyectos
ÿ Optimización de la producción en tiempo real
Estas características resaltan algunas de las complejidades operativas y del subsuelo que el
personal de activos espera manejar mejor a través de su DOFF.
iniciativas.
CENTRO ANALÍTICO DE EXCELENCIA
Joseph Warren5 señala que el éxito de un equipo individual puede ser variable cuando afirma: “La
idea fundamental de los equipos y objetivos multifuncionales parece surgir cada diez años con
una nueva etiqueta. Por lo general, los intentos de implementar este concepto en el negocio de
E&P terminaron en un fracaso total por una variedad de razones”.
Para permitir una sinergia real entre todos los miembros del equipo, se requiere un software
potente y fácil de usar. La sinergia del estudio y los flujos de trabajo paralelos solo se pueden
lograr si todos los miembros del equipo pueden al menos navegar por todas las aplicaciones.
Por ejemplo, todas las disciplinas deberían poder examinar el modelo geológico (estructura,
propiedades, etc.), los resultados de la simulación (es decir, el frente de inundación con el tiempo),
el diseño de las instalaciones y los perfiles de producción de pozos, independientemente de sus
respectivas disciplinas. Para habilitar esta facilidad de uso, se crearon plantillas personalizadas
para facilitar la capacidad de exploración de estudios sin la necesidad de conocer cada aplicación
en detalle.
En lugar de colocar un equipo central de expertos en una sala con el simple mandato de
"obtener resultados", los Centros analíticos de excelencia utilizan un facilitador que
lleva al equipo a identificar y enfocarse rápidamente en los temas clave del estudio.6 Estos
temas clave son reforzados por los equipos ampliados y de decisión. Cada miembro del
equipo trabaja en paralelo en varias tareas. Todos los días, el facilitador recopila y resume
los resultados para su revisión y debate por parte del equipo central. A medida que continúa
esta rutina, todo el equipo, independientemente de su disciplina, converge en un
entendimiento común del panorama general, y comienza a surgir la verdadera importancia de varios temas.
El proceso de los Centros analíticos de excelencia (Figura 6.4) es muy complicado e
incluye 10 pasos desde el inicio hasta la finalización del proyecto.
Los siguientes son los 10 pasos para el proceso de Centros Analíticos de Excelencia:
Paso 1. Reúna datos y modelos en una unidad compartida.
Paso 2. Comprender los embalses, modelos de limpieza y actualización.
una. Esta etapa puede incluir muchos modelos mecanicistas y deterministas para
ayudar a la comprensión temprana de la caracterización y el comportamiento del
yacimiento.
Paso 3. Desarrollar una matriz de incertidumbres estáticas y dinámicas para todas las
variables y noción de las críticas.
Paso 4. Evaluar OOIP y su incertidumbre (incertidumbres estáticas).
una. Salida: el OOIP más probable junto con estimaciones de las incertidumbres
prácticas bajas y altas. Se identifican los parámetros que afectan esa incertidumbre
y se anotan los parámetros clave. La matriz de incertidumbre (parte estática de la
matriz) que se usó inicialmente como guía para este paso se afina, mostrando
factores críticos y rangos reducidos.
Figura 6.4 Conjunto de flujos de trabajo de Centros analíticos de excelencia

Paso 5. Lograr la coincidencia histórica y sus factores críticos.
una. Salida: varios modelos con historial coincidente y una lista de parámetros críticos y sus
rangos que se requerían para lograr esa coincidencia.
Paso 6. Construya el análisis de la estrategia de desarrollo.
una. Enumere los criterios de desarrollo (meseta, recuperación final estimada, restricciones
de perforación/instalaciones, tipos de pozos, etc.).
b. Construir estrategias de desarrollo alternativo. Estas estrategias suelen incluir inyección de

agua, inyección de gas, agua-gas alternativo, inundaciones periféricas o patrón, etc.
C. Clasifique las alternativas con corridas de simulación de yacimientos deterministas basadas
en la coincidencia histórica más probable.
d. Salida: una lista de estrategias alternativas seleccionadas y su clasificación.
Paso 7. Probar las alternativas más prometedoras bajo incertidumbre.
una. En este paso, la simulación del yacimiento se realiza con los factores críticos enumerados
en el paso 5 para seleccionar la(s) estrategia(s) de desarrollo preferida(s).
b. Salida: la selección de la alternativa más robusta, denominada estrategia de desarrollo

preferida (PDS).
Paso 8. Optimizar el enfoque del equipo en el PDS. En este punto se incluye una optimización
más detallada y, por lo general, incluye diseño lateral, estrategia de reacondicionamiento, objetivos
de disparos, relaciones de inyección/producción y diseño de pozos complejos (ecualizadores,
valores de control de fondo de pozo, etc.).
una. Producto: un Plan de Desarrollo de Campo Optimizado (OFDP).
Paso 9. Determine el impacto de la incertidumbre en el OFDP y enumere el plan de información

requerido para reducir el rango de incertidumbre de los factores críticos de incertidumbre.
Paso 10. Enumere el riesgo del proyecto según el paso 9 y enumere los planes de mitigación para
el OFDP.
Los Centros analíticos de excelencia es un enfoque de estudio novedoso7 que integra un nuevo
proceso con nuevas herramientas, creando sinergias entre las partes interesadas de todos los dominios
para resolver rápidamente problemas importantes durante un evento de equipo especial que dura dos
meses en lugar de años. Este nuevo enfoque es lo suficientemente flexible y escalable para cubrir
problemas que van desde un yacimiento hasta una unidad comercial completa con múltiples activos,
áreas de infraestructura y problemas de marketing, si es necesario. Los Centros analíticos de excelencia
son un paso más allá de los equipos de activos convencionales, donde el estudio se ha diseñado
específicamente para crear una mejor sinergia entre todas las partes interesadas (equipos de activos,
gerentes, tomadores de decisiones y socios) y permitir decisiones más rápidas que abarcan
completamente las incertidumbres complejas. relacionados con los proyectos actuales.
La implementación de este nuevo enfoque no requiere reorganización. Simplemente reúna

un equipo para cada estudio y disuélvalo cuando termine el estudio. Los Centros analíticos de
excelencia incluyen un enfoque nuevo y exitoso para manejar la incertidumbre y los riesgos del
proyecto. Los Centros analíticos de excelencia son un éxito comprobado en proyectos que han
abarcado todo el espectro de números de activos, complejidad y madurez.
FLUJOS DE TRABAJO ANALÍTICOS: MEJORES PRÁCTICAS
Es esencial desarrollar flujos de trabajo analíticos que sean propicios para la arquitectura de
software y los hábitos de trabajo habituales que se encuentran en los silos de ingeniería dispares.
Los procesos no solo permitirán modelos efectivos basados en datos, sino que también derribarán
los muros que bloquean a los geocientíficos experimentados a medida que los datos sin procesar
se convierten en conocimiento tangible y procesable. Los flujos de trabajo analíticos deben
abordar los problemas comerciales que se van a resolver. Existe una evolución natural para los
flujos de trabajo a partir de la identificación de la(s) función(es) objetivo y la enumeración de
aquellas variables independientes que son estadísticamente más influyentes en la(s) función(es)
objetivo identificada(s). Exploremos dos flujos de trabajo analíticos que detallan metodologías
como las mejores prácticas para el uso de técnicas de computación blanda para sacar a la luz
propuestas de valor.
Gestión de producción de esquisto
Los avances de Neoteric en las tecnologías de comunicaciones, instrumentación y campos

petroleros han permitido que ese sueño alguna vez intangible de la apreciación total de los activos
se haga más evidente. Es importante considerar tres sistemas complejos,
1. Embalse
2. Bueno
3. Instalaciones de superficie
e integrar los conjuntos de datos dispares que constituyen cada sistema, comprendiendo al
mismo tiempo la influencia de cada uno sobre los demás. Es fundamental aprovechar los datos
en tiempo real de cada campo para el monitoreo continuo y la respuesta en el momento adecuado
durante el ciclo de vida completo del campo en toda la cadena de valor de E&P.
La respuesta en el momento adecuado tiene esencialmente dos componentes:
1. Intervenciones efectivas basadas en la optimización intraproceso
2. Intervenciones estratégicas basadas en la comprensión minuciosa de los detalles

modelos
La industria de petróleo y gas ha adoptado varias nomenclaturas para definir sus tecnologías
digitales de superficie y subsuelo: campos inteligentes, campos petrolíferos digitales del futuro
(DOFF), campos integrados y operaciones heurísticamente integradas o planificación y logística
integradas.
Independientemente de la etiqueta que se le asigne a la solución, es fundamental darse cuenta

de que la médula y el núcleo de dicha solución deben lograrse a través de cuatro actividades
fundamentales:
1. Operaciones de perforación en tiempo real
2. Geodireccionamiento en tiempo real
3. Fuentes de datos de campo inteligentes
4. Centros de excelencia que logran una colaboración fluida
Por lo tanto, las piedras angulares son la integración y el aprovechamiento de ingenieros

multidisciplinarios de todas las escuelas de pensamiento geocientífico y la combinación de metodologías
con datos en tiempo real en todas las fases del desarrollo del campo y la gestión del ciclo de vida del
yacimiento.
La Figura 6.5 muestra una arquitectura de implementación que consta de cuatro niveles principales:
1. Vigilancia
2. Integración
3. Optimización
4. Innovación
Nivel de vigilancia
La capa de vigilancia brinda monitoreo continuo y recopila datos en tiempo real que se alimentan a una
plataforma de administración de datos que implementa flujos de trabajo de calidad de datos automatizados
y semiautomáticos.
Figura 6.5 Arquitectura de implementación

Nivel de integración
La capa de integración interroga datos en tiempo real de forma continua para identificar y sacar a la
luz tendencias ocultas y relaciones anómalas. En un sistema multivariante cualquier anomalía es
alertada para su posterior análisis.
Nivel de optimización
La capa de optimización proporciona recomendaciones y capacidades de optimización optimizadas.
Nivel de innovación
La capa de innovación conserva el conocimiento de los eventos que desencadenan el proceso de

optimización y correlaciona acciones a lo largo de cada uno de los procesos de negocio.
La capa de innovación es una capa de gestión del conocimiento y lecciones aprendidas que captura
e inyecta "inteligencia" en cada proceso.
Modelos de reservorio sustituto
Un modelo de yacimiento sustituto (SRM) es una tecnología introducida recientemente que se utiliza
para aprovechar el potencial no realizado de los modelos de simulación de yacimientos.
El alto costo computacional y el largo tiempo de procesamiento de los modelos de simulación de
yacimientos limitan nuestra capacidad para realizar un análisis de sensibilidad integral, cuantificar las
incertidumbres y los riesgos asociados con los parámetros geológicos y operativos, o para evaluar un
gran conjunto de escenarios para el desarrollo de áreas verdes. SRM replica con precisión los
resultados de un modelo de simulación numérica con un costo computacional muy bajo y un período
de respuesta bajo y permite un estudio extenso del comportamiento y los potenciales del yacimiento.
SRM representa la aplicación de inteligencia artificial y minería de datos a la simulación y modelado
de yacimientos.
Los pasos involucrados en el desarrollo del SRM son identificar la cantidad de ejecuciones que
se requieren para el desarrollo del SRM, realizar las ejecuciones, extraer datos estáticos y dinámicos
de las ejecuciones de simulación para desarrollar el conjunto de datos espaciotemporales necesarios,
identificar los indicadores clave de rendimiento ( KPI) que clasifican la influencia de diferentes
características del yacimiento en la producción de petróleo y gas en el campo, entrenando y
comparando los resultados del modelo de simulación y finalmente validando el desempeño del SRM
usando una ejecución de simulación ciega.
La SRM de este yacimiento se utiliza luego para realizar análisis de sensibilidad y cuantificar las
incertidumbres asociadas con el modelo geológico. Estos análisis que requieren miles de ejecuciones
de simulación se realizaron utilizando el
SRM en minutos.
Las ventajas del SRM sobre la superficie de respuesta y otros modelos de orden reducido son:
Superficie de respuesta y otros modelos de orden reducido que son
desarrollados utilizando enfoques estadísticos utilizan formas funcionales predeterminadas

que deben identificarse de antemano. Luego, los resultados de cientos de ejecuciones de
simulación se ajustan a estas formas funcionales predeterminadas con la esperanza de que
el comportamiento observado del modelo de simulación del yacimiento siga una forma
funcional predeterminada y de buen comportamiento. Durante el entrenamiento y
emparejamiento del SRM, no se identifican formas funcionales predeterminadas. Los SRM se
desarrollan utilizando tecnología de aproximación de función universal que se adaptará y
ajustará a un conjunto infinito de formas funcionales que pueden cambiar de un conjunto a
otro muchas veces dentro del dominio del tiempo y el espacio que es el tema de nuestro análisis.
Cuando se completa una ejecución de simulación, hay dos conjuntos de información que
se pueden extraer de ella. El primero son los perfiles de presión o producción en cada pozo y
el segundo son los cambios de presión y saturación en todo el yacimiento que han resultado
del proceso de producción/inyección. Si bien los perfiles de presión y producción se presentan
en cada pozo individual, los cambios en la presión y la saturación en todo el yacimiento se
identifican en cada bloque de cuadrícula. A diferencia de los modelos reducidos y de superficie
de respuesta que solo son capaces de reproducir una versión de la presión y la producción
en cada pozo, SRM brinda una replicación precisa de los resultados de la simulación no solo
en cada pozo sino también en cada bloque de cuadrícula. Mediante el uso de SRM basados
en pozos, se pueden reproducir perfiles de tasa y presión en cada pozo en segundos y, al
utilizar SRM basados en cuadrículas, se puede reproducir la distribución de presión y
saturación en cada ubicación de bloque de cuadrícula en cada paso de tiempo.
Los SRM se desarrollan utilizando datos extraídos de ejecuciones de simulación. Por lo

tanto, el primer paso en cualquier proyecto SRM comienza con el desarrollo de una base de
datos espacio temporal representativa. La medida en que esta base de datos espaciotemporal
representa realmente el comportamiento del flujo de fluidos del yacimiento que se está
modelando determina el grado potencial de éxito en el desarrollo de un modelo preciso.
El término espaciotemporal define la esencia de esta base de datos. Está inspirado en la
física que controla este fenómeno y se describe mediante la ecuación de difusividad. El
principal objetivo de modelar un yacimiento es poder conocer el valor de presión y saturación
en cualquier lugar del yacimiento y en cualquier momento. Por lo tanto, la recopilación,
compilación, organización y procesamiento de datos debe realizarse teniendo en cuenta
dichas necesidades.
En este paso, se debe llevar a cabo un extenso proceso de extracción y análisis de datos
para comprender completamente los datos que se encuentran en esta base de datos. La
compilación de datos, el control de calidad y el preprocesamiento es uno de los pasos más
importantes y lentos en el desarrollo del SRM. La "maldición de la dimensionalidad" es uno de
los problemas asociados con SRM y debe tratarse con elocuencia durante este paso del
proceso. El manejo adecuado de este importante tema puede hacer o deshacer todo el
proceso de modelado.
Uno de los pasos más importantes en el desarrollo del SRM es la identificación de los
KPI. La base de datos espaciotemporal que se desarrolló en
el paso anterior incluye una gran cantidad de parámetros que deben analizarse y posiblemente
incluirse en el modelo predictivo. Es un hecho que no todos los parámetros tienen el mismo impacto
en la producción de petróleo y gas en todo el yacimiento. El uso de una gran cantidad de parámetros
de entrada en el desarrollo de un modelo predictivo dará como resultado un sistema con serios
problemas de manejabilidad. Por lo tanto, es muy importante, e incluso vital para el éxito de la
capacitación, el emparejamiento y la validación del SRM, poder identificar de manera eficiente los KPI
de un modelo determinado.
El proceso de construir (entrenar) el SRM y hacer coincidir su desempeño con el del modelo de
simulación del yacimiento se realiza simultáneamente. Durante este proceso, se entrena al SRM para
aprender el modelo de yacimiento y el comportamiento del flujo de fluidos en el simulador de
yacimiento específico que se está modelando. La base de datos espaciotemporal desarrollada en el
paso anterior es la principal fuente de información para construir y combinar el SRM. Tenga en cuenta
que el SRM puede ser una colección de varios modelos que se entrenan, combinan, validan y
finalmente se usan en conjunto para generar los resultados deseados.
SRM se puede desarrollar tanto para brown-fields como para greenfields, siempre que exista un
modelo numérico de simulación de yacimientos para un activo determinado. SRM se puede construir
para replicar los resultados del modelo numérico de simulación de yacimientos con alta precisión y, al
mismo tiempo, tiene la ventaja de funcionar a velocidades que se pueden comparar con el tiempo real
(fracciones de segundo). Esta huella computacional mínima y de alta velocidad, junto con la alta
precisión (en la replicación de los resultados del modelo de simulación de yacimientos numéricos),
hacen de SRM una herramienta ideal para la gestión de yacimientos en tiempo real, el diseño de
planes maestros de desarrollo y la evaluación de la incertidumbre.
ESTUDIOS DE CASO
Detallaremos dos estudios de caso que aplican metodologías avanzadas basadas en datos para
comprender la influencia del agua y cómo se puede obtener una gestión eficaz al unir la interpretación
tradicional con técnicas informáticas blandas.
Optimización de inundación de agua
Durante una inundación de agua, se utilizan grandes cantidades de agua inyectada para mantener y/o
o aumentar la producción de petróleo de un yacimiento de petróleo. Este estudio de caso muestra
cómo la comparación de los cambios en la producción de petróleo, gas y agua (en relación con los
cambios en la inyección de agua) ayuda a evaluar la comunicación de fluidos a través de un yacimiento.
Los parámetros de comunicación se integran con otros parámetros geológicos y se utilizan para
desarrollar modelos predictivos. Estos modelos predictivos ayudan a estimar la capacidad de
producción o la probabilidad de producción en embalses inundados por agua.
Este estudio de caso también muestra cómo los modelos de árboles de decisión respaldan una
selección de dos a cuatro veces más precisa de pozos de alta producción que las selecciones
implementadas históricamente. Se basa en nuestros desarrollos para el análisis de inyección.
respuestas en patrones verticales y horizontales para la optimización de inundaciones de agua.

Las respuestas de inyección se estiman a partir de correlaciones no paramétricas entre cambios
en las tasas de inyección y los cambios correspondientes en las tasas de producción (petróleo,
agua, gas y fluido total). Además, estimamos el tiempo de retraso de las respuestas anteriores.
Una respuesta de inundación de agua se estima como una correlación de rango entre dos
series de cambios de tasa para todos los pares inyector-productor. Específicamente, el coeficiente
de correlación de rangos de Spearman no paramétrico se calcula en función de los rangos de los
cambios en las tasas de inyección y producción.
La figura 6.6 muestra una correspondencia o correlación perfecta entre dos series de tiempo
(la tasa de inyección y la tasa de producción de petróleo). Sin embargo, la tasa de petróleo se
desplaza en el tiempo, lo que caracteriza el retraso en el tiempo de respuesta de inundación de
agua. En este caso, la respuesta de inundación de agua (basada en la tasa de petróleo) tendría
una correlación igual a uno. En la práctica, calculamos un conjunto de correlaciones desfasadas
en desfases de tiempo de cero a 12 o más meses.
Luego, encontramos la correlación más alta y el desfase temporal correspondiente. Las

respuestas de agua, gas y fluido total se calculan de la misma manera. La correlación y el lapso
de tiempo entre la inyección y los cambios en la tasa de producción asociada nos permiten
comprimir una serie de tasas en un par de parámetros simples: la correlación (fuerza de respuesta)
y el lapso de tiempo para cada fluido producido.
Figura 6.6 Correlación Tasa de Agua Inyectada, Tasa de Petróleo Producido con Rezago Ostensible
Las correlaciones de inyección-producción y los retrasos de tiempo correspondientes para

petróleo, gas, agua y el fluido total se pueden integrar con parámetros geológicos a escala local y
global. Tanto los parámetros de respuesta a inundaciones de agua como los conjuntos de datos
geológicos son ruidosos y representan una porción relativamente pequeña de la variación total en
las variables objetivo (p. ej., producción). El modelado predictivo ayuda a resumir estos conjuntos
de datos multivariados y los relaciona con eventos geológicos y de producción. Además, ayuda a
identificar los factores más importantes, que luego se utilizan para desarrollar los modelos
predictivos. Estos modelos se pueden cuantificar y utilizar para seleccionar los esfuerzos de
desarrollo en áreas con el mayor potencial posible.
Una integración numérica de parámetros geológicos, de terminación, de tratamiento y de
respuesta a inundaciones de agua es la técnica definitiva para predecir la producción de petróleo
durante los procesos de recuperación mejorada. Los modelos predictivos se pueden desarrollar
para una variable objetivo continua (producción) o para una variable objetivo binaria (pobre o
bueno). Estos modelos pueden basarse en regresión, redes neuronales y árboles de decisión. Se
puede implementar un modelo que tenga los mejores poderes predictivos y estabilidad para
predecir el desempeño del pozo en un área específica o en todo el campo.
La Figura 6.7 muestra un árbol de decisiones que clasifica los pozos en dos grupos de buenos
y malos intérpretes. La variable objetivo se predijo con base en el pago neto (P_Net_Oil) y la
respuesta de gas no retardado (C_Oil_0). Una variable indicadora (S/N para bueno/pobre) se
derivó de la producción de petróleo normalizada y
Figura 6.7 Modelo de árbol de decisión

identificó el mejor 25 por ciento de todos los pozos en todo el campo. La producción de petróleo
normalizada se caracterizó por la producción de un pozo en relación con la producción de todo
el campo.
Una ventaja del modelo de árbol de decisión sobre otros tipos de modelos es que utiliza
reglas de inglés interpretables. Por ejemplo, "Si el pago neto es superior a 6 m y la respuesta
del gas de retraso cero es negativa, entonces la producción de petróleo estará en el 25 por
ciento superior de la mejor producción con una probabilidad del 80 por ciento". En el caso
anterior, la selección de pozos basada en el modelo dio como resultado una tasa de éxito de
dos a cuatro veces mayor que la obtenida con los métodos tradicionales e históricamente observada en el campo.
El análisis se basa únicamente en el historial de inyección y producción disponible (datos
disponibles públicamente). Además, la misma metodología se puede utilizar para predecir las
vías de comunicación de inundaciones de agua en función de la producción primaria a partir de
la interacción entre productores.
Corte de Agua y Distribución de Fracturas en Yacimientos Carbonatados
Cumplir los objetivos de una mejor gestión de yacimientos e identificar una gama de estrategias
comprobadas bajo incertidumbre es un tremendo desafío debido a la naturaleza probabilística
del problema. Estudiemos un gran yacimiento de carbonato en el Medio Oriente para asegurar
una comprensión más perspicaz del comportamiento del corte de agua y su poder descriptivo
relativo de las redes de fracturas vecinas (Figura 6.8).
Hay una miríada de incertidumbres inherentes relacionadas con las fracturas, el alcance de
la red y las muchas propiedades estructurales en las proximidades.
Al perfilar los pozos individuales de acuerdo con ciertos criterios, como corte de agua (Sw),
distancia mínima del nivel de agua libre (FWL), líquido acumulativo, tipo de pozo dentro de
diferentes fases de tiempo y regiones geográficas incrementales, es posible clasificar esos
pozos y apreciar a través de los indicadores analíticos
Figura 6.8 Distribución de fracturas y cortes de agua

de semejanza/disemejanza una segmentación potencial del campo. El objetivo del proceso

analítico es comprender la distribución de los valores de Sw en relación con la producción
líquida acumulada en todo el campo (Figura 6.9). Esta apreciación de los resultados
estadísticos se puede mapear para identificar los mecanismos de producción tales como
los mejores productores, el agotamiento y el mantenimiento de la presión, y así ubicar las
zonas mal drenadas y las tácticas y estrategias de reingeniería de campo potencialmente
lucrativas basadas en una comprensión más completa de la distribución de agua en todo
el campo.
El primer paso es agregar los conjuntos de datos necesarios para establecer un
almacén de datos analíticos personalizado para la función objetivo. El conjunto de
visualizaciones de análisis exploratorio de datos identifica aquellos parámetros que tienen
un impacto estadístico en la función objetivo o las variables dependientes. La Figura 6.10
ilustra algunos de estos importantes flujos de trabajo.
Figura 6.9 Extrayendo conocimiento oculto
Fuentes de datos Entorno de datos Salidas
MS Access
Resultados de agrupamiento
Tasas de producción
Salinidad Disimilitud de pozos
Presiones (SWP) Matrices
Eventos de finalización MVA
Ubicaciones de pozos Analítico WCT y Fractura
Datos
FWL
Análisis
Repositorio PCA
tipo de pozo
Lista representativa
Agrupación ("más cercano") y
(”más lejanos”) Pozos

MS Access
Datos PLT Análisis exploratorio de datos para Perfiles de pozos
Valores KH Patrones ocultos en la superficie y
Tendencias
Segmentación de campo
Picos de registro
Circulaciones Perdidas
Fracturas (FMI)
Figura 6.10 Fuentes de datos y EDA para estudio

La metodología adoptada para un yacimiento fracturado abarca la sensibilidad de aquellos

parámetros independientes que tienen una correlación o una relación de tendencia con el corte de
agua y la producción líquida acumulada a lo largo de la matriz de pozos en el campo bajo estudio. Es
bien sabido que en un yacimiento fracturado, el corte de agua y la relación de producción acumulada
de líquido pueden mostrar una característica significativamente diferente. Por lo tanto, con el objetivo
de generar nuevos conocimientos sobre las fracturas del campo carbonatado comenzamos a analizar
la distribución de los valores de corte de agua.
La Figura 6.11 muestra diferentes comportamientos de corte de agua en yacimientos homogéneos

y altamente fracturados. Por lo tanto, se puede usar una gráfica de corte de agua versus producción
acumulada de petróleo para indicar la intensidad de la fractura cerca del pozo. En un yacimiento
dado, los pozos ubicados en diferentes ubicaciones pueden experimentar una intensidad de
fracturamiento diferente y, por lo tanto, pueden exhibir un corte de agua diferente frente a las
características acumuladas de producción de petróleo.
Los parámetros de modelación se diseñaron de acuerdo con el criterio de que era necesario
normalizar los cortes de agua con base en la producción líquida acumulada debido a la amplia gama
temporal de pozos perforados durante la larga historia del yacimiento carbonatado productor. La
distribución espacial también fue un factor que se tuvo en cuenta, dividiendo el extenso campo en
tres áreas bien diferenciadas. Los flujos de trabajo analíticos también fueron dictados por el aspecto
temporal, segmentando el análisis en diferentes períodos de tiempo. La distancia del nivel de agua
libre fue un factor contribuyente y, por lo tanto, se consideró como un parámetro independiente
influyente. También identificamos los tipos de pozo (horizontal y vertical) al determinar los resultados
del estudio.
Normalización
Para realizar comparaciones válidas entre conjuntos de datos de pozos, es necesario realizar un
paso de remediación que implica un proceso de trabajo de control de calidad sólido para identificar
valores atípicos e imputar valores faltantes y erróneos. un corte de agua
1
0.9
0.8 smirv
oi r
tus
R
mi
0.7
mi
o
norte
0.6 o
metro
gramo
o
0.5 H
0.4 Ir
0.3 mi
mi
0.2 dR
mi
tur
Ct
0.1 Fra
0
0 0.5 1 1.5 2 2.5
PRODUCCIÓN COMULATIVA DE PETRÓLEO MMSTB
Figura 6.11 Comportamientos típicos de corte de agua

Figura 6.12 Paso de normalización del corte de agua
El paso de normalización se implementó con base en la producción líquida acumulada (Figura 6.12). Ese
enfoque ayuda a eliminar el aspecto temporal de los datos.
hasta cierto punto.
Distribución espacial
La ubicación espacial del pozo jugará un papel importante en el análisis de agrupamiento.

Evaluamos la ubicación con respecto a los incrementos geográficos en todo el campo.
El campo se dividió en tres incrementos; sin embargo, los incrementos están correlacionados con las
ventanas de tiempo de producción. Analizamos las distribuciones de los pozos a lo largo de los incrementos
espaciales en diferentes ventanas de tiempo y, finalmente, consolidamos los resultados en una
categorización en la que debe centrarse el análisis de agrupamiento.
Ventanas de tiempo
Los pozos bajo investigación entraron en producción a lo largo de diferentes décadas, el primero a
principios de la década de 1960. Por lo tanto, las cantidades de producción acumulada abarcan escalas
variables a lo largo de la variación temporal en la edad desde que ocurrió la puesta en marcha. Los
comportamientos inherentes al desempeño de los pozos también divergirán en las fases de agotamiento,
inyección y posinyección.
Distancia del agua
La distancia mínima al nivel de agua libre es un factor importante para comprender el comportamiento del
corte de agua de cada pozo (Figura 6.13). La mayoría de los pozos se distribuyeron dentro de un intervalo
de 4000 a 6600 pies (media: 5533 pies; mediana: 5388 pies).
Distribución de la Distancia Mínima al Nivel de Agua Libre
Distribución de DistFWL
25
Una investigacion interesante

20
la cuestion seria analizar
los diferentes comportamientos de los
pozos que tienen diferencias significativas
Valores de distancia FWL
15
10
Distancia del agua
0
2,000 3.000 4.000 5.000 6.000 7.000 8.000 9.000 10.000 11.000
Distancia desde el contorno_FWL
Figura 6.13 La distancia al nivel de agua libre influye en el corte de agua
Tipos de pozos
La mayoría de los pozos eran horizontales y se analizaron en la ventana de tiempo 3. También

hubo una pequeña cantidad de pozos con una configuración desviada.
La Tabla 6.1 ilustra la distribución de tipos de pozos en el estudio.
Después de normalizar las curvas de corte de agua con el líquido acumulado producido,
el problema de descubrir similitudes entre pozos se convierte esencialmente en una búsqueda
de similitudes entre el corte de agua y los diagramas de dispersión de producción de líquido
acumulativo (Figura 6.14).
El cálculo de las similitudes entre los valores del corte de agua en la serie de pozos en
estudio se inició normalizando las curvas de corte de agua y líquido acumulativo con la misma
definición de eje para todos los pozos. Definimos una cuadrícula [0, 1] × [0, 1] para cada
diagrama de dispersión, y si había una observación en una celda específica, registraríamos
un valor "1". De lo contrario, ingresamos un valor "0", como se ilustra en la Figura 6.15.
Finalmente, todos los datos de cada pozo fueron generados y graficados y posteriormente
transformados de acuerdo con la lógica booleana definida en las observaciones. Luego, con
los datos transformados, pudimos realizar un análisis de similitud utilizando diferentes métricas
propuestas en la literatura de reconocimiento de patrones.
Hay una amplia variedad de medidas de distancia y similitud utilizadas en el análisis de
conglomerados, pero como los datos del pozo ahora están en forma de coordenadas, es
apropiado usar una distancia no euclidiana para agrupar, calculando una matriz de distancia.
Las medidas de similitud se convierten luego en diferencias antes de ser utilizadas en
Tabla 6.1 Distribución del tipo de pozo considerado en el estudio
Ventana de tiempo # Pozos Horizontales # Pozos Verticales # Pozos Desviados
1: 1963-1996 N/A 42 1
2: 1996-2003 88 55 5
3: 2003-2010 138 9 2
1.0
1.0
0.9
0.9
0.8
0.8
0.7
0.7
0.6
0.6
0.5
0.5
0.4 0.4
0.3 0.3
0.2 0.2
0.1 0.1
0.0 0.0
Producción 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0
Producción
Figura 6.14 ¿Cuán similares son estos dos diagramas de dispersión?
1.0
0.9 1.0
0.8 0.9
0.8
0.7
0.7
0.6
0.6
0.5
0.5
0.4
0.4
0.3
0.3
0.2 0.2
0.1 0.1
0.0 0.0
0.0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0
Producción Producción
Figura 6.15 ilustra el paso de transformación de datos
un algoritmo de conglomerado. Calculamos el coeficiente de Jaccard entre cada par de pozos. El coeficiente de
Jaccard se define como el número de variables codificadas como 1 para ambos pozos dividido por el número de
variables codificadas como 1 para uno o ambos pozos. Dado que el algoritmo de conglomerados requiere medidas
de disimilitud, se adoptó el coeficiente de Jaccard. Un valor pequeño representa dos pozos que son similares con
respecto al corte de agua (Figura 6.16).

El algoritmo de análisis de conglomerados jerárquicos une sucesivamente puntos de datos para

formar grupos con un comportamiento similar hasta que todos los registros se unen en un solo grupo.
El resultado gráfico predeterminado del análisis de conglomerados jerárquicos se ilustra en la Figura
6.17. Es similar a una estructura de árbol, comenzando con los registros individuales en la parte
inferior y terminando con todos los registros unidos en un solo grupo en la parte superior. Esto escala
el gráfico en función de las distancias de los grupos y hace que las similitudes sean más visibles.
Cuanto mayor sea la distancia a la próxima unión (representada
Figura 6.16 Matriz de disimilitud calculada utilizando la métrica Jaccard
cuadrado
sísmico
parcial
R-
FRKY1-
Z1 FRKY1-
Z3 FRKY1-
Z7 FRKY1-
Z9 FRKY1-
Z2 FRKY1-
Z4 FRKY1-
Z5 FRKY1-
Z6 FRKY1-
Z8
FRKY1-
Z13 FRKY1-
Z11 FRKY1-
Z16 FRKY1-
Z17 FRKY1-
Z18 FRKY1-
Z19 FRKY1-
Z20 FRKY1-
Z12 FRKY1-
Z14 FRKY1-
Z15 FRKY1-
Z21 FRKY1-
Z10 FRKY1-
Z22 FRKY1-
Z23
Figura 6.17 Dendrograma de pozos en la ventana de tiempo 1

por las líneas de los gráficos que unen los grupos anteriores), mayor es la distancia entre los
grupos y más disímiles los grupos. Del dendrograma se puede concluir que hay dos grupos
distintos en los datos basados en el corte de agua y el comportamiento líquido acumulativo
para los 43 pozos agrupados en la ventana de tiempo 1, generando así dos grupos. Entonces
es posible perfilar los dos conglomerados para identificar las principales características de
cada grupo. El análisis dio como resultado 2, 4 y 5 clústeres diferentes para las ventanas de
tiempo 1, 2 y 3, respectivamente.
Los conglomerados se obtienen utilizando un algoritmo de Ward para mínima varianza.
El área resaltada representa los dos grupos diferentes. Esta metodología entregó una
perspectiva de tiempo continuo del yacimiento de carbonato a través de los pozos distribuidos.
Identificó mediante los valores medios de los indicadores de producción en aquellos
compartimentos del campo que presentaban una baja o alta
Corte de agua.
Dado que el agrupamiento se basa en diferentes comportamientos de corte de agua de

los pozos, puede establecer una comprensión de la “imagen de corte de agua” pronosticada
promedio para cada región agrupada. La figura 6.18 define el comportamiento esperado de
un pozo aleatorio perteneciente a un grupo específico.
La distribución de la configuración de pozos se define como horizontal o vertical en los
grupos, como se ilustra en la Figura 6.19. Como puede verse, la distribución es característica
de algunos conglomerados. Los clústeres están representados por sus números.
En los primeros años de producción, ambos grupos siguen la tendencia general de los
pozos en la ventana de tiempo. Después de 2003, el SWP promedio anual de los pozos del
grupo 2 comienza a aumentar y supera al del grupo 1, aunque la tendencia del SWP de
ambos grupos es positiva (probablemente debido a la inyección), como se muestra en la
Figura 6.20.
Al igual que en la Figura 6.20, vemos en la Figura 6.21 que en los primeros años de
producción ambos grupos siguen la tendencia general de los pozos en la Ventana de tiempo 2.
Corte de agua
0,9–1
0,8–0,9
La cuadrícula vacía indica
0,7–0,8 0,05 0,10 0,20
que ninguno de los pozos
tener observaciones 0,6–0,7 0,05 0,10 0,10 0,12 0,05 0,10 0,15 0,20 0,17
dentro de la grilla 0,5–0,6 0,12 0,10 0,12 0,05 0,30 0,25 0,25 0,30 0,22
0,4–0,5 0,20 0,08 0,12 0,13 0,20 0,28 0,18 0,20 0,22 0,25
0,3–0,4 0,17 0,08 0,07 0,10 0,20 0,30 0,25 0,30 0,37 0,43
0,2–0,3 0,15 0,15 0,15 0,22 0,27 0,33 0,35 0,37 0,42 0,33
0,1–0,2 0,15 0,22 0,20 0,25 0,18 0,25 0,18 0,22 0,10 0,23
0,0–0,1 0,63 0,50 0,42 0,35 0,35 1,00 1,00 1,00 1,00 1,00 1.0 indica que todos
los pozos tienen
0.10 indica que solo observaciones dentro
10% de los pozos tienen la cuadrícula
observaciones dentro CumLiq
la cuadrícula
Figura 6.18 Corte de agua promedio con frecuencia de observación de producción de intensidad de color
45 *Pozos desviados excluidos
40
35 Todos los pozos en
30 este grupo son verticales.
25
20
15 H
10 V
5
0
1 21212341234124 5124512345
INC1 INC2 INC1 INC2 INC1 INC2 INC3
Ventana1 ventana2 ventana3
Figura 6.19 Configuración de pozo definida como horizontal o vertical
3500
3,000
2,500
2,000
1,500
12
1,000
500
Año
Figura 6.20 Promedio anual de SWP para los dos clústeres en la ventana de tiempo 1
4,000
1
2
3500
3
4
3,000
2,500
2,000
1,500
Diferentes tendencias promedio
de SWP basadas en las
1,000 observaciones más recientes
500
0
1975 1977 1979 1981 1983 1985 1987 1989 1991 1993 1995 1997 1999 2001 2003 2005 2007 2009 2011
Año
Figura 6.21 SWP Promedio Anual para los Cuatro Conglomerados en la Ventana de Tiempo 2
3500
3,000
2,500
2,000 1
2
3
1,500
4
5
1,000
500
0
2003 2004 2005 2006 2007 2008 2009 2010 2011
Año
Figura 6.22 SWP Promedio Anual para los Cinco Conglomerados en la Ventana de Tiempo 3
Después de 2003 y del período de inyección, la presión se mide de manera diferente para
los pozos del grupo 4. Ese grupo tiene la mayor presión. son casi 3500
de media.
Dado que los pozos en la ventana de tiempo 3 son relativamente nuevos y la producción
comenzó en 2003, la curva de presión sigue una tendencia constante, como se ilustra en la
Figura 6.22. Sin embargo, se puede observar que el primer y segundo grupo están en fase
de declive, mientras que los grupos 3, 4 y 5 están aumentando.
Había 40 pozos que tenían datos de Formation MicroImager (FMI) y se identificaron
sus características de fractura, como se muestra en la Figura 6.23.
Desafortunadamente, FMI no estaba disponible para el resto de los pozos. Los resultados
de la agrupación se han analizado con respecto a la distribución de las fracturas que se
conocían.
El producto de la permeabilidad de la formación (k) y el espesor de la formación
productora (h) en un pozo productor es uno de los factores clave en el potencial de flujo de
un pozo (Figura 6.24). Además de los valores faltantes para 106 pozos, la distribución de
los grupos refleja cinco grupos (1-1, 2-3, 2-4, 3-1 y 3-5) que tienen un valor de KH más alto
que el promedio general.
KH se utiliza para una gran cantidad de cálculos de ingeniería de yacimientos, como la
predicción del rendimiento futuro, el potencial de recuperación secundaria y terciaria y el
éxito potencial de los procedimientos de estimulación de pozos. Obtener el mejor valor
posible de este producto es el objetivo principal de las pruebas de pozos transitorios.
Se observó una fuerte correlación entre las circulaciones perdidas y los picos de
registro entre los grupos. Sin embargo, hubo diferencias significativas entre los picos de registro y
* Los tamaños de las burbujas reflejan la cantidad de pozos en el grupo
Distribución de Fracturas Conocidas en Grupos (%)

25%
2–2 3–2
1-1
1–2
3-1
2-1 3–4 2-1
3–5
15%
2–2
Grupo # de # de Sabe % en el % en el 2–3
2–3
pozos Fracturas Grupo Conjunto completo de
Fracturas 2–4
1-1 31 0 0% 0% 3-1
2–4
1–2 12 0 0% 0% 3–2
2-1 42 5 13% 12% 5%
3–3
2–2 58 7 18% 12% 1–2
1–2 3–3 3–4
2–3 31 3 8% 10%
3–5
2–4 17 2 5% 12%
3-1 73 5 13% 7%
3–2 27 8 20% 30% –5%

3–3 9 0 0% 0% Se sabe a través de FMI que la mitad de los
3–4 30 5 13% 17% pozos atraviesan una fractura
3% 50%
Número relativamente alto de
fracturas
Figura 6.23 Distribución de Fracturas Conocidas en el Reservorio Carbonatado
205
KH Distribución de promedio Valores de KH en clústeres
80.000
• Valores de KH para algunos de
faltan los pozos productores.
70.000 1-1 Especialmente para INC3 KH
2–4 no está disponible para 106
1–2 pozos productores
3–5
60.000
2-1
1-1 3–1
Grupo # pozos que faltan
2–2
KH
50,000
2–3 2–3 1-1 4
1–2 3
3–4 2–4
40.000 2-1 15
2-1 2–2
3-1 2–2 22
1–2 2–3 12
30,000 3–2
2–4 10
3–2 3–3 3–1 62
20,000 3–2 18
3–4
3–3 3–3 4
3–5
3–4 14
10,000
3–5 8
33.585,7 (Valor KH
– medio de todos los pozos
del análisis) * Los tamaños de las burbujas reflejan la cantidad de pozos en el grupo
Figura 6.24 Distribución del producto de permeabilidad (k) y espesor (h) de la formación
206
Distribución de Fracturas Conocidas en Grupos (%)

Número de observaciones
40
3-1
35
Circulación Perdida
30
Picos de registro
25
20
3–4
2–2
3–2
15
2-1 2–3
2–4 3–5
10
1-1
5
1–2 3–3
0
Clústeres
Figura 6.25 Distribución de Fracturas Conocidas a través de los Grupos
observaciones de pérdida de circulación para el grupo 3-1 (LC: 33, LS: 20) como se muestra en la
Figura 6.25.
El estudio de los resultados del análisis de conglomerados de cada ventana de tiempo permitió al
ingeniero mapear potencialmente la red de fallas en todo el campo a partir de las observaciones del
corte de agua en los conglomerados discretos. Al estudiar los conglomerados de la ventana de tiempo
3, resultó evidente que los nueve pozos que constituyen el conglomerado 3 tienen una producción
líquida acumulativa limitada con un valor promedio de 10,7 y, por lo tanto, valores de corte de agua muy
bajos con un promedio de 0,001.
Trazando esos nueve pozos en el mapa fue factible deducir un patrón de distribución confinado
a la zona de incremento III que estaba fuera de la distribución de los pozos en la misma zona de
incremento y en la misma ventana de tiempo pero en
grupo 1. Dichas visualizaciones mejoraron la comprensión de los cambios de facies geológicos, posibles
capas de alta permeabilidad o una red de fallas en esta zona al observar los pozos en el grupo 1 que
tienen una tasa de producción de líquido acumulada de mayor magnitud.
Muchas de estas deducciones se pueden hacer fácilmente mediante un simple análisis visual de
la metodología de agrupamiento que segmentó con éxito el campo en distintas áreas caracterizadas
por agrupaciones de pozos o grupos respaldados por indicadores de producción similares. Al estudiar
los cortes de agua y las tasas acumulativas de producción de líquido tanto de agua como de petróleo a
lo largo de las ventanas de tiempo y en diferentes regiones geográficas, se pudo apreciar una idea
mucho mejor del modelo de agua y los precursores potenciales de los cortes de agua en todo el campo.
Además, la definición táctica del pozo, ya sea horizontal o vertical, y

la distribución a través de las diversas ventanas de tiempo y grupos le dijo a otro
historia que tal vez se habría perdido si los patrones no hubieran salido a la luz.
Por ejemplo, podría notarse que el conglomerado 3 en la ventana de tiempo 3 que mostró la tasa de
producción de petróleo acumulada más baja y la producción líquida acumulada para los 9 pozos
identificados eran todos verticales.
Los flujos de trabajo de análisis de datos exploratorios y los subsiguientes flujos de

trabajo de análisis de agrupamiento jerárquico para segmentar el campo tanto de manera
espacial como temporal ofrecieron conocimientos y deducciones de una manera visual que
podrían corroborarse con otros estudios. Estos resultados analíticos vistos hasta ahora fueron
importantes para ofrecer señales para una mayor interpretación y áreas de estudio concentrado.
Comprender los ingresos del agua puede considerarse una expectativa viable si el estudio
incluye posteriormente un atributo adicional basado en el tiempo relativo para obtener ciertos
valores de nivel de corte de agua. Por ejemplo, el atributo podría definir los valores de corte de
agua inicial y final, y el tiempo para alcanzar diferentes niveles como 1, 10, 25 y 50 por ciento
de agua. Para determinar un modelo de evolución del corte de agua, el ingeniero podría haber
aplicado una metodología de suavizado como el algoritmo de Lowess y, junto con un enfoque
similar con GOR, generar indicadores adicionales de producción a medida que tanto el corte
de agua como el GOR alcanzan ciertos valores relativos a un tiempo continuo. para cada
ventana de tiempo.
Para llevar este estudio a otro nivel, sería conveniente que los ingenieros introdujeran
más conjuntos de datos, como PLT y propiedades de las rocas, para sugerir otros indicadores
de producción importantes y parámetros influyentes para explicar mejor el modelo de agua a lo
largo del tiempo y los límites geográficos.
Las Figuras 6.26 y 6.27 resumen los resultados de salida de la metodología y ofrecen
información sobre el corte de agua y las redes de fracturas a lo largo del yacimiento carbonatado
en estudio.
Al aumentar el estudio con las propiedades del yacimiento y la geomecánica calibrada
mediante registros y núcleos operados con cable, es factible determinar, a través de
metodologías avanzadas basadas en datos, las características de la roca y las propiedades de
los fluidos que influyen en el control del rendimiento del campo estudiado en la primera fase
para mapear la fractura. distribuciones de red y valores de corte de agua.
Las propiedades de las rocas y los fluidos son ostensiblemente los factores de control
críticos que dictan el desempeño de los yacimientos de hidrocarburos. Debido a la complejidad
multivariante, multidimensional, multivariante y estocástica inherente a los yacimientos de
hidrocarburos, es esencial no solo identificar los conjuntos de datos más destacados, sino
también adoptar modelos basados en datos para complementar los primeros principios que
sustentan la variación tanto en la roca como en la roca. propiedades fluidas.
Definir una hoja de ruta para la caracterización de fluidos de roca para la gestión de
yacimientos requiere una metodología multidisciplinaria e integrada. Debemos determinar
volúmenes precisos en el lugar, factores de recuperación predecibles y estrategias de desarrollo
de campo alcanzables que mitiguen los riesgos y maximicen los rendimientos económicos,
todo cuantificado bajo incertidumbre para ofrecer un rango probabilístico en un ciclo de toma
de decisiones efectivo.
El desempeño de los yacimientos de hidrocarburos está controlado en gran medida por
las propiedades de las rocas y los fluidos, sus variaciones espaciales y temporales y las
interacciones roca-fluidos. La caracterización de rocas involucra la cuantificación de la
porosidad, la permeabilidad, la presión capilar y la permeabilidad relativa asociada con varios
Ventana de tiempo 1 1 2 2 2 2 3 3 3 3 3
GRUPO 1 2 1 2 3 4 1 2 3 4 5
Núm. de pozos 31 12 42 58 31 17 73 27 9 30 10
tipo de pozo V: 30, D: 1 V: 12 V: 13, H: V: 25, H: V: 11, H: V: 6, H: 11 alto: 73 alto: 26, fondo: 1 V: 9 alto: 30 alto: 9, profundidad: 1
Distribución 26, D: 3 31, D: 2 20
Tasa de producción de petróleo 2,819 2,291 3,505 2,851 1,528 605 6,010 3,900 10 2,567 1,052
Tasa de producción de agua 19 219 56 250 496 525 59 323 0 679 726
Tasa de producción liq. 2,838 2,509 3,561 3,101 2,023 1,130 6,069 4,223 11 3,246 1,778
Nivel de corte 0.005 0.076 0.012 0.069 0.134 0.142 0.012 0.090 0.001 0.179 0.166
Gas/Petróleo 236 242 218 218 179 132 579 274 21 273 140
Semen,Aceite 20.973.552 15.459.458 7.997.081 7.671.604 4.460.064 1.912.835 5.365.364 4.173.721 5.005 2.411.088 1,303,041
semen, agua 22,359 530,982 88,036 422.965 1.203.621 1.475.594 39,286 210,114 149 534,486 785,278
semen, gasolina 10.048.218 7.680.695 2.638.489 2.526.009 1.565.037 691.384 1.815.321 1.183.415 1,686 744,618 437,890
Salinidad 40,378 44,047 56,376 59,816 44,319 46,083 42,249 48,090 98,200 42,196 37,356
Dist FWL 8,224 5,850 5,138 4,562 4,432 3,648 5,927 6,245 2,824 5,785 6,203
KH 48,297 24,129 27,801 25,210 39,462 60,787 44,741 16,338 8,918 30,886 54,893
Fracturas (FMI) N/A N/A 5 7 3 2 5 8 N/A 5 5
Circulaciones Perdidas 2 N/A 9 10 8 6 33 12 1 14 6
Picos de registro 4 3 8 13 9 3 20 10 N/A 11 8
Seco 52% O% 55% 2% 0% 6% 81% 4% 100% 0% 30%
Fractura dieciséis% 8% 17% 26% 13% 29% 5% 4% 0% 30% 30%
Estratoforma 6% 50% 19% 36% 58% 47% 11% 70% 0% 57% 40%
Matriz 26% 42% 10% 36% 29% 18% 3% 22% 0% 13% 0%
Figura 6.26 Resultados tabulados por clúster y ventanas temporales
209
Ventana de tiempo 1 (. . .-enero 96) Ventana de tiempo 2 (enero de 1996 - octubre de 2003) Ventana de tiempo 3 (Oct'03 - . . .)
1-1 1-2 2-1 2-2 2-3 2-4 3-1 3-2 3-3 3-4 3-5
ÿ Poca agua ÿ Pozos en V ÿ Poca agua ÿ El grupo ÿ Mezcla de ÿ Altos valores ÿ Máxima ÿ Poca agua ÿ Poca ÿ Alta producción ÿ Más alto
tasa de con tasas de más grande de Pozos V y de KH relación tasas de cantidad de de agua agua
producción producciones producción pozos en la H con altos gas-petróleo producción nuevos pozos tasa de
ÿ Agua significativa ÿ Más alto
de agua segunda niveles de verticales, producción
ÿ V pozos ÿ Pozos secos ÿ Clúster más ÿ pozos H niveles WCT
ventana de tiempo producción prácticamente
distantes al (55%) producción grande, todos ÿ Baja
ÿ Mayormente ÿ Pozos
de agua no hay
FWL ÿ Prod gas H pozos salinidad
ÿ Firma de ÿ Altos niveles de formas horizontales
significativamente altas (relativamente) agua ni
similar a 2-1 WCT ÿ La mayor de estratos ÿ ~30%
ÿ Mayormente fractura ÿ ~30%
aceite de prod
pozos secos ÿ Mayormente vista para ÿ En su parte (70%)
ÿ -1/3 mostrando mostrando
mostrando
formas mayoría estratiformes todavía
17% ÿ Distribución del circ. firmas de
ÿ ¼ siendo que casi la firmas de
de ÿ Alta
igualmente ÿ ~1/3 perdido. fracturas
productor ÿ 1/5 mitad son fracturas
estratos probable identificados salinidad
de matriz estratiformes estratiformes ÿ 40%
(1/2) y matriz ÿ Complejo
de formas productores de matriz para esos grupos ÿ Cercanía con
Estratos
ÿ Firmas de
productores de estratos y FWL
ÿ Mayoritariamente Comportamiento WCT formas, no
(40%) fracturas
productores
seco (81%) se identificó
ÿ (Pocas
de matriz formación
de matriz
observaciones)
Figura 6.27 Datos tabulados por ventana de tiempo
210
procesos de recuperación. De manera similar, la caracterización de fluidos cuantifica el

comportamiento de la fase del yacimiento, los cambios en la composición del fluido en todo el
yacimiento y los cambios en las propiedades del fluido como resultado de los procesos de producción e inyección.
El proceso de recopilación de datos comienza con la exploración y continúa a lo largo de la vida
del yacimiento.
Un estudio de propiedades de rocas y fluidos que sustenta la gestión de yacimientos se basa

en la calidad y cantidad de conjuntos de datos duros y blandos. El primero abarca mediciones
directas en el núcleo del yacimiento y muestras de fluidos para cuantificar las propiedades físicas
y de flujo del yacimiento. Este último define dichas mediciones a partir de pruebas de pozos y
petrofísica que infieren las propiedades físicas y dinámicas del yacimiento a través de la
interpretación de la respuesta de la formación a una perturbación aplicada mediante el uso de
modelos seleccionados. Estos modelos deben calibrarse con datos de rocas y fluidos para su
validación.
La metodología propuesta para la caracterización de rocas y fluidos para yacimientos

la gestión se representa en la Figura 6.28.
Una vez que se identifican los objetivos comerciales y se definen las propuestas de valor, se
agregan los conjuntos de datos relevantes para el estudio. El programa implica un conjunto de
objetivos claros, un plan integral de recopilación y prueba de datos, protocolos experimentales,
procedimientos rigurosos de control de calidad/garantía de calidad (QA) y una sólida plataforma
de gestión de datos. Necesitamos integrar los resultados del estudio del agua y la determinación
de la red de fracturas, ya que estos puntos de entrada actúan como restricciones en la metodología
basada en datos orientada al análisis de parámetros de roca y fluidos.
Los datos básicos y críticos de rocas y fluidos son necesarios para la evaluación de diversas
estrategias de agotamiento de yacimientos. La caracterización de rocas y fluidos derivada
Establecer Objetivos
Calidad de datos y auto-organizado
Dependiente de la cantidad Análisis de conglomerados
mapas
e independiente
Datos
Croing y Datos exploratorios Profético

Muestreo Análisis Modelos
Principal Vigilancia y
Roca/Fluido
Componente Tiempo real
Análisis
Análisis Análisis
Figura 6.28 Caracterización roca-fluido para la gestión de yacimientos

de las propiedades de los fluidos de la roca forman la base para el diseño de cualquier proceso de
recuperación, la calibración de los registros de cable y la evaluación de la compactación y el
hundimiento potenciales. Los requisitos específicos de datos de fluidos de roca se clasifican
además en tres clases principales de fluidos de yacimiento: petróleos viscosos o pesados, petróleos
livianos o gas y condensados de gas. Los procesos de recuperación que involucran petróleos
livianos se agrupan en tres procesos: inyección de gas inmiscible, miscible y terciaria, incluida la
inyección de gas alternante de agua (WAG). Otros procesos de recuperación, como los métodos
térmicos, también requerirán una caracterización de fluidos de roca personalizada.
El análisis de conglomerados, EDA, PCA y SOM son requisitos para construir un modelo
predictivo que se pueda poner en práctica en el campo. Los datos en tiempo real de pozos
inteligentes y conjuntos de datos por lotes a lo largo de la cadena de valor de E&P que se
consideren pertinentes para la(s) función(es) objetivo se pueden incorporar al modelo para
garantizar una perspectiva dinámica y que el modelo existente no sea estático. Los KPI se establecen y a través de una vigi
y la plataforma de inteligencia comercial de monitoreo es factible identificar problemas de

producción en toda la cartera de pozos para las estrategias de remediación.
NOTAS
1. A. Satter, “Reservoir Management Training: An Integrated Approach,” SPE 20752, presentado en la Conferencia y
Exposición Técnica Anual de la SPE, Nueva Orleans, 23 al 26 de septiembre de 1990.
2. GC Thakur, “Implementation of Reservoir Management Program,” SPE 20748, presentado en la Conferencia y Exhibición
Técnica Anual de la SPE, Nueva Orleans, 23 al 26 de septiembre de 1990.
3. MT Halbouty, "Synergy Is Essential to Maximum Recovery", JPT (julio de 1977): 750.
4. HH Haldorsen y T. Van Golf-Racht, "Gestión de yacimientos en el próximo siglo"
NMT 890023, presentado en el Centennial Symposium en New Mexico Tech., Socorro, del 16 al 19 de octubre de 1989.
5. JE Warren, “En mi opinión”, JPT (diciembre de 1994): 1016.

6. Dr. Emad Elrafie, Jerry P. White y Fatema H. Al-Awami, "La solución del evento: un nuevo enfoque para estudios
completamente integrados que cubren el análisis de incertidumbre y la evaluación de riesgos".
Primavera de 2009 Revista de tecnología de Saudi Aramco.
7. JA Masters, "Creación, gestión y evaluación de equipos multidisciplinarios", Publicación especial AAPG 164 (1991): 335.
CAPÍTULO 7
Producción
Pronóstico
He visto el futuro y es muy parecido al presente, solo

que más largo.
Kehlog Albran, los Lucro
y yacimientos de gas ha estimulado un gran debate entre los ingenieros upstream

El arte
a de predecir
lo largo delalas
producción y estimar la
últimas décadas. Larecuperación final
literatura de losdel petróleo años del siglo
primeros
XX se sumergió en el estudio de las curvas de declive porcentual o curvas empíricas
de tasa-tiempo que encontraron credibilidad en la expresión de las tasas de
producción en unidades de tiempo sucesivas, enmarcadas como porcentajes de
producción en la primera unidad de tiempo. . WW Cutler1 opinó que se podía lograr
una metodología más robusta que definía una relación de línea recta cuando se
usaba papel log-log, lo que implicaba que las curvas de declive que reflejaban tales
características eran de tipo geométrico hiperbólico en lugar de exponencial.
Usamos las ecuaciones de la curva de declinación para estimar la producción futura de activos:2
1. Declive hiperbólico:
q = q (1 + D bt)ÿ1/b
2. Disminución exponencial:
q = qi exp(ÿDt)
En las ecuaciones, b y D son constantes empíricas que se determinan con base en

datos históricos de producción. Cuando b = 1, es un modelo armónico, y cuando b =
0, produce un modelo de declinación exponencial.
213
Hay una serie de suposiciones y restricciones aplicables al análisis de la curva de declive

(DCA) convencional que usa estas ecuaciones. Teóricamente, DCA es aplicable a un flujo
estabilizado en pozos que producen a una presión de fondo de pozo (BHP) de flujo constante. Por
lo tanto, los datos del período de flujo transitorio deben excluirse del DCA. Además, el uso de la
ecuación implica que no hay cambios en la terminación o estimulación, ni cambios en las
condiciones de operación, y que el pozo produce a partir de un área de drenaje constante.
El exponente de declinación hiperbólico b tiene un significado físico en la ingeniería de

yacimientos, ya que se encuentra entre 0 y 1. En general, pensamos en el exponente de
declinación b como una constante. Pero para un pozo de gas, b varía con el tiempo. El b
instantáneo disminuye a medida que el yacimiento se agota en condiciones de BHP constante y
puede ser mayor que 1 en algunas condiciones. El promedio b sobre la etapa de agotamiento es de hecho menor que 1.
También es fundamental sacar a la superficie las propiedades estadísticas de una serie de
tiempo que son estacionarias o inmutables desde una perspectiva temporal: correlaciones,
relaciones de autocor, niveles, tendencias y patrones estacionales. Entonces podemos predecir
el futuro a partir de estas propiedades descriptivas.
Por lo tanto, la implementación de modelos basados en datos y flujos de trabajo
automatizados y semiautomáticos que alimentan una metodología de minería de datos es crucial
para determinar un conjunto probabilístico de pronósticos y estimaciones para un buen desempeño.
Este capítulo analizará un estudio de caso que explica este enfoque en un campo gigante en el
Medio Oriente.
Los flujos de trabajo analíticos pueden incorporar un paso de análisis de la curva de declive que
implementa una solución de pronóstico de desempeño basada en la web para identificar
pronósticos a corto y largo plazo para la producción de petróleo, gas y agua. Al implementar
modelos de pronóstico maduros y primeros principios como los algoritmos empíricos de Arps,
puede estimar el rendimiento del pozo con precisión y la recuperación final estimada (EUR) y
medir el impacto, positivo o negativo, de las técnicas de remediación de pozos.
La estimación de reservas y la predicción de la producción en los embalses ha sido durante
mucho tiempo un desafío. La complejidad de los datos, combinada con conocimientos analíticos
limitados, significa que algunas empresas upstream no entienden completamente la integridad de
los pozos bajo gestión. Además, les toma semanas o meses establecer y modelar escenarios
alternativos, perdiendo potencialmente la oportunidad de capitalizar las condiciones del mercado.
La importancia de realizar un análisis e interpretación precisos del comportamiento del

yacimiento es fundamental para evaluar las reservas existentes y los pronósticos potenciales de
producción. DCA se usa tradicionalmente para proporcionar estimaciones deterministas para el
rendimiento futuro y las reservas restantes. A menudo, sin embargo, la predicción determinista de
la disminución futura está lejos de la tendencia real de la producción futura y, por lo tanto, el valor
determinista único de las reservas no es una indicación precisa de
Pronóstico de producciónâ•‡ÿ 215
las verdaderas reservas. De hecho, la estimación determinista contiene una incertidumbre

significativa. A diferencia de las estimaciones deterministas, los enfoques probabilísticos
cuantifican la incertidumbre, mejorando así EUR.
Al comparar las tasas de datos de producción en tiempo real y las curvas tipo con las
tendencias pronosticadas, puede:
ÿ Identificar de manera rápida y eficiente aquellos pozos que requieren remediación.
ÿ Segmente el campo a través de la agrupación de perfiles de pozos.
ÿ Ratificar desde la perspectiva de un campo, yacimiento o pozo si la producción actual se encuentra dentro
de los intervalos de confianza esperados y actuar en consecuencia.
Dado que los supuestos y las condiciones requeridas para el uso riguroso de las ecuaciones
de la curva de declinación de Arps rara vez se aplican a los pozos reales durante períodos de
tiempo significativos, existe potencialmente mucha incertidumbre en la estimación de reservas
utilizando DCA convencional. Con enfoques probabilísticos, se pueden proporcionar intervalos
de confianza para las estimaciones de reservas.
En la industria del petróleo, los valores de las reservas generalmente se calculan en tres
niveles de confianza, P90, P50 y P10. Hay una probabilidad del 90 por ciento de que las reservas
reales sean mayores que el cuantil P90; hay una probabilidad del 50 por ciento de que las
reservas reales sean mayores que el cuantil P50; y hay un 10 por ciento de probabilidad de que
las reservas reales sean mayores que el cuantil P10.
El intervalo entre P90 y P10 representa un intervalo de confianza del 80 por ciento. El intervalo
de confianza es un resultado probabilístico, por lo que existe una probabilidad del 80 por ciento
de que el valor real se encuentre dentro del rango de valores especificado.
Lo que esto realmente significa es que, si tuviéramos que hacer un gran número de
predicciones independientes con intervalos de confianza del 80 por ciento utilizando una
metodología similar, esperaríamos acertar (el valor verdadero cae dentro del rango) alrededor
del 80 por ciento de las tiempo y mal (el valor verdadero cae fuera del rango) alrededor del 20
por ciento del tiempo.
Para la estimación probabilística de reservas, queda una pregunta importante que rara vez
se aborda. ¿Los intervalos de confianza del 80 por ciento corresponden realmente al 80 por
ciento de probabilidad? Dado que los intervalos de confianza son resultados probabilísticos, no
podemos determinar la confiabilidad de un solo intervalo de confianza, ya que la prueba de la
estimación que usa un intervalo de confianza arroja solo un resultado o muestra.
Después de que pasa el tiempo y determinamos el valor verdadero, podemos establecer
que el valor verdadero está dentro del rango predicho o fuera del rango. Como ilustró Capen3 ,
es solo mediante la evaluación de muchas predicciones (dejando pasar el tiempo y comparando
los valores verdaderos con los rangos predichos) realizadas utilizando una metodología similar
que podemos determinar la confiabilidad de nuestras estimaciones de incertidumbre y, por lo
tanto, nuestra metodología para estimación de la incertidumbre. Estas evaluaciones son difíciles
en la industria del petróleo debido a los largos tiempos asociados con la producción de petróleo
y gas. Por lo tanto, rara vez verificamos la confiabilidad de las estimaciones de incertidumbre en
nuestra industria.
SOLUCIÓN DE ANÁLISIS DE LA CURVA DE DECLIVE BASADA EN LA WEB
Los ingenieros de yacimientos se enfrentan a una cartera en expansión de pozos para analizar a fin de
establecer EUR e identificar candidatos para estimulación y/o cierre.
Debido a los volúmenes de datos recopilados de cada pozo, las soluciones invariablemente limitan el
número de pozos que pueden incluirse en el análisis, lo que requiere un proceso de muestreo
determinista que aumenta la incertidumbre de los pronósticos. Los errores de datos y los valores
atípicos también deben marcarse manualmente, lo cual es una tarea que requiere mucho tiempo para
los ingenieros.
Es ideal trabajar con una solución específica basada en la web que ayude a una empresa de
petróleo y gas a:
ÿ Agregue, analice y pronostique la producción de pozos y yacimientos.
ÿ Detecta y limpia automáticamente los datos incorrectos.
ÿ Publicar y compartir resultados de análisis en toda la empresa.
Los tres motores compuestos importantes (Figura 7.1) son la extracción de datos, el análisis de
conglomerados y el arranque:
1. El módulo de arranque ayudará a los ingenieros a construir intervalos de confianza confiables

para el pronóstico de la tasa de producción y las estimaciones de la vida útil de las reservas.
2. El módulo de agrupamiento ayudará a los ingenieros a manejar un gran número de pozos al

proporcionar un medio para agrupar pozos y encontrar pozos similares.
3. El módulo de minería de datos permite el desarrollo de flujos de trabajo analíticos avanzados. A

través del análisis exploratorio de datos, es factible identificar patrones ocultos y correlaciones
que facilitan la evolución de los modelos predictivos basados en datos.
Figura 7.1 Diagrama de proceso que implementa componentes clave

Módulo de arranque
La implementación de enfoques probabilísticos para evaluar la incertidumbre en las

estimaciones de reservas basadas en DCA no es innovadora, pero las diversas metodologías
hasta ahora no han dado ese paso adicional de desarrollar un conjunto de procesos analíticos
para extraer los resultados de DCA limitados por otros datos upstream.
Los datos históricos de producción invariablemente poseen cantidades significativas de
ruido, y los postulados empíricos que sustentan el flujo de trabajo tradicional de DCA otorgan
mucha incertidumbre al proceso para estimar las reservas y pronosticar el rendimiento. Los
enfoques probabilísticos proporcionan regularmente una distribución de estimaciones de
reservas con tres niveles de confianza (P10, P50 y P90) con un intervalo de confianza del 80
por ciento análogo. ¿Qué tan confiable es el intervalo de confianza del 80 por ciento? Para
decirlo de otra manera: ¿la estimación de buena fe de las reservas se encuentra dentro del
intervalo el 80 por ciento del tiempo? Los estudios de investigación2 han demostrado que no
es raro que los valores reales de las reservas se ubiquen fuera del intervalo de confianza del
80 por ciento mucho más del 20 por ciento del tiempo cuando se implementa la metodología
tradicional. Por lo tanto, la incertidumbre se subestima significativamente.
La mayoría de los ingenieros tienen arraigada la filosofía de que cuantificar la
incertidumbre de las estimaciones es principalmente una tarea subjetiva. Esta perspectiva ha
llevado a la industria del petróleo y el gas por el camino perpetuo que pasa por alto los flujos
de trabajo probabilísticos efectivos para evaluar la estimación de reservas y cuantificar la
incertidumbre de esas estimaciones. Parece que las distribuciones previas del área de drenaje,
la zona productiva neta, la porosidad, el factor de volumen de la formación, el factor de
recuperación y la saturación son requisitos previos para realizar las simulaciones de Monte
Carlo. E invariablemente imponemos varios tipos de distribución como log-normal, triangular
o uniforme desde una posición experimentada o subjetiva. Para descartar cualquier suposición
derivada de la adopción de distribuciones previas de parámetros, investiguemos el valor
inherente a la metodología bootstrap.
La primera aventura en la aplicación del método bootstrap para DCA adoptó bootstrap
ordinario para volver a muestrear los datos de producción originales. Esto permitió la
generación de múltiples pseudoconjuntos de datos apropiados para el análisis probabilístico.
Sin embargo, existen suposiciones inherentes que se consideran inadecuadas para los datos
temporales, como los datos de producción, ya que el método de arranque ordinario da por
sentado que los datos de la serie temporal de producción original son independientes y están
distribuidos de manera idéntica. Y a menudo hay correlaciones entre puntos de datos en una
estructura de datos de series temporales.
Para evitar asumir distribuciones previas de parámetros, se ha utilizado el método de
arranque para construir directamente estimaciones probabilísticas con intervalos de confianza
específicos a partir de conjuntos de datos reales. Es un enfoque estadístico y es capaz de
evaluar la incertidumbre de las estimaciones de manera objetiva. Hasta donde sabemos,
Jochen y Spivey4 aplicaron por primera vez el método de arranque para el análisis de la curva
de declive para la estimación de reservas. Usaron bootstrap ordinario para volver a muestrear el original
conjunto de datos de producción para generar múltiples pseudo-conjuntos de datos para el análisis
probabilístico. El método bootstrap ordinario adoptado asume que los datos de producción originales
son independientes y están distribuidos de manera idéntica, por lo que los datos serán independientes
del tiempo.
Sin embargo, esta suposición suele ser incorrecta para los datos de series de tiempo, como los
datos de producción, porque la estructura de datos de la serie de tiempo a menudo contiene una
correlación entre los puntos de datos.
El propósito del módulo de arranque es automatizar el proceso de selección de series de tiempo
para construir intervalos de confianza confiables para modelos predictivos acumulativos de tasa-
tiempo . Se realiza mediante optimización de escenarios múltiples y simulación Monte Carlo para
remuestreo de residuos de bloque.
Bootstrapping refleja estadísticamente un método para asignar medidas o métricas de precisión
a las estimaciones de la muestra. Los algoritmos de arranque convencionales asumen puntos de
referencia independientes que se distribuyen de forma idéntica. El método bootstrap modificado
(Figura 7.2) esencialmente genera una plétora de realizaciones bootstrap independientes o conjuntos
de datos sintéticos a partir de los datos de producción originales, cada pseudo-conjunto de datos tiene
la misma dimensión que el conjunto de datos original. Se ajusta un modelo de regresión no lineal a
cada conjunto de datos sintéticos para determinar los parámetros de la ecuación de declive y,
posteriormente, se extrapola para estimar la producción futura y la recuperación final. El conjunto
completo de conjuntos de datos sintéticos se utiliza para determinar objetivamente la distribución de
las reservas.
Para obviar las suposiciones de que los datos de producción contienen puntos que son
independientes y están distribuidos de manera idéntica, la metodología de arranque modificada
adopta un algoritmo más riguroso para preservar la estructura de datos de series temporales:
Paso 1. Implementa las ecuaciones hiperbólicas y exponenciales para ajustar los datos de
producción durante un período de tiempo determinado y determina los residuos de los modelos
y observaciones ajustados.
Paso 2. El flujo de trabajo genera múltiples realizaciones de datos sintéticos mediante el

remuestreo de bloques con arranque basado en modelos modificados y, para determinar el
tamaño de los bloques, se utiliza el gráfico de autocorrelación de residuos para descubrir
cualquier aleatoriedad o posible correlación dentro de los datos residuales.
Paso 3. Implementamos una metodología de análisis retrospectivo utilizando una muestra más
reciente de datos de producción para abordar problemas de pronóstico debido a períodos de
flujo transitorio y condiciones operativas variables.
Paso 4. Calcular intervalos de confianza para producción y reservas.
Las iteraciones de los pasos 1 a 4 proporcionan un esquema para determinar automáticamente

el "mejor pronóstico" basado en el análisis de datos históricos recientes durante períodos de tiempo
específicos.
Regresión no lineal Parámetros y Reservas

Distribuciones
DCA
Juego de
Parámetro
productos sintéticos # 1
Serie 1
Regresión no lineal
DCA
qi
retrocedido Juego de
Producción Parámetro
Producción productos sintéticos # 2
Datos Conjunto # 2
Datos
DCA di
Juego de
Parámetro
productos sintéticos # 3
Derechos residuales de autor Conjunto # 3
DCA
Juego de
bloques Parámetro
productos sintéticos # n
Conjunto # n
Reservas
Datos adicionales de
series temporales Avanzado Derechos residuales de autor
bloques bloques
(presión, corte de
agua, etc.) Construcción
Analista
Histórico
Empresa
Producción
Minero
Datos
Figura 7.2 Metodología Bootstrap modificada y análisis de datos exploratorios
Se recomienda un paso de análisis de datos exploratorios como un flujo de trabajo

paralelo para sacar a la luz tendencias ocultas e identificar correlaciones y relaciones en los
datos de producción enriquecidos por operaciones adicionales (tácticas de pozos y estrategias
de terminación) y no operacionales (características geomecánicas y del yacimiento).
parámetros
En el primer paso, el algoritmo optimiza los escenarios hacia atrás para encontrar las
tres mejores curvas de predicción para los últimos 6 meses (corto plazo), los últimos 12
meses (mediano plazo) y los últimos 18 meses (largo plazo). Las Figuras 7.3 y 7.4 detallan
esquemáticamente este paso.
El resultado del primer paso son tres curvas, que pueden ser lineales, exponenciales,
armónicas o hiperbólicas. Nótese la similitud entre el mediano y largo plazo
curvas de plazo
Figura 7.3 Bootstrapping apuntala la selección automatizada de series de tiempo
15,000
10,000
50,00
0
0 10 20 30 40 50 60 70 80
Figura 7.4 Tipo de curvas que se ajustan a los datos temporales
En el segundo paso, el algoritmo ejecuta la simulación Monte-Carlo (Figura 7.5) para generar
intervalos de confianza de los percentiles 10, 50 y 90 para estas tres curvas y la predicción final.
El algoritmo debería poder trabajar con datos mensuales y datos en tiempo real (diarios u horarios).
Módulo de análisis de conglomerados
El propósito del módulo de agrupamiento en la Figura 7.6 es desarrollar una metodología que permita a
los ingenieros clasificar fácilmente los pozos en grupos (llamados conglomerados) de modo que los pozos
en el mismo conglomerado sean más similares (según las propiedades seleccionadas) entre sí que entre
sí. en otros clústeres.
El análisis de conglomerados puede mejorar la conveniencia del ingeniero al analizar pozos al

separarlos en grupos según las formas de las curvas de declinación (patrones) y otras propiedades.
La agrupación en clústeres es una herramienta de minería de datos para categorizar y analizar

grupos de dimensiones de datos que tienen propiedades o características de atributos similares. para analizar
Figura 7.5 Simulación Monte Carlo
perfiles de pozos esta metodología consiste en clasificar los pozos dividiendo el campo
en áreas.
Este método determina los pozos más similares y genera un primer conjunto de
conglomerados; luego compara el promedio de los conglomerados con los pozos restantes
para formar un segundo conjunto de conglomerados, y así sucesivamente. Hay varias formas
de agregar pozos, pero el método jerárquico es más estable que el procedimiento de K-
medias y proporciona resultados más detallados; además, un dendrograma mostrado (Figura
7.7) es útil para la interpretación de los resultados o para elegir el número de conglomerados.
2,920,000
GRUPO –1
12345
6789
2,910,000 10 11 12
13 14 15
2,900,000
Y
2,890,000
2,880,000
2,870,000
2,850,000
355.000 360.000 365.000 370.000 375.000 380.000 385.000

X
Figura 7.6 Resultados del análisis de conglomerados en un diagrama de dispersión
cuadrado
sísmico
parcial
R-
FRKY
Z1
1- FRKY
Z3
1- FRKY
Z7
1- FRKY
Z9
1- FRKY
Z2
1- FRKY
Z4
1- FRKY
Z5
1- FRKY
Z6
1- FRKY
Z8
1-
FRKY
Z13
1- FRKY
Z11
1- FRKY
Z16
1- FRKY
Z17
1- FRKY
Z18
1- FRKY
Z19
1- FRKY
Z20
1- FRKY
Z12
1- FRKY
Z14
1- FRKY
Z15
1- FRKY
Z21
1- FRKY
Z10
1- FRKY
Z22
1- FRKY
Z23
1-
Figura 7.7 El árbol de decisión optimiza el flujo de trabajo del análisis de conglomerados
Las siguientes propiedades de los pozos podrían usarse como parámetros para el agrupamiento:
ÿ Producción líquida acumulada
ÿ Producción acumulada de petróleo o gas
ÿ Corte de agua (porcentaje determinado por producción de agua/producción de líquido) ÿ
Exponente B (curva tipo declive)

ÿ Tasa inicial de disminución
ÿ Tasa inicial de producción
ÿ Producción media de líquidos
Hay varias formas diferentes de visualizar los resultados del análisis de conglomerados.
Por ejemplo, la ventana Perfil de segmento en la Figura 7.8 muestra todos los conglomerados
(segmentos) y las variables que mejor separan las ejecuciones en el conglomerado de todas las demás ejecuciones.
Se muestran dos gráficos de histograma para cada variable. El his tograma de color rojo para cada
variable se basa en todo el conjunto de datos de ejecución; el histograma azul se basa en las ejecuciones
en un clúster específico.
Aprovechando las regresiones multivariadas no lineales, los procedimientos de interpolación y
suavizado, el análisis de componentes principales, el análisis de conglomerados y el análisis de
discriminación, es factible dividir un campo en regiones discretas para tácticas y estrategias de reingeniería
de campo. La metodología clasifica los pozos de acuerdo con los indicadores de producción y divide el
campo en áreas.
Los resultados estadísticos se pueden mapear para identificar los mecanismos de producción, por
ejemplo, los mejores productores, el agotamiento y el mantenimiento de la presión, en última instancia,
para identificar y ubicar las zonas mal drenadas que posiblemente contengan reservas restantes. La
reingeniería de campo también se puede optimizar al identificar aquellos pozos donde se puede mejorar
la productividad.
Lo que sigue es un breve resumen de los pasos en el proceso de clasificación.
ÿ Elaboración de datos estadísticos de producción:
ÿ Petróleo producido diariamente, porcentaje de corte de agua, gas producido diariamente.
ÿ Análisis de la curva de declinación:
ÿ Modelización de la producción diaria con regresiones no lineales.
ÿ Reducción de ruido de datos e interpolación de datos:
ÿ Adopción de métodos de suavizado que sean más aplicables a los datos. Por ejemplo, en el caso de datos
excesivamente espaciados, puede utilizar el método de suavizado LOWESS (mínimos cuadrados
ponderados localmente). Utilice las curvas suavizadas resultantes para interpolar puntos de datos
faltantes para cortes de agua y curvas GOR.
ÿ Agrupación de pozos:
ÿ Análisis de componentes principales:
ÿ Úselo para crear una aproximación de baja dimensión al conjunto de datos de producción. Esta
técnica se usa a menudo antes del análisis de conglomerados.
ÿ Análisis de conglomerados:
ÿ Aplicado a conjuntos de datos condensados con menos puntajes de factores (transformación de
análisis de componentes principales de variables originales).
ÿ Análisis de clusters con diferentes métodos: perfilado de segmentos, den
drogramas y otros.
Figura 7.8 Visualización del análisis de conglomerados
224
ÿ Valuación de representación de pozos:
ÿ Puede ser útil para estudios posteriores tener solo un conjunto limitado de
pozos representativos y evitar un procesamiento intensivo.
ÿ Análisis discriminante:
ÿ Realizar para proporcionar las probabilidades de que cada pozo pertenezca al

agrupaciones obtenidas.
El módulo de agrupamiento debe permitir la asignación de pozos en grupos en función de

las siguientes propiedades:
ÿ Historial de producción de pozos:
ÿ Producción acumulada de petróleo
ÿ Producción acumulada de agua
ÿ Producción acumulada de gas
ÿ Tasa de producción de petróleo
ÿ Tasa de producción de agua
ÿ Tasa de producción de líquido total
ÿ Tasa de producción de gas
ÿ Corte de agua
ÿ Relación gas-petróleo
ÿ Propiedades del pozo:
ÿ Nombre del depósito
ÿ Posición del pozo (X, Y)
ÿ Tipo de terminación
ÿ Terminación/sarta de tubería (diámetro interior)
ÿ ESP (S/N)
ÿ Tamaño del estrangulador
ÿ Configuración del pozo
ÿ Contacto del depósito
ÿ Propiedades del yacimiento:
ÿ Porosidad
ÿ Permeabilidad
ÿ Presión del depósito
ÿ Presión superficial en cabeza de pozo
ÿ Propiedades de prueba de pozos (similares a las propiedades de producción de pozos):
ÿ Tasa de producción de
petróleo ÿ Tasa de producción de agua

ÿ Tasa de producción de líquido total
ÿ Corte de agua
ÿ Relación gas-petróleo
Los conjuntos de datos temporales, como las tasas de producción (petróleo, gas y agua), se limpian automáticamente,
lo que permite la selección de valores sólidos que se rigen por reglas establecidas a priori por ingenieros de yacimientos
experimentados. Por ejemplo, no tenga en cuenta los meses con un número de días operativos inferior a 20.
La solución puede seleccionar opcionalmente un conjunto de valores promedio móvil de 12 meses en lugar de los últimos
observados.
Módulo de minería de datos
Estos flujos de trabajo se basan en un proceso SEMMA (Figura 7.9) que recorre de manera sistemática y lógica un
conjunto de nodos analíticos que muestrean los datos para capturar una población aplicable a la función objetivo y, por lo
tanto, permite que Exploration descubra tendencias y patrones ocultos. Los nodos subsiguientes inician un flujo de trabajo
de modificación en los datos seleccionados para garantizar una versión robusta y limpia que se ha transformado e imputado
para evitar el dicho "basura entra, basura sale", seguido de un modelado desde una perspectiva predictiva que implementa
flujos de trabajo informáticos basados en regresión. redes neuronales, árboles de decisión, algoritmos genéticos y lógica
difusa. Finalmente, un nodo de Evaluación se enfoca en los méritos relativos de los modelos implementados, lo que da
como resultado un análisis estadísticamente sólido que identifica el modelo optimizado o el rango de
Figura 7.9 Proceso SEMMA que respalda un flujo de trabajo de minería de datos
modelos probabilísticamente válidos dado un rango de intervalos de confianza aceptables.

Los flujos de trabajo de SEMMA están limitados por el conocimiento previo proporcionado por expertos
en la materia o en el dominio (SME) para garantizar interpretaciones válidas durante todo el proceso.
Un espacio de entrada de datos robusto con dimensionalidad reducida también es fundamental para
garantizar resultados válidos. El analista de datos (DA) desarrolla la solución analítica que está respaldada
por el proceso SEMMA para la entrega de una solución que se puede operar con fuentes de datos en
tiempo real de sensores en pozos inteligentes.
Convertir cantidades cada vez mayores de datos sin procesar en información útil sigue siendo un
desafío para la mayoría de las compañías petroleras porque las relaciones y las respuestas que
identifican oportunidades clave a menudo se encuentran enterradas en montañas de datos. El proceso
SEMMA agiliza la metodología de minería de datos para crear modelos predictivos y descriptivos
altamente precisos basados en el análisis de grandes cantidades de datos ascendentes recopilados de
toda una empresa.
La metodología de minería de datos aplicable para un flujo de trabajo de optimización de pozos
implementó aspectos del proceso SEMMA:
Muestra:
ÿ Registros geomecánicos, registros GR y registros sónicos apropiados con las propiedades de la

roca obtenidas del análisis de núcleos; Los atributos sísmicos (amplitud instantánea, fase y
curvatura) contribuyeron a respaldar el conocimiento. Los resultados del DCA agregados con
las tasas de datos de producción y los líquidos acumulados, así como las presiones y la
saturación de fluidos, generaron un almacén de datos analíticos (ADW). Los parámetros
operativos que describieron las tácticas y estrategias de finalización enriquecieron el ADW para
la fase de división de datos en el nodo Muestra.
ÿ La partición de datos permitió que el conjunto de datos integrado se dividiera en conjuntos de

datos de entrenamiento, prueba y validación. El conjunto de datos de entrenamiento se utiliza
para el ajuste preliminar del modelo. El conjunto de datos de validación se usa para monitorear
y ajustar los pesos del modelo durante la estimación y también se usa para la evaluación del
modelo. El conjunto de datos de prueba es un conjunto de datos reservado adicional que puede
usar para la evaluación del modelo. Este nodo usó muestreo aleatorio simple, muestreo aleatorio
estratificado o particiones definidas por el usuario para crear conjuntos de datos particionados.
ÿ El nodo Filtro aplicó un filtro al conjunto de datos de entrenamiento para excluir valores atípicos u
otras observaciones que no desee incluir en su análisis de minería de datos. Los valores atípicos
pueden afectar en gran medida los resultados del modelado y, posteriormente, la precisión y
confiabilidad de los modelos entrenados.
ÿ El nodo Muestra tomó muestras aleatorias, aleatorias estratificadas y de conglomerados de

conjuntos de datos. Se recomienda el muestreo para bases de datos extremadamente grandes
porque puede reducir significativamente el tiempo de entrenamiento del modelo. Si la muestra
es suficientemente representativa, se puede esperar que las relaciones encontradas en la
muestra se generalicen al conjunto de datos completo.
ÿ El nodo Serie temporal mostró tendencias y variaciones temporales en el pro

datos de producción.
Explorar:
ÿ El nodo StatExplore es un nodo multipropósito y examinó distribuciones de variables y estadísticas

en los conjuntos de datos. Calculamos estadísticas univariadas estándar, estadísticas bivariadas
estándar por objetivo de clase y segmento de clase, y estadísticas de correlación para variables
de intervalo por entrada de intervalo y objetivo. También rechazamos variables basadas en la
correlación objetivo.
ÿ Implementamos un nodo SOM/ Kohonen para realizar un aprendizaje no supervisado mediante el

uso de la cuantificación vectorial (VQ) de Kohonen, los mapas autoorganizados (SOM) de
Kohonen y los SOM por lotes con Nadaraya-Watson o el suavizado lineal local. Kohonen VQ es
un método de agrupamiento, mientras que los SOM son principalmente métodos de reducción
de dimensiones.
ÿ El nodo Selección de variables evaluó la importancia de las variables de entrada para predecir o
clasificar la variable de destino. El nodo implementó un criterio de selección R-cuadrado o Chi-
cuadrado (basado en árbol). El criterio R-cuadrado eliminó las variables que tienen grandes
porcentajes de valores perdidos y las variables de clase que se basan en el número de valores
únicos. Las variables que no están relacionadas con el destino se establecen en un estado de
rechazado. Aunque las variables rechazadas se pasan a herramientas posteriores en el
diagrama de flujo del proceso, estas variables no se utilizan como entradas del modelo mediante
nodos de modelado como la red neuronal y las herramientas del árbol de decisión.
Modificar:
ÿ El nodo Impute reemplazó los valores faltantes para las variables de intervalo con el reemplazo
basado en la distribución, y exploramos el estimador M de reemplazo, como el bipeso de Tukey
y la onda de Huber y Andrew.
Los valores faltantes para las variables de clase se reemplazaron con la imputación basada en
árboles.
ÿ El nodo de Componentes Principales realizó un análisis para la interpretación de datos y

reducción de dimensiones. El nodo generó componentes principales que eran combinaciones
lineales no correlacionadas de las variables de entrada originales y que dependen de la matriz
de covarianza o matriz de correlación de las variables de entrada. En la minería de datos, los
componentes principales suelen utilizarse como el nuevo conjunto de variables de entrada para
el análisis posterior mediante nodos de modelado.
ÿ El nodo Generador de reglas creó conjuntos de reglas ad-hoc para que los datos
forzar el proceso mediante la adopción de resultados definibles por ingenieros. Por ejemplo,
podría utilizar el nodo Generador de reglas para definir resultados denominados Pozo bueno y
Pozo malo en función de reglas como las siguientes:
SI Water_Cut> 0.5 entonces hazlo
â•…â•…â•…EM_RESULTADO-”Malo”;
IF RateCum < 100000 entonces
â•…â•…EM_OUTCOME=”Revisar”;
â•…â•…â•…â•…â•…â•…â•…FIN;
ÿ El nodo Transformar variables creó nuevas variables que eran transformaciones de

variables existentes en los datos agregados. Las transformaciones se pueden utilizar
para estabilizar varianzas, eliminar la no linealidad, mejorar la aditividad y corregir la no
normalidad en las variables.
Modelo:
ÿ El nodo Red neuronal construyó, entrenó y validó redes neuronales feed-forward multicapa.
ÿ El nodo de mínimos cuadrados parciales modeló objetivos continuos y binarios y produjo

un código de puntuación de pasos de datos y resultados de evaluación del modelo
predictivo estándar.
ÿ El nodo Regresión ajusta los modelos de regresión lineal y logística a los datos. Puede
utilizar variables de destino continuas, ordinales y binarias. Puede utilizar variables
continuas y discretas como entradas. El nodo admite los métodos de selección paso a
paso, hacia adelante y hacia atrás. Un generador de interacción de apuntar y hacer clic
creó términos de modelado de orden superior.
ÿ El nodo Rule Induction mejoró la clasificación de eventos raros en los datos de modelado.
Creó un modelo de inducción de reglas que utilizaba técnicas de división para eliminar
el nodo de división puro más grande de los datos. Rule Induction también creó modelos
binarios para cada nivel de una variable objetivo y clasificó los niveles desde el evento
más raro hasta el más común.
Evaluar:
ÿ El nodo Comparación de modelos proporcionó un marco común para comparar modelos

y predicciones de cualquiera de las herramientas de modelado (como regresión, árbol
de decisión y herramientas de redes neuronales). La comparación se basa en las
estadísticas de ajuste del modelo estándar, así como en el rendimiento potencial
esperado y real que resultaría de la implementación del modelo.
ÿ El nodo Perfil de segmento evaluó y exploró conjuntos de datos segmentados.

Los datos segmentados se crean a partir de valores BY de datos, agrupación en
clústeres o reglas comerciales aplicadas. El nodo Perfil de segmento facilitó la
exploración de datos para identificar factores que diferencian segmentos individuales de
la población y para comparar la distribución de factores clave entre segmentos
individuales y la población.
La suposición de que los factores clave que dieron como resultado la caída histórica continúan sin cambios a lo
largo del período de pronóstico es fundamental para el DCA tradicional. Estos factores incluyen tanto las condiciones del
yacimiento como las condiciones de operación. Siempre que estas condiciones no cambien, la tendencia de declive
puede analizarse y extrapolarse para pronosticar el desempeño futuro del pozo. Si estas condiciones se modifican, por
ejemplo, mediante un reacondicionamiento de un pozo, entonces la tasa de declinación determinada antes del
reacondicionamiento no sería aplicable al período posterior al reacondicionamiento.
Por lo tanto, es vital determinar el período de la historia de un pozo que podría usarse para el análisis de la curva
de declive y el posterior pronóstico y estimación. El módulo de minería de datos proporciona un medio para facilitar una
selección automatizada de dichos períodos de tiempo para un análisis preciso de la curva de declive.
El espacio de entrada para el módulo de minería de datos puede incluir algunos de los siguientes parámetros y
puntos de datos destacados.
ÿ Propiedades e historial de producción de pozos:
ÿ Producción acumulada de petróleo
ÿ Producción acumulada de agua
ÿ Tasa de producción de petróleo
ÿ Tasa de producción de agua
ÿ Corte de agua
ÿ Propiedades actuales del pozo (datos maestros del pozo):
ÿ Nombre del depósito
ÿ Tipo de pozo actual (húmedo o seco)
ÿ Indicador de pozo desviado
ÿ Bandera de pozo lateral simple
ÿ Indicador de pozo multilateral
ÿ Indicador de pozo de máximo contacto con el reservorio
ÿ Bien estado actual
ÿ Bueno historial de eventos;
ÿ Fecha del evento
ÿ Tipo de evento
ÿ Resultado del evento
ÿ Información sobre reparaciones de pozos:
ÿ Tipo de reacondicionamiento
ÿ Descripción del reacondicionamiento

ÿ Fecha de inicio de reacondicionamiento
ÿ Fecha de finalización del reacondicionamiento
ÿ Información de la actividad del pozo:
ÿ Registrar la fecha de inicio efectiva
ÿ Registrar la fecha de finalización efectiva
ÿ El registro es la bandera actual (S o N)
ÿ Estado del pozo
ÿ Estado de finalización
ÿ Profundidad superior de la zona de finalización
ÿ Profundidad del fondo de la zona de finalización
ÿ Metraje total completo
ÿ Bandera multilateral
ÿ Recuento de laterales
ÿ Recuento de laterales activos
Análisis de tasa de tiempo
La solución permite el análisis tasa-tiempo para dos fases, petróleo y agua, para estimar tasas
de producción basadas en el historial de producción en tres modelos diferentes en el mismo
marco de tiempo (exponencial, hiperbólico y armónico). Es beneficioso detallar el resultado del
análisis en un formato tabular para determinar la calidad/
precisión de los valores de datos históricos y pronosticados.
Análisis de tasa acumulada
La solución también brinda la capacidad de realizar un análisis de tasa acumulativa para las
fases de agua y petróleo para estimar el petróleo en el lugar en función del historial de producción
en tres modelos diferentes en el mismo período de tiempo (exponencial, hiperbólico y armónico).
Análisis P/Z
La solución de análisis de la curva de declinación basada en la web ayuda a los ingenieros de

yacimientos en su estimación del gas original en el lugar (OGIP) y proporciona diferentes
modelos de pronóstico para el análisis P/Z, incluidos los siguientes modelos:
ÿ Sin entrada de agua, Shilthuis
ÿ Hurst simplificado
ÿ Von Everdingen-Hurst
Selección automatizada de series temporales
Un paso importante en el proceso de análisis de la curva de declive es la selección de los datos de

producción utilizados para el pronóstico. Además de la declinación del yacimiento, pueden existir razones
técnicas o económicas para reducir la producción de un pozo o grupo de pozos. El ingeniero debe decidir
en base a su conocimiento qué datos usar para el pronóstico. Un filtrado y una selección de datos
automatizados pueden respaldar su proceso de decisión.
Normalmente, el ingeniero de yacimientos seleccionaría un período de tiempo en el que sea visible

una tasa de producción y una disminución constantes. A veces, el número mínimo de puntos de datos
válidos de tasas de producción mensuales para un análisis de series de tiempo no se puede representar
con los datos disponibles. Una selección de datos automatizada podría ayudar al ingeniero a resolver los
siguientes dos problemas básicos:
ÿ Sustitución o exclusión de tasas de producción cero
ÿ Suavizado de variaciones extremas en los datos (p. ej., cortes de producción debido a razones
económicas o pruebas de pozos)
Si bien la exclusión de las tasas de producción cero es sencilla, la detección de valores atípicos se
realiza con la ayuda de las matemáticas. En teoría de probabilidad y estadística, la desviación estándar de
una población estadística o una distribución de probabilidad es la raíz cuadrada de su varianza. Un punto
de datos se considera estadísticamente atípico si el valor difiere en más del doble de la desviación estándar
del
significar. Un tratamiento automático de valores atípicos detectados en una población de datos determinada
podría ser:
ÿ Filtrado de todos los registros con valores atípicos
ÿ Filtrado de registros con tasas de producción cero solamente
ÿ Reemplazo de todos los valores atípicos con la tasa de producción media o mediana
Se ha calculado el valor de la media y la mediana de los datos seleccionados
excluyendo las tasas de producción cero. Eso asegura que el resultado del cálculo de la media y la mediana
genere resultados iguales con o sin eliminar primero las tasas de producción cero. Para los datos de series
de tiempo que se utilizan para la previsión, la identidad y el orden de las observaciones son cruciales. Una
serie de tiempo es un conjunto de observaciones hechas
en una sucesión de puntos igualmente espaciados en el tiempo. Si se han filtrado los registros, se ha
violado esta regla empírica. La solución simple al problema es mantener el orden de las observaciones y
ajustar la ID de tiempo de los registros en la población de datos. El sistema proporciona métodos de
interpolación en su software analítico que podrían usarse para interpolar valores faltantes o para generar
resultados de menor frecuencia a partir de datos de mayor frecuencia (p. ej., generar estimaciones
trimestrales a partir de datos de producción mensual).
El sistema proporciona un entorno de aplicación inteligente en el que los datos de sistemas

no relacionados pueden recopilarse, almacenarse, analizarse y distribuirse de forma sencilla y
oportuna. Estas tecnologías permiten que sistemas dispares contribuyan con datos e información
a una estrategia de inteligencia empresarial integrada en toda la empresa. Esto garantiza que los
datos de producción y todos los datos de reservorios necesarios se puedan agregar para brindar
una experiencia de pronóstico sólida.
En el futuro, la incorporación de grid computing ofrecerá una solución rentable para los
clientes que deseen acelerar el proceso de pronóstico o aumentar la escala o el alcance (cantidad
de usuarios, tamaño de los conjuntos de datos y frecuencia de análisis) del DCA.
A diferencia de las estimaciones deterministas de punto único, los enfoques probabilísticos

proporcionan una medida de incertidumbre en las estimaciones de reservas. Proporcionan un
rango de estimaciones dentro de los niveles de confianza prescritos y, por lo tanto, intentan poner
entre paréntesis el valor real. Las estimaciones de reservas probabilísticas pueden cumplir
múltiples propósitos de toma de decisiones internas e informes públicos. Sin embargo, muchos
ingenieros han tenido durante mucho tiempo la impresión indeleble de que cuantificar la
incertidumbre de las estimaciones es en gran medida subjetivo. Esta impresión ha llevado a la
industria a ser renuente a buscar métodos probabilísticos apropiados para la estimación de
reservas y utilizar métodos probabilísticos para cuantificar la incertidumbre de las estimaciones.
Las prácticas existentes para la estimación probabilística de reservas a menudo suponen un
conocimiento previo de las distribuciones de los parámetros relevantes o las propiedades del
yacimiento. Por ejemplo, se necesitan distribuciones previas de área de drenaje, zona productiva
neta, porosidad, saturación de hidrocarburos, factor de volumen de formación y factor de
recuperación para ejecutar simulaciones Monte Carlo cuando se utiliza el método volumétrico en la estimación probabil
La minería de datos es más eficaz cuando forma parte de una estrategia de entrega de
información integrada que incluye datos recopilados de diversas fuentes empresariales, incluidos
datos no estructurados en forma de informes de ingeniería diarios, datos de series temporales,
datos de producción, herramienta de registro de producción (PLT), rock propiedades de núcleos,
registros de pozos y atributos sísmicos.
Recorramos la metodología implementada para lograr el auto
solución de gestión de pozos acoplada representada en las Figuras 7.10 y 7.11.
Es esencial agregar datos dispares en los silos de ingeniería aguas arriba para permitir que
un solo ADW proporcione los procesos analíticos posteriores a medida que trabajamos hacia un
enfoque basado en datos para complementar el comportamiento interpretativo o determinista
tradicional de los geocientíficos.
Una vez que se han determinado la función o funciones objetivas para el estudio, podemos
sacar a la luz tendencias y correlaciones ocultas en un paso de EDA, imputar valores faltantes,
identificar valores atípicos en el conjunto de datos y realizar un conjunto de flujos de trabajo de
control de calidad basados en los primeros principios para garantizar un conjunto de datos sólido
para análisis avanzados.
El primer flujo de trabajo probabilístico selecciona automáticamente los datos de producción
contiguos óptimos para realizar DCA y establece un conjunto de curvas tipo para optimizar
Figura 7.10 Metodología de minería de datos con salida DCA para mejorar modelos
Figura 7.11 Flujos de trabajo de optimización de pozos
Proporcione un pronóstico a corto y largo plazo para cada pozo en el campo. Los resultados del
modelado y la aplicación de la ecuación de Arps producen puntos de datos adicionales como
entrada para un análisis de conglomerados.
Al introducir más elementos de datos del ADW, a través de un algoritmo de conglomerado
jerárquico e iterativo, podemos identificar indicadores clave de producción para cada pozo y, por
lo tanto, perfilar características importantes que separan los pozos con buen y mal desempeño.
Luego, establecemos un conjunto de KPI que se pueden usar para monitorear y evaluar los
datos de producción en tiempo real. Cualquier nueva lectura de datos que esté por encima o por
debajo de los límites de confianza que limitan el buen rendimiento se alerta a través de un tablero.
Adoptando una metodología de vigilancia basada en excepciones o un modelo predictivo , podemos
identificar respectivamente un conjunto de elementos accionables para mejorar
abordar un evento identificado a través de las alertas de KPI o predecir a través de las
firmas de eventos una situación inminente que debe abordarse para evitar el aplazamiento
o el bajo rendimiento.
Enumeremos algunos de los beneficios clave que se obtienen de una metodología de
este tipo que incorpora un proceso automatizado de selección de series de tiempo a través
de un módulo de arranque, ejecuta un módulo de agrupamiento para caracterizar los perfiles
de los pozos con el mejor y el peor desempeño, y agrega los resultados clave de los datos
exploratorios. análisis de datos y modelos descriptivos en un proceso SEMMA para minería
de datos:
ÿ Identificar qué pozos no están funcionando como se esperaba.
ÿ Centrar los esfuerzos de investigación de los ingenieros de yacimientos.
ÿ Orientar las inversiones para mejorar el rendimiento futuro de los pozos.
ÿ Mejorar los factores de recuperación y minimizar costos.
ESTIMACIÓN DE RESERVAS NO CONVENCIONALES
La estimación confiable de reservas recuperables de formaciones de gas de esquisto de

baja permeabilidad es un ejercicio problemático debido a la naturaleza del yacimiento no
convencional y a las propiedades geomecánicas y de la roca inherentes . . Se han
posicionado modelos DCA alternativos basados en consideraciones empíricas:
ÿ El modelo de ley de potencias de Duong
ÿ El modelo de declive exponencial estirado de Valko (SEDM)
ÿ Curva de crecimiento de Weibull
Proyectar curvas de disminución de la producción es ostensiblemente el método más

común para pronosticar el desempeño de los pozos en activos de gas compacto y gas de
esquisto. La producción potencial y EUR se determinan ajustando un modelo empírico de la
tendencia de disminución de la producción del pozo y luego proyectando esta tendencia al
límite económico del pozo oa un tiempo límite aceptable. Forzar el modelo hiperbólico de
Arps para que se ajuste a los datos de producción de los pozos de gas de esquisto ha
resultado invariablemente en resultados demasiado optimistas de EUR, derivados de
valores físicamente poco realistas del exponente de declive para forzar el ajuste. Se han
propuesto algunas alternativas para el análisis de las curvas de declinación en pozos de
gas compacto. Una preferencia restringe la tasa de disminución tardía a un valor más
realista sobre la base de análogos. Otra metodología determina modelos empíricos de curva
de declive que imponen definiciones de parámetros físicamente relevantes y valores EUR
finitos en las predicciones del modelo. Una cuestión clave asociada con el uso de múltiples
modelos es cómo discriminar entre ellos con períodos de producción limitados y cómo combinar los
resultados del modelo para producir una evaluación de la incertidumbre en las estimaciones de
reservas.
El análisis de declinación de la producción de pozos de gas compacto y gas de esquisto con este
método generalmente da como resultado un valor de mejor ajuste mayor que la unidad para el
parámetro del exponente de declinación. El resultado a menudo es físicamente poco realista en el
sentido de que la producción acumulada se vuelve ilimitada a medida que aumenta el tiempo.
Modelo de declive exponencial estirado
El modelo de declive exponencial estirado (SEDM) es una explicación física más plausible que la
suposición de un flujo dominado por los límites que es excesivamente largo para desarrollarse en
yacimientos de gas de esquisto y de arenas compactas. A diferencia del modelo hiperbólico, el SEDM
arroja un valor finito para la recuperación final. El SEDM parece ajustarse razonablemente bien a los
datos de campo de varias formaciones de esquisto y ofrece una alternativa eficaz al modelo hiperbólico
de Arps.
Modelo Duong
Debido a que los yacimientos de gas compacto y gas de esquisto generalmente se producen después
de la fracturación hidráulica masiva, es razonable suponer que el flujo hacia los pozos en tales
sistemas exhibirá características dominadas por fracturas. Para las fracturas de conductividad finita,
el flujo será bilineal, lo que se manifiesta como una línea de un cuarto de pendiente en un gráfico
logarítmico de la tasa de producción q versus el tiempo, mientras que el flujo en las fracturas de
conductividad infinita será lineal y se caracterizará por la mitad -línea de pendiente en el mismo gráfico.
En ambas condiciones, se ha demostrado que una gráfica logarítmica de q/Gp frente al tiempo debería
tener una pendiente de ÿ1.
Sin embargo, el análisis de los datos de campo de varias formaciones de gas de esquisto ha
demostrado que la relación entre estas variables se describe mejor con un modelo empírico que
también parece ajustarse muy bien a los datos de campo de varias formaciones de gas de esquisto,
proporcionando una alternativa eficaz a la teoría hiperbólica de Arps. modelo.
Modelo de crecimiento de Weibull
Se han implementado muchos algoritmos matemáticos para describir el crecimiento (o disminución)

de la población de manera efectiva en una amplia gama de condiciones. La curva de crecimiento de
Weibull es una generalización de la distribución de Weibull ampliamente utilizada para modelar el
tiempo hasta la falla en problemas de ingeniería aplicada. Un modelo de Weibull de tres parámetros
puede reducirse a dos incógnitas si se toma como variable dependiente la relación q/Gp. El análisis
de regresión no lineal puede estimar la relación observada frente al tiempo.
Evaluación de la incertidumbre: el modelo GLUE
Estudios previos de análisis de curvas de declive mediante el uso de múltiples modelos han
demostrado que se pueden obtener ajustes de calidad comparable para ventanas de datos
cortas, pero producirán estimaciones EUR de 30 años muy diferentes.
Si se utilizan múltiples modelos para generar estimaciones de reservas, no está claro
cómo se pueden agregar los resultados de tales modelos. Por lo tanto, se propone un enfoque
de dos pasos. En el primer paso, se identifican y utilizan modelos alternativos para ajustar los
datos. En el segundo paso, se asigna un peso a cada modelo sobre la base de las estadísticas
de bondad de ajuste y se calculan la media ponderada y la desviación estándar de la medida
de rendimiento deseada.
Dos técnicas comunes de promedio de modelo para el modelado hidrológico son la
estimación de probabilidad/ incertidumbre generalizada (GLUE) y el promedio de modelo
bayesiano de máxima verosimilitud. Se ha observado que el enfoque de promediación del
modelo bayesiano tiende a concentrar los pesos del modelo en solo uno o dos de los mejores
modelos, mientras que los pesos del modelo calculados por el método GLUE se distribuyen
de manera más uniforme en el espacio del modelo.
El marco GLUE acepta muchas realizaciones de parámetros igualmente probables o
distintas alternativas de modelo como punto de partida. La salida correspondiente a cada
realización se compara con las observaciones reales. Solo aquellas realizaciones que
satisfacen algún nivel aceptable de rendimiento, como una suma máxima de residuos
ponderados al cuadrado, también conocido como umbral de comportamiento, se retienen
para un análisis posterior, y las realizaciones no conductuales se rechazan.
Luego, se calcula un valor de probabilidad para cada modelo como una función del desajuste
entre las observaciones y las predicciones del modelo. Los pesos o probabilidades de cada
modelo se estiman normalizando los valores de probabilidad.
El modelo GLUE es flexible con respecto a la elección de la medida de probabilidad.
Cualquier medida de probabilidad razonable se puede utilizar adecuadamente, siempre que
represente adecuadamente la comprensión de los expertos sobre la importancia relativa de
las diferentes fuentes de datos utilizadas para evaluar la precisión del modelo.
ESTUDIO DE CASO: PREDICCIÓN DE PRODUCCIÓN DE PETRÓLEO PARA POZO DE RELLENO
El estudio genera predicciones para un rango potencial de producción acumulada y la

duración de la vida útil de la producción para un pozo de relleno arbitrario. Implementamos
un flujo de trabajo que integra estimación DCA y técnicas de redes neuronales para un
enfoque de análisis basado en datos.
Las predicciones de producción pueden ayudar a los ingenieros petroleros en los
pronósticos económicos, y el enfoque tradicional requiere una simulación numérica basada
en resultados de análisis de registros y núcleos. Sin embargo, este proceso puede ser
técnicamente difícil, lento y costoso en términos de recursos humanos y computacionales.
Este estudio de caso describe una metodología que incorpora enfoques tanto de ajuste
de curvas como de redes neuronales artificiales, y ofrece a los ingenieros soluciones
potenciales en el rango de producción acumulativa y duración de la producción de un pozo
de relleno. Los beneficios de las redes neuronales incluyen su eficiencia computacional,
características no lineales, propiedades de generación y facilidad para trabajar con datos de
alta dimensión.
El trabajo preliminar detrás de la predicción es la producción inicial del pozo y su corte
económico. El supuesto adoptado en el estudio es que la producción de un pozo de relleno
es similar a la de los pozos existentes en el mismo yacimiento; por lo tanto, las curvas de
producción de estos pozos pueden proporcionar el conocimiento adecuado para respaldar la
producción pronosticada de un pozo de relleno. Sin embargo, también se supone que un
ingeniero con experiencia local es ideal para juzgar cuán relevante es la información de los
pozos existentes.
Los cinco métodos convencionales de estimación, tanto física como económica.
Las reservas remanentes de petróleo en un pozo de petróleo incluyen:
1. Analogía: la predicción se basa en un pozo que se espera que funcione de manera

similar al pozo objetivo. Este método es rápido, económico y se puede utilizar antes
de perforar. Sin embargo, este método está inherentemente desprovisto de ostensible
precisión.
2. Volumetría: esta estimación de petróleo en el lugar se realiza combinando el volumen

neto del yacimiento con parámetros adicionales como la porosidad, la saturación y el
factor de recuperación. Una metodología relativamente rápida con la entrada mínima
requerida, con la aplicabilidad de la adopción temprana en el ciclo de vida de un pozo.
Sin embargo, esta metodología hace suposiciones sobre el área del pozo y el factor
de recuperación y, por lo tanto, tiene fallas inherentes.
3. Balance de materia: La técnica de balance de materia para determinar el aceite

original en sitio se basa en la ley de conservación de la masa. Este método requiere
información sobre las presiones, el historial de producción, las propiedades de los
fluidos y las propiedades de las rocas, y se puede utilizar para determinar muchos
parámetros, como el factor de recuperación, la entrada de agua y el tamaño del
casquete de gas. Las desventajas de este enfoque incluyen su sensibilidad a las
permeabilidades relativas y su confianza en aumentar la dimensión del espacio de entrada.
4. Análisis de la curva de declive: este método solo necesita el historial de producción.

El procedimiento para generar curvas de declive es rápido y económico, pero es
empírico por naturaleza y depende de la ecuación de Arps para generar curvas tipo.
El método puede generar predicciones de producción versus tiempo y es muy preciso
bajo ciertas circunstancias. Su debilidad es que el pozo objetivo debe estar
produciendo en condiciones constantes cuando se aplica este método. Además, el
método implica el ajuste de curvas con al menos 6 meses de datos históricos; su
rendimiento mejora si se dispone de datos de entre 2 y 10 años.
5. Simulación de yacimientos : La simulación de yacimientos es ostensiblemente una

extensión de la técnica de balance de materia. Requiere muchos más datos de entrada
que otros métodos. La fortaleza del método es que puede manejar diferentes propiedades
de rocas y fluidos en diferentes áreas del yacimiento; sus debilidades, sin embargo,
incluyen el costo y el tiempo requerido para hacer el estudio y la cantidad de insumos
necesarios. En el proceso de aplicación del método, los parámetros se ajustan para
ajustarse mejor a la historia de presión-producción del pozo de interés. Sin embargo,
dado que a menudo no se puede determinar un ajuste único, es esencial ser diligente
para que solo se utilicen valores aceptables. Además, incluso cuando se obtiene un
buen ajuste, las suposiciones hechas para obtener el ajuste pueden no ser ciertas en
las ejecuciones de predicción.
Cada uno de estos métodos se puede aplicar de forma independiente y tiene sus puntos fuertes
y débiles. Si bien los cinco métodos se pueden usar para predecir las reservas recuperables de
un yacimiento, los métodos tienen requisitos de datos diferentes.
Existe una investigación sustancial realizada sobre la estimación de la producción de
petróleo utilizando el enfoque ANN. Aminzadeh, Barhen y Toomarian6 adoptaron la técnica ANN
para estimar los parámetros de yacimientos de campos petroleros a partir de datos sísmicos remotos.
Huang y William7 desarrollaron un modelo para predecir la porosidad y la capacidad de
permeabilidad a partir de registros de pozos utilizando técnicas ANN. Aunque las medidas
básicas no se usaron para construir ejemplos de entrenamiento, las curvas pronosticadas y las
medidas reales concuerdan excepto por algunos puntos de datos. Wong y Taggart8
describió un modelo similar al de Huang y William, pero que incluye información sobre litofacies
como entrada. Los resultados mostraron que el método de red neuronal estándar dio un error
cuadrático medio (RMSE) más bajo en comparación con el método simulado, pero el método
simulado produce mejores estadísticas de los datos reales, incluida la media, la desviación
estándar, el coeficiente de variación y el valor máximo y máximo. valores mínimos. Wong y
Taggart creían que el preprocesamiento de datos era el paso más importante para aplicar el
enfoque ANN a los problemas geológicos.
El modelo ANN mostró mayor precisión en comparación con cualquier otro método de
correlación; también produjo los errores más bajos, la desviación estándar más baja y el
coeficiente de correlación más alto para ambas salidas.
Este estudio adopta dos enfoques de modelado:
1. Estimación de curvas
2. Metodología RNA
Estimación de curvas
Por lo general, los datos pueden ajustarse a más de un tipo de curva, y el objetivo del modelo
es encontrar una curva con una desviación mínima de todos los puntos de datos. Las curvas de
mejor ajuste se pueden determinar con base en el método de mínimos cuadrados, que
asume que la curva de mejor ajuste de un tipo dado es la curva que tiene la suma mínima de
las desviaciones al cuadrado de un conjunto de datos dado. La técnica de ajuste de mínimos
cuadrados lineales es la más fundamental y, por lo tanto, se aplica con frecuencia,
proporcionando una solución al problema de determinar la línea recta de mejor ajuste a través
de un conjunto de puntos. En este estudio, la mayoría de las ecuaciones utilizadas para ajustar
los datos son lineales o linealizables. Incluyen las ecuaciones lineales, logarítmicas,
exponenciales y armónicas.
Metodología RNA
Las redes neuronales utilizan algoritmos de ajuste de curvas no lineales más avanzados que
las ecuaciones de ajuste de curvas mencionadas en las metodologías de estimación de curvas.
En lugar de resolver un conjunto de ecuaciones para obtener los mejores coeficientes, el
modelo de red neuronal actualiza los pesos en las redes neuronales para reducir el error en
cada paso.
Un paso de emparejamiento histórico adopta las técnicas de estimación de curvas y redes
neuronales ya mencionadas. Cada modelo toma el índice mensual como entrada y genera
una producción mensual prevista. La coincidencia implica un proceso de minimización del
error cuadrático medio (RMSE) entre los valores de salida previstos y observados. Se
entrenaron redes neuronales para encontrar las arquitecturas y los pesos óptimos. Para los
métodos de estimación de curvas, se derivó un conjunto de coeficientes de curvas.
Para reducir la posibilidad de que los modelos de redes neuronales sobreajusten los
datos, se implementó la validación cruzada. Durante el entrenamiento, los datos se dividieron
de diferentes maneras en dos porciones para entrenamiento y validación; la porción de
validación se usó para medir el desempeño del modelo entrenado hasta ese punto.
También queríamos evitar que la red neuronal dedique tiempo a aprender, lo que significa
menos correlaciones entre un gran espacio de entrada debido a las idiosincrasias en casos
de entrenamiento individuales. Por lo tanto, la disminución del número de variables de entrada
permite que la ANN se centre solo en las correlaciones más críticas. El problema obviamente
es identificar aquellas variables implicadas como las variables más significativas. PCA es la
metodología tradicional para determinar si una variable está altamente correlacionada con
otra. El análisis también indica aquellas combinaciones de variables que contienen grandes
diferenciales en los datos en promedio. Otro beneficio es la aparición de aquellas variables
que, en promedio, son aproximadamente constantes y, por lo tanto, pueden descartarse como
significativas.
El objetivo de los modelos de coincidencia histórica no es solo retener las curvas de
producción, sino también pronosticar valores futuros basados en el conjunto de datos
históricos. Es probable que un pozo nuevo con valores de producción inicial más altos tenga
una vida útil más prolongada que un pozo existente con valores de producción inicial más
bajos. Por lo tanto, la capacidad de determinar valores futuros es aún más importante para hacer analogía.
predicciones en el caso de una mayor producción inicial. Si la vida de producción del

pozo nuevo es más corta que la del pozo existente, los valores observados del pozo
existente pueden usarse directamente para hacer predicciones análogas y no es necesario
generar ningún valor futuro. Sin embargo, si la vida del pozo nuevo es más larga que la
del pozo existente, los valores observados son insuficientes y se necesitan predicciones
futuras.
El estudio implementó la metodología análoga para determinar la producción de un
nuevo pozo con base en las curvas de declive de los pozos existentes. Implícita en esta
adopción del método análogo está la suposición de que la curva de disminución de la
producción es similar a la de los pozos existentes en la misma área. Otra heurística
adoptada se desarrolló a partir del estudio de los datos históricos de un pozo. Se observó
que, si bien la forma de dos curvas de producción puede ser diferente, los volúmenes
totales de producción de dos pozos son similares cuando sus volúmenes de producción
inicial están al mismo nivel.
Por lo tanto, para hacer predicciones análogas, la curva de producción de un pozo
existente se ajusta para que coincida con el nuevo nivel de producción inicial. Hay varias
formas de cambiar la curva de producción a un nuevo nivel:
ÿ Aditivo: Se suma una constante a la producción mensual de un ya existente

bien.
ÿ Multiplicativo: una constante se multiplica por la producción mensual de un pozo

existente y se supone que la tasa de producción es proporcional a la producción
inicial.
ÿ Lineal: La relación entre la producción mensual y la producción inicial
ción se expresa como una función lineal.
ÿ No lineal: La relación entre la producción mensual y la producción inicial se
expresa como una función no lineal.
La tabla 7.1 muestra que el método multiplicativo genera resultados más precisos
que el método aditivo, ya que los valores predichos están más cerca del rango de los
valores observados y no hay valores negativos en la predicción. Por lo tanto, en este
estudio se adoptó el enfoque multiplicativo.
El rendimiento de esta solución debe ser evaluado por los expertos del dominio.
Además, la precisión del sistema se puede corroborar utilizando los datos disponibles. Se
ha avanzado considerablemente en el desarrollo de métodos para estimar la producción
futura de los pozos de petróleo. Sin embargo, estos métodos son invariablemente difíciles
de usar o inexactos. Esta metodología no intenta inventar un nuevo método de predicción.
En cambio, se basa en varios métodos sencillos disponibles y brinda a los usuarios
ilustraciones numéricas y visuales de los resultados para que los ingenieros
experimentados puedan ejercer su juicio y decidir qué escenario es el más probable.
Tabla 7.1 Análisis de pozos para métodos aditivos y multiplicativos
bueno un Bien b bien c bien d bueno mi
bueno un 2736.9 –500.71 –268359 3050 2919.5
Bien b 11575.8 3838.19 4570.4 11888.9 11758.4
bien c 11058.3 3320.69 4052.9 11371.4 11240.9
bien d 853.2 –6884.41 –6152.2 1166.3 1035.8
bueno mi 873.9 648.8 –6131.5 1187 1056.5
bueno un Bien b bien c bien d bueno mi
bueno un 2736.9 1257.234 1381.972 2073.422 1862.305
Bien b 8355.44 3838.19 4219.002 6329.919 5685.403
bien c 8026 3687 4052.9 6080 5461.98
bien d 1539.65 707.78 777.43 1166.3 1046.98
bueno mi 1552.78 713.56 784.89 1176 1056.5
NOTAS
1. WW Cutler y HR Johnson, “Estimación del petróleo recuperable de pozos reducidos”, Oil Weekly
(27 de mayo de 1940).
2. JJ Arps, "Análisis de las curvas de declive", Transacciones del Instituto Estadounidense de Ingenieros de Minas
160 (1945): 228–247.
3. EC Capen, “La dificultad de evaluar la incertidumbre”, Journal of Petroleum Technology 28, no. 8
(1976): 843–850.
4. VA Jochen y J P. Spivey, “Probabilistic Reserves Estimation Using Decline Curve Analysis with the Bootstrap
Method,” SPE 36633, presentado en la Conferencia y Exposición Técnica Anual de la SPE, Denver, CO, del 6
al 9 de octubre de 1996.
5. MJ Fetkovich, "Análisis de la curva de declinación usando curvas tipo", Journal of Petroleum Technology
(junio de 1980), 1065–1077.
6. F. Aminzadeh, J. Barhen y NB Toomarian, "Estimación del parámetro del yacimiento mediante una red neuronal
híbrida", Journal of Petroleum Science and Engineering 24, no. 1 (1999): 49–56.
7. Z. Huang y MA William, "Determinación de la porosidad y la permeabilidad en intervalos de yacimientos
mediante el modelado de redes neuronales artificiales: costa afuera del este de Canadá", Petroleum Geoscience
3, no. 3 (1997): 245–258.
8. PM Wong e IJ Taggart, “Uso de métodos de redes neuronales para predecir la porosidad y
Permeabilidad de un depósito de petróleo”, AI Applications 9, no. 2 (1995): 27–37.
CAPÍTULO 8
Producción
Mejoramiento
He venido cargado de estadísticas, porque me he dado cuenta

de que un hombre no puede probar nada sin estadísticas.
Mark Twain
hacer ciclo. Solo juicios sólidos y oportunos sobre tácticas y estrategias.

L a optimización depuede
en todo el activo la producción se basa
garantizar flujos en facilitar
de trabajo una decisión
optimizados más
para mejorar eficiente
el rendimiento
en toda la cartera de pozos. Por lo tanto, la optimización de la producción debe aprovechar y
escalar la mano de obra experimentada y transformar las metodologías para garantizar la
colaboración. Las personas, los procesos y las tecnologías comprenden el triunvirato de la
excelencia organizacional efectiva. Los enfoques habituales para la optimización de la
producción deben perfeccionarse para incluir modelos basados en datos.
¿Cuáles son algunos de los beneficios que se obtienen a través de actividades
orientadas a la optimización de la producción? La reducción de paradas no
planificadas y el gasto controlado para reducir OPEX y CAPEX, así como explotar
más reservas y aumentar el rendimiento de los activos son solo algunos de los más importantes.
consecuencias.
La evaluación estratégica que revisa y define la hoja de ruta para las operaciones
integradas y los yacimientos petrolíferos digitales, así como la vigilancia y alerta de activos,
está respaldada por metodologías analíticas avanzadas que pueden realizar la gestión de
datos y el análisis exploratorio de datos, y poner en práctica modelos predictivos que se
ejecutan en una gran cantidad de datos en tiempo real. datos consumidos de historiadores de datos.
La simulación y optimización de activos actualmente emplea modelos numéricos
complejos para maximizar la producción en los tres sistemas integrados: yacimiento,
pozo e instalaciones de superficie. Mohaghegh, Modavi, Hafez y Haajizadeh1 han
243
Modelo geológico de alto nivel

Análisis de producción
Análisis de pozos Datos estáticos Datos dinámicos
No
Basado en datos
modelo estático Profético
Modelo Económico
Objetivo
alcanzado?
patrón borroso
Reconocimiento
Sí
Determinar relleno
Espaciotemporal
Ubicaciones y
Analítico
Pozos buenos/malos Final
Flujos de trabajo
Figura 8.1 Flujo de trabajo de modelado inteligente de yacimientos de arriba hacia abajo
presentó a la industria un conjunto alternativo de técnicas de computación blanda que

implementan redes neuronales, agrupación difusa, reconocimiento de patrones, etc., bajo
la apariencia de un enfoque de modelado de arriba hacia abajo (Figura 8.1). Es una
metodología de simulación empírica de yacimientos formalizada y completa que aborda las
complejidades multivariantes, multivariantes, multidimensionales y estocásticas inherentes
al yacimiento.
El enfoque inverso de arriba hacia abajo sustenta la metodología estándar de
simulación y modelado de yacimientos. El modelo geológico inicial se formula integrando
los datos geofísicos y petrofísicos existentes óptimos. Luego agregamos la comprensión
empírica del flujo de fluidos para obtener numéricamente un modelo de yacimiento dinámico
que posteriormente se calibra con los datos históricos de producción.
El modelo histórico se implementa para determinar las estrategias de (re)ingeniería del
campo para lograr la función objetivo: maximizar la perforación de relleno, mejorar el factor
de recuperación o aumentar el rendimiento del pozo.
El objetivo del flujo de trabajo de arriba hacia abajo es generar una simulación del
yacimiento iniciada mediante el estudio de los matices del desempeño histórico del pozo.
Tendemos a complementar estos datos con núcleos, registros con cable, pruebas de pozos
y atributos sísmicos para mejorar la precisión de la técnica de modelado de arriba hacia abajo.
Por lo tanto, este enfoque no se considera un reemplazo de la simulación y el modelado de
yacimientos convencionales, sino una metodología auxiliar, especialmente pertinente
cuando los modelos numéricos tienen un costo y un recurso prohibitivos.
El flujo de trabajo de arriba hacia abajo debe consistir, entre otros, en algunos de los
siguientes protocolos estándar de facto en el modelado numérico:
P rod u ction O pti miz ationâ•‡ÿ 245
ÿ Análisis de la curva de declive
ÿ Coincidencia de curvas tipo
ÿ Coincidencia de historial
ÿ Estimación de reserva volumétrica
ÿ Determinación de factores de recuperación
Adoptando técnicas de regresión lineal simple, es factible generar un conjunto de múltiples

indicadores de producción (producción líquida acumulada de 3, 6 y 9 meses, así como
producción acumulada de petróleo, gas y agua de 1, 3, 5 y 10 años). producción además de la
relación gas-petróleo suavizada y los valores de corte de agua a lo largo de una ventana de
tiempo discreta muestreada). Estos análisis y estadísticas generan un gran volumen de datos
e información que son instantáneas del comportamiento del yacimiento en segmentos discretos
de tiempo y espacio. Luego, podemos aplicar una gama de técnicas informáticas blandas,
como redes neuronales, algoritmos genéticos y reconocimiento de patrones difusos para
determinar modelos predictivos para pronosticar el rendimiento del pozo. Luego, el conjunto de
modelos discretos e inteligentes se integra utilizando un algoritmo de reconocimiento de
patrones borrosos continuos para llegar a una imagen cohesiva y un modelo del yacimiento
como un todo.
El modelado inteligente de yacimientos de arriba hacia abajo es un matrimonio entre las
tendencias existentes en inteligencia artificial y minería de datos (AI&DM), que refleja el no
determinismo y las metodologías y principios sólidos de ingeniería de yacimientos basados en
el determinismo. Puede obtener una apreciación única del campo y el yacimiento utilizando
mediciones reales.
Muchas empresas de petróleo y gas se dan cuenta de que sus operaciones podrían beneficiarse
de formas mejoradas de trabajo impulsadas por información y herramientas de mejor calidad.
Sin embargo, a menudo tienen dificultades para identificar qué es importante y qué es solo
exageración. El alcance de una evaluación varía desde un solo activo hasta la cartera completa
de activos de una empresa. Por lo general, el alcance de un proyecto se centrará en uno o en
un pequeño número de activos con la intención de estructurar un programa de manera que
pueda extenderse fácilmente a otros activos.
El valor inherente y los beneficios de optimizar la producción son obvios, pero ¿a qué
costo? A la luz de la avalancha de datos de E&P con múltiples variedades en disciplinas de
ingeniería dispares y aisladas, es fundamental desarrollar metodologías automatizadas y
semiautomatizadas que implementen técnicas de computación blanda. La gestión de datos, la
cuantificación de la incertidumbre y la evaluación de los riesgos asociados con los modelos
operativos deben abordarse para lograr estrategias de (re)ingeniería exitosas que se centren
en la función objetivo: producción optimizada.
Analicemos algunos estudios de casos que explican los beneficios tangibles de aplicar modelos basados
en datos y metodologías analíticas avanzadas a un conjunto de datos representativo de un sistema complejo
para lograr un mejor rendimiento de la cartera.
ESTUDIOS DE CASO
Los siguientes estudios de caso ilustran la efectividad y validez de aplicar flujos de trabajo analíticos avanzados
para optimizar la producción en yacimientos tanto convencionales como no convencionales.
Levantamiento artificial: optimización de pozos de petróleo con inyección de gas2
De los aproximadamente 1 millón de pozos de petróleo y gas que producen en todo el mundo, aproximadamente
1 de cada 20 fluye de forma natural, lo que hace que la mayor parte de la producción de petróleo y gas dependa
de operaciones eficaces de levantamiento artificial. Un campo maduro tiene un historial de producción
relativamente largo con múltiples pozos antiguos. Para aumentar las tasas de producción, necesitamos
aumentar las presiones de los yacimientos. Cuando los flujos de gas están restringidos a través de múltiples
pozos, es una situación problemática que debe resolverse de manera oportuna y efectiva. Exploremos una
solución escalable que ofrece resultados eficientes y potentes.
Las bombas sumergibles electrónicas (ESP) y la inyección artificial de gas son dos técnicas que se
esfuerzan por mantener el desempeño de la producción en un yacimiento maduro. La implementación de la
última metodología prevalece en muchos pozos de producción. Podemos generar un conjunto complejo de
ecuaciones diferenciales parciales para ser resuelto numéricamente a fin de generar un modelo físico que
represente los fenómenos asociados con el levantamiento artificial por gas. Las ecuaciones se derivan de los
balances fundamentales de masa y momento y dependen de las propiedades físicas inherentes al sistema de
levantamiento artificial por gas.
La figura 8.2 ilustra una representación gráfica de un sistema de campo petrolero de levantamiento
continuo por gas (CGL).
Al rediseñar las tácticas y estrategias en un campo maduro, determinar el sistema de levantamiento
artificial optimizado en la cartera de pozos, obviamente se complica por los patrones de interferencia entre los
pozos a lo largo del yacimiento.
La segmentación del campo no solo es un factor que contribuye, sino también otras influencias, como la
relación gas-petróleo y la temperatura de cada pozo y el tipo de válvulas de levantamiento artificial por gas y
las capacidades de las instalaciones de procesamiento de superficie (disponibilidad de gas comprimido y
separación de gas-petróleo). Hay un rango de presión de inyección de gas inestable, óptimo y estable
determinado para cada pozo; La figura 8.3 representa gráficamente una curva típica de optimización de
levantamiento artificial por gas.
El área inestable produce un "rumbo" caracterizado por amplias variaciones en la presión de inyección
debido a la dinámica física del flujo de fluido. Invariablemente notamos tasas de inyección más altas en la
región estable. Predominantemente la mayoría
Estrangulador de producción
gasóleo
al separador
de gasolina
Compresor
Ascensor de gas Inyección de gases
Ahogo
anular
Tubería de producción
Elevador de gas
Válvula
Reservorio
Figura 8.2 Levantamiento continuo de gas (CGL)
Inestable Estable
Gas normal
Operación de elevación
Óptimo
Elevador de gas
Producción máxima
Región
X min X máx.
Inyección de gas (MMCSF/d)
Figura 8.3 Curva de optimización de levantamiento artificial por gas
El área favorable de levantamiento artificial por gas está entre el 40 y el 60 por ciento de la tasa de inyección de gas
en la marca máxima de producción de petróleo.
Invariablemente, las curvas de optimización del levantamiento artificial por gas para cada pozo de la cartera se
calculan mediante la medición de la producción de gas-petróleo en un rango de presiones de inyección. Estas curvas
se pueden determinar en tiempo real como datos de vigilancia
los sensores se transmiten continuamente a un flujo de trabajo analítico avanzado.

Los resultados se pueden implementar para optimizar las técnicas mejoradas de recuperación
de petróleo que abordan la interacción con los pozos y también afinan parámetros operativos
importantes.
Para un conjunto específico de curvas de optimización de levantamiento artificial por gas, el
cálculo de las presiones óptimas de inyección de gas se puede lograr mediante una variedad de
procedimientos numéricos. La mayoría de estas técnicas requieren recursos computacionales
sustanciales y, por lo tanto, es imperativo implementar la solución en una arquitectura distribuida.
Metodología de modelado
El primer paso en el flujo de trabajo analítico implica la generación de un conjunto de curvas de

optimización de levantamiento artificial por gas basadas en los datos agregados en toda la cartera de pozos.
La variable independiente es la tasa de inyección de gas y cuando se grafica contra la producción del
pozo o la variable dependiente, podemos determinar la función de respuesta. Las condiciones de
operación existentes en cada pozo son inherentes a las curvas.
Con el fin de abordar el problema de optimización asociado con la distribución de los flujos de gas en
una variedad de pozos, se han posicionado múltiples modelos y metodologías complejas. Analicemos
los puntos de datos discretos de optimización del levantamiento artificial por gas y ajustémoslos para
generar una función continua con la variable independiente en el flujo de inyección de gas.
Un polinomio simple (variable independiente) con diversos grados se puede ajustar a los datos
utilizando una metodología de mínimos cuadrados al evaluar las medidas estadísticas relacionadas
con la bondad del polinomio de mejor ajuste.
Polinomio en X:
f(x) = a0 + a1 x + a2 x2 + a3 x3 + a4 x4 Ecuación (1)
dónde:
ÿ x es la variable independiente.
y a4
a1, a2 , a3 , variables son coeficientes de sus respectivos polinomios independientes ÿ a0 ,
pendientes.
El ajuste de ecuaciones polinómicas a la forma general de la curva de levantamiento artificial por

gas (Figura 8.3) requiere un polinomio de orden superior para aproximar la forma de la curva. Las
estadísticas de ajuste resultantes de una regresión de mínimos cuadrados y el ajuste de forma general
deficiente indican que una forma polinomial de alto orden no es satisfactoria. Se pueden usar otras
formas de la función para ajustar los datos y las medidas estadísticas y la forma resultante de la curva
se pueden evaluar para que coincidan mejor con la relación de optimización del levantamiento artificial
por gas. De varias alternativas, la siguiente parece ajustarse mejor a las curvas de levantamiento
artificial por gas generalizadas.
Exponencial en X:
f(x) = a3 + [a2 / (a0 / a1 ÿ 1)]{eÿa 1x+ÿeÿa 0X } Ecuación (2)

dónde:
ÿ x es la variable independiente, la tasa de inyección de gas.
ÿ a0 , a1 , a2 , a3 , y a4 son coeficientes en ecuación exponencial.
Optimizar la formulación de producción
El problema de optimización de la producción más fundamental y restringido se puede expresar así:
Maximizar
un 2
Producción ( )ÿ=ÿa3
ÿfxÿ+=ÿÿyo
ÿÿÿ
a ÿÿÿ0ÿ1
{
mi
ÿ
mi
} Ecuación (3)
ÿÿÿ
a1
sujeto a:
i
Volumen máximo de inyección de gas=ÿn xi <= Gas total disponible Ecuación (4)
Para cada pocillo, i = 1 al número de pocillos:
xi >= 0 (No negatividad de las tasas de inyección de gas) Ecuación (5)
Podemos agregar más criterios de restricción, como mínimo y máximo.
tasas de inyección por pozo. Este conjunto de restricciones permite la optimización de cada curva de levantamiento
artificial por gas en la región óptima de levantamiento artificial por gas (Figura 8.3). Tenga en cuenta las ecuaciones
6 y 7, más adelante.
Formulación computacional del problema de optimización con restricciones y

su solución final constituye el siguiente paso en la metodología.
Es suficiente que el polinomio en forma de x (ecuación 1) esté representado por un solucionador
de ecuaciones lineales, mientras que la forma exponencial (ecuación 2) necesita un solucionador de
ecuaciones no lineales.
Se determinó que la forma exponencial de la curva de levantamiento artificial por gas era óptima y,
por lo tanto, se implementó para resolver el problema de optimización con restricciones. El solucionador
de optimización no lineal escaso que utiliza el método de gradiente conjugado, un método de tipo
Newton con búsqueda de línea, método de región de confianza o método cuasi-Newton, fue elegido
para resolver este problema.
Restricciones adicionales a las ecuaciones 1, 2 y 3 dan como resultado lo siguiente
formulación:
Optimice la formulación de producción para un área óptima de levantamiento artificial por gas
Como complemento a las ecuaciones 3, 4 y 5, las siguientes dos restricciones adicionales abordan
el área óptima de levantamiento artificial por gas.
Para cada pocillo, i = 1 al número de pocillos:
xi < = 60% xi máx . Ecuación (6)

xi > = 40% xi máx . Ecuación (7)
Las ecuaciones de restricciones 6 y 7 aseguran que la tasa de inyección de levantamiento artificial por gas esté
en el área óptima como en la Figura 8.3.
Si no se puede lograr el área óptima de levantamiento artificial por gas (debido a la capacidad total de
inyección de gas) para un pozo específico, el protocolo general es establecer la tasa de flujo de levantamiento
artificial por gas en 0 para minimizar los efectos de rumbo.
Selección de Pozos Productores
En un campo petrolero operativo, el mantenimiento puede requerir el cierre de pozos petroleros particulares.
Una extensión lógica de la optimización anterior sería la capacidad de seleccionar los pozos en operación y,
posteriormente, optimizar la tasa de inyección de gas para cada pozo en operación. Esto se puede lograr
incluyendo un parámetro booleano (encendido/apagado del pozo) en la formulación de la ecuación 3 u 8.
Se muestrean cinco pozos tabulando el flujo de inyección de gas (Qg – MMCF/D) contra la producción de
gas-petróleo (Qo STB/D), como en la Figura 8.4.
La Figura 8.5 ilustra gráficamente los datos representados en la Figura 8.4 y subraya la curva de
optimización del levantamiento artificial por gas para cada uno de los cinco pozos.
Los coeficientes calculados para exponenciales en cien pozos se capturaron implementando un algoritmo
no lineal para cada pozo. Estos se utilizan en la optimización de la computadora. Estos coeficientes se pueden
volver a calcular rápidamente en función de la transmisión de datos sobre las tasas de inyección de gas/
producción proporcionados por los sistemas de control de supervisión y adquisición de datos (SCADA) o
recopilados de otro modo por los técnicos de datos de campo. Esto permitiría una optimización casi en tiempo
real de las tasas de inyección de gas.
Se completó una serie de optimizaciones para tasas de inyección de gas entre 10 y 100 MMCF/D
disponibles en los 100 pozos. Los resultados se muestran en las Figuras 8.6 y 8.7. A la tasa de disponibilidad
de gas de inyección más baja (10 MMCF/D), a muchos pozos no se les asignó ninguna inyección de gas. Con
la tasa de inyección más alta disponible (100 MMCF/D), la producción óptima fue de 121 830,9452 STB/D.
Uno de varios procesos se utiliza para extraer petróleo o agua artificialmente de los pozos donde la presión
del yacimiento es insuficiente para producir el pozo. El proceso consiste en inyectar gas a través del espacio
anular del revestimiento de la tubería. El gas inyectado airea el fluido para reducir su densidad; la presión de la
formación puede entonces levantar la columna de petróleo y expulsar el fluido del pozo. El gas se puede inyectar
de forma continua o intermitente, según las características de producción del pozo y la disposición del equipo
de levantamiento artificial por gas.
El levantamiento artificial por gas es una forma de levantamiento artificial donde las burbujas de gas levantan el petróleo del pozo.
La cantidad de gas a inyectar para maximizar la producción de petróleo varía según las condiciones y geometrías
del pozo. Demasiado o muy poco gas inyectado resultará en una producción inferior a la máxima. En general, la
cantidad óptima de gas inyectado se determina mediante pruebas de pozos, donde se varía la velocidad de
inyección y se mide la producción de líquido (petróleo y quizás agua).

bien 1 bien 2 bien 3 bien 4 bien 5
qg qo qg qo qg qo qg qo qg qo
0 175 0 271 0 321 0 432 0 460
0.06125 187 0.2 307.2 0.2 400 0.263 500 0.3 532.7
0.125 200 0.3 325,8 0,31 425,9 0,427 540 0.444 567.3
0.1825 212 0.4 345,9 0,445 450,6 0,52 560 0.54 588.4
0.25 222 0.52 363.1 0.51 460 0.636 585.9 0.626 610
0.375 238 0.642 376,9 0,6 469 0.714 600 0.728 632.4
0.5 248 0.763 388,8 0,75 482,9 0,8 614 0.809 649.4
0.756 258.7 0.85 397,4 0,87 492 0.926 633.9 0,92 667
1 265 1 407.4 1.045 501.7 1.1 653 1 678
1.385 269.7 1.15 414,6 1,255 509.2 1.289 668.8 1.08 687
1.724 270.46 1.25 418.4 1.455 513.7 1.421 675.6 1.23 704
2 269.2 1.371 421.3 1.62 515.8 1.54 682 1.379 715.5
2.5 266 1.484 423.1 1.818 517.8 1.724 687.9 1.52 726
3 261.5 1.69 425.1 2 517.5 1.9 693 1.669 734
3.5 257 1.838 425.3 2.132 517 2.134 696.1 1.85 740
4 252.8 2.1 424.8 2.273 516,4 2,4 698.5 2 744
4.5 247.5 2.439 422.2 2.478 514.4 2.642 700 2.2 749
5 242.5 2.73 419 2.673 510,9 3,06 701.6 2.494 752.82
5.5 238 3.113 412 3.118 504.1 3.601 702.39 3 751
6 234 3.601 404 3.601 495.9 4.206 701 3.601 749
6.5 230 4 396.8 4.145 484.2 5 696 4.29 743.6
7 225 5 380 5 465 6 688 5 737
7.5 220 6 361.1 6 440 7 680 6 723.6
8 215 7 340 7 414 8 671 7 710
8 321 8 384.9 8 695.5
Figura 8.4 Muestra de datos de curvas de levantamiento artificial por gas
Aunque el gas se recupera del petróleo en una etapa posterior de separación, el proceso requiere energía para
accionar un compresor a fin de elevar la presión del gas a un nivel en el que pueda reinyectarse.
El mandril de levantamiento artificial por gas es un dispositivo instalado en la sarta de tubería de un pozo de
levantamiento artificial por gas sobre el cual se coloca una válvula de levantamiento artificial por gas. Hay dos tipos comunes
Curvas de optimización de levantamiento artificial por gas
800
700
600
500
400
300
200
100
0 12345678
Flujo de inyección de gas (Qg - MMCF/D)
Bien 1 2 3 4 5
Figura 8.5 Ejemplo de curvas de levantamiento artificial por gas
Tasa de inyección de gas (MMCF/D) Producción total (STB/D)
0 25,562.73223
10 68,356.17876
20 88,908.82123
30 101,085.27084
40 108.455,77364
50 113,150.24474
60 116.317,92018
70 118,541.69936
80 120.098,28288
90 121.152,89875
100 121,830,9452
Figura 8.6 Resultados de optimización y uso óptimo de gas
de mandriles. En un mandril de levantamiento artificial por gas convencional, se instala una válvula de levantamiento
artificial por gas a medida que se coloca la tubería en el pozo. Por lo tanto, para reemplazar o reparar la válvula, se
debe jalar la sarta de tubería. Sin embargo, en el mandril de bolsillo lateral, la válvula se instala y retira con cable
mientras el mandril aún está en el pozo, lo que elimina la necesidad de tirar de la tubería para reparar o reemplazar
la válvula.
Tasa de inyección versus producción

140.000
120,000
100,000
80.000
60.000
40.000
20,000
0 20 40 60 80 100
Tasa de inyección total Qg (MMCF/D)
Figura 8.7 Resultados de optimización para tasas de inyección de gas de 0 a 100 MMCF/D
Una válvula de levantamiento artificial por gas es un dispositivo instalado en (o dentro) de un mandril
de levantamiento artificial por gas, que a su vez se coloca en la tubería de producción de un pozo de
levantamiento artificial por gas. Las presiones de la tubería y del revestimiento hacen que la válvula se
abra y se cierre, lo que permite que se inyecte gas en el fluido de la tubería para que el fluido suba a la
superficie. En el léxico de la industria, se dice que los mandriles de levantamiento artificial por gas son
"tubos recuperables" en los que se despliegan y recuperan unidos a los tubos de producción.
Maximizar la producción en yacimientos no convencionales
Durante la última década se han descubierto importantes suministros de gas natural en el esquisto. Si
bien el desarrollo de nuevas tecnologías ha reducido el costo de la extracción de gas, la búsqueda de gas
natural en el esquisto sigue siendo riesgosa y requiere mucho capital.
Los productores buscan las zonas más productivas en sus cuencas de esquisto, así como la mejora
continua en los procesos de fracturación hidráulica. Disminuir los costos y reducir el riesgo mientras se
maximiza la producción de gas de esquisto requiere capacidades analíticas avanzadas e innovadoras
que puedan brindarle una comprensión integral de la heterogeneidad del yacimiento a fin de extraer
información predictiva oculta, identificar impulsores e indicadores principales de producción eficiente de
pozos, determinar la mejor intervalos de estimulación y recomendar procesos y frecuencias de estimulación
óptimos. Modelar, simular y predecir la productividad de los pozos requiere capacidades integradas de
exploración, predicción y pronóstico respaldadas por modelos analíticos avanzados para desbloquear el
verdadero potencial de cada pozo. Sin el conocimiento crítico que permite el análisis integrado para
emparejar el análisis de productividad con la viabilidad económica, las empresas enfrentan un riesgo e
incertidumbre significativos cuando desarrollan nuevos pozos u optimizan la producción de pozos
existentes.
Es fundamental evaluar a través de metodologías de minería de datos la variabilidad y el

potencial del desempeño de los pozos para formular un conjunto optimizado de estrategias de
terminación de pozos y desarrollo de yacimientos. Debido a la complejidad inherente de los
sistemas del subsuelo, se debe implementar un conjunto de flujos de trabajo analíticos avanzados
basados en datos que abarquen el análisis exploratorio de datos en una perspectiva multivariante
y el análisis predictivo de datos para complementar los primeros principios que sustentan la
variedad de escuelas de estudios geocientíficos. pensamiento.
Formación Bakken
La formación Bakken es una unidad rocosa del Devónico tardío al Misisipiense temprano que se
extiende debajo de áreas de Montana y Dakota del Norte en los Estados Unidos y Manitoba y
Saskatchewan en Canadá. Las estimaciones más recientes
de técnicamente recuperables y no recuperables con tecnología existente superan los 18 mil
millones de barriles de petróleo equivalente (BOE). Las porosidades en Bakken promedian
alrededor del 5 por ciento y las permeabilidades son muy bajas, con un promedio de 0,04
milidarcies, pero la presencia de fracturas naturales verticales a subverticales hace que Bakken
sea un excelente candidato para técnicas de perforación horizontal y fracturación hidráulica.
El perfil de pozo típico propuesto por los operadores en Bakken es demasiado optimista.
Observamos una disminución predominantemente exponencial (hiperbólica de débil a moderada)
en la mayoría de las tendencias de disminución de pozos individuales, en lugar de una
disminución hiperbólica constante. Por lo tanto, se observa dentro del play de Bakken Shale un
declive exponencial predominante en dos etapas basado en el análisis de la curva de declive
(DCA) de pozos individuales. Un declive exponencial de dos etapas se caracteriza por un
período inicial de 12 a 18 meses de fuerte declive seguido de una tasa de declive estable y
menos profunda que continúa hasta el estado actual de los pozos (comúnmente durante cuatro
o más años para fecha en Bakken Shale). Nuestro énfasis está en igualar la segunda etapa
relativamente estable y menos profunda, porque esa es la parte del historial de declive que
mejor predice el desempeño futuro. La determinación de las tendencias de rendimiento
(coeficiente de Arps, b3 ) y las tasas iniciales de disminución (Di ) permite la agregación de
varios indicadores clave de producción (KPI). La implementación de los valores de estos KPI en
un análisis de conglomerados genera perfiles de pozo que sugieren compartimentación o
segregación de campos.
La agrupación en clústeres es una herramienta de minería de datos para categorizar y
analizar grupos de estas dimensiones de datos que tienen propiedades o características de
atributos similares. Para el análisis de pozos esta metodología consiste en clasificar los pozos
dividiendo el campo en áreas. Este método determina los pozos más similares y genera un
primer conjunto de conglomerados; luego compara el promedio de los conglomerados con los
pozos restantes para formar un segundo conjunto de conglomerados, y así sucesivamente. Hay varias formas de
pozos agregados, pero el método anterior es más estable que el procedimiento K-means y
proporciona resultados más detallados; además, el árbol mostrado es útil para visualizar los
resultados o elegir el número de conglomerados. Requiere más tiempo de cómputo, pero la
capacidad de cálculo de las unidades de cómputo actuales permite procesar mil pozos en pocos
minutos.
Las siguientes propiedades de los pozos podrían usarse como parámetros para la agrupación:
ÿ Producción líquida acumulada
ÿ Producción acumulada de petróleo o gas
ÿ Corte de agua (porcentaje determinado por producción de agua/líquido

producción)
ÿ Exponente B (curva de tipo declinante)
ÿ Tasa inicial de disminución
ÿ Tasa inicial de producción
ÿ Producción media de líquidos
Puntos de datos adicionales tales como los parámetros operacionales cantidad de apuntalante,
tipo de apuntalante, redondez y esfericidad del apuntalante, tamaños de malla, volumen de fluido
de fractura e intervalo perforado bruto también son variables independientes muy importantes que,
cuando se exploran en una herramienta analítica de datos visuales como se demuestra en las
Figuras 8.8, 8.9 y 8.10, pueden revelar tendencias y patrones ocultos. Posteriormente, es importante
integrar los parámetros ambientales geomecánicos, como los relacionados con la caracterización
del macizo rocoso y la mecánica del macizo rocoso, y puntos de datos significativos que reflejen la
litología, las propiedades de la formación, el buzamiento y la heterogeneidad, la trayectoria del pozo
y la resistencia a la compresión de la roca. La fragilidad y la ductilidad, siendo la primera una de las
propiedades de roca más importantes que afectan la capacidad de perforación de las rocas, también
son parámetros clave cuando se trata de identificar
Figura 8.8 Correlaciones y regresiones en los parámetros de apuntalante de Bakken

Figura 8.9 Mapa de calor que detalla la producción acumulada por condado
Figura 8.10 Gráfico de burbujas que detalla el volumen de fluido de fracturación y la cantidad de apuntalante
estrategias de desarrollo de campo en torno a la colocación de pozos y la producción optimizada.

El análisis en pozos vecinos y un buen conocimiento de la geología del campo es la mejor manera
de realizar un pronóstico realista de las futuras formaciones de pozos y sus propiedades
geomecánicas.
La mayoría de los pozos perforados en Bakken son horizontales con laterales que van desde
los 8.500 a los 10.000 pies y profundidades verticales cercanas a los 10.000 pies. Para optimizar
la producción, es esencial determinar los diseños de tratamiento de fracturas más efectivos y
determinar las etapas de fractura de terminación de pozos introduciendo datos PLT. Discutiremos
tales estudios en el próximo estudio de caso, llevado a cabo en el activo Pinedale Anticline.
Los modelos de yacimientos basados en IA utilizan capacidades de reconocimiento de

patrones de inteligencia artificial y minería de datos (AI&DM) para construir relaciones entre
producción de fluidos, características del yacimiento y restricciones operativas. De hecho, esta

es una nueva forma de ver un yacimiento y su comportamiento de flujo de fluidos. Esta es una
tecnología en su infancia. Requiere aportes de los principales actores, incluidos científicos,
ingenieros, académicos, empresas de servicios, IOC, NOC e independientes para crecer y
madurar. Esta tecnología tiene el potencial de contribuir al arte y la ciencia de la simulación y el
modelado de yacimientos y se suma al conjunto existente de herramientas que se utilizan
actualmente en nuestra industria para la gestión de yacimientos.
Los productores buscan las zonas más productivas en sus cuencas de esquisto, así como
la mejora continua en los procesos de fracturación hidráulica. Disminuir los costos y reducir el
riesgo mientras se maximiza la producción de gas de esquisto requiere capacidades analíticas
avanzadas e innovadoras que puedan brindarle una comprensión integral de la heterogeneidad
del yacimiento con los siguientes beneficios:
ÿ Extraer información predictiva oculta.
ÿ Identificar impulsores e indicadores principales de producción y colocación de pozos eficientes.
ÿ Determine los mejores intervalos para la estimulación.
ÿ Recomendar procesos y frecuencias de estimulación óptimos.
Modelar, simular y predecir la productividad de los pozos requiere capacidades integradas

de exploración, predicción y pronóstico respaldadas por modelos analíticos avanzados para
desbloquear el verdadero potencial de cada pozo.
Sin la visión crítica que permite el análisis integrado para emparejar el análisis de productividad
con la factibilidad económica, las empresas enfrentan un riesgo e incertidumbre significativos
cuando desarrollan nuevos pozos u optimizan la producción de pozos existentes.
Activo de Pinedale
Para lograr la estrategia de terminación más eficiente en los yacimientos no convencionales,

como los activos de Bakken y Pinedale, es necesario realizar un conjunto de flujos de trabajo
analíticos multivariados que identifiquen los parámetros más importantes para impactar el
rendimiento. ¿Dónde perforamos el próximo pozo? ¿Podemos implementar los datos históricos
observados en otros pozos en la misma estructura, un anticlinal en el caso de Pinedale?
activo en Wyoming?
Huckabee y Minquan4 analizan el uso del análisis multivariante (MVA) para evaluar las
variables críticas de rendimiento importantes para optimizar el tratamiento de fractura hidráulica.
Su artículo (SPE 135523) analiza los desafíos asociados con el análisis de una sola variable
(SVA) y el uso exitoso de análisis multivariante.
modelos de redes neuronales para optimizar las técnicas de terminación de gas compacto.
Este trabajo se realizó con datos de las actividades de desarrollo de 2009 en el campo
anticlinal de Pinedale en el oeste de Wyoming.
El análisis utilizó información de más de 50 paquetes de arena fluvial en un solo pozo
de más de 5000 pies de sección vertical. Previamente se había realizado un análisis de una
sola variable para identificar las correlaciones y las tendencias que afectan el desempeño de
la estimulación de fracturas. Estas técnicas resultaron insatisfactorias como enfoque para
comprender la optimización de fracturas. El enfoque de MVA abordó la complejidad inherente
a la variación coincidente de los datos en múltiples parámetros.
Se eligió una red neuronal entre muchas técnicas de MVA para evaluar tanto los
parámetros del yacimiento como las variables controladas por el operador, como el volumen
de apuntalante y los métodos de flujo de retorno. Las capacidades computacionales actuales
y el software de modelado predictivo fácil de usar fueron componentes en la decisión de
utilizar este enfoque.
Los datos de entrada incluyeron información general de pozos de 211 pozos y 2399
etapas, datos de herramientas de registro de producción (PLT), datos de tratamiento de
estimulación, datos petrofísicos para formaciones y arenas, datos de reflujo, tipo de
apuntalante, volumen de apuntalante y datos de producción del pozo. Los detalles de cada
una de estas categorías de datos se describen en el artículo 135523 de la SPE. El propósito
del análisis fue identificar patrones entre los pozos pobres y excepcionales y así apreciar la
tendencia decreciente del desempeño de la producción por etapas a lo largo del tiempo,
identificando aquellos factores que tienen el mayor impacto en la producción. Los sistemas
de datos dispares tenían que agregarse para producir un conjunto de datos sólido
administrado que permitiera un análisis exploratorio de datos eficaz. Estos dos pasos
importantes son esenciales para identificar hipótesis plausibles y eficientes que vale la pena
probar y guiar a los tomadores de decisiones hacia técnicas de modelado sólidas.
Se desarrollaron redes neuronales para optimizar el diseño de fracturas e identificar
puntos dulces geológicos (Figura 8.11). Los datos se agruparon en no operativos
Distancia W11
Categoría 1
W12
Qg100 < 150 mscfd
Pendiente W13
Ubicación
escenario
del
Curvatura
Profundidad
Categoría 2
Petro.
sg
Formación
150<=Qg100 < 400 mscfd
Fi
H neto
Prop Vol.
propiedades
Parámetro
de
Operacional
Categoría 3
Fluir de nuevo Qg100 >= 400 mscfd
W93
Figura 8.11 Salida de categorías por la red neuronal

variables geológicas y petrofísicas y variables de terminación operativa. Algunas variables

específicas incluyeron distancia, pendiente, curvatura, profundidad, saturación de gas (Sg),
porosidad (phi), pies netos de producción petrofísica (NetH), volumen de apuntalante y flujo de
retorno.
Se utilizó el agrupamiento de datos5 para crear diferentes modelos y evaluar diferentes
parámetros. Los modelos pudieron identificar el impacto relativo de las variables más significativas
que afectan el desempeño de la etapa de producción y desarrollar distribuciones de probabilidad
para resultados potenciales en diferentes categorías de producción. Las distribuciones de
probabilidad proporcionaron una base para la optimización de la terminación. Los hallazgos
incluyeron la identificación del impacto de los procedimientos de reflujo en el desempeño total del
pozo y la sensibilidad probable a los parámetros geológicos y petrofísicos clave que más afectaron
el desempeño. Se determinó que la tasa de gas de la etapa a los 100 días (Qg100) era la métrica
de comparación ideal al analizar las diferentes particiones y/o categorías de enfoque de datos,
como subintervalos geológicos, áreas geográficas y tipos de apuntalantes.
Hubo tres cubos que sirvieron como categorías de salida en el conjunto de redes neuronales,
según el parámetro comparable, Qg100, que cuantificó el rendimiento del escenario como una
medida de la producción de gas.
Se llegó a la conclusión de que el 80 por ciento de los parámetros influyentes que tenían el
mayor impacto en el rendimiento escénico no eran operativos por naturaleza. El 20 por ciento
restante estaba bajo el control directo de ingenieros que formulaban una estrategia de fractura
hidráulica, considerada como operativa (Figura 8.12).
El proceso de terminación discutido en este estudio de caso se limita a la optimización del
volumen de apuntalante y actualmente no se ha aplicado a los métodos de reflujo, tipo de
apuntalante u otras variables operativas. Estas áreas representan oportunidades adicionales para
aplicar técnicas avanzadas de AMEU. El proceso para la solicitud de finalización incluyó la
recopilación inicial de datos, el cálculo de las propiedades físicas, una reunión de "puesta en
escena" del equipo multidisciplinario, la simulación para determinar las etapas y el resultado del
análisis de datos exploratorios en un flujo de trabajo analítico para calcular las distribuciones de
probabilidad de sensibilidad para el volumen de apuntalante. .
La evaluación se realizó en 195 etapas con 49 etapas identificadas para aumentar el volumen
de apuntalante. A través de este proceso, los autores identificaron la necesidad de actualizar el
modelo predictivo para incluir el impacto del agotamiento de la presión debido al espacio hacia
abajo. Incluso sin tener en cuenta el agotamiento de la presión, el equipo obtuvo excelentes
resultados.
Los tres parámetros de entrada clave determinados por las redes neuronales aplicadas
a través de los conjuntos de datos integrados son:
1. Parámetros geológicos utilizados para caracterizar la ubicación del escenario a lo largo del
anticlinal
una. Distancia: qué tan lejos de la ubicación máxima global en el pico del anticlinal
Variables significativas
0.09 0.09
0.1 0.09
0.06
0.12
0.05
0.15
0.25
DeltH Degradado Porosidad

Distancia LaPlacian Pago de pies netos
sg Régimen de flujo total de apuntalante
Figura 8.12 Impacto relativo de los parámetros más significativos en el rendimiento escénico
b. Gradiente: Pendiente del gradiente de estructura (primera derivada)
C. LaPlacian: operador de LaPlace dado por la divergencia del gradiente de una función en el
espacio euclidiano; medida de la curvatura cóncava o convexa (segunda derivada)
d. DeltH: profundidad vertical verdadera (TVD) desde la superficie superior de la estructura
2. Propiedades petrofísicas de la formación que afectan la etapa de producción
una. Sg: Saturación de gas
b. Porosidad
C. Pies netos de pago petrofísico
3. Parámetros operativos
una. apuntalante total
b. Régimen de reflujo
¿Cómo diseñamos una estrategia optimizada de terminaciones para otro pozo?

a través del anticlinal?
Primero, debemos realizar una secuencia de visualizaciones exploratorias de análisis

de datos para descubrir patrones ocultos y comprender completamente las relaciones o
tendencias en las variables significativas enumeradas en la figura 8.12.
Si estudiamos el desempeño de la etapa con base únicamente en los parámetros
petrofísicos de la formación (Figura 8.13), observamos que el mayor impacto en la
productividad de la etapa se observa en las etapas 4, 5, 7 y 9; por el contrario, las peores
etapas son 1, 2 y 3. La función objetivo de apuntalante total dicta el tamaño de las burbujas
y el parámetro normalizado comparable, Qg100, determina el color.
Los parámetros petrofísicos visualizados en la Figura 8.14 subrayan las similitudes
en la distribución en todas las etapas cuando se ven desde una perspectiva de categoría
o producción. De nuevo, el tamaño y el color de la burbuja reflejan el apuntalante total y
Qg100, respectivamente. El gráfico de burbujas respalda la variación en la tasa de
producción por etapas entre los cubos categóricos, pero enfatiza la distribución uniforme
como se esperaba.
A medida que cambiamos nuestra atención al estudio de cada uno de los parámetros
geológicos, comenzamos a desarrollar el modelo predictivo que identificará la relación
funcional óptima de esos parámetros que permiten las mejores prácticas para completar
a través del anticlinal. La Figura 8.15 visualiza dos de los parámetros geológicos, LaPlacian
y la distancia desde el pico del anticlinal desde una perspectiva de etapa y pozo. Es muy
interesante observar aquellas etapas que reflejan el mejor y el peor desempeño, así como
el apuntalante total asociado para cada pozo.
Figura 8.13 Estudio de los Parámetros Petrofísicos por Etapa

Figura 8.14 Estudio de los Parámetros Petrofísicos por Categoría
Figura 8.15 Estudio de los parámetros geológicos a lo largo del anticlinal

Mejores tasas de producción de pozos/etapas:
ÿ Pozo 2, etapas 1 y 2
ÿ Pozo 9, etapas 5–9
Peores tasas de producción de pozos/etapas:
ÿ Pozo 3, etapas 5 a 9
ÿ Pozo 5, etapas 5 a 9
ÿ Pozos 6 y 8, etapas 1 y 2
ÿ Pozo 9, etapas 3 y 4
Recuerde que los parámetros geológicos representan características que ubican el

pozo a través del anticlinal. Podemos identificar rápidamente a través de un conjunto de
visualizaciones similares a la Figura 8.15 cuáles son los parámetros de ubicación y sus
valores intrínsecos para una producción de etapa óptima basada en una cantidad óptima
de apuntalante para pozos futuros.
Ahora visualicemos el desempeño de la etapa en todos los pozos dentro de un solo
pozo para identificar aquellos pozos que no solo reflejen una producción de gas alta o baja
normalizada a los datos PLT, sino que también identifiquen las tendencias correlacionadas.
Figura 8.16 Mapa de árbol para la presentación en el escenario y el uso de apuntalante por pozo
en el uso de apuntalantes. La Figura 8.16 detalla una visualización de este tipo en forma de un mapa
de árbol. Note los dos pozos con mejor desempeño: 1 y 10. La antítesis de estos pozos se puede ver
claramente en el pozo 8. La Figura 8.16 nos permite perforar en el área denominada “10” que
obviamente no solo representa el mejor desempeño de etapa sino que también utiliza la menor cantidad
de sostén en comparación con el pozo 1. Este proceso de perforación permite ver la Figura 8.17.
A partir de la Figura 8.17, es evidente qué etapas en el pozo 10 generan la mayor cantidad de gas
acumulativo (5–9) y qué etapa ostensiblemente tiene un rendimiento muy bajo (1). ¿Podemos cerrar en
la etapa 1 al perforar en esta parte del anticlinal?
Ahora es factible optimizar una estrategia de terminación basada en los valores de los parámetros
geológicos utilizados para caracterizar la ubicación de la etapa:
ÿ Distancia desde la ubicación del máximo global en el pico del anticlinal
ÿ Pendiente del gradiente de la estructura

ÿ Curvatura medida como segunda derivada
ÿ Profundidad vertical real desde la parte superior de la estructura
Para complementar la estrategia de terminación desde una perspectiva operativa, podemos

identificar un rango de valores óptimos para dichos parámetros en el pozo 10 y
Figura 8.17 Mapa de árbol para desempeño de etapa individual y apuntalante en pozo 10
combine eso con el entendimiento de que la etapa 1 podría cerrarse y el volumen de apuntalante
ideal podría establecerse a partir de la Figura 8.17 para todas las etapas restantes.
El paso final en el flujo de trabajo analítico es el más importante. Lleva el estudio más allá
de un ejercicio académico. Pongamos en funcionamiento el modelo en función de los resultados
de los pasos del análisis exploratorio de datos.
Operacionalizar el Modelo
Algunas de las técnicas informáticas blandas inherentes adoptadas para optimizar una estrategia
de finalización son:
ÿ Modelos lineales y no lineales
ÿ Programación entera y entera mixta
ÿ Modelos cuadráticos
ÿ Programación estocástica y dinámica
Habiendo explorado los datos para sacar a la luz relaciones y tendencias ocultas,
desarrollamos hipótesis que vale la pena modelar. Las variables independientes individuales se
clasificaron de acuerdo con las correlaciones visualizadas y los resultados de la
modelado paramétrico.
Al identificar las variables más importantes que tienen un mayor impacto estadístico en la
función objetivo, podemos posicionar esos parámetros operativos, como el volumen de
apuntalante y el número de etapas, al unísono con los parámetros de ubicación del pozo que
caracterizan el entorno geológico para un máximo contacto con el yacimiento.
Al formular una función f(x) donde x refleja los indicadores clave de producción (parámetros
operativos y geológicos), es posible obtener un modelo viable que pueda responder preguntas
hipotéticas y proporcionar valores de dichos parámetros optimizados para el desempeño y la
estrategia de terminación. El ingeniero envía valores para aquellos parámetros independientes
que influyen en f(x) (volúmenes de apuntalante en este caso) y diseña una estrategia de
terminación basada en los parámetros geológicos usados para caracterizar la ubicación de la
etapa a lo largo del anticlinal, determinando el contacto máximo del yacimiento y el número de
etapas propicias para la máxima producción de hidrocarburos.
Flujo de trabajo analítico innovador en campos maduros
¿Qué es un campo maduro? Supongamos que tenemos un largo historial de producción con
múltiples pozos perforados. Algunos de los campos antiguos en todo el mundo, por ejemplo en
Arabia Saudita, presentan miles de pozos con más de 50 años de producción continua. En las
primeras etapas del ciclo de vida del pozo se dispone de pocos datos.
disponible excepto la producción debido a la falta de sensores y la poca frecuencia de registros de

pozos y datos de núcleos. Esencialmente, necesitamos optimizar las estrategias de reingeniería
basadas en un conjunto de metodologías analíticas avanzadas que extraen los datos de producción.
El enfoque abarca los siguientes flujos de trabajo:
ÿ Análisis exploratorio de datos
ÿ Regresión y transformación no lineal
ÿ Extracción de indicadores clave de producción
ÿ Análisis estadístico multivariante
ÿ Agrupación jerárquica
ÿ Segmentación de campos
Análisis exploratorio de datos
La larga historia de producción resulta inherentemente en múltiples campañas de desarrollo y

perforación caracterizadas por las diferentes pilas de tecnología, tanto en hardware como en
software, contemporáneas al período en estudio. Este proceso en continua evolución desafía la
interpretación y las evaluaciones deterministas de los datos históricos. Es esencial agregar todos los
datos pertinentes; invariablemente, se trata exclusivamente de datos de producción recopilados a lo
largo de múltiples etapas temporales en el ciclo de vida del pozo.
El paso de análisis de datos exploratorios identifica patrones y revela relaciones ocultas entre
los datos temporales: índices de fluidos y volúmenes acumulados para cada pozo. Los datos
espaciales son escasos pero, si están disponibles, deben integrarse para enriquecer los datos en
estudio.
Al adoptar el conjunto de visualizaciones de Tukey discutido en detalle en los Capítulos 3, 4 y
9, es factible segmentar los datos temporales para identificar valores atípicos, imputar datos faltantes
y correlacionar esos períodos de buen desempeño con cualquier dato duro asociado con pozos,
incluidos características del yacimiento y parámetros petrofísicos de formación tales como porosidad
y pies netos productivos.
Regresión no lineal y transformación
Estudiando los datos de producción disponibles, nos concentramos en la cantidad diaria de petróleo
producido así como el corte de agua y cualquier producción diaria de gas. Debido a los problemas
mecánicos históricos en la cartera de pozos y la frecuencia de las estrategias de remediación y/o los
patrones de interferencia en los pozos vecinos, está claro que el modelado fundamental es un
requisito previo a la adopción de cualquier análisis multivariado.
El siguiente paso estudia las curvas tipo a través de los datos temporales segmentados para
identificar los valores predichos y determinar los intervalos de confianza.
Qo = QoMax / (1 + b Di (fecha ÿ primeraFecha))b
O Qo = QoMax / (1 + EXPR)a
donde EXPR = derQo * (fecha – primera fecha) / a
Los valores QoMax se encuentran en los datos; a y derQo se obtienen mediante el

procedimiento de regresión no lineal. Las diferencias entre los valores de los datos de
producción observados y los valores pronosticados a través de las curvas tipo (el modelo
hiperbólico dio el mejor ajuste) dieron como resultado los residuos que proporcionaron
indicadores de buen y mal desempeño para cada pozo en estudio.
La evolución del corte de agua es desafiante, especialmente en yacimientos
heterogéneos con WAG largo o estrategias de inundación con agua. Se introdujo una
metodología de suavizado LOWESS que implementa un algoritmo de regresión no lineal
en una ventana móvil para interpolar y extrapolar un conjunto suavizado de valores de
corte de agua. Las tendencias de la relación gas-petróleo (GOR) se suavizaron adoptando
un flujo de trabajo similar.
Extracción de Indicadores Clave de Producción
Extrajimos atributos de los modelos descritos hasta ahora para compilar un conjunto de
parámetros bidimensionales conducentes a un flujo de trabajo analítico multivariado.
Algunos de los atributos incluían el valor máximo de Qo, Qomax, el valor de Qo descubierto
uno, dos o tres años después de Qomax, la relación entre Qomax y Qo final, etc. Otros
atributos derivados incluyeron valores iniciales y finales para las curvas suavizadas (corte
de agua y GOR), el tiempo para obtener diferentes niveles como 1, 10, 25 y 50 por ciento,
y así sucesivamente.
A partir de los conjuntos de datos sin procesar iniciales que incluían pozos y lecturas
temporales de tasas de líquidos, se determina una tabulación bidimensional de pozos
contra atributos. El componente temporal se ha eliminado ostensiblemente a pesar de que
está integrado indirectamente en algunos de los indicadores clave de producción estudiados
en el siguiente paso, que implementa un análisis multivariante.
Análisis Estadístico Multivariante
El primer paso en un flujo de trabajo de MVS es un proceso de análisis de factores como

el análisis de componentes principales (PCA) para reducir la cantidad de atributos y así
condensar el espacio de entrada. PCA es un enfoque estadístico para convertir un conjunto
de observaciones de variables posiblemente correlacionadas en un conjunto correspondiente
de valores de variables linealmente no correlacionadas. Esta transformación se lleva a
cabo de tal manera que el primer componente principal tiene la mayor varianza posible
para reflejar la mayor cantidad posible de variabilidad en los datos, y los componentes
subsiguientes a su vez representan la mayor varianza posible con respecto a la restricción
de que sea ortogonal a y por lo tanto no correlacionado con los componentes precedentes.
Agrupación jerárquica
La tabla de datos establecida se analiza luego utilizando un algoritmo de agrupación jerárquica.

La metodología establece los pozos más similares con base en las características definidas en el
algoritmo (Figura 8.18). El clúster jerárquico ing6 es un proceso que comienza con cada punto en
su propio clúster. En cada paso, los dos grupos que están más cerca se combinan en un solo
grupo. Este proceso continúa hasta que solo hay un grupo que contiene todos los puntos. Este tipo
de agrupamiento es bueno para conjuntos de datos más pequeños (algunos miles de observaciones)
generados por el conjunto de pozos, pares de atributos en el previ
nuestros pasos.
Para mejorar el proceso de agrupación, se realiza un análisis discriminante para

proporcionar las probabilidades de pertenencia de cada pozo en su grupo dado.
Segmentación de campo
Los grupos se mapean y se validan de forma cruzada con las conclusiones establecidas a partir de
otros estudios, como sedimentología o modelos estructurales. Los resultados estadísticos permiten
determinar el pozo más representativo de cada grupo. Cualquier suma por grupo es indicativa de
la contribución neta de cada pozo a la producción acumulada en todo el campo. Los buenos y los
malos actores son, por lo tanto,
Bueno Grupo A
Baja porosidad, alta permeabilidad, baja
Producción, Alta Presión, Caudal, etc.
Bueno Grupo B Bueno Grupo C

Alta porosidad, baja permeabilidad, baja Baja porosidad, baja permeabilidad, baja
Producción, Baja Presión, Caudal, etc. Producción, Alta Presión, Caudal, etc.
Figura 8.18 Agrupación jerárquica de pozos y atributos asociados

mapeado a través del modelo estático y corroborar las características del yacimiento y la
confiabilidad de las redes de fracturas a medida que el campo se compartimenta en función
de las tasas de fluido que perfilan cada pozo en cada grupo. Esta metodología corrobora el
entorno de deposición, estratigrafía secuencial, estructura, compartimentación y calidad del
yacimiento.
Análisis del factor de recuperación
¿Cuáles son los factores más influyentes en la recuperación de petróleo en yacimientos

convencionales?
ÿ Las características de la formación productora, tales como la porosidad, permeabilidad,

contenido de agua intersticial o connata; y la uniformidad, continuidad y configuración
estructural
ÿ Las propiedades del petróleo del yacimiento, incluida su viscosidad, contracción y

cantidad de gas en disolucion
ÿ Los controles operativos, incluido el control de las fuerzas de expulsión disponibles, la tasa de
producción de petróleo, la producción de gas y agua, y el comportamiento de la presión.
ÿ Las condiciones del pozo, la ubicación estructural y el espaciamiento
Estimación volumétrica de OOIP
Además de la metodología determinista, es deseable adoptar un enfoque probabilístico para

calcular el aceite original in situ. Invariablemente, nunca hay suficientes datos de registros o
núcleos de pozos para determinar con precisión los valores de entrada promedio, como la
porosidad, la permeabilidad y la saturación de fluidos. La adopción de una metodología
probabilística abarca un rango de valores para cada variable. Por lo tanto, existe un rango
de un mínimo a un máximo con alguna distribución estadística para calcular la probabilidad
de posibles respuestas. Está ampliamente aceptado que las propiedades del yacimiento,
tales como la porosidad y el espesor neto, caen dentro de patrones de distribución de
probabilidad cuantificables particulares. Y tales patrones pueden ser triangulares, aleatorios,
normales o logarítmicos normales. Por lo tanto, puede ser ventajoso implementar una
simulación de Monte Carlo basada en las distribuciones de los parámetros del yacimiento.
Tal simulación puede generar una gran variedad de valores para el resultado objetivo, como
OOIP, y luego asignarle un rango de valores de probabilidad. También se observa con
frecuencia que las propiedades del yacimiento tienden a seguir una distribución logarítmica
normal cuando se implementa el análisis probabilístico.
Es costumbre reportar respuestas pronosticadas para las probabilidades acumulativas
de 10, 50 y 90 por ciento. Sin embargo, esta técnica requiere una gran cantidad de datos.
El enfoque probabilístico abarca lo siguiente:
ÿ Un gráfico de curva en S de todos los resultados asigna una probabilidad a cada una de las pos.
posibles respuestas.
ÿ La envolvente de confianza que rodea a las probabilidades depende de

número de simulaciones.
ÿ El análisis generalmente requiere de 500 a 10,000 simulaciones.
ÿ Las variables están restringidas a rangos limitados.
ÿ Se utilizan números aleatorios para asignar valores precisos para cada entrada
variable.
ÿ Se utiliza un conjunto diferente de números aleatorios para cada cálculo sucesivo.
Habiendo determinado OOIP a través de la simulación de Monte Carlo para descubrir las
probabilidades del 10, 50 y 90 por ciento, e implementando los mismos datos junto con las siguientes
propiedades del yacimiento y del fluido:
ÿ Permeabilidad
ÿ Viscosidad del aceite
ÿ Presión de punto de burbuja
ÿ Factor de volumen de formación de petróleo a la presión del punto de burbujeo
Estimar las diversas probabilidades asociadas con el factor de recuperación y

Reserva de petróleo.
Otros modelos bajo consideración
Los modelos de redes neuronales no son realmente interpretables. Son una forma de formar un modelo
predictivo complejo, pero los parámetros no se pueden interpretar fácilmente.
Las redes neuronales son particularmente útiles para resolver problemas que no se pueden expresar
como una serie de pasos, como el reconocimiento de patrones, la clasificación en grupos, la predicción
de series y la extracción de datos. El reconocimiento de patrones es quizás el uso más común de las
redes neuronales. La adopción de una posible simulación de Monte Carlo filtrada para el diseño inverso,
de la cual ejecutar una red neuronal artificial es un paso componente, también es una posibilidad de
determinar las restricciones de las propiedades del yacimiento que influyen en el factor de recuperación
a priori.
Modelo de regresión por pasos
Se empleó un programa de regresión lineal multivariable, por pasos, que buscaba sucesivamente
agregar variables independientes, que representan los datos del yacimiento por pasos para aumentar
progresivamente la calidad del ajuste de la ecuación de regresión a los datos.
El procedimiento por pasos es ideal cuando hay muchas variables independientes para
elegir en el desarrollo de un modelo de regresión. El procedimiento por pasos es más útil
para el análisis exploratorio porque puede dar una idea de las relaciones entre las variables
independientes y la variable dependiente o de respuesta.
Sin embargo, no se garantiza que el procedimiento paso a paso brinde el "mejor" modelo
para sus datos, o incluso el modelo con el mayor R2 . En el procedimiento paso a paso
Las variables se agregan una por una al modelo. El estadístico F para el cribado de
variables debe ser significativo para que las variables entren en el modelo. Después de
agregar una nueva variable, el método paso a paso analiza todas las variables ya incluidas
en el modelo y elimina cualquier variable que no produzca una estadística F significativa (la
importancia se determina mediante los parámetros de entrada y salida establecidos en el algoritmo).
Solo después de realizar esta verificación y realizar las eliminaciones necesarias, se puede
agregar otra variable al modelo. El proceso por pasos finaliza cuando ninguna de las
variables fuera del modelo tiene una estadística F significativa en la configuración del
parámetro de entrada y todas las variables ya incluidas en el modelo son significativas en la
configuración del parámetro de permanencia. El procedimiento por pasos también puede
terminar cuando la variable que se agregará al modelo es la variable que se acaba de eliminar del modelo.
El estadístico F viene dado por:
RSS / k RSS / k MSR

F= = =
2
SSE/ nk ÿÿ
1) S MSE
( por F, nk ÿÿ
1.
k
Criterios para la elección del mejor modelo
Seleccionar el mejor modelo de regresión de un conjunto de candidatos de modelos

desarrollados puede ser complicado debido a la incertidumbre de elegir los términos que se
incluirán en el modelo.
El constructor del modelo debe considerar opiniones y prejuicios previos con respecto
a la importancia de las variables individuales. Además, el constructor del modelo debe
aprender algo sobre el sistema del que se toman los datos. Esto puede implicar nada más
que el conocimiento del "signo" de un coeficiente y puede explicarse mediante la realización
de un ejercicio de selección o filtrado de variables.
Criterios de predicción
El objetivo es combinar la "selección del mejor modelo" con la validación del modelo.
ÿ Coeficiente de determinación (R2 )
norte
ˆ
SS ÿ yyi
()
ÿ
2
R2 = registro = i= 1
SS norte
total
ÿ yyi
()
ÿ
2
i= 1
ÿ Proporción de variación en los datos de respuesta que se explica por la

modelo.
ÿ Un aumento en R2 no implica que se necesite el término de modelo adicional, R2 se puede

hacer artificialmente alto por sobreajuste (al incluir demasiados términos de modelo).
2
ÿ Error cuadrático medio: s (MSE)
MSE = SSE / (n ÿ k ÿ 1)
MSE juega un papel importante en la prueba de hipótesis y los límites de confianza. Para
obtener intervalos de confianza estrechos y estimaciones precisas s2
debe ser lo más pequeño posible. El valor R2 se puede aumentar agregando más términos al
modelo. Sin embargo, la adición de variables innecesarias puede resultar en un aumento en
el MSE. Por lo tanto, la verdadera tarea es equilibrar R2 y MSE.
ÿ Estadística PRESS (predicción de suma de cuadrados)
norte
ˆ
PRENSA = ÿ ( sí yo
ÿ
i, i
ÿ )
2
i= 1
norte
= 2
ÿ mi( i, i
ÿ )
i= 1
La estadística PRESS se utiliza con un conjunto de datos en los que retenemos
o dejar de lado la primera observación de la muestra y usar las n–1 observaciones restantes
para estimar los coeficientes para un modelo candidato en particular. Los residuos de PRESS
son errores de predicción verdaderos con ÿi,ÿi siendo yi independiente . La observación yi no

se utilizó simultáneamente para la evaluación del ajuste y del modelo. Los residuales PRESS
brindan medidas separadas de la estabilidad de la regresión y pueden ayudar al analista a
aislar qué puntos de datos tienen una influencia considerable en el resultado de la regresión.
ÿ Cp de malva
Cp es una medida del error cuadrático total definida como:
SSE
CP =ÿ
( norte 2 - p )donde pk +1 =
2
segundos
donde s2 es el MSE para el modelo completo y SSE es el error de suma de cuadrados para
un modelo con p variables más el intercepto. Si Cp se grafica con p, Mallows recomienda el
modelo donde Cp primero se aproxima a p.
Cuatro criterios (en orden de importancia con 1 más importante):
1. PRENSA (quiero pequeño)
2. Cp (cerca de k + 1) (pequeño)
2 2
3. MSE, s (pequeño; si un modelo está subespecificado, s está sobreestimado)
4. R2 (grande)
El procedimiento paso a paso generará Cp, MSE, R2 , y el estadístico F como

datos resultantes. El tamaño relativo de la estadística PRESS, Cp, MSE y R2 se utiliza para desarrollar
un modelo estadísticamente más correcto. Además, es necesario un análisis más completo de los
residuos para la detección de la violación de los supuestos.
Por ejemplo, los residuos deben ser independientes de las variables independientes.
Lo que es más importante, los parámetros incluidos en los modelos de regresión desarrollados deberían
tener sentido desde la perspectiva de la ingeniería petrolera. Las ecuaciones desarrolladas se formulan
a partir de las respectivas listas de variables originales representativas de los yacimientos de carbonato
y arenisca y el mecanismo de impulso asociado, ya sea impulso de agua o impulso de gas en solución.
Los cuatro criterios seleccionan las variables importantes que más influirían en el factor de recuperación
para cada escenario, con los coeficientes para cada variable identificados como los valores determinados
de la
algoritmo paso a paso.
NOTAS
1. S. Mohaghegh, A. Modavi, Hafez H. Hafez y Masoud Haajizadeh, “Development of Surrogate Reservoir Models for
Fast Track Analysis of Complex Reservoirs”, SPE 99667, Conferencia y exhibición de energía inteligente, Ámsterdam,
Países Bajos, 11 de abril –13, 2006.
2. Robert N. Hatton, Ken Porter, “Optimization of Gas-Injected Oil Wells”, SAS Global Forum, Paper 195–2011, Caesars
Palace, Las Vegas, 4–7 de abril de 2011.
3. JJ Arps, "Análisis de las curvas de declive", Transacciones del Instituto Estadounidense de Ingenieros de Minas
160 (1945): 228–247.
4. P. Huckabee, J. Minquan, R. Lund, D. Nasse y K. Williams, "Tight Gas Well Performance Evaluation with Neural
Network Analysis for Hydraulic Propped Fracture Treatment Optimization", SPE 135523, ATCE, septiembre de 2010.
5. KA Jain y RC Dubes, Algorithms for Clustering Data (Upper Saddle River, NJ: Prentice Hall,
1988), 319.
6. J.-P. Valois, “Robust Approach in Hierarchical Clustering: Application to the Sectorization of an Oil Field”, artículo
presentado en la 7ª Federación Interna de Clasificación Soc., Namur, Bélgica, julio de 2000 (a ser publicado por
Springer Verlag, Berlín).
CAPÍTULO
9
Exploratorio y
Datos predictivos
Análisis
Estamos abrumados por la información, no porque haya

demasiada, sino porque no sabemos cómo domarla. La información
permanece estancada en grupos que se expanden rápidamente a
medida que aumenta nuestra capacidad para recopilarla y
almacenarla, pero nuestra capacidad para darle sentido y
comunicarla permanece inerte, en gran parte sin previo aviso.
Esteban Pocos, Ahora Tú Ver Eso
ÿÿ
El análisis exploratorio de datos es un enfoque para analizar datos con el fin de formular
mihipótesis que valga la pena probar, complementando las herramientas de las convenciones.
estadísticas nacionales para probar hipótesis. John Tukey lo llamó así para contrastarlo con el
análisis de datos confirmatorios, el término utilizado para el conjunto de ideas sobre la prueba de
hipótesis, los valores p y los intervalos de confianza (IC).
Tukey sugirió que en las estadísticas se ponía demasiado énfasis en las pruebas de hipótesis
estadísticas (análisis de datos confirmatorios); Esencialmente, se tuvo que poner más énfasis en
permitir que los datos sugirieran hipótesis que valieran la pena probar (análisis exploratorio de
datos). No debemos confundir los dos tipos de análisis; formular flujos de trabajo que los convolucren
en el mismo conjunto de datos puede conducir a un sesgo sistemático debido a los problemas
inherentes a la prueba de hipótesis sugeridas por los datos.
La fase exploratoria “aísla patrones y características de los datos y los revela contundentemente
al analista”.1 Si un modelo se ajusta a los datos, el análisis exploratorio encuentra patrones que
representan desviaciones del modelo. Estos patrones llevan al analista a revisar el modelo a través
de un enfoque iterativo. En cambio, confirmatorio
275
el análisis de datos “cuantifica hasta qué punto se puede esperar que ocurran por casualidad
desviaciones de un modelo” .2 El análisis confirmatorio utiliza las herramientas estadísticas
tradicionales de inferencia, significación y confianza. El análisis exploratorio de datos a veces se
compara con el trabajo de detective: es el proceso de reunir evidencia. El análisis de datos
confirmatorios es comparable a un juicio en la corte: es el proceso de evaluación de evidencia. El
análisis exploratorio y el análisis confirmatorio “pueden —y deben— avanzar lado a lado.”3
La tecnología informática moderna con sus pantallas gráficas de alta potencia que muestran
múltiples ventanas enlazables permite vistas dinámicas y simultáneas de los datos. Un mapa de la
posición de los datos de muestra en el espacio o las representaciones a lo largo del eje del tiempo
se puede vincular con histogramas, diagramas de correlación, nubes de variogramas y variogramas
experimentales. Por lo tanto, es factible obtener importantes ideas de estructuras espaciales,
temporales y multivariadas a partir de una gran cantidad de visualizaciones simples pero poderosas.
Los datos típicamente analizados en proyectos de caracterización de yacimientos pueden
visualizarse en una, dos y tres dimensiones, con la perspectiva unidimensional conduciendo
inexorablemente y lógicamente a la siguiente dimensión, y así sucesivamente, hasta una
apreciación integral de la estructura subyacente del Los datos explican y corroboran las técnicas
de modelado apropiadas de las que se pueden obtener conclusiones viables y confiables para
estrategias de manejo de campo eficientes para explotar los yacimientos existentes.
El análisis predictivo le permite obtener rápidamente información basada en evidencia, tomar

decisiones impactantes y mejorar el rendimiento en toda la cadena de valor de E&P.
Hacer funcionar su planta de procesamiento, refinación o petroquímica al máximo rendimiento es
un factor crítico para el éxito, pero hay momentos en que los eventos o factores especiales
imprevistos impiden que los operadores logren este objetivo. El truco consiste en aprender a
predecir cuándo pueden ocurrir apagones, utilizando los datos que están disponibles para la amplia
gama de variables que afectan estos procesos, como la temperatura, la degradación de la
composición química, el desgaste mecánico o la simple expectativa de vida de un sello de válvula
Al integrar datos de una variedad de fuentes de procesos con bases de datos de conocimiento y
experiencia, las operaciones pueden aumentar el tiempo de actividad, el rendimiento y la
productividad al tiempo que reducen los costos de mantenimiento y el tiempo de inactividad. Esto
se puede lograr mediante la construcción de un modelo predictivo, calibrado por una metodología
analítica de causa raíz que comienza con un flujo de trabajo de control de calidad de datos, seguido
por el desarrollo de un data mart espaciotemporal apropiado y, finalmente, un paso exploratorio de análisis de datos.
El pensamiento estadístico algún día será tan necesario para

una ciudadanía eficiente como la capacidad de leer y escribir.
HG pozos
Los productores buscan las zonas más productivas en sus cuencas no convencionales, así como
la mejora continua en los procesos de fracturación hidráulica, ya que
Análisis exploratorio y predictivo de datosâ•‡ ÿ 277
explorar y perforar nuevos pozos en un recurso que requiere una cuidadosa planificación
estratégica no solo para aumentar el rendimiento sino también para reducir los impactos negativos
en el medio ambiente. Disminuir los costos y reducir el riesgo mientras se maximiza la producción
de gas requiere capacidades analíticas innovadoras y avanzadas que pueden brindarle una
comprensión integral de la heterogeneidad del yacimiento para extraer información predictiva
oculta, identificar impulsores e indicadores principales de producción eficiente de pozos,
determinar los mejores intervalos para estimulación y recomendar procesos y frecuencias de
estimulación óptimos.
Los siguientes son algunos pasos de alto nivel en un estudio para un yacimiento no
convencional que se concentró en la influencia de los volúmenes de fluido de fractura y
apuntalante, con proyectos analíticos extensos en torno a otros parámetros operativos para
determinar una estrategia ideal de tratamiento de fractura hidráulica que podría usarse como un
análogo en pozos nuevos.
El operador del yacimiento no convencional deseaba identificar el impacto de los volúmenes
de fluido de fractura y apuntalante en el rendimiento de unos 11 000 pozos, de los cuales unos 8
000 pozos eran de dominio público. ¿Existe una correlación y, de ser así, qué tan fuerte es la
relación entre los volúmenes de fluido de fractura/apuntalante y el desempeño?
La adopción de flujos de trabajo de gestión de datos, análisis de datos exploratorios (EDA)

y modelado predictivo les permitió agrupar las variables operativas y no operativas que más
afectaron el rendimiento de cada pozo y, por lo tanto, identificar las características de los pozos
buenos y malos. ¿Cómo se distribuyeron estos pozos buenos/malos en el activo? ¿Se mapearon
los pozos con el modelo geológico actual? ¿Quién operaba los pozos buenos y malos? Algunas
de las preguntas se respondieron a través de una metodología basada en datos que podría
arrojar luz sobre los problemas comerciales cuando se explotan yacimientos no convencionales.
El operador enfrentó muchos desafíos, como la incapacidad de:
ÿ Comprender el impacto de los volúmenes de fluido de fractura y apuntalante en la

producción y enumerar los indicadores clave de producción que aumentan el rendimiento.
ÿ Aislar las variables significativas que impactan el proceso de fracturamiento hidráulico.
ÿ Comprender la interacción de múltiples variables y cuantificar la incertidumbre en

esas variables.
ÿ Comprender por qué algunos pozos de petróleo/gas se consideran buenos y otros malos,
aunque se perforan con tácticas similares en estratos geológicos ostensiblemente
similares.
El estudio exigió una exploración de los volúmenes de apuntalante y fluido de fractura

utilizados por varios operadores que atraviesan varios condados, distribuidos geográficamente
en todo el activo. Se define una variable objetivo o una función objetivo de gas acumulativo y se
realiza un EDA para comprender la influencia de los parámetros operativos sobre la variable
objetivo. Patrones y tendencias ocultos en aquellos parámetros considerados importantes como
influyentes en la producción acumulada,
ya sea como un agente de aumento o disminución en la producción de gas, se identifican o

investigan más a fondo. El objetivo principal es comprender la relación entre el uso de
apuntalante (volúmenes y tipo), los perfiles de los pozos y la ubicación geoespacial con los
niveles de producción. La premisa es que los análisis avanzados pueden proporcionar
información sobre la complejidad de cómo los apuntalantes seleccionados se relacionan con
la producción en una variedad de pozos. El apuntalante es un factor de costo importante en
el proceso de perforación no convencional; la optimización del uso de apuntalante conducirá
a ahorros sustanciales. Actualmente, el operador tiene una comprensión básica de los efectos
de estos tipos en las variables de producción (análisis bivariado). Se propuso estudiar un
análisis multivariante estadístico avanzado para encontrar patrones que puedan conducir a
una comprensión más profunda de cómo los factores de sostén pueden afectar (o no) los niveles de producción.
La solución permitió el análisis descriptivo del almacén de datos analíticos, además de
flujos de trabajo para analizar el impacto de las diferentes variables en la producción, utilizando
análisis de correlación bivariada y modelos predictivos multivariados utilizando técnicas como
árboles de decisión, regresión y redes neuronales supervisadas.
Técnicas adicionales como SOM y redes neuronales no supervisadas permitieron conocer las
relaciones entre el rendimiento y los parámetros operativos de un plan de tratamiento de
fracturas hidráulicas.
El estudio dio como resultado una reducción en el volumen de apuntalante en múltiples
pozos, controlando los costos e indirectamente teniendo un impacto positivo en la huella de
la parte superior. Por lo tanto, optimizar el desempeño de los pozos tiene un impacto positivo
desde una perspectiva ambiental. Es posible que la función objetivo, la producción acumulada,
no haya mejorado en algunos pozos, pero se demostró que una disminución del 30 por ciento
en el apuntalamiento de esos pozos era ideal para explotar una producción de gas similar, lo
que resultó en ahorros masivos anuales en gastos operativos.
COMPONENTES EDA
EDA en sí se puede dividir en cinco pasos de componentes discretos:
1. Análisis univariante
2. Análisis bivariado
3. Análisis multivariado
4. Transformación de datos
5. Discretización
Análisis univariado
El análisis univariante esboza los datos y enumera los descriptores tradicionales, como la
media, la mediana, la moda y la desviación estándar. Al analizar conjuntos de números,
primero desea tener una idea del conjunto de datos en cuestión y hacer preguntas como las
siguientes: ¿Cuáles son los valores más pequeños y más grandes? Qué
Figura 9.1 Histogramas que representan las relaciones dinámicas entre la producción de gas, el pozo, la tasa de
producción de petróleo y el volumen de producción de petróleo
podría ser un buen número representativo único para este conjunto de datos? ¿Cuál es la
cantidad de variación o spread? ¿Están los datos agrupados en torno a uno o más valores, o
están repartidos uniformemente en algún intervalo? ¿Se pueden considerar simétricas? Puede
explorar las distribuciones de variables nominales utilizando gráficos de barras. Puede
explorar las distribuciones univariadas de las variables de intervalo utilizando histogramas y
diagramas de caja.
Un histograma es una estimación de la densidad o la distribución de valores para una
sola medida de datos (Figura 9.1). El rango de la variable se divide en un cierto número de
subintervalos o contenedores. La altura de la barra en cada contenedor es proporcional al
número de puntos de datos que tienen valores en ese contenedor. Una serie de barras
representa el número de observaciones en la medida que coinciden con un valor específico o
un rango de valores. La altura de la barra puede representar el número exacto de
observaciones o el porcentaje de todas las observaciones para cada rango de valores.
Las estadísticas descriptivas abarcan la apreciación cuantitativa inherente a un conjunto
de datos. Para distinguirse tanto de la estadística inferencial como de la inductiva,
Sumo de Prop Vol

350.000
300.000
250.000
200,000
150.000
100,000
50,000
0
100 150 200 250 300 350 400 450 500
qg 100
Figura 9.2 Detección de valores atípicos implementando un diagrama de caja
las estadísticas descriptivas se esfuerzan por resumir una muestra de datos tomada
de una población y, por lo tanto, no se desarrollan sobre la base de la teoría de la
probabilidad. Las medidas generalmente utilizadas para describir un conjunto de datos
representan la tendencia central y la variabilidad. Las medidas de tendencia central
incluyen la media, la mediana y la moda, mientras que las medidas de variabilidad
incluyen la desviación estándar (o varianza), los valores mínimo y máximo de las
variables, la curtosis y la asimetría. La curtosis refleja el "pico" de una distribución de
probabilidad que describe su forma. Una distribución de curtosis alta tiene un pico más
nítido y colas más largas y anchas, mientras que una distribución de curtosis baja tiene
un pico más redondeado y colas más cortas y delgadas. La asimetría es una medida
del grado en que una distribución de probabilidad “favorece” un lado de la media. Por
lo tanto, su valor puede ser positivo o negativo.
Un diagrama de caja, como se muestra en las Figuras 9.2 y 9.3, resume la
distribución de los datos muestreados de una variable numérica continua. La línea
central en un diagrama de caja indica la mediana de los datos, mientras que los bordes
de la caja indican el primer y tercer cuartil (es decir, los percentiles 25 y 75).
Extendiéndose desde la caja hay bigotes que representan datos que están a cierta
distancia de la mediana. Más allá de los bigotes están los valores atípicos: observaciones
que están relativamente lejos de la mediana.
Los términos cuantitativos de los parámetros operativos y no operativos en E&P
son esenciales para tabular, además de la representación pictórica. En la Figura 9.3
Figura 9.3 Caja y bigotes para estadísticas descriptivas de parámetros operativos
vemos el promedio, la media, el mínimo y el máximo, así como el primer y tercer cuartil de la
producción acumulada, el fluido de fractura y los volúmenes de apuntalante.
Análisis bivariado
Se puede explorar la relación entre dos (o más) variables nominales mediante el uso de un gráfico
de mosaico. También se puede explorar la relación entre dos variables mediante el uso de un
diagrama de dispersión. Por lo general, las variables en un diagrama de dispersión son variables de intervalo.
Si uno tiene una variable de tiempo, puede observar el comportamiento de una o más variables a lo
largo del tiempo con un gráfico de líneas. También se pueden usar gráficos de líneas para visualizar
una variable de respuesta (y, opcionalmente, curvas ajustadas y bandas de confianza) frente a los
valores de una variable explicativa. Uno puede crear y explorar mapas con una trama poligonal.
El coeficiente de correlación de rango representado en la figura 9.4 es una herramienta
estadística útil para comparar dos variables. A diferencia del coeficiente de correlación, que puede
estar influenciado por valores extremos dentro del conjunto de datos (que afectan la media y la
varianza), el coeficiente de correlación de rango no se ve afectado significativamente.
Por lo tanto, es una medida relativamente robusta y puede permitir la detección de errores de
medición, especialmente si hay una diferencia notable entre los valores. El coeficiente de correlación
es 0.9272 y el coeficiente de correlación de rango
es 0,8971, lo que indica muy poco sesgo local en esta relación.

Una gráfica de mosaico es un conjunto de gráficas de barras adyacentes formadas primero al
dividir el eje horizontal según la proporción de observaciones en cada categoría de la primera
variable y luego dividiendo el eje vertical según la proporción de observaciones en la segunda
variable. Para más de dos variables nominales, este proceso puede continuar con una subdivisión
horizontal o vertical adicional. El área de cada bloque es proporcional al número de observaciones
que representa.
Figura 9.4 Gráfico de dispersión 3D Relación de superficie entre porosidad, permeabilidad y

saturación de agua
El gráfico de polígonos puede mostrar polilíneas y polígonos arbitrarios. Para crear

un gráfico de polígonos, debe especificar al menos tres variables. Las coordenadas
de los vértices de cada polígono (o vértices de una polilínea lineal por partes) se
especifican con variables X e Y. El polígono se dibuja en el orden en que se
especifican las coordenadas. Una tercera variable nominal especifica un identificador
al que pertenece cada coordenada.
Analisis multivariable
El análisis multivariante examina las relaciones entre dos o más variables,
implementando algoritmos como la regresión lineal o múltiple, el coeficiente de
correlación, el análisis de conglomerados y el análisis discriminante.
Se pueden explorar las relaciones entre tres variables mediante el uso de un diagrama
de dispersión giratorio. A menudo, las tres variables son variables de intervalo. Si una de las
variables se puede modelar como una función de las otras dos variables, entonces puede
agregar una superficie de respuesta a la gráfica rotatoria. De manera similar, puede visualizar
los contornos de la variable de respuesta utilizando un gráfico de contorno.
Una gráfica de contorno como la que se muestra en la figura 9.5 supone que la variable
Z está funcionalmente relacionada con las variables X e Y. Es decir, la variable Z se puede
modelar como una variable de respuesta de X e Y. Un uso típico de un gráfico de contorno es
visualizar la respuesta de un modelo de regresión de dos variables continuas. Los gráficos de
contorno son más útiles cuando las variables X e Y casi no están correlacionadas. El gráfico
de contorno ajusta una superficie lineal por partes a los datos, modelando Z como una función
de respuesta de X e Y. Los contornos son curvas de nivel de la función de respuesta.
De forma predeterminada, los valores mínimo y máximo de la variable Z se utilizan para
calcular los niveles de contorno.
La figura 9.5 también muestra un gráfico rotativo en el que se supone que Z
variable está relacionada funcionalmente con las variables X e Y. Es decir, la variable Z se
puede modelar como una variable de respuesta de X e Y. Un uso típico de la gráfica de
superficie giratoria es visualizar la superficie de respuesta para un modelo de regresión de
dos variables continuas. Se pueden agregar los valores pronosticados del modelo a la tabla
de datos. Entonces uno puede graficar los valores pronosticados como una función de las dos
variables regresoras.
Figura 9.5 Perfilador de contornos que observa el factor de recuperación frente a OOIP y registro de
saturación de agua
Transformación de datos
La metodología de transformación de datos abarca la conveniencia de colocar los datos

temporalmente en un formato aplicable a tipos particulares de análisis; por ejemplo, la permeabilidad
a menudo se transfiere al espacio logarítmico para respetar su relación con la porosidad.
discretización
La discretización abarca el proceso de engrosar o bloquear datos en capas consistentes dentro de

un marco estratigráfico secuencial. Por lo tanto, los datos de registros de pozos o las propiedades
del núcleo se pueden volver a muestrear en este espacio.
GRÁFICOS Y GRÁFICOS ESTADÍSTICOS EDA
Hay una gran variedad de gráficos y diagramas que se pueden utilizar durante la fase de
descubrimiento de datos sin procesar. Es esencial conocer la relevancia de estas técnicas de
visualización para obtener el máximo conocimiento durante la fase de análisis exploratorio de datos
del modelado basado en datos. Repasemos varias de las imágenes más importantes y útiles para
permitir una sensación intuitiva de los datos ascendentes.
caja y bigotes
El diagrama de caja de la figura 9.6 muestra la distribución de los valores de los datos mediante el
uso de una caja rectangular y líneas llamadas "bigotes".
Los bordes inferior y superior de la caja indican el rango intercuartílico (RIC), es decir, el rango
de valores que se encuentran entre el primer y el tercer cuartil (los percentiles 25 y 75). El marcador
dentro del cuadro indica el valor medio. La línea dentro del cuadro indica el valor de la mediana.
Puede habilitar valores atípicos, que son puntos de datos cuyas distancias desde el rango
intercuartílico son más de 1,5 veces el tamaño del rango intercuartílico.
Los bigotes (líneas que sobresalen del cuadro) indican el rango de valores que están fuera del
rango intercuartílico. Si no activa los valores atípicos, los bigotes se extienden hasta los valores
máximo y mínimo del gráfico. Si habilita valores atípicos, los bigotes indican el rango de valores
que están fuera del rango intercuartílico, pero que están lo suficientemente cerca como para no
considerarse valores atípicos.
Si hay una gran cantidad de valores atípicos, el rango de valores atípicos se representa
mediante una barra. La sugerencia de datos para la barra muestra información adicional sobre los
valores atípicos. Para explorar los valores atípicos, haga doble clic en la barra de valores atípicos
para ver los valores como una nueva visualización de histograma.
Los roles de datos básicos para un diagrama de caja son categorías y medidas. Solo puede
asignar una categoría y los valores de categoría se trazan en el eje de categoría. Puede asignar
muchas medidas y los valores de medida se trazan en el eje de respuesta. Se requiere al menos
una medida.
Máximo
Valor Percentil Q3 (75)
Sg, Phi, NetH, Qg 100 por etapa

500
Percentil Q1 (25)
400
sg 300
Fi
Significar
Neto
og100 200
Mediana
100
valores atípicos
0
1 2345 6
Escenario
Neto Fi og100 sg Valor mínimo
Figura 9.6 Caja y Bigotes
Histogramas
La principal utilidad del histograma (Figura 9.7) es que muestra las frecuencias de clase
relativas en los datos y, por lo tanto, proporciona información sobre la función de densidad de
datos. Una representación gráfica ampliamente utilizada de datos univariados es el histograma,
que es esencialmente un gráfico de barras de una distribución de frecuencia que se organiza
en intervalos o clases. La información visual importante que se puede obtener de los
histogramas abarca la tendencia central, la dispersión y la forma general de la distribución.
Sin embargo, el resumen cuantitativo o las estadísticas descriptivas proporcionan una
metodología más precisa para describir los datos del yacimiento. En términos puramente
cuantitativos, la media y la mediana definen la tendencia central, mientras que la dispersión
de los datos se expresa en términos del rango y la desviación estándar.
Los parámetros de tendencia central o ubicación representan las medidas más importantes
para caracterizar una distribución empírica. Estos valores ayudan a ubicar los datos en una
escala lineal. El indicador de tendencia central más popular es la media aritmética, que es la
suma de todos los puntos de datos dividida por el número de observaciones. La mediana se
utiliza a menudo como una medida alternativa de la central
tendencia ya que la media aritmética es sensible a los valores atípicos. Aunque los valores
atípicos también afectan a la mediana, sus valores absolutos no la influyen. Los cuantiles son
una forma más general de dividir la muestra de datos en grupos que contienen el mismo
número de observaciones.
Figura 9.7 Histogramas
Gráficos de probabilidad
Las técnicas gráficas descritas hasta ahora brindan una idea razonablemente buena sobre
la forma de la distribución de los datos bajo investigación, pero no determinan qué tan bien
se ajusta un conjunto de datos a una distribución teórica dada. Se podría usar una prueba
de bondad de ajuste para decidir si los datos son significativamente diferentes de una
distribución teórica dada; sin embargo, tal prueba no nos diría dónde y por qué los datos
difieren de esa distribución. Una gráfica de probabilidad, por otro lado, no solo demuestra
qué tan bien se ajusta una distribución empírica a una distribución dada en general, sino
que también muestra de un vistazo dónde el ajuste es aceptable y dónde no. Hay dos tipos
básicos de gráficas de probabilidad: gráficas PP y gráficas QQ. Ambos se pueden utilizar
para comparar dos distribuciones entre sí. Los principios básicos siguen siendo los mismos
si se quiere comparar dos distribuciones teóricas, una distribución empírica (o de muestra)
con una distribución teórica, o dos distribuciones empíricas.
Sigamos un estudio de caso para optimizar una estrategia de fractura hidráulica en un
yacimiento no convencional donde las técnicas de EDA se enumeran y se detallan
gráficamente a medida que nos esforzamos por aumentar el rendimiento de la producción
en función de los parámetros operativos que deben adaptarse a las características del
yacimiento en toda la extensión de shale.
Gráfico de dispersión
Un diagrama de dispersión es una visualización de dos o tres dimensiones que muestra la relación de
elementos de datos de dos o tres medidas. Cada marcador (representado por un símbolo como un punto,
un cuadrado o un signo más) sirve como una observación. La posición del marcador indica el valor de
cada observación. Utilice un diagrama de dispersión para examinar la relación entre elementos de datos
numéricos.
Los gráficos de dispersión 3D de la figura 9.8 se utilizan con frecuencia cuando los datos no están
dispuestos en una cuadrícula rectangular. Los gráficos de dispersión 3D simples muestran un objeto o
marcador correspondiente a cada dato. Los gráficos de dispersión más complicados incluyen atributos de
marcador específicos de datos, líneas descendentes y combinaciones de los datos de dispersión con
objetos adicionales, como una superficie ajustada.
Los diagramas de dispersión 3D se utilizan para trazar puntos de datos en tres ejes en un intento de
mostrar la relación entre tres variables. Cada fila de la tabla de datos está representada por un marcador
cuya posición depende de sus valores en las columnas establecidas en los ejes X, Y y Z.
Se puede configurar una cuarta variable para que corresponda con el color o el tamaño de la marca.
ers, añadiendo así otra dimensión a la trama.
La relación entre diferentes variables se llama correlación. Si los marcadores están cerca de hacer
una línea recta en cualquier dirección en el tridimensional
Figura 9.8 Diagrama de dispersión 3D

del diagrama de dispersión 3D, la correlación entre las variables correspondientes es alta. Si los
marcadores están igualmente distribuidos en el diagrama de dispersión 3D, la correlación es baja
o cero. Sin embargo, aunque parezca que existe una correlación, puede que no siempre sea así.
Las variables podrían estar relacionadas con alguna cuarta variable, explicando así su variación, o
la pura coincidencia podría causar una aparente correlación.
Puede cambiar la forma en que se ve el diagrama de dispersión 3D acercándolo y alejándolo,

así como girándolo mediante los controles de navegación ubicados en la parte superior derecha de
la visualización.
Mapas de calor
Los mapas de calor son una excelente manera de comparar datos en dos categorías usando color.
El efecto es ver rápidamente dónde la intersección de las categorías es más fuerte y más débil.
Básicamente, un mapa de calor muestra la distribución de valores para dos elementos de datos
mediante el uso de una tabla con celdas de colores.
Usamos mapas de calor cuando queremos mostrar la relación entre dos factores. Podríamos
estudiar el análisis de segmentación de una cartera de pozos, obtener información sobre el
rendimiento de los pozos en los yacimientos o comprender la productividad de los equipos de
perforación en función de la experiencia de ingeniería y la tasa de penetración.
Figura 9.9 Mapa de calor

La figura 9.9 ilustra la comprensión potencial que surge al estudiar visualmente la producción de gas
acumulada durante 12 meses en un yacimiento no convencional, observando las etapas óptimas superior
e inferior de los disparos. También observamos la "línea de mejor ajuste" que da como resultado un ajuste
cuadrático trazado en el mapa de calor para describir la relación entre las dos variables cuando esa
relación exhibe la curvatura de "forma de cuenco" típicamente definida por una función cuadrática.
Si los puntos en el diagrama de dispersión están muy agrupados alrededor de la línea, es probable que
proporcione una buena aproximación para la relación. Si no, se debe considerar otra línea de ajuste para
representar la relación.
Gráficas de burbujas
Un diagrama de burbujas (Figura 9.10) es una variación de un diagrama de dispersión en el que los
marcadores se reemplazan con burbujas. Un gráfico de burbujas muestra las relaciones entre al menos
tres medidas. Dos medidas están representadas por los ejes de la trama y la tercera medida está
representada por el tamaño de los marcadores de la trama. Cada burbuja representa una observación. Un
diagrama de burbujas es útil para conjuntos de datos con docenas o cientos de valores. El tamaño de una
burbuja se escala en relación con el mínimo y el máximo
valores mínimos de la variable tamaño. Los tamaños mínimo y máximo son illus
tratado en la leyenda de la trama.
Figura 9.10 Gráfico de burbujas

Figura 9.11 Mapa de árbol que define la producción de gas acumulada para cada etapa del pozo
Mapas de árboles
Un mapa de árbol (Figura 9.11) muestra una jerarquía o una categoría como un conjunto de
mosaicos rectangulares. A cada rama del árbol se le da un rectángulo, que luego se teja con
rectángulos más pequeños que representan sub-ramas. El rectángulo de un nodo hoja tiene
un área proporcional a una dimensión específica de los datos. A menudo, los nodos de hoja
se colorean para mostrar una dimensión separada de los datos.
Cuando las dimensiones de color y tamaño se correlacionan de alguna manera con la
estructura del árbol, a menudo se pueden ver fácilmente patrones que serían difíciles de
detectar de otra manera, como si un determinado color es particularmente relevante. Una
segunda ventaja de los mapas de árboles es que, por construcción, hacen un uso eficiente
del espacio. Como resultado, pueden mostrar de manera legible miles de elementos en la
pantalla simultáneamente.
SEGMENTACIONES DE CONJUNTO
La segmentación de pozos en una cartera de activos en función de su rendimiento o sus

atributos geomecánicos es la corriente principal de los conceptos básicos de segmentación
de yacimientos; sin embargo, hasta hace poco la idea de combinar estos diferentes depósitos
segmentaciones no ha sido reportada en la literatura. La capacidad de combinar grupos de

segmentos en realidad proviene de una metodología bayesiana para combinar información de
diferentes fuentes para formar una nueva perspectiva que no se encuentra solo en las fuentes
de información no combinadas. Sin embargo, el algoritmo para realizar estas combinaciones
puede adoptar un enfoque bayesiano o un enfoque más tradicional, como el agrupamiento de
K-means.
¿Qué es exactamente la segmentación por conjuntos? Para responder a esa pregunta, es
prudente responder primero qué es un modelo de conjunto predictivo. Conjunto significa
combinar, recopilar o colaborar; por ejemplo, un conjunto de música es un pequeño grupo de
músicos que interpretan juntos un solo manuscrito de música. Así, la segmentación es el
proceso de colocar observaciones que se clasifican en grupos que comparten características
similares. En el modelado predictivo, un modelo de conjunto es la combinación de dos o más
modelos predecesores, y una función de combinación define cómo se combinarán los modelos.
Un ejemplo de un modelo de conjunto podría ser una respuesta como la tasa de producción del
pozo y un árbol de regresión y una regresión de mínimos cuadrados combinados como el
promedio de ambos modelos como puntos a lo largo del espacio de datos. Otro ejemplo podría
ser un modelo para predecir el corte de agua donde el conjunto de datos de entrenamiento
contiene cortes de agua altos como 1 y cortes de agua bajos como 0. Un árbol de decisión y
una regresión logística y posiblemente una red neuronal podrían predecir la probabilidad de
cortes de agua altos (1) y la función de combinación podría ser una votación de la máxima
probabilidad para cada uno de los modelos de entrada a lo largo del espacio de datos.
Métodos de conjunto
Se han informado métodos típicos para combinar diferentes modelos de la misma variable
objetivo, como embolsado y refuerzo. Bagging significa agregación bootstrap. En un modelo de
embolsado, se toman los siguientes pasos en el algoritmo:
Paso 1. Se realiza una muestra aleatoria de las observaciones con un tamaño de n con
reemplazo (lo que significa que una vez que se ha realizado un sorteo, si se ha extraído
una observación antes, se realiza un reemplazo).
Paso 2. Se construye un modelo para clasificar la variable de respuesta objetivo, como un

árbol de decisión, una regresión logística o una red neuronal. Si se utiliza un árbol de
decisión, se omite la parte de poda.
Paso 3. Los pasos 1 y 2 se repiten un número relativamente grande de veces.
Paso 4. Para cada observación en el conjunto de datos, la cantidad de veces que se usa
un tipo de modelo en el paso 2 actúa como una clasificación para cada nivel de la variable
objetivo o de respuesta.
Paso 5. Cada observación se asigna a una categoría votando con el voto mayoritario de
la combinación de modelos predecesores.
Paso 6. Se selecciona el modelo que tenga la mayor mayoría de votos de clasificaciones

correctas de la respuesta. Este es un conjunto de muestras repetidas y construcción de modelos
y la función de combinación es un voto con la mejor clasificación de la variable de respuesta.
Boosting es otro algoritmo de modelo de conjunto que impulsa un modelo clasificador

que es débil o poco desarrollado.
Grupos de conjuntos
En los conjuntos de conglomerados, el objetivo es combinar etiquetas de conglomerados que sean

simbólicas y, por lo tanto, también se debe resolver un problema de correspondencia. Este problema
de correspondencia ocurre cuando hay dos o más segmentaciones/conglomerados que se combinan.
El objetivo es encontrar el mejor método para combinarlos de modo que la segmentación final tenga
una mejor calidad y/o características que no se encuentran solo en los segmentos originales no
combinados. Strehl y Ghosh4 utilizaron un par de métodos para combinar los resultados de múltiples
soluciones de clúster. Un método se denomina partición de similitud basada en clústeres (CSPA) y
otro se denomina algoritmo de metaagrupación en clústeres (MCLA).
Segmentos de conjunto
¿Cómo agregan valor los segmentos de conjunto a los problemas comerciales ascendentes?
Enumeremos algunos de los beneficios más tangibles e importantes:
ÿ Los datos de los clientes son complejos: las segmentaciones simplifican la naturaleza compleja
de los datos
ÿ Los segmentos de conjunto simplifican aún más las segmentaciones múltiples.
ÿ La segmentación por conjuntos es conceptualmente tan simple como agrupar originalmente a

los clientes en segmentos.
ÿ La combinación de segmentaciones permite fusionar múltiples necesidades/

objetivos en un único objetivo de segmentación.
ÿ El método permite fusionar el conocimiento empresarial y el análisis.
ÿ La segmentación por conjuntos es fácil de implementar.
VISUALIZACIÓN DE DATOS
A pesar de que los predecesores de la visualización de datos se remontan al siglo II d.C., la mayoría
de los avances se han producido en los últimos dos siglos y medio, sobre todo durante los últimos 30
años. La tabla más antigua que tiene
Figura 9.12 Formato tabular para representar datos de producción
conservado fue creado en el siglo II en Egipto para organizar la información astronómica como
una herramienta para la navegación. Una tabla es principalmente una representación textual
de datos, pero utiliza los atributos visuales de alineación, espacios en blanco y, en ocasiones,
reglas (líneas verticales u horizontales) para organizar los datos en columnas y filas. Las tablas,
junto con los gráficos y los diagramas, pertenecen a la clase de representaciones de datos
denominadas gráficos.
Aunque las tablas son predominantemente textuales, su disposición visual de los datos en
columnas y filas fue un poderoso primer paso hacia desarrollos posteriores, que cambiaron el
equilibrio de las representaciones textuales y visuales de los datos (Figura 9.12).
La representación visual de datos cuantitativos en relación con escalas de coordenadas

bidimensionales, la forma más común de lo que llamamos gráficos, no surgió hasta mucho más
tarde, en el siglo XVII. René Descartes, el filósofo y matemático francés probablemente mejor
conocido por las palabras Cogito ergo sum (“Pienso, luego existo”), inventó originalmente este
método de representación de datos cuantitativos, no para presentar datos, sino para realizar un
tipo de matemática basada en un sistema de coordenadas. Más tarde, sin embargo, esta
representación fue reconocida como un medio efectivo para presentar información también a
otros.
Siguiendo la innovación de Descartes, no fue sino hasta finales del siglo XVIII y principios
del XIX cuando un científico social escocés llamado William Playfair inventó o mejoró
drásticamente muchas de las gráficas que usamos hoy en día, incluidas las gráficas de barras
y circulares.
Sin embargo, pasó más de un siglo antes de que se reconociera el valor de estas técnicas
hasta el punto de que finalmente se introdujeron los cursos académicos sobre gráficos de
datos, originalmente en la Universidad Estatal de Iowa en 1913.
La persona que nos presentó el poder de la visualización de datos como un medio para
explorar y dar sentido a los datos fue el profesor de estadística John Tukey de Princeton, quien
en 1977 desarrolló un enfoque predominantemente visual para explorar y analizar datos llamado
análisis exploratorio de datos.
Ningún ejemplo de visualización de datos ocupa un lugar más destacado en la

conciencia de los empresarios de hoy que el panel de control. Estas pantallas, que
combinan la información que se necesita para monitorear rápidamente un aspecto del
negocio en una sola pantalla, son poderosas adiciones al arsenal de inteligencia de
negocios. Cuando se diseñan correctamente para una comunicación visual efectiva, los
tableros respaldan un nivel de conciencia que nunca se podría unir a partir de los
informes tradicionales.
Otra expresión de visualización de datos que ha capturado la imaginación de
muchos en el mundo de los negocios en los últimos años es la visualización geoespacial.
La popularidad de Google Earth y otros servicios web similares ha contribuido en gran
medida a este interés. Gran parte de la información que las empresas deben controlar
y comprender está vinculada a ubicaciones geográficas.
Otra tendencia que ha recorrido el camino en los últimos años desde la comunidad
de investigación académica hasta el software comercial aborda el problema de mostrar
grandes conjuntos de datos cuantitativos en el espacio limitado de una pantalla. El
ejemplo más popular de esto es el mapa de árbol (Figura 9.13), que fue creado
inicialmente por Ben Shneiderman de la Universidad de Maryland. Los mapas de árbol
están diseñados para mostrar dos variables cuantitativas diferentes en diferentes
niveles de una jerarquía.
La visualización inmersiva de alta calidad puede mejorar la comprensión,
interpretación y modelado de Big Data en la industria del petróleo y el gas; la
combinación de metodologías analíticas avanzadas y un conjunto de herramientas de
visualización flexible para la industria de petróleo y gas brindan información,
caracterización y control eficientes y efectivos de un sistema heterogéneo muy complejo
que es un yacimiento de petróleo y gas.
El objetivo fundamental es presentar, transformar y convertir los datos en una
representación visual eficiente y efectiva que los usuarios puedan explorar, comprender,
analizar y comprender rápida, intuitiva y fácilmente. Como resultado, los datos sin
procesar se transforman en información y, en última instancia, en conocimiento para
Figura 9.13 Los mapas de árboles explican la producción de hidrocarburos y agua por GOSP
cuantificar la incertidumbre en un sistema subterráneo complejo y heterogéneo para mitigar

los riesgos en las estrategias y tácticas de (re)desarrollo del campo.
Las visualizaciones de yacimientos existentes pueden ser complejas, difíciles de
interpretar y no completamente aplicables a la información disponible y los requisitos de
visualización de los diferentes estados y características del ciclo de desarrollo del campo:
ÿ Exploración temprana, con disponibilidad limitada de datos, alto nivel de incertidumbre

y el requisito de visualizar e interpretar el panorama general
ÿ Evaluación de exploración y perforación y desarrollo de campos, con niveles medios de

disponibilidad de datos, incertidumbre y detalles para visualizar
ÿ Producción, con gran disponibilidad de datos, un nivel reducido de incertidumbre y que

requiere visualizaciones para conocer e interpretar una multitud de detalles
Para enfrentar este desafío, se requieren nuevos tipos de sistemas y técnicas de

visualización interactiva para reflejar el estado del desarrollo del campo y los datos e
información disponibles (cada vez más complejos). La figura 9.14 ilustra una correlación
bivariada de parámetros operativos en un yacimiento de lutitas no convencionales, lo que
ilustra los parámetros importantes que impactan estadísticamente en el rendimiento del pozo.
Figura 9.14 Conjunto de diagramas de dispersión con perspectivas de correlación y regresión

ESTUDIOS DE CASO
Los siguientes estudios de caso ilustran la aplicación práctica de gráficos y diagramas para descubrir el
conocimiento de los datos aguas arriba en yacimientos no convencionales.
Caracterización de yacimientos no convencionales
Es importante determinar un modelo de yacimiento más robusto y apreciar los cambios sutiles en la
geomecánica en un activo no convencional a medida que las estrategias de perforación y terminación se
vuelven más costosas para explotar estos recursos.
Nuevamente, casar una metodología basada en datos con flujos de trabajo interpretativos tradicionales
permite una mayor comprensión, y la adopción de EDA para descubrir patrones ocultos culmina en
hipótesis que vale la pena modelar bajo incertidumbre.
Para acatar los dictados de Tukey, debemos generar un conjunto completo de técnicas de
visualización, preferiblemente a través de una metodología de gráficos automáticos que sea óptima para
los conjuntos de datos que se consideran esenciales para el problema comercial que se está estudiando.
Podemos progresar a través del proceso iterativo de cultivar conocimiento a partir de nuestros datos sin
procesar. Con la llegada de Big Data a medida que los pozos inteligentes y los campos petrolíferos digitales
se están volviendo más populares en el panorama de optimización y vigilancia de activos, necesitamos
manejar terabytes de datos sin procesar, ya que la agregación en silos de ingeniería permite a los
geocientíficos interpretar datos sin los problemas inherentes asociados con el muestreo. estos datos.
El análisis de datos exploratorios es la clave para desbloquear el flujo de trabajo de búsqueda de

patrones, identificando aquellas relaciones bivariadas y multivariadas que mejoran la comprensión de los
ingenieros sobre la dinámica del yacimiento. ¿Por qué usar EDA?
ÿ EDA es un proceso iterativo que surge a partir de percepciones de prueba y error, y estas
observaciones intuitivas obtenidas de cada paso sucesivo son la plataforma para los pasos
subsiguientes.
ÿ Se debe construir un modelo en cada paso de EDA, pero no se debe atribuir demasiada
responsabilidad al modelo. Mantenga una mente abierta y coquetee con escepticismo con
respecto a cualquier posible relación entre los atributos del yacimiento.
ÿ Mire los datos desde varias perspectivas. No descarte el paso EDA en el ciclo de caracterización
del yacimiento si no aparece ningún valor inmediato o aparente.
ÿ EDA generalmente abarca un conjunto de estadísticas sólidas y resistentes y

depende en gran medida de las técnicas gráficas.
Maximizar información
El principal objetivo de cualquier estudio de EDA es “maximizar el conocimiento de un conjunto de datos”.5

Insight connota determinar y revelar la estructura subyacente en los datos.
Tal estructura subyacente puede no ser revelada por la lista enumerada de elementos arriba; tales artículos
ayudan a distinguir los objetivos de un análisis, pero el significado
y la percepción concreta de un conjunto de datos surge a medida que el analista examina y explora
adecuadamente los diversos matices de los datos. Cualquier apreciación de los datos se deriva casi
exclusivamente del uso de varias técnicas gráficas que producen la esencia de los datos. Por lo
tanto, los gráficos bien elegidos no solo son insustituibles, sino que también están en el centro de
todas las determinaciones perspicaces, ya que no existen análogos cuantitativos como los adoptados
en un enfoque más clásico. Es esencial aprovechar sus propias habilidades de reconocimiento de
patrones y correlativas mientras estudia las representaciones gráficas de los datos bajo estudio, y
alejarse de las técnicas cuantitativas que son de naturaleza clásica. Sin embargo, la EDA y las
escuelas de pensamiento clásicas no se excluyen mutuamente y, por lo tanto, pueden complementarse
durante un proyecto de caracterización de yacimientos.
Estructura subyacente de la superficie
Recopilamos alrededor de 2500 conjuntos de datos de pozos individuales en Barnett de un operador

importante y los integramos con datos de pozos disponibles públicamente de la misma región, lo que
resultó en un almacén de datos analíticos agregados (ADW) que contiene datos tanto de producción
como operativos de 11,000 pozos que definen la importancia. parámetros de fractura hidráulica
importantes para la estrategia de cada pozo. El objetivo principal era comprender qué variables
operativas independientes tenían un mayor impacto en el rendimiento del pozo con un enfoque inicial
en los volúmenes de fluido de fractura y apuntalante.
La variable objetivo o función objetivo que acordamos fue la producción de gas acumulada
distinta de cero de 12 meses. Exploremos su correlación con algunos de los parámetros operativos.
Una matriz de correlación muestra el grado de correlación entre múltiples intersecciones de

medidas como una matriz de celdas rectangulares. Cada celda de la matriz representa la intersección
de dos medidas, y el color de la celda indica el grado de correlación entre esas dos medidas.
Las correlaciones más fuertes parecen ser con la perforación más superficial y más profunda,
por lo que tendremos que investigar más a fondo para identificar el punto óptimo con respecto a las
profundidades mínimas/máximas para la producción de gas acumulada distinta de cero en 12 meses.
La lectura adicional de la matriz de correlación ilustra las bajas correlaciones entre nuestros dos
parámetros de estudio, los volúmenes de fluido de fractura y apuntalante y la variable objetivo. Ya
hemos identificado ahorros potenciales en OPEX por una reducción en estos parámetros operativos
con una producción de gas comparable. Otra consecuencia beneficiosa es el impacto positivo en el
medio ambiente, ya que la estrategia de fractura hidráulica necesitaría menos arena y agua, lo que
resultaría en menos viajes de camiones y una superficie más pequeña. Estas deducciones deben
estudiarse más a fondo con más visualización para comprender completamente una estrategia de
fractura hidráulica optimizada.
Podemos identificar y cuantificar la influencia de los parámetros operativos sobre la variable
objetivo. Esto nos permitirá construir modelos más precisos en la siguiente etapa del estudio.
Extraer variables importantes
A partir de la matriz de correlación de la visualización anterior, podemos iniciar un proceso

analítico iterativo para cada celda y estudiar más a fondo las relaciones bivariadas para
identificar posibles parámetros operativos que puedan tener un impacto en la producción de gas.
Tomemos la celda de perforación más superficial y más profunda en la matriz y observemos
aquellas celdas que se correlacionan con el mejor desempeño de acuerdo con la variable
objetivo en esta visualización, el mapa de calor que se muestra en la Figura 9.15.
Un mapa de calor muestra la distribución de valores para dos elementos de datos mediante
el uso de una tabla con celdas de colores. Si no asigna una medida a la función de datos de
color, los colores de celda representan la frecuencia de cada intersección de valores. Si asigna
una medida a la función de datos de color, los colores de celda representan el valor de medida
agregado para cada intersección de valores.
Los gráficos automáticos permiten a los usuarios crear las mejores visualizaciones posibles.
Normalmente, con dos variables numéricas se representa un diagrama de dispersión, pero
debido a la gran cantidad de puntos de datos, vemos que el software modifica la forma en que
se representan los datos, produciendo en este caso un mapa de calor que muestra la frecuencia
o densidad de los datos en cada uno. celda, representando aquí la función objetivo.
La lectura inicial de esta visualización nos lleva a creer que la producción acumulada
promedio óptima de 12 meses ocurre entre las profundidades de perforación más someras de
6625 y 8125 pies, y entre las profundidades de perforación más profundas de 11900 y 12900
pies (ver recuadro, Figura 9.15). También tendremos que investigar
Figura 9.15 El mapa de calor permite la identificación del punto dulce para la perforación
valores atípicos
Valor máximo
Q3 (percentil 75)
Mediana
Significar
Q1 (percentil 25)
Valor mínimo
Figura 9.16 Gráfico de caja-bigotes que detalla los percentiles veinticinco y setenta y cinco
los valores atípicos de alta producción al perforar para identificar qué pozos contribuyeron a esas
celdas.
Detectar valores atípicos y anomalías
La visualización de caja-bigotes es ideal para resaltar las estadísticas descriptivas de las variables
independientes a medida que tratamos de establecer valores potenciales para cada parámetro que
es importante a medida que construimos el modelo predictivo. Es una forma conveniente de
representar gráficamente grupos de datos numéricos a través de sus cuartiles. Los diagramas de
caja suelen tener líneas que se extienden verticalmente desde las cajas (bigotes), lo que indica la
variabilidad fuera de los cuartiles superior e inferior. Los diagramas de caja muestran las diferencias
entre las poblaciones sin hacer suposiciones sobre la distribución estadística subyacente: no son
paramétricos. El espacio entre las diferentes partes del cuadro ayuda a indicar el grado de
dispersión (spread) y sesgo en los datos, e identificar valores atípicos. Es una forma conveniente
de controlar visualmente la calidad de sus datos antes de construir un modelo predictivo.
Un diagrama de caja (Figura 9.16) muestra la distribución de valores para una medida usando
una caja y bigotes. El tamaño y la ubicación del cuadro indican el rango de valores que se
encuentran entre el percentil veinticinco y setenta y cinco.
La información estadística adicional está representada por otras características visuales.
Puede crear celosías y seleccionar si el valor promedio (media) y
los valores atípicos se muestran para cada cuadro.
Probar las suposiciones subyacentes
Un diagrama de burbujas representa los valores de tres medidas mediante el uso de marcadores
(burbujas) de diferentes tamaños en un diagrama de dispersión. Los valores de dos medidas están
representados por la posición en los ejes del gráfico, y el valor de la tercera medida está
representado por el tamaño del marcador.
Un gráfico de burbujas animado (Figura 9.17) muestra los cambios en los valores de sus
datos a lo largo del tiempo. Cada fotograma de la animación representa un valor del elemento de
datos de fecha y hora que se asigna a la función de datos de animación .
Figura 9.17 Gráfico de burbujas animado que ofrece información sobre una porción temporal de los datos
Si observamos la perforación menos profunda promedio, vemos que los condados de

Johnson y Tarrant, rojo y azul oscuro respectivamente, tienen la producción de gas promedio
más alta además de Dallas, exhibiendo las profundidades óptimas promedio de 7621 a 7722 pies,
respectivamente, que es consistente con nuestros hallazgos anteriores en el mapa de calor.
Dallas refleja una perforación menos profunda promedio de 8888 pies que cae fuera del punto
óptimo previamente identificado. ¿Es esto un valor atípico o un reflejo del buzamiento geológico
de la zona productora de interés en toda la región? Estas profundidades en los condados sugieren
una característica geológica que debe compararse con un modelo geológico estático actual para
el activo. Estos valores parecen importantes como indicadores de una alta producción de gas,
que es algo que debemos tener en cuenta a medida que construimos un árbol de decisiones o
una red neuronal en nuestra fase de modelado.
Esta representación del gráfico de burbujas también subraya que el condado de Hood utiliza
una gran cantidad de apuntalante, pero la producción de gas correspondiente es baja en
comparación con otros condados. Además, tenga en cuenta que la perforación menos profunda
es de unos 6150 pies. ¿Se correlaciona esto con el buzamiento de la zona de lutitas a lo largo de Barnett?
En este punto, podemos profundizar y descubrir qué operadores son ineficientes en el condado
de Hood. Recuerde, no solo deseamos identificar una estrategia de fractura hidráulica optimizada
que pueda implementarse en pozos futuros por medio de análogos, sino que también estamos
tratando de reducir los volúmenes de fluido de fractura y apuntalante para reducir el OPEX sin
afectar el rendimiento.
La figura 9.18 subraya el desempeño deficiente en el condado de Hood y permite la
identificación de aquellos operadores que se desempeñan de manera deficiente como los
principales contribuyentes a la baja producción general de gas en comparación con los volúmenes
de apuntalante. Por ejemplo, podemos observar que Enervest Operating LLC está usando la
mayor cantidad de apuntalante para una producción de petróleo bastante promedio. Deberíamos
investigar sus mejores prácticas y compararlas con otros operadores en un área geográfica comparable.
Figura 9.18 El gráfico de burbujas puede profundizar en una jerarquía para identificar el rendimiento del pozo
Una de las principales funcionalidades implementadas en esta visualización es el uso de la jerarquía

que facilita el desglose de parámetros en función de una caracterización de los datos controlada por el
usuario. Se trata esencialmente de cubos OLAP sobre la marcha, una metodología muy simple para pasar
en cascada a través de un conjunto de datos en capas que caen en una jerarquía natural como Campo:
Reservorio: Pozo.
Ahora estamos estableciendo una comprensión más completa del uso de cada operador de uno de los
parámetros operativos de nuestro estudio, el volumen de apuntalante.
¿Qué empresas tienen un rendimiento inferior al implementar demasiado apuntalante en su estrategia de
fractura hidráulica? ¿Y cuál es la mejor práctica con respecto al volumen de la capa de puntal para cada
estrategia de fractura respectiva en los estratos geológicos?
Se pueden construir visualizaciones similares para estudiar el fluido de fractura. Ahora nos estamos moviendo
hacia la definición de los parámetros importantes en nuestro modelo predictivo.
Perforando llegamos al nivel del pozo y vemos que el pozo #242090238900 es el que usa la mayor
cantidad de apuntalante, pero con una producción de gas relativamente alta. ¿Es esto un valor atípico o es
representativo de la caracterización geológica en esta área del Barnett? Debemos determinar si el desempeño
es aceptable, estando dentro de los límites de confianza para la producción acumulada de gas.
Esta visualización detalla algunos pozos con mucho mejor desempeño con cantidades mucho más pequeñas
de apuntalante; ¿Qué indicadores clave de producción diferencian estos buenos pozos de los malos en el
condado de Hood operados por Enervest Operating LLC?
Estamos construyendo algunas características de identificación para el buen y mal desempeño del
pozo. Posteriormente, podemos ratificar estos hallazgos mediante la ejecución de un análisis de conglomerados.
Se están utilizando grandes volúmenes de apuntalante en el condado de Hood con un rendimiento
relativamente bajo en la producción acumulada de 12 meses en comparación con otros condados, como
Tarrant y Johnson, donde se usa menos apuntalante en promedio.
Figura 9.19 Gráfica animada que investiga las cantidades de apuntalantes contra el desempeño
con un rendimiento promedio mejorado. No estamos convencidos de que la producción de gas

asociada en Hood justifique una cantidad tan grande de apuntalante.
Quizás las cantidades variables de apuntalante y la producción de gas que vemos en la
animación de la Figura 9.19 a lo largo del GPI de 2200 a 2400 pueden explicarse por las zonas
de ladrones en el condado de Hood: fallas/fracturas no identificadas, que consumen el fluido
de fractura y apuntalante sin impacto sobre el rendimiento
¿O el bajo rendimiento está relacionado con las malas prácticas del operador? Las
visualizaciones asociadas con el análisis exploratorio de datos permiten la identificación de
hipótesis que vale la pena modelar. Estamos cuantificando la incertidumbre en los parámetros
subyacentes.
Para un análisis más efectivo de la eficiencia a nivel de pozo podemos comparar dos
mapas (Figura 9.20), donde en el primero mostramos la cantidad de apuntalante y la producción
en toda la región y en el segundo el valor del contenido (donde 6 representa petróleo y 1 gas/
condensado). Podemos ver, por ejemplo, en el primer mapa que el pozo #242090242813 en el
condado de Hood definitivamente tiene algunos problemas con la cantidad y la eficiencia del
apuntalante. De hecho, los pozos adyacentes que tienen el mismo nivel de producción de gas
utilizan mucho menos volumen de apuntalante. Esto definitivamente es indicativo de malas
prácticas y estrategia de tratamiento de fractura hidráulica ya que el modelo geológico es
bastante homogéneo como lo confirman los pozos cercanos que muestran un rendimiento
comparable.
La distribución del valor del contenido de los pozos en el segundo mapa refleja una
comprensión borrosa de dónde se encuentran el petróleo y los condensados. ¿Corresponden
estos a la expectativa geológica suprayacente? ¿Cuáles son las características del yacimiento
en estas ubicaciones de pozos? Podríamos agrupar los pozos por valor de contenido e incluir
las características del yacimiento y los datos geomecánicos, y vincular estos lazos de
propiedades del pozo con el modelo geológico estático, podemos determinar la estructura geológica/localizada.
características estratigráficas. ¿Reflejan una producción de pozo comparable?
Figura 9.20 Gráfica de burbujas mapeada en las ubicaciones de los pozos
Aquí vemos de nuevo el condado de Hood en términos de apuntalante por fluido por GPI
valor usado y contenido (vemos que es > 4,8 representando al aceite).
¿Qué estrategia de fracturamiento hidráulico es mejor para la producción de petróleo en comparación
con la producción de gas? ¿Cuáles son las mejores prácticas en el condado de Johnson que parecen
producir de manera más eficiente con un apuntalante promedio comparable por fluido por GPI?
Debemos investigar si el apuntalante se está utilizando de manera eficiente y, de ser así, si
podríamos lograr un nivel similar de producción con una cantidad mucho menor de apuntalante, como lo
implican las visualizaciones anteriores.
Una tabulación cruzada muestra las intersecciones de los valores de categoría y los valores de
medida como texto. Si su tabulación cruzada contiene medidas, entonces cada celda de la tabulación
cruzada contiene los valores de medida agregados para una intersección específica de valores de
categoría. Si la tabla de referencias cruzadas no contiene medidas, cada celda contiene la frecuencia de
una intersección de valores de categoría.

En la visualización de tablas cruzadas de la figura 9.21, tomamos en consideración dos pozos que
en el condado de Hood tienen cantidades aproximadamente similares de producción acumulada pero con
una cantidad radicalmente diferente de volumen de apuntalante.
De hecho, el pozo que parece altamente ineficiente es el pozo #242090242813, operado por Chesapeake
Operating Inc. Esta visualización se puede construir para identificar rápidamente las mejores y peores
prácticas en diferentes pozos en varios condados. Este proceso arrojará luz nuevamente sobre la
identificación de los valores ideales para los parámetros operativos importantes que se consideran más
influyentes en un plan de tratamiento de estrategia de fractura hidráulica. Los resultados leídos de esta
visualización ayudarán a construir futuros modelos predictivos.
Los roles de datos para una tabla cruzada son columnas, filas y medidas. Puedes
asigne una sola jerarquía o cualquier número de categorías a cada una de las funciones de filas y
columnas. Si asigna medidas a la tabla de referencias cruzadas, los valores de las medidas se muestran
en las celdas de la tabla de referencias cruzadas. Si no asigna medidas, las celdas de la tabla cruzada
muestran la frecuencia de cada intersección de valores.
Figura 9.21 Visualización de tabulación cruzada que detalla medidas específicas
Sistema de detección de alerta temprana
Las compañías de petróleo y gas tradicionalmente implementan consolas de monitoreo rudimentarias

y sistemas de vigilancia que son, en el mejor de los casos, razonamiento basado en casos por naturaleza.
Ofrecen perspectivas aisladas y tienden a ser predominantemente reactivas. Con la proliferación de
metodologías analíticas predictivas en muchas verticales de negocios, es fundamental que la industria
de O&G adopte un marco de trabajo basado en análisis para mejorar los tiempos de actividad, el
rendimiento y la disponibilidad de activos cruciales al tiempo que reduce la cantidad de mantenimiento
no programado, minimizando así el mantenimiento. costos relacionados e interrupciones de operación.
Con análisis e informes de última generación, puede predecir los problemas de mantenimiento antes de
que sucedan y determinar las causas principales para actualizar los procesos y prevenirlos en el futuro.
El enfoque reduce los tiempos de inactividad, optimiza los ciclos de mantenimiento, reduce el
mantenimiento no programado y obtiene una mayor visibilidad de los problemas de mantenimiento.
Hay múltiples sensores en las instalaciones de petróleo y gas que generan un tsunami de puntos
de datos en tiempo real. Estos datos se recopilan invariablemente en un historiador de datos, se
comprimen y luego se procesan por lotes mediante un flujo de trabajo analítico. La Figura 9.22 muestra
un posible flujo de flujos de datos de sensores agregados con otros conjuntos de datos dispares en un
motor de procesamiento de flujo de eventos. Tal motor se enfoca en analizar y procesar eventos en
movimiento o "flujos de eventos". En lugar de almacenar datos y ejecutar consultas contra los datos
almacenados, almacena consultas y transmite datos a través de ellos. Permite el análisis continuo de los
datos a medida que se reciben y le permite actualizar gradualmente la inteligencia a medida que ocurren
nuevos eventos. Una función de coincidencia de patrones innata le permite definir eventos secuenciales
o temporales (basados en el tiempo), que luego se pueden usar para monitorear interrupciones en los
patrones para que las acciones se puedan tomar de inmediato. El motor procesa grandes volúmenes de
datos con extrema rapidez, lo que brinda la capacidad de analizar eventos en movimiento incluso cuando
se generan.
Los datos entrantes se leen a través de adaptadores que forman parte de una arquitectura de
publicación y suscripción utilizada para leer fuentes de datos (Figura 9.23). Un sistema de detección de
alerta temprana aprovecha las metodologías analíticas predictivas que albergan un modelo predictivo.
¿Cómo se construye y opera ese modelo? Primero, necesitamos identificar firmas y patrones en un
sistema complejo multidimensional y multivariable que son precursores de un evento; ese evento podría
ser un fracaso en
Figura 9.22 Flujos de flujo de datos generados por sensores
Figura 9.23 Motor de procesamiento de flujo de eventos y flujos de datos asociados
una bomba o una ocurrencia de arrastre de líquido. Se realiza un flujo de trabajo analítico de
causa raíz que extrae todos los conjuntos de datos agregados considerados relevantes para
el estudio para identificar aquellas firmas y patrones que ocurren antes del evento. El análisis
de causa raíz determina indicadores adelantados y atrasados para caracterizar el rendimiento
del sistema en tiempo real. El objetivo es identificar las reglas que son precursoras del evento
en estudio a partir de las ocurrencias de otras
eventos en las transacciones. Una vez establecido, podemos construir un modelo predictivo, ya sea una
red neuronal, un árbol de decisiones o un modelo de regresión no lineal estándar. También se podría
implementar un híbrido de dichos modelos. Habiendo operacionalizado el modelo predictivo, podemos
abrir las puertas a la avalancha de datos en tiempo real de los sensores a través de los historiadores en
un complejo motor de procesamiento de eventos. El motor maneja flujos de datos en tiempo real. Los
primeros principios o conceptos de ingeniería pueden integrarse en la lógica del motor a medida que los
datos de transmisión se analizan y se dividen en eventos sucintos. Luego, esos datos se pasan al modelo
predictivo para monitorear las firmas y los patrones identificados como precursores de un evento inminente.
El principio básico de un esquema de detección de fallas de alerta temprana basado en modelos es

generar residuos que se definen como las diferencias entre las salidas medidas y las predichas por el
modelo. El modelo del sistema podría ser un principio básico:
basado en un modelo físico o un modelo empírico del sistema real que se está monitoreando. El modelo
define la relación entre las salidas del sistema, las fallas del sistema, las perturbaciones del sistema y las
entradas del sistema. Idealmente, los residuales que se generan solo se ven afectados por las fallas del
sistema y no se ven afectados por ningún cambio en las condiciones de operación debido a cambios en
las entradas del sistema y/o
o perturbaciones. Es decir, los residuales solo son sensibles a las fallas mientras que son insensibles a
la entrada del sistema oa los cambios de perturbación.6 Si el sistema está "saludable", entonces los
residuales se aproximarían mediante el ruido blanco. Cualquier desviación de los residuos del
comportamiento del ruido blanco podría interpretarse como una falla en el sistema.
Por lo tanto, los modelos predictivos son el núcleo de cualquier mantenimiento predictivo de activos .
flujo de trabajo. Es una solución basada en análisis diseñada para mejorar los tiempos de actividad de
activos cruciales y reducir el mantenimiento no programado, lo que reduce los costos operativos y de
mantenimiento y minimiza las interrupciones de producción relacionadas con el mantenimiento. Para
obtener respuestas a preguntas complejas de E&P, es necesario adoptar un conjunto de flujos de trabajo
de análisis predictivo y descriptivo multipropósito y fácil de usar. Al adoptar EDA y análisis predictivo,
puede:
ÿ Descubra nuevos patrones relevantes con rapidez y flexibilidad.
ÿ Analice los datos para encontrar información útil.
ÿ Tome mejores decisiones y actúe rápidamente.
ÿ Supervise los modelos para verificar la pertinencia y la precisión continuas.
ÿ Administre una cartera creciente de activos predictivos de manera efectiva.
El estudio de caso del Capítulo 10, “Bombas eléctricas sumergibles para aguas profundas”, amplía
la oportunidad de aplicar un modelo predictivo para evitar fallas en las bombas eléctricas sumergibles.
Un conjunto potencial de flujos de trabajo que ilustra la implementación predictiva

modelos en datos en tiempo real se representa en la Figura 9.24.
Uso de energía: Ciclo de construcción continuo

Historial de escaneo
Simular escenarios
Patrón Mejora del modelo
Biblioteca
Brecha
Pozo/Depósito Alerta Pronóstico/DCA
Vigilancia,
Actuación,
Diagnosticar
Eficiencia
(Partido histórico)
Simular
Tratamiento
Modelos de automatización Alarma de falla
Decisión: tratamiento de estimulación
Colaboración: Metodología
Fuentes de datos adicionales
Figura 9.24 Flujos de trabajo para implementar modelos predictivos
307
NOTAS
1. DC Hoaglin, F. Mosteller y JW Tukey, eds., Understanding Robust and Exploratory Data Analysis
(Nueva York: John Wiley & Sons, 1983).
2. A. Gelman, "Análisis exploratorio de datos para modelos complejos", Journal of Computational and
Graphical Statistics 13, no. 4 (2004): 755–779.
3. JW Tukey, Análisis de datos exploratorios (Reading, MA: Addison-Wesley, 1977).
4. A. Strehl y J. Ghosh, "Conjuntos de clústeres: un marco de reutilización de conocimientos para
combinar particiones", Journal of Machine Learning Research 3 (2002): 583–617.
5. J.-F. Coste y J.-P. Valois, “An Innovative Approach for the Analysis of Production History in Mature
Fields: A Key Stage for Field Re-Engineering,” SPE 62880, presentado en la Conferencia y Exposición
Técnica Anual de la SPE, Dallas, TX, del 1 al 4 de octubre de 2000.
6. RJ Patton y J. Chen, Robust Model-based Fault Diagnosis for Dynamic Systems (Norwell, MA:
Académico Kluwer, 1999).
CAPÍTULO 10
Big Data:
estructurados y no estructur
Cualquier director ejecutivo de una empresa realmente debería

poder hacer una pregunta que implique conectar datos en toda la
organización, ser capaz de administrar una empresa de manera efectiva
y, especialmente, ser capaz de responder a eventos inesperados.
A la mayoría de las organizaciones les falta esta capacidad de
conectar todos los datos entre sí.
Tim Berners Lee
adaptarse a los desafíos de la era digital, está ingresando a una nueva generación de
L a industria del petróleo
transformación. y el gas,
A medida un rendimientos
que los sector conocido poractivos
de los su rápida adopción
se vuelven másy difíciles
capacidad de para
acceder y aún más difíciles de pronosticar, es imperativo que la industria recopile y mantenga sus
datos de manera eficiente.
A medida que las empresas toman petabytes de datos diariamente, es la capacidad de
comprender las tendencias analíticas, para interpretar con precisión todos los datos geológicos, de
ingeniería, de producción y de equipos de manera eficiente y en tiempo real lo que garantiza el
éxito. La capacidad de acceder y obtener información valiosa de sus conjuntos de datos está en el
corazón de la rentabilidad en esta industria, donde su éxito depende de la rapidez con la que puede
pronosticar el potencial mientras mantiene los costos bajos para actualizar ese éxito; no puede
darse el lujo de perderse en los conjuntos de datos.
Big Data es un término popular utilizado para describir el crecimiento exponencial y la
disponibilidad de datos, tanto estructurados como no estructurados. Y Big Data puede ser
tan importante para la industria del petróleo y el gas como lo ha sido Internet para la sociedad.
¿Por qué esto es tan? Más datos pueden conducir a análisis más precisos. Los análisis más
precisos pueden conducir a una toma de decisiones más segura. Y mejores decisiones pueden
309
significan mayores eficiencias operativas, reducciones de costos y reducción de riesgos. La

dimensión en tiempo real agrava la criticidad que impulsa la adopción de técnicas informáticas
blandas que, cuando se implementan en metodologías analíticas avanzadas, permiten que el
conocimiento de Big Data se agregue a través de silos de ingeniería dispares.
Ya en 2001, el analista de la industria Doug Laney articuló la definición ahora convencional de
Big Data como las tres V: volumen, velocidad y variedad:
1. Volumen: muchos factores contribuyen al aumento del volumen de datos.

Los datos basados en transacciones se almacenan a lo largo de los años. Los datos no
estructurados se transmiten desde las redes sociales. Se recopilan cantidades cada vez
mayores de datos de sensores y de máquina a máquina. En el pasado, el volumen excesivo
de datos era un problema de almacenamiento. Pero con la disminución de los costos de
almacenamiento, surgen otros problemas, incluido cómo determinar la importancia dentro
de grandes volúmenes de datos y cómo usar el análisis para crear valor a partir de datos pertinentes.
2. Velocidad: los datos se transmiten a frecuencias sin precedentes y deben tratarse de manera
oportuna. Las etiquetas, los sensores y la medición inteligente de identificación por
radiofrecuencia (RFID) están impulsando la necesidad de lidiar con tsunamis de datos casi
en tiempo real. Reaccionar lo suficientemente rápido para lidiar con la velocidad de los datos
es un desafío para la mayoría de las organizaciones.
3. Variedad: los datos de hoy vienen en todo tipo de formatos. Las bases de datos tradicionales
albergan datos alfanuméricos estructurados. Hay información creada a partir de aplicaciones
de línea de negocio. Los documentos de texto no estructurados en forma de informes de
perforación diarios, correo electrónico, video, audio y transacciones financieras proliferan a
medida que el yacimiento petrolífero digital expande su presencia en la industria. Administrar,
fusionar y gobernar diferentes variedades de datos es una tarea ardua con la que la mayoría
de las empresas de E&P todavía se enfrentan a medida que los datos en silos upstream
explotan con pozos inteligentes emergentes e iniciativas de campos petroleros digitales.
Hay dos dimensiones adicionales a considerar cuando se habla de Big Data:
1. Variabilidad: además de las velocidades crecientes y las variedades de datos, los flujos de
datos pueden ser muy inconsistentes con los picos periódicos. ¿Algo es tendencia en las
redes sociales? Las cargas máximas de datos diarias, estacionales y desencadenadas por
eventos pueden ser difíciles de administrar, incluso más cuando se trata de datos no
estructurados.
2. Complejidad: los datos de hoy provienen de múltiples fuentes. Y sigue siendo una tarea
vincular, combinar, limpiar y transformar datos entre sistemas.
Sin embargo, es necesario conectar y correlacionar relaciones, jerarquías y múltiples
enlaces de datos o sus datos pueden perder rápidamente el control.
El verdadero problema no es que las empresas de petróleo y gas estén adquiriendo grandes
cantidades de datos. Es lo que haces con los datos lo que cuenta. La visión esperanzadora es que
B ig D ata : S tr u ct u red y Unstr u ct u redâ•‡ÿ 311
Los departamentos de E&P podrán tomar datos de cualquier fuente, aprovechar datos relevantes y
analizarlos para encontrar respuestas que permitan:
ÿ Reducción de CAPEX y OPEX
ÿ Maximización del tiempo de recursos
ÿ Optimización de exploración y producción
ÿ Toma de decisiones empresariales más inteligente
ÿ Cuantificación precisa de la incertidumbre
ÿ Mitigación del riesgo en las decisiones de ingeniería
Por ejemplo, al combinar Big Data y análisis de alta potencia, es posible:
ÿ Determinar las causas raíz de fallas, problemas y defectos casi en tiempo real,
potencialmente ahorrando miles de millones de dólares al año.
ÿ Optimice los parámetros de perforación y aumente la ROP y reduzca el NPT.
ÿ Maximice el rendimiento en una cartera de pozos mediante la identificación de candi

datar pozos para remediación.
Encontrar valor en Big Data no se limita a aplicar análisis a masas de información estática. Hoy en día,
las organizaciones necesitan obtener información inmediata de la transmisión de datos en tiempo real. Los
enfoques tradicionales, que aplican análisis después de almacenar los datos, pueden proporcionar
información demasiado tarde para actuar.
El procesamiento de flujo de eventos analiza Big Data de alta velocidad a medida que se reciben.
Esto reduce drásticamente el tiempo de decisión para que pueda tomar esas decisiones críticas a tiempo
para ser más efectivo. Discutiremos un estudio de caso de un campo de aguas profundas para optimizar las
bombas sumergibles eléctricas y, en última instancia, aumentar la producción y evitar períodos de
aplazamiento.
Los datos estructurados son relacionales, ordenados, coherentes y se almacenan fácilmente en hojas
de cálculo y tablas de bases de datos. Los datos no estructurados son su inverso. Son grandes, no
relacionales, desordenados, cargados de texto y no se representan fácilmente en las tablas tradicionales.
Pasemos a los metadatos, un término que está entrando cada vez más en la lengua vernácula de los
negocios. El término metadatos significa, simplemente, datos sobre datos. Meta
es un prefijo que en la mayoría de los usos de la tecnología de la información significa “una definición o
descripción subyacente”. Los metadatos resumen la información básica sobre los datos, lo que puede
facilitar la búsqueda y el trabajo con instancias particulares de datos. Por ejemplo, el tipo de bomba, la
presión, la temperatura y la fecha de creación representan metadatos muy rudimentarios recopilados desde
una bomba eléctrica sumergible.
Tener la capacidad de filtrar a través de esos metadatos hace que sea mucho más fácil para un ingeniero
ubicar un informe específico que puede ser crítico para detallar las firmas de un evento como una falla.
El análisis de texto (TA) permite a las empresas de petróleo y gas maximizar el valor del texto
electrónico no estructurado procedente de documentos, páginas web, comunicaciones de plataformas,
debates en línea, blogs y otras redes sociales, informes diarios y correos electrónicos. Usando
procesamiento de lenguaje natural (NLP), TA revela la información relevante oculta en grandes
cantidades de documentos.
Los TA son útiles en prácticamente todas las industrias en las que se dedica tiempo a etiquetar
manualmente, asignar categorías o leer volúmenes de documentos. Es imperativo procesar
eficientemente volúmenes masivos de texto, a veces en una amplia gama de idiomas, e integrarse
completamente con otras capacidades de inteligencia empresarial. El análisis de texto también amplía
el valor de las inversiones existentes en sistemas de gestión de documentos y motores de búsqueda.
TA admite una serie de unidades/operaciones comerciales tradicionales que dependen en gran medida
de flujos de trabajo y procesos centrados en documentos, a través de ofertas independientes o
integradas en la industria y las soluciones de línea de negocio.
Enfrentadas con los problemas de Big Data que surgen de la avalancha de contenido no
estructurado, muchas organizaciones luchan por obtener el valor óptimo posible de los datos de texto.
Debido a la ambigüedad y las numerosas formas en que se puede interpretar el texto, no es fácil
discernir, cuantificar, analizar o explotar los conocimientos de los datos basados en texto. Y muchas
organizaciones no pueden combinar información basada en texto con datos estructurados, por lo que
es imposible obtener una vista completa y precisa del activo.
El análisis de texto convierte los datos de texto en un activo organizacional al ayudarlo a evaluar,
analizar, comprender y actuar automáticamente sobre la información oculta en el texto electrónico. Las
capacidades integradas le permiten incorporar la nueva información del análisis de texto en inteligencia
en tiempo real, como nuevas variables para visualización y análisis predictivo, y como metadatos para
otras aplicaciones especializadas de recuperación de documentos. Como resultado, puede tomar
decisiones comerciales más efectivas y proactivas, optimizar las prioridades y producir informes más
significativos.
El análisis predictivo y el análisis de sentimientos no solo brindan información sobre los problemas
existentes, sino que también abordan los imprevistos. En efecto, están sugiriendo nuevas e importantes
preguntas, así como sus respuestas. A través de Big Data, las compañías de petróleo y gas están
identificando problemas, tendencias, problemas y oportunidades que los ingenieros y geocientíficos
simplemente no pueden.
En Dios confiamos. Todos los demás deben traer datos.

William Edwards Deming
El procesamiento de flujo de eventos permite el análisis continuo de los eventos a medida que ocurren.
Esta actualización incremental de la información permite el análisis de tendencias en tiempo real para
detectar anomalías de forma inmediata. Estas capacidades ayudan a capturar valor
que de otro modo podría perderse debido al retraso de la información. Proporciona un mayor
rendimiento para la gestión de decisiones en tiempo real. Un motor de procesamiento de flujo de
eventos invariablemente incorpora tecnologías existentes, como procesamiento en paralelo,
procesamiento de kernel en subprocesos y filtros de datos personalizables. También proporciona
soporte nativo para actualizaciones, eliminaciones e inserciones para facilitar el modelado con un
rendimiento mejorado. Es esencial manejar lógica compleja y mejorar la latencia de almacenamiento.
La capacidad de dividir los eventos entrantes le permite conservar el ancho de banda para un mejor
rendimiento, así como generar múltiples rutas de procesamiento para eventos complejos. Un potente
lenguaje de expresión y ventanas de procedimiento proporcionan mejores métodos para manejar una
lógica de procesamiento compleja. Una función sofisticada de coincidencia de patrones le permite
definir eventos secuenciales o temporales (basados en el tiempo), que luego se pueden usar para
monitorear interrupciones en los patrones para que se puedan tomar medidas correctivas de inmediato.
No tiene que esperar a que se ejecuten los trabajos por lotes antes de recibir información crítica.
Los estudios han demostrado que la industria del petróleo y el gas ha experimentado un
crecimiento sustancial en los mercados de recursos no convencionales. Este aumento en el enfoque
no solo ha generado una mayor competencia por los activos, sino también un margen de error más pequeño.
Con proyectos que exigen una tecnología de producción y perforación más cara y cambios profundos
en las regulaciones gubernamentales y los productos básicos, las empresas deben ejercer prudencia
operativa y previsión estratégica para garantizar el éxito.
Tal previsión se puede lograr mediante la adopción de metodologías basadas en datos en todo el
conjunto completo de fuentes de datos, tanto estructuradas como no estructuradas.
Categorización de contenido
El análisis de texto utiliza procesamiento de lenguaje natural y técnicas lingüísticas avanzadas para
analizar automáticamente grandes volúmenes de contenido en busca de entidades, hechos, relaciones
y temas. El análisis del texto crea metadatos, taxonomías documentadas, modelos lingüísticos y
definiciones de conceptos que se pueden aplicar automáticamente a grandes colecciones de
documentos para una clasificación rápida y precisa, descubrimiento de temas, evaluación de opiniones
e información semántica y se utilizan para desencadenar procesos comerciales en tiempo real.
La gestión eficaz del contenido empresarial y como activo estratégico requiere una estructura de
información subyacente común. La categorización de contenido aplica procesamiento de lenguaje
natural y técnicas lingüísticas avanzadas para identificar temas y frases clave en texto electrónico
para que pueda categorizar automáticamente grandes volúmenes de contenido multilingüe que se
adquiere, genera o existe en un repositorio. Analiza, analiza y extrae correctamente el contenido de
entidades, hechos y eventos para crear etiquetas de metadatos que indexan documentos, todo en un
entorno colaborativo de administración de taxonomía. Como resultado, las personas de todas las
disciplinas de ingeniería pueden encontrar rápidamente el contenido relevante que necesitan, cuando
lo necesitan, al nivel de granularidad requerido. es factible
defina reglas lingüísticas sofisticadas para organizar, indexar y desencadenar actividades de información
dependientes en tiempo real. Esto impulsa una organización de documentos, un acceso, una localización
y un intercambio de conocimientos más rápidos y eficientes, y reduce los gastos generales asociados con
procesos como el etiquetado manual y la indexación retrospectiva.
Con un amplio conjunto de herramientas, sus datos de texto se transforman en un activo reutilizable.
Esto ayuda a facilitar la clasificación de documentos, descubrir asociaciones explícitas entre términos y
documentos, agrupar documentos en categorías y descubrir reglas lingüísticas para obtener nuevos
conocimientos en las colecciones.
Las tecnologías lingüísticas y de análisis avanzadas pueden estandarizar la experiencia en la materia
de su organización. Cuando se definen en el sistema, los documentos se procesan automáticamente según
estas reglas y conceptos basados en el conocimiento.
Luego, los documentos pueden evaluarse en tiempo real, usarse en flujos de trabajo, informes y sistemas
de notificación existentes, y actualizarse a sistemas de transacciones, automatizando la clasificación de la
información.
Mediante la definición de términos semánticos, las relaciones entre colecciones dispares se pueden
asignar de manera coherente a los activos y repositorios de texto existentes. Esto maximiza el valor de las
colecciones de texto de su organización al crear una lente de conocimiento para los almacenes de
información, reforzar la calidad de los datos y traer contenido significativo al frente cuando se examina la
información relacionada. Cuando se utilizan
con la categorización, mejora las actividades de recuperación de información y automatiza la entrega de

temas relacionados.
La abstracción de un gran conjunto de documentos en múltiples repositorios empresariales permite
centrarse en el valor del contenido para reconocer qué es ruido irrelevante y qué es ruido relevante. Eliminar
duplicados y centrarse en lo que importa proporciona un control de versiones efectivo, así como confianza
en los activos de la organización durante todo el ciclo de vida del contenido, desde la creación o adquisición
hasta la retención y disposición.
La categorización del contenido, por ejemplo, es clave cuando se desarrolla una solución híbrida
para un problema de E&P, como la identificación de mecanismos de levantamiento artificial apropiados en
una zona contaminada (consulte la sección siguiente, “Levantamiento artificial”).
Gestión de ontologías
Utilizando tecnologías lingüísticas avanzadas para definir y administrar términos semánticos en colaboración,
un sistema de administración de ontologías asocia texto de diferentes fuentes, sistemas de archivos y
áreas temáticas. Le permite crear relaciones entre entidades, incluidas taxonomías preexistentes y aisladas,
de modo que la experiencia en la materia sobre el uso y el significado pueda integrarse sistemáticamente
en las reglas.
Cuando estas reglas se utilizan junto con el procesamiento de categorización, se recupera el contenido
relacionado para que las consultas devuelvan respuestas relevantes, completas y significativas.
Análisis de los sentimientos
El análisis de la información de la Web puede requerir mucho trabajo, pero las empresas confían
cada vez más en estas fuentes para descubrir tendencias, oportunidades y riesgos relacionados con
sus productos y servicios a un nivel detallado.
El análisis de opinión ayuda a su organización a comprender rápidamente las opiniones de los
clientes y constituyentes de múltiples fuentes de contenido digital: sitios web, centros de
comunicación, correos electrónicos, formularios, encuestas, archivos internos e informes. Ubica y
analiza automáticamente el contenido digital en tiempo real, luego combina el aprendizaje estadístico
con reglas lingüísticas avanzadas para revelar con precisión los sentimientos centrales expresados
en los datos textuales, evalúa el texto en busca de connotaciones positivas y negativas, incluido el
contenido emocional sutil, y proporciona un desglose detallado que usted puede graficar para
comunicar fácilmente qué significan exactamente los comentarios en relación con el sentimiento y
los cambios generales. Como resultado, puede detectar tendencias antes de que se vuelvan virales
e identificar mejor las prioridades de sus clientes. ¿Todos los informes de perforación están escritos
en un vocabulario o diccionario estándar? ¿Quizás la eficiencia de la plataforma es una correlación
directa con el desempeño individual que puede surgir a través de los informes diarios individuales?
Extracción de textos
Los flujos de trabajo de minería de texto lo ayudan a descubrir información oculta en colecciones de
texto no estructurado. La solución ahorra tiempo y recursos al automatizar las tareas de lectura y
comprensión de textos para obtener nuevos conocimientos. La tecnología analiza automáticamente
el texto, identifica sinónimos, crea recuentos de términos de frecuencia y se puede extraer para
descubrir temas, temas y reglas lingüísticas comunes. Puede impulsar el desarrollo de taxonomías
utilizando el descubrimiento automatizado de reglas booleanas en sus esfuerzos de categorización.
A través de visualizaciones e informes detallados interactivos, puede descubrir patrones previamente
desconocidos en las colecciones de documentos y aplicar esos conocimientos a sus taxonomías o
tableros corporativos. Y como parte de un entorno de minería de datos completamente integrado, los
temas y grupos de texto se estructuran para incluirse en el análisis descriptivo o predictivo.
Al consolidar los datos estructurados existentes con información basada en texto, puede observar
detalles de tendencias, detectar nuevos problemas, enviar alertas sobre problemas potenciales,
predecir la influencia de los términos y marcar nuevos indicadores comerciales de manera más
eficiente y con menos riesgo.
SISTEMA HÍBRIDO EXPERTO E IMPULSADO POR DATOS
Un sistema híbrido experto y basado en datos abarca una metodología que combina las mejores
prácticas obtenidas de ingenieros experimentados y un flujo de trabajo basado en datos que captura
datos destacados de E&P.
Levantamiento artificial
Los campos maduros con múltiples pozos activos necesitan en algún momento del ciclo de vida del
campo sistemas de levantamiento artificial. La identificación de pozos candidatos y el sistema adecuado
a implementar en el momento óptimo son factores críticos para explotar eficientemente los recursos del
activo. La extracción de datos históricos a través de un flujo de trabajo de análisis de datos exploratorios
para descubrir patrones y tendencias ocultos permite una comprensión eficiente del espacio de entrada
que puede implicar múltiples variables. Invariablemente, estas variables describen un entorno
multivariante, multidimensional, multivariante y estocástico que no es plausible para los primeros principios
arraigados defendidos por los ingenieros familiarizados con el rendimiento histórico del activo.
Sin embargo, la agregación de las observaciones anotadas por ingenieros experimentados con los
resultados determinados por las técnicas de computación suave proporciona una base de conocimiento
integral a partir de la cual desarrollar estrategias de EOR oportunas y eficientes hechas bajo incertidumbre.
Veamos un yacimiento altamente compartimentado y no convencional que requiere estrategias de

fracturación hidráulica para mejorar el rendimiento. Antes de construir cualquier modelo que actúe como
precursor o predictor del rendimiento, es necesario integrar conjuntos de datos relevantes en un data
mart espaciotemporal en el que se basa una metodología analítica híbrida. Tenemos datos de producción,
conjuntos de datos de pruebas de pozos e información histórica que detalla las estimulaciones anteriores,
así como las propiedades del yacimiento.
La figura 10.1 ilustra los componentes clave del sistema híbrido.

La metodología impulsada por el usuario incorpora el conocimiento obtenido por ingenieros
experimentados. Una pierna basada en reglas deterministas se construye esencialmente para responder
a la pregunta: ¿Requiere el pozo un sistema de levantamiento artificial? El flujo de trabajo bayesiano es
estocástico por naturaleza y permite un enfoque probabilístico basado en creencias que opera bajo la
cuantificación de la incertidumbre. Cada variable de entrada y salida está representada por un nodo con
un mapeo de causa-efecto representado por un arco.1
La metodología de razonamiento basado en reglas encapsula la base de conocimientos de los

ingenieros dentro de una rutina automatizada que implementa una secuencia de bloques de código IF-
THEN ELSE. El razonamiento y la lógica capturados desde la perspectiva de un usuario emula un bucle
de vigilancia que está programado para ejecutarse de manera ad-hoc o se implementa en tiempo real.
Un conjunto de parámetros operativos y no operativos se identifican como criterios de decisión
significativos. Dichos parámetros podrían incluir lo siguiente:
ÿ Diámetro de tubería
ÿ Tamaño del estrangulador
ÿ Presión en cabeza de pozo

Basado en reglas Condicional

Razonamiento Probabilidad
Ingeniería Mejor Mesa
Observaciones bayesiano Prácticas
La red Predefinido
umbrales
Sistema
Flujo de entrada de conocimiento experto impulsado por el usuario
Flujo de entrada de informática blanda basada en datos
AED
Neural
Datos Objetivo La red
Funciones Profético
Impulsado
Modelo
Analítica Georgia Grupo
Análisis
Lógica difusa
Figura 10.1 Sistema híbrido que integra un flujo de trabajo experto y basado en datos
ÿ Última prueba de pozo
ÿ Tasa de condensado
ÿ Tarifa de agua
ÿ GOR
Se recopila un conjunto único de parámetros como indicativos de un requisito de

levantamiento artificial específico. El sistema es flexible para permitir que un ingeniero
adapte los parámetros y sus valores personalizados a una caracterización de yacimiento singular.
Cuando se observa que el comportamiento de un pozo significa, a través de la lógica
basada en reglas, que se necesita un tipo particular de levantamiento artificial, se comunica
una alerta o notificación a las partes responsables. Para evitar una avalancha de
notificaciones, se puede introducir un flujo de trabajo de clasificación que cuantifique la
cantidad de veces que se alerta cada pozo en la cartera del campo. Las limitaciones
inherentes del enfoque basado en reglas son su manejo inadecuado de los puntos de datos
faltantes y cualquier duplicidad de identificación de levantamiento artificial basada en el
análisis de parámetros donde aparece más de una metodología EOR apropiada para un
pozo específico. No existe una evaluación cualitativa para determinar el mecanismo óptimo
de levantamiento artificial cuando la lógica basada en reglas identifica dos o más.
cabeza de pozo
Presión
[Bajo medio alto]
Producción de gas
Presión de línea
Velocidad
[BajoAlto]
[Bajo medio alto]
Artificial
Sistema de elevación
[NoABC]
Figura 10.2 Red de creencias bayesianas
Para abordar las incertidumbres inherentes al sistema antes mencionado, detallaremos el

enfoque de la red bayesiana . Esencialmente es una metodología probabilística basada en
creencias que se expresa bajo condiciones de incertidumbre, poniendo así una distribución
probabilística en oposición a un estado booleano discreto VERDADERO o FALSO.
La figura 10.2 muestra la red de creencias bayesianas (BBN) para el sistema de aviso de
levantamiento artificial descrito por De la Vega, Sandoval y García.2 Se comprobó que los tres
parámetros más influyentes eran la tasa de gas, la cabeza del pozo y las presiones de línea.
Los nodos de entrada están definidos por un rango de valores que se subdividen en estados
[LowMediumHigh].
El nodo de salida corresponde al sistema de levantamiento artificial apropiado o se define
como no apropiado debido al desempeño adecuado del pozo. Las probabilidades de cada
estado [ABC] se detallan en la tabla de probabilidad condicional (CPT) según lo determinado
por los primeros principios de ingeniería y el conocimiento obtenido de la experiencia.
El flujo de trabajo basado en datos es cada vez más frecuente en la cadena de valor de
E&P a medida que Big Data se acumula en tiempo real, combinando las tecnologías informáticas
blandas, discutidas como un tema común en este libro, con las limitaciones inherentes a los
primeros principios.
De la Vega, Sandoval y García abogan por una técnica de agrupación en clústeres no
supervisada complementada con un flujo de trabajo de visualización que implemente los mapas
autoorganizados (SOM) de Kohonen. El SOM utiliza la distancia euclidiana entre dos puntos
en un espacio de entrada que no solo es multivariante sino multidimensional, cuantificando una
medida de similitud. Cuanto más similar sea la medida, más cerca se ubicarán los puntos en el
maplet o espacio de proyección 2D.
Por lo tanto, los SOM se aplican para identificar un patrón en la toma de decisiones histórica de
Figura 10.3 Mapas autoorganizados
los ingenieros de activos. ¿Podemos determinar el patrón oculto que es representativo de un

criterio de selección de levantamiento artificial específico?
Podemos ver cuatro realizaciones del mismo SOM en la Figura 10.3. Cada realización o
maplet corresponde a un parámetro utilizado para calibrar el SOM.
Los diferentes sistemas de levantamiento artificial en estudio están representados por la gama
de colores del azul al rojo, haciendo eco del conjunto [NoABC]. Se puede señalar cuándo se debe
utilizar el sistema de Levantamiento Artificial A [Rojo] y cuándo es recomendable no implementar
[Tonos de Azul]. Por lo tanto, el sistema A de levantamiento artificial se aplica a pozos con tasas
de gas altas o relativamente altas con un nivel de líquido estático moderadamente bajo en los
pozos.
Los datos que calibraron el SOM actúan como el espacio de entrada para un flujo de trabajo
de agrupación jerárquica. Los grupos individuales reflejan perfiles de pozos con distintivos
características. La técnica reduce la dimensionalidad del espacio de entrada.

Considere cómo el espacio del problema que consta de varios cientos de pozos se puede reducir a
una docena de grupos que agrupan a los pozos que tienen perfiles similares.
El SOM es un tipo de red neuronal basada en el aprendizaje competitivo. Se puede utilizar para
la agrupación y para la visualización de datos de alta dimensión.
El aprendizaje competitivo abarca una categoría de algoritmos basados en el concepto de un punto
de datos especial llamado unidad que gravita hacia los otros puntos de los datos. Uno de los
problemas del aprendizaje competitivo simple es que una vez que las unidades han convergido a
sus posiciones finales, todo lo que se puede obtener son las coordenadas de los centros de las
agrupaciones; uno todavía no tiene una idea real de cómo se ve el espacio de características y
cuáles son las relaciones entre los diferentes grupos. Al unir las unidades en una cuadrícula, uno
puede obligarlas a mantener la formación. Una unidad tendrá algún tipo de relación en el espacio de
características con las unidades adyacentes a ella en la cuadrícula.
Como se mencionó, los SOM proporcionan una forma de representar datos multidimensionales
en espacios de dimensiones mucho más bajas, generalmente de una o dos dimensiones. Este
proceso de reducción de la dimensionalidad de los vectores es esencialmente una técnica de
compresión de datos conocida como cuantificación de vectores. Además, la técnica de Kohonen
crea una red que almacena información de tal manera que se mantienen las relaciones topológicas
dentro del conjunto de entrenamiento, y este es un factor importante que favorece la heterogeneidad
inherente a los reservorios típicos de los juegos no convencionales.
Como la mayoría de las redes neuronales artificiales, los SOM funcionan de dos modos:
entrenamiento y mapeo. El entrenamiento construye el mapa usando ejemplos de entrada. Es un
proceso competitivo, también llamado cuantificación vectorial. El mapeo clasifica automáticamente
un nuevo vector de entrada.
Un mapa autoorganizado consta de componentes llamados nodos o neuronas. Asociado con
cada nodo hay un vector de peso de la misma dimensión que los vectores de datos de entrada y una
posición en el espacio del mapa. La disposición habitual de los nodos es un espaciado regular en
una cuadrícula hexagonal o rectangular. El mapa autoorganizado describe un mapeo desde un
espacio de entrada de dimensiones superiores a un espacio de mapa de dimensiones inferiores. El
procedimiento para colocar un vector del espacio de datos en el mapa es encontrar el nodo con el
vector de peso más cercano al vector tomado del espacio de datos y asignar las coordenadas del
mapa de este nodo a nuestro vector.
Si bien es típico considerar este tipo de estructura de red en relación con las redes de avance
en las que los nodos se visualizan como si estuvieran conectados, este tipo de arquitectura es
fundamentalmente diferente en disposición y motivación.
El beneficio derivado de la adopción de las metodologías en esta solución es la reducción de la
producción perdida debido a una toma de decisiones más eficiente para identificar un sistema de
levantamiento artificial adecuado en la cartera de pozos de un activo. El conocimiento y la experiencia
capturados de los ingenieros proporciona una herramienta de evaluación automatizada que restringe
los flujos de trabajo basados en datos con un primer paso limitado.
principios Los ciclos de decisión incluyen no solo datos de producción y procesos, sino también datos
económicos, lo que ofrece una perspectiva holística sobre tácticas y estrategias para una EOR eficaz.
ESTUDIOS DE CASO
Los dos estudios de caso que siguen cubren el análisis de datos estructurados para optimizar el
mantenimiento de bombas sumergibles eléctricas y datos no estructurados para obtener información
importante en el upstream con análisis de texto.
Bombas sumergibles eléctricas de aguas profundas
No es raro desplegar bombas eléctricas sumergibles (ESP) muy grandes en los campos marinos más
profundos del mundo para bombear petróleo a la superficie. Estas bombas se instalarán en cajones
ubicados en el fondo del océano a veces en exceso de
10.000 pies por debajo de la plataforma. Si falla un ESP, el impacto financiero podría ser de $200 millones
en pérdida de ingresos y $20 millones en costos de reemplazo. Dado el costo total de una falla del ESP,
el objetivo debe ser definir los parámetros operativos que evitarán daños catastróficos al ESP, incluso a
expensas de pérdidas o tasas de producción más bajas.
La principal causa de falla es el desgaste de los devanados del motor que están diseñados para ser
enfriados por el aceite de producción que fluye a través de la bomba. Hay un bucle de reciclaje que podría
usarse para enfriar. La intención del ciclo de reciclaje es mantener la tasa de alimentación deseada
cuando la producción del pozo cae por debajo de los objetivos.
A veces hay varios ESP, pero el circuito de reciclaje de la parte superior se puede conectar a un solo
ESP a la vez.
El gas se produce invariablemente en los pozos y los sistemas submarinos incluyen un separador
de gas y capacidades de levantamiento artificial por gas. La variabilidad en la producción de gas y de
pozos, combinada con el ESP y las tasas de flujo de levantamiento artificial por gas, puede provocar que
el exceso de gas o el exceso de líquidos provoquen problemas con el separador de gas y el ESP. Estas
condiciones, conocidas como gas over y gas under, se evitan controlando el nivel de líquido en el cajón.
Si el nivel de líquido es demasiado bajo, el gas entrará en el ESP, lo que provocará una pérdida de
calentamiento de los devanados del motor y la cabeza debido a la pérdida del efecto de enfriamiento del flujo de aceite.
Si el nivel de líquido en el cajón es demasiado alto, los líquidos interferirán con el separador de gas. La
formación de espuma causada por el efecto de cascada de los líquidos que caen en el cajón también
puede contribuir a la acumulación de gas y gas por debajo. Otras fallas potenciales del motor incluyen
fallas en los cojinetes, fallas en los sellos y fallas en los fuelles. Se incluyen fuelles en el motor para
manejar la expansión y contracción de los aceites lubricantes del motor que se encuentran al instalar los
motores en el fondo del mar.
También existe la preocupación de que la "mortalidad infantil" o el error del operador puedan
provocar una falla prematura del ESP. La vida útil anticipada de un ESP es de 3 a 5 años, pero
históricamente, las pruebas no han logrado alcanzar esa meta.
600 43
17
psig 0
5
psig
psig
Trayectoria de flujo
Elevador de gas: Menor
elevación dP y
dP friccional
Gas
Elevador de líquido 10.400 bpd

Líquido desgasificado (~muerto) +2
Multifásico inmsefd
Líquido vivo (P sat > 175 psia) flujo cerca de la parte superior
Flujo multifásico Caisson Riser con gas,

Líquido, Rutas de reciclaje Reciclar
75 Bomba
0 10,800
Árbol psig bpd
Ahogo 2625
psig
Línea de flujo
Local
Colector
y pozos
ESP
Figura 10.4 Trayectoria de flujo de producción de petróleo y gas
En este estudio de caso, los pozos se agrupan en cuatro áreas en el lecho marino y
se conectan a través de líneas de flujo a colectores que ingresan en la parte superior del
cajón. La Figura 10.4 muestra la trayectoria del flujo de petróleo y gas, y el ESP está
ubicado en el centro del cajón. El cajón se hunde en el fondo del océano con el fondo del
cajón descansando 350 pies por debajo del nivel de lodo del fondo del océano. El gas se
separará de los líquidos en el cajón, y los líquidos fluirán hacia el fondo del cajón donde
se encuentra la entrada del ESP. La salida de líquido del ESP se controla con la velocidad
del motor y fluye a través de una válvula de retención antes de ingresar al elevador de
líquidos, que está conectado al equipo de superficie. El gas se introduce en el elevador de
líquidos entre el ESP y la válvula de retención para ayudar a elevar los líquidos a la
superficie. Se agregan productos químicos en el colector para controlar la formación de espuma en el cajón.
La metodología analítica para la predicción de eventos utiliza datos y estimaciones
estadísticas para sacar a la luz relaciones que explican por qué ocurren ciertas condiciones
o eventos. Esto permite a los ingenieros reemplazar el conocimiento del dominio y el juicio
por la experiencia para identificar reglas y parámetros operativos que se pueden integrar en
los sistemas para proporcionar monitoreo y alertas automatizados.
El procesamiento automatizado utilizado por esta metodología es ideal para analizar
sistemas y entornos complejos e interdependientes que pueden abarcar múltiples
especialidades laborales y de ingeniería.
Figura 10.5 Eficiencia real y teórica
Los historiadores que recopilan los datos de los sensores de las bombas constituyen la principal
fuente de datos para este análisis.
Los objetivos específicos incluyen lo siguiente:
ÿ Definición de métricas de desempeño ESP
ÿ Eficiencia ESP
ÿ Gas ESP bajo
ÿ gas ESP sobre
ÿ Visualización de métricas de rendimiento
ÿ Exploración e identificación de parámetros operativos que impactan

actuación
ÿ Medición del impacto relativo impartido por parámetros operativos
ÿ Desarrollo y prueba de posibles reglas operativas
Los historiadores contienen alrededor de 150 sensores que monitorean varios aspectos del
desempeño del ESP. Sensores adicionales en el sistema monitorean otros aspectos del sistema en
general. Se podrían agregar otros conjuntos de datos en función de la función objetivo. Se pueden
crear muchas variables adicionales mediante cálculos simples o complejos.
La adopción de modelos estadísticos multivariados basados en datos nos permite capturar los
efectos que explican la variación en la eficiencia real frente a la teórica, como se muestra en la Figura
10.5. Esos efectos son una cuantificación de las correlaciones explícitas en los datos. Algunos de los
efectos son ostensiblemente aparentes y bien comprendidos, pero otros son más sutiles, ya sea a
corto o largo plazo por naturaleza.
La aparición automática de estos efectos permite mejorar la vigilancia en tiempo real.
La solución analítica proporciona un marco para el modelado continuo de la eficiencia

de la bomba, estableciendo un sistema de vigilancia automatizado con identificación de
problemas y análisis de causa raíz. Los grandes conjuntos de datos se agregan rápidamente
a medida que múltiples sensores registran puntos de datos de alta frecuencia. Integrados
con datos adicionales, como los resultados del modelado de análisis espectral para
determinar las firmas subóptimas que dan como resultado armónicos eléctricos y mecánicos,
acumulamos rápidamente algunos datos muy grandes que deben analizarse de manera
efectiva y eficiente.
Análisis de texto en petróleo y gas
Una importante empresa de petróleo y gas implementó un flujo de trabajo que se inició con
análisis de texto para recopilar conocimientos sobre activos y equipos a partir de la plétora
de datos en bruto no estructurados que se detallan en los informes diarios. La extracción
de información de las notas de campo escritas por los ingenieros de perforación permitió
determinar un conocimiento más sólido basado en la exploración de los síntomas y la
identificación de patrones y relaciones ocultas que no surgieron en una lectura casual.
Dichas determinaciones permitieron que se promulgaran estrategias de mitigación efectivas
basadas en una metodología analítica de causa raíz plausible de los datos sin procesar
contenidos en los informes.
Un flujo de trabajo de categorización de contenido (Figura 10.6) desarrolla múltiples
categorías; cada uno contiene su propio conjunto de reglas basadas en palabras clave,
frases, lógica booleana, expresiones regulares basadas en la proximidad, partes del
discurso o combinaciones de las mismas. Los ingenieros pueden definir la jerarquía de
categorías y subcategorías desde una perspectiva de dominio o incluso derivarla
estadísticamente a partir de metodologías de regresión lineal o no lineal.
Figura 10.6 Paso de categorización de contenido

Figura 10.7 Proceso de derivación para identificar las raíces de múltiples grafías de una palabra
Figura 10.8 Asociaciones de términos implementadas para determinar las causas raíz de los problemas
A menudo es necesario realizar un proceso de stemming. En morfología lingüística y recuperación

de información, la lematización es el proceso para reducir palabras flexionadas (o a veces derivadas) a
su forma de raíz, base o raíz, como en la figura 10.7, donde determinamos errores ortográficos y
versiones variables de la misma palabra, plug.
Las asociaciones de términos (Figura 10.8) se utilizan para descubrir las causas fundamentales
de los problemas identificados, como la falla de una bomba. La exploración del contexto de la redacción.
Figura 10.9 Profundización en las categorías de fallas
Figura 10.10 Profundización en subcategorías para fallas mecánicas
y nomenclatura específica son considerados. En este caso, el término problema está asociado con el
"control de nivel" y, en última instancia, con un problema con el estabilizador y el rehervidor.
Los datos sin procesar textuales se transformaron en un formato estructurado para una eficiente
análisis exploratorio de datos. Los informes de Compressor se extrajeron para crear un conjunto de
datos jerárquico que contenía variables categóricas para eventos, detallando los activos y los
síntomas informados. ¿Los cierres fueron planeados o no planeados? Profundizando en la categoría
"Trabajo de averías", fue factible visualizar las categorías de fallas representadas en la Figura 10.9.
Un recorrido posterior de la jerarquía destacó las subcategorías que enumeran las fallas
mecánicas, como se muestra en la Figura 10.10.
El nivel jerárquico más bajo corresponde al texto sin procesar tomado del informe de campo
diario, que muestra los comentarios textuales originales ingresados por los ingenieros. Luego, los
datos no estructurados se fusionaron con datos estructurados dispares de todos los silos de ingeniería
ascendentes para producir un conjunto de datos más rico.
Luego podrían implementarse otras metodologías analíticas usando
Figura 10.11 Relaciones de las superficies de la matriz de correlación desde una perspectiva bivariada
computar modelos basados en datos para abordar múltiples problemas comerciales cuantificados
por la incertidumbre.
Las categorías se extrajeron de los datos no estructurados y se agregaron con los datos
estructurados apropiados. Luego se generó una matriz de correlación (Figura 10.11) para visualizar la
identificación de importantes relaciones y tendencias ocultas en el espacio de entrada.
Los activos como válvulas, tuberías, compresores, bombas, intercambiadores de calor y líneas
de flujo se pueden investigar a través de un flujo de trabajo de minería de texto que captura todos los
valores de datos destacados de los informes diarios enriquecidos por la integración de conjuntos de
datos estructurados adicionales. Al identificar los síntomas de fallas del compresor en una herramienta
de visualización inmersiva en 2D y 3D, los flujos de trabajo analíticos de datos exploratorios identifican
rápidamente la frecuencia de los problemas informados, como fugas o altas presiones o temperaturas.
Al acumular estas observaciones críticas y cuantificar la incertidumbre y el impacto estadístico en
una función objetiva como el desempeño, es plausible diseñar un modelo basado en las firmas
históricas de un sistema multivariante que pronostica o predice problemas. Luego, las soluciones de
ingeniería se pueden implementar de manera oportuna después de haber determinado la causa raíz
de las fallas inherentes con un tiempo de anticipación que surge de las firmas de coincidencia de
patrones de múltiples parámetros independientes y dependientes.
La Figura 10.12 ilustra líneas de tendencia para ciertos temas/categorías bajo exploración. La
previsión es entonces un flujo de trabajo factible para identificar problemas emergentes antes de que
ocurran.
Por lo tanto, el análisis de texto es apropiado para convertir datos no estructurados en datos
estructurados siguiendo un flujo de proceso a través de la categorización, el análisis de sentimientos
y la extracción de texto. Hay patrones y relaciones temáticas que deben surgir de la plétora de
revistas, libros, informes diarios y correos electrónicos.
Figura 10.12 Capacidad de pronóstico en datos no estructurados
Figura 10.13 Flujo de trabajo analítico de texto
acumulada diariamente en plataformas remotas y en centros de colaboración en empresas upstream

de petróleo y gas.
En la figura 10.13 se define un flujo de proceso analítico de texto típico.
La Figura 10.14 muestra el valor de cotejar las fuentes dispares de datos no estructurados en
las disciplinas de ingeniería aisladas de E&P; podemos realizar minería de texto y convertir a un
conjunto de datos estructurado [1]. El flujo de trabajo de minería de texto incluye categorización y
análisis de opiniones [2, 3A y 3B]. Una vez que se ha establecido un almacén de datos analíticos
sólido, enriquecido con patrones de datos no estructurados obtenidos de fuentes textuales [4], es
importante definir varias metodologías analíticas [5] que implementen los pasos del análisis
exploratorio de datos en una herramienta de visualización para reducir el dimensionalidad del
espacio de entrada e identificar parámetros independientes sobresalientes que tienen
Industria y Dominio 5
Pericia Profético
Modelado
3a
5
1 Categorización Visualización y
Estructurado (Taxonomía)
2 4
Datos & Minería de Informes
Enriquecido
Textual texto y
Datos Exploración 3b
conjunto de datos
5
Sentimiento Analítico
Análisis Soluciones
5
Ad hoc
Análisis
Figura 10.14 Flujo de trabajo del proceso analítico de datos no estructurados
329
impacto en la función objetivo determinada a priori para reflejar el (los) problema(s) de negocio
en estudio.
GEOESTADÍSTICA MULTIVARIANTE
La aplicación de la estadística a los problemas de geología y minería, así como a la hidrología,

se remonta a un tiempo considerable. Invariablemente, las geoestadísticas significaban
estadísticas aplicadas a la geología o quizás de manera más general a los problemas de las
ciencias de la tierra. A partir de mediados de la década de 1960 y especialmente a mediados
de la década de 1970, se asoció mucho más estrechamente con el trabajo de Georges
Matheron3 y tal vez esa conexión sea aún la que prevalece en la actualidad.
El profesor Matheron estaba en la Ecole Normale Supérieure des Mines de Paris (Escuela
de Minas), una de las Grandes Escuelas. Matheron estableció el Centre de Morphologie
Mathematique. La serie de dos volúmenes de Jean Serra sobre morfología matemática y
análisis de imágenes es muy conocida y se basa en el libro anterior de Matheron sobre teoría
de conjuntos aleatorios. Dos de los estudiantes de Matheron jugaron un papel decisivo en la
implantación de la geoestadística en América del Norte. André Journel se mudó a la Universidad
de Stanford en 1978 y también fue coautor de Mining Geostatistics con Ch. Huijbrechts. Michel
David se había mudado anteriormente a la Ecole Polytechnique en Montreal y en 1977 publicó
"Estimación geoestadística de reservas de mineral".
La geoestadística es en gran medida una disciplina aplicada y su evolución ha sido el

trabajo de ingenieros de minas, ingenieros petroleros, hidrólogos, edafólogos y geólogos, así
como estadísticos. Existe cierta superposición con los sistemas de información geográfica (SIG)
y las estadísticas espaciales en general.
En un sentido, las geoestadísticas pueden verse simplemente como una metodología para
interpolar datos en un patrón irregular, pero esto es demasiado simplista. Una serie de métodos/
algoritmos de interpolación ya eran bien conocidos cuando la geoestadística comenzó a ser
popular. La ponderación de distancia inversa y el análisis de superficie de tendencia , así como
el algoritmo del vecino más cercano mucho más simple, fueron métodos predominantes.
La geoestadística es, por tanto, una rama de la estadística que se centra en conjuntos de
datos espaciales o espaciotemporales. Desarrollado originalmente para predecir distribuciones
de probabilidad de leyes de minerales para operaciones mineras, actualmente se aplica en
diversas disciplinas, que incluyen geología del petróleo, hidrogeología, hidrología, meteorología,
oceanografía, geoquímica, geometalurgia, geografía, silvicultura, control ambiental, ecología
del paisaje, suelo la ciencia y la agricultura. La geoestadística se aplica en diversas ramas de
la geografía, en particular las que involucran la propagación de enfermedades (epi demiología),
la práctica del comercio y la planificación militar (logística) y el desarrollo de redes espaciales
eficientes.
Los algoritmos de interpolación deben abordar el principio básico inherente a la mayoría
de los ambientes depositacionales donde tanto las características geológicas como
las propiedades petrofísicas asociadas se distribuyen anisotrópicamente, exhibiendo variaciones

en esas propiedades cuando se miden en diferentes direcciones. La geoestadística proporciona
una metodología para identificar y cuantificar el comportamiento anisotrópico en los datos. Esta
metodología se denomina variografía y el conjunto de métricas generadas se encapsula en un
semivariograma. Un algoritmo de variograma produce un conjunto de métricas que se implementan
posteriormente durante la interpolación y la simulación para preservar direcciones y escalas de
continuidad mediante los métodos de kriging y simulación, respectivamente.
Por lo tanto, la identificación de anisotropía se realiza empíricamente sobre la base de los

datos y observaciones proporcionados. Depende del geólogo, geofísico o petrofísico evaluar si la
anisotropía está presente e identificar sus métricas (es decir, los ángulos de los ejes de anisotropía
y las relaciones de rango de anisotropía en comparación con la dirección principal). Una vez que
el usuario especifica las métricas de anisotropía, los procedimientos espaciales pueden dar cuenta
de la anisotropía identificada en los cálculos de semivarianza, así como en la predicción y la
simulación.
Es fundamental que las variables de interés en la industria del petróleo y el gas, como la
porosidad, la permeabilidad, la saturación y los volúmenes de arena/lutita, se entiendan tanto
desde una perspectiva de escala como direccional.
Después de limpiar y preparar los datos y generar variogramas o modelos espaciales,
podemos interpolar las variables clave del yacimiento en una cuadrícula definida utilizando la
técnica de kriging. Así, la descripción de la anisotropía en un problema se integra en la medida de
continuidad o semivarianza. El algoritmo kriging utiliza esta medida para describir las características
de continuidad en todas las distancias y acimutes, lo que permite que los algoritmos calculen la
varianza entre dos ubicaciones dadas. El algoritmo kriging ejecuta internamente los cálculos de
varianza en un conjunto de ubicaciones especificadas por el usuario, en las que el algoritmo
ejecuta internamente los cálculos de varianza.
Los algoritmos de simulación ofrecen invariablemente simulación gaussiana tanto condicional

como incondicional. Es la implementación anterior del algoritmo la que brinda a los ingenieros de
yacimientos y geólogos los medios para generar modelos prácticos de yacimientos que son un fiel
reflejo de las relaciones espaciales entre los elementos geológicos y sus propiedades petrofísicas,
independientemente de si son de naturaleza anisotrópica o isotrópica. .
Además, los resultados se pueden expresar desde una perspectiva probabilística, lo que
permite la cuantificación de la incertidumbre, la provisión de datos de simulación de flujo
fundamentales e imperativos y la mitigación del riesgo potencial. Y este es el gran valor de la
simulación: le permite probar diferentes escenarios e investigar el comportamiento de una
propiedad de yacimiento para una variedad de configuraciones de continuidad y bajo diferentes
selecciones de parámetros.
Con las numerosas realizaciones que se pueden producir potencialmente a partir de un solo
conjunto de datos, puede clasificar y realizar un procesamiento posterior para determinar el grado
de incertidumbre en los modelos.
Por lo tanto, la simulación condicional es fundamentalmente una extensión de kriging, rein

introduciendo la varianza en la ecuación.
Puede determinar el grado de incertidumbre en un modelo con las muchas realizaciones
generadas por la simulación, extrayendo características estocásticas de los datos. Habiendo
medido el grado de diferencia de una realización a la siguiente, puede compilar una sinopsis de
métricas estadísticas y luego generar visualizaciones apropiadas para obtener todo el potencial
de las geoestadísticas en un proyecto de caracterización de yacimientos. Se busca una mejor
cuantificación de la incertidumbre en todos los niveles, desde los datos de entrada hasta los
supuestos del modelo y los parámetros del modelo. Al apreciar los límites de la incertidumbre
al desarrollar un modelo geoestadístico de caracterización de yacimientos, es plausible ofrecer
técnicas para aliviar parte del riesgo sustentado por la incertidumbre. Los resultados permiten
planes de perforación más confiables, mejores estrategias de recuperación secundaria y
terciaria y un análisis de cartera más completo de activos upstream.
FLUJOS DE TRABAJO DE GRANDES DATOS
El ciclo cerrado ilustrado en la Figura 10.15 refleja una iteración eficiente de pasos en un flujo
de trabajo de Big Data.
IDENTIFICAR/
FORMULAR
EVALUAR/ PROBLEMA
DATOS
MONITOR
PREPARACIÓN
RESULTADOS
DESPLEGAR
MODELO DATOS
EXPLORACIÓN
VALIDAR
MODELO TRANSFORMAR
& SELECCIONE
CONSTRUIR
MODELO
Figura 10.15 Flujos de trabajo de Big Data

Formular problema
Es necesario identificar un problema comercial de E&P que integre de manera colaborativa

conjuntos de datos dispares y aislados. Big Data abarca datos estructurados y no estructurados.
El primer paso permite que un grupo polinizado de ingenieros y expertos comerciales agregue
los datos y la experiencia necesarios para abordar el problema comercial y traducirlo en una
función objetiva.
Preparación de datos
Los datos se deben ejecutar a través de algunos flujos de trabajo de control de calidad de datos
para imputar valores faltantes, segregar valores atípicos, filtrar cualquier ruido (ya sea coherente
o aleatorio) y generar parámetros de datos blandos adicionales a partir de los datos duros
medidos en el campo. Los puntos de datos experimentados e impulsados por el usuario deben
encapsularse, ya que las metodologías basadas en datos empleadas posteriormente deben
estar restringidas por los primeros principios y conceptos de ingeniería. Los grandes conjuntos
de datos se ejecutan invariablemente en los petabytes y, por lo tanto, una arquitectura que
permite cargar dichos datos en la memoria mejora el análisis posterior, ya sea de naturaleza
exploratoria o predictiva.
Exploración de datos
Durante el paso de análisis de datos exploratorios, debemos emplear varios flujos de trabajo
que implementen el conjunto de gráficos y diagramas de visualización inmersiva de Tukey para
descubrir patrones ocultos e identificar correlaciones. Esencialmente un estudio de sensibilidad,
nos permite reducir la dimensionalidad del espacio de entrada complejo, multivariante y
multivariante. Necesitamos entender aquellos parámetros que tienen mayor influencia e impacto
estadístico en la función objetivo reflejada por una o más variables dependientes.
Transformar y Seleccionar
Este paso complementa el flujo de trabajo de preparación de datos posterior al análisis de datos
exploratorios. Brinda la oportunidad de transformar parámetros individuales de una distribución
normal a log-normal, y así sucesivamente. El paso de selección implementa flujos de trabajo
basados en PCA o análisis factorial que nos permiten afinar las variables independientes más
importantes.
Construir modelo
La construcción de un modelo o modelos abre la puerta a múltiples soluciones que deben ser
valoradas para determinar el modelo más adecuado. Estos modelos son
impulsado por datos, incorporando cualquier restricción introducida por los primeros principios.
Deberíamos implementar varios modelos diversos ya que la calidad y el tamaño de los datos influyen
en el éxito de ciertos tipos de técnicas y modelos de computación suave:
ÿ Regresión logística
ÿ Regresión
ÿ Redes neuronales
ÿ Regresiones no lineales
ÿ Modelos lineales mixtos
ÿ Bosque aleatorio
ÿ Árbol de decisiones
Validar modelo
Es de suma importancia desarrollar un marco para administrar los modelos predictivos y garantizar
la validez de todos los modelos, especialmente después de que cada modelo se actualice con nuevos
datos. Los metadatos que describen los modelos aseguran su integridad y utilidad.
Implementar modelo
La figura 10.16 representa las implicaciones operativas de la implementación de un modelo predictivo.

El punto de partida del proceso es la vigilancia, tomando datos de varias fuentes, pero principalmente
datos de etiquetas. Los datos en tiempo real se compararán con los modelos que se encuentran en la
biblioteca de modelos de fallas. Fuera del proceso de vigilancia son posibles dos tipos de alerta:4
1. Brechas de rendimiento: una desviación estadística del historial operativo a largo plazo.
Esta no es una alerta predictiva.
2. Alarma predictiva: una coincidencia con un modelo de falla que proporciona una advertencia anticipada
de un problema
Las brechas de rendimiento se pasan a la comunidad de ingenieros para su revisión.

Las preguntas analizadas podrían ser:
1. ¿Ha ocurrido esto antes?
2. ¿Condujo a un problema?
3. ¿Qué acciones de remediación se tomaron?
4. ¿Se podría crear e implementar un modelo predictivo dentro de la biblioteca de modelos de

fallas?
5. ¿Muestran los datos una posible causa raíz que se pueda promulgar?
Analítico
Raíz
Causa
Conocimiento
Creación de modelos/
falla
Modelo Refinamiento
Diseño de Activos
Biblioteca
Revisión
Automatización Colaboración Proceso de trabajo

Redefinición
Datos RT
Actuación Raíz Activo

Diagnosticar Causa
Operador Alerta de brecha Operación
Registros
Vigilancia
Varios Historia Estrategia de activos

Profético Decisión (Prevenir
Alarma /Mitigar)
Resultados de laboratorio
Configuración de activos
Figura 10.16 Operacionalización de un modelo predictivo frente a datos en tiempo real
335
Las alarmas predictivas conducen a un proceso de toma de decisiones:
1. ¿Las operaciones de respaldo están en su lugar y listas?
2. ¿Qué actividades de remediación se recomiendan de ocasiones anteriores?
En el nivel alto, el modelo predictivo respalda las capacidades de tres categorías diferentes:
1. Automatización que respalda la vigilancia
2. Colaboración apoyando el diagnóstico y la toma de decisiones
3. Analítico: el proceso de creación e implementación de modelos predictivos
Evaluar y monitorear resultados
Es ideal para monitorear el desempeño del modelo predictivo sin tener que extraer datos, resaltando así
dinámicamente esos hallazgos basados en los KPI existentes o reglas comerciales de ingeniería establecidas
para garantizar alertas correctas.
También es importante distribuir los resultados en forma de documentos, hojas de cálculo o presentaciones
a los perfiles apropiados para garantizar una remediación efectiva y atención a cualquier alerta.
INTEGRACIÓN DE TÉCNICAS DE SOFT COMPUTING
Hasta ahora hemos discutido varias técnicas de computación blanda, como las redes neuronales artificiales
(ANN), la lógica difusa (FL) y los algoritmos genéticos (GA). De forma aislada, cada uno tiene méritos
inherentes, pero un poder combinatorio es plausible cuando se estudian las diferentes metodologías que
implementan dos o más técnicas en un solo flujo de trabajo. Resumamos tanto las fortalezas como las
debilidades propias de cada enfoque y aprovechemos esa puntuación arbitraria para definir combinaciones
efectivas (Figura 10.17).
Es evidente que ningún método de computación simple se destaca como el omnipotente para abordar
todos los problemas aguas arriba. Sin embargo, si podemos compensar la debilidad de un método aplicando
la fuerza inherente de un método alternativo, nos acercaremos más a alcanzar ese nirvana analítico. Debido
a la consiguiente complejidad resultante de la integración de estos métodos, conviene enumerar algunos
ejemplos que fructifican y actúan como coadyuvantes para formular propuestas de valor upstream.
Estudiemos dos ejemplos en el upstream en detalle.
Las metodologías matemáticas y estadísticas tradicionales son útiles cuando se dispone de

distribuciones de probabilidad o modelos altamente delineados. Las operaciones en tiempo real, como
lograr la garantía del flujo de la tubería, podrían modelarse mediante una metodología recursiva, como un
filtro de Kalman.
Tema ANA Florida Georgia
no linealidad A A A
Análisis en tiempo real B A C
Tolerancia a fallos A A A
Integración de experiencia de dominio B A D
Cuantificación de la incertidumbre A A A
Capacidad de autoaprendizaje A D B
Integración de modelos matemáticos D B D
Capacidad de optimización B D A
Facilidad para Operacionalizar A C C
Figura 10.17 Puntuación ANN, FL y GA
El primer enfoque híbrido combina una red neuronal artificial y una lógica difusa. Ambos son
estimadores esencialmente numéricos o matemáticos sin modelo.
Cuando el espacio de entrada es complejo, incierto, multivariante, multivariante y estocástico, le
corresponde al ingeniero adoptar una metodología que combine los beneficios de los algoritmos ANN y
FL. Por lo tanto, no se requiere un modelo matemático a priori para describir las relaciones entre los
espacios de entrada y salida. El sistema neurodifuso (NF) resultante se implementó para determinar el
contenido orgánico total (TOC) a partir de una serie de registros de pozos. Kamali y Mirshady5 centraron
su estudio en la cuantificación de materia orgánica debido a su importancia en el control de la generación
de hidrocarburos.
Se establecieron las siguientes reglas:
Regla 1. Si x1 es A1 y x2 es B1 , entonces la clase es 1.
La Figura 10.18 ilustra la implementación de las tres reglas antes mencionadas seguidas de tres capas
adicionales:
Capa 3. Combinación de fuerzas de disparo. Si varias reglas difusas tienen la misma clase de
consecuencia, esta capa combina sus fuerzas de disparo. Invariablemente, se implementa el
conectivo máximo.
Capa 4. Esta capa específica incluye la salida difusa de las clases. Estos valores reflejan el nivel
de coincidencia entre la entrada y la clasificación.
Capa 5. Defuzzificación que muestra la mejor clase coincidente para la entrada como clase de
salida.
Capa 1 Capa 2 Capa 3 Capa 4 Capa 5
Y Máximo
X1 A1 O
Selector
Clase 1
A2
Regla
Lingüístico Conectivos
Variables Clase Difuso
X2 Etiquetas Producción
B1
y
B2 Clase 2
Regla Producción
fuzzificación defuzzificación
Inferencia Clases
Figura 10.18 Estructura neural del sistema neurodifuso
Batyrshin, Sheremetov, Markov y Panova6 implementaron una metodología híbrida,

agregando el poder individual de un algoritmo de lógica difusa, un algoritmo genético y
enfoques matemáticos y estadísticos estándar para analizar datos de registro de pozos
en un campo en México. Los enfoques estándar utilizaron análisis de componentes
principales (PCA) para reducir la dimensionalidad del espacio de entrada seguido de una
clasificación difusa y optimización evolutiva. La función objetivo definió la estructura del
espacio de porosidad producido por las clases de porosidad primaria, cavernosa y de
microfractura. El método híbrido fue más efectivo para lograr resultados plausibles,
disminuyendo tanto la precisión requerida en los datos de registros de pozos como los
costos asociados con dicha recopilación de registros de pozos.
El estudio de segmentación de la porosidad adoptó metodologías estadísticas para
determinar el mapeo entre las rocas y el tipo de espacio poroso, asistido por clases de
porosidad difusa compuestas de varios gránulos difusos que produjeron un alcance de
clases de porosidad intersectadas potenciales en el espacio de atributos estudiados.
También se logró la clasificación de porosidad, implementando una separación de clases
por planos en espacios tridimensionales de atributos. Se utilizó un algoritmo evolutivo o
algoritmo genético para construir los planos óptimos.
La combinación PCA/análisis factorial se esforzó por alcanzar, a través de un flujo
de trabajo de análisis factorial, los componentes principales en los datos de registro y
atribuir un factor de importancia a cada componente mediante el establecimiento de
valores propios. PCA examina la variabilidad total representada por los datos de registro
de entrada y luego se define en términos de un conjunto de factores. Cada factor
representa una proporción de la variabilidad original y no se correlacionará con otros factores identificados.
Así, los componentes principales son ortogonales por naturaleza. Invariablemente, la
mayor parte de la variabilidad está descrita por menos factores principales que el número
de variables de entrada. Esencialmente, PCA se usó para encapsular y aproximar log
Figura 10.19 Datos de registro proyectados en los primeros tres componentes principales
datos con menos dimensiones, mientras que se introdujo el análisis factorial para deducir
un modelo explicativo de las correlaciones entre los datos de registro.
La figura 10.19 ilustra la transformación de los datos de registro del pozo en tres
componentes principales donde las puntuaciones de los componentes principales tienen
una varianza igual al valor propio correspondiente. La bola de arco permite una visualización
más sencilla del diagrama de dispersión girado en 3D. Se representan las tres clases de
porosidad: cavernosa, primaria y microfracturas.
La parte FL del flujo de trabajo creó funciones de pertenencia difusa que conservaron
seis características principales que abarcan los atributos principales utilizados para describir
la estructura de porosidad de los datos de registro. Al visualizar los datos obtenidos en el
espacio de los tres primeros componentes principales, vemos que las tres clases de
porosidad están parcialmente separadas y pueden considerarse como clases difusas
intersectadas entre sí.
Cada clase borrosa se consideró como una unión de tres gránulos borrosos, y los
gránulos borrosos se determinaron como resultado de la intersección de los correspondientes
funciones de pertenencia. Es fundamental adoptar una definición de clasificación sólida

como la siguiente nomenclatura:
Para cada punto x que pertenece a la clase C1 en el conjunto de datos de

entrenamiento se calculó un valor de separabilidad Q(x) . Cuanto mayor sea el
valor de Q(x), mejor será la clasificación de x. Para cada clase C1 se usó un
valor promedio de la maximización de este criterio para mostrar los parámetros
óptimos de los valores de membresía. La verdadera clasificación en el conjunto
de datos de entrenamiento fue igual a 74, 65 y 88 por ciento para la clase C1 ,
C2 y62
C3y .86
Lapor
clasificación
ciento. Laen el conjuntode
clasificación delas
datos de validación
clases fueC2
de porosidad igual a 35,
(primaria)
y C3 (microfracturas) puede considerarse adecuadamente precisa a la luz de la
alta mezcla de clases en algunas regiones del espacio de parámetros.
La clasificación difusa obtenida arroja una buena clasificación de la clase de porosidad

de las microfracturas en formaciones carbonatadas que se consideran la clase de porosidad
más influyente para la exploración de yacimientos de petróleo.
El componente GA en la metodología híbrida se implementa como un optimizador global
para crear clases de porosidad al dividir el espacio de atributos en diferentes regiones. La
investigación visual de las clases de porosidad ilustra que C1 y C2 pueden estar separados
entre sí por diferentes planos en 3D (Figura 10.20).
Figura 10.20 Visualización 3D de un diagrama de dispersión que refleja diferentes planos

El algoritmo GA se implementa para determinar los planos óptimos que separan diferentes
clases. Cada plano está definido por tres parámetros (a, b, c) y para cada miembro de la
población, representado por el triplete (a, b, c), se calcula una función F1 y F2 (asociadas a C1 ,
C3 , respectivamente). como una función de aptitud. Se seleccionaron aproximadamente 20
trillizos con la aptitud máxima como grupo élite y, posteriormente, se generó una nueva población
mediante operaciones de cruce y mutación para determinar un nuevo grupo élite. El GA demostró
ser una herramienta de optimización eficaz para determinar los límites de las diferentes clases.
Este flujo de trabajo híbrido no requiere suposiciones previas para construir un modelo a
partir de los datos duros representados por los registros de pozos. Sin embargo, como técnica
de reconocimiento de patrones, es esencial contar con un conjunto de datos de entrada de
calidad controlada que sea representativo de la complejidad dada de un yacimiento.
NOTAS
1. Kevin B. Korb y Ann E. Nicholson, Inteligencia artificial bayesiana (Boca Raton, FL: CRC Press,
2003).
2. E. De la Vega, G. Sandoval y M. García, "Integrating Data Mining and Expert Knowledge for an Artificial Lift Advisory
System", SPE 128636, Conferencia y exhibición de energía inteligente, Utrecht, Países Bajos, 2010.
3. G. Matheron, "Estimar y elegir: un ensayo sobre la probabilidad en la práctica", Presses de l'Ecole

des mines (26 de septiembre de 2013).
4. Horia Orenstein, “Increased Upstream Asset NPV with Forecasting, Prediction and Operational Plan Adaptation in Real
Time,” SPE 133450, Exposición y Conferencia Internacional del Petróleo de Abu Dhabi, Emiratos Árabes Unidos, 1 al
4 de noviembre de 2010.
5. MR Kamali y AA Mirshady, "Contenido de carbono orgánico total determinado a partir de registros de pozos utilizando
técnicas DeltaLogR y Neuro-Fuzzy", Journal of Petroleum Science and Engineering
(diciembre de 2004): 141–148.
6. I. Batyrshin, L. Sheremetov, M. Markov y A. Panova, "Método híbrido para la clasificación de estructuras de poros en
formaciones de carbonato", Journal of Petroleum Science and Engineering 47 (2005): 35–50.
Glosario
ADW
Almacén de datos analíticos personalizado para almacenar aquellos parámetros considerados
críticos para posteriores metodologías analíticas avanzadas.
ANA
En informática y campos relacionados, las redes neuronales artificiales son modelos
computacionales inspirados en los sistemas nerviosos centrales de los animales (en particular, el
cerebro) que son capaces de aprendizaje automático y reconocimiento de patrones. Por lo general,
se presentan como sistemas de "neuronas" interconectadas que pueden calcular valores a partir
de entradas alimentando información a través de la red.
ANOVA
El análisis de varianza es una colección de modelos estadísticos utilizados para analizar las
diferencias entre las medias de los grupos y sus procedimientos asociados (como la “variación”
entre grupos).
AVO
Variación en la amplitud de la reflexión sísmica con cambio en la distancia entre el punto de
disparo y el receptor que indica diferencias en la litología y el contenido de fluidos en las rocas por
encima y por debajo del reflector. El análisis AVO es una técnica mediante la cual los geofísicos
intentan determinar el espesor, la porosidad, la densidad, la velocidad, la litología y el contenido
de fluidos de las rocas.
BHA
Un conjunto de fondo de pozo es un componente de una plataforma de perforación. Es la parte inferior de la sarta de
perforación, que se extiende desde la broca hasta la tubería de perforación. El conjunto puede constar de collares de
perforación, subs como estabilizadores, escariadores, amortiguadores, abridores de agujeros y el sub de broca y la broca.
BHP
La presión, generalmente medida en libras por pulgada cuadrada (psi), en el fondo del pozo. Esta
presión se puede calcular en un pozo estático lleno de fluido con la ecuación:
BHP = MW * Profundidad * 0.052
donde BHP es la presión de fondo del pozo en libras por pulgada cuadrada, MW es el peso del
lodo en libras por galón, Depth es la verdadera profundidad vertical en pies y 0.052 es un factor de
conversión si se usan estas unidades de medida.
343
344 ÿ GLOSARIO
BI
La inteligencia empresarial es un conjunto de teorías, metodologías, arquitecturas y tecnologías
que transforman los datos sin procesar en información significativa y útil para los negocios.
propósitos de ness.
gastos de capital
Los gastos de capital son gastos que crean beneficios futuros. Se incurre en un gasto de capital
cuando una empresa gasta dinero ya sea para comprar activos fijos o para aumentar el valor de un
activo fijo existente con una vida útil que se extiende más allá del año fiscal.
CDP
En la adquisición sísmica multicanal donde los lechos no se inclinan, el punto de reflexión común
en profundidad en un reflector, o el punto medio cuando una onda viaja desde una fuente a un
reflector a un receptor. En el caso de capas planas, el punto de profundidad común está verticalmente
debajo del punto medio común.
CEP
El procesamiento de eventos es un método para rastrear y analizar (procesar) flujos de información
(datos) sobre cosas que suceden (eventos) y derivar una conclusión a partir de ellos. El procesamiento
de eventos complejos (CEP) es un procesamiento de eventos que combina datos de múltiples
fuentes para inferir eventos o patrones que sugieren eventos más complicados.
circunstancias.
CRM
La gestión de las relaciones con los clientes es un modelo para gestionar las interacciones de una
empresa con los clientes actuales y futuros. Implica el uso de tecnología para organizar, automatizar
y sincronizar ventas, marketing, servicio al cliente y servicios técnicos.
apoyo.
DCA
El análisis de la curva de declive es una determinación empírica de las curvas tipo con base en
datos históricos de producción para pronosticar el desempeño del pozo y estimar la recuperación final.
DHI
En sismología de reflexión, un punto brillante es una anomalía local de atributo sísmico de gran
amplitud que puede indicar la presencia de hidrocarburos y, por lo tanto, se conoce como indicador
directo de hidrocarburos.
QUITARSE
Los yacimientos petrolíferos digitales del futuro se definen por la forma en que la industria petrolera
implementa su tecnología, personas y procesos para respaldar la optimización de la producción de
hidrocarburos, mejorar la seguridad operativa, proteger el medio ambiente y maximizar y descubrir
reservas.
exploración y producción
Cadena de exploración y producción que cubre todos los pasos del upstream: exploración,
evaluación, desarrollo, producción e intervención.
AED
En estadística, el análisis exploratorio de datos es un enfoque para analizar conjuntos de datos
para resumir sus principales características, a menudo con métodos visuales.
GLOSARIO ÿ 345
EOR
La recuperación mejorada de petróleo es un término genérico para las técnicas para aumentar la cantidad
de petróleo crudo que se puede extraer de un campo petrolífero.
ERP
La planificación de recursos empresariales proporciona una vista integrada en tiempo real de los procesos
comerciales centrales, utilizando bases de datos comunes mantenidas por un sistema de administración de bases de datos.
ETL
En informática, extraer, transformar y cargar se refiere a un proceso en el uso de la base de datos y

especialmente en el almacenamiento de datos que: extrae datos de fuentes externas; lo transforma para
adaptarse a las necesidades operativas, que pueden incluir niveles de calidad, y lo carga en el destino final
(base de datos, más específicamente, almacén de datos operativos, data mart o almacén de datos).
EUR
Recuperación final estimada de un campo, yacimiento o pozo.
FFT
Una transformada rápida de Fourier es un algoritmo para calcular la transformada discreta de Fourier (DFT)
y la inversa. Una transformada de Fourier convierte el tiempo (o el espacio) en frecuencia y viceversa; una
FFT calcula rápidamente tales transformaciones.
Florida
La lógica difusa es una forma de lógica de muchos valores; se trata de razonamientos aproximados en
lugar de fijos y exactos. En comparación con los conjuntos binarios tradicionales (donde las variables
pueden tomar valores verdaderos o falsos), las variables de lógica difusa pueden tener un valor de verdad
que oscila entre 0 y 1.
Georgia
En el campo de la informática de la inteligencia artificial, un algoritmo genético es una búsqueda heurística

que imita el proceso de selección natural.
SIG
Un sistema de información geográfica es un sistema diseñado para capturar, almacenar, manipular,

analizar, administrar y presentar todo tipo de datos geográficos.
GOSP
La Planta de Separación de Gas-Petróleo separa el crudo de sedimentos, sólidos y arena, removiendo

gases y condensados para permitir el bombeo del crudo.
HSE
La seguridad y salud en el trabajo es un área relacionada con la protección de la seguridad, la salud y el

bienestar de las personas que trabajan o trabajan.
MDM
En los negocios, la gestión de datos maestros comprende los procesos, la gobernanza, las políticas, los
estándares y las herramientas que definen y gestionan de forma coherente los datos críticos de una
organización para proporcionar un único punto de referencia.
MPP
En computación, masivamente paralelo se refiere al uso de una gran cantidad de procesadores (o

computadoras separadas) para realizar un conjunto de cálculos coordinados en paralelo.
346 ÿ GLOSARIO
ONM
El efecto de la separación entre receptor y fuente en el tiempo de llegada de un reflejo que no se hunde.
OLAP
En informática, el procesamiento analítico en línea es un enfoque para responder rápidamente consultas
analíticas multidimensionales.
TNP
Tiempo improductivo.
OOIP
El aceite original en el lugar es el contenido total de hidrocarburos de un yacimiento de petróleo y, a menudo,
se abrevia STOOIP, que significa aceite original en el lugar del tanque de almacenamiento, o STOIIP para
aceite del tanque de almacenamiento inicialmente en el lugar, en referencia al petróleo en el lugar antes del
comienzo de la producción . .
OPEX
Un gasto operativo es un costo continuo para ejecutar una estrategia de petróleo y gas a lo largo de la
cadena de valor de exploración y producción.
OWC
El contacto con el agua es un término utilizado en la industria de los hidrocarburos para describir la
elevación por encima de la cual se pueden encontrar fluidos distintos del agua en los poros de una roca.
En la mayoría de las situaciones en la industria de hidrocarburos, el término se califica como contacto
agua-petróleo (OWC) o contacto agua-gas (GWC). A menudo también hay un contacto gas-petróleo
(GOC).
PCA
El análisis de componentes principales es un procedimiento estadístico que utiliza la transformación
ortogonal para convertir un conjunto de observaciones de variables posiblemente correlacionadas en un
conjunto de valores de variables linealmente no correlacionadas llamados componentes principales.
PDM
Abreviatura de motor de desplazamiento positivo, un motor de fondo de pozo utilizado en el campo petrolero
para impulsar la broca u otras herramientas de fondo de pozo durante la perforación direccional o
aplicaciones de perforación de alto rendimiento.
Parcela QQ
En estadística, una gráfica Q-Q (Q significa cuantil) es una gráfica de probabilidad que es un método
gráfico para comparar dos distribuciones de probabilidad trazando sus cuantiles entre sí.
SAGD
El drenaje por gravedad asistido por vapor es una tecnología mejorada de recuperación de petróleo
para producir petróleo crudo pesado y betún.
SMP
El multiprocesamiento simétrico implica una arquitectura de hardware y software de computadora
multiprocesador donde dos o más procesadores idénticos se conectan a una sola memoria principal
compartida, tienen acceso completo a todos los dispositivos de E/S y están controlados por
GLOSARIO ÿ 347
una sola instancia de sistema operativo que trata a todos los procesadores por igual, sin reservar ninguno para funciones especiales
propósitos
MOS
Un mapa autoorganizado o un mapa de características autoorganizadas (SOFM) es un tipo de red neuronal

artificial (ANN) que se entrena mediante el aprendizaje no supervisado para producir una representación discreta
de baja dimensión (típicamente, bidimensional) de la entrada. espacio de las muestras de entrenamiento,
llamado mapa.
SOR
La relación vapor-aceite es una métrica utilizada para cuantificar la eficiencia de los procesos de recuperación
de aceite en función de los tipos de inyección de vapor.
TOB
Torque en bit.
MENEO
El proceso de inyección WAG tiene como objetivo extraer más petróleo de un yacimiento. Originalmente tenía
la intención de mejorar la eficiencia de barrido durante la inundación de gas, con chorros intermitentes de agua
y gas diseñados en general para seguir la misma ruta a través del
reservorio.
WOB
El peso sobre la broca es la cantidad de fuerza hacia abajo ejercida sobre la broca y normalmente se mide en
miles de libras.
Sobre el Autor
Keith R. Holdaway es un experto en dominio upstream y desarrollador de negocios de

petróleo y gas en SAS Institute Inc., habiendo trabajado como desarrollador principal de
software. Comenzó su carrera en 1980 como geofísico, realizando procesamiento e
interpretación sísmica en Londres, Dubai, el Sultanato de Omán y Houston para varias
empresas de servicios geofísicos y operadores de petróleo y gas.
Recibió sus títulos en matemáticas y geofísica en el Reino Unido.
Holdaway también es miembro activo de la Sociedad de Geofísicos de Exploración, la
Asociación Europea de Geocientíficos e Ingenieros y la Sociedad de Ingenieros del Petróleo
(SPE). Ha escrito múltiples artículos técnicos y presenta en conferencias de la SPE.
Holdaway también es miembro de la Sociedad Geológica de Londres y miembro activo del
grupo técnico Petroleum Data Driven Analytics para la SPE.
349
Índice
numericos fase de análisis 57

Diagramas de dispersión 3D 133f, 282f, 287– anexo 227 gestión de
288, 287f, 340f evaluación 23f, 24 fase de evaluación
Comparaciones de datos sísmicos 3D 71f, 89–90 de operaciones petroleras 21
Levantamientos sísmicos 3D 63–64 arquitectura, como metodología
Gráficos de trazas en 3D 72f analítica avanzada 182–183
Levantamientos sísmicos 4D 63–64
80/20 Regla 59, 59f distribuciones areales 180
Aristóteles 9–10, 125, 126
A Arps modelo hiperbólico 235 técnica
verdades a priori 3, 226 de inyección de gas artificial 246 inteligencia
cambio abrupto 56–57 artificial (IA) 5 sistemas de elevación artificial
accesibilidad, en la gestión de datos 180 curva 246–253, 247f, 316–321
de producción aditiva 241
Modelos de yacimientos basados en IA 256–257 Red neuronal artificial (ANN) 2, 5–6, 127–128,
Albran, K. 213 128f, 165, 336–341, 337f, 343
Aminzadeh, F. 239 coincidencia de historial asistido 117,
envolvente de amplitud 66
análisis de carreras de simulación 118–120
de coincidencia histórica 117 asociaciones, como técnica de modelado
análisis de varianza (ANOVA) 343 centro descriptivo 10, 12 selección automática de
analítico de excelencia (ACE) 25, 185–188, 186f series de tiempo
almacenes de datos analíticos (ADW) 232–235
enlace promedio 87
19, 227, 343 Análisis AVO 343
metodologías analíticas 180–183 flujo de Atributos AVO 69
trabajo de simulación analítica

117–121 B
flujos de trabajo analíticos 188–192 embolsado 291

análisis análisis versus resultados Formación Bakken 254–257
pronosticados 71f, 90 ciclo de vida de 11f Barhen, J. 239

Batyrshin, I. 338
Análisis bayesiano 115, 115f
351
352 ÿ ÍNDICE
Red de creencias bayesianas (BBN) 318, 318f inteligencia de negocios (BI) 3, 37, 41,
344
umbral de comportamiento 237 Mayordomo, R. 154
realización de beneficios, en embalse
simulación 117 C
mejores prácticas brecha de capacidad, tecnológica 179–180

gestión de datos 57–62 CAPEX 344
manejo de reservorios 188–192 trayectorias profesionales 27–31
terminación no convencional 165–173 estudios de caso
Grandes datos 321–330

BHP 343 gestión de datos 55–57
Big Analytics, combinado con Big optimización del rendimiento de perforación
Datos 34f 154–173
Grandes datos análisis exploratorio de datos 296–307

alrededor de 2–3, 309–312 marco de control de calidad de datos de
análisis 52–54 producción 55–57
estudios de casos 321–330 pronóstico de producción 237–242
combinado con Big Analytics 34f optimización de la producción 246–273
sistema basado en datos 315–321 caracterización de yacimientos
análisis empresarial 17 122–138
propuestas de valor de exploración y gestión de embalses 192–212

producción (E&P) 312–315 propiedades del yacimiento definidas por
sistema experto híbrido 315–321, 317f los atributos sísmicos 90–98
simulación de yacimientos 122–138
integración de técnicas de computación razonamiento basado en casos 304

suave 336–341 transformación de nube categórica 96
geoestadística multivariante 330–332 CDP 344
flujos de trabajo 332–336, 332f tendencia central, medidas de 163

análisis bivariado 281–282 método del centroide 87
impulsar 292 análisis de datos clásico 114–115, 115f

agregación de arranque 291–292 modelos de clasificación, como predictivos
módulo de arranque 216, 216f, técnica de modelado 12
217–220, 219f, 220f tarea de clasificación, de reservorio
conjunto de orificio inferior (BHA) 343 gestión 176

diagramas de caja y bigotes 162–163, análisis de conglomerados 117, 148f
163f, 281f, 284–285, 285f, 299, 299f semillas de racimo 88
partición de similitud basada en clúster

diagramas de caja 280f (CSPA) 292
sucursal 137 agrupamiento 10, 12, 86–88, 88f,
gráficos de burbujas 289–290, 289f, 299–303, 300f, 254–255, 268, 268f
301f , 302f, 303f módulo de agrupación 216, 216f,
construir modelos 333–334 220–226, 222f, 224f
ÍNDICE ÿ 353
coeficiente de determinación (R²) 157, datos
271–272, 273 disponibilidad en la gestión de datos

colaboración y marco analítico, en la 180
gestión de datos 44–45 relacionado con la

profundidad 180 estructurado
colinealidad 164 49–50, 311 descubrimiento de patrones
enlace completo 88 ocultos en 141 no estructurado 49–50, 311
procesamiento de eventos complejos analista de datos 30–31
(CEP) 344 limpieza de datos 51, 162, 181
complejidad 310 agrupación de datos 259
perfiles de patrones de componentes 78f enriquecimiento de datos 57f, 60
inteligencia computacional (CI) 5 generación exploración de datos 333 integración
de jerarquía de conceptos 52 tabla de de datos 51, 57f, 59 gestión de
probabilidad condicional (CPT) datos (DM)
318 alrededor de 33-34
niveles de confianza 215 como analítica avanzada

análisis de datos confirmatorios 275 metodología 180–182 mejores
categorización de contenido 313–314, 324, 324f prácticas 57–62
sistema de campo petrolífero de Análisis de Big Data 52–54
levantamiento continuo por gas (CGL) 246–248, estudio de caso 55–57
247f transformada wavelet continua (CWT) repositorios de datos 45–49
propuestas de valor de exploración y
56 producción (E&P) 34–36
diagrama de contorno 283, proceso de extracción 50–52
283f fase de control 57 equipo arquitectura de cuatro niveles 41–45,
central 186 42f
correlación 12 proceso de carga 50–52
matriz de correlación 170f, 327, 327f yacimiento petrolífero 22, 23f
Cosentino, L. 90 plataforma 36–45
responsabilidades de 35
factores críticos 120–121 fuentes de datos estándar 54–55
cubo agregación 52 datos estructurados 49–50, 311

función de distribución acumulativa como principio del análisis de datos aguas
(CDF) 122, 123f arriba 18–19
atributos de curvatura 65, 65t proceso de transformación 50–52 datos

estimación de curvas 239–240 no estructurados 49–50
gestión de relaciones con los clientes mercados de datos 46
(CRM) 37, 344 minería de datos (DM)

definida 5
D metodología de
da Vinci, L. 107 reconocimiento de patrones 234f y 80–85
tablero 293–294 Definición SEMMA de 13-14
354 ÿ ÍNDICE
módulo de minería de datos 216, 216f, yacimientos petrolíferos digitales del futuro (DOFF)
226–231, 226f monitoreo de datos alrededor de 2, 25
57f, 60, 62 definido 344
DATOS= opción, trámite UCM 101 acciones integradas 185f gestión

Partición de datos 227 de yacimientos 179–185 reducción de
preparación de datos 50–52, 333 dimensionalidad 52, 86f discretización 51, 52,
perfilado de datos 57f, 58 calidad de 284
datos 57f, 58–59 reducción de datos 51 Valoración de la distancia al modelo 80, 80f
detección distribuida en el fondo del pozo (DTS)
repositorios de datos 45–49 154
fuentes de datos, estándar 54–55 optimización de perforación y terminación 23f, 24–

transformación de datos 50–52, 284 25 eficiencia de perforación 141 ingeniero de
visualización de datos 292–295 perforación 28–29 optimización de parámetros de
almacenamiento de datos perforación
37 actividades basadas en datos 178
modelado basado en datos (DDM) 4–5 151–154
sistemas basados en datos 315–321 David, optimización del rendimiento de perforación

M. 330 De la Vega, E. 318 equipos de decisión sobre 139–140, 140f estudios de casos 154–
186 173
optimización de parámetros de perforación

Árbol de decisión (DT) 12, 165 151–154
modelo de árbol de decisión 194–195, 194f propuestas de valor de exploración y producción

variable de decisión 120f análisis de curva de (E&P) 140–142 mitigación del tiempo
declinación (DCA) 117, 213–214, 238, 344 improductivo 142–151
estudio de caso de bombas eléctricas
sumergibles para aguas profundas 321–324 reconocimiento de patrones de series
proceso de desfuzzificación 127–128 temporales de perforación 161–165
Deming, WE 312 dendograma 86, 87f despliegue Modelo de ley de potencia de Duong 235, 236
de modelos 334, 336 datos relacionados con la
profundidad 180 Descartes, R. 293 tarea de mi
descripción, de gestión de yacimientos 176 estudio de caso del sistema de detección de

modelos descriptivos/exploratorios alerta temprana 304–307 80/20 Rule 59, 59f
Einstein, A. 63 técnica de bombas sumergibles
electrónicas (ESP) 246 fallas escalonadas 70
energística 54 recuperación mejorada de petróleo

(EOR) 22,
10–13
estimación determinista 215
fase de desarrollo, de las operaciones

petroleras 21 345
DHI 344 fase de mejora de las operaciones petroleras
atascamiento del diferencial 149f 21–22 grupos de conjuntos 292
estrategia de yacimientos petrolíferos digitales 34–35
ÍNDICE ÿ 355
segmentaciones de conjuntos 290–292 propuestas de valor de exploración y

análisis empresarial 17 almacén de datos producción (E&P) 276–278
empresariales 45 planificación de recursos gráficas y diagramas estadísticos
empresariales (ERP) 284–290
37, 38, 345 técnicas 7, 80, 111–113,

esencia de las cosas 9 115–116, 115f, 266, 275–276
recuperación final estimada (EUR) 345 tarea de disminución exponencial 213–214
estimación, de gestión de yacimientos 176 equipos extendidos 186
evaluación de resultados 336 procesamiento extraer, transformar y cargar (ETL) 345 proceso de
de flujo de eventos 304, 305f, 311, 312–313 extracción 50–52
evolución 9–10 algoritmo evolutivo 338 sistemas
expertos 8 análisis de exploración 22, 23f, 24 F
propuestas de valor de exploración y producción factores, ponderación 127
(E&P) Transformada Rápida de Fourier (FFT) 76, 345
Legislación federal, como metodología
analítica avanzada 182
adaptación feed-forward 157 Pocos, S.
275 segmentación de campo 268–269
Big Data 312–315 campos, división en regiones 117–118

gestión de datos 34–36 definido Nodo de filtro 227
344 optimización del rendimiento
de perforación 140–142 primeros principios 3–4

flexibilidad, en la gestión de datos 180 resultados
técnicas de análisis de datos exploratorios pronosticados, versus resultados analíticos 90
(EDA) 276–278 análisis predictivo de
datos 276–278 pronóstico de producción formular problemas 333
214–215 optimización de producción 245– Levantamientos sísmicos 4D 63–
246 caracterización de yacimientos 108–111, 64 arquitectura de cuatro niveles, de datos
gestión 41–45, 42f

109f Estadísticas F 271
gestión de yacimientos 177–179 simulación característica totalmente independiente 95

de yacimientos 108–111, 109f análisis de lógica difusa (FL) alrededor de 2
atributos sísmicos 63–64 soft computing 20–22
tendencias en 2 componentes constitucionales de
125–126
fase de exploración, de operaciones definido 345
petroleras 21 análisis de datos proceso de desfuzzificación 127–128

exploratorios (EDA) Si-entonces 127
estudios de casos 296–307 variables de entrada-salida 126–127
componentes 278–284 integración de computación blanda
visualización de datos 292–295 técnicas 336–341, 337f sistemas
definido 344 basados en reglas difusas, como técnica de
segmentaciones de conjuntos 290–292 computación blanda 7–9
356 ÿ ÍNDICE
GRAMO
agrupamiento jerárquico 86–88, 88f, 268, 268f
rayos gamma 122, 123f García, análisis de alto rendimiento
M. 318 levantamiento artificial
por gas 250 mandril de alrededor de 14-15
levantamiento artificial por gas computación grid 17–18

251–252 válvula de levantamiento análisis en base de datos 16–17
artificial por gas 253 gas por análisis en memoria 15–16
encima 321 gas por debajo 321 Transformada de Hilbert 68, 80–81, 81f, 83f
relación gas-petróleo (GOR) 267 histogramas 279, 285–286, 286f
Planta de separación de gas y petróleo (GOSP) proceso de coincidencia histórica 117,
345 contacto gas-agua (GWC) 346 Metodología
de simulación gaussiana (SGS) 97, 97f estimación 118–120
generalizada de probabilidad/incertidumbre integración/gestión holística de datos

(GLUE) 237 algoritmos genéticos (GA) 2, 7, 336– 141
341, 337f, 345 sistemas de información Gráfico T² de Hotteling 79f

geográfica (GIS) 35, 345 geólogo 28 geométrico SSMA 345
atributos 65t geofísico 27–28 visualización Huang, Z. 239

geoespacial 294 geoestadística 330–331 Huckabee, P. 257–258
geodirección 25, 153 GGRE (sistema de inteligencia artificial a nivel humano 2 sistema
gestión del subsuelo) 35 Ghosh, J. 292 Gray, J. 4 experto híbrido 315–321, 317f presión hidrostática
grid computing 17–18 (Ph) 149, 149f disminución hiperbólica 213–214
yo
Si-entonces 127
arquitectura de implementación 189–

190, 189f mejorar la fase 57
recuperación mejorada de petróleo
(IOR) 22 impureza, medidas de 164
imputación 51
H
Nodo de imputación
Haajizadeh, M. 243–244 Hafez,
228 análisis en base de datos 16–17
HH 243–244 Halbouty, MT 176
agregación de información, en gestión de
Haldorsen, HH 176–177 Umbral
datos 180 disponibilidad de información,
HardShrink 76 mapas de calor 71f,
en gestión de datos 180 estrategia de
288–289, 288f, 298, 298f patrones
gestión de información (IM) 41
ocultos, descubrimiento en datos
especialista en tecnología 30 plataforma de
información, en gestión de datos 41–44
141
algoritmo de análisis de conglomerados jerárquicos

201
ÍNDICE ÿ 357
tecnología de la información (TI) 53–54, 53f leyes de la logica 126

análisis en memoria 15–16 nivel de hojas 137
innovación, de arquitectura de implementación Lee, TB 309

189f, 190 flujo de trabajo analítico innovador Lendzionowski,V. 92
en Declaración de NIVEL 101
Levenstein, A. 139
estudio de caso de campos maduros 265–269 curva de producción lineal 241
variables de entrada-salida 126–127 proceso de carga 50–52 regresión
atributos instantáneos 65t, 66, 82f nivel de logística 12
integración, de arquitectura de implementación
189f, 190 visualización interactiva de METRO
datos, en simulación de yacimientos 117 aprendizaje automático (ML) 5

atributos de intervalo 68 gestión de Mallow's Cp 272–273 Markov,
intervención 23f, 26 ponderación de distancia M. 338 procesamiento paralelo
inversa 330 tiempo perdido invisible (ILT) 142 masivo (MPP) 16, 345
gestión de datos maestros (MDM)

definido 345
j medio ambiente 22
Coeficiente de Jaccard 200 procesos 36
técnica jackknife 133–134 Jochen, técnica de balance de materia 238
VA 217–218 Journal, A. 330 Matheron, G. 330
campo maduro 265
matriz de madurez 61f

k variante máxima 92
Kepler, J. 3 maximizar la producción en el
indicadores clave de rendimiento (KPI) 122, caso de yacimientos no convencionales
141, 267 K-Means clustering 12, 88– estudio 253–265
89, 88f K-means partitive 104 descubrimiento factores de recuperación máximos 128–138
de conocimiento en bases de datos (KDD) 5 modelo bayesiano de máxima verosimilitud
plataforma de conocimiento, en gestión de promedio 237 Maxwell, JC 3 error
datos 44 Koehler, F 68 Kohonen, T. cuadrático medio (MSE) 272, 273 energía
103 algoritmo kriging 91, 331 específica mecánica (MSE)
142
algoritmo de metaagrupamiento (MCLA)

292
metadatos 51, 311
L Minquan, J. 257–258
Lambrou, T. 161 mitigación del tiempo improductivo 142–151
Laney, D. 310 Ley
del Medio Excluido 125 Modavi, A. 243–244
358 ÿ ÍNDICE
Nodo de comparación de modelos 229 definido 346

Declaración MODELO 101–103 Metodología 148f
actividades basadas en modelos 178 Mitigación de 142–151
módulos Reducción de 141 Salida
Ver módulos específicos normal (NMO) 67, 346 Normalización 197–
Mohaghegh, S. 8, 116, 243–244 resultados 198, 198f Numerosidad Reducción 52
de monitoreo 336 Simulación Monte-Carlo
219–220,
221f, 269–270 O
diagrama de mosaico función objetiva (OF) 120 agrupamiento
281 sistemas de registro de lodo oblicuo 172f predicción de la producción
161 multicolinealidad 176 de petróleo para el estudio de caso de pozo de
perspectiva multidimensional 43, 43f, 142, 143f relleno 237–242 análisis de yacimientos
curva de producción multiplicativa 241 petrolíferos
perspectiva multivariante 42, 42f, 142 análisis gestión de evaluación de yacimientos petrolíferos 23f,
multivariante (MVA) 257–258, 282–283 24
geoestadística multivariante 330 –332 perspectiva gestión de datos de yacimientos petrolíferos 22, 23f
multivariante 43, 43f, 142, 143f análisis optimización de perforación y terminación de
estadístico multivariante 267 mutuamente yacimientos petrolíferos 23f, 24–25 análisis de
ortogonales 92 exploración de yacimientos petrolíferos 22, 23f,

24
gestión de intervención de yacimientos petrolíferos
23f, 26 pronóstico del rendimiento de yacimientos
petrolíferos 23f, 26 optimización de la producción de

norte
yacimientos petrolíferos 23f, 27 gestión de
Naive Bayes (NB) 165 yacimientos de yacimientos petrolíferos 23f,
Algoritmo del vecino más cercano 330

Neidell, N. 68
Nodo de red neuronal 229 25–26
redes neuronales 12–13, 64, 258–259, 258f contacto agua-aceite (OWC) 64, 346
sistema neurodifuso (NF) 337, 338f neuronas procesamiento analítico en línea (OLAP) 46, 346
320
gestión de ontologías 314
Newton, I. 3 Conectividad abierta (OPC) 54
nodos 121, 137, 320 inteligencia operativa, en comparación con
Ver también nodos inteligencia empresarial 41 tecnología
específicos solucionador de optimización no operativa (OT) 53–54,
lineal 249 curva de producción no lineal 241 53f
regresión no lineal y OPEX 346
transformación 266–267 región óptima de levantamiento artificial por gas
tiempo improductivo (TNP) 247f, 249 optimización de pozos de petróleo con inyección de gas
catálogo 147f estudio de caso 246–253, 247f

ÍNDICE ÿ 359
nivel de optimización, de arquitectura de alarma predictiva 334, 336 flujo de
implementación 189f, 190 coincidencia de trabajo de mantenimiento predictivo de
historial optimizado 117, 118–120 activos 306, 307f análisis predictivo
de datos sobre 276
aceite original en su lugar (OOIP) 130, 346 valores

atípicos 55–56, 162 Componentes de EDA 278–284
Propuestas de valor de exploración y producción

PAGS
(E&P) 276–278 Modelos predictivos 10–13,
Panova, A. 338 234, 335f,
gráficos de Pareto 148 336
Principio de Pareto 59, 59f Nodo de Estadísticas de PRENSA 272, 273
mínimos cuadrados parciales 229 modelo atributos previos a la pila 67
de árbol de partición 137, 137f reconocimiento Análisis de componentes principales (PCA) combinado
de patrones minería de datos y 71f, 80–85 con análisis factorial
perforación de series temporales 161– 338–339, 339f
165 personas, alineación 179 pronóstico definido 346
de rendimiento 23f, 26 brechas de maximizar los factores de recuperación con 129–
rendimiento 334 plataforma de rendimiento, 138, 132f análisis estadístico multivariado
en gestión de datos 45 calificadores de 267 para predecir las propiedades del yacimiento
rendimiento (PQ) 144 economista petrolero
30 ingeniero petrolero 30 petrofísico 28 125
Ph (presión hidrostática) 149, 149f operador de análisis de atributos sísmicos 77–80 de
cambio de fase 80 aproximación agregada por atributos sísmicos singulares 90–98, 94f, 95f
partes 85 activo de Pinedale 257–265
Nodo de componentes principales 228 espacio
de componentes principales 95 diagramas de
probabilidad 286 procesos, alineando 179
datos de producción 4 control de calidad de
datos de producción
Estándar de datos abiertos de canalización (PODS)

54 estudio de caso de marco 55–57 ingeniero
Platón 9–10 de producción 29 pronóstico de producción
parcela poligonal 281–282 alrededor de 213–214
POSC Caesar Association (PCA) 54 posiciones,
medidas de 164 motores de desplazamiento estudios de casos 237–242
positivo (PDM) proposiciones de valor de exploración y

346 producción (E&P) 214–215 estimación de
atributos posteriores a la pila 67–68 reservas no convencionales
predicción de eventos futuros con 235–237
datos en tiempo real análisis de la curva de declive basado en la web
interpretación 153–154 solución 216–235
propiedades del yacimiento 122–128 datos de la herramienta de registro de producción (PLT) 51

360 ÿ ÍNDICE
optimización de la producción Centro de operaciones en tiempo real (RTOC)

alrededor de 27, 243–245 144, 145f
en el marco analítico 23f estudio de caso de análisis de factor de
estudios de casos 246–273 recuperación 269–273
propuestas de valor de exploración y factores de recuperación, maximizando

producción (E&P) 245–246 128–138
estrategias y tácticas 71f regiones, dividiendo los campos en 117–118

fase de producción, de las operaciones modelos de regresión, como técnica de
petroleras 21 modelado predictivo 12
Datos profesionales del petróleo Nodo de regresión 229
Gestión (PPDM) 54 regresiones 121
apuntalante 278 sistema de gestión de bases de datos
apoderados 119 relacionales (DBMS) 3
Análisis P/Z 231 caracterización de yacimientos
alrededor de 68–69, 107–108
q estudios de casos 122–138
media cuadrática ciclo de 111f, 114

Ver raíz cuadrada media (RMS) propuestas de valor de exploración y
atributos cualitativos 68 producción (E&P) 108–111, 109f
cuantificación de la incertidumbre, como principio
del análisis de datos aguas arriba 18–19 análisis exploratorio de datos 111–113
SOM y análisis de conglomerados 71f
gráficos cuantil-cuantil (QQ) 122, 123f, 346 análisis de datos tradicional 114–116
Analítica de caracterización de yacimientos
atributos cuantitativos 68 Modelo 86–89
análisis basado en consultas 46 ingeniero de yacimientos 29

mapa de calor del reservorio 71f
R manejo de reservorios
R² (coeficiente de determinación) 157, sobre 23f, 25–26, 69, 175–177
271–272, 273 centro analítico de excelencia
coeficiente de correlación de rango 281 185–188
Rafael flujos de trabajo analíticos 188–192

La Escuela de Atenas 10 mejores prácticas 188–192
tasa de penetración 43 estudios de casos 192–212
tasa de análisis acumulativo 231 yacimientos petrolíferos digitales del
modelos predictivos de tasa acumulativa futuro 179–185
218 propuestas de valor de exploración y

análisis tasa-tiempo 231 producción (E&P) 177–179
modelos predictivos tasa-tiempo 218 ciclo de vida 183f
flujos de trabajo analíticos en tiempo real tareas de 175–176
183–185 flujo de trabajo de modelado de
interpretación de datos en tiempo real 153–154 yacimientos 243–245, 244f
ÍNDICE ÿ 361
propiedades del yacimiento Patrón PCA/SOM/ANN
definido por atributos sísmicos 90–98 flujo de trabajo de reconocimiento 84f
predicción 122–128 caracterización de yacimientos 68–69

simulación de yacimientos gestión de embalses 69
sobre 239 propiedades del yacimiento definidas por
estudios de casos 122–138 90–98
exploración y producción (E&P) análisis de trazas sísmicas 69–106
proposiciones de valor 108–111, 109f exploración sísmica de lapso de tiempo 64–

modelos 116–121 65
modelos sustitutos 121–122 atributos sísmicos 65–66, 65t
respuesta 12 análisis de trazas sísmicas
evaluación de riesgos, como principio del análisis de Comparaciones de datos sísmicos 3D
datos aguas arriba 18–20 89–90
presión de formación rocosa (Pf) 149, 149f alrededor de 69–70, 71f
resultados analíticos versus pronosticados

atributos sólidos como una roca 65, 65t 90
raíz cuadrada media (RMS) 66–67 estudios de caso 90–98
error cuadrático medio (RMSE) 239 minería de datos y reconocimiento
de patrones 81–85
nodo raíz del árbol 121, 137 identificación de características 71f, 85–86
análisis de causa raíz 141, 145–146 modelo analítico de caracterización de yacimientos
trama giratoria 283 86–89
Regla de inducción (RI) 165, 229 identificación de características de trazas sísmicas
Nodo Generador de reglas 228–229 85–86
Russom, págs. 33, 34–36, 46–47 análisis de una sola traza 70–81
análisis de espectro singular 99–103

S análisis sísmico no supervisado
Nodo de muestra 227 103–106
Sandoval, G. 318 seleccionar 333
Sarbanes-Oxley 35, 182 seleccionismo 7
diagramas de dispersión 129, 130f, 133f, 287–288, mapas autoorganizados (SOM)
287f, 340f 103–104, 318–321, 319f, 347
La Escuela de Atenas (Rafael) 10 datos semánticos 54–55
parcelas de puntuación 79f semivariograma 331
parcelas de pedregal 78f Proceso SEMMA 13–14, 226–231, 226f
Nodo de perfil de segmento 229
tarea de segmentación, de la gestión de análisis de sentimientos 315
yacimientos 176 secuencias, como técnica de modelado descriptivo
análisis de atributos sísmicos 10, 12

alrededor de 65–68 Serra, J. 330
propuestas de valor de exploración y producción arquitectura orientada a servicios (SOA)
(E&P) 63–64 182

362 ÿ ÍNDICE
gestión de la producción de esquisto Proceso SEMMA 13–14

188-190 técnicas de 5–9 principios de
forma, medidas de 164 datos ascendentes 18–20 análisis de
Sheremetov, L. 338 datos ascendentes 2–9 arquitectura de
Shneiderman, B. 294 algoritmos solución 146, 146f
de simulación 331 atributo de Nodo SOM/Kohonen 228
envolvente única 83f enlace único 88 distribución espacial 198

análisis de traza única sobre 70, 71f espaciotemporal 191 análisis
transformada rápida de Fourier 76 espectral 70, 72 Spivey, JP
217–218 Nodo StatExplore
228 gráficos y diagramas
Transformada de Hilbert 80–81 estadísticos caja y bigotes 162–
Análisis de componentes principales 77– 163, 163f, 281f, 284–285, 285f, 299, 299f
80
análisis espectral 70, 72 gráficas de burbujas 289–290, 289f,

análisis de series temporales 72, 299–303, 300f, 301f, 302f, 303f mapas de
74 descomposición wavelet 74–76 calor 71f , 288–289, 288f, 298,
análisis de variable única (SVA) 298f
257–258 histogramas 279, 285–286, 286f diagramas
espectro de un solo lado 76, 77f análisis de probabilidad 286 diagramas de
de espectro singular (SSA) alrededor de 98– dispersión 129, 130f, 173f, 287–288, 287f,
101 340f mapas de árboles 290, 290f, 294
análisis básico de series temporales drenaje por gravedad asistido por vapor
98 análisis del modelo de componentes
no observados 101–103 (SAGD) 154–161, 346
Declaración de PENDIENTE 102 relación vapor-aceite (SOR) 154, 155,
Smith, T. 84–85 347
computación blanda proceso de derivación 325, 325f

alrededor de 1, 178 modelo de regresión por pasos 270–271
carreras 27–31 perspectiva estocástica 44, 44f, 142, 143f
definido 5 Strehl, A. 292 modelo de declive
modelos descriptivos 10–13 exponencial estirado (SEDM) 235, 236 señal
evolución 9–10 analítica fuerte 80 datos estructurados 49–50, 311
exploración 20–22
propuestas de valor de exploración y
producción (E&P) 20–22 análisis de alto
rendimiento 14–18 integración de técnicas Véase también Big Data
336–341 análisis de yacimientos petrolíferos tubería atascada modelo 149–151, 149f,

22–27 modelos predictivos 10–13 propuestas 150f sistema de gestión del subsuelo
de valor de producción 20–22
(GGRE) 35
resumen 115
ÍNDICE ÿ 363
Control de Supervisión y Datos proceso de transformación 50–52, 284 árbol 137

Sistemas de adquisición (SCADA) 250
mapas de árboles 290, 290f, 294
Máquina de vectores de soporte (SVM) 164 análisis de superficie de tendencias
Modelos de reservorios sustitutos (SRM) 121– 330 método de prueba y error 7
122, 190–192 Nivel de vigilancia, de valor de verdad 9
arquitectura de implementación 189, 189f Tukey, JW 228, 266, 275, 293, 296,
Multiprocesamiento simétrico (SMP) 346– 333
347 Dos, M. 116, 243
tu
T procedimiento UCM 101
Taggart, IJ 239 Taner, incertidumbre, cuantificación de 19 evaluación
MT 68 análisis de de incertidumbre 237 factores de incertidumbre
texto (TA) 312, 324–330, 327–328, 328f 117, 120–121 mejores prácticas de terminación
minería de texto 315 zonas de robo 302 no convencional 165–173 estimación de
reservas no convencionales
Diagramas de dispersión 3D 133f, 282f, 287–288, 235–237
287f, 340f reservorio no convencional
Comparaciones de datos sísmicos 3D 71f, estudio de caso de caracterización

89–90 296–304
Levantamientos sísmicos 3D 63–64 análisis univariado 278–281 umbral

Gráficos de trazas en 3D universal 57
72f análisis de series de tiempo 72, 74, 98 modelo de componentes no observados

Serie temporal nodo 228 (UCM) análisis 101–103 datos no
ventanas de tiempo 198 estructurados 49–50, 311
exploración sísmica de lapso de tiempo 64–65 Véase también

Procedimiento TIMESERIES 98–99 Toomarian, NB Análisis sísmico no supervisado de Big Data
239 modelado inteligente de yacimientos de arriba 103–106
hacia abajo (TDIRM) 116 torque 43 torque on bit límite de control superior (UCL) 134, 134f análisis
(TOR) 347 contenido orgánico total (TOC) de datos aguas arriba alrededor de 2
337 relaciones de atributos de trazas 73f análisis
de conglomerados de trazas 74f comparación de Big Data 2–3
trazas 73f, 74f análisis de datos tradicional 114– modelos basados en datos 4–5
116, 115f transformación 333 primeros principios 3–4

técnicas de computación blanda 5–9 principios
de 18–20
validación de modelos 334

Nodo Transformar variables 229 Van Golf-Raachtl, T. 176–177
364 ÿ ÍNDICE
variabilidad, medidas de 163, 310 análisis de la curva de declive basado en la web
importancia variable 121 solución 216–235, 231

Nodo de selección de variables 228 Modelo de crecimiento de Weibull 134–135, 235,
Varian, Alt. 49 236
atributo de varianza 67 peso sobre barrena (WOB) 347
gráficos de varianza factores de ponderación 127
78f variedad 34, 34f, 310 Weismann, A. 7
variografía 331 control de pozo 152–153
cuantificación vectorial (VQ) 228, 320 correlaciones de pozos, en yacimiento

velocidad 34, 34f, 310 tiempo perdido visible simulación 117
(VLT) 142 volumen 34, 34f, 310 volumetría gestión de pozos 183f
238, 269–270 optimización de pozos 234f
propiedades de pozos 180
tipos de pozos 199–212 Wells,
W HG 276 White, R. 92 William,
Walden, A. 92 MA 239 Wong, PM 239 flujos
Algoritmo de Ward 87, 202 de trabajo
Warren, J. 185
contacto con el agua 346
corte de agua y distribución de fracturas en Vea la gestión de la carga de
estudio de caso de reservorios trabajo de flujos de trabajo específicos, como
carbonatados 195–212, 195f distancia capacidad de computación grid 17–

del agua 198 18
estudio de caso de optimización de inundación de

agua 192–195 Y
agua-alterna-gas (WAG) 64, 347 atributos wavelet Y variable 12

65t
descomposición wavelet 74–76, 76f Z

transformada wavelet 56 Zadeh, LA 8–9

Oil&Gas Big Data - Optimize Exploration&ProductionData Driven ModellESPA

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Oil&Gas Big Data - Optimize Exploration&ProductionData Driven ModellESPA

Cargado por

Copyright:

Formatos disponibles

Machine Translated by Google

Machine Translated by Google

Serie de negocios de Wiley & SAS

Business Analytics para Customer Intelligence por Gert Laursen

Inteligencia de Negocios Aplicada: Implementando una Información Efectiva y

Business Intelligence en la nube: Guía de implementación estratégica por Michael S.

Factores de éxito de Business Intelligence: herramientas para alinear su negocio en el mundo

Conexión de silos organizativos: llevar la gestión del flujo de conocimientos al siguiente

Scorecards de riesgo crediticio: desarrollo e implementación de puntajes crediticios inteligentes por

Optimización y reabastecimiento de inventario impulsado por la demanda: creación de una cadena

Previsión Económica y Empresarial: Análisis e Interpretación Econométrica

Heurística en análisis: una perspectiva práctica de lo que influye en nuestro análisis

Human Capital Analytics: cómo aprovechar el potencial de su organización

Implemente, mejore y amplíe su sistema de datos longitudinales en todo el estado:

Mejores prácticas de fabricación: optimización de la productividad y la calidad del producto

Dominar el flujo de conocimiento organizacional: cómo compartir el conocimiento

El nuevo conocimiento: innovación impulsada por análisis de Thornton May

Gestión del Desempeño: Integrando la Ejecución de la Estrategia, Metodologías, Riesgo y

Análisis empresarial predictivo: capacidades prospectivas para mejorar el negocio

Retail Analytics: El arma secreta por Emmett Cox

Análisis de Redes Sociales en Telecomunicaciones por Carlos Andre Reis Pinheiro

Pensamiento estadístico: mejora del rendimiento empresarial, segunda edición de Roger W.

Imagen de portada: © iStockphoto.com/aleksandarvelasevic

Límite de responsabilidad/Descargo de responsabilidad de la garantía: Si bien el editor y el autor han

Datos de catalogación en publicación de la Biblioteca del Congreso:

ISBN 9781118779316 (tapa dura)

Impreso en los Estados Unidos de América

Dedico este libro a mi paciente y amorosa

Capítulo 1 Fundamentos de Soft Computing 1

Capítulo 2 Gestión de datos 33

Capítulo 3 Análisis de atributos sísmicos 63

Capítulo 4 Caracterización y simulación de yacimientos 107

Capítulo 5 Optimización de la perforación y terminación 139

Flujo de trabajo dos: optimización de parámetros de perforación 151

Capítulo 6 Gestión de yacimientos 175

Capítulo 7 Pronóstico de la producción 213

Capítulo 8 Optimización de la producción 243

Capítulo 9 Análisis exploratorio y predictivo de datos 275

Capítulo 10 Big Data: estructurados y no estructurados 309

Sobre el autor 349

Los conceptos de computación blanda incorporan información heurística. ¿Qué significa

Hay más cosas en el cielo y en la tierra, Horacio,

2 ÿ APROVECHE BIG DATA DE PETRÓLEO Y GAS CON ANÁLISIS

PANORAMA ACTUAL EN EL ANÁLISIS DE DATOS UPSTREAM

No pretendo comenzar con preguntas precisas. No creo que se pueda empezar

Grandes datos: definición

F unda m entals of S oft C o mpu tingâ•‡ÿ 3

4 ÿ APROVECHE BIG DATA DE PETRÓLEO Y GAS CON ANALÍTICA

Modelos basados en datos

El nuevo modelo es para que los datos sean capturados

Convertir una plétora de datos preliminares sin procesar de disciplinas de ingeniería

F unda m entals of S oft C o mpu tingâ•‡ÿ 5

modelado empírico convencional para acomodar contribuciones de esferas de estudio superpuestas:4

ÿ El aprendizaje automático (ML), que se originó como un subcomponente de AI, se concentra en

ÿ La minería de datos (DM) y el descubrimiento de conocimiento en bases de datos (KDD) suelen

Presentemos algunas de las técnicas implementadas en un enfoque basado en datos.

Técnicas de computación suave

Enumeraremos algunos de los algoritmos más predominantes e importantes implementados en la cadena

Redes neuronales artificiales

6 ÿ APROVECHE BIG DATA DE PETRÓLEO Y GAS CON ANÁLISIS

la interrelación de los parámetros es demasiado complicada para el modelado matemático

Figura 1.1 Red neuronal artificial

F unda m entals of S oft C o mpu tingâ•‡ÿ 7