Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Análisis en un mundo de Big Data: la guía esencial para la ciencia de datos y sus
Aplicaciones de Bart Baesens
Una guía práctica de análisis para gobiernos: uso de Big Data para el bien por Marie Lowman
Fraude bancario: uso de la tecnología para combatir las pérdidas por Revathi
subramaniano
Análisis de Big Data: convertir Big Data en mucho dinero por Frank Ohlhorst
Entrega de Business Analytics: Directrices prácticas para las mejores prácticas por
Evan Stubbs
La guía del ejecutivo para la estrategia empresarial de redes sociales: cómo social
Las redes están transformando radicalmente su negocio por David Thomas y Mike
Barlow
Análisis de salud: Obtener información para transformar la atención médica por Jason
Burke
Killer Analytics: las 20 métricas principales que faltan en su balance general por Mark
Marrón
Aprendizaje automático para especialistas en marketing: mantenga las matemáticas por Jim Sterne
Analítica empresarial impulsada por las ganancias: una guía profesional para la transformación
Demasiado grande para ignorar: el caso comercial de Big Data por Phil Simon
Uso de Big Data Analytics: convertir Big Data en mucho dinero por
jared decano
Para obtener más información sobre cualquiera de los títulos anteriores, visite
www.wiley.com.
Machine Translated by Google
Mejorar el aceite y
Exploración de
gas con datos
Geofísica y
petrofísica
Modelos
Keith R. Holdaway
Duncan HB Irving
Machine Translated by Google
Copyright © 2018 por SAS Institute Inc. Todos los derechos reservados.
Publicado por John Wiley & Sons, Inc., Hoboken, Nueva Jersey.
Para obtener información general sobre nuestros otros productos y servicios o para obtener asistencia técnica,
comuníquese con nuestro Departamento de atención al cliente dentro de los Estados Unidos al (800)
762-2974, fuera de los Estados Unidos al (317) 572-3993 o fax (317) 572 -4002.
Wiley publica en una variedad de formatos impresos y electrónicos y por impresión bajo demanda.
Es posible que parte del material incluido con las versiones impresas estándar de este libro no se incluya en los
libros electrónicos o en la impresión bajo demanda. Si este libro hace referencia a medios como un CD o DVD
que no está incluido en la versión que compró, puede descargar este material en http://booksupport.wiley.com.
Para obtener más información sobre los productos Wiley, visite www.wiley.com.
Nombres: Holdaway, Keith R., autor. | Irving, Duncan HB, 1971– autor.
Título: Mejore la exploración de petróleo y gas con modelos geofísicos y petrofísicos basados en datos / por
Keith R. Holdaway, Duncan HB Irving.
Otros títulos: Mejore la exploración de petróleo y gas con geofísica basada en datos
y modelos petrofísicos
Descripción: Hoboken, Nueva Jersey: Wiley, 2018. | Incluye referencias bibliográficas e indice. |
10 9 8 7 6 5 4 3 2 1
Machine Translated by Google
Contenido
Prólogo XV
Prefacio XXI
Agradecimientos xxiii
ix
Machine Translated by Google
x CONTENIDO
Bosques aleatorios 59
Aumento de gradiente 60
Descenso de gradiente 60
Aprendizaje automático factorizado 62
Computación evolutiva y algoritmos genéticos 62
Inteligencia artificial: máquina y aprendizaje profundo 64
Referencias 65
Nivel 90
Ideas fundamentales 92
Ingeniería de funciones en registros de pozos 95
Hacia el aprendizaje automático 98
Casos de uso 98
Observaciones finales 99
Referencias 99
CONTENIDO xi
xii CONTENIDOS
CONTENIDO xiii
Glosario 314
Índice 323
Machine Translated by Google
Prefacio
XV
Machine Translated by Google
PRÓLOGO _
Cada vez más, me contactan clientes que buscan científicos de datos, solicitan
capacitación y buscan orientación sobre la mejor manera de implementar programas
de análisis avanzados. A menudo les indicamos el libro de Keith, entre otros
recursos en SAS y en otros lugares, para ayudarlos a validar el mejor camino a
seguir.
De ahí la génesis de este nuevo libro. El interés en su primer libro ha sido tan
constante que sus colegas le rogaron a Keith que escribiera un segundo volumen:
un texto más particular que profundice en la aplicación de enfoques basados en
datos en el sector de la exploración. Keith y su colega, el Dr. Duncan Irving, han
escrito un libro invaluable que explora las metodologías basadas en datos en las
disciplinas de geofísica y petrofísica.
ros graham,
Director, Petróleo y Gas Américas
Prefacio
LO QUE NO ES ANALÍTICA
xvii
Machine Translated by Google
xviii PRÓLOGO
Los informes son uno de los muchos resultados de los análisis y, si bien son
los más visibles, es posible que no sean los más valiosos.
Los análisis son procesos de varios pasos que transforman datos de una o
más fuentes en información que conduce a cambios en acciones y
comportamientos; y, si una organización no está dispuesta a hacer ninguna
de las dos, se debe reconsiderar la inversión en análisis. Este libro, más que
cualquier otro anterior, detalla un enfoque simple, pero sólido, para
desarrollar un plan analítico que conduzca al éxito. Aunque las metodologías
de análisis varían según la consulta, la mayoría de los procesos deben
contener al menos lo siguiente:
PRÓLOGO xix
Nathan Zenero
Presidente,
Verion Tecnologías Aplicadas
Machine Translated by Google
Prefacio
xxx
Machine Translated by Google
XXII PREFACIO
Expresiones de gratitud
XXIII
Machine Translated by Google
CAPÍTULO 1
Introducción
basado en datos
Conceptos
1
Machine Translated by Google
INTRODUCCIÓN
Enfoques actuales
2
Machine Translated by Google
sino también a través del dominio más amplio de E&P. potencialmente podemos
excluir una gran variedad de tipos de datos y restringir la innovación
metodologías debido a las pilas de hardware/software actuales
que han evolucionado simbióticamente. El panorama centrado en la aplicación socava
las soluciones de E&P que se esfuerzan por integrar conjuntos de datos
multidimensionales y multivariantes.
Sin duda hay rigor. Pero las respuestas que obtenemos dependen mucho de las
preguntas que hacemos y de la forma en que las hacemos. Además, los primeros
principios se pueden aplicar incorrectamente y el problema comercial no se resuelve
para los ingenieros que hacen las preguntas.
Entonces, no hay crisis a menos que deseemos crear una. El matrimonio entre
la interpretación determinista tradicional y el aprendizaje profundo basado en datos
y la extracción de datos es una unión que, cuando se establece sobre la base del
reconocimiento mutuo, aborda una sobreabundancia de problemas comerciales.
horizontal fi Solo pueden consumir y analizar datos para los que tienen
un filtro de entrada
Machine Translated by Google
Discutimos con mayor detalle más adelante cómo obtener datos G&G
(geológicos y geofísicos) en un formato utilizable, pero primero establezcamos la
visión de lo que podría ser plausible, y esto nos lleva al mundo de la analítica.
intentos, así como dominios donde las empresas operan con márgenes mínimos.
En el Reino Unido, en la década de 1950, Lyons Tea Company implementó lo que
ahora reconocemos como inteligencia comercial centralizada. Era una computadora
digital que realizaba análisis en toda la cadena de suministro de todo el imperio:
miles de salones de té y cientos de panaderías. Su análisis comercial creció a partir
de su capacidad para comprender y articular sus procesos comerciales con respecto
a un modelo de datos: una descripción de las relaciones entre entidades como el
cliente y los artículos de inventario. El equipo que construyó este sistema (llamado
Leo) pasó a crear plataformas similares para otras organizaciones e incluso vendió
espacio informático.
Esto presagiaba los mainframes centrales de IBM por una década, las cadenas de
suministro de Starbucks por cuatro décadas y la cooperación/competencia de
recursos informáticos iniciada por Amazon.
Esta historia está bien documentada (Ferry, G., 2010, “A Computer called LEO”) y
vale la pena tenerla en cuenta, a medida que entendemos cómo se aplica el
paradigma al dominio geocientífico.
Adelantémonos a finales de la década de 1990 y la evolución
Esto no dio a las empresas ninguna razón técnica para evitar emular el ejemplo de
Lyons de 40 años antes, y aquellos que pudieron explotar la capacidad de procesar y
asimilar sus datos para lograr un impacto comercial se adelantaron a aquellos que
demostraron no estar dispuestos o no pudieron adoptar este potencial técnico.
"Competir en análisis" de Davenport es una descripción fascinante de este período
dinámico en la historia de los negocios (Davenport, Harris, 2007).
Los datos que surgen de una transacción podrían capturarse trivialmente con
suficiente calidad y riqueza para permitir obtener información estadística, a menudo
en tiempo real, en el caso de evaluar la probabilidad de que alguien que no sea el
propietario de una tarjeta bancaria la esté utilizando en un lugar determinado. y tiempo.
El lujo económico del petróleo de $100 aisló gran parte del dominio upstream de
adoptar este tipo de integración. Con el crecimiento de la perforación estilo fábrica
para áreas productivas no convencionales, los costos de desarrollo y levantamiento
se convirtieron en un componente importante de la
Machine Translated by Google
Dado que cada silo está impulsado por sus indicadores clave de
rendimiento (KPI), a menudo pueden estar trabajando en desacuerdo
entre sí. Las capacidades de tecnología de la información (TI) y
tecnología operativa (OT) en cada dominio han impedido que los datos,
utilizados a niveles operativos y tácticos, reciban visibilidad y valor
empresarial. Por lo tanto, no existe una cultura analítica en el dominio
upstream de nuestra industria. (A menudo recurrimos a los dominios de
refinación y comercialización como faros ocasionales de buenas prácticas).
Sin una cultura basada en datos, hay una débil alineación de los
desafíos comerciales entre silos y procesos, y no ha surgido ninguna
capacidad analítica a escala empresarial. La agitación económica de la
caída de precios de 2014/15 sorprendió a la industria y puso al
descubierto su incapacidad para responder a los desafíos a esta escala,
ya que los procesos subyacentes eran muy frágiles. Sin embargo, está
surgiendo un enfoque sobre cómo el costo y el valor pueden vincularse
a procesos y actividades en escalas cada vez más granulares. Esto es
más predominante en los dominios de operaciones y producción, pero
el impacto es tangible.
El riesgo es que se repitan los mismos errores. Existe una
desconfianza cultural entre las unidades operativas de negocio y los
equipos corporativos de TI que deberían o podrían apoyarlos. Esto llevó
Machine Translated by Google
más difícil, allá arriba con los alunizajes, y requiere una gran
capacidad intelectual, así como algoritmos matemáticos muy
sofisticados para simular los procesos y la dinámica de nuestro
espacio. Los algoritmos se han vuelto tan eruditos que ahora
impulsan flujos de trabajo de estufa y es muy difícil poner en
juego el contexto y los conocimientos de otros dominios.
fi La analítica en petróleo y gas ha visto una tasa de adopción lenta a medida que
el software analítico y estadístico ha encontrado mercados más propicios.
Muchas verticales comerciales adoptan estándares de datos más consistentes
y los problemas comerciales parecen más fáciles de resolver con resultados
más tangibles y cuantificables. Los obstáculos clave que encontraron los
autores en su implementación de análisis han sido aplicar análisis a series de
tiempo y desarrollar estrategias para superar la escasez de datos en una
dimensión u otra. También existen importantes desafíos computacionales en
la conducción de análisis con datos ascendentes.
Por lo tanto, un equipo que trabajará en proyectos basados en datos necesita una
combinación de geociencias, ciencias físicas, matemáticas, estadísticas e informática
respaldada por una arquitectura de datos. A través de la experiencia, ha quedado
claro que una formación en ciencias físicas y un promedio de varios años de
experiencia en la industria es un requisito previo para la entrega, a menos que un
equipo esté feliz de que las personas aprendan en el trabajo. Esta combinación de
habilidades y experiencia es el ingrediente clave necesario para realizar la ciencia de
datos, y es muy probable que un científico de datos aguas arriba posea la mayoría de
estas habilidades.
1. Aprenda algo nuevo de sus activos de datos: ¿Hay algún patrón, tendencia
o relación en sus datos que le indique algo que nadie haya visto antes?
3. Documente todo: lo más probable es que esta no sea la última vez que
haga esto. Registre código, métodos, problemas, cifras e informes.
fi Trabajo de anteproyecto:
analíticos.
ÿ Documentación continua.
ÿ Revisión:
Una vez que se ha definido el estudio y se han cargado y entendido los datos,
puede comenzar el trabajo analítico. Una comprensión compartida de las posibles
preguntas comerciales en todo el equipo que realiza el análisis y cualquier parte
interesada es vital, incluso si es simplemente "¿Qué hay en mis datos petrofísicos que
no he detectado cuando se ven a escala de cuenca?" Es probable que las herramientas
analíticas se acuerden en esta etapa, y se debe desarrollar una comprensión de la
forma y el tamaño de cada uno de los pasos.
documentación debe ser una actividad de fondo. Hay varias herramientas disponibles
que permiten almacenar y compartir código en repositorios en línea (públicos o
privados, por ejemplo, Github). Hay plataformas simples y un servicio que los equipos
pueden usar para documentar su trabajo (p. ej., Júpiter,
Machine Translated by Google
colocados en alguna estructura que permita el análisis. Esto podría ser una
tabla en una base de datos, un marco de datos en R o Python, o alguna
estructura personalizada en cualquiera de las muchas plataformas de
procesamiento de números de big data. El esfuerzo se ha gastado sin ningún valor que mostrar.
Antes de gastar energía, piense en el futuro y considere lo que podría
suceder si los conocimientos de su análisis basado en datos se consideran
valiosos. Se le pedirá que lo repita con un conjunto de datos más grande,
algoritmos más sofisticados, combinado con otros tipos de datos y más. ¿Tendrá
que repetir todos los pasos y hacer el mismo esfuerzo, o puede repetir, reutilizar,
escalar y ampliar? sus esfuerzos con facilidad? Si respondemos negativamente,
entonces debe considerar su enfoque de la ingeniería de datos.
El primer paso práctico es hacerse con los datos. A menudo, este es un desafío
tanto político como práctico. Se debe ganar la confianza, generalmente con la
promesa de una participación en el proyecto.
Machine Translated by Google
Los metadatos son una necesidad en el mundo de los datos del subsuelo. Es el
ancla para todas esas medidas e interpretaciones físicas.
Como geocientíficos, nos gusta pensar que sabemos exactamente cuándo y
dónde se realizaron todas nuestras costosas mediciones. En el mundo real, es
habitual escuchar anécdotas sobre la pérdida de la línea base geodésica y el
elipsoide de referencia cuando un sistema se migra de una base de datos a otra
como parte de una actualización tecnológica o cuando otra organización lo
adquiere.
Afortunadamente, nuestros administradores de datos del subsuelo son
personas inteligentes, incluso si los sistemas que deben usar no lo son, y sus
comités técnicos crearon formatos de intercambio de datos para varios tipos de
datos que han resistido la prueba de varias décadas (algo que casi todos los
demás formatos de archivo tienen). no pudo hacer!). Todos los conjuntos de
datos sísmicos, de pozos y de producción contienen datos que le indican al
usuario (en texto legible por humanos) cómo desempaquetar los datos y qué necesita cada uno
Machine Translated by Google
Tipos de datos
Datos cronológicos
Más allá de las mediciones de un solo punto, las series de tiempo son
los tipos de datos más simples. Por lo general, son mediciones de la
misma propiedad en el mismo lugar, idealmente a intervalos regulares.
Si el intervalo es irregular, entonces alguna interpolación y remuestreo
Machine Translated by Google
Consideremos el caso más simple más de cerca. Imagine que tenemos un solo
sensor tomando una medida a intervalos frecuentes y regulares (un segundo, por el
bien de este ejemplo).
Supongamos que medimos una propiedad que cambia rápidamente
Machine Translated by Google
Para series de tiempo precisas, puede ser necesario volver a muestrear a una
marca de tiempo estándar para el análisis o, mejor, usar una base de datos de series de
tiempo. Esta es una clase emergente de bases de datos que permite extraer y comparar
rangos de datos históricos incluso cuando los eventos no se encuentran en marcas de
tiempo exactas. Hasta hace poco, esto no se incorporó a las principales bases de datos,
pero el surgimiento de la agenda de Internet de las cosas (IOT) y su equivalente industrial
han visto una inversión considerable en capacidades analíticas basadas en el tiempo.
Para los datos 1D que resultan ser una serie temporal discreta (rastros sísmicos y
registros de pozos), todavía hay que tomar decisiones sobre cómo acceder a los datos
en la serie temporal. Sin embargo, esto debe equilibrarse con la forma en que se indexa
cada medición. Agregar índices adicionales para este, norte, tiempo de adquisición (o
identificador de levantamiento para sísmica 4D), nombre de parámetro (para registros
de pozos) y compensación (para sísmica previa al apilamiento) requiere almacenamiento
adicional. Dichas necesidades de almacenamiento deben justificarse en cuanto al valor
de proporcionar tantas formas de acceder a los datos para un análisis instantáneo.
Datos espaciales
Datos textuales
convirtiéndose en una propiedad o atributo para brindar contexto sobre una ubicación,
área, evento, período, etc. Mantenga este pensamiento a medida que avanzamos en
la ingeniería de características.
Pedimos disculpas por el encabezado irónico, ya que la perfección es algo que vemos
muy lejos al momento de escribir, y algo que esperamos ver que cambie en nuestro
mundo de las geociencias muy pronto. Esperamos que el siguiente razonamiento,
basado en muchos proyectos analíticos ejecutados por los autores, muestre el valor de
hacer que el flujo de trabajo de preparación de datos sea lo más sólido posible antes de
embarcarse en lo que puede parecerle a una parte interesada comercial como la
actividad de análisis de alto valor. Nuestra experiencia da lugar a un enfoque cauteloso
y mesurado.
Perfilado de datos
Ingeniería de funciones
igualmente útil, si no más, para presentar los datos sin procesar en una forma
accesible y bien seleccionada. También debemos mantener los datos de perfil y las
características clave de los datos junto con ellos. Son las características las que
proporcionan los ganchos analíticos: "¿Dónde escucho esta secuencia de notas?"
se convierte en "¿Dónde veo estas facies?"
información sobre los datos, entonces hay una probabilidad mucho mayor de
ejecutar flujos de trabajo de ML exitosos en los datos a escala en lugar de desarrollar
una arquitectura para la extracción de datos, procesamiento estadístico y flujos de
trabajo de ML de datos granulares a escala.
Debería convertirse en la norma para la reducción de dimensiones y
Aldea
El objetivo detrás del aprendizaje profundo (DL) es sin duda la forma de arte
que es la inducción. ¿Cómo se diferencia de
¿deducción?
fi Inducción: el camino cerebral desde las minucias fácticas hasta los principios
generales.
Las actividades de exploración y producción de petróleo y gas se encuentran en una intersección. Hay
REFERENCIAS
Abdul-Rahman, Alias y Morakot Pilouk, Modelado de datos espaciales para SIG 3D (2008).
DOI: 10.1007/978-3-540-74167-1.
Amir, Alexander, "Infinitesimal: How a Dangerous Mathematical Theory, Shaped the
Modern World", Scientific American/Farrar, Straus & Giroux (abril de 2014).
Davenport, TH, Harris, JG, Compitiendo en análisis: la nueva ciencia de ganar, 2007.
Ferry, G., Una computadora llamada LEO: las tiendas de té de Lyon y la primera oficina del mundo
Informática, 2010.
Machine Translated by Google
CAPÍTULO
2
Basado en datos
Analítico
Métodos utilizados
en exploración y producción
34
Machine Translated by Google
INTRODUCCIÓN
35
Machine Translated by Google
Estadísticas Computacional
Patrón
neurociencia
Reconocimiento
Datos
Ciencias
Máquina
Procesamiento de datos AI
Aprendizaje
bases de datos
KDD
impredecible para cualquier modelo que ingiera solo esas entradas. La variación
es el ruido.
que los valores objetivo se predigan con precisión, la distribución del ruido se
Sinónimo: error
fi Señal: Las variables objetivo a veces tienen una variación predecible, y esto se
llama señal. A menudo se supone que los valores objetivo son la suma de la
salidas.
fi Nivel de medida: una de las varias formas en que las propiedades de los
números pueden reflejar los atributos de las cosas.
Los niveles de medición estándar son nominal, ordinal, de intervalo, de
intervalo logarítmico, de razón y absoluto. ÿ Variable nominal: una
ÿ Variable binaria: una variable binaria tiene solo dos valores distintos. Una
variable binaria puede tratarse legítimamente como nominal, ordinal, de
intervalo o, a veces, de relación.
Árboles de decisión
Una ventaja del árbol de decisión sobre otras técnicas de modelado, como la
red neuronal, es que produce una salida que describe el modelo de puntuación con
reglas interpretables. Otra ventaja del árbol de decisión es el tratamiento de los
datos faltantes. La búsqueda de una regla de división utiliza los valores faltantes de
una observación de entrada. Las reglas sustitutas están disponibles como respaldo
cuando faltan datos que impiden la aplicación de una regla de división.
Regresión
La regresión se usa para ajustar los modelos de regresión lineal y
logística a un conjunto de datos predecesor. La regresión lineal se
esfuerza por predecir el valor de un objetivo de intervalo como una
función lineal de una o más entradas independientes. Sin embargo, el
método de regresión logística predice la probabilidad de que una variable
dependiente ordinal o binaria alcance el evento en estudio en función de
una o más entradas independientes.
También puede usar una red neuronal para construir modelos de
regresión. En este caso, debe configurar la red para tener conexiones
directas entre las unidades de entrada y las unidades de salida sin incluir
unidades ocultas. Las conexiones directas definen capas lineales,
mientras que las neuronas ocultas definen capas no lineales. La red
neuronal admite más funciones de enlace (como identidad, logit, log,
raíz cuadrada y recíproco) y más funciones de error (como normal,
Poisson y gamma) que la regresión. Las redes neuronales también
tienen capacidades de estimación sólidas (como Cauchy, logística y
Huber).
La regresión utiliza una función de vínculo de identidad y una
función de error de distribución normal para la regresión lineal. La
regresión utiliza una función de error de distribución logit, log-log
complementaria o binomial para un análisis de regresión logística. Una
desventaja de usar la red neuronal para un análisis de regresión es que
no proporciona valores p para probar la importancia de las estimaciones
de los parámetros.
Tareas de clasificación
ología
Teorema de Bayes
Análisis discriminante
1. Lineal: asume que las matrices de covarianza dentro del grupo son
iguales. Se espera que las medias de las covariables para los grupos
definidos por X difieran.
2. Cuadrática: asume que las matrices de covarianza difieren dentro del
grupo. Un método cuadrático estima valores basados en más parámetros
que un método lineal. Los tamaños de muestra de grupos pequeños
tienden a generar estimaciones inestables para el ajuste cuadrático.
Regresión logística
Las máquinas supervectoriales (SVM) utilizan condiciones lineales para aislar las
clases entre sí. La metodología conocida como SVM ejecuta una clasificación
lineal binaria así como una clasificación no lineal. Utiliza un mapeo de los datos
geofísicos y petrofísicos de entrada en un espacio de características de alta
dimensión.
Podemos mapear filas de datos como puntos en un hiperplano o incluso un
conjunto de hiperplanos en un espacio de entrada multidimensional. Cuando
intentamos resolver flujos de trabajo basados en datos con datos geofísicos y
petrofísicos, encontramos que el espacio de información es invariablemente
multidimensional y multivariado. El proceso de mapeo nos permite distinguir las
categorías separadas por la mayor distancia o margen funcional. A medida que
introducimos nuevos puntos de datos en el flujo de trabajo de SVM, el algoritmo
mapea estos puntos en el mismo espacio. El componente predictivo luego asocia
las nuevas observaciones a una categoría que refleja el lado del margen más
apropiado.
Metodología de conjunto
La metodología de conjunto genera modelos uniendo las probabilidades
posteriores o los valores pronosticados de múltiples modelos precursores. El
modelo de conjunto se utiliza para puntuar nuevos datos.
El flujo de trabajo de conjuntos admite opciones de procesamiento de grupos de
indexación, estratificación (bucle sobre variables), validación cruzada, apilamiento,
embolsado y potenciación.
El enfoque de agregación de embolsado disminuye las posibilidades de
sobreajustar un modelo. El proceso, también conocido como arranque, promedia
los modelos bajo consideración mediante la creación de más conjuntos de datos
de aprendizaje del mismo tamaño en varias combinaciones, desarrollados a partir
del conjunto de datos de entrada original. La metodología bagging o bootstrapping
determina la probabilidad
Machine Translated by Google
4. Preparar a un alumno en un nivel más alto y más sólido con las predicciones
calculadas de las fases anteriores y con las respuestas precisas como
resultados.
Luego podemos estimar k modelos, donde cada modelo se genera con los datos
que son residuales, después de un solo pliegue de los datos existentes. Esto nos
permite puntuar el pliegue excluido al estimarlo. El modelo de conjunto final
caracteriza un proceso de promediación de todos los k modelos bajo estudio tanto
desde una perspectiva predictiva como desde una perspectiva evaluada
estadísticamente.
El enfoque de validación cruzada es propicio para estudios poblados por pequeños
conjuntos de datos, pero el inconveniente es probablemente la debilidad del modelo
de conjunto para la generalidad.
Un método de conjunto es agregar varios métodos de modelado, como un
árbol de decisión y una red neuronal artificial, para obtener modelos separados del
mismo conjunto de datos de entrenamiento.
Los modelos de componentes de los dos métodos de modelado complementarios
se integran en un modelo de conjunto para formar la solución final, como se muestra
en la Figura 2.2.
Un modelo de conjunto es más preciso que el constituyente.
Modelado Modelo
Método A A
Conjunto
Capacitación Puntaje
Datos Modelo Datos
Modelado Modelo
Método B B
unidades de
Cada unidad produce un único valor calculado. Para las unidades ocultas y de
entrada, este valor calculado se transmite a lo largo de las conexiones a otras
unidades ocultas o de salida. Para las unidades de salida, el valor estimado es lo
que los estadísticos llaman valor predicho.
El valor predicho se compara con el valor objetivo para calcular la función de error,
que los métodos de entrenamiento intentan minimizar.
Funciones combinadas
Las unidades ocultas y de salida usan dos funciones para producir sus valores
calculados. Primero, todos los valores calculados de las unidades anteriores que
alimentan la unidad dada se combinan en un solo valor usando una función de
combinación. La función de combinación utiliza los pesos, el sesgo y la altitud.
Funciones de activación
Capas de red
Una red puede contener muchas unidades, tal vez varios cientos.
Las unidades se agrupan en capas para facilitar su gestión. Invariablemente hay
una capa de entrada, una capa oculta y múltiples capas de salida. En la red
neuronal, cuando conecta dos capas, cada unidad de la primera capa está
conectada a cada unidad de la segunda capa.
La red neuronal más simple tiene una sola unidad de entrada (variable independiente),
un solo objetivo (variable dependiente) y una sola unidad de salida (valores predichos),
como se muestra en la figura 2.3.
La barra dentro del cuadro representa una función de activación de salida lineal
(o de identidad). En términos estadísticos, esta red es un modelo de regresión lineal
simple. Si la función de activación de salida fuera una función logística, entonces esta
red sería un modelo de regresión logística.
Cuando se aplica una red neuronal a los datos sísmicos para identificar las
propiedades del yacimiento, debemos ser conscientes de dos pasos críticos que son
trampas potenciales:
1. Paso de selección
2. Paso de aprendizaje
de entrenamiento incongruente
Red neuronal
Nomenclatura Aporte Producción Objetivo
perceptrones
Como ejemplo, un perceptrón podría tener dos entradas y una sola salida, como
se muestra en la Figura 2.4.
Machine Translated by Google
Red neuronal
Nomenclatura Aporte Producción Objetivo
Capas ocultas
Capa oculta
Red neuronal
Nomenclatura Aporte Producción Objetivo
Un perceptrón multicapa:
poner capas
Funciones de error
ÿ Distribución de Bernoulli: adecuada para un objetivo que solo toma los valores cero
y uno. Igual que una distribución binomial
con un ensayo.
Bosques aleatorios
Un bosque aleatorio recopila un grupo de árboles de decisión, cada uno de los cuales
representa un subconjunto asociado aleatoriamente de los datos originales y luego
determina un resultado predictivo a partir de la metodología del conjunto. Muy a menudo
podemos presenciar el sobreajuste en los árboles de decisión individuales, pero el bosque
aleatorio reduce drásticamente el comportamiento deficiente del modelo. ¿Cuántos
árboles hacen un bosque? En el mundo de la geofísica y la petrofísica de conjuntos de
datos de alta dimensión, podríamos agregar cientos de árboles de decisión.
Todos los árboles de decisión dentro del bosque aleatorio usan diversos
conjuntos de datos, cada uno de los cuales es un subconjunto del conjunto de datos original.
1. Divida las filas que contienen las observaciones para formar conjuntos de datos
de entrenamiento.
Aumento de gradiente
Descenso de gradiente
los valores mínimos de una función se pueden lograr de varias maneras. Una
de las formas más eficientes, si hay pocas variables predictoras, es emplear
el cálculo diferencial. Esto aborda el problema desde una perspectiva lógica.
Considere la función:
f(x) = x4 ÿ 5x2 + 17
yÿ = METRO × X + C . . . Ecuación 1
2500
2000
1500
1000
500
Ecuaciones 2 y 3.
selección. ¿O fue Alfred Russel Wallace? Los algoritmos genéticos (AG) son un
elemento fundamental del enfoque EC. Se entiende que la mayoría de las
aplicaciones de GA hasta ahora están diseñadas para realizar una rutina de
optimización esencial para los motores de búsqueda. EC y GA se utilizaron por
primera vez en el cuidado de la salud y la epidemiología. Existe una rápida adopción
del aprendizaje automático (ML) y los flujos de trabajo de aprendizaje profundo (DL)
asociados en múltiples escuelas de ingeniería que adoptan tecnologías informáticas
blandas y basadas en datos. Esto ha aumentado el interés reciente en la aplicación
de AG, particularmente en los yacimientos no convencionales en los Estados
Unidos. ¿Por qué? Hay mucha incertidumbre y malentendidos en los parámetros
operativos utilizados para explotar estos recursos. Esto se debe principalmente a la
complejidad del entorno geológico donde los campos de tensión sutiles y la
geomecánica diluyen la fuerza de la interpretación tradicional de los yacimientos
convencionales.
ÿ Selección
ÿ Mutación
ÿ Reproducción
REFERENCIAS
CAPÍTULO 3
Avanzado
Geofísica y
petrofísica
Metodologías
68
Machine Translated by Google
INTRODUCCIÓN
69
Machine Translated by Google
¿Cuántos clústeres?
¿Cómo determinamos el número de conglomerados apropiados para el
estudio? Esta es una pregunta que no tiene un resultado determinista,
independientemente del análisis de conglomerados implementado (Everitt,
1979; Hartigan, JA, 1985; Bock, 1985). La mera adopción del análisis de
conglomerados consiste esencialmente en resumir los datos sísmicos sin
ningún método para clasificar los atributos en conglomerados significativos.
Invariablemente, es suficiente anotar el R-cuadrado para cada atributo y
generar gráficos de R-cuadrado contra el número de conglomerados.
Cuando se cuestiona la validez y el rigor de las varianzas entre los
conglomerados, no es inusual adoptar pruebas de significación ordinarias,
como las pruebas F de análisis de varianza . Sin embargo, a medida que
nos esforzamos por explotar las características de separación de los grupos,
cualquier norma de las pruebas de significación, ya sean paramétricas o no
paramétricas, se ve radicalmente alterada. Consideremos una población de
unas 100 observaciones distintas de nuestro conjunto de datos de atributos
sísmicos y supongamos una distribución normal univariada.
Generando solo dos grupos, notaríamos un valor p de menos de 0.0001.
Por lo tanto, los métodos que prueban los conglomerados contra la hipótesis
nula, estipulando que los conglomerados son objetos asignados
aleatoriamente (como McClain y Rao, 1975; Klastorin, 1983), son
inadecuados.
La mayoría de las pruebas prácticas para conglomerados tienen
distribuciones de muestreo inflexibles y comprenden hipótesis nulas para
las cuales el rechazo es vago. Al clasificar los atributos sísmicos, es mejor
adoptar metodologías de agrupamiento basadas en matrices de distancia.
Una hipótesis nula favorita establece que todas las permutaciones de los valores en el
Machine Translated by Google
Estudio de caso: Sinopsis del embalse maduro del Mar del Norte
ÿ Despliegue temporal, campo en alta mar: Los sismómetros del fondo del océano
se despliegan desde barcos o ROV y escuchan continuamente durante semanas
o meses. El costo del equipo y las restricciones operativas significan que solo se
pueden realizar levantamientos localizados en unos pocos kilómetros cuadrados.
Las áreas más grandes dan como resultado una cobertura más escasa. ÿ
Despliegue permanente, campo marino: Con la llegada del monitoreo permanente
hace que escuchar los sonidos del movimiento de fluidos y las actividades de
perforación sea una realidad.
Machine Translated by Google
Esto se puede ver como una versión en tiempo real de los conceptos
presentados anteriormente. Las técnicas estadísticas se pueden utilizar para
identificar eventos de una manera cruda pero efectiva. Para un búfer de, por
ejemplo, 10 segundos de datos, el búfer de 10 segundos se muestreará cada
2 ms, por lo que cada búfer contendrá 5000 muestras. Cuatro canales (y, por
lo tanto, cuatro búferes) por receptor, en una matriz de miles de receptores,
presenta un problema de procesamiento formidable si buscamos patrones en
toda la matriz a lo largo del tiempo. Para cada canal, la media, la mediana y el
rango se calcularán continuamente en el búfer. A medida que crece la
familiaridad con la demografía de los datos, evolucionará una caracterización
significativa de los eventos en términos de métricas como umbrales de rango
o la medida en que un valor es una anomalía. Si nuestra ventana de interés
es de cinco segundos para una matriz de unos pocos kilómetros de ancho,
entonces podemos permitirnos enviar más datos a nuestra ventana cada
segundo. Por lo tanto, buscamos constantemente 2,5 segundos antes y
después de la ventana de interés de 5 segundos, y es posible que deseemos
actualizar esto cada pocos segundos con un nuevo fragmento de 10 segundos.
El carácter de los datos se ilustra en la figura 3.1.
40
20
0
–20
–40
–60
0 20 40 60 80
frecuencia, Hz
Figura 3.1 Una ventana espectral típica de 4500 muestras de un canal de un solo
componente de datos sísmicos pasivos que duran 9 segundos de un arreglo sísmico del
perforaciones cercanas.
Si es tan fácil trabajar con datos petrofísicos y tienen un papel tan importante
en la cadena de valor upstream, ¿por qué no se utilizan en un modelo más basado
en datos? Hay tres obstáculos
saltar:
de registros, su movimiento brusco (es decir, la tasa de tracción) durante la adquisición de registros y
describir las rocas que se están perforando, los fluidos incluidos en los espacios
porosos de la roca, el estado del pozo y la presencia e influencia en el ambiente
del pozo de los materiales utilizados
en, o creado por, la perforación.
Para el petrofísico y el geólogo, esto será una segunda naturaleza. Para el
científico de datos que se encuentra con datos de registro de pozos por primera
vez, vale la pena recorrer esta área lentamente con su experto en la materia y
comprender las etapas en la madurez de los registros de pozos. Las medidas
sin procesar, una vez limpiadas y corregidas, se convierten en interpretaciones
de propiedades físicas y mecánicas.
Información estratigráfica
Armado con algunos datos de registro de pozos pivote, agrupados por pozo
y parámetro y ordenados por profundidad, el siguiente paso podría ser
proporcionar algún contexto geológico. Uno de los esfuerzos más antiguos
de los geólogos ha sido nombrar las capas de roca con niveles de detalle
cada vez más finos, desde unidades de roca de muchos kilómetros de
espesor hasta capas individuales u horizontes de unos pocos milímetros.
Este tipo de observaciones se relacionan con un evento geológico, como
una erupción volcánica o la desecación de un lago, o por el contrario, una
inundación. Sobreimpresos en el registro de sedimentación y erosión de
rocas hay movimientos físicos que pueden fracturar y fallar rocas
quebradizas si las tensiones son suficientes. Las rocas podrían plegarse
si es más dúctil. Las reacciones geoquímicas modificarán las rocas a
medida que su profundidad las exponga a cambios en sus temperaturas y
presiones de confinamiento.
Esto se está desviando hacia el territorio de los dominios geológicos y
requiere un curso de grado para hacerle justicia. Estas simples observaciones
deberían proporcionar un contexto de alto nivel para el científico de datos
que está tratando desesperadamente de dar sentido a un dominio científico
completamente nuevo, y actuar como un punto de partida para obtener una
experiencia de dominio más profunda de un petrofísico.
Machine Translated by Google
Información fundamental
2000
1000
500
200
100
50
20
10
0.5
0.2
0.1
0.05
0.02
5 10 20 50 100 200 500 1000 2000 5000 10000
Promedio (registro (impedancia elástica))
Figura 3.3 Un estudio estadístico de datos de registros de pozos indica que la impedancia elástica al
La inspección de los datos reveló que había persistido un prefijo mili en algunos pozos.
Este es un problema de gobernanza de datos que debe abordarse antes de que los datos puedan usarse
para el análisis.
Sin ataduras por valores atípicos, entonces vale la pena investigar los grados de
libertad en los datos en busca de tendencias que puedan estar dentro.
Las relaciones elementales entre la profundidad de enterramiento y los parámetros
elásticos deberían ser evidentes, y la eliminación de la tendencia de la profundidad
es un paso relativamente sencillo. Pueden existir tendencias en otras dimensiones
y, libres de las restricciones espaciales que se aplican en la mayoría de los
paquetes de software de modelado del subsuelo, los patrones en, por ejemplo,
Machine Translated by Google
0.28
0.26
0.24
0.22
0.20
0.18
0.16
0.14
0.12
0.10
0.08
0.06
0.04
0.02
0.00
extremo más simple del espectro, esto podría estar en la línea de buscar
picos térmicos en los registros de temperatura. Rahman (2015) utilizó el
analizador agregado simbólico (SAX), que mapea los valores numéricos en
un conjunto de contenedores derivados estadísticamente.
Al decidirse por un puñado (5–7 funcionaron de manera óptima) de
contenedores, Rahman asignó un carácter (p. ej., a–e) a los valores de
temperatura reorganizados. Luego utilizó el análisis básico de expresiones
regulares, disponible en la mayoría de los idiomas (script de Unix Shell,
Python, etc.), para detectar tales características en cientos de pozos en cuestión de segund
Sobre la base de los conceptos de ingeniería de características
presentados en el Capítulo 1, existe una amplia gama de propiedades que
se pueden utilizar en los datos petrofísicos. Antes de realizar una regresión
o reducción de dimensión en un conjunto de curvas de registro para evaluar
la similitud general entre los pozos, puede ser útil buscar un patrón en un
registro. Puede ser que algunas facies sean una zona productiva y la simple
pregunta geológica sea: "Muéstrame algo como esto en otros registros". La
variabilidad en la mayoría de las curvas logarítmicas requiere enfoques como
las transformaciones wavelet o shapelet. Estos métodos capturan las
características clave, como picos, valles, tamaños relativos y posiciones, y
permiten encapsularlos como una plantilla que luego se puede ofrecer en un
conjunto de datos más amplio para comparar y clasificar candidatos similares.
Rahman (2015) utilizó una transformada de ondículas para igualar las
propiedades de las ondículas de las unidades sedimentarias intercaladas y
compararlas con las interpretaciones geológicas de cada pozo para identificar
diferentes interpretaciones. El enfoque arrojó ideas poderosas y racionalizó
un modelo sedimentario complejo para el desarrollo de la cuenca. En la
Figura 3.5 se ilustra un ejemplo de características definidas en un pozo y
encontradas mediante técnicas de wavelet.
Casos de uso
Los casos de uso para estudios basados en datos en el dominio petrofísico son
pocos. Anticipamos una explosión masiva en el uso de técnicas analíticas y de
ciencia de datos. Hemos demostrado enfoques simples para evaluar la calidad
de los datos y creemos que será una actividad vital y complementaria para la
comunidad actual de gestión de datos.
Observaciones finales
REFERENCIAS
Hall, Matt y Brendon Hall, "Predicción colaborativa distribuida: resultados del concurso de
aprendizaje automático", Leading Edge, 36, no. 3 (2017): 267–269. DOI: 10.1190/
tle36030267.1.
Hartigan, JA, "Distribuciones asintóticas para criterios de agrupación",
Annals of Statistics, 6 (1978): 117–131.
Hartigan, JA, "Teoría estadística en agrupamiento", Journal of Classifica
ción, 2 (1985): 63–76.
Holdaway, KR, L. Fabbi y D. Lozie, “Unconventional Data-Driven Methodologies Forecast
Performance in Unconventional Oil and Gas Reservoirs”, artículo 1910-2015,
presentado en el Foro Global SAS 2015, Dallas.
CAPÍTULO 4
Continuo
Vigilancia
102
Machine Translated by Google
“Alice se rió: 'No sirve de nada intentarlo', dijo; 'uno no puede creer
cosas imposibles'”.
“Me atrevo a decir que no has tenido mucha práctica,” dijo la Reina.
“Cuando era más joven, siempre lo hacía durante media hora al día.
Vaya, a veces he creído hasta seis cosas imposibles antes del
desayuno.
INTRODUCCIÓN
puede entonces reducir los ciclos de toma de decisiones ya que las tácticas y
estrategias comerciales y técnicas se realizan en tiempo real.
¿Por qué deseamos estudiar datos de series de tiempo? Tal vez queramos predecir
el futuro basándonos en firmas históricas o controlar más estrictamente el proceso
que genera los conjuntos de datos temporales.
¿Es más fundamental entender el mecanismo detrás
PERSPECTIVAS ESPACIOTEMPORALES
Definamos desde el principio qué es una serie de tiempo para que podamos
ÿ Datos continuos: datos que contienen cualquier valor que se considere factible
ble dentro de un rango
2. Atributos de comportamiento
1. Cualitativo
2. Cuantitativo
Machine Translated by Google
autorregresivo)
ÿ Inviernos Holt
ÿ Regresión lineal ÿ
Regresión no lineal
Las ecuaciones son demasiado optimistas cuando se ajustan a los datos históricos
de producción de yacimientos no convencionales, debido a la muy baja
permeabilidad y los valores deficientes de porosidad de las rocas del yacimiento.
¿Es factible combinar múltiples técnicas de pronóstico de series temporales
basadas en datos para lograr un flujo de trabajo más sólido y confiable para
predecir eventos en la industria del petróleo y el gas?
Estudiemos los tres componentes más importantes de cualquier
conjunto de datos de serie temporal:
1. Tendencias y ciclos 2.
Estacionalidad
3. Residuos
yt = Tt + St + Rt
donde los datos de la serie temporal están representados por yt y las tendencias
(Tt), Estacionalidad (St) y Residuales (Rt) son los que contribuyen
componentes durante un período de tiempo t.
400000
300000
200000
Fecha
Información histórica Anulación de límites de confianza conciliados de pronóstico conciliado Pronóstico final
400000 75000
50000
350000
25000
Tendencia-
Ciclo
Estacional-
Irregular
0
300000
–25000
250000 –50000
ene00 ene02 ene04 ene06 ene08 10 de enero 12 de enero 14 de enero ene00 ene02 ene04 ene06 ene08 10 de enero 12 de enero 14 de enero
400000
50000
25000 350000
Irregular
0 estacionalmente
Ajustado
300000
–25000
250000
–50000
ene00 ene02 ene04 ene06 ene08 10 de enero 12 de enero 14 de enero ene00 ene02 ene04 ene06 ene08 10 de enero 12 de enero 14 de enero
111
Machine Translated by Google
yt = Tt × St × Rt
estacional aditivo
Tendencia + Cíclico
Tendencia + Aumento
Figura 4.3 Los patrones de series de tiempo permiten un análisis de brechas en la producción de hidrocarburos
114
Machine Translated by Google
ARIMA:
UCM:
4E8
real
A
3.5E8
3E8
Fecha de producción
Actual Predicho
Banda de confianza del 95 % Inicio de previsiones de varios pasos
116
Machine Translated by Google
1. Autorregresivo (AR[p])
Hay una variable de identificación de tiempo que refleja una periodicidad para
cada fila de datos. Invariablemente, es necesario ordenar esta variable
para asegurar una progresión temporal lineal de las observaciones de los
datos en estudio.
fi Los puntos de datos se separan por igual de manera que las observaciones
sucesivas se adhieren a un intervalo de tiempo fijo. Esto permite
estrategias de gestión del agua. Los ingenieros pueden usar los datos de
la herramienta de registro de producción (PLT) para descubrir qué etapa
en un yacimiento multicapa está generando las tasas individuales de
producción de petróleo, gas y agua. Con este conocimiento, es plausible
apuntar a un número óptimo de etapas y sus ubicaciones a lo largo de un
pozo determinado. Apreciar la red de fracturas es clave para impulsar el
diseño de los parámetros operativos para explotar las reservas máximas.
Podemos mitigar los factores de riesgo a través de flujos de trabajo
analíticos que implementan técnicas de computación suave durante el
monitoreo en tiempo real de la fractura hidráulica. ¿Dónde está el
movimiento fluido? ¿Podemos descubrir la progresión de la fractura y la
conectividad a través del yacimiento? ¿Están los fluidos de fractura y el
apuntalante en nuestro objetivo zonal? Los parámetros de operación de
la estimulación son dinámicos incluso desde la misma parte del
yacimiento. Necesitamos observaciones perspicaces, y los datos
microsísmicos brindan respuestas para mejorar la estrategia de espaciamiento y termin
Los datos microsísmicos agregados con conjuntos de datos
geológicos, petrofísicos y sísmicos activos amplían los beneficios
comerciales al proporcionar análisis geológicos y geomecánicos en
profundidad. El modelado de fracturas nos permite, a través del monitoreo
y el mapeo, estimar el volumen de roca estimulada (SRV), la longitud
media apuntalada y las propiedades de la red de fracturas que impactan
el factor de recuperación y las tasas de producción.
EVALUACIÓN DE TERMINACIONES
La garantía de calidad (QA) de los datos en tiempo real es esencial para maximizar
el valor intrínseco en los procesos de trabajo de exploración. En un alto nivel, los
datos en tiempo real consisten en series temporales con información de etiquetas
(una etiqueta describe un punto de recopilación de datos) y medidas (presión,
temperatura, caudal, etc.).
Se utilizan muchos recursos para monitorear el estado normal cuando
Tiempo real
Fuente de datos
Básico
Transformaciones
Básico
Transformaciones
Tiempo real
alertando
Nivel 2
Normas
Datos DS/PS
Análisis
Ejecución Datos DS/PS
Repositorio de reglas
Tanto para las reglas de Nivel 1 como de Nivel 2, se deben activar las alarmas
correspondientes.
La arquitectura de plataforma de alto nivel describe los servicios necesarios
para una solución general de control de calidad de datos. En un nivel alto, una
solución potencial, como se muestra en la Figura 4.6, requiere lo siguiente
servicios:
Decisión
Datos en tiempo real
Motor de reglas Datos de soporte
Procesamiento de alimentación Integración de datos Almacenamiento
ydisponibilidad
rendimiento
Servicios
de
Plataforma
yMonitoreo
Gestión
de
la
ÿ Herramientas de cliente
ÿ Servicios de plataforma
a lo largo de la fibra una vez que el pulso anterior haya recorrido toda la
longitud de la fibra y haya regresado a su ubicación inicial. Los pulsos
secuenciales se comparan para notar cualquier fluctuación en la intensidad de
la luz reflejada desde la misma área bajo estudio.
Podemos aplicar el análisis de flujo de trabajo DAS para monitorear el
flujo dentro de un sistema. La literatura interesante publicada en los últimos
cinco años ha tendido a concentrarse en los pozos verticales y horizontales.
perforado en los yacimientos de gas compacto en los activos de América del
Norte (Van der Horst et al., 2013).
Los conjuntos de datos recopilados de DAS son ideales para comprender
los flujos de producción de líquidos en diferentes regiones zonales. Podemos
monitorear el flujo interzonal del yacimiento y, por lo tanto, optimizar las
estrategias de levantamiento artificial a medida que observamos casi en
tiempo real el flujo de fluido a través de los pozos, notando cualquier fuga o
acumulación significativa de depósitos en el pozo. El éxito en el monitoreo de
la integridad de la tubería con DAS (Williams, 2012), iniciado hace varios años,
abrió la puerta para que DAS pasara al ámbito de las aplicaciones de fondo
de pozo (Koelman et al., 2012).
La aplicación de DAS como herramienta de vigilancia reemplaza las
técnicas de monitoreo tradicionales. La tecnología de fibra óptica es ideal para
el monitoreo continuo o de lapso de tiempo. DAS proporciona una alta
resolución espacial en períodos de muestreo de hasta 20 kHz a lo largo de
toda la longitud de un pozo horizontal. Por lo tanto, es factible crear un sistema
permanente de vigilancia y monitoreo en tiempo real para una amplia gama de
operaciones de pozos con un OPEX bajo.
Las técnicas de recuperación mejorada de petróleo (EOR) están
evolucionando con la aparición de tecnologías digitales innovadoras. Es
necesario adoptar un conjunto de flujos de trabajo basados en datos que
analicen conjuntos de datos de fibra óptica para mejorar las soluciones de
recuperación secundaria y terciaria.
Metas:
82
profundidad 70
14000 12000 10000 8000 6000 4000 2000 0 100 –2000 57
100
80 80 44 temperatura
60 32
60
40 19
40
6
20 20
0 100 0 100
80 80
60 60
40 40
20 20
0 0
El algoritmo fue desarrollado para permitir suavizar las brechas entre conjuntos
de datos, dando una apariencia de terreno "limpio" (Figura 4.7).
La Figura 4.7 ilustra los datos DTS con disminuciones de temperatura
correspondientes a distintas capas del yacimiento. Los datos DTS de fibra
óptica reflejan los cambios de temperatura a medida que el efecto Joule-
Thomson enfría las entradas de gas a dos profundidades diferentes que
corresponden al yacimiento de dos niveles. Observamos que las disminuciones
de temperatura en la capa del yacimiento a menor profundidad (2000 pies) son
mayores que las observadas a mayor profundidad (6000 pies).
La figura 4.7 ilustra esto mediante el mapeo del grosor de la línea que indica
las dos capas del yacimiento. Este comportamiento es indicativo de que el
descenso es menor a 2000 pies que a 6000 pies. Los datos DTS permiten a
los geocientíficos monitorear la relación gas/petróleo (GOR) ya que cualquier
aumento en la GOR da como resultado que la viscosidad del fluido del
yacimiento disminuya y la tasa de flujo disminuya. alterar. Por lo tanto, hay una
caída aparente de la temperatura.
Machine Translated by Google
La Figura 4.8 muestra la aplicabilidad de los datos DTS para optimizar una estrategia
de fracturamiento hidráulico en los yacimientos no convencionales donde las rocas
compactas y la baja permeabilidad requieren el rompimiento de las rocas para iniciar el
flujo de hidrocarburos a los pozos productores.
Los datos DTS pueden ser difíciles de interpretar. Usando un sofisticado conjunto de
modelos matemáticos, podemos simplificar la interpretación de la transferencia de calor y
masa a lo largo de la estrategia de fractura hidráulica. Se pueden construir modelos
térmicos para simular los gradientes de temperatura a lo largo de todo el pozo, teniendo
en cuenta el impacto tanto de la conducción como de la convección.
La Figura 4.8 es un gráfico de superficie que muestra los cambios de temperatura, que
van desde el azul, que representa temperaturas más frías, hasta el rojo, que indica las
temperaturas más altas a lo largo del pozo durante el proceso de estimulación de
fracturamiento. Las zonas azules son sintomáticas de estadios poco perforados. Los
parámetros independientes en el lado derecho del gráfico de superficie se pueden alternar
a diferentes valores, y luego las mediciones asociadas se visualizan en el cubo 3D. Esto
permite a los ingenieros identificar las mejores y peores etapas a lo largo del pozo a
medida que los fluidos fluyen a través del pozo productor. podemos ver el
Machine Translated by Google
Figura 4.8 Gráfico de superficie que ilustra los gradientes de temperatura en todo el pozo fracturado
128
Machine Translated by Google
pico azul a una profundidad de unos 2000 pies, lo que refleja un problema
de aislamiento con la estrategia de fractura hidráulica llevada a cabo en
este pozo. Con este tipo de conocimiento, podemos diseñar modelos de
fractura más precisos y estimar, con un mayor grado de fidelidad, la
conductividad a lo largo de la geometría de la fractura. ¿Quizás debamos
abordar el número y la ubicación de los disparos y qué etapas cerrar para
seguir las estrategias de fractura en pozos adyacentes?
ÿ TOC
ÿ Porosidad ÿ
ÿ Módulo a granel
ÿ Relación de Poisson
ÿ Estrés diferencial
ÿ PSTM (isotrópico) ÿ
Modelo de velocidad ÿ
acústica
ÿ Frágil/dúctil
ÿ Relación de Poisson
ÿ Módulo de Young
ÿ TOC
ÿ Facies sísmicas
ÿ Coherencia
ÿ Curvatura
ÿ Descomposición espectral
Machine Translated by Google
“La Danza de las Burbujas” dando vida a los cambios sutiles en las
correlaciones durante una ventana de tiempo.
La Figura 4.11 muestra la longitud lateral promedio a lo largo del
eje Y y el número de etapas de fractura a lo largo del eje X.
La producción acumulada de gas se refleja en el tamaño de la burbuja.
Estamos buscando burbujas de mayor tamaño para determinar rangos
óptimos de valores para ambos parámetros operativos: longitud lateral
y número de etapas de fractura. La burbuja más grande observada
en enero de 2000, el comienzo de los datos de producción, ilustra que
el número ideal de etapas es 12 o 13. Se observa que la longitud
lateral correspondiente es de unas 10.000 unidades.
Al animar el gráfico de burbujas, podemos observar los cambios
dinámicos en los dos parámetros operativos frente a los datos de
producción. Las diferentes regiones añaden otra dimensión de
información al diagrama de Tukey.
Un diagrama de red, Figura 4.12, muestra al geofísico y al
petrofísico las relaciones significativas entre los valores de categoría
a través de una secuencia de nodos vinculados. Generamos una
versión desagrupada del diagrama de red tradicional en lugar de una
estructura jerárquica usando un conjunto de categorías.
Machine Translated by Google
Un ejemplo típico utilizado para ayudar a enseñar los principios detrás de los
SOM es el mapeo de las propiedades del yacimiento desde las perspectivas
tridimensionales en dos dimensiones. Uno de los aspectos más interesantes de los
SOM es que aprenden a clasificar datos sin supervisión. Es posible que ya conozca
las técnicas de entrenamiento supervisado, como la retropropagación, donde los
datos de entrenamiento consisten en pares de vectores: un vector de entrada y un
vector de destino. Con este enfoque, se presenta un vector de entrada a la red
(típicamente una red de alimentación directa multicapa) y la salida se vincula al
vector de destino. Cualquier diferencia sugiere alterar los pesos de la red para
disminuir el error en la salida. Este proceso se repite varias veces con varios
conjuntos de pares de vectores para lograr un resultado probable y aceptable.
Las Figuras 4.13–4.16 detallan los maplets de 10 × 10 para cada uno de los
cuatro parámetros en estudio:
3. Etapas de fractura
4. Volumen de apuntalante
10
1 2345 6 7 8 9 10
SOM Dimensión2
10
1 2345 6 7 8 9 10
SOM Dimensión2
10
1 2345 6789 10
SOM Dimensión2
10
1 2345 6 7 8 9 10
SOM Dimensión2
REFERENCIAS
Aminzadeh, F., “¿Dónde estamos ahora y hacia dónde vamos?” En: Expert Systems in
Exploration (eds. F. Aminzadeh y M. Simaan), Tulsa, OK, SEG (1991), págs. 3–32.
CAPÍTULO 5
Yacimiento Sísmico
Caracterización
140
Machine Translated by Google
ricardo feynman
INTRODUCCIÓN
141
Machine Translated by Google
Acústico
Impedancia
inversión fallas
Geomecánica
• Jóvenes Fracturas
Módulo •
Relación de Poisson
Geoquímica
• TOC • Velocidad
% de querógeno Anisotropía
multivariante
Multidimensional Campo de velocidad
Reservorio multivariado • Acimut •
Dimensiones
estocástico Buzamiento •
Huelga
Sísmico
ÿ Mineralogía ÿ
Porosidad y permeabilidad ÿ
ÿ Geomecánica:
fi Impedancia acústica fi
ÿ Mapas de fracturas
ÿ Volúmenes de fallas
ÿ Mapas de estrés
(a) (b)
ÿ Caracterización de cuencas
145
Machine Translated by Google
Mapas autoorganizados
La integración entre los procesos PCA y SOM revela una mayor comprensión
de la geología y la estratigrafía del prospecto. Ofrecer una visión complementaria
del volumen sísmico, tradicionalmente lograda mediante interpretación convencional,
disminuye el riesgo.
ÿ Puntos planos
¿Qué significa esto? Solo podemos usar un MANN para predecir las
propiedades petrofísicas a partir de los atributos sísmicos y no a la inversa.
Esto puede ser una limitación, pero aún brinda suficiente validación como
técnica para establecer una caracterización más robusta del yacimiento
lejos del control de pozo localizado. Cuando exploramos en busca de
hidrocarburos, tratamos con varios grupos litológicos y grupos focales
zonales con respecto a los techos y horizontes de los pozos. Los registros
de pozo arrojan luz inicialmente sobre la identificación tanto de la parte
superior de los pozos como de los horizontes de interés. Este conocimiento
es ingerido posteriormente por los datos sísmicos interpretados en la misma extensión geo
ANÁLISIS ONDULA
70000
60000
50000
40000
30000
20000
10000
0
4000 3000 2000 1000 0
Número de onda
Figura 5.5 Gráfico de líneas que muestra datos de trazas sísmicas posteriores a la transformación FK
9 Tamaño de datos
norte: 850
8
Nivel superior: 10
7 Nivel de inicio: 0
6
Especificación de ondícula
5 Familia: Embadurnamiento 3
2
Sin umbral
1
Figura 5.7 Gráfico detallado de coeficientes para todos los niveles con escalado independiente
desviación estándar de los coeficientes de detalle de más alto nivel. Uno de los
gráficos de visualización de diagnóstico más poderosos se ve en la Figura 5.7.
Describe los coeficientes prescritos por nivel.
En la Figura 5.7, los coeficientes de detalle para los diferentes niveles se
escalan de forma independiente. Observamos que las oscilaciones en los datos
de amplitud se expresan en la gráfica de coeficientes de detalle en ciertos
niveles, a saber, 7, 8 y 9.
Luego generamos una gráfica de coeficientes de solo estos tres niveles
que están escalados uniformemente (Figura 5.8). El ruido en los datos se
representa en el gráfico de coeficientes de detalle, especialmente en los
coeficientes pequeños en los niveles más altos de la descomposición de datos.
Cuando ponemos a cero o disminuimos estos coeficientes, obtenemos
restauraciones más suaves de los datos sísmicos de entrada. Al especificar un
valor de umbral para cada nivel de coeficientes de detalle, podemos poner a
cero o disminuir todos los coeficientes de detalle por debajo de este valor de umbral.
La figura 5.9 muestra la gráfica detallada de los coeficientes con el
algoritmo de umbralización de Donoho y Johnstone (1995). Puedes
Machine Translated by Google
Escalado uniforme
Tamaño de datos
norte: 850
9 Nivel superior: 10
Nivel de inicio: 0
Especificación de ondícula
Familia: Embadurnamiento 3
Sin umbral
7
Figura 5.8 Gráfico detallado de coeficientes con los tres niveles superiores escalados uniformemente
Tamaño de datos
9 norte: 850
Nivel superior: 10
Nivel de inicio: 0
8 Especificación de ondícula
Familia: Embadurnamiento 3
7
Detalles de umbral
Política: Suave
6 Niveles: 0–9
Nivel
Tamaño de datos
10
norte: 850
9 Nivel superior: 10
Nivel de inicio: 0
8
Especificación de ondícula
7
Familia: Embadurnamiento 3
4 Sin umbral
señal de entrada
Machine Translated by Google
Nivel
Tamaño de datos
norte: 850
Nivel superior: 10
Nivel de inicio: 0
Especificación de ondícula
Familia: Embadurnamiento 3
7
Perímetro: Extensión lineal
Sin umbral
Nivel
Tamaño de datos
norte: 850
Nivel superior: 10
Nivel de inicio: 0
Especificación de ondícula
Familia: Embadurnamiento 3
10
Perímetro: Extensión lineal
Detalles de umbral
Política: Suave
Tamaño de datos
10
norte: 850
Escalado de nivel independiente
Nivel superior: 10
Nivel de inicio: 0
9
Especificación de ondícula
8
Familia: Embadurnamiento 3
5
Sin umbral
Escalogramas Wavelet
Tamaño de datos
9 Nivel superior: 10
Nivel de inicio: 0
8
7
Especificación de ondícula
6 Familia: Embadurnamiento 3
4
Detalles de umbral
3
Política: Suave
niveles Notamos rectángulos más delgados y más altos que son indicativos de
rangos de tiempo más pequeños y rangos de frecuencia más grandes.
La figura 5.14 ilustra un gráfico de escalograma de todos los niveles con
umbral híbrido "seguro" aplicado. El eje horizontal refleja el componente de tiempo
y el eje vertical representa la escala de energía. La tercera dimensión es el color
que caracteriza la
principales características de los datos. Los geofísicos que buscan interpretar las
características de escala más fina dentro de la sísmica se dirigen a los niveles más
altos. Los niveles por encima de cinco se muestran en la Figura 5.15.
No se aplica una escala logarítmica a las alturas de los rectángulos en
Tamaño de datos
Nivel superior: 10
Nivel de inicio: 0
Especificación de ondícula
9
Familia: Embadurnamiento 3
Detalles de umbral
8 Política: Suave
Figura 5.15 Scalograma Wavelet que muestra la mayor parte de la energía en el nivel 8
Machine Translated by Google
70000
60000
50000
40000
30000
20000
10000
Figura 5.16 Gráfico de líneas que muestra datos de trazas sísmicas después del suavizado de ondículas
DESCOMPOSICIÓN ESPECTRAL
PRIMERAS LLEGADAS
con ruido, ya sea este intrínsecamente aleatorio o lineal, pero con un evento sísmico real.
Los conjuntos de datos sísmicos 3D están formados por miles de puntos de disparo y las
matrices de receptores generan miles de registros. Por lo tanto, el análisis manual de
todos los registros orientados a tiros y receptores es demasiado voluminoso para
interpretarlo.
Machine Translated by Google
Atributos de Hilbert. Taner et al. (1979) introdujo una serie de atributos de Hilbert
derivados de datos sísmicos en ventanas.
1. Amplitud (máxima)
2. Nivel de potencia (media)
3. Relaciones de potencia
SUPRESIÓN DE RUIDO
Los primeros arribos están asociados con otro tema: editar el ruido del registro
sísmico. En contraste con la identificación de eventos de origen sísmico, nos
enfocamos en suprimir eventos de origen no sísmico. Para aumentar la relación
señal-ruido (S/N), el geofísico puede emplear un flujo de trabajo analítico basado
en datos que se basa en modelos informáticos de reconocimiento de patrones.
Adoptamos una metodología basada en datos para determinar los atributos clave
del balanceo de tierra y el ruido aleatorio para diferenciarlo de la señal principal. Este
enfoque está destinado a reducir los altos costos de adquisición mediante la
producción de datos con una relación S/N mejorada en el campo. La principal de las
bajas relaciones S/N es el balance de tierra, que consiste en la llegada directa y la
energía dispersa de las ondas Rayleigh generadas por disparos.
como el rollo de tierra. Los UCM brindan la versatilidad inherente a los modelos ARIMA
al tiempo que amplían la capacidad de interpretar los modelos de suavizado. Los
modelos dinámicos son muy similares a los UCM y encuentran favoritismo en la
literatura de series temporales bayesianas. Desarrollamos un algoritmo para pronosticar
los valores de la serie de respuesta y la serie de componentes en el modelo.
superficie
15
10
0
5
10 30
25
15 20
20 15
tiempo 25 10
5
30 0 X
z
20
15
10
–5
0
5
10 30
25
15 20
20 15
tiempo 25 10
5
30 0 X
Z(t, x) = Spl(x)ÿt + ÿt
ÿt + 1 = Tÿt + ÿt + 1
15
10
0
5
10 30
25
15 20
20 15
10
tiempo 25 5
30 0 X
15
10
rastro
400
5
logamp
–5
200 –10
-15
–20
–25
012 3
Tiempo
Figura 5.20 Registro de disparos con rodada desde el suelo antes de aplicar el algoritmo de
supresión de ruido
20
10
400
rastro
0 superficie_alisada0
–10
200
–20
–30
012 3
Tiempo
7.5
5
400
2.5
rastro
0 alisado_wn
–2.5
200 –5
–7.5
–10
–12,5
012 3
Tiempo
REFERENCIAS
Fagan, D., K. van Wijk y J. Rutledge, “Clustering Revisited: A Spec tral Analysis of
Microseismic Events,” Geophysics, 78, no. 2 (marzo de 2013): KS41–KS49.
Hall, P., J. Dean, IK Kabul y J. Silva, "Una descripción general del aprendizaje automático
con SAS Enterprise Miner". En: Actas de la Conferencia SAS Global Forum 2014,
Instituto SAS, Cary, Carolina del Norte (2014), https://support.sas.com/resources/
papers/proceedings14/SAS313-2014.pdf .
Hall, Patrick, Jared Dean, Ilknur Kaynar Kabul y Jorge Silva, "An Overview of Machine
Learning with SAS® Enterprise Miner™", artículo SAS313-2014, SAS Institute Inc.,
2014.
Haykin, S., Redes neuronales: una base integral, Prentice-Hall,
Nueva Jersey (1999).
Hinton, GE y RR Salakhutdinov, "Reducción de la dimensionalidad de los datos con redes
neuronales", Science, 313, no. 504 (28 de julio de 2006). DOI: 10.1126/ciencia.1127647.
Holdaway, Keith R., Aproveche los grandes datos de petróleo y gas con análisis: optimice
la exploración y la producción con modelos basados en datos, John Wiley & Sons,
Hoboken, NJ (mayo de 2014).
Jang, J., "ANFIS: Sistema de inferencia difusa basado en redes adaptativas"
Trans. IEEE. sist. Hombre Cybern., 23, núm. 3 (1993): 665–685.
Kreutz-Delgado, K., JF Murray, BD Rao, K. Engan, T.-W. Lee y TJ Sejnowski, "Dictionary
Learning Algorithms for Sparse Representation", Neural Computation, 15 (2003): 349–
396.
Krizhevsky, A., I. Sutskever y GE Hinton, "Clasificación de ImageNet con redes neuronales
convolucionales profundas". En: Avances en sistemas de procesamiento de información
neuronal 25 (NIPS 2012), Actas de la Conferencia anual sobre sistemas de
procesamiento de información neuronal (2012), págs. 1097–1105.
CAPÍTULO 6
Atributo sísmico
Análisis
174
Machine Translated by Google
INTRODUCCIÓN
175
Machine Translated by Google
dirigir una poderosa luz sobre las características esenciales del yacimiento
para una explotación exitosa de hidrocarburos.
ondícula
Machine Translated by Google
Dónde:
ÿ Puntos brillantes
ÿ Acumulación de gases
fi Cambios en la litología fi
ÿ Detección de fallas
y divergentes y no
formalidades
Proceso SEMMA
EXPERTOS EN LA MATERIA
CIENTÍFICOS DE DATOS
¿Qué son las facies sísmicas? Esencialmente es una unidad sísmica en un espacio
tridimensional que consiste en un conjunto de reflejos de ondículas. Los factores distintivos
entre las distintas unidades de facies sísmicas son las diferentes mediciones de parámetros
variados obtenidas del análisis de ondículas y el análisis de atributos sísmicos. El flujo de
trabajo de clasificación de facies sísmicas es un conjunto de datos de conglomerados
3. Mapee todas las facies sísmicas desde los perfiles sísmicos hasta un mapa de
puntos de disparo para cada secuencia.
Rasgo
Extracción
Datos del sensor Segmentación
Correo
• Interpretación • Ventanas Grupo
• Adquisición Procesando
sísmica espacio- Análisis
sísmica 3D • tradicional • temporales •
• Prueba de
Registros de Análisis de facies Análisis • Clasificación
de modelos hipótesis
pozos • DTS/DAS sísmicas • espectral •
Extracción de geológicos
Identificación de
características sísmicas atributos
Sin supervisión:
1. Agrupación jerárquica 2.
Agrupación de k-medias 3.
Mapas autoorganizados (SOM)
4. Mezclas normales
Supervisado:
Adquisición
Tradicional
Interpretación
Abstracción de características
Basado en datos
Clasificación
Hipótesis
Generación
Verificar decisión
ÿ Procesos Deposicionales
ÿ Contactos de fluidos
ÿ Propiedades depositacionales
ÿ Mediciones de porosidad
ÿ Contenido fluido
una definición de alta resolución. Dichos pasos para generar conjuntos de datos
listos para ML incluyen:
ÿ Transformada de Fourier
ÿ Descomposición wavelet ÿ
Agrupación jerárquica
900
700
490
2184
800
770
1270
860
1090
1540
1300
1300
1260
1344
1145
1090
2294
1784
1289
1690
30
20
1090 1784
1300
10 1289
1690
Y0 1090
900
700
–10
1270
–20
–30
–20 –10 0 10 20
X
Agrupación de k-medias
–1
–2
–3
–4
–4 –2 0 2 4
impresión 1
Mezclas Normales
4
4 3
impresión 1 2 2
1
0 Imprimir
0
2
–2
–1
–4 –2
3 –3
–4
3
2
1 2
0 1
–1 0
–2 –1
–3 –2
–4 –3
–5 –4
3
2 –5
4
1
2
0
–1 0
impresión 1
–2 –2
–3
–4
Figura 6.7 Grupos representados con contornos para las densidades normales
y designe una clase latente para cada capa de la variable latente. El algoritmo
ajusta un modelo de clase latente y calcula el grupo o clase latente más apropiado
para cada observación de atributo sísmico.
0
1
Prob en el grupo 2
0.1
0.9
0.2
0.8
0.3
0.7
0.4
0.6
0.5
0.5
0.6
0.4
0.7
0.3
0.8
0.2
0.9
0.1
1
0
1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0
Prob en el grupo 1
Figura 6.8 Gráfica ternaria que explica las probabilidades de conglomerados para cada sísmica
observación
5. Haga una correlación cruzada del siguiente vector propio con los datos
originales o los datos residuales para crear el siguiente volumen del
componente principal.
6. Iterar a través de los pasos 4 y 5 para todas las N-dimensiones para generar
Erate N autovectores y N PC.
La figura 6.9 muestra los valores propios y un gráfico de barras del porcentaje
de la variación explicada por cada PC. Hay dos gráficos más: un gráfico de
puntuación y un gráfico de cargas. Los valores propios indican el número total de
componentes extraídos, basados en el grado de varianza agregado por cada
componente.
El gráfico de puntuación muestra los valores estimados de cada elemento sobre
el otro, corrigiendo cada valor por la media y la desviación estándar. La gráfica de
cargas traza la matriz de carga no rotada entre las variables y los componentes.
Cuanto más cerca esté el valor de la unidad, mayor será la influencia del elemento
sobre la variable.
Evaluación estadística
La Tabla 6.4 representa las restricciones y las mejores prácticas para cada método
supervisado y no supervisado utilizado en el estudio de facies sísmicas.
1.0
Valor propio 20 40 60 80
3.6002
4 Azimut
1.7335
1.0306 Espesor de pago neto
0,4060
0.5
0,1576
2 Coherencia
0,0529
0,0193
PhiE
0 0.0
Inst. Fase de
respuesta de amplitud
–2
–0.5
Aderezo
–4
–1.0
–4 –2 0 2 4 –1.0 –0.5 0.0 0.5 1.0
201
Machine Translated by Google
Tabla 6.4 Comparación estadística entre los diferentes métodos basados en datos
Número
Método Tipo de datos Tamaño de datos de clústeres
Figura 6.10 Conjunto de clasificación sísmica de conglomerados desde una perspectiva empresarial
estudiar. El valor de AICc varía entre diferentes modelos creados por el mismo
conjunto de datos. El valor más pequeño a menudo define el modelo que mejor
se ajusta.
BICc se define de la siguiente manera:
Hay una interpretación paralela de los valores resultantes para BICc como
para AICc. El primero tiende a disciplinar aquellos modelos con un mayor
número de parámetros, prefiriendo los segundos la valoración estadística.
REFERENCIAS
CAPÍTULO
7
Geoestadística:
integrando
sísmica y
petrofísica
Datos
206
Machine Translated by Google
INTRODUCCIÓN
207
Machine Translated by Google
Los valores espaciales pronosticados para todas las mediciones fuera del
control de pozos localizado conllevan incertidumbres que deben cuantificarse para
alcanzar el rigor necesario para tomar decisiones comerciales acertadas.
Invariablemente, los marcos y metodologías basados en el análisis estocástico
formulan los procesos que determinan y cuantifican las incertidumbres.
4. Determinar los valores de los parámetros para una versión teórica del
modelo de dependencia.
Descripción de datos
GEOESTADÍSTICA 209
Los datos deben estudiarse a través del análisis exploratorio de datos (AED)
tanto en la dimensión espacial como temporal, así como en la perspectiva
multivariante. Cualquier valor atípico debe identificarse ya que oculta la estructura.
Los pasos de EDA permiten visualizaciones vinculadas de modo que podamos
mostrar patrones ocultos, correlaciones y tendencias en los datos asociados. Estas
pantallas incluyen histogramas, matrices de correlación y nubes de variogramas.
Machine Translated by Google
Interpretación
Tomamos las mediciones de datos duros de núcleos y registros de pozos
en ubicaciones discretas a lo largo de un yacimiento y, a través de
metodologías gráficas y flujos de trabajo de EDA, interpretamos visualmente
los datos numéricos. La experiencia juega un papel importante en la
interpretación de los resultados. Los primeros principios y las proposiciones
evidentes impulsan nuestra comprensión al asignar el valor a las mediciones
de los datos duros. Generamos, debido al análisis, datos blandos tanto en
un dominio espacial como temporal. Principalmente, nos estamos moviendo
más allá del conocimiento muestreado medido en ubicaciones espaciales
y temporales remotas a medida que modelamos el yacimiento en un
continuo espacial y temporal.
Estimacion
Con el modelo que refleja la variación en un continuo espacial y temporal,
podemos estimar los valores de esas propiedades del yacimiento a
diferentes escalas y ubicaciones espaciales alejadas de los datos duros
locales muestreados en todo el yacimiento. Las metodologías que soportan
esta estimación se basan en mínimos cuadrados y deben ajustarse a una
variada gama de diferentes modelos determinados por primeros principios
y conceptos de ingeniería.
El tema de la geoestadística se puede dividir en cuatro
divisiones discretas:
GEOESTADÍSTICA 211
• Modelo estructural
• Conversión de tiempo a profundidad: kriging, deriva externa, cokriging de error, cokriging coubicado y
kriging factorial
Paso 1
• Generación de
grillas • Modelado de propiedades
Paso 3
LA COVARIANZA Y EL VARIOGRAMA
Variable geológica o
atributo sísmico z(x) Z(x) = R(x) + m(x)
GEOESTADÍSTICA 213
Valor en Datum
Punto = Valor de Tendencia cuadrática:
función Z(x,y) = a0 + a1x +
determinista + azy + a3xy + a4x2 + a5y2
error al azar +E
¿Qué es la anisotropía?
GEOESTADÍSTICA 215
310
80
300
60
Norte
permeabilidad
290
40
280
20
270
0
0 20 40 60 80 100
Este
experimente con tamaños de retraso más pequeños para obtener más puntos en
nuestro semivariograma de muestra (vea la Figura 7.4).
2000
1500
1000
500
0
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34
Clase de retraso
Figura 7.5 Histograma que detalla las clases de rezago y las tendencias en el
medición
La Figura 7.5 sugiere que podemos usar un modelo cuadrático para describir la
tendencia de la superficie como la siguiente:
2
T(Este, Norte) = f0 + f1 [Este] + f2 [Este]
2
+ f3 [Norte] + f4 [Norte]
GEOESTADÍSTICA 217
4
80
2
Norte 60
ResidualPerm
0
40
20 –2
0 –4
0 20 40 60 80 100
Este
cuanto mayores sean los valores de estos parámetros, más pares de datos
que provienen de direcciones vecinas cercanas se incluyen en cada retraso.
Por lo tanto, los valores de estas opciones que son demasiado altos presentan
un riesgo de pérdida de información a lo largo de la dirección. El efecto
secundario ocurre porque podemos incorporar pares de datos desde un
espectro más amplio de ángulos; por lo tanto, potencialmente amplificamos
la anisotropía más débil o debilitamos la anisotropía más fuerte.
Solo mostramos los gráficos de semivariograma en el número especificado
de direcciones. Los paneles predeterminados colocan múltiples
semivariogramas empíricos: los paneles que se muestran en las Figuras 7.7,
7.8 y 7.9 sugieren que en algunas de las direcciones, como para ÿ = 0ÿ,
los gráficos direccionales tienden a exhibir una estructura algo ruidosa. Este
comportamiento
Ángulo = 30 Ángulo = 45
0 20 40 60 0 20 40 60
Distancia
GEOESTADÍSTICA 219
0 20 40 60 0 20 40 60
Distancia
0 20 40 60 0 20 40 60
Distancia
0 1234567 8 9 10 11 12 13 14 15
Clase de retraso
GEOESTADÍSTICA 221
Tabla 7.1 Intervalos de distancia por pares tabulados para cada clase de retraso
GEOESTADÍSTICA 223
Empírico Empírico
Exp Exp
0
0 20 40 60 0 20 40 60
Distancia
KRIGADO Y CO-KRIGADO
GEOESTADÍSTICA 225
2000
1500
1000
500
0 Gau Mat
GEOESTADÍSTICA 227
Norte
60 285 1.70
estándar
Error
280
40
1.65
275
20
1.60
0
0 20 40 60 80 100
Este
Figura 7.13 Predicción de Kriging para valores de permeabilidad a través del yacimiento usando
modelo seleccionado
Escribe Exponencial
Umbral 26839222
Rango 12863919
Efecto Pepita 0
25000000
20000000
15000000
Semivarianza
10000000
5000000
0 Exp
290 4
Norte 60
280 estándar
Error
280 3
40
2
20
1
0
0 20 40 60 80 100
Este
Figura 7.15 Predicción de Kriging para valores de permeabilidad a través del yacimiento utilizando
un modelo exponencial
Machine Translated by Google
GEOESTADÍSTICA 229
INVERSIÓN GEESTÁSTICA
GEOESTADÍSTICA 231
Teórico
Base
Resumen
Iterativo
Principio
Conocimiento
Síntesis
Didáctico Franqueza
Precisión
GEOESTADÍSTICA 233
GEOESTADÍSTICA 235
Fase anterior
Datos duros
Análisis estadístico
Reglas lógicas
Específico
Conocimiento
Universal
Conocimiento Metafase
Condicionamiento Bayesiano
Fase Posterior
PDF posterior
flujos de trabajo necesarios para transformar los datos. Todos los pasos
de control de calidad de datos (QC) se implementan en MetaPhase.
Los geofísicos y petrofísicos pueden evaluar, identificar y discriminar
todos los datos espaciales y temporales en segmentos duros y blandos.
Los datos blandos se generan a través de un conjunto de flujos de
trabajo de interpretación tradicionales, invariablemente basados en
principios básicos y conceptos de ingeniería.
La Fase Posterior actualiza la Densidad de Probabilidad anterior
Función (PDF) con el conocimiento específico del caso disponible.
Machine Translated by Google
GEOESTADÍSTICA 237
REFERENCIAS
Anselin, L., "El diagrama de dispersión de Moran como herramienta ESDA para
evaluar la inestabilidad local en la asociación espacial". En: Fischer, M., H.
Scholten y D. Unwin (eds.), Spatial Analytical Perspectives on GIS, Taylor &
Francis, Londres (1996), págs. 111–125.
Banerjee, S., BP Carlin y AE Gelfand, Modelado y análisis jerárquico para datos
espaciales, Chapman & Hall/CRC, Boca Raton (2004).
GEOESTADÍSTICA 239
CAPÍTULO 8
Artificial
Inteligencia:
Máquina y
Aprendizaje profundo
240
Machine Translated by Google
ricardo feynman
INTRODUCCIÓN
241
Machine Translated by Google
A menudo se dice que las cifras no mienten, pero los mentirosos sí.
Cuando se trata de encontrar patrones en los datos, las cifras no tienen que
mentir para sugerir cosas que no son ciertas. Dependemos tan profundamente
de los patrones en nuestras rutinas diarias que tendemos a verlos incluso
cuando no existen. Cuando observamos el cielo nocturno, no vemos una
disposición aleatoria de estrellas, sino la Osa Mayor o la Cruz del Sur. La
aceptación generalizada de las teorías de la conspiración es una prueba
más de que el deseo y la necesidad humana de
encontrar patrones.
El desafío es decidir qué patrones son útiles. Describamos la minería
de datos (DM) como un proceso técnico, que pasa de identificar problemas
comerciales a traducir problemas comerciales en problemas DM.
GESTIÓN DE DATOS
Autoorganización
mapas
Aprendizaje supervisado
Aprendizaje semisupervisado
Figura 8.4 Flujo de trabajo abierto típico basado en atributos sísmicos derivados
Machine Translated by Google
Aprendizaje semisupervisado
etiqueta común, pero por supuesto, esto no es una ley estricta. Cuando una etiqueta
representa un grupo, esencialmente estamos implementando una técnica de
suavizado que produce un método de aprendizaje de características eficiente para
los datos en un estudio. Mientras que las máquinas de vectores de soporte para el
aprendizaje supervisado buscan un límite de decisión con un margen máximo sobre
los datos etiquetados, el objetivo de las TSVM (Transductive Support Vector
Machines) es el etiquetado de los datos no etiquetados. El límite de decisión tiene
un margen máximo sobre todos los datos.
Aprendizaje supervisado
Objetivo:
ÿ Regresión = aprendizaje supervisado simple
ÿ Predicción
ÿ Clasificación
Sin objetivo:
ÿ k-means = aprendizaje primario no supervisado ÿ
Agrupación
ÿ Selección de características
Reglas a priori ÿ
Agrupación ÿ
Agrupación de k-medias ÿ
ÿ Agrupación espectral
Machine Translated by Google
autoorganizados
fundamentalmente el mundo que nos rodea (ver, oír, leer, tocar, gesticular). fi
Aprende a representar el mundo como una jerarquía anidada de con
conceptos
Capa de salida
Capa de entrada
profundidad
altura
ancho
Una CDNN, como un perceptrón multicapa (MLP) de una sola capa oculta, es
una arquitectura motivada biológicamente. Piense en el increíble poder de
procesamiento visual inherente a la corteza visual de un animal. El CDNN es un
diseño que se esfuerza por emular la naturaleza desde la perspectiva de identificar
al máximo los patrones similares a los bordes dentro del campo receptivo limitado,
así como imitar las múltiples celdas en un campo receptivo más amplio que
posiciona los patrones exactamente de manera localmente invariable.
las redes pueden adoptar esta arquitectura. Sin embargo, una de las principales
ventajas de las muchas ofertas de implementación de copias duplicadas es
Machine Translated by Google
1. Convolución
2. No linealidad 3.
Submuestreo
4. Clasificación
Circunvolución
11100
01110
00111 1 10 4 3 4
00110 0 01 2 4 3
01100 1 10 2 43
Figura 8.8 Imagen sísmica de 5 × 5 convolucionada con una matriz de 3 × 3 para generar
ÿ Detección de
bordes ÿ Afilar
ÿ Caja o desenfoque gaussiano
ÿ Detección de curvas
no linealidad
Sub-Muestreo
Máx(1, 1, 5, 6) = 6
X 1 124
piscina max con filtros 2×2 y
567 8 zancada 2
68
3210 34
3 12 4
ÿ probabilidad de salida) 2
1. Retardos de entrada
2. Retardos de retroalimentación
Machine Translated by Google
uno a uno uno a muchos muchos a uno muchos a muchos muchos a muchos
aumentando el número de nodos. Por lo tanto, la información retrasada se fusiona con cualquier
información actual.
Retrasos de entrada
Hay muchos pasos de tiempo de función consecutivos que se ingresan a la red al mismo tiempo.
Retrasos de retroalimentación
Durante la implementación de los retrasos de retroalimentación, la red entrega la salida del modelo a
los nodos de entrada simultáneamente con los datos anteriores. El proceso de entrega se puede lograr
mediante un circuito cerrado o abierto. El primero conecta la salida directamente a la capa de entrada
y el segundo garantiza que la salida conocida se proporcione como entrada a la red. En el estudio de
caso de recuperación final estimado, entrenamos y pronosticamos un paso adelante con bucles
abiertos. Para hacer una predicción más hacia el futuro, necesitaríamos el uso de bucles cerrados. Sin
embargo, notamos que los circuitos cerrados resultaron en un aumento del 10 por ciento en el error
neuronas ocultas
h5
neuronas ocultas
h4
neuronas ocultas Extraíble
h3 Características
h2 neuronas ocultas
h1 neuronas ocultas
h51 h52
ya sea CSV o algún formato de archivo de imagen estándar (TIFF, PNG, etc.)
Sería mejor evitar JPG debido a los artefactos de compresión.
La figura 8.12 ilustra las características sísmicas que se usaron como entrada para
las redes neuronales apiladas implementadas para la metodología de aprendizaje
profundo.
Las anotaciones contienen las etiquetas Y_i . Estas anotaciones pueden estar
en un archivo de texto (por ejemplo, anotaciones.txt) que tiene dos columnas:
<nombre de archivo>, <valor_de_etiqueta>. Cada fila corresponde a uno de los X_i,
que es un (subbloque de un) volumen o (un subbloque de) una imagen.
Los componentes básicos para SdA son codificadores automáticos como imple
Mencionado por Bengio et al. 2007.
Machine Translated by Google
Codificar Descodificar
fo ro LH(x,z)
qD
y = f (x) = s (Wx + b)
Parametrizado por = W, b
xqy
ÿ D=(xÿ|x) (1)
s(Wxÿ + b) x = (2)
s(Wÿ y + bÿ ) (3)
d
Como cualquier vector de dimensión B2, vec(B) se puede representar como una
combinación lineal B2 de elementos de base ortonormales. Implementamos un
diccionario en lugar de una base en este ejemplo. El diccionario es una
generalización en la que no se requiere que los elementos (llamados átomos)
sean ortonormales. Los diccionarios tienden a ser más eficientes como
representación. La Figura 8.18 muestra un ejemplo de un
i PAGS'
PAGS
S (yo, j)
S
j
Figura 8.16 Ilustración de parches superpuestos en una imagen
diccionario. Cada átomo es en sí mismo una subimagen que tiene las mismas
dimensiones que las representadas por un parche.
La expresión matemática para la representación de un parche P es
x = vec(P) = ÿ jdj
j
donde cada uno
j es un coeficiente escalar y cada dj es un átomo de diccionario
vectorizado.
Un diccionario completo contiene átomos que son similares a los parches de la
imagen para que los átomos se puedan representar utilizando la menor cantidad
posible de coeficientes distintos de cero. Este tipo de representación se considera
escasa y proporciona un mecanismo estándar para reducir la dimensionalidad y, por lo
tanto, actuar como una técnica de resumen de imágenes.
Puede entrenar una red neuronal profunda no supervisada para aprender un diccionario
compuesto de algunas imágenes que representan las características más importantes
de los parches. Para entrenar una eliminación de ruido apilada
Machine Translated by Google
Objetivo
Capa
Extraíble
Características
Capa de entrada
ÿ Los datos de
REFERENCIAS
Bengio, Y., A. Courville y P. Vincent, IEEE Transactions on Pattern Analysis and Machine
Intelligence, 35, no. 8 (agosto de 2013).
Bengio, Yoshua, Pascal Lamblin, Dan Popovici y Hugo Larochelle, “Greedy Layer-Wise
Training of Deep Neural Networks”, Avances en sistemas de procesamiento de
información neuronal 19 (NIPS 2006), MIT Press (2007), págs. 153–160.
Machine Translated by Google
Hall, Patrick, Jared Dean, Ilknur Kaynar Kabul y Jorge Silva, "An Overview of
Machine Learning with SAS® Enterprise Miner™", artículo SAS313-2014, SAS
Institute Inc. (2014).
Hinton, GE y RR Salakhutdinov, "Reducción de la dimensionalidad de los datos con
redes neuronales", Science, 313 (28 de julio de 2006): 504.
DOI: 10.1126/ciencia. 1127647.
Holdaway, Keith R., Aproveche los datos masivos de petróleo y gas con análisis:
optimice la exploración y producción con modelos basados en datos, John Wiley
& Sons, Hoboken (mayo de 2014).
Lee, H., A. Battle, R. Raina y AY Ng, "Algoritmos de codificación dispersa eficientes".
En: Avances en sistemas de procesamiento de información neuronal 19 (NIPS
2006), Actas de la Conferencia anual sobre sistemas de procesamiento de
información neuronal (2006), págs. 801–808.
Vincent, P., H. Larochelle, Y. Bengio y PA Manzagol, "Extracción y composición de
características robustas con codificadores automáticos de eliminación de ruido"
ICML 2008, págs. 1096–1103.
Vincent, P., H. Larochelle, I. Lajoie, Y. Bengio y PA Manzagol, "Codificadores
automáticos de eliminación de ruido apilados: aprendizaje de representaciones
útiles en una red profunda con criterio de eliminación de ruido local", Journal of
Machine Learning Research, 11 (2010) : 3371–3408.
Machine Translated by Google
Mejorar Aceite & Gas Exploración con geofísicos basados en datos y Modelos petrofísicos , Primera edición., Keith R.
Holdaway y Duncan HB Irving.
© 2018 por SAS Institute Inc. Publicado en 2018 por John Wiley & Sons, Inc.
CAPÍTULO
9
Estudios de caso:
Aprendizaje profundo
en exploración y producción
276
Machine Translated by Google
INTRODUCCIÓN
277
Machine Translated by Google
por lo tanto, los datos son fundamentales para el sector de exploración aguas arriba, así como
La detección de características
complementa la interpretación sísmica tradicional
Detección de características
Geofísico
Características y Estructuras
Correo
Clasificación
Sísmico Convencional Rasgo Procesando:
de sísmica
Adquisición Segmentación Extracción Generar
Ondículas
Hipótesis
Resultados no supervisados
de alta resolución
Machine Translated by Google
ÿ Los datos de
285
Machine Translated by Google
Gráfico de iteración
58
56
54
52
0 20 40 60 80 100
Época
Figura 9.7 Codificador automático de una sola capa entrenado por descenso de gradiente estocástico
mejoramiento
Gráfico de iteración
60
59
58
57
56
formato original.
Figura 9.9 Análisis exploratorio de datos visualizando los histogramas de variables clave
291
Machine Translated by Google
Conclusiones
Introducción
topología de red adoptada. La característica del modelo gráfico se refiere a los campos
aleatorios de Markov no dirigidos. La arquitectura
tomamos consta de una capa visible y una capa oculta con conexiones entre estas
dos capas. Los datos se ingieren a través de la capa de entrada o visible y se empujan
hacia arriba, propagándose a la capa oculta. Luego, los datos de entrada se
reconstruyen y se envían de regreso a la capa visible. El objetivo principal del
pensamiento para implementar un RBM es determinar si hay un número discreto de
patrones de características en los datos de la serie temporal de producción. La función
de activación utilizada fue una función sigmoidea que entrenaba al RBM ajustando los
pesos entre las dos capas: visible y oculta. Consulte la Figura 9.10 para ver una
expresión pictórica de la RBM utilizada en el estudio.
Las siguientes columnas representan las variables en cada uno de los 150
conjuntos de datos de pozo agregados para generar un conjunto de datos de entrada
para el estudio.
yo 0
W0
W1
Una sola neurona en una ÿ ÿ
yo 1 (X) O0
red neuronal:
W2
Nombre del pozo: Las dos primeras letras del nombre del campo seguidas de la
formación y el índice
Los pozos bajo estudio tenían cantidades variables de datos de producción debido a
diferentes fechas de perforación y tiempos de pruebas de pozos (PTA y RTA).
paso: 6 meses
Normalizar Sectores
Paso 1: centre los sectores de datos alrededor de 0 y luego distribúyalos por igual.
Machine Translated by Google
2. Pruebe qué tan bien funciona en una entrada novedosa usando un conjunto de validación.
continúa obteniendo mejores predicciones sobre los datos que la red ha visto, pero no sobre los
datos nuevos.
Matemáticas
Las matemáticas detrás de una sola neurona representan la evaluación de las funciones de
activación en el valor producido por el producto escalar del vector de peso y el vector de entrada. ÿ ÿ
ÿ w0 ÿ ÿ ÿ ÿ ÿ ÿ ÿ ÿ
ÿ ÿÿ ÿÿ ÿI0 ÿÿ
ÿ ÿÿw0
ÿ ÿÿ ÿ
ÿÿ
ÿ I0ÿÿ
ÿÿÿÿ yo = ÿÿÿÿÿÿ
ÿÿ ,
ÿ
O0 =
Al = (ÿÿW0 ÿ I ) donde ÿÿW0 =
wn ÿ ÿ wn ÿ ÿ En
Extender esta idea para múltiples nodos de salida, convierte el producto escalar en un producto
matricial de la matriz de ponderación (que consta de los vectores de peso para cada salida apilados
··· ···
O = (Wÿÿ I ) donde W = ÿ ÿ ÿ ÿ ··· ÿÿWn ··· ÿ ÿ ÿ
Entonces, ¿cómo se ajusta la matriz de ponderación para que la salida del algoritmo coincida
con la salida prevista? Primero defina la función de pérdida L(WÿkIÿ,Oÿ) donde Wÿk es el vector de
Para la predicción de series temporales, definimos la pérdida como error cuadrático: L(Wÿk, ÿ,
ÿ) = ÿWÿk, Iÿ,ÿOÿÿÿ .
Machine Translated by Google
Construyamos por partes una CDNN para considerar una imagen sísmica o
una sola línea 2D a partir de un cubo de datos sísmicos 3D. Queremos
identificar una característica o atributo sísmico como un punto plano como se
visualiza en la Figura 9.11.
Esta característica invariablemente atraviesa la estratigrafía representada
en los perfiles sísmicos de los yacimientos de petróleo y gas. Puede
considerarse como un indicador directo de hidrocarburos debido a su frecuente
presencia en los yacimientos de hidrocarburos. ¿Por qué vemos un punto plano
desde la perspectiva de un geofísico? Un aumento en la impedancia acústica
puede ser característico de un punto plano que aparece cuando los poros de
piedra caliza o arenisca contienen gas sobre una roca llena de líquido que
tiene una mayor impedancia acústica. Si podemos caracterizar un punto plano
sutil ubicado en una imagen sísmica posterior a la perforación, podemos
reconocer otros puntos planos similares en las imágenes 3D en una etapa
anterior y, en última instancia, reducir el riesgo de pozos secos.
Podemos extraer atributos de píxel en cada punto de profundidad y tiempo
comunes a lo largo del punto plano. Podemos agregar estas características de
píxel con los atributos sísmicos en el punto plano: impedancia acústica, Z
(producto de la velocidad sísmica y la densidad), frecuencia y contenido de
amplitud, así como fase instantánea. Estas características de puntos planos en
la extensión lateral, así como en el dominio temporal, se pueden muestrear y
luego clasificar con una red neuronal.
punto plano
Figura 9.11 Flat-spot es una anomalía de atributo sísmico representada como una
reflector
Machine Translated by Google
X0 X1 X2 X3 X4 X5 X6
A A
X0 X1 X2 X3 X4 X5 X6
B B B
AAAA
X0 X1 X2 X3 X4 X5 X6
análisis
B B B
A AAAA
X0 X1 X2 X3 X4 X5 X6
Figura 9.15 Una capa de agrupación máxima ayuda a identificar características sísmicas
Machine Translated by Google
Figura 9.16 El flujo de trabajo detalla la adquisición de datos duros sin procesar de las
Dónde:
Inferencia bayesiana
1. Escalable
2. idempotente
El flujo de trabajo
una. Identifique el número de tipos notables en los datos que contienen una
distribución T2 a lo largo de un intervalo de profundidad. b. Encuentre los
poro-fluido. b. Invertir para todos los volúmenes de los constituyentes del poro-fluido
para transformadas de permeabilidad.
Rechazar
Análisis de curvas • Intervalos de Confianza
arranque
Metodología Módulo • Simulación Monte Carlo •
Metodología Estadística
• Indicadores clave de
Procesamiento de datos producción • Factores
flujo de trabajo estadísticos • Pozo bueno/malo
Perfiles de rendimiento
Agrupación:
Grupo de Pozos
A Baja Porosidad, Alta
Permeabilidad, Baja Producción,
Alta Presión, Flujo, etc.
El proceso FDA analiza datos que son infinitos desde una perspectiva
dimensional. Los datos de producción de petróleo y gas se muestrean
discretamente a lo largo de la serie de tiempo en estudio. Estas medidas
discretas se toman con una periodicidad regular o irregular en el dominio
del tiempo (t ÿ (l, T)), asumiendo que las medidas se originan a partir de
un proceso fluido corrompido por el ruido.
REFERENCIAS
Hall, Patrick, Jared Dean, Ilknur Kaynar Kabul y Jorge Silva, "An Overview of
Machine Learning with SAS® Enterprise Miner™", artículo SAS313-2014,
SAS Institute Inc. (2014).
Hall, Patrick, Ilknur Kaynar Kabul, Jorge Silva, Keith Holdaway y Alex Chien,
“An Efficient Pattern Recognition Approach with Applications”, artículo
SAS3100-2016, SAS Institute Inc. (2016).
Hastie, T., R. Tibshirani y J. Friedman, Los elementos del aprendizaje
estadístico, la minería de datos, la inferencia y la predicción, 2.ª ed.,
Springer (2008).
Hinton, GE y RR Salakhutdinov, "Reducción de la dimensionalidad de los datos
con redes neuronales", Science, 313 (28 de julio de 2006): 504.
DOI: 10.1126/ciencia. 1127647.
Krizhevsky, A., I. Sutskever y GE Hinton, "Clasificación de ImageNet con redes
neuronales convolucionales profundas". En: Avances en sistemas de
procesamiento de información neuronal 25 (NIPS 2012), Actas de la
Conferencia anual sobre sistemas de procesamiento de información
neuronal (2012), págs. 1097–1105.
LeCun, Yann, Leon Bottou, Yoshua Bengio y Patrick Haffner, "Aprendizaje
basado en gradientes aplicado al reconocimiento de documentos"
IEEE (noviembre de 1998).
Machine Translated by Google
Glosario
Variable binaria Una variable binaria tiene solo dos valores distintos. un binario
La variable puede ser tratada legítimamente como nominal, ordinal, de intervalo o alguna
razón de tiempo.
CAPEX Los gastos de capital son gastos que crean beneficios futuros.
Se incurre en un gasto de capital cuando una empresa gasta dinero
comprar activos fijos o agregar al valor de un activo fijo existente con un
vida útil que se extienda más allá del año contributivo.
Variable categórica Una variable categórica se utiliza para la exclusividad mutua. No es una
categoría ordenada. Por ejemplo, los geofísicos podrían comparar
diferentes atributos sísmicos. Podemos codificar estos atributos con valores numéricos
Es si el orden es arbitrario y cualquier estimación no tiene valor.
314
Machine Translated by Google
GLOSARIO 315
CDP En la adquisición sísmica multicanal donde los lechos no se inclinan, el punto de reflexión
común en la profundidad de un reflector, o el punto medio cuando
una onda viaja desde una fuente a un reflector a un receptor. En el caso de piso
capas, el punto de profundidad común está verticalmente debajo del punto medio común.
Variable de clase Una variable de clase es una variable objetivo categórica y la clasificación
significa asignar casos a categorías de una variable dependiente.
Una variable de clase es una variable categórica, ya sea una entrada o un destino.
CRM La gestión de las relaciones con los clientes es un modelo para gestionar las interacciones
de una empresa con los clientes actuales y futuros. Implica el uso de tecnología para organizar,
automatizar y sincronizar las ventas, el marketing, el servicio al cliente y el soporte técnico.
DAS Los sistemas de detección acústica distribuida (DAS) aprovechan los cables de fibra
óptica que constan de una o varias fibras ópticas que se utilizan para transmitir la luz. Es una
tecnología emergente que encuentra sus raíces en todo el Departamento de Defensa.
Análisis de la curva de declinación DCA . Una determinación empírica de las curvas tipo con
base en datos históricos de producción para pronosticar el desempeño del pozo y estimar la
recuperación final.
Árbol de decisión Los árboles de decisión son modelos que permiten la clasificación de obser
vaciones basadas en objetivos nominales, binarios u ordinales. Es una jerarquía con cada
segmento llamado nodo de un árbol.
Machine Translated by Google
316 GLOSARIO
Deep Learning El estudio de las redes neuronales artificiales en una arquitectura multicapa.
DHI En sismología de reflexión, un punto brillante es una anomalía local de atributo sísmico
de gran amplitud que puede indicar la presencia de hidrocarburos y se conoce como
indicador directo de hidrocarburos.
Análisis discriminante El análisis discriminante clasifica filas de datos definidos por valores
de variables continuas en grupos o segmentos discretos.
DOFF Digital Oilfields of the Future se define por la forma en que la industria petrolera
implementa su tecnología, personas y procesos para respaldar la optimización de la
producción de hidrocarburos, mejorar la seguridad operativa, proteger el medio ambiente y
maximizar y descubrir reservas.
E&P Cadena de exploración y producción que cubre todos los pasos del upstream:
exploración, evaluación, desarrollo, producción y
intervención.
EOR Recuperación mejorada de petróleo es un término genérico para las técnicas para
aumentar la cantidad de petróleo crudo que se puede extraer de un campo petrolero.
Aprendizaje automático factorizado Las máquinas factorizadas (FM) pueden modelar toda
la familia de posibles interacciones entre las variables mediante la adopción de parámetros
factorizados. El uso de FM permite a los geofísicos y petrofísicos estimar las interacciones
en conjuntos de datos escasamente poblados.
GLOSARIO 317
conjuntos binarios (donde las variables pueden tomar valores verdaderos o falsos) las
variables de lógica difusa pueden tener un valor de verdad que varía en grado entre 0 y 1.
LAS Log ASCII Standard es el formato de intercambio de datos para el registro de datos
de pozos. Mantenido aquí: http://www.cwls.org/las/.
Aprendizaje automático Una rama de la inteligencia artificial que brinda a los científicos
de datos la capacidad de desarrollar algoritmos que aprenden de un flujo de trabajo
basado en datos y predicen en función de patrones históricos.
NPT Tiempo improductivo cuando los pozos de petróleo y gas no están produciendo
debido a mantenimiento o cierre para pruebas.
318 GLOSARIO
El gasto operativo OPEX es un costo continuo para ejecutar una estrategia de petróleo y gas
en toda la cadena de valor de exploración y producción.
Variable ordinal El orden es importante, pero cualquier diferencia entre los valores es
irrelevante. Por ejemplo, un petrofísico podría expresar la dureza de una roca utilizando la
escala de Moh del 1 al 10. Sin embargo, una puntuación de 8 significa una roca más dura que
una de 6, y eso es más de 4, pero la
No es lo mismo la diferencia entre 8 y 6 que entre 6 y 4.
OWC El contacto con el agua es un término utilizado en la industria de los hidrocarburos para
describir la elevación por encima de la cual se pueden encontrar fluidos distintos del agua en el
Mínimos cuadrados parciales Los mínimos cuadrados parciales son una metodología útil para
extraer las variables de entrada latentes que explican la mayor variación en el objetivo predicho.
Petrofísica El estudio de las propiedades físicas y químicas de las rocas y las interacciones
con los hidrocarburos y otros fluidos.
Bosques aleatorios Un bosque aleatorio recopila un grupo de árboles de decisión, cada uno de
los cuales representa un subconjunto asociado aleatoriamente de los datos originales y luego
determina un resultado predictivo a partir de la metodología de conjunto.
Variable de razón Una variable de razón es como una variable de intervalo y tiene un
valor definido de 0.0. El peso del apuntalante en una estrategia hidráulica es una variable de
razón, pero la temperatura no lo es, ya que 100° C no es el doble de caliente que 50° C, sino
1000 lbs. es el doble de 500 libras.
Regresión La regresión lineal se esfuerza por predecir el valor de un objetivo de intervalo como
una función lineal de una o más entradas independientes. Sin embargo, el método de regresión
logística predice la probabilidad de que una variable dependiente ordinal o binaria alcance el
evento en estudio en función de una o más entradas independientes.
Machine Translated by Google
GLOSARIO 319
Basadas en reglas Las técnicas basadas en reglas pertenecen a la misma familia de métodos de
computación blanda que los árboles de decisión. Sin embargo, no existe una partición jerárquica rígida
del conjunto de entrenamiento para los flujos de trabajo basados en reglas.
El drenaje por gravedad asistido por vapor SAGD es una tecnología mejorada de recuperación de
petróleo para producir petróleo crudo pesado y betún.
Técnicas de Soft Computing Los flujos de trabajo y las metodologías que reúnen los pasos
necesarios para construir un modelo probabilístico. La definición permite a los geocientíficos upstream
muestrear datos, explorar los datos en busca de patrones, modificar los datos para el cumplimiento
estadístico y luego generar modelos.
Máquina de vectores de soporte Las máquinas de vectores de soporte (SVM) utilizan condiciones
lineales para aislar las clases entre sí. La metodología conocida como SVM ejecuta una clasificación
lineal binaria así como una clasificación no lineal. Utiliza un mapeo de los datos geofísicos y
petrofísicos de entrada en un espacio de características de alta dimensión.
TOC El compuesto orgánico total es la cantidad de carbono en un compuesto orgánico como los
hidrocarburos.
UCM El modelo descompone los datos temporales en tendencias, ciclos y efectos de regresión.
WAG El proceso de inyección WAG tiene como objetivo exprimir más petróleo de un yacimiento.
Originalmente tenía la intención de mejorar la eficiencia de barrido durante la inundación de gas, con
gotas intermitentes de agua y gas diseñadas para seguir la misma ruta a través del depósito.
Módulo de Young Una medida de elasticidad, igual a la relación entre la tensión que actúa sobre una
superficie inferior y la deformación producida.
Machine Translated by Google
Mejorar Aceite & Gas Exploración con geofísicos basados en datos y Modelos petrofísicos , Primera edición., Keith R.
Holdaway y Duncan HB Irving. © 2018 por
SAS Institute Inc. Publicado en 2018 por John Wiley & Sons, Inc.
Índice
A ingeniería de características en
priori 236 Abdul- registros de pozos 95–98
Rahman, A. conocimientos fundamentales 92–95
Modelado de datos espaciales integración con otros
para 3D GIS 23 Controlado con dominios técnicos 90–91
precisión y integración con otra información de
Señal operada rutinariamente pozos 90 integración con datos
Sistema (ACROSS) 103 estratigráficos 87–89 aprendizaje
impedancia acústica 143, 230, 314 automático 98 información
estratigráfica 86 casos de uso 98
A TRAVÉS (Con precisión registro de pozos 78–82 datos de
Controlada y Rutinaria registro de pozos 84–86 agrupamiento
sistema de señal operado) aglomerativo 190–192
103
funciones de activación 53
mapa de activación/características
257 sistemas de lógica neuro-difusa IA (inteligencia artificial) sobre
adaptativa 141 flujos de trabajo 64–65, 241–243 gestión de
analíticos avanzados 280 datos 243 técnicas de
metodologías geofísicas aprendizaje profundo 247–251
avanzadas alrededor de 69–70
estudios de casos 72–78 red neuronal profunda
grupos 70–72 metodologías arquitecturas 251–268
petrofísicas avanzadas alrededor metodologías de aprendizaje
de 69, 99 recopilación de datos automático 243–247 flujo de
82–84 calidad de datos 82–84 tipos trabajo de identificación de
de datos 78–82 extracción de características sísmicas 268–274
información de informes de pozos Información de Akaike
89–90 Criterio (AIC) técnicas 200–204
criterio de caja alineada 274 altitud,
peso, sesgo y 52
323
Machine Translated by Google
324 ÍNDICE
ÍNDICE 325
326 ÍNDICE
ÍNDICE 327
328 ÍNDICE
ÍNDICE 329
F
Duda, RO 186 DWT segmentación de facies 69–70
(transformación wavelet máquina de factorización (FM) 62
discreta) 157 aprendizaje aprendizaje automático factorizado 62,
automático dinámico (DML) 105 316 Fagan, DK 159–160
transformada rápida de Fourier (FFT)
149, 316 volúmenes de fallas 143 fallas
mi 143 FDA (análisis de datos
EC (computación evolutiva) 62–64 funcionales) 306–307 ingeniería de
características en pozo registra 95–98
EDA (datos exploratorios en flujo de trabajo para datos
análisis) 38, 113, 316 filtro
de detección de bordes 257
enfoque de reconocimiento de
patrones eficiente 268–270
recuperación mejorada de petróleo conceptos 28–29
(EOR) 123, 316 metodología de retrasos de retroalimentación
conjunto 48–50, 316 función de error 260–261 redes feedforward 51
de entropía 59 FFT (transformada rápida de Fourier)
149, 316
Machine Translated by Google
330 ÍNDICE
ÍNDICE 331
332 ÍNDICE
METRO
ÍNDICE 333
MetaPhase 235
método de indivisibles 31 función logística múltiple 53 variables
metodologías 180 multivariantes 142, 209 variables
Ver también metodologías multivariantes 142, 209
específicas mineralogía 143
ML (aprendizaje automático)
alrededor de 40, 64–65, 98, MWD (medición durante la
243–244, 277 definido perforación) 253
317 influencia de 104
metodologías 243–247 norte
334 ÍNDICE
ÍNDICE 335
q
Garantía de calidad (QA) 119–
Modelado de datos espaciales para 122
3D GIS 23 método de ajuste cuadrático, para
información de planificación 91 análisis discriminante 47 método
PLS (mínimos cuadrados de predicción cualitativa 108–109
parciales) 50–51, 318
PLT (herramienta de registro de producción) control de calidad (QA) 119–
118 122
Función de error de distribución método de predicción
de Poisson 59 cuantitativa 108–109
Relación de Poisson (Vp/Vs) 143,
318 porosidad 143 R
funciones de combinacion radial
Fase posterior 235 valores 52
pronosticados, funciones de Rahman, L. 96
error y 52 filtro de error bosques aleatorios 59, 318
de predicción (PEF) 163 modelado relación variable 43, 318
predictivo, herramientas para Ondas de Rayleigh 164 RBM
(máquinas de Boltzmann restringidas)
40 252–253, 294–297 RDNN (red
preprocesamiento 189–190 neuronal profunda recurrente)
análisis de transitorios de presión 260–261 calidad de datos en tiempo
(PTA) 129 real 119–122
análisis de componentes principales
(PCA) 93, 106–107, 146, 165,
169, 185, 198–200, 318 función recíproca 53 mapa
de características rectificadas 258–259
Función de densidad de probabilidad red neuronal profunda recurrente
(PDF) 230, 235 (RDNN) 260–261
dominio del problema 11–13 función de error del estimador M
proceso 180 análisis de brechas redescendente 58
de producción 112–116 parámetros de reflexión 188
regresión 45, 318
Machine Translated by Google
336 ÍNDICE
ÍNDICE 337
106–107
descomposición espectral
54 atributo 159–160, 180 codificador
mapas autoorganizados (SOM) 135– automático apilado 272–274 codificador
138, 146–147, 185, 194–195, 319 automático de eliminación de ruido apilado
262–268
Machine Translated by Google
338 ÍNDICE
ÍNDICE 339
tu Veezhinathan, J. 161
UCM (modelo de Vincent, P. 274 Vp/Vs
componentes no (relación de Poisson) 143, 318
observados) 113–116, 165–166, 319
aproximadores universales 58
componentes no W
observados WAG (agua-gas alternante) 182, 248,
modelo (UCM) 113–116, 165– 319 contacto con agua 318
166, 319 datos no supervisados agua-gas alternante (WAG) 182, 248,
185, 319 análisis de ondículas alrededor
280–281 de 148–156 escalogramas de
aprendizaje no supervisado 245, ondículas 157–159
250–251 resultados no
supervisados 282–288 equipo de
ciencia de datos aguas arriba, escalogramas wavelet 157–159
componentes de 13–15 casos de sesgo de pesos, altitud y 52 datos
uso 98 definidos de 40 pozos integración
con otros
V
datos de validación 41 dominios técnicos 90–91
función de valor 53 integración con otra información
van Wijk, K. 159–160 VAR del pozo 90
(vector autorregresivo) 109 variables utilizado en la industria del petróleo y el gas
binario 43, 314 categórico 42, 36
314 clase 42, 315 intervalo 43, 317 evaluación basada en datos
multidimensional 142, 209 de registros de pozos
multivariante 142, 209 para obtener conocimientos
multivariante 142, 209 nominal petrofísicos estudio de caso 302–305
43, 317 ordinal 43, 318 ratio 43, ingeniería de características de registro
318 estocástico 209 de pozos en 95–98 tipos de datos
petrofísicos y
78–82
usos para datos 84–86
informes de pozos, extracción de
datos de 89–90
Machine Translated by Google
340 ÍNDICE
Wong, MA 71 flujos Y
de trabajo analíticos Módulo de Young 143, 319
avanzados 280 para
conceptos basados en datos Z
19–29 relleno con ceros
atributo sísmico 280 257 Zhang, X. 162
analítico enfocado 180–182 Zhuoyi, L. 124
Machine Translated by Google
Mejorar Aceite & Gas Exploración con geofísicos basados en datos y Modelos petrofísicos , Primera edición., Keith R.
Holdaway y Duncan HB Irving.
© 2018 por SAS Institute Inc. Publicado en 2018 por John Wiley & Sons, Inc.
320
Machine Translated by Google