Está en la página 1de 19

1.

La acquisition del conocimiento


a) Mineria de texto

El proceso de minera de texto se ha realizado con el apoyo de PhDic.

Los resultados obtenidos durante este proceso son conocimiento explcito y tcito. Se pueden encontrar
en el Diccionario de palabras, lista de conceptos y Tuplas obtenidos durante el proceso. El proceso de
minera de texto y los resultados se describen a continuacin segn la informacin mostrada en la Figura
3.2 y la descripcin presentada en Miura (2003).

Figura 3.2 Proceso de


minera de texto con
PhDic.
1. (Usuario) Seleccione un conjunto S de textos a procesar (es decir, base de datos). En este caso, S
corresponde a la base de datos de BSEE compuesta por 352 alertas de seguridad;

2. Elabore un diccionario de palabras. Este es el primer proceso interactivo entre el usuario y PhDic:

a. (PhDic) Bsqueda de palabras en S generando una lista D de palabras clasificadas por radicales y
asociadas a sus sufijos, frecuencias y relevancia (TF-IDF)

b. (Usuario) Corrija la relevancia de la lista de palabras D (es decir, reemplace TF-IDF por entropa de
Shannon), organice las palabras por relevancia (la ms relevante siempre debe estar en la parte superior
de la lista), deseche la informacin que considere ruido y seleccione Las palabras con un significado
relevante en el contexto del anlisis. Por ltimo dar una gramtica G para cada palabra (G (K)
especialistagramtica). La gramtica especializada en este paso ha sido: MNO = verbo o sustantivo, y
mno = palabras que no sean verbos o sustantivos.

Como resultado de este proceso interactivo se genera el diccionario de palabras D (Figura 3.3).
Obsrvese que en esta aplicacin el diccionario de palabras generadas engloba informacin de
seguridad en las actividades de O & G Offshore, pero debe variar segn el contenido de la base de datos
utilizada.

Figura 3.3 Conocimientos explcitos y tcitos de una muestra de "Diccionario de palabras" obtenida por
PhDic.
3. Elaborar una lista de conceptos. Es el segundo proceso interactivo:

a. (PhDic) Utilizando el diccionario de palabras se procesa de nuevo el conjunto de textos, esta vez para
encontrar agrupaciones de palabras (denominadas argumentos por PhDic) en los textos segn la
gramtica especializada G (K). A continuacin, se genera la lista de argumentos con su respectiva
frecuencia de ocurrencia.

b. (Usuario) Corrija la relevancia de la lista de argumentos, selecciona los argumentos con significado
relevante (es decir, el 20% de conglomerados con mayor entropa). En este paso, el experto puede
refinar la gramtica o ajustar manualmente los argumentos para generar una lista de conceptos. Por
ejemplo, implementar la forma negativa de algunas palabras en la lista, agregando o Eliminarlos (es
decir, cambiar MNO + mno a MNO o mno, o incluso aMNO + mno + mno). Adems, el usuario asocia
cada agrupacin a una frase semntica de acuerdo con su significado en la base de datos (por ejemplo, a
la agrupacin "result_fire", la frase semntica es "Fuego resultado de la ignicin de fluidos")

Como resultado de este proceso interactivo, se genera la lista de conceptos que contienen palabras
relevantes o agrupaciones de palabras (20% con mayor entropa) que tienen un fuerte significado en el
contexto analizado. En este caso, esta lista trata sobre la seguridad en la industria offshore O & G.

Figura 3.4 Muestra de la lista de conceptos proporcionada por el PhDic.

Tenga en cuenta que en el diccionario de palabras la informacin de "No. Docs "se clasifica como
conocimiento explcito y dentro de la lista de conceptos se le clasifica como conocimiento tcito. Porque
es posible encontrar una palabra en la base de datos utilizando mtodos de bsqueda tradicionales,
pero es muy difcil encontrar dos palabras con el mismo significado contenido en las oraciones de una
gran base de datos.

4. Encuentre las Tuplas. Esta informacin es proporcionada por PhDic al usuario.


A) (PhDic) Procesar el conjunto de textos de nuevo, utilizando la lista de conceptos generados en el paso
anterior, esta vez para encontrar los documentos que contengan

Argumentos

El resultado obtenido en esta etapa es "tuplas" que es una lista de documentos asociados a grupos de
palabras que les pertenecen.

Una muestra de esta lista se presenta en la Tabla 3.1. Recuerde que un argumento puede repetirse en
uno o ms documentos de la base de datos. Ayuda a determinar el tema principal del documento o base
de datos. El documento de informacin y los argumentos se consideran conocimientos explcitos.

Tabla 3.1 Muestra de Tuplas suministradas por PhDic

Documents Arguments

SA_002-ShallowDrillingHazards.txt drill_case

SA_002-ShallowDrillingHazards.txt drill_while

SA_002-ShallowDrillingHazards.txt drill_pipe

SA_002-ShallowDrillingHazards.txt drill_well

SA_002-ShallowDrillingHazards.txt drill_well

SA_002-ShallowDrillingHazards.txt drill_well

SA_004-FlashFireCuttingandWelding.txt ignit_ga

SA_004-FlashFireCuttingandWelding.txt instal_oper

SA_004-FlashFireCuttingandWelding.txt extinguish_fire

SA_004-FlashFireCuttingandWelding.txt extinguish_fire

SA_004-FlashFireCuttingandWelding.txt extinguish_fire

SA_004-FlashFireCuttingandWelding.txt occur_fire
O Zona I: esta zona contiene la informacin que ocurre con ms frecuencia en la base de datos. Se
considera que esta zona contiene informacin trivial porque generalmente contiene informacin
ampliamente conocida, que no muestra beneficios para mejorar la adquisicin de conocimientos.

O Zona II: esta zona presenta informacin interesante y potencialmente innovadora. En la aplicacin de
la metodologa en la base de datos de BSEE, la informacin de alertas de seguridad sobre causas,
consecuencias y recomendaciones para la ocurrencia de eventos indeseables se han obtenido de esta
zona.

O Zona III: esta zona presenta informacin menos frecuente contenida en la base de datos, esta
informacin podra corresponder a investigaciones emergentes, informacin mal conocida o errores
tipogrficos.

Figura 3.5 Frecuencia de una muestra de argumentos.

2) Agrupacin de conceptos

Esta tarea se realiza con la informacin de la lista de conceptos generados en el proceso de minera de
texto, de acuerdo con caractersticas o definiciones mutuas que abarcan varios de esos conceptos.

Cuadro 3.2 Definiciones de grupos.


Accidente o
Incidente:
Es cualquier evento no planeado e indeseable que caus o Potencial para causar lesiones
personales o problemas saludables, dao o prdida de propiedad, instalaciones o ambiente.
Causa o
Condicin:
Algo que precede a un fenmeno. Algo o alguien que Hace que algo suceda o exista.
Consecuencia:
Algo que sucede como resultado de una accin particular o conjunto de Condiciones. El
resultado de un accidente.
Operacional:
Entorno o lugar donde se realizan las operaciones (por ejemplo, plataforma de perforacin).
Ambiente:
Objetos, equipos, dispositivos, etc., pertenecientes a un operativo.
Operacin:
Procedimiento realizado con el objetivo de construir el pozo. Esto involucra operaciones en
actividades de perforacin, terminacin y workover.

El uso de la informacin agrupada de la base de datos de BSEE fue posible para mapear cuatro
entornos operacionales presentados en la Figura 3.7 Esta informacin se utiliz para filtrar los
datos y encontr alertas de seguridad sobre las operaciones de ingeniera de pozos
Figura 3.7 Entornos Operacionales encontrados en la base de datos de BSEE sobre la
Industria Offshore O & G. A) Plataforma de perforacin, b) Buque de suministro, c)
Helicptero, d) Plataforma de produccin.

3.2. Proceso de filtrado


Si la base de datos contiene varios temas y el usuario est buscando informacin especfica,
se puede realizar un proceso de filtrado. El proceso consiste en utilizar los conceptos clave
que se encuentran en el proceso de minera de texto.
Los "conceptos clave" son una o ms palabras que representan una idea que podra ser
fcilmente comprensible en un rea particular de estudio. En este ejemplo, los conceptos
clave pertenecientes al grupo de entorno operativo se utilizarn en el proceso.

Los conceptos pertenecientes al grupo de entorno operativo son: plataforma de


perforacin, buques de suministro, helicptero y plataforma de produccin. Antes de
explicar el proceso de filtrado, se aclara la razn para elegir a estos grupos.
Obs: Los sinnimos de estos conceptos tambin fueron considerados como el mismo
concepto o como un subgrupo del concepto, por ejemplo, "Plataformas de perforacin en
alta mar", "Jackup" y "Anillo de perforacin" tambin se consideraron como "Plataforma de
perforacin". Tenga en cuenta que "Jackup" tambin podra considerarse como un subgrupo
si se requiere un trabajo con ms detalles.

Se podran realizar diferentes operaciones desde estos entornos operacionales. Desde las
plataformas de perforacin, las operaciones de construccin de pozos podran realizarse.
Las reparaciones o actividades logsticas se realizan desde buques de suministro y
helicpteros. Y las actividades de produccin se ejecutan desde plataformas de produccin.
Tenga en cuenta que los buques de suministro y helicpteros tambin se utilizan en la
construccin de pozos o actividades de produccin, pero slo ocasionalmente.
Por lo tanto, se espera que usando los conceptos claves en el proceso de filtrado, la base de
datos podra ser separada en:
A. documentos relativos a las actividades de construccin de pozos;
B. documentos relativos a reparaciones y logstica;
C. documentos relativos a las actividades de produccin.
Despus de aclarar la razn de elegir el "entorno operativo" del grupo, se puede describir el
proceso de filtrado ilustrado en la figura 3.8.
La explicacin de la figura 3.8 se describe a continuacin.

1. (Usuario y PhDic) realizan el proceso de minera de texto como se explica en la Seccin


3.1.
2. Se obtienen resultados del proceso de minera de texto (es decir, diccionario de palabras,
lista de conceptos y tuplas).
3. (Usuario) Agrupar los conceptos de la "Lista de conceptos" de acuerdo con su definicin
presentada en la Tabla 3.2.
4. (Usuario) Responda a la pregunta: "Desea filtrar la base de datos?" En este caso la
respuesta es "S".
5. (Usuario) Elija Conceptos clave para filtrar la base de datos (es decir, MNO). Los conceptos
utilizados en este ejemplo fueron "plataforma de perforacin", "recipientes de suministro",
"helicptero" y "plataforma de produccin".
Para obtener la base de datos "Construccin de pozos", el concepto clave "
Rig "y los sinnimos fueron elegidos como MNO en el G (K) del diccionario adquirido en el
primer proceso de minera de texto, otras palabras se clasificaron como mno en el G (K).
Despus de clusters PhDic cada MNO con cada mno perteneciente a las tuplas de base de
datos se generan. A partir de la lista de tuplas, el usuario obtiene la informacin de las bases
de datos que contienen MNO que en este caso es "Drilling Rig" y sinnimos. Es la base de
datos de "construccin de pozos". El mismo proceso se ha realizado para adquirir las otras
bases de datos pero utilizando sus conceptos claves especficos.

Note de este proceso que el usuario no analiz la informacin o relevancia porque el


proceso se realiz slo para encontrar los documentos que contienen los conceptos clave
elegidos.
Con los conceptos clave mencionados se adquirieron las tres bases de datos esperadas y una
inesperada:
Base de datos A de construccin de pozos con 232 documentos.
Base de datos de reparacin y logstica B con 130 documentos.
Base de datos de actividades de produccin C, con 253 documentos.
Base de datos desconocida D con 6 documentos
La Figura 3.9 representa cmo se separ la base de datos de BSEE. El crculo amarillo
representa la base de datos "A" referente a la construccin de pozos que se encontr
utilizando el concepto clave "plataforma de perforacin". El crculo rojo representa la base
de datos "B" referente a reparaciones y logstica que se ha encontrado utilizando los
conceptos clave "recipiente de suministro" y "helicptero".
El crculo azul representa la base de datos "C" relativa a las actividades de produccin que se
ha obtenido utilizando el concepto clave "plataforma de produccin" en el proceso de
filtrado. Algunos documentos que no contienen los conceptos clave mencionados
anteriormente estn representados por un crculo prpura.

La ltima base de datos que contiene seis documentos es un conjunto inesperado de


documentos los 6 documentos fueron analizados y se descubri que su contenido describe
cierto tipo de accidente sin especificar el entorno operativo. El autor consider que estos
documentos no eran relevantes para el rea de inters (construccin de pozos) y fueron
descuidados.

En estudios futuros, si ocurre una situacin similar, el usuario debe leer los documentos y
decidir si son relevantes o no.

Ntese que la suma de los documentos de A. B. C y D. es ms de 352, que es la cantidad


total de documentos de la base de datos de BSEE. Esto se debe a que algunos documentos
se refieren a accidentes similares que ocurrieron en diferentes ambientes operacionales
(por ejemplo, Fuego que ocurri en una plataforma de perforacin y Fuego ocurri en el
buque de suministro, ambos relacionados con escape de gas y chispa de soldadura y ambos
estn descritos en la misma alerta de seguridad porque De su similitud). Entonces es posible
afirmar que las bases de datos obtenidas durante el proceso de filtrado estn relacionadas
(ver Figura 3.9).

El proceso de filtrado puede realizarse varias veces dependiendo de la informacin


requerida por el usuario, generalmente una vez es suficiente, pero depender de los
conceptos clave que el usuario elija.

6. (Usuario y PhDic) proceso de minera de texto se ha aplicado de nuevo, pero esta vez en
cada base de datos. Como el ejemplo es sobre la construccin de pozos, slo se
demostrarn estos resultados.
Comparaciones de las dos graficas 3.10y 3.11
De la comparacin de la Figura 3.11 y la Figura 3.12 es posible notar que la relevancia y la
frecuencia varan segn el nivel de informacin. En la base de datos de alertas de seguridad
de las actividades offshore de O & G, el accidente ms frecuente encontrado es "Fuego" y el
accidente ms relevante es "Evento de Flujo Desviador". Por otro lado, el accidente ms
frecuente para la construccin de pozos es "Blowout", pero los accidentes ms relevantes
en ambos casos son "Riser Disconnect" y "Diverter Flow Event".
Obsrvese que los conceptos ms frecuentes de la base de datos de BSEE sobre accidentes
(incendios y explosiones) coinciden con la informacin ampliamente reconocida en la
industria. Se les presta mucha atencin para evitar su recurrencia. Sin embargo, los
accidentes ms relevantes (evento de flujo de derivacin, prdida del control del pozo y
desconexin de la subida) son mal notados o reconocidos como riesgos latentes,
especialmente por el personal principiante.
Despus de encontrar conceptos relevantes sobre la construccin de pozos deben estar
relacionados, este proceso se describe a continuacin.

Proceso de Relacin de Conceptos


Este proceso se realiza sobre la base de la hiptesis de que "Toda la informacin contenida
en el mismo documento est relacionada de algn modo". En otras palabras, cada concepto
tiene una relacin directa con otros conceptos pertenecientes al mismo documento y una
relacin indirecta con otros pertenecientes a la base de datos. La figura 3.13 ayudar a
aclarar esta idea.
Figura 3.13 Muestra de relacin entre conceptos de dos documentos.

La Figura 3.13 es una representacin de conceptos relevantes encontrados en la base de


datos de BSEE. Cada punto representa un concepto relevante y los diferentes colores de
estos puntos representan grupos y subgrupos de la Tabla 3.1. El significado de los colores
usados en la Figura 3.13 son:
- Rojo: incidente o accidente
- Azul y azul claro: Entorno operativo y componentes ambientales
Orange: Operaciones
- Verde: Causa o condicin
- Purple: Consecuencias
- Negro: Otros
- Blanco con borde negro: Documentos.
Las lneas que conectan los diferentes puntos representan las relaciones entre los
conceptos. Las lneas azul claro representan la relacin entre los conceptos de SA008 (Safety
Alert No. 8) y las lneas verdes representan la relacin entre los conceptos que pertenecen a
SA005 (Safety Alert No. 5). Obsrvese que algunos puntos se cruzan varias veces y no slo
por un color de lnea significa que el concepto relacionado con ese punto existe en ambos
documentos y adems, aparecen varios.

1) Relacionar los conceptos, cada concepto encontrado en el proceso de minera de textos


ha sido relacionado con otros pertenecientes al mismo documento. A continuacin se
describe un ejemplo:
Imagine que la Tabla 3.3 es una lista de conceptos (A, B y C) pertenecientes al mismo
documento (SA_1). Al relacionar los conceptos se obtendr el cuadro 3.4.

2) Determinar la frecuencia de cada concepto en la base de datos, en este paso no se


tomar en cuenta la informacin "Documento".
Imagine que la frecuencia de ocurrencia de cada concepto en SA_1 es uno (1), es que cada
concepto ocurri una sola vez en ese documento. Ahora imagine que el documento SA_2
contiene los conceptos B, C y D y su frecuencia de ocurrencia es tambin uno (1) como se
muestra en la Tabla 3.5.
Obsrvese que en la Tabla 3.5 existen conceptos asociados de SA_1 que se repiten en
SA_2, entonces si se elimina la columna "documentos", se puede determinar la frecuencia
de los conceptos relacionados en la base de datos, ver Tabla 3.6.
BSEE como se muestra en la Tabla 3.7. Esta tabla muestra la informacin de:
Grupo al que pertenece el Concepto (C1)
Concepto (C1),
Conceptos asociados es Concepto (C2),
El nombre del documento al que pertenezcan ambos Conceptos (C1 y C2),
Frecuencia en la que aparecen ambos conceptos (C1 y C2) en el documento.
3.3. Difusin del Conocimiento
Con la informacin obtenida en procesos anteriores de la metodologa propuesta, fue
posible estructurar el conocimiento de tres maneras diferentes empleando tcnicas de
visualizacin.
Escenario 1: Para este escenario los analistas de datos se contemplan como usuarios finales.
Los grficos de datos son el tipo de estructura utilizada para este escenario. Las tablas de
datos comparan la informacin de la cantidad de Informes de Incidentes y Alertas de
Seguridad sobre el mismo incidente (fatalidades, lesiones, prdida de control de pozos,
derrames 50bbls, incendios / explosiones) clasificados por ao.
Este anlisis se ha realizado para determinar la efectividad que Safety Alerts tena para
evitar la recurrencia de eventos indeseables. A continuacin se describe el proceso para
construir esta primera estructura:
Elija las variables, para este ejemplo las variables son:
1) Tipo de incidentes que se obtuvieron del sitio web de BSEE (esta informacin se muestra
en la Figura 2.4);
2) Nmero de informes de incidentes, tambin obtenidos de la Figura 2.4;
3) Nmero de Alertas de Seguridad que se encontraron utilizando el tipo de accidente como
concepto clave en las listas de conceptos obtenidas en procesos previos de la metodologa;
4) Ao de publicacin de los informes de incidentes y
5) Ao de publicacin de las alertas de seguridad.
Construir la estructura, se utilizaron grficos de datos para este ejemplo con tres ejes, una
estructura se presenta aqu (ver Figura 3.14) para aclarar la idea.
La Figura 3.14 es un ejemplo de cmo se pudo determinar la efectividad de las alertas de
seguridad entre los aos, esta figura tiene ejes de rbol: (y1) cantidad de informes de
incidentes; (X) ao; Y (y2) cantidad de alertas de seguridad. Toda esta informacin sobre
"Fatalidades".
En esta figura toda la informacin presentada en color azul est relacionada con los
informes de incidentes y la informacin presentada en naranja est relacionada con las
alertas de seguridad.
La Figura 3.14 muestra informacin de los informes de incidentes y alertas de seguridad en
comparacin con el ao. Todos los crculos negros representan alertas de seguridad no
efectivas. Se consideraron no eficaces porque como las flechas negras indican que la
cantidad de informes de incidentes aument en los aos siguientes. Por otro lado, los
crculos rojos sealan alertas de seguridad efectivas, observe que las flechas rojas indican la
disminucin de los informes de incidentes en los aos siguientes.

Escenario 2: Este escenario contempla personas experimentadas que desarrollan tareas


especficas como aquellas que forman parte del personal operativo en plataformas offshore.
Este tipo de usuario final necesita informacin especfica de acuerdo con las operaciones
que ejecutan.

Por lo tanto, se ha estructurado la estructura denominada "relacin explcita" del


documento-ontologa. Esta estructura es similar a los mapas de rboles. Esta estructura se
ha desarrollado clasificando la informacin por operacin y relacionndola con la ontologa
operacional desarrollada por Miura (2004). Esta estructura se representa en la figura 3.15

Escenario 3: Este escenario tena la intencin de cumplir con los requisitos de los
principiantes del personal tcnico (usuarios finales), personas con poca o ninguna
experiencia que deberan aprender muchas cosas nuevas. En este caso la matrcula de una
persona con experiencia es muy importante porque los principiantes no saben qu
informacin es relevante para aprender, por lo que intentarn leer, entender y recordar
todo, pero como se explic en el captulo 1 es improbable. Adems, las oportunidades de
recordar informacin relevante cuando es necesario disminuye debido a la gran cantidad de
informacin estudiada.
Por lo tanto, el tiempo invertido en tratar de aprender todo podra considerarse como
prdida de tiempo y prdida de tiempo implican siempre prdida de dinero, pero stos no
son los nicos aspectos que importan porque la seguridad de las personas tambin es
importante.
La estructura desarrollada para este escenario es un "Grfico de conocimiento de mltiples
capas". Dicha estructura ha sido desarrollada por el autor, es un tipo de grfico de
conocimiento compuesto por varias capas que podran dividirse en tres modelos diferentes.
Esas capas, por sus caractersticas y funcin, se titulaban como "ndice Grfico", "Contenido
Grfico" y "Documentos Relacionados", la capa "Contenido Grfico" se construy utilizando
grficos de datos de radar. Los modelos de esas capas se muestran en la Figura 3.16.
Cada carta y capa fue construida y relacionada de acuerdo con las relaciones identificadas
en el proceso de conceptos relacionados.
Tenga en cuenta que "grfico" es el tipo de grfico generado para cada grupo de
informacin, y el "grfico de conocimiento" es el conjunto de grficos interrelacionados que
representan el conocimiento encontrado en la base de datos.

En este captulo se describen los procesos de la metodologa propuesta que


permite adquirir conocimientos relevantes, filtrar bases de datos, encontrar
informacin sobre temas especficos y construir estructuras de acuerdo a las
preocupaciones del usuario. Los resultados obtenidos de la metodologa se
describen en el siguiente captulo.

También podría gustarte