IC - Sesión 4

Ingeniería del
conocimiento
El proceso de extracción de conocimiento
Unidad 1.
M.C. Ana Cristina Palacios García Sesión 4
Definición 1:
El proceso de extracción de conocimiento
• El proceso de extracción de conocimiento (KDD – Knowledge

Discovery form Databases) tiene como objetivo el descubrimiento de
conocimiento en bases de datos.
• Consta de cinco fases:

1. Integración y recopilación.
2. Selección, limpieza y transformación.
3. Minería de datos.
4. Evaluación e interpretación.
5. Difusión y uso.
2
Preparación de los datos (1)
1. Fase de integración y recopilación de datos
• Determinar las fuentes de información que pueden ser útiles y dónde conseguirlas.
• Para el KDD se requerirá el uso de:

• Datos internos de la organización (que a su vez pueden pertenecer a distintos departamentos de
una misma organización).
• Datos externos desde bases de datos públicas (como el censo, datos demográficos o
climatológicos).
• Bases de datos privadas (como los datos de compañías de pagos, bancarias, eléctricas o datos que
pertenezcan a diferentes organizaciones, etc.).
• Datos que son necesarios para el análisis y que no fueron recolectados en el ámbito de la
organización, por no ser necesarios para sus aplicaciones.
3
• El uso de tantas fuentes de datos representa un reto, ya que cada una

emplea diferentes formatos de registro, diferentes claves primarias,
diferentes tipos de error, etc.
• Para transformar los datos recopilados a un formato común

frecuentemente se utilizan los almacenes de datos (data warehouse):
• Permiten unificar la información recolectada, detectando y resolviendo
inconsistencias.
• Facilitan la “navegación” y visualización previa de sus datos, para determinar
los aspectos interesantes que puedan ser estudiados.
4
Almacén:
Es un
A repositorio de
Bases información
de Integración Almacén de coleccionada

B almacenamiento limpieza
de varias
datos datos fuentes,
almacenada
bajo un
C esquema que
normalmente
Integración en un almacén de datos. reside en un
único lugar.
5
• Hay varias formas para mezclar las distintas bases de datos para crear el
repositorio o almacén:
1. Hacer una copia de las bases de datos (eliminando inconsistencias y
redundancias).
• No aplicaría a bases de datos heterogéneas.
2. Usar almacenes de datos.

• Se construyen a través de un proceso de integración y almacenamiento en un nuevo
esquema integrado.
6
Almacén de datos (1)
• Los almacenes de datos o Data Warehouses permiten:
• Disponer de sistemas de información de apoyo a la toma de decisiones (DSS o

Decision Support Systems).
• Disponer de bases de datos que permitan extraer conocimiento de la

información histórica almacenada en la organización.
• Son bases de datos diseñadas con un objetivo de explotación (orientadas

al análisis), distinto al de las bases de datos de los sistemas operacionales
(orientadas al proceso).
7
• Un almacén de datos es:

• Una colección de datos diseñada para dar apoyo a la toma de decisiones
orientada hacia la información relevante de la organización.
• Se diseña para consultar eficientemente información relativa a las actividades
básicas de la organización como ventas, compras y producción, y no para
soportar los procesos que se realizan en ella como gestión de pedidos,
facturación, etc.
• Integra datos recogidos de diferentes sistemas operacionales de la organización
y/o fuentes externas (integrada).
• Los datos son relativos a un periodo de tiempo y deben ser incrementados
periódicamente (variable en el tiempo).
• Los datos almacenados no son actualizados, sólo son incrementados (no
volátiles).
8
Ventajas para las organizaciones:

• La rentabilidad de las inversiones realizadas para su
creación.
• Aumento de la competitividad en el mercado.
• Aumento de la productividad de los técnicos de dirección.
• Permiten tratar con grandes volúmenes de datos, o datos
que provienen de fuentes heterogéneas y cuando
aumentan con el tiempo.
9
• Componentes típicos de un almacén de datos son:
• Sistema ETL (Extraction,Transformation, Load).
• Realiza las funciones de extracción de las fuentes de datos (transaccionales o externas),
transformación (limpieza, consolidación,…) y la carga del almacén de datos.
• Un Repositorio Propio de datos con información relevante o metadatos.
• Interfaces y Gestores de Consulta que permiten acceder a los datos conectándose sobre ellos
herramientas más sofisticadas:
• OLAP.
• Minería de datos.
• …
• Sistemas de Integridad y Seguridad que se encargan de un mantenimiento global, copias de

seguridad, etc.
10
• Diferencias entre almacén de datos y un sistema operacional
OLTP (On-LineTransactional Processing).
11
Base de datos vs Almacén de datos
12
• OLAP
OLAP: vs Minería de datos • Es un proceso deductivo.
• Los usuarios utilizan • Minería de datos:

la
herramienta para obtener
información agregada a partir de
• Usa los datos para encontrar
patrones, en lugar de solo verificar
información detallada,
patrones hipotéticos.
combinando la información de
manera flexible. • Es un proceso inductivo.
• Obtienen informes y vistas Ambos tipos de herramientas se
sofisticadas en tiempo real. complementan, es posible usar OLAP al
principio del proceso KDD para explorar
• OLAP permite comprobar los datos (e.g. para centrar nuestra
rápidamente patrones y pautas atención en las variables importantes,
hipotéticas sugeridas por el identificar excepciones o encontrar
usuario con el objetivo de interacciones), ya que cuanto más
comprendamos de los datos más efectivo
verificarlas o rechazarlas.
será el proceso de descubrir conocimiento.
13
• Una vez almacenada la información en una Data Warehouse

(almacén de datos), se aplican sobre ella las técnicas de
minería de datos de modo óptimo.
• Los almacenes de datos constituyen una organización ideal de la
información para aplicar sobre ella las técnicas de extracción del
conocimiento o minería de datos.
• Sin embargo, los almacenes de datos no son imprescindibles

para hacer extracción del conocimiento a partir de los datos.
• Es posible hacer minería de datos sobre un simple archivo de datos.
14
• Debido a que los datos provienen de fuentes diversas,

pueden contener:
• Valores erróneos.
• Valores faltantes.
15
2. Fase de selección, limpieza y transformación
• En esta fase se eliminan o corrigen los datos incorrectos.
• Se determina qué hacer (estrategia a seguir) con los datos incompletos.
• Se eligen las variables o atributos relevantes, con el objetivo de:

• Realizar con mayor facilidad la tarea de minería de datos.
• Para que los resultados (modelos) tengan mayor utilidad.
16
Importancia de ésta fase:

• Ya que la calidad del conocimiento descubierto depende
además del algoritmo de minería utilizado, de la calidad de
los datos minados.
17
• Este paso es necesario debido a que:

• Algunos de los datos coleccionados en la etapa anterior son irrelevantes o innecesarios para
la tarea de minería que se desea realizar.
• Algunos valores no se ajustan al comportamiento general de los datos (outliers).

• Pueden representar errores en los datos.
• Pueden ser valores correctos que son diferentes a los demás.
• Generalmente se ignoran estos datos (se consideran como ruido o excepciones).
• Presencia de valores faltantes o perdidos.

• Hay que reflexionar sobre qué los originó antes de tomar una decisión sobre qué hacer con
ellos
18
• Además de tener datos con buena calidad, es importante el

proporcionar a los métodos de minería de datos el subconjunto de
datos más adecuado para resolver el problema.
• Por lo cual es necesario seleccionar los datos apropiados.
• La selección incluye:
• Selección en forma vertical (columnas o atributos).
• Selección en forma horizontal (filas o registros).
19
• La selección de atributos es uno de los pre-procesamientos más importantes:

• Los atributos seleccionados deben ser relevantes para la tarea de minería de datos.
• Si la selección de atributos relevantes no se realiza:

• Podríamos usar todas las variables y dejar que la herramienta de minería de datos pruebe
hasta elegir las mejores variables predictoras.
• Esto implica:
• Incremento en el tiempo requerido para construir un modelo.
20
• La selección de registros también es importante, ya que aún cuando es

posible emplear todos los datos disponibles.
• Tomaría mucho tiempo la obtención de un modelo.
• Probablemente se requeriría de una máquina más potente.
• Por lo cuál generalmente se utiliza una muestra (sample) de los datos.
• La selección de la muestra debe ser hecha cuidadosamente para

asegurar que es verdaderamente aleatoria.
21
• Además de la selección de atributos, en esta fase también se

construyen automáticamente nuevos atributos:
• La finalidad es que estos nuevos atributos faciliten el proceso de minería.
• Se obtienen aplicando alguna operación o función a los atributos originales.
• Se emplea cuando los atributos originales no tienen mucho poder
descriptivo por sí mismos…
22
• Finalmente, en esta fase se modifica el tipo de los atributos para

facilitar el uso de técnicas que requieren tipos de datos específicos:
• Algunos atributos se pueden numerizar:
• Para reducir el espacio.
• Para emplear técnicas numéricas.
• Algunos atributos se pueden discretizar:

• Es decir, transformar valores numéricos en atributos discretos o nominales.
• La idea es partir los valores de un atributo continuo en una pequeña lista de
intervalos, tal que cada intervalo sea visto como un valor discreto del atributo.
23
24

IC - Sesión 4

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

IC - Sesión 4

Cargado por

Copyright:

Formatos disponibles

Ingeniería del

• El proceso de extracción de conocimiento (KDD – Knowledge

• Consta de cinco fases:

1. Fase de integración y recopilación de datos

• Para el KDD se requerirá el uso de:

• El uso de tantas fuentes de datos representa un reto, ya que cada una

• Para transformar los datos recopilados a un formato común

de Integración Almacén de coleccionada

1. Fase de integración y recopilación de datos

2. Usar almacenes de datos.

• Los almacenes de datos o Data Warehouses permiten:

• Disponer de sistemas de información de apoyo a la toma de decisiones (DSS o

• Disponer de bases de datos que permitan extraer conocimiento de la

• Son bases de datos diseñadas con un objetivo de explotación (orientadas

• Un almacén de datos es:

Ventajas para las organizaciones:

• Un Repositorio Propio de datos con información relevante o metadatos.

• Sistemas de Integridad y Seguridad que se encargan de un mantenimiento global, copias de

• Los usuarios utilizan • Minería de datos:

• Una vez almacenada la información en una Data Warehouse

• Sin embargo, los almacenes de datos no son imprescindibles

1. Fase de integración y recopilación de datos

• Debido a que los datos provienen de fuentes diversas,

2. Fase de selección, limpieza y transformación

• En esta fase se eliminan o corrigen los datos incorrectos.

• Se determina qué hacer (estrategia a seguir) con los datos incompletos.

• Se eligen las variables o atributos relevantes, con el objetivo de:

2. Fase de selección, limpieza y transformación

Importancia de ésta fase:

• Este paso es necesario debido a que:

• Algunos valores no se ajustan al comportamiento general de los datos (outliers).

• Presencia de valores faltantes o perdidos.

2. Fase de selección, limpieza y transformación

• Además de tener datos con buena calidad, es importante el

2. Fase de selección, limpieza y transformación

• La selección de atributos es uno de los pre-procesamientos más importantes:

• Si la selección de atributos relevantes no se realiza:

2. Fase de selección, limpieza y transformación

• La selección de registros también es importante, ya que aún cuando es

• La selección de la muestra debe ser hecha cuidadosamente para

2. Fase de selección, limpieza y transformación

• Además de la selección de atributos, en esta fase también se

• Finalmente, en esta fase se modifica el tipo de los atributos para

• Algunos atributos se pueden discretizar:

También podría gustarte