Está en la página 1de 24

Ingeniería del

conocimiento
El proceso de extracción de conocimiento
Unidad 1.
M.C. Ana Cristina Palacios García Sesión 4
Definición 1:
El proceso de extracción de conocimiento

• El proceso de extracción de conocimiento (KDD – Knowledge


Discovery form Databases) tiene como objetivo el descubrimiento de
conocimiento en bases de datos.

• Consta de cinco fases:


1. Integración y recopilación.
2. Selección, limpieza y transformación.
3. Minería de datos.
4. Evaluación e interpretación.
5. Difusión y uso.

2
Preparación de los datos (1)

1. Fase de integración y recopilación de datos

• Determinar las fuentes de información que pueden ser útiles y dónde conseguirlas.

• Para el KDD se requerirá el uso de:


• Datos internos de la organización (que a su vez pueden pertenecer a distintos departamentos de
una misma organización).
• Datos externos desde bases de datos públicas (como el censo, datos demográficos o
climatológicos).
• Bases de datos privadas (como los datos de compañías de pagos, bancarias, eléctricas o datos que
pertenezcan a diferentes organizaciones, etc.).
• Datos que son necesarios para el análisis y que no fueron recolectados en el ámbito de la
organización, por no ser necesarios para sus aplicaciones.

3
Preparación de los datos (2)
1. Fase de integración y recopilación de datos

• El uso de tantas fuentes de datos representa un reto, ya que cada una


emplea diferentes formatos de registro, diferentes claves primarias,
diferentes tipos de error, etc.

• Para transformar los datos recopilados a un formato común


frecuentemente se utilizan los almacenes de datos (data warehouse):
• Permiten unificar la información recolectada, detectando y resolviendo
inconsistencias.
• Facilitan la “navegación” y visualización previa de sus datos, para determinar
los aspectos interesantes que puedan ser estudiados.
4
Preparación de los datos (3)
1. Fase de integración y recopilación de datos

Almacén:
Es un
A repositorio de
Bases información

de Integración Almacén de coleccionada


B almacenamiento limpieza
de varias
datos datos fuentes,
almacenada
bajo un
C esquema que
normalmente
Integración en un almacén de datos. reside en un
único lugar.

5
Preparación de los datos (4)

1. Fase de integración y recopilación de datos

• Hay varias formas para mezclar las distintas bases de datos para crear el
repositorio o almacén:
1. Hacer una copia de las bases de datos (eliminando inconsistencias y
redundancias).
• No aplicaría a bases de datos heterogéneas.

2. Usar almacenes de datos.


• Se construyen a través de un proceso de integración y almacenamiento en un nuevo
esquema integrado.

6
Almacén de datos (1)

• Los almacenes de datos o Data Warehouses permiten:

• Disponer de sistemas de información de apoyo a la toma de decisiones (DSS o


Decision Support Systems).

• Disponer de bases de datos que permitan extraer conocimiento de la


información histórica almacenada en la organización.

• Son bases de datos diseñadas con un objetivo de explotación (orientadas


al análisis), distinto al de las bases de datos de los sistemas operacionales
(orientadas al proceso).

7
Almacén de datos (2)

• Un almacén de datos es:


• Una colección de datos diseñada para dar apoyo a la toma de decisiones
orientada hacia la información relevante de la organización.
• Se diseña para consultar eficientemente información relativa a las actividades
básicas de la organización como ventas, compras y producción, y no para
soportar los procesos que se realizan en ella como gestión de pedidos,
facturación, etc.
• Integra datos recogidos de diferentes sistemas operacionales de la organización
y/o fuentes externas (integrada).
• Los datos son relativos a un periodo de tiempo y deben ser incrementados
periódicamente (variable en el tiempo).
• Los datos almacenados no son actualizados, sólo son incrementados (no
volátiles).

8
Almacén de datos (3)

Ventajas para las organizaciones:


• La rentabilidad de las inversiones realizadas para su
creación.
• Aumento de la competitividad en el mercado.
• Aumento de la productividad de los técnicos de dirección.
• Permiten tratar con grandes volúmenes de datos, o datos
que provienen de fuentes heterogéneas y cuando
aumentan con el tiempo.
9
Almacén de datos (4)
• Componentes típicos de un almacén de datos son:
• Sistema ETL (Extraction,Transformation, Load).
• Realiza las funciones de extracción de las fuentes de datos (transaccionales o externas),
transformación (limpieza, consolidación,…) y la carga del almacén de datos.

• Un Repositorio Propio de datos con información relevante o metadatos.

• Interfaces y Gestores de Consulta que permiten acceder a los datos conectándose sobre ellos
herramientas más sofisticadas:
• OLAP.
• Minería de datos.
• …

• Sistemas de Integridad y Seguridad que se encargan de un mantenimiento global, copias de


seguridad, etc.

10
Almacén de datos (5)
• Diferencias entre almacén de datos y un sistema operacional
OLTP (On-LineTransactional Processing).

11
Almacén de datos (6)
Base de datos vs Almacén de datos

12
• OLAP
OLAP: vs Minería de datos • Es un proceso deductivo.

• Los usuarios utilizan • Minería de datos:


la
herramienta para obtener
información agregada a partir de
• Usa los datos para encontrar
patrones, en lugar de solo verificar
información detallada,
patrones hipotéticos.
combinando la información de
manera flexible. • Es un proceso inductivo.
• Obtienen informes y vistas Ambos tipos de herramientas se
sofisticadas en tiempo real. complementan, es posible usar OLAP al
principio del proceso KDD para explorar
• OLAP permite comprobar los datos (e.g. para centrar nuestra
rápidamente patrones y pautas atención en las variables importantes,
hipotéticas sugeridas por el identificar excepciones o encontrar
usuario con el objetivo de interacciones), ya que cuanto más
comprendamos de los datos más efectivo
verificarlas o rechazarlas.
será el proceso de descubrir conocimiento.
13
Almacén de datos (7)

• Una vez almacenada la información en una Data Warehouse


(almacén de datos), se aplican sobre ella las técnicas de
minería de datos de modo óptimo.
• Los almacenes de datos constituyen una organización ideal de la
información para aplicar sobre ella las técnicas de extracción del
conocimiento o minería de datos.

• Sin embargo, los almacenes de datos no son imprescindibles


para hacer extracción del conocimiento a partir de los datos.
• Es posible hacer minería de datos sobre un simple archivo de datos.

14
Preparación de los datos (5)

1. Fase de integración y recopilación de datos

• Debido a que los datos provienen de fuentes diversas,


pueden contener:
• Valores erróneos.
• Valores faltantes.

15
Preparación de los datos (6)

2. Fase de selección, limpieza y transformación

• En esta fase se eliminan o corrigen los datos incorrectos.

• Se determina qué hacer (estrategia a seguir) con los datos incompletos.

• Se eligen las variables o atributos relevantes, con el objetivo de:


• Realizar con mayor facilidad la tarea de minería de datos.
• Para que los resultados (modelos) tengan mayor utilidad.

16
Preparación de los datos (7)

2. Fase de selección, limpieza y transformación

Importancia de ésta fase:


• Ya que la calidad del conocimiento descubierto depende
además del algoritmo de minería utilizado, de la calidad de
los datos minados.

17
Preparación de los datos (8)
2. Fase de selección, limpieza y transformación

• Este paso es necesario debido a que:


• Algunos de los datos coleccionados en la etapa anterior son irrelevantes o innecesarios para
la tarea de minería que se desea realizar.

• Algunos valores no se ajustan al comportamiento general de los datos (outliers).


• Pueden representar errores en los datos.
• Pueden ser valores correctos que son diferentes a los demás.
• Generalmente se ignoran estos datos (se consideran como ruido o excepciones).

• Presencia de valores faltantes o perdidos.


• Hay que reflexionar sobre qué los originó antes de tomar una decisión sobre qué hacer con
ellos

18
Preparación de los datos (9)

2. Fase de selección, limpieza y transformación

• Además de tener datos con buena calidad, es importante el


proporcionar a los métodos de minería de datos el subconjunto de
datos más adecuado para resolver el problema.
• Por lo cual es necesario seleccionar los datos apropiados.

• La selección incluye:
• Selección en forma vertical (columnas o atributos).
• Selección en forma horizontal (filas o registros).

19
Preparación de los datos (10)

2. Fase de selección, limpieza y transformación

• La selección de atributos es uno de los pre-procesamientos más importantes:


• Los atributos seleccionados deben ser relevantes para la tarea de minería de datos.

• Si la selección de atributos relevantes no se realiza:


• Podríamos usar todas las variables y dejar que la herramienta de minería de datos pruebe
hasta elegir las mejores variables predictoras.
• Esto implica:
• Incremento en el tiempo requerido para construir un modelo.

20
Preparación de los datos (11)

2. Fase de selección, limpieza y transformación

• La selección de registros también es importante, ya que aún cuando es


posible emplear todos los datos disponibles.
• Tomaría mucho tiempo la obtención de un modelo.
• Probablemente se requeriría de una máquina más potente.
• Por lo cuál generalmente se utiliza una muestra (sample) de los datos.

• La selección de la muestra debe ser hecha cuidadosamente para


asegurar que es verdaderamente aleatoria.

21
Preparación de los datos (12)

2. Fase de selección, limpieza y transformación

• Además de la selección de atributos, en esta fase también se


construyen automáticamente nuevos atributos:
• La finalidad es que estos nuevos atributos faciliten el proceso de minería.
• Se obtienen aplicando alguna operación o función a los atributos originales.
• Se emplea cuando los atributos originales no tienen mucho poder
descriptivo por sí mismos…

22
Preparación de los datos (13)
2. Fase de selección, limpieza y transformación

• Finalmente, en esta fase se modifica el tipo de los atributos para


facilitar el uso de técnicas que requieren tipos de datos específicos:
• Algunos atributos se pueden numerizar:
• Para reducir el espacio.
• Para emplear técnicas numéricas.

• Algunos atributos se pueden discretizar:


• Es decir, transformar valores numéricos en atributos discretos o nominales.
• La idea es partir los valores de un atributo continuo en una pequeña lista de
intervalos, tal que cada intervalo sea visto como un valor discreto del atributo.

23
Preparación de los datos (14)

24

También podría gustarte