Está en la página 1de 49

UNED

Bases de Datos II

Guía de Estudios

Autor: Prof. Enrique Gómez Jiménez


Fecha de Creación: Julio - 2008.
Fecha Versión Descripción de Cambios Modificó

Este documento es una guía de estudio, pero no sustituye al libro de texto, sobre el cal se basarán las pruebas de evaluación del curso.
Prohibida su reproducción sin autorización del autor o de la Institución.
Universidad Estatal a Distancia (UNED) – Bases de Datos II.
Guía de Estudios. Profesor Enrique Gómez Jiménez. 2008.

Elaboró Revisó Autorizó Versión Clave Página


Lic. Enrique Gómez Jiménez 1.0 2/49
Universidad Estatal a Distancia (UNED) – Bases de Datos II.
Guía de Estudios. Profesor Enrique Gómez Jiménez. 2008.

Contenido
Introducción ...........................................................................................................................5
Descripción del curso ..............................................................................................................5
Objetivo General ...............................................................................................................5
Objetivos Específicos .........................................................................................................5
Requisitos del curso ..........................................................................................................5
Material de apoyo .............................................................................................................6
Desglose de temas ............................................................................................................6
Guía de lecturas ................................................................................................................7
Comentarios generales ......................................................................................................7
Preguntas de autoevaluación .............................................................................................7
Resolución de las preguntas de autoevaluación ...................................................................7

TEMA 1: Fundamentos de Minería de Datos .......................... 8


Capítulo 1: ¿Qué es minería de datos? ...............................................................................9
1. ¿Qué es la minería de datos? ...........................................................................9
1.1. Nuevas necesidades ........................................................................................9
1.2. El concepto de minería de datos ......................................................................9
1.3. Tipos de datos ................................................................................................9
1.4. Tipos de modelos .......................................................................................... 10
1.5. La minería de datos y el proceso de descubrimiento de conocimiento en base de
datos (KDD) ............................................................................................................. 10
1.6. Relación con otras disciplinas. ........................................................................ 11
1.7. Aplicaciones. ................................................................................................. 12
1.8. Sistemas y herramientas de minería de datos. ................................................ 12
Capítulo 2: El proceso de extracción de conocimiento. ....................................................... 14
2.2. Fase de integración y recopilación .................................................................. 15
2.3. Fase de selección, limpieza y transformación .................................................. 15
2.4. Fase de minería de datos............................................................................... 16

TEMA 2: Almacenes de datos, tareas y métodos .................. 20


Capítulo 3: Recopilación, almacenes de datos ................................................................... 20
Capítulo 6: El problema de la extracción de patrones ........................................................ 24

TEMA 3: Técnicas de minería de datos ............................... 28


Capítulo 9: Reglas de asociación y dependencia. ............................................................... 28
Capítulo 11: Arboles de decisión y sistemas de reglas. ...................................................... 31
Capítulo 12: Métodos relacionales y estructurados. ........................................................... 34

TEMA 4: Técnicas avanzadas de minería de datos ................ 37


Capítulo 13: Redes neuronales artificiales. ........................................................................ 37
Capítulo 20: Minería de datos espaciales, temporales, secuenciales y multimedia. ............... 41
Capítulo 21: Minería de Web y textos. .............................................................................. 43
21.1. Introducción ................................................................................................. 44
21.2. Minería Web ................................................................................................. 45
21.3. Minería del contenido de la Web .................................................................... 45
21.4. Minería de la estructura de la Web ................................................................. 45
21.5. Minería de uso Web ...................................................................................... 46

Elaboró Revisó Autorizó Versión Clave Página


Lic. Enrique Gómez Jiménez 1.0 3/49
21.6. Sistemas de minería de Web y textos ............................................................. 46

TEMA 5: Repercusiones y retos de la minería de datos .......... 47


Capítulo 23: Repercusiones y retos de la minería de datos. ................................................ 47
23.1. Impacto social de la minería de datos ............................................................ 47
23.2. Cuestiones éticas y morales ........................................................................... 48
23.3. Escalabilidad. Minería de datos distribuida. ..................................................... 48
23.4. Tendencias futuras. ....................................................................................... 48
Introducción
Las bases de datos constituyen hoy día un activo muy importante para empresas, instituciones e
individuos, dado que la información que puede procesarse a través de ellas coadyuva al proceso de
toma de decisiones. La minería de datos es un proceso que utiliza varias herramientas de análisis de
datos para descubrir patrones y relaciones entre esos datos. Con ese análisis se pueden realizar
predicciones válidas.

Esas bases de datos operacionales almacenan grandes cantidades de datos, pero que únicamente se
utilizan para gestionar la transaccionalidad de la empresa o institución a la que pertenecen. Pocas
veces se utilizan estos datos para generar información condensada que muestre la realidad de la
empresa, reflejada a través de datos.

Descripción del curso


Este curso pretende guiar al estudiante en el descubrimiento de las técnicas que facilitan la
extracción de conocimiento a través de información condensada en bases de datos. Pretende
esbozar esa riqueza de conocimiento de la historicidad de los datos que se almacenan en grandes
cantidades (volumen) y gran variedad de formas (estructuras)

Objetivo General

Capacitar al estudiante en la utilización apropiada de las diversas técnicas existentes en la extracción


de conocimiento a partir de datos.

Objetivos Específicos

1. Instruir al estudiante en las técnicas de preparación de datos, mediante almacenes de datos o de


manera directa.
2. Enseñar al estudiante como preparar los datos mediante visualización, agregación, limpieza o
transformación.
3. Explicar el funcionamiento de la minería de datos mediante técnicas descriptivas o predictivas.
4. Explicar la evaluación o mejora de modelos de minería de datos, mediante validación cruzada,
combinación o análisis de costes.
5. Explicar como difundir y utilizar el conocimiento extraído, mediante estándares de intercambio de
conocimiento, XML, modelos convertidos a lenguajes de programación u otras herramientas.

Requisitos del curso

Este curso tiene asignado una carga de 3 créditos y es parte del plan de estudios de Licenciatura en
Ingeniería de Sistemas, de la Universidad Estatal a Distancia, UNED. Como requisito principal tiene el
haber aprobado el curso de bases de datos I. El no poseer los conocimientos que aporta el curso de
requisito, somete al estudiante a una serie de dificultades teóricas y técnicas que atentan contra la
asimilación adecuada de conocimientos y la posibilidad de perder el curso.

Elaboró Revisó Autorizó Versión Clave Página


Lic. Enrique Gómez Jiménez 1.0 5/49
Material de apoyo

Bibliografía oficial del curso:

1. Libro de Texto: Hernández Orallo, José y otros. Introducción a la minería de datos. 2da Edición,
Prentice Hall, España, 2005.
2. Castro, Karol (2008) Orientaciones del curso de bases de datos II.
3. Guía de Estudio. Lic. Enrique Gómez Jiménez.

Desglose de temas

Para una adecuada formación en el tema de la minería de datos se escogió un libro de texto
actualizado, con ejemplos claros de aplicación y explicaciones claras y concisas de los conceptos
fundamentales de la minería de datos.

El libro de texto consta de 23 capítulos. Cada uno de ellos trata sobre aspectos importantes
relacionados con la minería de datos. Sin embargo, para los efectos del curso, se escogieron 11
capítulos que tratan los temas más significativos. Estos capítulos se agrupan en cinco grandes
temas.

En la siguiente tabla se detallan los temas principales, los capítulos correspondientes y las páginas
que localiza a cada uno de ellos.

Tema Capítulo Número de página


del libro del libro
Tema 1
1 03-18
Fundamentos de minería de datos 2 19-39

Tema 2
3 43-62
Almacenes de datos, tareas y métodos 6 137-161

Tema 3 237-252
9
281-297
11
Técnicas de minería de datos 301-325
12
Tema 4 327-351
13
525-539
20
Técnicas avanzadas de minería de datos 545-568
21
Tema 5
23 597-605
Repercusiones y retos de la minería de datos

Elaboró Revisó Autorizó Versión Clave Página


Lic. Enrique Gómez Jiménez 1.0 6/49
Guía de lecturas

En cada tema de esta guía de estudio usted encontrará una sección llamada Guía de Lectura. Esta
tiene como finalidad indicarle las páginas respectivas que usted debe leer y estudiar de su libro de
texto, para cada tema y subtema.

Comentarios generales

Los comentarios generales presentados para cada tema en esta guía de estudio brindan aspectos
importantes de dicho tema, y su ubicación dentro de cada capítulo del libro de texto. Le servirán para
sintetizar los conceptos transmitidos. De esta manera, usted podrá determinar si requiere repasar o
aclarar alguno de los conceptos antes de desarrollar los ejercicios.

Preguntas de autoevaluación

Con el propósito de que usted realice una autoevaluación de su comprensión y aprendizaje del tema
en estudio, esta guía incluye una sección llamada Preguntas de autoevaluación, que selecciona
algunos de todos los conceptos tratados en cada capítulo del libro de texto. Sin embargo, esto no
significa que sean las únicas autoevaluaciones que se puedan realizar, dado que el estudiante puede
formular sus propias preguntas y respuestas de autoevaluación, resúmenes de capítulos o cualquier
otro método para autoevaluarse.

Resolución de las preguntas de autoevaluación

Al final de cada sección de autoevaluación se ofrecen las respuestas a los ejercicios de


autoevaluación

Elaboró Revisó Autorizó Versión Clave Página


Lic. Enrique Gómez Jiménez 1.0 7/49
TEMA 1: Fundamentos de Minería de Datos
Sumario:

1. ¿Qué es la minería de datos?


1.1. Nuevas necesidades
1.2. El concepto de minería de datos
1.3. Tipos de datos
1.4. Tipos de modelos
1.5. La minería de datos y el proceso de descubrimiento de conocimiento en base de datos (KDD)
1.6. Relación con otras disciplinas
1.7. Aplicaciones
1.8. Sistemas y herramientas de minería de datos

Propósito del capítulo:

Este capítulo pretende brindar al estudiante una noción fundamental acerca del tema de la minería
de datos, como se relaciona con otras disciplinas y los sistemas y herramientas existentes para los
procesos de búsqueda de conocimiento en bases de datos tradicionales.

Objetivos:

Al finalizar el estudio de este tema, el estudiante deberá estar en capacidad de:

• Definir el concepto de minería de datos.


• Identificar los diferentes modelos para el descubrimiento de conocimientos en bases de datos
(KDD)
• Relacionar la minería de datos con otras disciplinas del conocimiento.
• Identificar algunas herramientas y sistemas que se utilizan en la gestión de la minería de
datos.

Guía de lecturas:

Para lograr los objetivos descritos anteriormente, es importante que usted realice las siguientes
lecturas del libro de texto:

Subtema Página(s)
1.1. Nuevas necesidades 01-05
1.2. El concepto de minería de datos 05-09
1.3. Tipos de datos 09-12
1.4. Tipos de modelos 12-13
1.5. La minería de datos y el proceso de descubrimiento de conocimiento 13-14
en base de datos (KDD)
1.6. Relación con otras disciplinas 14-16
1.7. Aplicaciones 16-17
1.8. Sistemas y herramientas de minería de datos 18

Elaboró Revisó Autorizó Versión Clave Página


Lic. Enrique Gómez Jiménez 1.0 8/49
Comentarios generales sobre los subtemas de este capítulo.

Capítulo 1: ¿Qué es minería de datos?


1. ¿Qué es la minería de datos?

La minería de datos es un proceso que utiliza varias herramientas de análisis de datos para descubrir
patrones y relaciones entre esos datos. Los datos se convierten de un producto resultante de la
operacionalidad de un sistema de información a materia prima que sirve para generar conocimiento
para la toma de decisiones.

1.1. Nuevas necesidades

La gran cantidad y variedad de información almacenada en bases de datos transaccionales sirven


para explicar el pasado, entender el presente y predecir el futuro. Sin embargo, su interpretación es
manual. Por ejemplo, una analista financiero puede analizar una gran cantidad de información, de
diferente tipo y formato y generar un informe económico basado en su análisis manual para que la
administración tome algún tipo de decisión. Si el volumen de los datos crece exponencialmente la
capacidad humana se ve disminuida en manejarlos y comprenderlos.

El procedimiento transaccional en línea (OLTP) permite generar información resumida en forma de


informes, por ejemplo. Su presentación ha sido previamente establecida. El procesamiento analítico
en línea (OLAP) permite transformar los datos en otros que se encuentran agregados, cruzados,
sumarizados, etc. de una manera sofisticada. Sin embargo, con ello no se crean reglas o patrones
que pueden aplicarse a otros datos y generar conocimiento. Por ejemplo, OLAP nos puede generar
información estadística sobre la tasa de descuentos aplicados en uno u otro escenario. Esto es útil
para determinar en el comportamiento de las ventas según diferentes políticas de descuentos. Pero
seria mas útil el generar una serie de reglas que nos permita crear escenarios que se proyecten y nos
indiquen comportamientos. Surge entonces la necesidad de contar con herramientas y técnicas que
permitan la extracción de conocimiento de la información disponible. Esto es la minería de datos.

La minería de datos genera información intencional (conocimiento) y no extensional (datos). El


resultado de la minería de datos: ecuaciones, árboles de decisión, reglas, redes neuronales, etc.
Podemos responder a ¿cómo califico automáticamente los mensajes de correo electrónico entre mas
o menos susceptibles de ser Spam?

1.2. El concepto de minería de datos

Es el proceso de extraer conocimiento útil y comprensible, previamente desconocido, desde grandes


cantidades de datos almacenados en distintos formatos. El objetivo de la minería de datos es
convertir datos en conocimiento. Mediante reglas se puede obtener conocimiento importante para la
toma de decisiones.

Véase regla de caso de análisis de crédito bancario en la pág. 6 del


libro de texto. Así como conceptos en las páginas 6, 7 y 8.

1.3. Tipos de datos

Los tipos de datos a los cuales se aplica la minería de datos pueden ser de distintos formatos. Por
ejemplo:

Elaboró Revisó Autorizó Versión Clave Página


Lic. Enrique Gómez Jiménez 1.0 9/49
 Datos estructurados de una base de datos relacional
 Bases de datos espaciales que se refieren a información física muy variada como una red
telefónica, una región montañosa, imágenes médicas, etc.
 Bases de datos temporales, que contienen atributos relacionados con el tiempo. La vida del
dato en los intervalos del tiempo.
 Base de datos documentales que contienen documentos no estructurados (como una
biblioteca digital de cuentos), semiestructurados o estructurados.
 Base de datos de multimedia que almacenan imágenes, audio y video.
 La www que es un repositorio de información mas grande y diverso existente actualmente.

Para mayor detalle véase temas 1.3. en las páginas 9 al 11 del libro de
texto.

1.4. Tipos de modelos

El conocimiento se pueden representar en forma de relaciones, patrones, reglas de inferencia o


mediante un resumen de los mismos. Esto constituye el modelo de los datos y de acuerdo a ello se
determina el tipo de técnica a utilizar para inferirlos.
Los modelos pueden ser de dos tipos:

 Predictivos: que estiman valores futuros o desconocidos de variables de interés denominados


variables objetivos o dependientes, usando otras variables o campos de la base de datos
llamadas variables independientes o predictivas.

Ejemplo: Aquel modelo que permite estimar la demanda de un nuevo producto en función
del gasto en publicidad.

 Descriptivos: Identifican patrones que explican o resumen de los datos. Sirven para explorar
las propiedades de los datos examinados, no para predecir nuevos datos.

Ejemplo: Agencia de viajes que identifica grupos de personas con los mismos gustos para
crear nuevas ofertas, analizando los registros de viajes de esos clientes e infiere un modelo
descriptivo de esos grupos.

1.5. La minería de datos y el proceso de descubrimiento de conocimiento en base de datos (KDD)

El KDD (Knowledge Discovery in Databases) es un proceso de descubrimiento de conocimientos en


bases de datos y que consta de varias fases. Se define como el proceso no trivial de identificar
patrones validos, novedosos, potencialmente útil y, en última instancia, comprensibles a partir de los
datos.

Básicamente, KDD permite la selección, limpieza, transformación y proyección de los datos;


analizarlos para extraer patrones y modelos adecuados; evaluarlos e interpretarlos y convertirlos en
conocimiento; consolidar el conocimiento, resolviendo posible conflictos con conomiento previamente
extraído y ponerlo a disposición para su uso.

Para mayor detalle véase la páginas 13 del libro de texto.

A continuación una imagen representativa del KDD:

Elaboró Revisó Autorizó Versión Clave Página


Lic. Enrique Gómez Jiménez 1.0 10/49
1.6. Relación con otras disciplinas.

Por ser multidisciplinarias, la minería de datos se relaciona con otras áreas, sea paralelamente o
como prolongación de estas.

Para mayor detalle véase la páginas 14 del libro de texto.

Entre las disciplinas más influyentes con la numeración de datos se tiene:

a) Bases de Datos: Se relaciona con almacenamiento de datos y procesamiento analítico en línea


(OLAP) no es business intelligence, sino extracción conocimiento novedoso y comprensible de la
B.D.

b) Recuperación de Datos (information Retrieval, IR): Se relaciona con la obtención de información


desde datos textuales en bibliotecas virtuales y búsqueda en Internet.

c) Estadística: Por sus aportes conceptuales, algoritmos y técnicas que se utilizan en minería de
datos. Por ejemplo la media, la varianza, las distribuciones, etc.

d) Aprendizaje Automático: Area de la Inteligencia Artificial que se ocupa de desarrollar algoritmos


(y programas) capaces de aprender y conjuntamente con la estadística forman el corazón del
análisis inteligente de datos.

e) Sistemas para la toma de decisiones: Sistemas que mediante herramientas y sistemas


informatizados proporcionan información para la toma de decisiones.

f) Visualización de Datos: Mediante técnicas se puede descubrir, intuir o entender patrones, difíciles
de “ver” a partir de descripciones matemáticas o textuales de los resultados. Por ejemplo graficas
de dispersión, histogramas, etc.

g) Computación paralela y distribuida: Las tareas más complejas de minería de datos se puede
distribuir entre diferentes procesadores o computadoras.

Para mayor detalle véase las páginas 14 y 15 del libro de texto.

Elaboró Revisó Autorizó Versión Clave Página


Lic. Enrique Gómez Jiménez 1.0 11/49
1.7. Aplicaciones.

Las aplicaciones de minería de datos son muy variadas y pueden ser orientadas hacia finanzas,
medicina seguros, economía, etc. Con las aplicaciones de la minería de datos a varias aplicaciones
de negocios o de procesos puede ayudar a entender mejor el entorno donde se desenvuelve la
organización y mejorar la toma de decisiones.

Para mayor detalle véase las páginas 16 y 17 del libro de texto.

1.8. Sistemas y herramientas de minería de datos.

Dada la diversidad de aplicación de la minería de datos se han creado también varios sistemas y
herramientas que las apoyan. Cada uno de ellos se especializa en realizar determinadas tareas o
para analizar cierto tipo de datos que generan, que minan, el tipo de técnica o el tipo de aplicación.

En el caso de datos minados se orientan a objetos, etc. El conocimiento minado trata el conocimiento
generalizado (abstracción de nivel alto), nivel primitivo (filas de datos) o de múltiples niveles de
abstracción. Se busca patrones (regularidad) y excepciones (irregularidades).

La funcionalidad y técnica se refiere a la clasificación, agrupamiento, etc., de los datos, los métodos
de análisis de los datos empleados (técnicas y estadísticas)

Para mayor detalle véase la página 18 del libro de texto.

Preguntas de autoevaluación:

1) ¿Porqué las herramientas OLAP no generan conocimiento a partir de datos aplicados a otros
datos?

2) ¿Cuáles son los dos retos que se plantea de la minería de datos?

3) ¿Cuál es el objetivo de la minería de datos?

4) Cite las dos categorías de datos en que aplica la minería de datos y los tipos que incluye cada
una de ellas.

5) Cite las propiedades deseables del conocimiento extraído en minería de datos.

6) ¿Cuáles son los dos tipos de modelos que utiliza la minería de datos para obtener el conocimiento
a partir de datos? ¿Qué trata cada uno?

7) Cite y explique al menos 3 disciplinas que influyen en la minería de datos.

8) Cite la clasificación de sistemas y herramientas que coadyuvan a la minería de datos.

Respuestas a las preguntas de autoevaluación:

1) Por que soportan cierto análisis descriptivo y de sumarización que transforman datos en otros
datos agregados o cruzados, pero no generan reglas, patrones o pautas, que es conocimiento
aplicados a otros datos.
Elaboró Revisó Autorizó Versión Clave Página
Lic. Enrique Gómez Jiménez 1.0 12/49
2) Los retos que se plantea la minería de datos son:
a) Trabajar con grandes volúmenes de datos.
b) Usar técnicas adecuadas para analizar los datos y extraer conocimiento novedoso y útil.

3) Convertir datos en conocimiento.

4) Las dos categorías de datos, y sus grupos, en que aplica la minería de datos son:

 Estructurados:
o BD relacionales
o Otros tipos
 Especiales
 Temporales
 Textuales
 Multimedia
 No estructurados
o Web
o Otros tipos de repositorios de documentos.

5) Las propiedades deseables del conocimiento extraido en minería de datos son:


a) Validez
b) Novedad
c) Utilidad
d) Comprensibilidad

6) Los dos tipos de modelos de la minería de datos que sirven para extraer conocimientos son:
a) Predictivo: Estimar valores futuros o desconocidos de variables, objetivos o dependientes,
utilizando variables independientes o predictivas.
b) Descriptivo: Identificar patrones que explican o resumen los datos analizados. No predican
nuevos datos.

7) Tres disciplinas que influyen en la minería de datos son:


a) Base de datos: De los datos almacenados se puede extraer conocimiento útil, novedoso y
comprensible.
b) Estadística: Aporta conceptos, algoritmos y técnicas.
c) Sistema de soporte de las decisiones: Herramientas y sistemas que coadyuvan a la toma de
decisiones dada la generación de escenarios, diagnósticos, etc.

8) Según el criterio o tarea que realizan sobre la numeración de datos:


o Base de datos minada
o Conocimiento minado
o Funcionalidad y técnica
o Tipo de aplicación

Elaboró Revisó Autorizó Versión Clave Página


Lic. Enrique Gómez Jiménez 1.0 13/49
Capítulo 2: El proceso de extracción de conocimiento.

Sumario:

2.1. Las fases del proceso de extracción de conocimiento


2.2. Fase de integración y recopilación
2.3. Fase de selección, limpieza y transformación
2.4. Fase de minería de datos
2.5. Fase de evaluación e interpretación
2.6. Fase de difusión, uso y monitorización

Propósito del capítulo:

Este capítulo pretende que el estudiante se familiarice con el proceso de extracción de conocimiento
que efectúa un sistema de minería datos, considerando las distintas fases que la componen.

Objetivos:

Al finalizar el estudio de este tema, el estudiante deberá estar en capacidad de:

• Entender el concepto de extracción de conocimiento llevado a cabo por un sistema de


minería de datos.
• Identificar y diferenciar cada fase involucrada en el proceso de extracción de conocimiento
de un sistema de minería de datos.

Guía de lecturas:

Para lograr los objetivos descritos anteriormente, es importante que usted realice las siguientes
lecturas del libro de texto:
Subtema Página(s)
2.1. Las fases del proceso de extracción de conocimiento 19-21
2.2. Fase de integración y recopilación 21-22
2.3. Fase de selección, limpieza y transformación 22-24
2.4. Fase de minería de datos 24-35
2.5. Fase de evaluación e interpretación 35-39
2.6. Fase de difusión, uso y monitorización 39-40

Comentarios generales sobre los subtemas de este capítulo.

2.1. Las fases del proceso de extracción de conocimiento

El proceso de extracción de conocimiento consta de varias fases: Preparación de datos, minería de


datos, evaluación, difusión y uso de modelos.

El KDD se organiza en cinco fases:

Elaboró Revisó Autorizó Versión Clave Página


Lic. Enrique Gómez Jiménez 1.0 14/49
1. Integración y recopilación.
2. Selección, limpieza y transformación.
3. Minería de datos.
4. Evaluación e interpretación.
5. Difusión y uso.

La figura 2.1. de la página del libro de texto, muestra las fases del
proceso KDD.

2.2. Fase de integración y recopilación

En esta fase se determinan las fuentes de información que pueden ser útiles y dónde conseguirlas.
La recopilación de datos puede ser de distintas fuentes, tanto internas como externas. Pueden tener
distintos formatos y medios de almacenamiento, estrategias de acceso, etc.

La integración consiste en el proceso de mezclar las distintas fuentes de datos para crear el
repositorio. Puede ser simplemente mediante la copia simple de las bases de datos, eliminando
inconsistencias y redundancias.

No es un OLAP que es diferente a la minería de datos, dado que se busca es verificar patrones
hipotéticos usando los datos y no patrones y pautas hipotéticas sugeridas por el usuario para
verificarlas o rechazarlas. Meramente Deductivo y no inductivo como en la minería de datos.

2.3. Fase de selección, limpieza y transformación

Una vez recopilada la información el paso siguiente del KDD es seleccionar y prepara el subconjunto
de datos que se va a minar (vista minable). Esto se hace por que muchas veces algunos de los
recopilados son irrelevantes o innecesarios . Asimismo, identificar datos no conformes con el
comportamiento general de los datos (producen ruido o excepciones) y búsqueda del faltante de
datos y su significado o importancia dentro del contexto de todos los datos, son dos problemas
esenciales que justifican la necesidad de la limpieza de los datos.

La selección de los atributos relevantes es uno de los procesamientos más importantes dad su
funcionalidad en el proceso de minería de datos están en capacidad de probar todos los atributos y
elegir las mejores variables electoras. Esto en la práctica no funciona del todos bien, dado el tiempo
requerido para construir el modelo, el cual crece con el número de variables.

Por ende, el conocimiento sobre el dominio del problema puede permitir seleccionar correctamente
las variables relevantes del sistema.

También podrían, como en el caso de las variables, construir el modelo usando todos los datos. Sin
embargo, tardaría mucho tiempo y se requeriría una máquina muy potente. Mejor usar muestras a
partir de algunas filas de datos. Esta muestra debe ser aleatoria.

La otra tarea de preparación de los datos es la construcción de atributos. Esto consiste en construir
automáticamente nuevos atributos aplicando alguna operación o función a los atributos originales.
Estos nuevos atributos harán más fácil el proceso de minería por cuanto los atributos originales no
son muy predictivos por si mismas a los patrones dependen de variaciones lineales de las variables
originales.

Elaboró Revisó Autorizó Versión Clave Página


Lic. Enrique Gómez Jiménez 1.0 15/49
La transformación de datos también es un proceso importante dado que las modificaciones que se
hagan de éstos puede facilitar el uso de técnicas que se requieren tipos de datos específicos.
Algunos atributos se pueden numerizar

2.4. Fase de minería de datos

En esta fase se decide cual es la tarea a realizar (clasificar, agrupar, entre otros) y se elige el método
que se va a utilizar. Aquí se presentan algunas tareas a realizar y se tipifican como problemas a
resolver.

Tienen sus propios requisitos y sus resultados pueden definir entre ellas. Pueden ser predictivos o
descriptivos.

Tipos de tarea Tarea Descripción de la tarea


Clasificación o Cada registro de la BD pertenece a una
Objetivo: pretende clase. Se indica mediante el valor de un
maximizar la razón de atributo llamado clase de la instancia.
predicción de la o El atributo clase de la instancia puede tomar
clasificación de nuevas diferentes valores discretos. Cada uno
instancias. corresponde a una clase.
o El resto de los atributos de la instancia (los
relevantes a la clase) Se utilizan para
predecir la clase.

(En el libro de texto (pág. 25) se cuenta con una


base de datos que agrupa a los pacientes según
el tipo de operación practicada y los resultados
obtenidos. El modelo generado puede ser
utilizado para predecir el resultado probable en
Predictivas el tratamiento de nuevos pacientes.

Regresión: Consiste en aprender una función real que


Objetivo: minimizar el asigna a cada instancia el valor real.
error entre el valor Es lo que la diferencia de la clasificación: el valor
predicho y el valor real. a predecir es numérico.

En el caso del ejemplo del libro de texto (página


26). Se utilizan datos históricos de costos, se
aplica una función de regresión lineal y con los
ajustes correspondientes se predice el costo
futuro (estimación)

Elaboró Revisó Autorizó Versión Clave Página


Lic. Enrique Gómez Jiménez 1.0 16/49
Tipos de tarea Tarea Descripción de la tarea
Agrupamiento Consiste en obtener grupos “naturales” a partir de los
datos. Son grupos, no clases. La clasificación
(predictiva) analiza datos etiquetados con una clase; el
agrupamiento más bien es quien genera esa etiqueta
analizando los datos. Agrupa los datos maximizando la
similitud existente entre los elementos de un grupo y
minimizando la similitud entre los distintos grupos.
los objetos de un mismo grupo son muy similares
entre si y muy diferentes a los de otros grupos.
En el libro de texto (pág. 26) se expone el caso de una
librería, donde el agrupamiento se da por grupos de
clientes, según sus preferencias de compras y así
personalizar los servicios que se le puedan ofrecer
(personalizado) En base a su grupo se le pueden
realizar recomendaciones, considerando las
preferencias de miembros de su propio grupo.
Correlación Se utiliza para examinar el grado de similitud de los
valores de dos variables numéricas. Las variables
tienen un comportamiento similar (crecen o decrecen
al mismo tiempo) Por ejemplo, cuando el coeficiente
de correlación r es negativo si una variable crece la
otra decrece, pero si es positivo las variables tienen un
comportamiento similar (ambas crecen o decrecen al
Descriptiva
mismo tiempo)
En el ejemplo del libro (pág. 26) se utilizan
correlaciones negativas para establecer reglas para la
prevención de incendios. En este caso, las
correlaciones negativas establecen el empleo de
distintos grosores de protección del material eléctrico y
la frecuencia de ocurrencia de incendios. Podría darse
que entre más grueso es el cable, menos incidencia.
Asociación Muy similar a las correlaciones. Su objetivo es
identificar relaciones no explicitas entre atributos
categóricos. Las reglas de asociación no implican una
relación de causa – efecto: puede no existir una causa
para que los datos estén asociados. Un ejemplo clásico
es el análisis de la cesta de compras: para identificar
aquellos productos que son frecuentemente adquiridos
juntos. Esta información puede ser utilizada para los
ajustes de inventarios, la organización física del
almacén, o en campañas publicitarias.
Las reglas se evalúan usando dos parámetros:
precisión y soporte (cobertura)
En el ejemplo del libro (pág. 27) las reglas de
asociación consisten en vincular las pruebas médicas
que se realizan juntas, es decir aquellas en las que el
paciente pide una y otra al mismo tiempo,
determinando el porcentaje de solicitudes o llevadas a
cabo.

Elaboró Revisó Autorizó Versión Clave Página


Lic. Enrique Gómez Jiménez 1.0 17/49
Técnicas de minería de datos:

Dada su aplicación interdisciplinaria, la minería de datos tiene muchas técnicas, entre ellas:

 Regresión: La meta es inducir un modelo para poder predecir el valor de la clase, dados los
valores de los atributos. Se usan por ejemplo, árboles de regresión, regresión lineal, redes
neuronales, kNN, etc.
 Arboles de decisión (AD). Representan reglas donde atributos independientes determinan
los valores finales. En estos árboles cada nodo representa una propiedad que puede tomar
diversos valores, cada uno de los cuales genera una rama. Los nodos hojas representan las
clasificaciones finales. Usadas donde se deben tomar decisiones a partir de varias alternativas
combinadas y con pesos diferentes. Son útiles en problemas de alta dimensionalidad y
pequeño numero de valores para cada atributo. Se usan, por enumerar unos, en dominios
médicos y en simulaciones de juegos de ajedrez.
 Redes Neuronales artificiales (RNA). Como su nombre lo indica simula el sistema
nervioso real en forma abstracta. Estas deben ser entrenadas para que den solución a los
problemas. Esta enseñanza se realiza repitiendo sistemáticamente entradas clásicas, con sus
respectivas salidas o respuestas. Son usadas para reconocimiento de patrones, clasificaciones
de voz e imagen, procesamiento de lenguaje natural, predicción y optimización.
 Técnicas de Algoritmos genéticos Optimización de funciones, se usan con redes
neuronales

Para mayor descripción estudiar el tema 2.4.2, páginas 27 a la 35.

Construcción del modelo:

Se deben explorar modelos del proceso de KDD hasta encontrar aquel que resulte más útil para
resolver un problema dado. Podría requerirse construir un nuevo modelo a partir de otro.

Cuando el modelo es predictivo se requiere tener bien definidas las etapas de entrenamiento y
validación para asegurar que las predicciones sean robustas y precisas.

2.5. Fase de evaluación e interpretación

Para medir la calidad de los patrones descubiertos en la minería de datos, estos deben tener tres
cualidades:

o Ser precisos
o Ser comprensibles y,
o Ser interesantes (útiles y novedosos)

Según la aplicación un criterio puede interesar más que otro: caso del diagnóstico médico que
prefiere patrones comprensibles aunque su precisión no sea tan buena.

Técnicas de evaluación:

Para entrenar y probar un modelo se requiere: crear un conjunto de entrenamiento (training set) y
un conjunto de pruebas (test set) Algunas técnicas de evaluación son:

a) Validación simple: reserva un porcentaje de la bases de datos como conjunto de pruebas y


lo usa para construir el modelo.

Elaboró Revisó Autorizó Versión Clave Página


Lic. Enrique Gómez Jiménez 1.0 18/49
b) Validación cruzada con n-pliegues: los datos se dividen aleatoriamente en n grupos. Un
grupo se reserva para el conjunto de prueba y con los otros n-1 restantes se construye un
modelo que sirve para predecir el resultado de los datos del grupo reservado. Se repite n
veces este proceso.

Medidas de evaluación de modelos

Dependiendo de la tarea de minería de datos existen diferentes medidas de evaluación de los


modelos:

a) Contexto de evaluación: evaluar la calidad de los patrones encontrados con respecto a su


precisión predictiva. Para el caso del buen cliente, explicado en el libro de texto, una regla
válida es:
Si #instancia = 4 entonces Buen_Cliente = SI

b) Reglas de asociación: evaluar de forma separada cada una de las reglas con objeto de
restringirnos a aquellas que puedan aplicarse a un mayor numero de instancias y que tienen
una precisión relativamente alta sobres estas instancias. Los conceptos a utilizar son
cobertura (# de instancias a las que la regla se aplica y predice correctamente) y confianza
(proporción de instancias que la regla predice correctamente.

En el caso de decidir si se juega o no, una regla valida sería:


Si Pronostico = Soleado y Viento = Débil entonces Jugar = Si

c) Regresión: Si la tarea es regresión, que genera un valor numérico, la manera mas habitual
de evaluar es mediante el error cuadrático medio del valor predicho con respecto al valor que
se usa como validación.

d) Agrupamiento: depende del método utilizado. Puede ser cohesión de cada grupo o
separación entre grupos. Esto se puede realizar utilizando la distancia media al centro del
grupo de los miembros de un grupo y la distancia media entre grupos, respectivamente.

Interpretación y contextualización.

A pesar de existir medidas de evaluación de los modelos de minería de datos, en muchos casos se
debe evaluar en el contexto donde el modelo se va a evaluar. Por ejemplo, en el caso de la
clasificación y las reglas de asociación, usar la precisión como medida de calidad tiene ciertas
desventajas por que no se sopesa el tener distribuciones de clases no balanceadas (muchas
instancias de una clase y muy pocas o ninguna de otras) En el caso de la clasificación, seria mejor
utilizar una matriz de confusión.

2.6. Fase de difusión, uso y monitorización

Una vez construido y variado el modelo, puede utilizarse para recomendar acciones basándose en el
modelo y en sus resultados o para aplicar el modelo a diferentes conjuntos de datos.

Es necesario que el modelo se difunda (se distribuya y se comunique) a los posibles usuarios (por
ejemplo en un sistema de créditos) También es importante monitorear su uso, funcionamiento y
prestaciones del mismo.

Elaboró Revisó Autorizó Versión Clave Página


Lic. Enrique Gómez Jiménez 1.0 19/49
TEMA 2: Almacenes de datos, tareas y
métodos
Capítulo 3: Recopilación, almacenes de datos

Sumario:

3.1. Introducción
3.2. Necesidad de los almacenes de datos
3.3. Arquitectura de los almacenes de datos
3.4. Carga y mantenimiento del almacén de datos
3.5. Almacenes de datos y minería

Propósito del capítulo:

Este capítulo pretende que el estudiante se familiarice con el proceso de recopilación y


almacenamiento de datos que efectúa un sistema de minería datos, considerando las distintas
técnicas para cargar y mantener almacenes de datos.

Objetivos:

Al finalizar el estudio de este tema, el estudiante deberá estar en capacidad de:

• Determinar la arquitectura que posee un repositorio de datos (almacén de datos) que se


utilice para la minería de datos.
• Describir los procesos de carga, almacenamiento y mantenimiento de almacenes de datos
utilizado en un sistema de minería de datos.

Guía de lecturas:

Para lograr los objetivos descritos anteriormente, es importante que usted realice las siguientes
lecturas del libro de texto:

Subtema Página(s)
3.1. Introducción 44-45
3.2. Necesidad de los almacenes de datos 46-48
3.3. Arquitectura de los almacenes de datos 49-59
3.4. Carga y mantenimiento del almacén de datos 59-62
3.5. Almacenes de datos y minería 62-63

Elaboró Revisó Autorizó Versión Clave Página


Lic. Enrique Gómez Jiménez 1.0 20/49
Comentarios generales sobre los subtemas de este capítulo.

Introducción

3.1. Introducción
3.2. Necesidad de los almacenes de datos
3.3. Arquitectura de los almacenes de datos
3.4. Carga y mantenimiento del almacén de datos
3.5. Almacenes de datos y minería

3.1. Introducción

El primer paso en el proceso de extracción de conocimiento a partir de datos es reconocer y reunir


los datos con los que se va a trabajar. Debemos tener presente que esos datos que se obtienen
debemos almacenarlos. Esos almacenes de datos (data warehouses) proporcionan metodologías y
tecnología para recopilar e integrar los datos históricos de una organización.

3.2. Necesidad de los almacenes de datos

La necesidad de los almacenes de datos se justifican en el hecho de obtener información precisa y


oportuna para la toma de decisiones.

Existen dos tendencias claramente diferenciadas en sistemas de información: el que se orienta al


procesamiento transacional y el que se orienta al procesamiento analítico.

OLTP y OLAP.

OLTP (On Line Transactional Processing) se orienta al registro de las transacciones de una empresa.
OLAP (On Line Analytical Processing) se orienta a un conjunto de operaciones exclusivamente de
consultas para realizar informes y resúmenes que apoyen el proceso de toma de decisiones.

Almacenes de datos y bases de datos transaccionales

Un almacén de datos es un conjunto de datos históricos, internos y externos, que se integran y


organizan para que se puedan generar resúmenes y análisis de datos. La base de datos transaccional
registra toda la operatividad de la empresa. Por ende, son muy diferentes aunque la segunda es la
alimenta a la primera.

Observe las diferencias de una base de datos relacional y un almacén


de datos en la tabla 3.1 (pág. 48) del libro de texto.

3.3. Arquitectura de los almacenes de datos

Existen varios modelos arquitectónicos que conceptualizan a los almacenes de datos. Los hechos que
se registran en estos almacenes de datos es su medula espinal. Y no se refiere a los movimientos
históricos de la organización, sino aquellos datos que se encuentran adecuademente estipulados en
el almacen de datos, como un resumen o una vista que proviene de la base de datos operativa o
transaccional de la empresa (base de datos relacional)

Elaboró Revisó Autorizó Versión Clave Página


Lic. Enrique Gómez Jiménez 1.0 21/49
Modelo multidimensional.

En este modelo los datos se organizan en torno a los hechos, los cuales tienen atributos que pueden
verse en mayor o menor detalle, según ciertas dimensiones. Las ventas es un hecho básico para un
supermercado. Una medida relacionada con este hecho es la cantidad o el monto, mientras que una
dimensión es lugar de venta, por ejemplo. Las medidas responden al “cuanto” y las dimensiones al
“cuando”, “que”, “donde”, etc.

DataMart

Cuando la información no se puede representar en dimensiones (como el caso de las ventas) por
dificultarse su integración en una sola estrella (dimensión), se recurre a los datamart. Cada estrella
que represente un ámbito especifico de la organización (ventas, personal, producción, etc) se
denomina datamart (mercado de datos) Cada datamart posee sus medidas y dimensiones propias y
diferentes de los demás. La única dimensión que suele aparecer en todos los datamart es la
dimensión de tiempo.

Explotación de un almacen de datos: operadores.

Un modelo de datos se compone de estructura y operadores. Un modelo multidimensional se basa


en un conjunto de datamarts.

Los operadores más importantes asociados al modelo multidimensional son:

a) DRILL: Disgregación de los datos (mayor nivel de detalle, menos sumarización o


consolidación) siguiendo los caminos de una o más dimensiones.
b) Roll: Agregación de datos (menor nivel de detalle, más sumarización o consolidación)
siguiendo los caminos de una o más dimensiones.
c) Slice & Dice: Se seleccionan y se proyectan datos.
d) Pivot: se orientan las dimensiones.

Estos operadores se llaman operadores OLAP.

Para entender el funcionamiento de estos operadores, revisa el caso


que se explica en la sección 3.3.3 (páginas 52 a la 55 del libro de
texto)

Implementación del almacén de datos: diseño.

Para implementar un sistema de almacén de datos se pueden utilizar dos tipos de esquemas físicos:

o Rolap (Rational OLAP): físicamente, el almacén de datos se construye sobre una base de
datos relacional.
o Molap (Multidimensional OLAP): físicamente, el almacén de datos se construye sobre
estructuras basadas en matrices multidimensionales.

Las ventajas del ROLAP son, en primer lugar, que se pueden utilizar directamente sistemas de
gestión de bases de datos genéricas y herramientas asociadas: SQL, restricciones, disparadores, etc.
En segundo lugar, la formación y el costo necesario para su implementación es generalmente menor.

Elaboró Revisó Autorizó Versión Clave Página


Lic. Enrique Gómez Jiménez 1.0 22/49
Las ventajas del MOLAP son su especialización, la correspondencia entre el nivel lógico y el nivel
físico.

Analícese la figura 3.11 de la página 56 del libro de texto sobre la


implementación de un datamart, utilizando ROLAP, así como la teoría.

3.4. Carga y mantenimiento del almacén de datos

Una vez diseñado e implementado el almacen de datos (sea con ROLAP o MOLAP) lo que sigue es la
carga de los datos. Para la carga de un almacen de datos existe un sistema especializado
denominado sistema ETL (Extraction, Transformation, Load) La construcción del ETL es
responsabilidad del equipo de desarrollo del almacen de datos. Se pueden adaptar herramientas
genéricas, como triggers, de migración de datos o herramientas más especificas para esta tarea.

Puede obtener más detalles acerca de las tareas que realiza el ETL, en
las páginas del 59 a la 62 del libro de texto.

3.5. Almacenes de datos y minería

Los almacenes de datos pueden utilizarse de muy diferentes maneras y pueden agilizar muchos
procesos diferentes de análisis.

Los almacenes de datos contienen los datos donde se pueden realizar consultas e informes analíticos,
basados en agregación, visualización y las técnicas descriptivas estadísticas. Por otro lado, la minería
de datos que no hace esa transformación de datos en otros datos (agregación) sino que transforma
los datos en conocimiento (reglas o modelos)

Elaboró Revisó Autorizó Versión Clave Página


Lic. Enrique Gómez Jiménez 1.0 23/49
Capítulo 6: El problema de la extracción de patrones

Sumario:

6.1. Introducción
6.2. Tareas y métodos
6.3. Minería de datos y aprendizaje inductivo
6.5. Breve comparación de métodos

Propósito del capítulo:

Este capítulo pretende que el estudiante se familiarice con el proceso de extracción de datos que
efectúa un sistema de minería datos, considerando algunos métodos de recuperación de datos.

Objetivos:

Al finalizar el estudio de este tema, el estudiante deberá estar en capacidad de:

• Explicar que es son patrones en minería de datos.


• Citar y explicar las tareas y métodos requeridos por un sistema de minería de datos para la
extracción de patrones.
• Describir la funcionalidad del aprendizaje inductivo en un sistema de minería de datos.

Guía de lecturas:

Para lograr los objetivos descritos anteriormente, es importante que usted realice las siguientes
lecturas del libro de texto:

Subtema Página(s)
6.1. Introducción 137-138
6.2. Tareas y métodos 139-148
6.3. Minería de datos y aprendizaje inductivo 148-154
6.5. Breve comparación de métodos 161-163

Comentarios generales sobre los subtemas de este capítulo.

6.1. Introducción

La extracción de conocimiento a partir de datos tiene como objetivo descubrir patrones que, entre
otras cosas, deben ser validos, interesantes y, en ultima instancia, comprensibles.

Las técnicas de minería de datos son como una especie de colador que filtra los datos (en forma de
vista minable, por ejemplo) y los convierte en patrones. Pero existen problemas asociados a la
extracción de patrones, lo que hace que esta tarea no sea tan fácil como parece.

Elaboró Revisó Autorizó Versión Clave Página


Lic. Enrique Gómez Jiménez 1.0 24/49
6.2. Tareas y métodos

Tarea y método son diferentes. Una tarea Una tarea de minería de datos es un tipo de problema de
minería que debe resolverse. Las tareas mas importantes son la clasificación, regresión,
agrupamiento, etc. Por ejemplo “clasificar equipos de computo, en Aceptables, Inaceptables,
Obsoletos…” es una tarea que se puede resolver mediante arboles de decisión, con los criterios
adecuados. Un método constituyen la forma en como una tarea será resuelta.

Tareas:

Para definir una tarea se deben determinar el conjunto de ejemplos con los que se van a tratar.

Las tareas más importantes en minería de datos son:

a) Predictivas: Trata problemas y tareas en los que hay que predecir uno o más valores para uno
o más ejemplos. Se clasifican en clasificación (o discriminación), clasificación suave,
categorización, preferencias, regresión etc.
b) Descriptivas: No busca predecir nuevos datos sino describir los existentes. Entre estos
encontramos tareas por agrupamiento, asociación, correlaciones, entre otros.

Para más detalles véase el punto 6.2.1 del libro de texto (páginas de la
139 a la 145)

Métodos. Correspondencia entre tareas y métodos.

Cada tarea en numería de datos requiere métodos, técnicas o algoritmos para resolverlas.
Una tarea puede tener muchos métodos diferente para resolverla y que un mismo método puede
resolver muchos tipos de tareas.

Algunas técnicas utilizadas para llevar a cabo una tarea de numeria de datos son:

a) Técnicas algebraicas y estadísticas: Se utilizan para expresar modelos y patrones mediante


formulas algebraicas, funciones lineales, entre otros.
b) Técnicas bayesianas: Se basan en estimar la probabilidad de pertenencia a una clase o grupo
mediante la estimación de las probabilidades condicionales inversas, utilizando el teorema de
bayes.
c) Técnicas basadas en conteos de frecuencia y tablas de contingencia: Se basan en contar la
frecuencia en la que dos o más sucesores se presenten conjuntamente.

Existen otras técnicas tales como basadas en árboles de decisión, relacionales, declarativa, redes
neuronales, basadas en núcleo y máquinas de soporte vectorial, entre otras.

Para más detalles véase el punto 6.2.2 del libro de texto (páginas de la
146 a la 148)

6.3. Minería de datos y aprendizaje inductivo

Existen varias definiciones acerca de aprendizaje, una de las clases es:

Elaboró Revisó Autorizó Versión Clave Página


Lic. Enrique Gómez Jiménez 1.0 25/49
El aprendizaje inductivo es la eliminación de redundancia, vista como comprensión de información.

Cuando afirma que una técnica pueda utilizarse para resolver varias tareas, surgen algunas
interrogantes: ¿Que tiene que ver un agrupamiento con una regresión? Y si son métodos ¿Qué tiene
que ver una red neuronal con un árbol de decisión?. A excepción de las reglas de asociación y las
correlaciones, todas las tareas y los métodos se centran alrededor del aprendizaje inductivo.

El aprendizaje permite identificar regularidades en un conjunto de observaciones. Esas regularidades


son en realidad redundancias que pueden ser representadas por patrones o modelos que los
comprimían o que los definan.

Los patrones son hipótesis. Evaluación.

Ciertamente, lo aprendido puede, en cualquier momento ser refutado por evidencias futuras. Una
característica en cualquier tipo de técnica de minería de datos es su carácter hipotético. Los modelos
son aproximados, no perfectos. Por ende, hipotéticos. Esto hace que sea necesario realizar una
evaluación de los patrones obtenidos, con el objetivo de estimar su validez y poder compararlos con
otros.

Métodos retardados y anticipativos.

La primera condición para un modelo sea comprensible es que se tenga. Esto porque mucha técnica
de minería resuelven una tarea pero no construyen un modelo.

Por ejemplo un clasificador de vecino más próximo que cada vez que se invoca crea una respuesta
sin crear un modelo que se aplique sin tener que mirar instancias anteriores.

Los métodos sin modelo y con modelo reciben generalmente el nombre de métodos retardados o
perezosos y métodos anticipativos o sin pacientes.

En cuanto al método retardado éste actúa para cada pregunta o predicción requerida. No se
construye un modelo. Para los métodos anticipativos, éste obtiene un modelo a partir de todos.
Ejemplos.

Para más detalles véase el punto 6.3.2 del libro de texto (páginas de la
151 y 152)

La eficiencia del aprendizaje:

En el aprendizaje debe considerarse el esfuerzo computacional. Entre dos métodos, lógicamente, se


utilizará el que obtenga patrones más rápidamente.

La eficiencia del aprendizaje depende, por ejemplo, del número de ejemplos, del número de atributo
o complejidad de los ejemplos, del espacio de hipótesis que se está considerando, del conocimiento
previo existente, entre otros. También incide el tamaño de los datos, la existencia de conocimiento
previo entre otros.

6.5. Breve comparación de métodos

Los métodos para resolver tareas de numería de datos, poseen ventajas e inconvenientes según
rasgos de comprensiblidad de los modelos obtenidos, expresividad, precisión, eficiencia del método
entre otros.
Elaboró Revisó Autorizó Versión Clave Página
Lic. Enrique Gómez Jiménez 1.0 26/49
En la sección 6.5, páginas de la 161 a la 163 se enumeran varias
ventajas e inconvenientes de cada método. Elabore un cuadro
resumen que le sea de utilidad para compararlos.

Elaboró Revisó Autorizó Versión Clave Página


Lic. Enrique Gómez Jiménez 1.0 27/49
TEMA 3: Técnicas de minería de datos
Capítulo 9: Reglas de asociación y dependencia.

Sumario:

9.1. Introducción
9.2. Reglas de asociación
9.3. Reglas de dependencias
9.4. Reglas de asociación multinivel
9.5. Reglas de asociación secuenciales
9.6. Aprendizajes de reglas de asociación con sistemas de minería de datos

Propósito del capítulo:

Este capítulo pretende que el estudiante conozca las diferentes reglas de asociación y dependencia
que se utilizan en la generación de conocimiento en un sistema de minería de datos.

Objetivos:

Al finalizar el estudio de este tema, el estudiante deberá estar en capacidad de:

• Explicar que es una regla en un sistema de minería de datos.


• Explicar las diferentes reglas de asociación que se utilizan en un sistema de minería de datos.
• Explicar las diferentes reglas de dependencia que se utilizan en un sistema de minería de
datos.

Guía de lecturas:

Para lograr los objetivos descritos anteriormente, es importante que usted realice las siguientes
lecturas del libro de texto:

Subtema Página(s)
9.1. Introducción 237-239
9.2. Reglas de asociación 239-243
9.3. Reglas de dependencias 243-247
9.4. Reglas de asociación multinivel 247-249
9.5. Reglas de asociación secuenciales 249-252
9.6. Aprendizajes de reglas de asociación con sistemas de minería de 252-256
datos

Comentarios generales sobre los subtemas de este capítulo.

Elaboró Revisó Autorizó Versión Clave Página


Lic. Enrique Gómez Jiménez 1.0 28/49
9.1. Introducción

Las reglas de asociación se aplican es casos como: análisis de la cesta de compras. Estudio de textos,
búsqueda de patrones en páginas wed, entre otros. Expresan patrones de una base de datos,
sirviendo para conocer el comportamiento general del problema que genera la base de datos y con
ello tener mayor información para la toma de decisiones.

Para entender el caso de la cesta de compras analice la figura 9.1 de la


página 238 del libro de texto. Asimismo, analice la regla inferida a
partir de la tabla.

Las reglas de asociación tienen una clasificación basado en criterios como tipos de valores utilizados
en las reglas, dimensiones de los datos, niveles de abstracción e instantáneas o secuenciales.

Ver la descripción de cada regla en la página 239 del libro de texto.

9.2. Reglas de asociación

Un algoritmo muy simple y popular que permite establecer reglas de asociación es denominado
algoritmo Apriori. Este se basa en la búsqueda de los conjuntos de ítems con determinada cobertura.

En resumen su funcionamiento es:

a) Construir el conjunto de dos ítems y sucesivamente hasta que no existan conjuntos de ítems con
la cobertura requerida.
b) Una vez seleccionados los conjuntos de ítems que cumplen con la obertura mínima, se debe
extraer de estos conjuntos de reglas las que tengan un nivel de confianza mínimo.

Como se ve el aprendizaje de las reglas de asociación tiene dos fases:

a) Extraer los conjuntos de items que cumplen con la cobertura requerida desde los datos y
b) Generar las reglas a partir de estos conjuntos.

Para más detalle de algoritmo y su uso en un caso práctico, refiérase a


las páginas 239 a la 242 del libro de texto.

9.3. Reglas de dependencias

Las reglas de asociación se limitan a resolver problemas de la extracción de patrones en una cesta
de compras o problemas con características similares.

Las reglas de dependencia se produce cuando la comparación de dos items, como en el caso de la
cesta de compras, afecta a otro, sea negativa o positivamente. Esto es si la compra de un producto
porque conlleva tambien a comprar el producto y/o por lo menos disminuye su probabilidad de
compra.

Para más detalle consulte las páginas 243 a la 247 del libro de texto.

9.4. Reglas de asociación multinivel

Elaboró Revisó Autorizó Versión Clave Página


Lic. Enrique Gómez Jiménez 1.0 29/49
Las reglas de asociación que utilizan varios niveles de conceptos para expresar las relaciones se
denominan reglas de asociación multi nivel. Se producen por que la dispersidad de los datos aveces
presenta muchos atributos comparados con el pequeño número de items. Por ende es mejor
agruparlo estos atributos en categorías y así las reglas se crearían sobre estas categorías.

Observe la figura 9.3, página 248 del libro de texto.

9.5. Reglas de asociación secuenciales

Estas reglas expresan patrones de comportamiento secuencial, a intervalos distintos (pero cercanos)
de tiempo. Por ejemplo, se aplica en una aplicación tal como el analisis de navegación sobre páginas
web.

El caso es encontrar relaciones del tipo; el 40% de las personas que consultan el sitio wed del
cinema, la visitan en menos de dos días para consultar la cartelera y lo que permite la compra de
entradas.

Analiza el algoritmo Apropiall, en la página 250 del libro de texto.


Asimismo, el ejemplo aplicativo, páginas 249 a 252.

9.6. Aprendizajes de reglas de asociación con sistemas de minería de datos

En esta sección se explica como utilizar algunos sistemas genéricos de minería de datos para
aprender reglas de asociación. Los sistemas que se analizan son Clementine y weka.

Elaboró Revisó Autorizó Versión Clave Página


Lic. Enrique Gómez Jiménez 1.0 30/49
Capítulo 11: Arboles de decisión y sistemas de reglas.

Sumario:

11.1.Introducción
11.2.Sistemas de partición: árboles de decisión para clasificación
11.3.Sistemas de aprendizajes de reglas por cobertura
11.4.Poda y reestructuración
11.5.Arboles de decisión para regresión, agrupamiento o estimación de probabilidades
11.6.Aprendizajes de árboles de decisión híbridos
11.7.Adaptación para grandes volúmenes de datos
11.8.Sistemas, aplicabilidad y recomendación de uso

Propósito del capítulo:

Este capítulo pretende que el estudiante conozca los diferentes métodos para el establecimiento y/o
aprendizaje de reglas en un sistema de minería de datos.

Objetivos:

Al finalizar el estudio de este tema, el estudiante deberá estar en capacidad de:

• Explicar los diferentes métodos de establecimiento y/o aprendizaje de reglas en un sistema


de minería de datos.
• Determinar como adaptar un sistema de minería de datos para grandes volumenes de datos.
• Explicar la aplicabilidad de sistemas de minería de datos, recomendaciones y uso de estos
sistemas.

Guía de lecturas:

Para lograr los objetivos descritos anteriormente, es importante que usted realice las siguientes
lecturas del libro de texto:

Subtema Página(s)
11.1.Introducción 281-283
11.2. Sistemas de partición: árboles de decisión para clasificación 283-287
11.3. Sistemas de aprendizajes de reglas por cobertura 287-290
11.4. Poda y reestructuración 290-292
11.5. Arboles de decisión para regresión, agrupamiento o estimación de 293-294
probabilidades
11.6. Aprendizajes de árboles de decisión híbridos 295
11.7. Adaptación para grandes volúmenes de datos 295-297
11.8. Sistemas, aplicabilidad y recomendación de uso 297-300

Elaboró Revisó Autorizó Versión Clave Página


Lic. Enrique Gómez Jiménez 1.0 31/49
Comentarios generales sobre los subtemas de este capítulo.

11.1.Introducción

De los sistemas de aprendizaje de reglas, el de árboles de decisión es quizás en el método más fácil
de utilizar y entender.

Un árbol de decisiones es un conjunto de condiciones organizadas en una estructura jerárquica, de


tal manera que la decisión final a tomar se puede determinar siguiendo las condiciones que se
cumplen de la raíz del árbol hasta alguna de sus hojas.

Observe y analice la figura 11.1, donde se explica este concepto.


Página 282 del libro de texto.

11.2.Sistemas de partición: árboles de decisión para clasificación

El espacio de instancias, donde se van determinando las condiciones de un árbol de decisión, se


“parten” de arriba hacia abajo, utilizando cada vez particiones (condiciones excluyentes y
exhaustivas) hasta llegar al final. Este concepto se conoce como algoritmo de partición o “divide y
vencerás”.

Analiza la figura 11.3 (página 284 del libro de texto) donde se


bosqueja el algoritmo de la técnica de partición, así como el detalle
explicativo de su funcionamiento.

11.3.Sistemas de aprendizajes de reglas por cobertura

Las reglas, en un árbol de decisiones, se derivan de particiones, en las cuales para cualquier
condición siempre aparece además la o las condiciones complementarias.

Algunas reglas a veces no cumplen estas condiciones y sin embargo, son capces de clasificar la
evidencia de una manera conveniente. Existe el caso en que varias reglas podrían ser aplicables al
mismo ejemplo.

Cuando no se siguen las condiciones complementarias, utilizadas en las reglas de exclusión y


exhaustividad, sino que se descartan los ejemplos ya cubiertos por las reglas ya obtenidas y con los
ejemplos que quedan se empieza de nuevo, apareciendo nuevas condiciones que solapen o no las
anteriores, estamos ante un método de regls por cobertura.

Ampliar el tema en las páginas 287 a 290 del libro de texto.

11.4.Poda y reestructuración

Los algoritmos de aprendizaje de árboles de decisión y conjuntos de reglas tienden a ajustarse a las
evidencias y cubrir todos los ejemplos analizados. Pero tienen un mal comportamiento cuando se
presentan nuevos ejemplos. Para limitar el problema se deben modificar los algoritmos de
aprendizaje, de tal manera que se obtengan modelos más generales, eliminando, en los árboles de
decisión y conjunto de reglas, condiciones de algunas ramas del árbol o de algunas reglas. En los
árboles de decisión es lo que se conoce como poda.

Elaboró Revisó Autorizó Versión Clave Página


Lic. Enrique Gómez Jiménez 1.0 32/49
La poda permite mejorar el comportamiento de los árboles de decisión. Posteriormente, se han
definido operadores y modificaciones de reestructuración.

11.5.Arboles de decisión para regresión, agrupamiento o estimación de probabilidades

Los árboles de decisión resultan idóneos para clasificación, se han adoptado a otras tareas como son
la regresión, el agrupamiento o la estimación de probabilidades. Las diferencias de un árbol de
regresión con respecto a uno de decisión son:

La función aprendida tiene dominio real y no discreto, como en los clasificados.

Los modos de hojas del árbol se etiquetan con valores reales, de tal manera que una cierta medida
de calidad se maximicen por ejemplo de varianza de los ejemplos que caen en ese nodo respecto al
valor asignado.

En cuanto el agrupamiento, la primera idea es modificar el criterio de participación y de evaluación


para que considere particiones que separan entre zonas densas y poco densas. Esto se sigue
haciendo hasta que se llega a zonas muy densas o zonas muy poco densas, constituyendo entonces
los nodos del árbol. Los grupos formados corresponden a los nodos de las zonas densas.

Para la estimación de probabilidades, la presentación del problema es similar a la de un problema de


clasificación. La diferencia es que el objetivo de los estimadores de probabilidades es más ambicioso:
determinar para cada nuevo ejemplo cual es la probabilidad de que pertenezca a cada una de las
clases.

Para mayores detalles ver el tema 11.5, páginas 293 y 294 del libro de
texto.

11.6.Aprendizajes de árboles de decisión híbrido

Dado que los árboles de decisión se han vuelto tan populares, su estructura básica de aprendizaje se
ha intentado combinar con otras técnicas de aprendizaje, creando un método híbrido, tanto en
árboles de decisión para clasificación como para regresión.

11.7.Adaptación para grandes volúmenes de datos

Los algoritmos de aprendizaje de decisión, debido a su carácter voraz y a su estructura de divide y


vencerás, se comportan especialmente bien con grandes volúmenes de datos, ya sean de gran
dimensionalidad (muchos atributos) o de gran cardinalidad (muchos ejemplos).

Mayores detalles en las páginas295 y 296 del libro de texto.

11.8.Sistemas, aplicabilidad y recomendación de uso

Existen numerosos algoritmos o sistemas de aprendizaje de árboles de decisión, tales como CART,
ID3, IND, AQ, SLIQ.

En la página 297 del libro de texto se explican detalladamente estos


algoritmos.

Elaboró Revisó Autorizó Versión Clave Página


Lic. Enrique Gómez Jiménez 1.0 33/49
Las ventajas principales de los árboles de decisión y el sistema de reglas son la aplicabilidad de varias
tareas de minería de datos (clasificación, regresión, agrupamiento y estimación de probabilidades),
tratan atributos tanto numéricos como nominales, son fáciles de usar, entre otros.

También tienen sus desventajas como no ser tan precisos como las redes neuronales, débiles por que
dependen de la muestra de ejemplos, etc.

Más detalles en la página 298 a la 300 del libro de texto.

Capítulo 12: Métodos relacionales y estructurados.

Sumario:

12.1.Introducción
12.2.Programación lógica y bases de datos
12.3.Programación lógica inductiva
12.4.Programación lógica inductiva y minería de datos
12.5.Otros métodos relacionales y estructurales
12.6.Sistemas

Propósito del capítulo:

Este capítulo pretende que el estudiante conozca los tipos de programación, según los modelos
relacionales y estructurados, en un sistema de minería de datos.

Objetivos:

Al finalizar el estudio de este tema, el estudiante deberá estar en capacidad de:

• Explicar los tipos de programación de lógica relacional e inductiva en un sistema de minería


de datos.
• Definir métodos relacionales y estructurales en un sistema de minería de datos.
• Citar y explicar la funcionalidad de algunos sistemas basados en métodos relacionales y
estructurados que convergen con sistemas de minería de datos.

Guía de lecturas:

Para lograr los objetivos descritos anteriormente, es importante que usted realice las siguientes
lecturas del libro de texto:
Subtema Página(s)
12.1.Introducción 301-304
12.2.Programación lógica y bases de datos 304-306
12.3.Programación lógica inductiva 306-312
12.4.Programación lógica inductiva y minería de datos 312-317
12.5.Otros métodos relacionales y estructurales 317-325
12.6.Sistemas 325-326

Elaboró Revisó Autorizó Versión Clave Página


Lic. Enrique Gómez Jiménez 1.0 34/49
Comentarios generales sobre los subtemas de este capítulo.

12.1.Introducción

Muchos de los algoritmos o técnicas de minería de datos (arboles de decisión, redes neuronales,
redes bayesianas, etc.) trabajan con patrones en bases de datos, cuya información se almacena en
una única tabla (vista minable) Es una limitación que poseen los algoritmos de aprendizaje
automático y no es una restricción de las bases de datos relacionales. Las técnicas atributo – valor
que utilizan estas técnicas, no son capaces de descubrir patrones complejos que involucren objetos
de varias tablas o que usen la estructura de los datos.

En las paginas 301 a la 304 del libro de texto, se ejemplariza los temas
relacionales con la mineria de datos.

12.2.Programación lógica y bases de datos

Un programa logico es un conjunto de clausulas definidas. Un conjunto de clausulas con el mismo


símbolo de predicado p en la cabeza forman la definición de p. Un predicado es un conjunto de
hechos basicos e intencionalmente como un registro como un conjunto de reglas. El siguiente es un
ejemplo:

mujer(“Ana“).
mujer(“Elena“).
hombre(“Juan“).
padre(“Luis“,“Ana“).
padre(“Luis“,“Elena“).
padre(“Luis“,“Juan“).

hermanas(x,y): -padre(z,x), padre(z,y), mujer(x), mujer(y)

Esta regla los predicados son mujer, hombre y padre, extensionalmente y hermanas
intencionalmente. Se establece que Ana, Elena son hermanas, por que tienen el mismo padre y son
mujeres.

Así las cosas, una base de datos relacional no es mas que un programa logico que solo consta de
hechos básicos.

En las páginas 305 y 306 del libro de texto se explica mas


detalladamente este concepto.

12.3.Programación lógica inductiva

La programación logica inductiva es la interseccion del aprendizaje inductivo y la programación


logica. Ambas tienen el objetivo de desarrollar tecnias y herramientas para inducir hipótesis desde
observaciones (ejemplos) o sintetizar nuevo conocimiento.

En resumen la programación logica inductiva consiste en aprender la definición de un predicado a


partir de hechos que son ciertos para ese predicado (ejemplos positivos) hechos que son falsos para

Elaboró Revisó Autorizó Versión Clave Página


Lic. Enrique Gómez Jiménez 1.0 35/49
ete predicado (ejemplos negativos) y la definición de otros predicados auxiliares que se pueden usar
en el proceso de aprendizaje (conocimiento previo o base)

12.4.Programación lógica inductiva y minería de datos

Desde la perspectiva de la mineria de datos, la programación logica inductiva tiene dos aristas: si el
objetivo es aprender la definición de un predicado hablamos de inducción predictiva, pero si se busca
aprender patrones generales (que relacione varios predicados entre si) entonces la inducción es
descriptiva.

En las paginas de la 312 a la 317 se amplia el tema, incluyendo


ejemplos de aplicación, tales como de clasificación como de asociación

12.5.Otros métodos relacionales y estructurales

No solamente el aprendizaje inductivo es un área ampliamente estudiada en minería de datos.


Existen otros métodos alternativos que son importantes y también bastante analizados. Entre ellos
se tienen los sistemas basados en grafos, probabilísticas relacionales, aproximaciones relacionales
basadas en distancias, árboles de decisión relacionales, reglas de asociación relacionales, etc.

En las paginas 317 a 325 del libro de texto se explican detalladamente


estos métodos.

12.6.Sistemas

Algunos de los sistemas que utilizan programación lógica inductiva son:

a) Claudien
b) MOBAL
c) GOLEM
d) FOIL

En las páginas 325 a 326 del libro de texto se explican detalladamente


estos sistemas.

Elaboró Revisó Autorizó Versión Clave Página


Lic. Enrique Gómez Jiménez 1.0 36/49
TEMA 4: Técnicas avanzadas de minería de
datos
Capítulo 13: Redes neuronales artificiales.

Sumario:

13.1.Introducción
13.2.El aprendizaje en las redes neuronales artificiales (RNA)
13.3.Aprendizaje supervisado en RNA
13.4.Aprendizaje no supervisado en RNA
13.5. Sistemas, aplicabilidad y recomendaciones de uso

Propósito del capítulo:

Este capítulo pretende que el estudiante se familiarice con las redes neuronales y su relación con los
sistemas de minería de datos.

Objetivos:

Al finalizar el estudio de este tema, el estudiante deberá estar en capacidad de:

• Explicar qué es un red neuronal artificial (RNA)


• Explicar cómo funciona el aprendizaje mediante RNA en un sistema de minería de datos.
• Determinar las diferencias existentes entre aprendizaje supervisado y no supervisado
mediante RNA en un sistema de minería de datos.

Guía de lecturas:

Para lograr los objetivos descritos anteriormente, es importante que usted realice las siguientes
lecturas del libro de texto:

Subtema Página(s)
13.1.Introducción 327-329
13.2.El aprendizaje en las redes neuronales artificiales (RNA) 330
13.3.Aprendizaje supervisado en RNA 330-342
13.4.Aprendizaje no supervisado en RNA 343-351
13.5. Sistemas, aplicabilidad y recomendaciones de uso 351-352

Comentarios generales sobre los subtemas de este capítulo.

Elaboró Revisó Autorizó Versión Clave Página


Lic. Enrique Gómez Jiménez 1.0 37/49
13.1.Introducción

Las redes neuronales pueden utilizarse en cualquier aplicación, tal como reconocimiento de patrones,
compresión de información, agrupamiento, clasificación, etc.

Las redes neuronales son un modelo de aprendizaje cuya finalidad inicial era la de emular los
procesadores biológicos de información, tal y como funciona el cerebro humano.

Algunas propiedades interesantes del procesamiento neuronal humano son:

a) Procesamiento de información biológica robusta y tolerante a fallas.


b) Procesadores de información flexibles a la configuración del entorno. Adaptabilidad.
c) Capacidad de trabajar con información incompleta, ruidosa e inconsistente.
d) Paralelismo. Compacta y utiliza poca energía.

13.2.El aprendizaje en las redes neuronales artificiales (RNA)

Variaciones en los pesos de la red, causados por cambios en el entorno (adaptabilidad) promueven el
aprendizaje. Hay dos tipos de aprendizaje en las redes neuronales artificiales (RNA):

a) Aprendizaje supervisado. Se le proporcionan datos de entrada y respuestas correctas a la


red. Se hace fluir en la red y la salida se compara con el valor esperado y se realizan ajustes
si es necesario.
b) Aprendizaje no supervisado. Solo se proporcionan a la red datos de entrada. La red debe
autoaprender.

Más información en las páginas 329 y 330 del libro de texto.

13.3.Aprendizaje supervisado en RNA

El aprendizaje supervisado en RNA, necesita un conjunto de datos de entrada previamente clasificado


o cuya respuesta objetivo se conoce. Ejemplos de este tipo de redes son: el perceptron simple, la red
Adaline, el perceptron multicapa y la memoria asociativa bidireccional.

El proceso de aprendizaje se realiza mediante un entrenamiento controlado por un agente externo


(supervisor, maestro) que determina la respuesta que debería generar la red a partir de una entrada
determinada. El supervisor comprueba la salida de la red y en el caso de que ésta no coincida con la
deseada, se procederá a modificar los pesos de las conexiones, con el fin de conseguir que la salida
se aproxime a la deseada.

Se consideran tres formas de llevar a cabo este tipo de aprendizaje:

 Aprendizaje por corrección de error: Consiste en ajustar los pesos en función de la diferencia
entre los valores deseados y los obtenidos en la salida de la red; es decir, en función del
error.
 Aprendizaje por refuerzo: Se basa en la idea de no indicar durante el entrenamiento
exactamente la salida que se desea que proporcione la red ante una determinada entrada. La
función del supervisor se reduce a indicar mediante una señal de refuerzo si la salida
obtenida en la red se ajusta a la deseada (éxito=+1 o fracaso=-1), y en función de ello se
ajustan los pesos basándose en un mecanismo de probabilidades.

Elaboró Revisó Autorizó Versión Clave Página


Lic. Enrique Gómez Jiménez 1.0 38/49
 Aprendizaje estocástico: Este tipo de aprendizaje consiste básicamente en realizar cambios
aleatorios en los valores de los pesos de las conexiones de la red y evaluar su efecto a partir
del objetivo deseado y de distribuciones de probabilidad.

Más información en el libro de texto, páginas 330 a 342.

13.4.Aprendizaje no supervisado en RNA

Este tipo de aprendizaje se caracteriza por descubrir modelos o características significativas a partir
únicamente de los datos de entrada. No existe, por tanto, como en el aprendizaje supervisado, un
valor de salida o una clase para cada instancia.

Para el aprendizaje no supervisado en RNA, se utilizan dos métodos principalmente:

a) Aprendizaje de Hebb, por medio del cual se obtienen proyecciones o compresiones optimas
de conjuntos de datos. Es una red de programación hacia delante.
b) Aprendizaje competitivo, que se utiliza para agrupar conjuntos de datos (clustering)

Este tipo de aprendizaje no necesita que se le muestren los patrones objetivos para salida, ya que el
algoritmo y la regla de modificación de las conexiones producen patrones de salida consistentes.
Cuando la red procesa patrones con bastante grado de similitud, genera la misma salida para ambos
patrones, esto es, clasifica los patrones en categorías de patrones parecidos. Cuando se dice
parecido, es por que se debe decidir en que grado deberán parecerse. Normalmente se usa el error
cuadrático medio para determinar la similitud, aunque hay otras opciones.

Se puede imaginar que en el proceso de aprendizaje, la red mide cuánto se parecen el patrón que le
llega y los que tiene almacenados y en función de ello los agrupa en una categoría o otra, aunque en
un principio no se sepa que salida corresponderá a cada tipo o grupo de patrones de entrada, ni que
atributos usará para clasificarlos. Esto es, solo se tiene un conjunto de patrones, no se conocen las
características ni las categorías posibles y la red en función de su algoritmo de aprendizaje,
diferenciará ambas cosas y clasificara los patrones en categorías.

En general, los métodos de aprendizaje no supervisado usan representaciones modélicas de los


objetos a reconocer y a clasificar. Por ejemplo una aplicación de reconocimiento de rostros podría
pasar la fotografía como un mapa de bits pero esto seria muy costoso computacionalmente. Sin
embargo, si se pasaran una serie de valores como anchura de ojos, anchura de boca, tamaño de
frente, etc., podría clasificar la cara en función de sus parecidos.

Entre los distintos tipos de aprendizaje no supervisado podemos distinguir, el aprendizaje por
componentes principales y el aprendizaje competitivo.

13.5.Sistemas, aplicabilidad y recomendaciones de uso

El primer rasgo diferenciador en el campo de las redes neuronales artificiales se encuentra en


aquellas redes que emplean aprendizaje supervisado, aplicables, por tanto, a las tareas de
clasificación y regresión y aquellas dedicadas al aprendizaje no supervisado, utilizables,
fundamentalmente, para el agrupamiento, la reducción de dimensionalidad o la transformación de
atributos.

Elaboró Revisó Autorizó Versión Clave Página


Lic. Enrique Gómez Jiménez 1.0 39/49
Existen muchas aplicaciones y herramientas para utilizar redes neuronales, tal como SNNS (simulador
de redes neuronales de stutgart), WEKA y Clementine.

Elaboró Revisó Autorizó Versión Clave Página


Lic. Enrique Gómez Jiménez 1.0 40/49
Capítulo 20: Minería de datos espaciales, temporales,
secuenciales y multimedia.

Sumario:

20.1.Introducción
20.2.Minería de datos espaciales
20.3.Minería de datos temporales
20.4.Extracción de datos secuenciales
20.5.Minería de datos multimedia

Propósito del capítulo:

Este capítulo pretende que el estudiante conozca el proceso de minería de datos, aplicados a bases
de datos espaciales, temporales, secuenciales y de multimedia.

Objetivos:

Al finalizar el estudio de este tema, el estudiante deberá estar en capacidad de:

• Explicar que son bases de datos espaciales, temporales, secuenciales y de multimedia.


• Explicar el funcionamiento de los procesos de minería de datos en el procesamiento de datos
en bases de datos espaciales, temporales, secuenciales y de multimedia.

Guía de lecturas:

Para lograr los objetivos descritos anteriormente, es importante que usted realice las siguientes
lecturas del libro de texto:

Subtema Página(s)
31.4.Introducción 525
31.5.Minería de datos espaciales 525-531
31.6.Minería de datos temporales 531-536
31.7.Extracción de datos secuenciales 536-538
31.8.Minería de datos multimedia 539-543

Comentarios generales sobre los subtemas de este capítulo.

20.1.Introducción

Las bases de datos generalmente almacenan información que ha sido registrada a través del tiempo.
Puede pensarse también que obedece a registros de eventos. Otro tipo de información es la que se
relaciona con el espacio. Que evoluciona a través del teimpo, como lo es la información relativa a los
censos poblacionales. Finalmente, otro tipo de información es la que almacena datos de multimedia
(audio, video, texto, imagen, etc.)

Elaboró Revisó Autorizó Versión Clave Página


Lic. Enrique Gómez Jiménez 1.0 41/49
Estas clases de información contienen características especiales como las relaciones intrínsecas entre
ellas (espaciales o temporales) o bien las que no detectan directamente. Cada una de estas
categorías de información son tratadas por técnicas muy especializadas de minería de datos.

20.2.Minería de datos espaciales

Una base de datos espacial conteien datos pertenecientes a un determinado espacio. Por ejemplo las
habitaciones de un hotel, las moelculas eun proteína o los vehículos en un estacionamiento. La
dimensión espacio es el concepto clave de este tipo de base de datos. En dos dimensiones podría
mencionarse un mapa urbano de una ciudad, mientras que en tres dimensiones un modelo del
cerebro.

Un sistema SIG (Sistema de Informacion Espacial o GIS por sus siglas en inglés) es un conjunto de
métodos, herramientas y datos que permiten capturar, almacenar, analizar, transformar y presentar
toda la información geográfica y de sus atributos almacenada en una base de datos espacial.

Mayor información en las páginas 526 a 531 del libro de texto.

20.3.Minería de datos temporales

Las bases de datos temporales están formadas por series con observaciones de carácter cronológico
que normalmente se realizan de forma repetida y con la misma frecuencia. A esto se llaman series
temporales. Ejemplos: evolución diaria de la cotización de títulos en la bolsa de valores, numero de
vehículos que transitan por una avenida o la evolución de una epidemia a través de un periodo de
tiempo.

Los dos objetivos que impulsa el estudio de las series temporales son dos:

a) Identificar la naturaleza del sistema que genera la secuencia de los datos.


b) Predecir los valores futuros que tomara la serie temporal.

El comportamiento de una serie temporal se descompone en cuatro movimientos principales:

a) Movimiento a largo termino. Tendencias.


b) Variaciones aciclicas
c) Moviemientos estacionales
d) Moviemientos aleatorios o irregulares

Mayor información sobre estos movimientos en las páginas 531 a 535


del libro de texto.

20.4.Extracción de datos secuenciales

La minería de datos secuenciales se define como la extracción de patrones frecuentemente


relacionados con el tiempo u otro tipo de secuencia. En este tipo no es relevante el momento
precesio de registro como en las series temporales. Un ejemplo: “un cliente que compra un televisor
adquririra probablemente un DVD en menos de tres meses”

Algunas técnicas de minería de datos para datos secuenciales se agrupan en:

Elaboró Revisó Autorizó Versión Clave Página


Lic. Enrique Gómez Jiménez 1.0 42/49
a) Clasificacion con datos secuenciales, donde aplican técnicas tales como la denominada
ventanas deslizantes para el aprendizaje supervisado secuencial.
b) Agrupamiento por patrones.
c) Reglas de Asociación con datos secuenciales.

Estas técnicas se citan a partir de la página 535 del libro de texto.

20.5.Minería de datos multimedia

La información multimedia contiene simultáneamente varios medios de información: audio, video,


texto, imagen, etc. Dado que este formato se complica considerablemente su análisis. Sinn embago,
dada la importancia de la información multimedia han aparecido varias técnicas orientadas a la
minería de datos.

Dos son los tipos de problemas fundamentales que aparecen en el tratamiento de datos multimedia:

a) Carencia de técnicas efectivas que permitan extraer información desde secuencias de video o
audio que pueda ser directamente analizada.
b) La información viene por varios medios, por lo que es necesario establecer mecanismos que
permitan unir la información de manera coherente.

Algunos métodos de minería de datos empleados en datos de multimedia se agrupan en aquellas


que:

a) Descubren la similitud de datos multimedia.


b) Aprenden supervisadamente desde datos multimedia.
c) Establecen reglas de asoacion a datos multimedia.

Para mayor información consultar las páginas 541 a 543 del libro de
texto.

Capítulo 21: Minería de Web y textos.

Sumario:

21.1.Introducción
21.2.Minería Web
21.3.Minería del contenido de la Web
21.4.Minería de la estructura de la Web
21.5.Minería de uso Web
21.6.Sistemas de minería de Web y textos

Propósito del capítulo:

Este capítulo pretende que el estudiante se familiarice con la minería de datos orientada hacia la Web
y archivos textos y las diferentes herramientas y técnicas existentes para su procesamiento.

Elaboró Revisó Autorizó Versión Clave Página


Lic. Enrique Gómez Jiménez 1.0 43/49
Objetivos:

Al finalizar el estudio de este tema, el estudiante deberá estar en capacidad de:

• Explicar en que consiste la minería orientada hacia la Web y archivos tipo texto.
• Describir las diferentes técnicas utilizadas para la gestión de la minería de datos en sitios
Web y archivos de tipo texto.

Guía de lecturas:

Para lograr los objetivos descritos anteriormente, es importante que usted realice las siguientes
lecturas del libro de texto:

Subtema Página(s)
21.1.Introducción 545-548
21.2.Minería Web 548-551
21.3.Minería del contenido de la Web 551-560
21.4.Minería de la estructura de la Web 560-562
21.5.Minería de uso Web 563-569

Comentarios generales sobre los subtemas de este capítulo.

21.1. Introducción

La Web es un repositorio de gran tamaño, donde los documentos contienen datos de muy diverso
tipo (texto, imágenes, audio, etc) Estos datos son no estructurados o semiestructurados, lo cual
marca la diferencia con las bases de datos relacionales. La Web se mina de acuerdo a tres
conceptos: contenido, estructura y uso.

La Web al interactuar con el ser humano presenta algunos problemas, a saber:

 Encontrar información relevante. Cuando se busca en la Web probablemente los resultados


arrojen una cantidad importante de sitios con información no relevante a la búsqueda
realizada.
 Crear nuevo conocimiento. Obtenida la información en la Web el paso siguiente es obtener
conocimiento útil de la misma.
 Personalización de la información. Es la forma en como la información se presenta al usuario
final. Esto considera los gustos y preferencias de interface del usuario, utilizando portales,
filtrado de correo, etc.

Por ende, muchas técnicas que se utilizan para la minería de datos en bases de datos relacionales
deben modificarse, inclusive definirse nuevas, para aplicarse en un entorno Web.

En las páginas 545 a 548 del libro de texto, se detalla este concepto.

Elaboró Revisó Autorizó Versión Clave Página


Lic. Enrique Gómez Jiménez 1.0 44/49
21.2. Minería Web

La minería Web se lleva a cabo utilizando técnicas para descubrir y extraer información
automáticamente desde la Web. Las subtareas que se llevan a cabo son:

a) Descubrir las fuentes. Documentos y servicios en la Web para obtener la información.


b) Selección y preprocesado de la información. Se analiza la información encontrada y se realiza
un filtro de la misma, reprocesándola.
c) Generar patrones generales.
d) Analizar y validar los patrones minados.

Esto considera los procesos de recuperación de la información (IR: Information Retrieval) y de


extracción de la información (IE: Information Retrieval)

21.3. Minería del contenido de la Web

En cuanto la minería del contenido de la Web, ésta describe el descubrimiento de información útil
desde los contenidos textuales y gráficos de los documentos Web.

La principal diferencia entre las técnicas de recuperación de información y las técnicas de minería del
contenido de la Web es que las primeras ayudan a los usuarios a encontrar documentos que
satisfacen sus necesidades de información, mientras que las segundas permiten descubrir, reconocer
o derivar información nueva a partir de uno o varios documentos.

La minería del contenido de la Web ha sido principalmente aplicada a dos objetivos con dos puntos
de vista diferentes:

a) Vision desde IR: asistir, mejorar o filtrar información que los buscadores proporcionan a los
usuarios a partir de sus necesidades.
b) Vision de bases de datos: modelar e integrar los datos encontrados en la Web para
estructurarlos, de tal forma de crear consultas mas complejas y no basadas en palabras
claves.

Las técnicas de minería de datos orientadas a la Web son las perfiladas a textos no estructurados
(text mining), semiestructurado (XML, HTML, etc.) que se conoce como minería de marcado (Markup
Mining), datos de multimedia (Multimedia Mining), etc.

Para mayor detalle de este concepto, estudie las páginas 551 a 560 del
libro de texto.

21.4. Minería de la estructura de la Web

La minería de la estructura Web trata de descubrir el modelo subyacente a la estructura de enlaces


de la Web y analiza, fundamentalmente, la topología de los hipervínculos. Con este modelo se
pueden categorizar sitios Web y generar información como la similitud y relación entre diferentes
sitios. Con ello se reduce el problema de no encontrar información interesante o relevante a nuestro
criterio de búsqueda. La relevancia, en este contexto, se orienta no solo a localizar un conjunto de
paginas relevantes sino que éstas también sean de alta calidad.

Elaboró Revisó Autorizó Versión Clave Página


Lic. Enrique Gómez Jiménez 1.0 45/49
Analícese el modelo de hipertexto que ofrece el libro de texto, en las
páginas 561 y 562 del libro de texto.

21.5. Minería de uso Web

La minería de uso Web es el proceso de analizar la información sobre los accesos Web disponibles en
los servidores Web. Se diferencia de las minerías de contenido y e estructura (que usan datos reales
sobre la Web) por que minan datos secuendairos derivados de la interaccion de los usuarios mientras
utilizan un sitio Web (archivos logs de acceso al servidor, del navegador, servidores proxy, perfiles de
usaurio, datos de registro, sesiones o transacciones del usuario, cookies, etc.)

Las aplicaciones de la minería de uso pueden clasificarse en:

a) Aprendizaje de patrones de navegación: como función tiene la transformación de los datos a


una notación tabular (atributo – valor) o representaciones especificas como las sesiones de
navegación de los usuarios inferidas desde los archivos logs o como gramatica probabilística
de hipertexto.
b) Aprendizaje de perfiles de usuario para personalizar las interfaces: Es una función de adaptar
la Web al gusnto del usuario a partir de los patrones de uso pasados.

Existen métodos que utilizan la personalización de la interface que van desde los colaborativos,
basados en esfuerzo y otras técnicas.

Para profundizar sobre este tema, estúdiense las páginas 563 a 568
del libro de texto.

21.6. Sistemas de minería de Web y textos

Datas las características especiales de los datos en la Web, se han desarrollado varias
herramientas especificas. Entre ellas se tiene a SAS, con la herramienta Intelligent Miner para
minería en general y SAS Text, para la minería de texto (PDF, ASCII, HTML, Winword, etc.)
Tambien existen Intelligent Miner, de IBM, entre otras.

En las páginas 567 y 568 del libro de texto se detallan estas y otras
herramientas.

Elaboró Revisó Autorizó Versión Clave Página


Lic. Enrique Gómez Jiménez 1.0 46/49
TEMA 5: Repercusiones y retos de la minería
de datos
Capítulo 23: Repercusiones y retos de la minería de datos.

Sumario:

23.1.Impacto social de la minería de datos


23.2.Cuestiones éticas y legales
23.3.Escalabilidad. Minería de datos distribuida
23.4.Tendencias futuras

Propósito del capítulo:

Este capítulo pretende que el estudiante comprenda las repercusiones y retos que enfrenta la minería
de datos en la actualidad.

Objetivos:

Al finalizar el estudio de este tema, el estudiante deberá estar en capacidad de:

• Explicar el impacto que representa la minería de datos en la sociedad actual.


• Enumerar las implicaciones éticas y legales que involucra la utilización de la información
extraida de las bases de datos comerciales.
• Explicar el concepto de escalabilidad en la minería de datos distribuida.
• Comprender las tendencias futuras de la minería de datos.

Guía de lecturas:

Para lograr los objetivos descritos anteriormente, es importante que usted realice las siguientes
lecturas del libro de texto:

Subtema Página(s)
23.1.Impacto social de la minería de datos 597-598
23.2.Cuestiones éticas y legales 599-601
23.3.Escalabilidad. Minería de datos distribuida 601-604
23.4.Tendencias futuras 604-606

Comentarios generales sobre los subtemas de este capítulo.

23.1. Impacto social de la minería de datos

El uso del conocimiento (información aprendida desde los datos) es una necesidad actual de
compañías y todo tipo de organización para mantener la competitividad en los entornos donde se
desenvuelve.

Elaboró Revisó Autorizó Versión Clave Página


Lic. Enrique Gómez Jiménez 1.0 47/49
El incremento en el poder computacional y el mejoramiento de las técnicas de la minería de datos
hacen que las empresas actuales busquen herramientas utiles que les sirvan para extraer
conocimiento de sus voluminosas bases de datos.

El impacto social que representa la minería de datos es difícil determinar y depende de los países,
zonas geográficas y otros factores para inferir el grado de influencia que representan. Se pueden
observar aplicaciones de la minería de datos en aplicaciones ofimáticas (por ejemplo en las hojas
electrónicas de datos que incluyen herramientas estadísticas y de análisis de datos) Muchas de estas
herramientas, inclusive, son de distribución gratuita.

La Web es otro medio de difusión de la minería de datos. A través de ella es posible determinar
actividades relacionadas con clientes, productos, proveedores, etc. creando patrones de
comportamiento de éstos a través de la información recopilada de los mismos.

23.2. Cuestiones éticas y morales

La minería de datos puede aportar numerosos beneficios en muy diversas aplicaciones. Sin embargo,
afecta dos aspectos fundamentales: la privacidad de los datos de las personas con que se trabaja y
las implicaciones éticas y legales que representa su utilización.

Utilizar datos médicos o financieros, por ejemplo, puede acarrear consecuencias peligrosas para un
individuo. Por eso, es indispensable proteger los datos del uso indebido a través de la promulgación
de leyes o directrices que los protejan

En las páginas 599 a 601 del libro de texto, se enumeran algunas


directrices orientadas a la protección a la privacidad de los datos.

23.3. Escalabilidad. Minería de datos distribuida.

¿Cómo resolver el problema del problema del procesamiento de grandes volúmenes de datos por
parte de la minería de datos? Aquí entra en juego la escalabilidad de las técnicas de minería de
datos. Esta escalabilidad se refiere al comportamiento lineal de los algoritmos de minería de datos
en cuanto el tiempo requerido para procesar un volumen x de datos. Si el volumen de datos
aumenta, el tiempo requerido por el algoritmo para el procesamiento debe ser lineal.

La minería de datos distribuida pretende procesar la información obteniéndola de fuentes


particionadas y luego integrándola en un modelo global. Existen tres arquitecturas diferentes para la
minería de datos distribuida. La primera utiliza modelos parciales que se aplican sobre bases de
datos distribuidas y luego éstos son procesados en un modelo global. La segunda integra un modelo
de datos obteniendo la información de las bases de datos distribuida y luego genra el modelo gloabl.
La ultima tiene una visión de conjunto sobre las bases de datos distribuidas, crea un modelo, el cual
es generado en un modelo global.

En las páginas 603 a 604 del libro de texto, se explica con detalle el
concepto de minería de datos distribuida y su escalabilidad.

23.4. Tendencias futuras.

Elaboró Revisó Autorizó Versión Clave Página


Lic. Enrique Gómez Jiménez 1.0 48/49
En un futuro se espera una minería de datos más automatizada, más sencilla de implementar, más
fiable, patrones más novedosos y más eficiente. Falta resolver el problema de la eficiencia y la
escalabilidad. Otro factor es el mejoramiento de la calidad de los datos porque de ahí se generará el
conocimiento valioso y útil.

Elaboró Revisó Autorizó Versión Clave Página


Lic. Enrique Gómez Jiménez 1.0 49/49

También podría gustarte