Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Bases de Datos II
Guía de Estudios
Este documento es una guía de estudio, pero no sustituye al libro de texto, sobre el cal se basarán las pruebas de evaluación del curso.
Prohibida su reproducción sin autorización del autor o de la Institución.
Universidad Estatal a Distancia (UNED) – Bases de Datos II.
Guía de Estudios. Profesor Enrique Gómez Jiménez. 2008.
Contenido
Introducción ...........................................................................................................................5
Descripción del curso ..............................................................................................................5
Objetivo General ...............................................................................................................5
Objetivos Específicos .........................................................................................................5
Requisitos del curso ..........................................................................................................5
Material de apoyo .............................................................................................................6
Desglose de temas ............................................................................................................6
Guía de lecturas ................................................................................................................7
Comentarios generales ......................................................................................................7
Preguntas de autoevaluación .............................................................................................7
Resolución de las preguntas de autoevaluación ...................................................................7
Esas bases de datos operacionales almacenan grandes cantidades de datos, pero que únicamente se
utilizan para gestionar la transaccionalidad de la empresa o institución a la que pertenecen. Pocas
veces se utilizan estos datos para generar información condensada que muestre la realidad de la
empresa, reflejada a través de datos.
Objetivo General
Objetivos Específicos
Este curso tiene asignado una carga de 3 créditos y es parte del plan de estudios de Licenciatura en
Ingeniería de Sistemas, de la Universidad Estatal a Distancia, UNED. Como requisito principal tiene el
haber aprobado el curso de bases de datos I. El no poseer los conocimientos que aporta el curso de
requisito, somete al estudiante a una serie de dificultades teóricas y técnicas que atentan contra la
asimilación adecuada de conocimientos y la posibilidad de perder el curso.
1. Libro de Texto: Hernández Orallo, José y otros. Introducción a la minería de datos. 2da Edición,
Prentice Hall, España, 2005.
2. Castro, Karol (2008) Orientaciones del curso de bases de datos II.
3. Guía de Estudio. Lic. Enrique Gómez Jiménez.
Desglose de temas
Para una adecuada formación en el tema de la minería de datos se escogió un libro de texto
actualizado, con ejemplos claros de aplicación y explicaciones claras y concisas de los conceptos
fundamentales de la minería de datos.
El libro de texto consta de 23 capítulos. Cada uno de ellos trata sobre aspectos importantes
relacionados con la minería de datos. Sin embargo, para los efectos del curso, se escogieron 11
capítulos que tratan los temas más significativos. Estos capítulos se agrupan en cinco grandes
temas.
En la siguiente tabla se detallan los temas principales, los capítulos correspondientes y las páginas
que localiza a cada uno de ellos.
Tema 2
3 43-62
Almacenes de datos, tareas y métodos 6 137-161
Tema 3 237-252
9
281-297
11
Técnicas de minería de datos 301-325
12
Tema 4 327-351
13
525-539
20
Técnicas avanzadas de minería de datos 545-568
21
Tema 5
23 597-605
Repercusiones y retos de la minería de datos
En cada tema de esta guía de estudio usted encontrará una sección llamada Guía de Lectura. Esta
tiene como finalidad indicarle las páginas respectivas que usted debe leer y estudiar de su libro de
texto, para cada tema y subtema.
Comentarios generales
Los comentarios generales presentados para cada tema en esta guía de estudio brindan aspectos
importantes de dicho tema, y su ubicación dentro de cada capítulo del libro de texto. Le servirán para
sintetizar los conceptos transmitidos. De esta manera, usted podrá determinar si requiere repasar o
aclarar alguno de los conceptos antes de desarrollar los ejercicios.
Preguntas de autoevaluación
Con el propósito de que usted realice una autoevaluación de su comprensión y aprendizaje del tema
en estudio, esta guía incluye una sección llamada Preguntas de autoevaluación, que selecciona
algunos de todos los conceptos tratados en cada capítulo del libro de texto. Sin embargo, esto no
significa que sean las únicas autoevaluaciones que se puedan realizar, dado que el estudiante puede
formular sus propias preguntas y respuestas de autoevaluación, resúmenes de capítulos o cualquier
otro método para autoevaluarse.
Este capítulo pretende brindar al estudiante una noción fundamental acerca del tema de la minería
de datos, como se relaciona con otras disciplinas y los sistemas y herramientas existentes para los
procesos de búsqueda de conocimiento en bases de datos tradicionales.
Objetivos:
Guía de lecturas:
Para lograr los objetivos descritos anteriormente, es importante que usted realice las siguientes
lecturas del libro de texto:
Subtema Página(s)
1.1. Nuevas necesidades 01-05
1.2. El concepto de minería de datos 05-09
1.3. Tipos de datos 09-12
1.4. Tipos de modelos 12-13
1.5. La minería de datos y el proceso de descubrimiento de conocimiento 13-14
en base de datos (KDD)
1.6. Relación con otras disciplinas 14-16
1.7. Aplicaciones 16-17
1.8. Sistemas y herramientas de minería de datos 18
La minería de datos es un proceso que utiliza varias herramientas de análisis de datos para descubrir
patrones y relaciones entre esos datos. Los datos se convierten de un producto resultante de la
operacionalidad de un sistema de información a materia prima que sirve para generar conocimiento
para la toma de decisiones.
Los tipos de datos a los cuales se aplica la minería de datos pueden ser de distintos formatos. Por
ejemplo:
Para mayor detalle véase temas 1.3. en las páginas 9 al 11 del libro de
texto.
Ejemplo: Aquel modelo que permite estimar la demanda de un nuevo producto en función
del gasto en publicidad.
Descriptivos: Identifican patrones que explican o resumen de los datos. Sirven para explorar
las propiedades de los datos examinados, no para predecir nuevos datos.
Ejemplo: Agencia de viajes que identifica grupos de personas con los mismos gustos para
crear nuevas ofertas, analizando los registros de viajes de esos clientes e infiere un modelo
descriptivo de esos grupos.
Por ser multidisciplinarias, la minería de datos se relaciona con otras áreas, sea paralelamente o
como prolongación de estas.
c) Estadística: Por sus aportes conceptuales, algoritmos y técnicas que se utilizan en minería de
datos. Por ejemplo la media, la varianza, las distribuciones, etc.
f) Visualización de Datos: Mediante técnicas se puede descubrir, intuir o entender patrones, difíciles
de “ver” a partir de descripciones matemáticas o textuales de los resultados. Por ejemplo graficas
de dispersión, histogramas, etc.
g) Computación paralela y distribuida: Las tareas más complejas de minería de datos se puede
distribuir entre diferentes procesadores o computadoras.
Las aplicaciones de minería de datos son muy variadas y pueden ser orientadas hacia finanzas,
medicina seguros, economía, etc. Con las aplicaciones de la minería de datos a varias aplicaciones
de negocios o de procesos puede ayudar a entender mejor el entorno donde se desenvuelve la
organización y mejorar la toma de decisiones.
Dada la diversidad de aplicación de la minería de datos se han creado también varios sistemas y
herramientas que las apoyan. Cada uno de ellos se especializa en realizar determinadas tareas o
para analizar cierto tipo de datos que generan, que minan, el tipo de técnica o el tipo de aplicación.
En el caso de datos minados se orientan a objetos, etc. El conocimiento minado trata el conocimiento
generalizado (abstracción de nivel alto), nivel primitivo (filas de datos) o de múltiples niveles de
abstracción. Se busca patrones (regularidad) y excepciones (irregularidades).
La funcionalidad y técnica se refiere a la clasificación, agrupamiento, etc., de los datos, los métodos
de análisis de los datos empleados (técnicas y estadísticas)
Preguntas de autoevaluación:
1) ¿Porqué las herramientas OLAP no generan conocimiento a partir de datos aplicados a otros
datos?
4) Cite las dos categorías de datos en que aplica la minería de datos y los tipos que incluye cada
una de ellas.
6) ¿Cuáles son los dos tipos de modelos que utiliza la minería de datos para obtener el conocimiento
a partir de datos? ¿Qué trata cada uno?
1) Por que soportan cierto análisis descriptivo y de sumarización que transforman datos en otros
datos agregados o cruzados, pero no generan reglas, patrones o pautas, que es conocimiento
aplicados a otros datos.
Elaboró Revisó Autorizó Versión Clave Página
Lic. Enrique Gómez Jiménez 1.0 12/49
2) Los retos que se plantea la minería de datos son:
a) Trabajar con grandes volúmenes de datos.
b) Usar técnicas adecuadas para analizar los datos y extraer conocimiento novedoso y útil.
4) Las dos categorías de datos, y sus grupos, en que aplica la minería de datos son:
Estructurados:
o BD relacionales
o Otros tipos
Especiales
Temporales
Textuales
Multimedia
No estructurados
o Web
o Otros tipos de repositorios de documentos.
6) Los dos tipos de modelos de la minería de datos que sirven para extraer conocimientos son:
a) Predictivo: Estimar valores futuros o desconocidos de variables, objetivos o dependientes,
utilizando variables independientes o predictivas.
b) Descriptivo: Identificar patrones que explican o resumen los datos analizados. No predican
nuevos datos.
Sumario:
Este capítulo pretende que el estudiante se familiarice con el proceso de extracción de conocimiento
que efectúa un sistema de minería datos, considerando las distintas fases que la componen.
Objetivos:
Guía de lecturas:
Para lograr los objetivos descritos anteriormente, es importante que usted realice las siguientes
lecturas del libro de texto:
Subtema Página(s)
2.1. Las fases del proceso de extracción de conocimiento 19-21
2.2. Fase de integración y recopilación 21-22
2.3. Fase de selección, limpieza y transformación 22-24
2.4. Fase de minería de datos 24-35
2.5. Fase de evaluación e interpretación 35-39
2.6. Fase de difusión, uso y monitorización 39-40
La figura 2.1. de la página del libro de texto, muestra las fases del
proceso KDD.
En esta fase se determinan las fuentes de información que pueden ser útiles y dónde conseguirlas.
La recopilación de datos puede ser de distintas fuentes, tanto internas como externas. Pueden tener
distintos formatos y medios de almacenamiento, estrategias de acceso, etc.
La integración consiste en el proceso de mezclar las distintas fuentes de datos para crear el
repositorio. Puede ser simplemente mediante la copia simple de las bases de datos, eliminando
inconsistencias y redundancias.
No es un OLAP que es diferente a la minería de datos, dado que se busca es verificar patrones
hipotéticos usando los datos y no patrones y pautas hipotéticas sugeridas por el usuario para
verificarlas o rechazarlas. Meramente Deductivo y no inductivo como en la minería de datos.
Una vez recopilada la información el paso siguiente del KDD es seleccionar y prepara el subconjunto
de datos que se va a minar (vista minable). Esto se hace por que muchas veces algunos de los
recopilados son irrelevantes o innecesarios . Asimismo, identificar datos no conformes con el
comportamiento general de los datos (producen ruido o excepciones) y búsqueda del faltante de
datos y su significado o importancia dentro del contexto de todos los datos, son dos problemas
esenciales que justifican la necesidad de la limpieza de los datos.
La selección de los atributos relevantes es uno de los procesamientos más importantes dad su
funcionalidad en el proceso de minería de datos están en capacidad de probar todos los atributos y
elegir las mejores variables electoras. Esto en la práctica no funciona del todos bien, dado el tiempo
requerido para construir el modelo, el cual crece con el número de variables.
Por ende, el conocimiento sobre el dominio del problema puede permitir seleccionar correctamente
las variables relevantes del sistema.
También podrían, como en el caso de las variables, construir el modelo usando todos los datos. Sin
embargo, tardaría mucho tiempo y se requeriría una máquina muy potente. Mejor usar muestras a
partir de algunas filas de datos. Esta muestra debe ser aleatoria.
La otra tarea de preparación de los datos es la construcción de atributos. Esto consiste en construir
automáticamente nuevos atributos aplicando alguna operación o función a los atributos originales.
Estos nuevos atributos harán más fácil el proceso de minería por cuanto los atributos originales no
son muy predictivos por si mismas a los patrones dependen de variaciones lineales de las variables
originales.
En esta fase se decide cual es la tarea a realizar (clasificar, agrupar, entre otros) y se elige el método
que se va a utilizar. Aquí se presentan algunas tareas a realizar y se tipifican como problemas a
resolver.
Tienen sus propios requisitos y sus resultados pueden definir entre ellas. Pueden ser predictivos o
descriptivos.
Dada su aplicación interdisciplinaria, la minería de datos tiene muchas técnicas, entre ellas:
Regresión: La meta es inducir un modelo para poder predecir el valor de la clase, dados los
valores de los atributos. Se usan por ejemplo, árboles de regresión, regresión lineal, redes
neuronales, kNN, etc.
Arboles de decisión (AD). Representan reglas donde atributos independientes determinan
los valores finales. En estos árboles cada nodo representa una propiedad que puede tomar
diversos valores, cada uno de los cuales genera una rama. Los nodos hojas representan las
clasificaciones finales. Usadas donde se deben tomar decisiones a partir de varias alternativas
combinadas y con pesos diferentes. Son útiles en problemas de alta dimensionalidad y
pequeño numero de valores para cada atributo. Se usan, por enumerar unos, en dominios
médicos y en simulaciones de juegos de ajedrez.
Redes Neuronales artificiales (RNA). Como su nombre lo indica simula el sistema
nervioso real en forma abstracta. Estas deben ser entrenadas para que den solución a los
problemas. Esta enseñanza se realiza repitiendo sistemáticamente entradas clásicas, con sus
respectivas salidas o respuestas. Son usadas para reconocimiento de patrones, clasificaciones
de voz e imagen, procesamiento de lenguaje natural, predicción y optimización.
Técnicas de Algoritmos genéticos Optimización de funciones, se usan con redes
neuronales
Se deben explorar modelos del proceso de KDD hasta encontrar aquel que resulte más útil para
resolver un problema dado. Podría requerirse construir un nuevo modelo a partir de otro.
Cuando el modelo es predictivo se requiere tener bien definidas las etapas de entrenamiento y
validación para asegurar que las predicciones sean robustas y precisas.
Para medir la calidad de los patrones descubiertos en la minería de datos, estos deben tener tres
cualidades:
o Ser precisos
o Ser comprensibles y,
o Ser interesantes (útiles y novedosos)
Según la aplicación un criterio puede interesar más que otro: caso del diagnóstico médico que
prefiere patrones comprensibles aunque su precisión no sea tan buena.
Técnicas de evaluación:
Para entrenar y probar un modelo se requiere: crear un conjunto de entrenamiento (training set) y
un conjunto de pruebas (test set) Algunas técnicas de evaluación son:
b) Reglas de asociación: evaluar de forma separada cada una de las reglas con objeto de
restringirnos a aquellas que puedan aplicarse a un mayor numero de instancias y que tienen
una precisión relativamente alta sobres estas instancias. Los conceptos a utilizar son
cobertura (# de instancias a las que la regla se aplica y predice correctamente) y confianza
(proporción de instancias que la regla predice correctamente.
c) Regresión: Si la tarea es regresión, que genera un valor numérico, la manera mas habitual
de evaluar es mediante el error cuadrático medio del valor predicho con respecto al valor que
se usa como validación.
d) Agrupamiento: depende del método utilizado. Puede ser cohesión de cada grupo o
separación entre grupos. Esto se puede realizar utilizando la distancia media al centro del
grupo de los miembros de un grupo y la distancia media entre grupos, respectivamente.
Interpretación y contextualización.
A pesar de existir medidas de evaluación de los modelos de minería de datos, en muchos casos se
debe evaluar en el contexto donde el modelo se va a evaluar. Por ejemplo, en el caso de la
clasificación y las reglas de asociación, usar la precisión como medida de calidad tiene ciertas
desventajas por que no se sopesa el tener distribuciones de clases no balanceadas (muchas
instancias de una clase y muy pocas o ninguna de otras) En el caso de la clasificación, seria mejor
utilizar una matriz de confusión.
Una vez construido y variado el modelo, puede utilizarse para recomendar acciones basándose en el
modelo y en sus resultados o para aplicar el modelo a diferentes conjuntos de datos.
Es necesario que el modelo se difunda (se distribuya y se comunique) a los posibles usuarios (por
ejemplo en un sistema de créditos) También es importante monitorear su uso, funcionamiento y
prestaciones del mismo.
Sumario:
3.1. Introducción
3.2. Necesidad de los almacenes de datos
3.3. Arquitectura de los almacenes de datos
3.4. Carga y mantenimiento del almacén de datos
3.5. Almacenes de datos y minería
Objetivos:
Guía de lecturas:
Para lograr los objetivos descritos anteriormente, es importante que usted realice las siguientes
lecturas del libro de texto:
Subtema Página(s)
3.1. Introducción 44-45
3.2. Necesidad de los almacenes de datos 46-48
3.3. Arquitectura de los almacenes de datos 49-59
3.4. Carga y mantenimiento del almacén de datos 59-62
3.5. Almacenes de datos y minería 62-63
Introducción
3.1. Introducción
3.2. Necesidad de los almacenes de datos
3.3. Arquitectura de los almacenes de datos
3.4. Carga y mantenimiento del almacén de datos
3.5. Almacenes de datos y minería
3.1. Introducción
OLTP y OLAP.
OLTP (On Line Transactional Processing) se orienta al registro de las transacciones de una empresa.
OLAP (On Line Analytical Processing) se orienta a un conjunto de operaciones exclusivamente de
consultas para realizar informes y resúmenes que apoyen el proceso de toma de decisiones.
Existen varios modelos arquitectónicos que conceptualizan a los almacenes de datos. Los hechos que
se registran en estos almacenes de datos es su medula espinal. Y no se refiere a los movimientos
históricos de la organización, sino aquellos datos que se encuentran adecuademente estipulados en
el almacen de datos, como un resumen o una vista que proviene de la base de datos operativa o
transaccional de la empresa (base de datos relacional)
En este modelo los datos se organizan en torno a los hechos, los cuales tienen atributos que pueden
verse en mayor o menor detalle, según ciertas dimensiones. Las ventas es un hecho básico para un
supermercado. Una medida relacionada con este hecho es la cantidad o el monto, mientras que una
dimensión es lugar de venta, por ejemplo. Las medidas responden al “cuanto” y las dimensiones al
“cuando”, “que”, “donde”, etc.
DataMart
Cuando la información no se puede representar en dimensiones (como el caso de las ventas) por
dificultarse su integración en una sola estrella (dimensión), se recurre a los datamart. Cada estrella
que represente un ámbito especifico de la organización (ventas, personal, producción, etc) se
denomina datamart (mercado de datos) Cada datamart posee sus medidas y dimensiones propias y
diferentes de los demás. La única dimensión que suele aparecer en todos los datamart es la
dimensión de tiempo.
Para implementar un sistema de almacén de datos se pueden utilizar dos tipos de esquemas físicos:
o Rolap (Rational OLAP): físicamente, el almacén de datos se construye sobre una base de
datos relacional.
o Molap (Multidimensional OLAP): físicamente, el almacén de datos se construye sobre
estructuras basadas en matrices multidimensionales.
Las ventajas del ROLAP son, en primer lugar, que se pueden utilizar directamente sistemas de
gestión de bases de datos genéricas y herramientas asociadas: SQL, restricciones, disparadores, etc.
En segundo lugar, la formación y el costo necesario para su implementación es generalmente menor.
Una vez diseñado e implementado el almacen de datos (sea con ROLAP o MOLAP) lo que sigue es la
carga de los datos. Para la carga de un almacen de datos existe un sistema especializado
denominado sistema ETL (Extraction, Transformation, Load) La construcción del ETL es
responsabilidad del equipo de desarrollo del almacen de datos. Se pueden adaptar herramientas
genéricas, como triggers, de migración de datos o herramientas más especificas para esta tarea.
Puede obtener más detalles acerca de las tareas que realiza el ETL, en
las páginas del 59 a la 62 del libro de texto.
Los almacenes de datos pueden utilizarse de muy diferentes maneras y pueden agilizar muchos
procesos diferentes de análisis.
Los almacenes de datos contienen los datos donde se pueden realizar consultas e informes analíticos,
basados en agregación, visualización y las técnicas descriptivas estadísticas. Por otro lado, la minería
de datos que no hace esa transformación de datos en otros datos (agregación) sino que transforma
los datos en conocimiento (reglas o modelos)
Sumario:
6.1. Introducción
6.2. Tareas y métodos
6.3. Minería de datos y aprendizaje inductivo
6.5. Breve comparación de métodos
Este capítulo pretende que el estudiante se familiarice con el proceso de extracción de datos que
efectúa un sistema de minería datos, considerando algunos métodos de recuperación de datos.
Objetivos:
Guía de lecturas:
Para lograr los objetivos descritos anteriormente, es importante que usted realice las siguientes
lecturas del libro de texto:
Subtema Página(s)
6.1. Introducción 137-138
6.2. Tareas y métodos 139-148
6.3. Minería de datos y aprendizaje inductivo 148-154
6.5. Breve comparación de métodos 161-163
6.1. Introducción
La extracción de conocimiento a partir de datos tiene como objetivo descubrir patrones que, entre
otras cosas, deben ser validos, interesantes y, en ultima instancia, comprensibles.
Las técnicas de minería de datos son como una especie de colador que filtra los datos (en forma de
vista minable, por ejemplo) y los convierte en patrones. Pero existen problemas asociados a la
extracción de patrones, lo que hace que esta tarea no sea tan fácil como parece.
Tarea y método son diferentes. Una tarea Una tarea de minería de datos es un tipo de problema de
minería que debe resolverse. Las tareas mas importantes son la clasificación, regresión,
agrupamiento, etc. Por ejemplo “clasificar equipos de computo, en Aceptables, Inaceptables,
Obsoletos…” es una tarea que se puede resolver mediante arboles de decisión, con los criterios
adecuados. Un método constituyen la forma en como una tarea será resuelta.
Tareas:
Para definir una tarea se deben determinar el conjunto de ejemplos con los que se van a tratar.
a) Predictivas: Trata problemas y tareas en los que hay que predecir uno o más valores para uno
o más ejemplos. Se clasifican en clasificación (o discriminación), clasificación suave,
categorización, preferencias, regresión etc.
b) Descriptivas: No busca predecir nuevos datos sino describir los existentes. Entre estos
encontramos tareas por agrupamiento, asociación, correlaciones, entre otros.
Para más detalles véase el punto 6.2.1 del libro de texto (páginas de la
139 a la 145)
Cada tarea en numería de datos requiere métodos, técnicas o algoritmos para resolverlas.
Una tarea puede tener muchos métodos diferente para resolverla y que un mismo método puede
resolver muchos tipos de tareas.
Algunas técnicas utilizadas para llevar a cabo una tarea de numeria de datos son:
Existen otras técnicas tales como basadas en árboles de decisión, relacionales, declarativa, redes
neuronales, basadas en núcleo y máquinas de soporte vectorial, entre otras.
Para más detalles véase el punto 6.2.2 del libro de texto (páginas de la
146 a la 148)
Cuando afirma que una técnica pueda utilizarse para resolver varias tareas, surgen algunas
interrogantes: ¿Que tiene que ver un agrupamiento con una regresión? Y si son métodos ¿Qué tiene
que ver una red neuronal con un árbol de decisión?. A excepción de las reglas de asociación y las
correlaciones, todas las tareas y los métodos se centran alrededor del aprendizaje inductivo.
Ciertamente, lo aprendido puede, en cualquier momento ser refutado por evidencias futuras. Una
característica en cualquier tipo de técnica de minería de datos es su carácter hipotético. Los modelos
son aproximados, no perfectos. Por ende, hipotéticos. Esto hace que sea necesario realizar una
evaluación de los patrones obtenidos, con el objetivo de estimar su validez y poder compararlos con
otros.
La primera condición para un modelo sea comprensible es que se tenga. Esto porque mucha técnica
de minería resuelven una tarea pero no construyen un modelo.
Por ejemplo un clasificador de vecino más próximo que cada vez que se invoca crea una respuesta
sin crear un modelo que se aplique sin tener que mirar instancias anteriores.
Los métodos sin modelo y con modelo reciben generalmente el nombre de métodos retardados o
perezosos y métodos anticipativos o sin pacientes.
En cuanto al método retardado éste actúa para cada pregunta o predicción requerida. No se
construye un modelo. Para los métodos anticipativos, éste obtiene un modelo a partir de todos.
Ejemplos.
Para más detalles véase el punto 6.3.2 del libro de texto (páginas de la
151 y 152)
La eficiencia del aprendizaje depende, por ejemplo, del número de ejemplos, del número de atributo
o complejidad de los ejemplos, del espacio de hipótesis que se está considerando, del conocimiento
previo existente, entre otros. También incide el tamaño de los datos, la existencia de conocimiento
previo entre otros.
Los métodos para resolver tareas de numería de datos, poseen ventajas e inconvenientes según
rasgos de comprensiblidad de los modelos obtenidos, expresividad, precisión, eficiencia del método
entre otros.
Elaboró Revisó Autorizó Versión Clave Página
Lic. Enrique Gómez Jiménez 1.0 26/49
En la sección 6.5, páginas de la 161 a la 163 se enumeran varias
ventajas e inconvenientes de cada método. Elabore un cuadro
resumen que le sea de utilidad para compararlos.
Sumario:
9.1. Introducción
9.2. Reglas de asociación
9.3. Reglas de dependencias
9.4. Reglas de asociación multinivel
9.5. Reglas de asociación secuenciales
9.6. Aprendizajes de reglas de asociación con sistemas de minería de datos
Este capítulo pretende que el estudiante conozca las diferentes reglas de asociación y dependencia
que se utilizan en la generación de conocimiento en un sistema de minería de datos.
Objetivos:
Guía de lecturas:
Para lograr los objetivos descritos anteriormente, es importante que usted realice las siguientes
lecturas del libro de texto:
Subtema Página(s)
9.1. Introducción 237-239
9.2. Reglas de asociación 239-243
9.3. Reglas de dependencias 243-247
9.4. Reglas de asociación multinivel 247-249
9.5. Reglas de asociación secuenciales 249-252
9.6. Aprendizajes de reglas de asociación con sistemas de minería de 252-256
datos
Las reglas de asociación se aplican es casos como: análisis de la cesta de compras. Estudio de textos,
búsqueda de patrones en páginas wed, entre otros. Expresan patrones de una base de datos,
sirviendo para conocer el comportamiento general del problema que genera la base de datos y con
ello tener mayor información para la toma de decisiones.
Las reglas de asociación tienen una clasificación basado en criterios como tipos de valores utilizados
en las reglas, dimensiones de los datos, niveles de abstracción e instantáneas o secuenciales.
Un algoritmo muy simple y popular que permite establecer reglas de asociación es denominado
algoritmo Apriori. Este se basa en la búsqueda de los conjuntos de ítems con determinada cobertura.
a) Construir el conjunto de dos ítems y sucesivamente hasta que no existan conjuntos de ítems con
la cobertura requerida.
b) Una vez seleccionados los conjuntos de ítems que cumplen con la obertura mínima, se debe
extraer de estos conjuntos de reglas las que tengan un nivel de confianza mínimo.
a) Extraer los conjuntos de items que cumplen con la cobertura requerida desde los datos y
b) Generar las reglas a partir de estos conjuntos.
Las reglas de asociación se limitan a resolver problemas de la extracción de patrones en una cesta
de compras o problemas con características similares.
Las reglas de dependencia se produce cuando la comparación de dos items, como en el caso de la
cesta de compras, afecta a otro, sea negativa o positivamente. Esto es si la compra de un producto
porque conlleva tambien a comprar el producto y/o por lo menos disminuye su probabilidad de
compra.
Para más detalle consulte las páginas 243 a la 247 del libro de texto.
Estas reglas expresan patrones de comportamiento secuencial, a intervalos distintos (pero cercanos)
de tiempo. Por ejemplo, se aplica en una aplicación tal como el analisis de navegación sobre páginas
web.
El caso es encontrar relaciones del tipo; el 40% de las personas que consultan el sitio wed del
cinema, la visitan en menos de dos días para consultar la cartelera y lo que permite la compra de
entradas.
En esta sección se explica como utilizar algunos sistemas genéricos de minería de datos para
aprender reglas de asociación. Los sistemas que se analizan son Clementine y weka.
Sumario:
11.1.Introducción
11.2.Sistemas de partición: árboles de decisión para clasificación
11.3.Sistemas de aprendizajes de reglas por cobertura
11.4.Poda y reestructuración
11.5.Arboles de decisión para regresión, agrupamiento o estimación de probabilidades
11.6.Aprendizajes de árboles de decisión híbridos
11.7.Adaptación para grandes volúmenes de datos
11.8.Sistemas, aplicabilidad y recomendación de uso
Este capítulo pretende que el estudiante conozca los diferentes métodos para el establecimiento y/o
aprendizaje de reglas en un sistema de minería de datos.
Objetivos:
Guía de lecturas:
Para lograr los objetivos descritos anteriormente, es importante que usted realice las siguientes
lecturas del libro de texto:
Subtema Página(s)
11.1.Introducción 281-283
11.2. Sistemas de partición: árboles de decisión para clasificación 283-287
11.3. Sistemas de aprendizajes de reglas por cobertura 287-290
11.4. Poda y reestructuración 290-292
11.5. Arboles de decisión para regresión, agrupamiento o estimación de 293-294
probabilidades
11.6. Aprendizajes de árboles de decisión híbridos 295
11.7. Adaptación para grandes volúmenes de datos 295-297
11.8. Sistemas, aplicabilidad y recomendación de uso 297-300
11.1.Introducción
De los sistemas de aprendizaje de reglas, el de árboles de decisión es quizás en el método más fácil
de utilizar y entender.
Las reglas, en un árbol de decisiones, se derivan de particiones, en las cuales para cualquier
condición siempre aparece además la o las condiciones complementarias.
Algunas reglas a veces no cumplen estas condiciones y sin embargo, son capces de clasificar la
evidencia de una manera conveniente. Existe el caso en que varias reglas podrían ser aplicables al
mismo ejemplo.
11.4.Poda y reestructuración
Los algoritmos de aprendizaje de árboles de decisión y conjuntos de reglas tienden a ajustarse a las
evidencias y cubrir todos los ejemplos analizados. Pero tienen un mal comportamiento cuando se
presentan nuevos ejemplos. Para limitar el problema se deben modificar los algoritmos de
aprendizaje, de tal manera que se obtengan modelos más generales, eliminando, en los árboles de
decisión y conjunto de reglas, condiciones de algunas ramas del árbol o de algunas reglas. En los
árboles de decisión es lo que se conoce como poda.
Los árboles de decisión resultan idóneos para clasificación, se han adoptado a otras tareas como son
la regresión, el agrupamiento o la estimación de probabilidades. Las diferencias de un árbol de
regresión con respecto a uno de decisión son:
Los modos de hojas del árbol se etiquetan con valores reales, de tal manera que una cierta medida
de calidad se maximicen por ejemplo de varianza de los ejemplos que caen en ese nodo respecto al
valor asignado.
Para mayores detalles ver el tema 11.5, páginas 293 y 294 del libro de
texto.
Dado que los árboles de decisión se han vuelto tan populares, su estructura básica de aprendizaje se
ha intentado combinar con otras técnicas de aprendizaje, creando un método híbrido, tanto en
árboles de decisión para clasificación como para regresión.
Existen numerosos algoritmos o sistemas de aprendizaje de árboles de decisión, tales como CART,
ID3, IND, AQ, SLIQ.
También tienen sus desventajas como no ser tan precisos como las redes neuronales, débiles por que
dependen de la muestra de ejemplos, etc.
Sumario:
12.1.Introducción
12.2.Programación lógica y bases de datos
12.3.Programación lógica inductiva
12.4.Programación lógica inductiva y minería de datos
12.5.Otros métodos relacionales y estructurales
12.6.Sistemas
Este capítulo pretende que el estudiante conozca los tipos de programación, según los modelos
relacionales y estructurados, en un sistema de minería de datos.
Objetivos:
Guía de lecturas:
Para lograr los objetivos descritos anteriormente, es importante que usted realice las siguientes
lecturas del libro de texto:
Subtema Página(s)
12.1.Introducción 301-304
12.2.Programación lógica y bases de datos 304-306
12.3.Programación lógica inductiva 306-312
12.4.Programación lógica inductiva y minería de datos 312-317
12.5.Otros métodos relacionales y estructurales 317-325
12.6.Sistemas 325-326
12.1.Introducción
Muchos de los algoritmos o técnicas de minería de datos (arboles de decisión, redes neuronales,
redes bayesianas, etc.) trabajan con patrones en bases de datos, cuya información se almacena en
una única tabla (vista minable) Es una limitación que poseen los algoritmos de aprendizaje
automático y no es una restricción de las bases de datos relacionales. Las técnicas atributo – valor
que utilizan estas técnicas, no son capaces de descubrir patrones complejos que involucren objetos
de varias tablas o que usen la estructura de los datos.
En las paginas 301 a la 304 del libro de texto, se ejemplariza los temas
relacionales con la mineria de datos.
mujer(“Ana“).
mujer(“Elena“).
hombre(“Juan“).
padre(“Luis“,“Ana“).
padre(“Luis“,“Elena“).
padre(“Luis“,“Juan“).
Esta regla los predicados son mujer, hombre y padre, extensionalmente y hermanas
intencionalmente. Se establece que Ana, Elena son hermanas, por que tienen el mismo padre y son
mujeres.
Así las cosas, una base de datos relacional no es mas que un programa logico que solo consta de
hechos básicos.
Desde la perspectiva de la mineria de datos, la programación logica inductiva tiene dos aristas: si el
objetivo es aprender la definición de un predicado hablamos de inducción predictiva, pero si se busca
aprender patrones generales (que relacione varios predicados entre si) entonces la inducción es
descriptiva.
12.6.Sistemas
a) Claudien
b) MOBAL
c) GOLEM
d) FOIL
Sumario:
13.1.Introducción
13.2.El aprendizaje en las redes neuronales artificiales (RNA)
13.3.Aprendizaje supervisado en RNA
13.4.Aprendizaje no supervisado en RNA
13.5. Sistemas, aplicabilidad y recomendaciones de uso
Este capítulo pretende que el estudiante se familiarice con las redes neuronales y su relación con los
sistemas de minería de datos.
Objetivos:
Guía de lecturas:
Para lograr los objetivos descritos anteriormente, es importante que usted realice las siguientes
lecturas del libro de texto:
Subtema Página(s)
13.1.Introducción 327-329
13.2.El aprendizaje en las redes neuronales artificiales (RNA) 330
13.3.Aprendizaje supervisado en RNA 330-342
13.4.Aprendizaje no supervisado en RNA 343-351
13.5. Sistemas, aplicabilidad y recomendaciones de uso 351-352
Las redes neuronales pueden utilizarse en cualquier aplicación, tal como reconocimiento de patrones,
compresión de información, agrupamiento, clasificación, etc.
Las redes neuronales son un modelo de aprendizaje cuya finalidad inicial era la de emular los
procesadores biológicos de información, tal y como funciona el cerebro humano.
Variaciones en los pesos de la red, causados por cambios en el entorno (adaptabilidad) promueven el
aprendizaje. Hay dos tipos de aprendizaje en las redes neuronales artificiales (RNA):
Aprendizaje por corrección de error: Consiste en ajustar los pesos en función de la diferencia
entre los valores deseados y los obtenidos en la salida de la red; es decir, en función del
error.
Aprendizaje por refuerzo: Se basa en la idea de no indicar durante el entrenamiento
exactamente la salida que se desea que proporcione la red ante una determinada entrada. La
función del supervisor se reduce a indicar mediante una señal de refuerzo si la salida
obtenida en la red se ajusta a la deseada (éxito=+1 o fracaso=-1), y en función de ello se
ajustan los pesos basándose en un mecanismo de probabilidades.
Este tipo de aprendizaje se caracteriza por descubrir modelos o características significativas a partir
únicamente de los datos de entrada. No existe, por tanto, como en el aprendizaje supervisado, un
valor de salida o una clase para cada instancia.
a) Aprendizaje de Hebb, por medio del cual se obtienen proyecciones o compresiones optimas
de conjuntos de datos. Es una red de programación hacia delante.
b) Aprendizaje competitivo, que se utiliza para agrupar conjuntos de datos (clustering)
Este tipo de aprendizaje no necesita que se le muestren los patrones objetivos para salida, ya que el
algoritmo y la regla de modificación de las conexiones producen patrones de salida consistentes.
Cuando la red procesa patrones con bastante grado de similitud, genera la misma salida para ambos
patrones, esto es, clasifica los patrones en categorías de patrones parecidos. Cuando se dice
parecido, es por que se debe decidir en que grado deberán parecerse. Normalmente se usa el error
cuadrático medio para determinar la similitud, aunque hay otras opciones.
Se puede imaginar que en el proceso de aprendizaje, la red mide cuánto se parecen el patrón que le
llega y los que tiene almacenados y en función de ello los agrupa en una categoría o otra, aunque en
un principio no se sepa que salida corresponderá a cada tipo o grupo de patrones de entrada, ni que
atributos usará para clasificarlos. Esto es, solo se tiene un conjunto de patrones, no se conocen las
características ni las categorías posibles y la red en función de su algoritmo de aprendizaje,
diferenciará ambas cosas y clasificara los patrones en categorías.
Entre los distintos tipos de aprendizaje no supervisado podemos distinguir, el aprendizaje por
componentes principales y el aprendizaje competitivo.
Sumario:
20.1.Introducción
20.2.Minería de datos espaciales
20.3.Minería de datos temporales
20.4.Extracción de datos secuenciales
20.5.Minería de datos multimedia
Este capítulo pretende que el estudiante conozca el proceso de minería de datos, aplicados a bases
de datos espaciales, temporales, secuenciales y de multimedia.
Objetivos:
Guía de lecturas:
Para lograr los objetivos descritos anteriormente, es importante que usted realice las siguientes
lecturas del libro de texto:
Subtema Página(s)
31.4.Introducción 525
31.5.Minería de datos espaciales 525-531
31.6.Minería de datos temporales 531-536
31.7.Extracción de datos secuenciales 536-538
31.8.Minería de datos multimedia 539-543
20.1.Introducción
Las bases de datos generalmente almacenan información que ha sido registrada a través del tiempo.
Puede pensarse también que obedece a registros de eventos. Otro tipo de información es la que se
relaciona con el espacio. Que evoluciona a través del teimpo, como lo es la información relativa a los
censos poblacionales. Finalmente, otro tipo de información es la que almacena datos de multimedia
(audio, video, texto, imagen, etc.)
Una base de datos espacial conteien datos pertenecientes a un determinado espacio. Por ejemplo las
habitaciones de un hotel, las moelculas eun proteína o los vehículos en un estacionamiento. La
dimensión espacio es el concepto clave de este tipo de base de datos. En dos dimensiones podría
mencionarse un mapa urbano de una ciudad, mientras que en tres dimensiones un modelo del
cerebro.
Un sistema SIG (Sistema de Informacion Espacial o GIS por sus siglas en inglés) es un conjunto de
métodos, herramientas y datos que permiten capturar, almacenar, analizar, transformar y presentar
toda la información geográfica y de sus atributos almacenada en una base de datos espacial.
Las bases de datos temporales están formadas por series con observaciones de carácter cronológico
que normalmente se realizan de forma repetida y con la misma frecuencia. A esto se llaman series
temporales. Ejemplos: evolución diaria de la cotización de títulos en la bolsa de valores, numero de
vehículos que transitan por una avenida o la evolución de una epidemia a través de un periodo de
tiempo.
Los dos objetivos que impulsa el estudio de las series temporales son dos:
Dos son los tipos de problemas fundamentales que aparecen en el tratamiento de datos multimedia:
a) Carencia de técnicas efectivas que permitan extraer información desde secuencias de video o
audio que pueda ser directamente analizada.
b) La información viene por varios medios, por lo que es necesario establecer mecanismos que
permitan unir la información de manera coherente.
Para mayor información consultar las páginas 541 a 543 del libro de
texto.
Sumario:
21.1.Introducción
21.2.Minería Web
21.3.Minería del contenido de la Web
21.4.Minería de la estructura de la Web
21.5.Minería de uso Web
21.6.Sistemas de minería de Web y textos
Este capítulo pretende que el estudiante se familiarice con la minería de datos orientada hacia la Web
y archivos textos y las diferentes herramientas y técnicas existentes para su procesamiento.
• Explicar en que consiste la minería orientada hacia la Web y archivos tipo texto.
• Describir las diferentes técnicas utilizadas para la gestión de la minería de datos en sitios
Web y archivos de tipo texto.
Guía de lecturas:
Para lograr los objetivos descritos anteriormente, es importante que usted realice las siguientes
lecturas del libro de texto:
Subtema Página(s)
21.1.Introducción 545-548
21.2.Minería Web 548-551
21.3.Minería del contenido de la Web 551-560
21.4.Minería de la estructura de la Web 560-562
21.5.Minería de uso Web 563-569
21.1. Introducción
La Web es un repositorio de gran tamaño, donde los documentos contienen datos de muy diverso
tipo (texto, imágenes, audio, etc) Estos datos son no estructurados o semiestructurados, lo cual
marca la diferencia con las bases de datos relacionales. La Web se mina de acuerdo a tres
conceptos: contenido, estructura y uso.
Por ende, muchas técnicas que se utilizan para la minería de datos en bases de datos relacionales
deben modificarse, inclusive definirse nuevas, para aplicarse en un entorno Web.
En las páginas 545 a 548 del libro de texto, se detalla este concepto.
La minería Web se lleva a cabo utilizando técnicas para descubrir y extraer información
automáticamente desde la Web. Las subtareas que se llevan a cabo son:
En cuanto la minería del contenido de la Web, ésta describe el descubrimiento de información útil
desde los contenidos textuales y gráficos de los documentos Web.
La principal diferencia entre las técnicas de recuperación de información y las técnicas de minería del
contenido de la Web es que las primeras ayudan a los usuarios a encontrar documentos que
satisfacen sus necesidades de información, mientras que las segundas permiten descubrir, reconocer
o derivar información nueva a partir de uno o varios documentos.
La minería del contenido de la Web ha sido principalmente aplicada a dos objetivos con dos puntos
de vista diferentes:
a) Vision desde IR: asistir, mejorar o filtrar información que los buscadores proporcionan a los
usuarios a partir de sus necesidades.
b) Vision de bases de datos: modelar e integrar los datos encontrados en la Web para
estructurarlos, de tal forma de crear consultas mas complejas y no basadas en palabras
claves.
Las técnicas de minería de datos orientadas a la Web son las perfiladas a textos no estructurados
(text mining), semiestructurado (XML, HTML, etc.) que se conoce como minería de marcado (Markup
Mining), datos de multimedia (Multimedia Mining), etc.
Para mayor detalle de este concepto, estudie las páginas 551 a 560 del
libro de texto.
La minería de uso Web es el proceso de analizar la información sobre los accesos Web disponibles en
los servidores Web. Se diferencia de las minerías de contenido y e estructura (que usan datos reales
sobre la Web) por que minan datos secuendairos derivados de la interaccion de los usuarios mientras
utilizan un sitio Web (archivos logs de acceso al servidor, del navegador, servidores proxy, perfiles de
usaurio, datos de registro, sesiones o transacciones del usuario, cookies, etc.)
Existen métodos que utilizan la personalización de la interface que van desde los colaborativos,
basados en esfuerzo y otras técnicas.
Para profundizar sobre este tema, estúdiense las páginas 563 a 568
del libro de texto.
Datas las características especiales de los datos en la Web, se han desarrollado varias
herramientas especificas. Entre ellas se tiene a SAS, con la herramienta Intelligent Miner para
minería en general y SAS Text, para la minería de texto (PDF, ASCII, HTML, Winword, etc.)
Tambien existen Intelligent Miner, de IBM, entre otras.
En las páginas 567 y 568 del libro de texto se detallan estas y otras
herramientas.
Sumario:
Este capítulo pretende que el estudiante comprenda las repercusiones y retos que enfrenta la minería
de datos en la actualidad.
Objetivos:
Guía de lecturas:
Para lograr los objetivos descritos anteriormente, es importante que usted realice las siguientes
lecturas del libro de texto:
Subtema Página(s)
23.1.Impacto social de la minería de datos 597-598
23.2.Cuestiones éticas y legales 599-601
23.3.Escalabilidad. Minería de datos distribuida 601-604
23.4.Tendencias futuras 604-606
El uso del conocimiento (información aprendida desde los datos) es una necesidad actual de
compañías y todo tipo de organización para mantener la competitividad en los entornos donde se
desenvuelve.
El impacto social que representa la minería de datos es difícil determinar y depende de los países,
zonas geográficas y otros factores para inferir el grado de influencia que representan. Se pueden
observar aplicaciones de la minería de datos en aplicaciones ofimáticas (por ejemplo en las hojas
electrónicas de datos que incluyen herramientas estadísticas y de análisis de datos) Muchas de estas
herramientas, inclusive, son de distribución gratuita.
La Web es otro medio de difusión de la minería de datos. A través de ella es posible determinar
actividades relacionadas con clientes, productos, proveedores, etc. creando patrones de
comportamiento de éstos a través de la información recopilada de los mismos.
La minería de datos puede aportar numerosos beneficios en muy diversas aplicaciones. Sin embargo,
afecta dos aspectos fundamentales: la privacidad de los datos de las personas con que se trabaja y
las implicaciones éticas y legales que representa su utilización.
Utilizar datos médicos o financieros, por ejemplo, puede acarrear consecuencias peligrosas para un
individuo. Por eso, es indispensable proteger los datos del uso indebido a través de la promulgación
de leyes o directrices que los protejan
¿Cómo resolver el problema del problema del procesamiento de grandes volúmenes de datos por
parte de la minería de datos? Aquí entra en juego la escalabilidad de las técnicas de minería de
datos. Esta escalabilidad se refiere al comportamiento lineal de los algoritmos de minería de datos
en cuanto el tiempo requerido para procesar un volumen x de datos. Si el volumen de datos
aumenta, el tiempo requerido por el algoritmo para el procesamiento debe ser lineal.
En las páginas 603 a 604 del libro de texto, se explica con detalle el
concepto de minería de datos distribuida y su escalabilidad.