Tema Mineria de Datos

DATA MINING
Introducción
Nuevas Necesidades del Análisis de Grandes
Volúmenes de Datos
• El aumento del volumen y variedad de información que se encuentra

informatizada en bases de datos digitales ha crecido espectacularmente en la última
década.
• Gran parte de esta información es histórica, es decir, representa transacciones o
situaciones que se han producido.
• Aparte de su función de “memoria de la organización”, la información histórica es
útil para predecir la información futura.
2
Introducción
• La mayoría de decisiones de empresas, organizaciones e instituciones se basan
también en información de experiencias pasadas extraídas de fuentes muy diversas.
• las decisiones colectivas suelen tener consecuencias mucho más graves,
especialmente económicas, y, recientemente, se deben basar en volúmenes de datos
que desbordan la capacidad humana.
El área de la extracción (semi-)automática de conocimiento de bases de datos

ha adquirido recientemente una importancia científica y económica inusual
3
Introducción
• Tamaño de datos poco habitual para algoritmos clásicos:
• número de registros (ejemplos) muy largo (108-1012 bytes).
• datos altamente dimensionales (nº de columnas/atributos): 10 2-104.
• El usuario final no es un experto en aprendizaje automático ni en estadística.
• El usuario no puede perder más tiempo analizando los datos:
• industria: ventajas competitivas, decisiones más efectivas.
• ciencia: datos nunca analizados, bancos no cruzados, etc.
• personal: “information overload”...
Los sistemas clásicos de estadística son difíciles de usar y no escalan al número de
datos típicos en bases de datos.
4
Relación de DM con Otras Disciplinas
Aparece...
• “Descubrimiento de Conocimiento a partir de Bases de Datos” (KDD, del inglés
Knowledge Discovery from Databases).
“proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles y
en última instancia comprensibles a partir de los datos”. Fayyad et al. 1996
• Diferencia clara con métodos estadísticos: la estadística se utiliza para validar o
parametrizar un modelo sugerido y preexistente, no para generarlo.
• Diferencia sutil “Análisis Inteligente de Datos” (IDA, del inglés Intelligent Data
Analysis) que correspondía con el uso de técnicas de inteligencia artificial en el
análisis de los datos.
5
• KDD nace como interfaz y se nutre de diferentes disciplinas:

• estadística.
• sistemas de información / bases de datos.
• aprendizaje automático / IA.
• visualización de datos.
• computación paralela / distribuida.
• interfaces de lenguaje natural a bases de datos.
6
• La minería o prospección de datos (DM) no es más que una fase del KDD:
• Fase que integra los métodos de aprendizaje y estadísticos para obtener
hipótesis de patrones y modelos.
• Al ser la fase de generación de hipótesis, vulgarmente se asimila KDD con DM.

• Además, las connotaciones de aventura y de dinero fácil del término “minería de
datos” han hecho que éste se use como identificador del área.
7
La minería de datos no es una extensión de los sistemas de informes inteligentes o
sistemas OLAP (On-Line Analytical Processing).
La minería de datos aspira a más
Otras herramientas, p.ej. consultas sofisticadas o análisis estadístico, pueden responder

a preguntas como:
“¿Han subido las ventas del producto X en junio?”
“¿Las ventas del producto X bajan cuando promocionamos el producto Y?”
Pero sólo con técnicas de minería de datos podremos responder a preguntas del estilo:
“¿Qué factores influyen en las ventas del producto X?”
“¿Cuál será el producto más vendido si abrimos una delegación en Portugal?
8
• Visión con las herramientas tradicionales:
• El analista empieza con una pregunta, una suposición o
simplemente una intuición y explora los datos y construye un
modelo. El analista propone el modelo.
• Visión con la minería de datos:
• Aunque el analista no pierde la posibilidad de proponer modelos,
el sistema encuentra y sugiere modelos.
Ventajas:
· Generar un modelo requiere menos esfuerzo manual y permite
evaluar cantidades ingentes de datos.
· Se pueden evaluar muchos modelos generados automáticamente,
y esto aumenta la probabilidad de encontrar un buen modelo.
· El analista necesita menos formación sobre construcción de
modelos y menos experiencia.
9
Áreas de Aplicación
Más importante
Áreas de Aplicación:
industrialmente
• Toma de Decisiones (banca-finanzas-seguros, márketing, políticas
sanitarias/demográficas, ...)
• Procesos Industriales (componentes químicos, compuestos, mezclas, esmaltes,
procesos, etc.)
• Investigación Científica (medicina, astronomía, meteorología, psicología, ...).
Aquí la eficiencia no es tan importante.
• Soporte al Diseño de Bases de Datos.
• Reverse Engineering (dados una base de datos, desnormalizarla para que luego
el sistema la normalice).
• Mejora de Calidad de Datos.
• Mejora de Consultas (si se descubren dependencias funcionales nuevas u otras
condiciones evitables).
10
Áreas de Aplicación. Problemas Tipo.
KDD para toma de decisiones (Dilly 96)
Comercio/Marketing: - Identificar patrones de compra de los clientes.
- Buscar asociaciones entre clientes y
características demográficas.
- Predecir respuesta a campañas de mailing.
- Análisis de cestas de la compra.
Banca: - Detectar patrones de uso fraudulento de tarjetas de crédito.
- Identificar clientes leales.
- Predecir clientes con probabilidad de cambiar
su afiliación.
- Determinar gasto en tarjeta de crédito por
grupos.
- Encontrar correlaciones entre indicadores
financieros.
- Identificar reglas de mercado de valores a
partir de históricos.
Seguros y Salud Privada: - Análisis de procedimientos médicos solicitados conjuntamente. 11
KDD para toma de decisión
Medicina:
- Identificación de terapias médicas satisfactorias para diferentes enfermedades.
- Asociación de síntomas y clasificación diferencial de patologías.
- Estudio de factores (genéticos, precedentes, hábitos, alimenticios, etc.) de
riesgo/salud en distintas patologías.
- Segmentación de pacientes para una atención más inteligente según su grupo.
- Predicciones temporales de los centros asistenciales para el mejor uso de
recursos, consultas, salas y habitaciones.
- Estudios epidemiológicos, análisis de rendimientos de campañas de
información, prevención, sustitución de fármacos, etc.
12
KDD para Procesos Industriales
- Extracción de modelos sobre comportamiento de compuestos.

- Detección de piezas con trabas.
- Predicción de fallos
- Modelos de calidad.
- Estimación de composiciones óptimas en mezclas.
- Extracción de modelos de coste.
- Extracción de modelos de producción.
- Simulación costes/beneficios según niveles de calidad
13
Fases y Técnicas del KDD
Las distintas técnicas de distintas disciplinas se utilizan en distintas fases:
14
Proceso KDD
Proceso KDD
Fases del KDD: Recogida de Datos
Las primeras fases del KDD determinan que las fases sucesivas sean capaces de extraer
conocimiento válido y útil a partir de la información original.
Generalmente, la información que se quiere investigar sobre un cierto dominio de la
organización se encuentra:
• en bases de datos y otras fuentes muy diversas,
• tanto internas como externas.
• muchas de estas fuentes son las que se utilizan para el trabajo
transaccional.
El análisis posterior será mucho más sencillo si la fuente es unificada,

accesible (interna) y desconectada del trabajo transaccional.
17
El proceso subsiguiente de minería de datos:
• Depende mucho de la fuente:
• OLAP u OLTP.
• Datawarehouse o copia con el esquema original.
• ROLAP o MOLAP.
• Depende también del tipo de usuario:

• ‘picapedreros’ (o ‘granjeros’): se dedican fundamentalmente a realizar informes
periódicos, ver la evolución de determinados parámetros, controlar valores
anómalos, etc.
• ‘exploradores’: encargados de encontrar nuevos patrones significativos
utilizando técnicas de minería de datos.
18
Recogida de Información Externa:
• Aparte de información interna de la organización, los almacenes de
datos pueden recoger información externa:
• Demografías (censo), páginas amarillas, psicografías (perfiles por
zonas), uso de Internet, información de otras organizaciones.
• Datos compartidos en una industria o área de negocio,
organizaciones y colegios profesionales, catálogos, etc.
• Datos resumidos de áreas geográficas, distribución de la
competencia, evolución de la economía, información de
calendarios y climatológicas, programaciones televisivas-
deportivas, catástofres,..
• Bases de datos externas compradas a otras compañías.
19
Fases del KDD: Selección, Limpieza y
Transformación de Datos
Limpieza (data cleansing) y criba (selección) de datos:
Se deben elmininar el mayor número posible de datos erróneos o inconsistentes (limpieza)

e irrelevantes (criba).
Métodos estadísticos casi exclusivamente.

• histogramas (detección de datos anómalos).
• selección de datos (muestreo, ya sea verticalmente, eliminando atributos, u
horizontalmente, eliminando tuplas).
• redefinición de atributos (agrupación o separación).
20
Fases del KDD: La Minería de Datos
Patrones a descubrir:
• Una vez recogidos los datos de interés, un explorador puede decidir qué
tipo de patrón quiere descubrir.
• El tipo de conocimiento que se desea extraer va a marcar claramente la
técnica de minería de datos a utilizar.
• Según como sea la búsqueda del conocimiento se puede distinguir entre:
• Directed data mining: se sabe claramente lo que se busca,
generalmente predecir unos ciertos datos o clases.
• Undirected data mining: no se sabe lo que se busca, se trabaja con los
datos (¡hasta que confiesen!).
• En el primer caso, algunos sistemas de minería de datos se encargan
generalmente de elegir el algoritmo más idóneo entre los disponibles para
un determinado tipo de patrón a buscar.
21
Fases del KDD: Evaluación y Validación
La fase anterior produce una o más hipótesis de modelos.
Para seleccionar y validar estos modelos es necesario el uso de criterios de
evaluación de hipótesis.
Por ejemplo:
1ª Fase: Comprobación de la precisión del modelo en un banco de ejemplos
independiente del que se ha utilizado para aprender el modelo. Se puede elegir
el mejor modelo.
2ª Fase: Se puede realizar una experiencia piloto con ese modelo. Por ejemplo,
si el modelo encontrado se quería utilizar para predecir la respuesta de los
clientes a un nuevo producto, se puede enviar un mailing a un subconjunto de
clientes y evaluar la fiabilidad del modelo.
22
Fases del KDD: Interpretación y Difusión
El despliegue del modelo a veces a veces es trivial pero otras veces requiere un proceso
de implementación o interpretación:
• El modelo puede requerir implementación (p.ej. tiempo real detección de tarjetas
fraudulentas).
• El modelo es descriptivo y requiere interpretación (p.ej. una caracterización de
zonas geográficas según la distribución de los productos vendidos).
• El modelo puede tener muchos usuarios y necesita difusión: el modelo puede
requerir ser expresado de una manera comprensible para ser distribuido en la
organización (p.ej. las cervezas y los productos congelados se compran
frecuentemente en conjunto  ponerlos en estantes distantes).
23
Fases del KDD: Actualización y
Monitorización
Los procesos derivan en un mantenimiento:
• Actualización: Un modelo válido puede dejar de serlo: cambio de contexto

(económicos, competencia, fuentes de datos, etc.).
• Monitorización: Consiste en ir revalidando el modelo con cierta frecuencia sobre

nuevos datos, con el objetivo de detectar si el modelo requiere una actualización.
Producen realimentaciones en el proceso KDD.
24
Tipología de Técnicas de Minería de Datos
Las técnicas de minería de datos crean modelos que son predictivos y/o descriptivos.
Un modelo predictivo responde preguntas sobre datos futuros.

• ¿Cuáles serán las ventas el año próximo?
• ¿Es esta transacción fraudulenta?
• ¿Qué tipo de seguro es más probable que contrate el cliente X?
Un modelo descriptivo proporciona información sobre las relaciones entre los datos y sus
características. Genera información del tipo:
• Los clientes que compran pañales suelen comprar cerveza.
• El tabaco y el alcohol son los factores más importantes en la enfermedad Y.
• Los clientes sin televisión y con bicicleta tienen características muy
diferenciadas del resto.
25
Ejemplo de Modelo Predictivo:

• Queremos saber si jugar o no jugar esta tarde al tenis.
• Hemos recogido datos de experiencias anteriores:
Example Sky Temperature Humidity Wind PlayTennis
1 Sunny Hot High Weak No
2 Sunny Hot High Strong No
3 Overcast Hot High Weak Yes
4 Rain Mild High Weak Yes
5 Rain Cool Normal Weak Yes
6 Rain Cool Normal Strong No
7 Overcast Cool Normal Strong Yes
8 Sunny Mild High Weak No
9 Sunny Cool Normal Weak Yes
10 Rain Mild Normal Weak Yes
11 Sunny Mild Normal Strong Yes
12 Overcast Mild High Strong Yes
13 Overcast Hot Normal Weak Yes
14 Rain Mild High Strong No
26
Ejemplo de Modelo Predictivo:

• Pasamos estos ejemplos a un algoritmo de aprendizaje de árboles de
decisión, señalando el atributo “PlayTennis” como la clase (output).
• El resultado del algoritmo es el siguiente modelo:
Outlook?
Sunny Rain
Overcast
Humidity? YES Wind?
High Normal Strong Weak
NO YES NO YES
• Ahora podemos utilizar este modelo para predecir si esta tarde
jugamos o no al tenis. P.ej., la instancia:
(Outlook = sunny, Temperature = hot, Humidity = high, Wind = strong)
es NO. 27
Ejemplo de Modelo Descriptivo:

• Queremos categorizar nuestros empleados.
• Tenemos estos datos de los empleados:
#Ej Sueldo Casado Coche Hijos Alq/Prop Sindic. Bajas/Año AntigüedadSexo
1 10000 Sí No 0 Alquiler No 7 15 H
2 20000 No Sí 1 Alquiler Sí 3 3 M
3 15000 Sí Sí 2 Prop Sí 5 10 H
4 30000 Sí Sí 1 Alquiler No 15 7 M
5 10000 Sí Sí 0 Prop Sí 1 6 H
6 40000 No Sí 0 Alquiler Sí 3 16 M
7 25000 No No 0 Alquiler Sí 0 8 H
8 20000 No Sí 0 Prop Sí 2 6 M
9 20000 Sí Sí 3 Prop No 7 5 H
10 30000 Sí Sí 2 Prop No 1 20 H
11 50000 No No 0 Alquiler No 2 12 M
12 8000 Sí Sí 2 Prop No 3 1 H
13 20000 No No 0 Alquiler No 27 5 M
14 10000 No Sí 0 Alquiler Sí 0 7 H
15 8000 No Sí 0 Alquiler No 3 2 H 28
Ejemplo de Modelo Descriptivo:

• Pasamos estos ejemplos a un algoritmo de clustering K-meams.
• Se crean tres clusters, con la siguiente descripción:
cluster 1: 5 examples cluster 2: 4 examples cluster 3: 6 examples

Sueldo : 22600 Sueldo : 22500 Sueldo : 18833
Casado : No -> 0.8 Casado : No -> 1.0 Casado : Sí -> 1.0
Sí -> 0.2 Coche : Sí -> 1.0 Coche : Sí -> 1.0
Coche : No -> 0.8 Hijos : 0 Hijos : 2
Sí -> 0.2 Alq/Prop : Alquiler -> 0.75 Alq/Prop : Alquiler -> 0.17
Hijos : 0 Prop -> 0.25 Prop -> 0.83
Alq/Prop : Alquiler -> 1.0 Sindic. : Sí -> 1.0 Sindic. : No -> 0.67
Sindic. : No -> 0.8 Bajas/Año : 2 Sí -> 0.33
Sí -> 0.2 Antigüedad : 8 Bajas/Año : 5
Bajas/Año : 8 Sexo : H -> 0.25 Antigüedad : 8
Antigüedad : 8 M -> 0.75 Sexo : H -> 0.83
Sexo : H -> 0.6 M -> 0.17
M -> 0.4
• GRUPO 1: Sin hijos y de alquiler. Poco sindicados. Muchas bajas.

• GRUPO 2: Sin hijos y con coche. Muy sindicados. Pocas bajas. Normalmente de alquiler y mujeres.
• GRUPO 3: Con hijos, casados y con coche. Propietarios. Poco sindicados. Hombres. 29
Tipos de conocimiento:
· Asociaciones: Una asociación entre dos atributos ocurre cuando la
frecuencia de que se den dos valores determinados de cada uno
conjuntamente es relativamente alta.
· Ejemplo, en un supermercado se analiza si los pañales y los potitos de
bebé se compran conjuntamente.
· Dependencias: Una dependencia funcional (aproximada o absoluta) es un
patrón en el que se establece que uno o más atributos determinan el valor de
otro. Ojo! Existen muchas dependencias nada interesantes (causalidades
inversas).
· Ejemplo: que un paciente haya sido ingresado en maternidad determina
su sexo.
La búsqueda de asociaciones y dependencias se conoce a veces como análisis
exploratorio.
30
Tipos de conocimiento (cont.):
· Clasificación: Una clasificación se puede ver como el esclarecimiento de una
dependencia, en la que el atributo dependiente puede tomar un valor entre varias
clases, ya conocidas.
· Ejemplo: se sabe (por un estudio de dependencias) que los atributos edad,
número de miopías y astigmatismo han determinado los pacientes para los que
su operación de cirugía ocular ha sido satisfactoria.
· Podemos intentar determinar las reglas exactas que clasifican un caso
como positivo o negativo a partir de esos atributos.
· Agrupamiento / Segmentación: El agrupamiento (o clustering) es la detección de
grupos de individuos. Se diferencia de la clasificación en el que no se conocen ni las
clases ni su número (aprendizaje no supervisado), con lo que el objetivo es
determinar grupos o racimos (clusters) diferenciados del resto.
31
Tipos de conocimiento (cont.):
· Tendencias/Regresión: El objetivo es predecir los valores de una variable

continua a partir de la evolución sobre otra variable continua, generalmente
el tiempo.
· Ejemplo, se intenta predecir el número de clientes o pacientes, los
ingresos, llamadas, ganancias, costes, etc. a partir de los resultados de
semanas, meses o años anteriores.
· Información del Esquema: (descubrir claves primarias alternativas, R.I.).
· Reglas Generales: patrones no se ajustan a los tipos anteriores.
Recientemente los sistemas incorporan capacidad para establecer otros
patrones más generales.
32
Técnicas de Minería de Datos
Predictivas:
Regresión
Análisis de Varianza y Covarianza
Series Temporales
Métodos Bayesianos
Algoritmos Genéticos
Clasificación Ad-Hoc: - Discriminante
- Árboles de decisión
- Redes Neuronales
Descriptivas:
Clasificación Post- Hoc: - Clustering
- Segmentación
Asociación
Dependencia
Reducción de la Dimensión
Análisis Exploratorio
Escalamiento Multidimensional
Técnicas Auxiliares:
Proceso Analítico de transacciones (OLAP)

SQL y Herramientas de Consulta
Reporting
Técnicas de Minería de Datos.
Fuente: http://www.crm-forum.com
Data Mining and Jae Kyu Lee
Verification
Verification Driven
Driven DM
DM Discovery
Discovery Driven
Driven DM
DM
SQL SQL Generator

Generator Description
Description Prediction
Prediction
Query Tools Statistical

Statistical
Classification
Visualization Regression
Regression
OLAP
Clustering Decision
Decision Tree
Tree
Association
Association Rule
Rule Induction
Induction
Sequential Association
Neural Network
Distillation
Distillation
36
Sistemas
Elder Research,
www.dataminglab.com 37
Sistemas
Tipos de Sistemas:
• Standalone: Los datos se deben exportar/convertir al formato interno del
sistema de data mining: Knowledge Seeker IV (Angoss International Limited,
Groupe Bull).
• On-top: pueden funcionar sobre un sistema propietario (Clementine sobre
ODBC, microstrategy sobre Oracle).
• Embedded (propietarios): Oracle Discoverer, Oracle Darwin, IBM...
• Extensible (Tecnología Plug-ins): proporcionan unas herramientas mínimas de
interfaz con los datos, estadísticas y visualización, y los algoritmos de
aprendizaje se pueden ir añadiendo con plug-ins. (ej. KEPLER).
38
Sistemas
Producto Compañía Técnicas Plataformas Interfaz
Knowledge Seeker Angoss Decision Trees, Statistics Win NT ODBC
http://www.angoss.com/
CART Salford Systems Decision Trees UNIX/NT
www.salford-systems.com
Clementine SPSS/Integral Solutions Limited (ISL) Decision Trees, ANN, Statistics, Rule Induction, UNIX/NT ODBC
www.spss.com Association Rules, K Means, Linear Regression.
Data Surveyor Data Distilleries Amplio Abanico. UNIX ODBC
http://www.datadistilleries.com/
GainSmarts Urban Science Especializado en gráficos de ganancias en campañas UNIX/NT
www.urbanscience.com de clientes (sólo Decision Trees, Linear Statistics y
Logistic Regression).
Intelligent Miner IBM Decision Trees, Association Rules, ANN, RBF, Time UNIX (AIX) IBM, DB2
http://www.ibm.com/software/data/iminer Series, K Means, Linear Regression.
Microstrategy Microstrategy Datawarehouse sólo Win NT Oracle
www.microstrategy.com
Polyanalyst Megaputer Symbolic, Evolutionary Win NT Oracle, ODBC
http://www.megaputer.com/html/polyanal
yst4.0.html
Darwin Oracle Amplio Abanico (Decision Trees, ANN, Nearest UNIX/NT Oracle
http://www.oracle.com/ip/analyze/wareho Neighbour)
use/datamining/index.html
Enterprise Miner SAS Decision Trees, Association rules, ANN, regression, UNIX (Sun), Oracle, ODBC
http://www.sas.com/software/components clustering. NT, Mac
/miner.html
SGI MineSet Silicon Graphics association rules and classification models, used for UNIX (Irix) Oracle, Sybase,
http://www.sgi.com/software/mineset/ prediction, scoring, segmentation, and profiling Informix.
Wizsoft/Wizwhy http://www.wizsoft.com/
39
Sistemas
• Más software comercial DM:
http://www.kdcentral.com/Software/Data_Mining/
http://www.the-data-mine.com/bin/veiw/Software/WebIndex
• Algunos Prototipos No Comerciales o Gratuitos:
• Kepler: sistema de plug-ins del GMD (http://ais.gmd.de/KD/kepler.html).

• Rproject: herramienta gratuita de análisis estadístico
(http://www.R-project.org/)
• Librerías WEKA (http://www.cs.waikato.ac.nz/~ml/weka/) (Witten &
Frank 1999)
40
Visualización
Las técnicas de visualización de datos se utilizan fundamentalmente con dos
objetivos:
• aprovechar la gran capacidad humana de extraer patrones a partir de

imágenes.
• ayudar al usuario a comprender más rápidamente patrones descubiertos
automáticamente por un sistema de KDD.
41
Visualización
Estos dos objetivos marcan dos momentos diferentes del uso de la visualización de los
datos (no excluyentes):
• visualización previa (tb. Visual Data Mining [Wong 1999]): se utiliza para
entender mejor los datos y sugerir posibles patrones o qué tipo de herramienta
de KDD utilizar.
• visualización posterior al proceso de minería de datos: se utiliza para mostrar

los patrones y entenderlos mejor.
42
Visualización
También marcan dos tipos de usuarios diferentes de las técnicas:
• La visualización previa se utiliza frecuentemente por picapedreros, para ver

tendencias y resúmenes de los datos, y por exploradores, para ver ‘filones’ que
investigar.
• La visualización posterior se utiliza frecuentemente para validar y mostrar a los

expertos los resultados del KDD.
las herramientas gráficas requieren mayor experiencia para

seleccionar qué gráfico nos interesa utilizar entre los cientos de
gráficas que proporcionan los sistemas actuales.
43
Algunos Ejemplos….
Evaluación de Hipótesis
Evaluación por técnicas bayesianas.
• La mejor hipótesis es la más probable.
• Basadas en el teorema de Bayes. Despejan P(h|D).
• La distribución de hipótesis a priori P(h) y la probabilidad de unas
observaciones respecto a cada hipótesis P(D|h) deben ser conocidas.
• Son sólo técnicas evaluadoras aunque si el conjunto de hipótesis H
es reducido se pueden utilizar en algoritmos de aprendizaje.
• Permiten acomodar hipótesis probabilísticas tales como “este
paciente de neumonía tiene un 93% de posibilidades de
recuperarse”.
• Muchas veces no se conoce P(h) o incluso P(D|h). Se hacen
suposiciones: distribución uniforme, normal o universal.
45
Teorema de Bayes, MAP y Maximum Likelihood:
• P(h|D): probabilidad de una hipótesis dado un cjto. de datos.
• P(h): probabilidad a priori de las hipótesis.
• P(D|h): probabilidad de D dada la hipótesis.
• P(D): probabilidad a priori de los datos (sin otra información).
• Teorema de Bayes: (prob. a posteriori a partir de a priori)
P ( D | h) P ( h)
P (h | D) 
• Criterio MAP (Maximum a Posteriori) (h P
es(indep.
D) de P(D)):
El Naive Bayes Classifier es un caso particular de esto.
P ( D | h ) P ( h)
hMAP • arg
Maximum Likelihood (asumiendo P(h) uniforme):  arg max P ( D | h) P (h)
max P ( h | D)  arg max
hH hH P( D) hH
hML  arg max P ( D | h)

46
hH
Evaluación bayesiana:
Si el cjto. de hipótesis H es pequeño y conocido:

• Se puede asumir la distribución uniforme:
1
P ( h) 
|H |
Si H es infinito:
• La distribución uniforme no está bien definida (P=0).
• Aunque el maximum likelihood se puede seguir utilizando.
47
Una vez obtenida una hipótesis...
¿cómo obtener su precisión (accuracy) para datos futuros?

• Utilizar la precisión para el training data puede ser una aproximación, ¿pero
cuán buena?
• La estadística nos da soluciones para esto:

• Suponiendo la muestra S de n ejemplos, la hipótesis h es discreta y son
independientes.
• Si n  30, nos permite aproximar la distribución binomial con la normal.
• Calculado el errors(h) sobre la muestra como nºerrores/n
48
Podemos obtener un intervalo de confianza a un nivel c:
errorS (h)(1  errorS (h))

errorS ( h)  Z c ·
n
donde Zc es la constante obtenida de la tabla de confianzas de la normal.
• Algunos valores de la tabla normal:

Nivel de confianza c: 50% 68% 80% 90% 95% 98% 99%
Constante Zc: 0.67 1.00 1.28 1.64 1.96 2.33 2.58
49
EJEMPLO:
• Considerando que una hipótesis da 12 errores sobre 40 ejemplos, tenemos un
errorS(h) = 0.30.
• Tenemos, por tanto, que con confianza 95% (Zc = 1.96), el intervalo del error
será:
0.30  0.14
• lo que quiere decir que, para el 95% de otras muestras de 40 ejemplos que
probáramos, el error estaría dentro de ese intervalo.
En general, una mejor regla para saber si se puede aplicar la

evaluación anterior es que:
(si no, habría que utilizar la dist. binomial)
n·errorS (h)(1  errorS (h))  5
50
Evaluación de Modelos Descriptivos:
• Reglas de asociación: evaluación sencilla:
dos parámetros (support, confidence).
• No supervisados: mucho más compleja que en los predictivos.
Concepto de error difícil de definir.
En los métodos basados en distancia se pueden mirar ciertos
parámetros:
• distancia entre bordes de los clusters
• distancia entre centros (de haberlos)
• radio y densidad (desv. típica de la dist.) de los clusters.
Para cada ejemplo a agrupar se comprueba su distancia con el
centro o con el borde de cada cluster.
51
Métodos Descriptivos
Correlación y Asociaciones (análisis exploratorio o link analysis):
• Coeficiente de correlación:
Cov ( x , y )
Cor ( x , y ) 
 x · y
donde
1 n
Cov( x , y )   ( xi   x )( yi   y )
n i 1
• Asociaciones (cuando los atributos son discretos).
Ejemplo: tabaquismo y alcoholismo están asociados.
• Dependencias funcionales: asociación unidireccional.

Ejemplo: el nivel de riesgo de enfermedades cardiovasculares
depende del tabaquismo y alcoholismo (entre otras cosas).
52
Correlaciones y Estudios Factoriales:
Permiten establecer relevancia/irrelevancia de factores y si aquélla es positiva o
negativa respecto a otro factor o variable a estudiar.
Ejemplo (Kiel 2000): Estudio de visitas: 11 pacientes, 7 factores:

• Health: salud del paciente (referida a la capacidad de ir a la consulta). (1-10)
• Need: convicción del paciente que la visita es importante. (1-10)
• Transportation: disponibilidad de transporte del paciente al centro. (1-10)
• Child Care: disponibilidad de dejar los niños a cuidado. (1-10)
• Sick Time: si el paciente está trabajando, puede darse de baja. (1-10)
• Satisfaction: satisfacción del cliente con su médico. (1-10)
• Ease: facilidad del centro para concertar cita y eficiencia de la misma. (1-10)
• No-Show: indica si el paciente no se ha pasado por el médico durante el último año
(0-se ha pasado, 1 no se ha pasado)
53
Correlaciones y Estudios Factoriales. Ejemplo (cont.):
Matriz de correlaciones:
Health Need Transp’tion Child Care Sick Time Satisfaction Ease No-Show
Health 1
Need -0.7378 1
Transportation 0.3116 -01041 1
Child Care 0.3116 -01041 1 1
Sick Time 0.2771 0.0602 0.6228 0.6228 1
Satisfaction 0.22008 -0.1337 0.6538 0.6538 0.6257 1
Ease 0.3887 -0.0334 0.6504 0.6504 0.6588 0.8964 1
No-Show 0.3955 -0.5416 -0.5031 -0.5031 -0.7249 -0.3988 -0.3278 1
Coeficientes de Regresión:
Independent Variable Coefficient Indica que un incremento de 1 en el factor Health
Health .6434 aumenta la probabilidad de que no aparezca el
Need .0445 paciente en un 64.34%
Transportation -.2391
Child Care -.0599
Sick Time -.7584
Satisfaction .3537
Ease -.0786
54
Reglas de Asociación y Dependencia:
La terminología no es muy coherente en este campo (Fayyad, p.ej. suele
llamar asociaciones a todo y regla de asociación a las dependencias):
Asociaciones:
Se buscan asociaciones de la siguiente forma:
(X1 = a)  (X4 = b)
De los n casos de la tabla, que las dos comparaciones sean verdaderas o falsas será
cierto en rc casos:
Un parámetro Tc (confidence):
Tc= certeza de la regla = rc/n
si consideramos valores nulos, tenemos también un número de casos en los que

se aplica satisfactoriamente (diferente de Tc) y denominado Ts.
55
Reglas de Asociación y Dependencia de Valor:
Dependencias de Valor:
Se buscan dependencias de la siguiente forma (if Ante then Cons):
P.ej. if (X1= a, X3=c, X5=d) then (X4=b, X2=a)
De los n casos de la tabla, el antecendente se puede hacer cierto en ra casos y de
estos en rc casos se hace también el consecuente, tenemos:
Dos parámetros Tc (confidence/accuracy) y Ts (support):
Tc= certeza de la regla =rc/ra, fuerza o confianza P(Cons|Ante)

Ts = mínimo nº de casos o porcentaje en los que se aplica
satisfactoriamente (rc o rc /n respectivamente).
Llamado también prevalencia: P(Cons  Ante)
56
Reglas de Asociación y Dependencia de Valor. Ejemplo:
DNI Renta Familiar Ciudad Profesión Edad Hijos Obeso Casado

11251545 5.000.000 Barcelona Ejecutivo 45 3 S S
30512526 1.000.000 Melilla Abogado 25 0 S N
22451616 3.000.000 León Ejecutivo 35 2 S S
25152516 2.000.000 Valencia Camarero 30 0 S S
23525251 1.500.000 Benidorm Animador 30 0 N N
Parque
Temático
Asociaciones:
Casado e (Hijos > 0) están asociados (80%, 4 casos).
Obeso y casado están asociados (80%, 4 casos)
Dependencias:
(Hijos > 0)  Casado (100%, 2 casos).
Casado  Obeso (100%, 3 casos)
57
Reglas de Asociación y Dependencia de Valor:
Condiciones que se suelen imponer:
Tc > 95%
Ts > 20 (absoluto) o 50% (relativo)
Nótese que la búsqueda de asociaciones con estas
condiciones no es un problema inductivo, ya que se
trata de un problema completamente determinado,
sin criterios de evaluación y relativamente simple.
Complejidad de los algoritmos de asociaciones y dependencias:

• Temporal: bajo ciertas condiciones de dispersión y para atributos discretos
se pueden encontrar en casi tiempo lineal (Agrawal et al. 1996).
58
Patrones Secuenciales:
Se trata de establecer asociaciones del estilo:
“si compra X en T comprará Y en T+P”
Ejemplo:
59
Ejemplo (cont.):
60
Ejemplo (cont.):
Mary
61
Dependencias Funcionales:
A^B^CD
Significa: para los mismos valores de A, B y C tenemos un solo valor de D. Es
decir D es función de A, B y C.
Si representamos la parte izquierda como un conjunto de condiciones, podemos
establecer una relación de orden entre las dependencias funcionales.
Esto genera un semi-retículo.
La búsqueda se realiza en este retículo. A^B ^C

(Mannila & Räihä 1994)
coste exponencial
FDEP (Flach & Savnik 1999) incluye:
A^B B^C A^C
a) simple top-down algorithm,
b) bottom-up algorithm, and
c) bi-directional algorithm.
A B C
62
Aprendizaje No Supervisado
Clustering (Segmentación):
Se trata de buscar agrupamientos naturales en un conjunto de datos

tal que tengan semejanzas.
Métodos de Agrupamiento:
• Jerárquicos: los datos se agrupan de manera arborescente (p.ej. el reino
animal).
• No jerárquicos: generar particiones a un nivel.
• (a) Paramétricos: se asumen que las densidades condicionales de los
grupos tienen cierta forma paramétrica conocida (p.e. Gaussiana), y se
reduce a estimar los parámetros.
• (b) No paramétricos: no asumen nada sobre el modo en el que se
agrupan los objetos.
63
Clustering (Segmentación). Métodos jerárquicos:
Un método sencillo consiste en ir separando individuos según su distancia
(en concreto medidas derivadas de enlazado, linkage) e ir aumentando el
límite de distancia para hacer grupos. Esto nos da diferentes agrupaciones
a distintos niveles, de una manera jerárquica:
Se denomina
Dendograma o
Hierarchical Tree Plot:
64
Clustering (Segmentación). Métodos jerárquicos:
Minimal Spanning Tree Clustering Algorithm
Algoritmo (dado un número de clusters deseado C).
Inicialmente considera cada ejemplo como un clúster.

• Agrupa el par de clusters más cercanos para formar un
nuevo cluster.
• Repite el proceso anterior hasta que el número de
clusters = C.
65
Clustering (Segmentación). Métodos paramétricos:
El algoritmo EM (Expectation Maximization, Maximum Likelihood Estimate) (Dempster et al. 1977).
Gráficas:
Enrique Vidal
66
Clustering (Segmentación). Métodos No Paramétricos
Métodos:
• k-NN
• k-means clustering,
• online k-means clustering,
• centroides
• SOM (Self-Organizing Maps) o Redes Kohonen.
Otros específicos:
• El algoritmo Cobweb (Fisher 1987).
• El algoritmo AUTOCLASS (Cheeseman & Stutz 1996)
67
1-NN (Nearest Neighbour):

Dado una serie de ejemplos en un espacio, se conecta cada punto
con su punto más cercano:
G1
G4
G2
G3
La conectividad entre puntos genera los grupos.
A veces hace grupos pequeños.

Existen variantes: k-NN o como el spanning tree que para de agrupar
cuando llega a un número de grupos.
68
k-means clustering:
• Se utiliza para encontrar los k puntos más densos en un conjunto
arbitrario de puntos.
• Algoritmo:
1. Dividir aleatoriamente los ejemplos en k conjuntos y calcular
la media (el punto medio) de cada conjunto.
2. Reasignar cada ejemplo al conjunto con el punto medio más
cercano.
3. Calcular los puntos medios de los k conjuntos.
4. Repetir los pasos 2 y 3 hasta que los conjuntos no varíen.
69
k-means clustering:
• El valor de k se suele determinar heurísticamente.
• Problemas:
• Si se sabe que hay n clases, hacer k=n puede
resultar en que, algunas veces, algún grupo use
dos centros y dos grupos separados tengan que
compartir centro.
• Si k se elige muy grande, la generalización es

pobre y las agrupaciones futuras serán malas.
• Determinar el k ideal es difícil.
70
On-line k-means clustering (competitive learning):

• Refinamiento incremental del anterior.
• Algoritmo:
1. Inicializar aleatoriamente k puntos, llamados centros.
2. Elegir el siguiente ejemplo y ver cuál es el centro más
cercano. Mover el centro hacia el ejemplo. (p.ej. Distancia/2)
3. Repetir el paso 2 para cada ejemplo.
4. Repetir los pasos 2 y 3 hasta que los ejemplos capturados por
cada centro no varíen.
71
El valor de k se suele determinar heurísticamente.

• Problemas:
• Si k se elige muy pequeño, hay grupos
que se quedan sin centro.
• Si k se elige muy grande, hay centros que

se quedan huérfanos.
Aunque esto es preferible a...

• Incluso con k exacto, puede haber algún
centro que quede huérfano.
Variación muy popular: LVQ (linear-vector
quantization) (Kohonen 1984).
72
SOM (Self-Organizing Maps) o Redes Kohonen

También conocidos como LVQ (linear-vector quantization) o redes de
memoria asociativa (Kohonen 1984).
La matriz de neuronas de la última capa forma un grid bidimensional.

73
Otros Métodos Descriptivos
Análisis Estadísticos:
• Estudio de la distribución de los datos.

• Estimación de Densidad
• Detección datos anómalos.
• Análisis de dispersión (p.ej. las funciones de separabilidad pueden considerarse
como técnicas muy simples no supervisadas).
Muchas veces, estos análisis se pueden utilizar previamente para

determinar el método más apropiado para un aprendizaje supervisado
También se utilizan mucho para la limpieza y preparación de datos para el
uso de métodos supervisados.
74
Métodos Predictivos.
Interpolación y Predicción Secuencial
Regresión Lineal Global.
Se buscan los coeficientes de una función lineal
fˆ ( x)  w0  w1 x1 ...  wn xn
Una manera fácil (si es lineal simple, sólo dos dimensiones x e y):
n  xy   x   y    y    x     x   xy 
2
w1  w0 
n  x     x  n  x     x 
2 2 2 2
obteniendo y = w0 + w1x
Error típico de una regresión lineal simple:
Etipico
 1 
 

 n  y     y  
2 2  n xy     x   y  2



 n(n  2)   n  x     x 
2
2

75
Regresión Lineal Global por Gradient Descent.
Una manera usual es utilizando “gradient descent”.

Se intenta minimizar la suma de cuadrados:
1
E   xD ( f ( x)  fˆ ( x)) 2
2
Derivando,
w j  r · xD ( f ( x)  fˆ ( x)) x j
Iterativamente se van ajustando los coeficientes y reduciendo el error.
76
Regresión No Lineal.
Estimación Logarítmica (se sustituye la función a obtener por y=ln(f)):
y  w0  w1 x1 ...  wm xm
Se hace regresión lineal para calcular los coeficientes y a la hora de
predecir se calcula la f = ey.
Regresión Logística. (variación que se usa para clasificación entre 0 y 1 usando la f=

ln(p/(1-p)))
Pick and Mix - Supercharging

Se añaden dimensiones, combinando las dadas. P.ej. si tenemos cuatro
dimensiones: x1, x2, x3 (además de y) podemos definir x4 = x1·x2 , x5=
x32, x6 = x1x y obtener una función lineal de x1, x2, x3, x4, x5, x6
2
77
Regresión Lineal Ponderada Localmente.
La función lineal se aproxima para cada punto xq a interpolar:
fˆ ( x)  w0  w1 x1 ...  wm xm
? ? ?
Se intenta minimizar la suma de cuadrados de los k más cercanos
1
E
2
 ( f ( x )  ˆ ( x)) 2 K (d ( x , x))
f q
x{ los k puntosmás cercanos}
donde d(·,·) es una distancia y K es una función que disminuye con la

distancia (una función Kernel), p.ej. 1/d2
Gradient Descent:
w j  r ·  ( f ( x)  fˆ ( x))·K (d ( xq , x))·x j
x{ los k puntosmás cercanos}
A mayor k más global, a menor k más local

78
Regresión Adaptativa:
Son casos particulares de regresión local, en el que se supone un orden y se utiliza

preferentemente para predecir futuros valores de una serie:
Muy utilizada en compresión de sonido y de vídeo, en redes, etc. (se predicen las
siguientes tramas)
Algoritmos mucho más sofisticados (cadenas de Markov, VQ)

• Algoritmo MARS (Multiple Adaptive Regression Splines) (Friedman 1991).
79
Aprendizaje Supervisado
k-NN (Nearest Neighbour):
1. Se miran los k casos más cercanos.
2. Si todos son de la misma clase, el nuevo caso se clasifica en
esa clase.
3. Si no, se calcula la distancia media por clase o se asigna a la
clase con más elementos.
? Clasifica ? Clasifica
círculo cuadrado
1-nearest neighbor 7-nearest neighbor PARTICIÓN DEL

• El valor de k se suele determinar heurísticamente. 1-nearest neighbor
(Poliédrica o de Voronoi)
80
k-NN (Nearest Neighbour). Mejora (ponderar más los más cercanos):
1
Atracción(c j , xq )  {xi donde:
: xi  c j } ·krnli krnli 
d ( xq , xi ) 2
Se calcula la fuerza de atracción de cada clase cj para el nuevo
punto xq. Y se elige la clase que más atrae.
(Si el punto xq coincide con un punto xi, la clase es la de xi)
(Si el punto xq coincide con más de un punto xi, se procede de la forma anterior)
Para valores continuos (sirve para interpolar):
Si la clase es un valor real,k el k-NN es fácilmente adaptable:
 krnl f ( x )
i i
fˆ ( xq )  i 1
k

donde los xi son los k vecinos
i 1
más
krnlipróximos y f(·) es la función
que da el valor real de cada uno.
81
(On-line) k-means clustering:
• Aunque lo vimos como una técnica no
supervisada, también se puede utilizar para
aprendizaje supervisado, si se utiliza
convenientemente.
• Elegir un k mayor que el número de clases pero

no mucho mayor.
82
Multilayer Perceptron (redes neuronales artificiales, ANN).
• El perceptron de una capa no es capaz de aprender las funciones
más sencillas.
• Se añaden capas internas, se introducen diferentes funciones de
activación e incluso recientemente se introducen bucles y retardos.
Salidas y1 y2 y3
Hidden
Layer h1,1 h1,2 h1,3 h1,4 h1,5
Entradas x1 x2 x3 x4
83
• En el caso más sencillo, con la función de activación sgn, el número
de unidades internas k define exactamente el número de boundaries
que la función global puede calcular por cada salida.
PARTICIÓN POLIGONAL
POSIBLE CON 4
UNIDADES INTERNAS
• El valor de k se suele determinar heurísticamente.
• Pero, ¿cómo entrenar este tipo de red?
84
• Para poder extender el gradient descent necesitamos una función de
activación continua:
• La más usual es la función sigmoidal:
1
σ ( x) 
1  ex
• Esto permite particiones no lineales:
PARTICIÓN NO LINEAL
MÚLTIPLE POSIBLE CON 4
UNIDADES INTERNAS
85
Árboles de Decisión (ID3 (Quinlan), C4.5 (Quinlan), CART).
• Algoritmo Divide y Vencerás:
1. Se crea un nodo raíz con S:= todos los ejemplos.
2. Si todos los elementos de S son de la misma clase, el subárbol se
cierra. Solución encontrada.
3. Se elige una condición de partición siguiendo un criterio de partición
(split criterion).
4. El problema (y S) queda subdivido en dos subárboles (los que
cumplen la condición y los que no) y se vuelve a 2 para cada uno de
los dos subárboles.
X>0.25
0 1 No Sí
0
Y>0.25
X>0.25 No Sí
PARTICIÓN
X>0.75 X>0.66
CUADRICULAR. No Sí No Sí
X>0.66
X>0.75 Y>0.6
No Sí
1 Y>0.6
Y>0.25
86
Árboles de Decisión.
• Ejemplo C4.5 con datos discretos:
Example Sky Temperature Humidity Wind PlayTennis
1 Sunny Hot High Weak No
2 Sunny Hot High Strong No
3 Overcast Hot High Weak Yes
4 Rain Mild High Weak Yes
5 Rain Cool Normal Weak Yes
6 Rain Cool Normal Strong No
7 Overcast Cool Normal Strong Yes
8 Sunny Mild High Weak No
9 Sunny Cool Normal Weak Yes
10 Rain Mild Normal Weak Yes
11 Sunny Mild Normal Strong Yes
12 Overcast Mild High Strong Yes
13 Overcast Hot Normal Weak Yes
14 Rain Mild High Strong No
87
Árboles de Decisión.
• Ejemplo C4.5 con datos discretos:
Outlook?
Sunny Rain
Overcast
Humidity? YES Wind?
High Normal Strong Weak
NO YES NO YES
• Representación Lógica:
(Outlook=Sunny AND Humidity=Normal) OR (Outlook=Overcast) OR
(Outlook=Rain AND Wind=Weak)
P.ej., la instancia (Outlook = sunny, Temperature = cool, Humidity = high, Wind = strong) es NO.
88
Comparación de métodos no relacionales:
• Muy fácil de usar
• k-NN: • Eficiente si el nº de ejemplos no es excesivamente grande.
• El valor de k no es muy importante.
• Gran expresividad de la partición.
• Inteligible sólo visualmente.
• Robusto al ruido pero no a atributos no significativos (las distancias
aumentan, conocido como “the curse of dimensionality”)
• RBF • Preferibles a cualquiera de las dos técnicas por separado.
(combinaciones • Difícil de ajustar el k.
de k-means clustering • Poca inteligibilidad.
+ perceptron):
• El número de capas y elementos por capa difíciles de ajustar.
• Apropiado para clases discretas o continuas.
• Redes neuronales • Poca inteligibilidad.
(multicapa): • Muy sensibles a outliers (datos anómalos).
• Se necesitan muchos ejemplos.
89
Comparación de métodos no relacionales (cont.):
• Muy fácil de usar.
• Naive Bayes: • Muy eficiente.
• NO HAY MODELO.
• Robusto al ruido.
• Muy fácil de usar.
• Árboles de decisión: • Admite atributos discretos y continuos.
(C4.5): • La clase debe ser discreta y finita. (aunque tb. existen
los árboles de regresión que permiten clase continua)
• Es tolerante al ruido, a atributos no significativos y a
missing attribute values.
• Alta inteligibilidad.
• CS (Center Splitting): • Muy fácil de usar.

• Preferible sobre k-NN si hay muchos ejemplos.
• Inteligible sólo visualmente.
• Sufre también “the curse of dimensionality”.
90

Tema Mineria de Datos

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema Mineria de Datos

Cargado por

Copyright:

Formatos disponibles

DATA MINING

• El aumento del volumen y variedad de información que se encuentra

El área de la extracción (semi-)automática de conocimiento de bases de datos

• KDD nace como interfaz y se nutre de diferentes disciplinas:

• Al ser la fase de generación de hipótesis, vulgarmente se asimila KDD con DM.

Otras herramientas, p.ej. consultas sofisticadas o análisis estadístico, pueden responder

- Extracción de modelos sobre comportamiento de compuestos.

El análisis posterior será mucho más sencillo si la fuente es unificada,

• Depende también del tipo de usuario:

Se deben elmininar el mayor número posible de datos erróneos o inconsistentes (limpieza)

Métodos estadísticos casi exclusivamente.

• Actualización: Un modelo válido puede dejar de serlo: cambio de contexto

• Monitorización: Consiste en ir revalidando el modelo con cierta frecuencia sobre

Producen realimentaciones en el proceso KDD.

Un modelo predictivo responde preguntas sobre datos futuros.

Ejemplo de Modelo Predictivo:

Ejemplo de Modelo Predictivo:

Humidity? YES Wind?

High Normal Strong Weak

Ejemplo de Modelo Descriptivo:

Ejemplo de Modelo Descriptivo:

cluster 1: 5 examples cluster 2: 4 examples cluster 3: 6 examples

• GRUPO 1: Sin hijos y de alquiler. Poco sindicados. Muchas bajas.

· Tendencias/Regresión: El objetivo es predecir los valores de una variable

Proceso Analítico de transacciones (OLAP)

SQL SQL Generator

Query Tools Statistical

• Algunos Prototipos No Comerciales o Gratuitos:

• Kepler: sistema de plug-ins del GMD (http://ais.gmd.de/KD/kepler.html).

• aprovechar la gran capacidad humana de extraer patrones a partir de

• visualización posterior al proceso de minería de datos: se utiliza para mostrar

• La visualización previa se utiliza frecuentemente por picapedreros, para ver

• La visualización posterior se utiliza frecuentemente para validar y mostrar a los

las herramientas gráficas requieren mayor experiencia para

hML  arg max P ( D | h)

Si el cjto. de hipótesis H es pequeño y conocido:

¿cómo obtener su precisión (accuracy) para datos futuros?

• La estadística nos da soluciones para esto:

errorS (h)(1  errorS (h))

• Algunos valores de la tabla normal:

En general, una mejor regla para saber si se puede aplicar la

(si no, habría que utilizar la dist. binomial)

n·errorS (h)(1  errorS (h))  5

• Dependencias funcionales: asociación unidireccional.

Ejemplo (Kiel 2000): Estudio de visitas: 11 pacientes, 7 factores:

si consideramos valores nulos, tenemos también un número de casos en los que

Tc= certeza de la regla =rc/ra, fuerza o confianza P(Cons|Ante)

DNI Renta Familiar Ciudad Profesión Edad Hijos Obeso Casado

Complejidad de los algoritmos de asociaciones y dependencias:

La búsqueda se realiza en este retículo. A^B ^C

Se trata de buscar agrupamientos naturales en un conjunto de datos

Minimal Spanning Tree Clustering Algorithm

Algoritmo (dado un número de clusters deseado C).

Inicialmente considera cada ejemplo como un clúster.

1-NN (Nearest Neighbour):

La conectividad entre puntos genera los grupos.

A veces hace grupos pequeños.

• Si k se elige muy grande, la generalización es

• Determinar el k ideal es difícil.

On-line k-means clustering (competitive learning):

El valor de k se suele determinar heurísticamente.

• Si k se elige muy grande, hay centros que