Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Introducción
Nuevas Necesidades del Análisis de Grandes
Volúmenes de Datos
2
Introducción
• La mayoría de decisiones de empresas, organizaciones e instituciones se basan
también en información de experiencias pasadas extraídas de fuentes muy diversas.
• las decisiones colectivas suelen tener consecuencias mucho más graves,
especialmente económicas, y, recientemente, se deben basar en volúmenes de datos
que desbordan la capacidad humana.
3
Introducción
• Tamaño de datos poco habitual para algoritmos clásicos:
• número de registros (ejemplos) muy largo (108-1012 bytes).
• datos altamente dimensionales (nº de columnas/atributos): 10 2-104.
• El usuario final no es un experto en aprendizaje automático ni en estadística.
• El usuario no puede perder más tiempo analizando los datos:
• industria: ventajas competitivas, decisiones más efectivas.
• ciencia: datos nunca analizados, bancos no cruzados, etc.
• personal: “information overload”...
Los sistemas clásicos de estadística son difíciles de usar y no escalan al número de
datos típicos en bases de datos.
4
Relación de DM con Otras Disciplinas
Aparece...
• “Descubrimiento de Conocimiento a partir de Bases de Datos” (KDD, del inglés
Knowledge Discovery from Databases).
“proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles y
en última instancia comprensibles a partir de los datos”. Fayyad et al. 1996
• Diferencia clara con métodos estadísticos: la estadística se utiliza para validar o
parametrizar un modelo sugerido y preexistente, no para generarlo.
• Diferencia sutil “Análisis Inteligente de Datos” (IDA, del inglés Intelligent Data
Analysis) que correspondía con el uso de técnicas de inteligencia artificial en el
análisis de los datos.
5
Relación de DM con Otras Disciplinas
6
Relación de DM con Otras Disciplinas
• La minería o prospección de datos (DM) no es más que una fase del KDD:
• Fase que integra los métodos de aprendizaje y estadísticos para obtener
hipótesis de patrones y modelos.
7
Relación de DM con Otras Disciplinas
La minería de datos no es una extensión de los sistemas de informes inteligentes o
sistemas OLAP (On-Line Analytical Processing).
La minería de datos aspira a más
8
Relación de DM con Otras Disciplinas
• Visión con las herramientas tradicionales:
• El analista empieza con una pregunta, una suposición o
simplemente una intuición y explora los datos y construye un
modelo. El analista propone el modelo.
• Visión con la minería de datos:
• Aunque el analista no pierde la posibilidad de proponer modelos,
el sistema encuentra y sugiere modelos.
Ventajas:
· Generar un modelo requiere menos esfuerzo manual y permite
evaluar cantidades ingentes de datos.
· Se pueden evaluar muchos modelos generados automáticamente,
y esto aumenta la probabilidad de encontrar un buen modelo.
· El analista necesita menos formación sobre construcción de
modelos y menos experiencia.
9
Áreas de Aplicación
Más importante
Áreas de Aplicación:
industrialmente
• Toma de Decisiones (banca-finanzas-seguros, márketing, políticas
sanitarias/demográficas, ...)
• Procesos Industriales (componentes químicos, compuestos, mezclas, esmaltes,
procesos, etc.)
• Investigación Científica (medicina, astronomía, meteorología, psicología, ...).
Aquí la eficiencia no es tan importante.
• Soporte al Diseño de Bases de Datos.
• Reverse Engineering (dados una base de datos, desnormalizarla para que luego
el sistema la normalice).
• Mejora de Calidad de Datos.
• Mejora de Consultas (si se descubren dependencias funcionales nuevas u otras
condiciones evitables).
10
Áreas de Aplicación. Problemas Tipo.
KDD para toma de decisiones (Dilly 96)
Comercio/Marketing: - Identificar patrones de compra de los clientes.
- Buscar asociaciones entre clientes y
características demográficas.
- Predecir respuesta a campañas de mailing.
- Análisis de cestas de la compra.
Banca: - Detectar patrones de uso fraudulento de tarjetas de crédito.
- Identificar clientes leales.
- Predecir clientes con probabilidad de cambiar
su afiliación.
- Determinar gasto en tarjeta de crédito por
grupos.
- Encontrar correlaciones entre indicadores
financieros.
- Identificar reglas de mercado de valores a
partir de históricos.
Seguros y Salud Privada: - Análisis de procedimientos médicos solicitados conjuntamente. 11
Áreas de Aplicación. Problemas Tipo.
KDD para toma de decisión
Medicina:
- Identificación de terapias médicas satisfactorias para diferentes enfermedades.
- Asociación de síntomas y clasificación diferencial de patologías.
- Estudio de factores (genéticos, precedentes, hábitos, alimenticios, etc.) de
riesgo/salud en distintas patologías.
- Segmentación de pacientes para una atención más inteligente según su grupo.
- Predicciones temporales de los centros asistenciales para el mejor uso de
recursos, consultas, salas y habitaciones.
- Estudios epidemiológicos, análisis de rendimientos de campañas de
información, prevención, sustitución de fármacos, etc.
12
Áreas de Aplicación. Problemas Tipo.
KDD para Procesos Industriales
13
Fases y Técnicas del KDD
Las distintas técnicas de distintas disciplinas se utilizan en distintas fases:
14
Proceso KDD
Proceso KDD
Fases del KDD: Recogida de Datos
Las primeras fases del KDD determinan que las fases sucesivas sean capaces de extraer
conocimiento válido y útil a partir de la información original.
Generalmente, la información que se quiere investigar sobre un cierto dominio de la
organización se encuentra:
• en bases de datos y otras fuentes muy diversas,
• tanto internas como externas.
• muchas de estas fuentes son las que se utilizan para el trabajo
transaccional.
18
Fases del KDD: Recogida de Datos
Recogida de Información Externa:
• Aparte de información interna de la organización, los almacenes de
datos pueden recoger información externa:
• Demografías (censo), páginas amarillas, psicografías (perfiles por
zonas), uso de Internet, información de otras organizaciones.
• Datos compartidos en una industria o área de negocio,
organizaciones y colegios profesionales, catálogos, etc.
• Datos resumidos de áreas geográficas, distribución de la
competencia, evolución de la economía, información de
calendarios y climatológicas, programaciones televisivas-
deportivas, catástofres,..
• Bases de datos externas compradas a otras compañías.
19
Fases del KDD: Selección, Limpieza y
Transformación de Datos
Limpieza (data cleansing) y criba (selección) de datos:
20
Fases del KDD: La Minería de Datos
Patrones a descubrir:
• Una vez recogidos los datos de interés, un explorador puede decidir qué
tipo de patrón quiere descubrir.
• El tipo de conocimiento que se desea extraer va a marcar claramente la
técnica de minería de datos a utilizar.
• Según como sea la búsqueda del conocimiento se puede distinguir entre:
• Directed data mining: se sabe claramente lo que se busca,
generalmente predecir unos ciertos datos o clases.
• Undirected data mining: no se sabe lo que se busca, se trabaja con los
datos (¡hasta que confiesen!).
• En el primer caso, algunos sistemas de minería de datos se encargan
generalmente de elegir el algoritmo más idóneo entre los disponibles para
un determinado tipo de patrón a buscar.
21
Fases del KDD: Evaluación y Validación
La fase anterior produce una o más hipótesis de modelos.
Para seleccionar y validar estos modelos es necesario el uso de criterios de
evaluación de hipótesis.
Por ejemplo:
1ª Fase: Comprobación de la precisión del modelo en un banco de ejemplos
independiente del que se ha utilizado para aprender el modelo. Se puede elegir
el mejor modelo.
2ª Fase: Se puede realizar una experiencia piloto con ese modelo. Por ejemplo,
si el modelo encontrado se quería utilizar para predecir la respuesta de los
clientes a un nuevo producto, se puede enviar un mailing a un subconjunto de
clientes y evaluar la fiabilidad del modelo.
22
Fases del KDD: Interpretación y Difusión
El despliegue del modelo a veces a veces es trivial pero otras veces requiere un proceso
de implementación o interpretación:
• El modelo puede requerir implementación (p.ej. tiempo real detección de tarjetas
fraudulentas).
• El modelo es descriptivo y requiere interpretación (p.ej. una caracterización de
zonas geográficas según la distribución de los productos vendidos).
• El modelo puede tener muchos usuarios y necesita difusión: el modelo puede
requerir ser expresado de una manera comprensible para ser distribuido en la
organización (p.ej. las cervezas y los productos congelados se compran
frecuentemente en conjunto ponerlos en estantes distantes).
23
Fases del KDD: Actualización y
Monitorización
Los procesos derivan en un mantenimiento:
24
Tipología de Técnicas de Minería de Datos
Las técnicas de minería de datos crean modelos que son predictivos y/o descriptivos.
Un modelo descriptivo proporciona información sobre las relaciones entre los datos y sus
características. Genera información del tipo:
• Los clientes que compran pañales suelen comprar cerveza.
• El tabaco y el alcohol son los factores más importantes en la enfermedad Y.
• Los clientes sin televisión y con bicicleta tienen características muy
diferenciadas del resto.
25
Tipología de Técnicas de Minería de Datos
Outlook?
Sunny Rain
Overcast
NO YES NO YES
• Ahora podemos utilizar este modelo para predecir si esta tarde
jugamos o no al tenis. P.ej., la instancia:
(Outlook = sunny, Temperature = hot, Humidity = high, Wind = strong)
es NO. 27
Tipología de Técnicas de Minería de Datos
31
Tipología de Técnicas de Minería de Datos
Tipos de conocimiento (cont.):
32
Técnicas de Minería de Datos
Predictivas:
Regresión
Análisis de Varianza y Covarianza
Series Temporales
Métodos Bayesianos
Algoritmos Genéticos
Clasificación Ad-Hoc: - Discriminante
- Árboles de decisión
- Redes Neuronales
Técnicas de Minería de Datos
Descriptivas:
Clasificación Post- Hoc: - Clustering
- Segmentación
Asociación
Dependencia
Reducción de la Dimensión
Análisis Exploratorio
Escalamiento Multidimensional
Técnicas de Minería de Datos
Técnicas Auxiliares:
Verification
Verification Driven
Driven DM
DM Discovery
Discovery Driven
Driven DM
DM
36
Sistemas
Elder Research,
www.dataminglab.com 37
Sistemas
Tipos de Sistemas:
• Standalone: Los datos se deben exportar/convertir al formato interno del
sistema de data mining: Knowledge Seeker IV (Angoss International Limited,
Groupe Bull).
• On-top: pueden funcionar sobre un sistema propietario (Clementine sobre
ODBC, microstrategy sobre Oracle).
• Embedded (propietarios): Oracle Discoverer, Oracle Darwin, IBM...
• Extensible (Tecnología Plug-ins): proporcionan unas herramientas mínimas de
interfaz con los datos, estadísticas y visualización, y los algoritmos de
aprendizaje se pueden ir añadiendo con plug-ins. (ej. KEPLER).
38
Sistemas
Producto Compañía Técnicas Plataformas Interfaz
Knowledge Seeker Angoss Decision Trees, Statistics Win NT ODBC
http://www.angoss.com/
CART Salford Systems Decision Trees UNIX/NT
www.salford-systems.com
Clementine SPSS/Integral Solutions Limited (ISL) Decision Trees, ANN, Statistics, Rule Induction, UNIX/NT ODBC
www.spss.com Association Rules, K Means, Linear Regression.
Data Surveyor Data Distilleries Amplio Abanico. UNIX ODBC
http://www.datadistilleries.com/
GainSmarts Urban Science Especializado en gráficos de ganancias en campañas UNIX/NT
www.urbanscience.com de clientes (sólo Decision Trees, Linear Statistics y
Logistic Regression).
Intelligent Miner IBM Decision Trees, Association Rules, ANN, RBF, Time UNIX (AIX) IBM, DB2
http://www.ibm.com/software/data/iminer Series, K Means, Linear Regression.
Microstrategy Microstrategy Datawarehouse sólo Win NT Oracle
www.microstrategy.com
Polyanalyst Megaputer Symbolic, Evolutionary Win NT Oracle, ODBC
http://www.megaputer.com/html/polyanal
yst4.0.html
Darwin Oracle Amplio Abanico (Decision Trees, ANN, Nearest UNIX/NT Oracle
http://www.oracle.com/ip/analyze/wareho Neighbour)
use/datamining/index.html
Enterprise Miner SAS Decision Trees, Association rules, ANN, regression, UNIX (Sun), Oracle, ODBC
http://www.sas.com/software/components clustering. NT, Mac
/miner.html
SGI MineSet Silicon Graphics association rules and classification models, used for UNIX (Irix) Oracle, Sybase,
http://www.sgi.com/software/mineset/ prediction, scoring, segmentation, and profiling Informix.
Wizsoft/Wizwhy http://www.wizsoft.com/
39
Sistemas
• Más software comercial DM:
http://www.kdcentral.com/Software/Data_Mining/
http://www.the-data-mine.com/bin/veiw/Software/WebIndex
40
Visualización
Las técnicas de visualización de datos se utilizan fundamentalmente con dos
objetivos:
41
Visualización
Estos dos objetivos marcan dos momentos diferentes del uso de la visualización de los
datos (no excluyentes):
• visualización previa (tb. Visual Data Mining [Wong 1999]): se utiliza para
entender mejor los datos y sugerir posibles patrones o qué tipo de herramienta
de KDD utilizar.
42
Visualización
También marcan dos tipos de usuarios diferentes de las técnicas:
45
Evaluación de Hipótesis
Teorema de Bayes, MAP y Maximum Likelihood:
• P(h|D): probabilidad de una hipótesis dado un cjto. de datos.
• P(h): probabilidad a priori de las hipótesis.
• P(D|h): probabilidad de D dada la hipótesis.
• P(D): probabilidad a priori de los datos (sin otra información).
• Teorema de Bayes: (prob. a posteriori a partir de a priori)
P ( D | h) P ( h)
P (h | D)
• Criterio MAP (Maximum a Posteriori) (h P
es(indep.
D) de P(D)):
El Naive Bayes Classifier es un caso particular de esto.
P ( D | h ) P ( h)
hMAP • arg
Maximum Likelihood (asumiendo P(h) uniforme): arg max P ( D | h) P (h)
max P ( h | D) arg max
hH hH P( D) hH
1
P ( h)
|H |
Si H es infinito:
• La distribución uniforme no está bien definida (P=0).
• Aunque el maximum likelihood se puede seguir utilizando.
47
Evaluación de Hipótesis
Una vez obtenida una hipótesis...
48
Evaluación de Hipótesis
Podemos obtener un intervalo de confianza a un nivel c:
49
Evaluación de Hipótesis
EJEMPLO:
• Considerando que una hipótesis da 12 errores sobre 40 ejemplos, tenemos un
errorS(h) = 0.30.
• Tenemos, por tanto, que con confianza 95% (Zc = 1.96), el intervalo del error
será:
0.30 0.14
• lo que quiere decir que, para el 95% de otras muestras de 40 ejemplos que
probáramos, el error estaría dentro de ese intervalo.
50
Evaluación de Hipótesis
Evaluación de Modelos Descriptivos:
• Reglas de asociación: evaluación sencilla:
dos parámetros (support, confidence).
• No supervisados: mucho más compleja que en los predictivos.
Concepto de error difícil de definir.
En los métodos basados en distancia se pueden mirar ciertos
parámetros:
• distancia entre bordes de los clusters
• distancia entre centros (de haberlos)
• radio y densidad (desv. típica de la dist.) de los clusters.
Para cada ejemplo a agrupar se comprueba su distancia con el
centro o con el borde de cada cluster.
51
Métodos Descriptivos
Correlación y Asociaciones (análisis exploratorio o link analysis):
• Coeficiente de correlación:
Cov ( x , y )
Cor ( x , y )
x · y
donde
1 n
Cov( x , y ) ( xi x )( yi y )
n i 1
• Asociaciones (cuando los atributos son discretos).
Ejemplo: tabaquismo y alcoholismo están asociados.
52
Métodos Descriptivos
Correlaciones y Estudios Factoriales:
Permiten establecer relevancia/irrelevancia de factores y si aquélla es positiva o
negativa respecto a otro factor o variable a estudiar.
53
Métodos Descriptivos
Correlaciones y Estudios Factoriales. Ejemplo (cont.):
Matriz de correlaciones:
Health Need Transp’tion Child Care Sick Time Satisfaction Ease No-Show
Health 1
Need -0.7378 1
Transportation 0.3116 -01041 1
Child Care 0.3116 -01041 1 1
Sick Time 0.2771 0.0602 0.6228 0.6228 1
Satisfaction 0.22008 -0.1337 0.6538 0.6538 0.6257 1
Ease 0.3887 -0.0334 0.6504 0.6504 0.6588 0.8964 1
No-Show 0.3955 -0.5416 -0.5031 -0.5031 -0.7249 -0.3988 -0.3278 1
Coeficientes de Regresión:
Independent Variable Coefficient Indica que un incremento de 1 en el factor Health
Health .6434 aumenta la probabilidad de que no aparezca el
Need .0445 paciente en un 64.34%
Transportation -.2391
Child Care -.0599
Sick Time -.7584
Satisfaction .3537
Ease -.0786
54
Métodos Descriptivos
Reglas de Asociación y Dependencia:
La terminología no es muy coherente en este campo (Fayyad, p.ej. suele
llamar asociaciones a todo y regla de asociación a las dependencias):
Asociaciones:
Se buscan asociaciones de la siguiente forma:
(X1 = a) (X4 = b)
De los n casos de la tabla, que las dos comparaciones sean verdaderas o falsas será
cierto en rc casos:
Un parámetro Tc (confidence):
Tc= certeza de la regla = rc/n
55
Métodos Descriptivos
Reglas de Asociación y Dependencia de Valor:
Dependencias de Valor:
Se buscan dependencias de la siguiente forma (if Ante then Cons):
P.ej. if (X1= a, X3=c, X5=d) then (X4=b, X2=a)
De los n casos de la tabla, el antecendente se puede hacer cierto en ra casos y de
estos en rc casos se hace también el consecuente, tenemos:
Dos parámetros Tc (confidence/accuracy) y Ts (support):
56
Métodos Descriptivos
Reglas de Asociación y Dependencia de Valor. Ejemplo:
57
Métodos Descriptivos
Reglas de Asociación y Dependencia de Valor:
Condiciones que se suelen imponer:
Tc > 95%
Ts > 20 (absoluto) o 50% (relativo)
Nótese que la búsqueda de asociaciones con estas
condiciones no es un problema inductivo, ya que se
trata de un problema completamente determinado,
sin criterios de evaluación y relativamente simple.
58
Métodos Descriptivos
Patrones Secuenciales:
Se trata de establecer asociaciones del estilo:
“si compra X en T comprará Y en T+P”
Ejemplo:
59
Métodos Descriptivos
Patrones Secuenciales:
Ejemplo (cont.):
60
Métodos Descriptivos
Patrones Secuenciales:
Ejemplo (cont.):
Mary
61
Métodos Descriptivos
Dependencias Funcionales:
A^B^CD
Significa: para los mismos valores de A, B y C tenemos un solo valor de D. Es
decir D es función de A, B y C.
Si representamos la parte izquierda como un conjunto de condiciones, podemos
establecer una relación de orden entre las dependencias funcionales.
Esto genera un semi-retículo.
Métodos de Agrupamiento:
• Jerárquicos: los datos se agrupan de manera arborescente (p.ej. el reino
animal).
• No jerárquicos: generar particiones a un nivel.
• (a) Paramétricos: se asumen que las densidades condicionales de los
grupos tienen cierta forma paramétrica conocida (p.e. Gaussiana), y se
reduce a estimar los parámetros.
• (b) No paramétricos: no asumen nada sobre el modo en el que se
agrupan los objetos.
63
Métodos Descriptivos
Aprendizaje No Supervisado
Clustering (Segmentación). Métodos jerárquicos:
Un método sencillo consiste en ir separando individuos según su distancia
(en concreto medidas derivadas de enlazado, linkage) e ir aumentando el
límite de distancia para hacer grupos. Esto nos da diferentes agrupaciones
a distintos niveles, de una manera jerárquica:
Se denomina
Dendograma o
Hierarchical Tree Plot:
64
Métodos Descriptivos
Aprendizaje No Supervisado
Clustering (Segmentación). Métodos jerárquicos:
65
Métodos Descriptivos
Aprendizaje No Supervisado
Clustering (Segmentación). Métodos paramétricos:
El algoritmo EM (Expectation Maximization, Maximum Likelihood Estimate) (Dempster et al. 1977).
Gráficas:
Enrique Vidal
66
Métodos Descriptivos
Aprendizaje No Supervisado
Clustering (Segmentación). Métodos No Paramétricos
Métodos:
• k-NN
• k-means clustering,
• online k-means clustering,
• centroides
• SOM (Self-Organizing Maps) o Redes Kohonen.
Otros específicos:
• El algoritmo Cobweb (Fisher 1987).
• El algoritmo AUTOCLASS (Cheeseman & Stutz 1996)
67
Métodos Descriptivos
Aprendizaje No Supervisado
Clustering (Segmentación). Métodos No Paramétricos
G1
G4
G2
G3
k-means clustering:
• Se utiliza para encontrar los k puntos más densos en un conjunto
arbitrario de puntos.
• Algoritmo:
1. Dividir aleatoriamente los ejemplos en k conjuntos y calcular
la media (el punto medio) de cada conjunto.
2. Reasignar cada ejemplo al conjunto con el punto medio más
cercano.
3. Calcular los puntos medios de los k conjuntos.
4. Repetir los pasos 2 y 3 hasta que los conjuntos no varíen.
69
Métodos Descriptivos
Aprendizaje No Supervisado
Clustering (Segmentación). Métodos No Paramétricos
k-means clustering:
• El valor de k se suele determinar heurísticamente.
• Problemas:
• Si se sabe que hay n clases, hacer k=n puede
resultar en que, algunas veces, algún grupo use
dos centros y dos grupos separados tengan que
compartir centro.
70
Métodos Descriptivos
Aprendizaje No Supervisado
Clustering (Segmentación). Métodos No Paramétricos
• Algoritmo:
1. Inicializar aleatoriamente k puntos, llamados centros.
2. Elegir el siguiente ejemplo y ver cuál es el centro más
cercano. Mover el centro hacia el ejemplo. (p.ej. Distancia/2)
3. Repetir el paso 2 para cada ejemplo.
4. Repetir los pasos 2 y 3 hasta que los ejemplos capturados por
cada centro no varíen.
71
Métodos Descriptivos
Aprendizaje No Supervisado
Clustering (Segmentación). Métodos No Paramétricos
74
Métodos Predictivos.
Interpolación y Predicción Secuencial
Regresión Lineal Global.
Se buscan los coeficientes de una función lineal
fˆ ( x) w0 w1 x1 ... wn xn
Una manera fácil (si es lineal simple, sólo dos dimensiones x e y):
n xy x y y x x xy
2
w1 w0
n x x n x x
2 2 2 2
obteniendo y = w0 + w1x
Etipico
1
n y y
2 2 n xy x y 2
n(n 2) n x x
2
2
75
Métodos Predictivos.
Interpolación y Predicción Secuencial
Regresión Lineal Global por Gradient Descent.
w j r · xD ( f ( x) fˆ ( x)) x j
76
Métodos Predictivos.
Interpolación y Predicción Secuencial
Regresión No Lineal.
Estimación Logarítmica (se sustituye la función a obtener por y=ln(f)):
y w0 w1 x1 ... wm xm
Se hace regresión lineal para calcular los coeficientes y a la hora de
predecir se calcula la f = ey.
77
Métodos Predictivos.
Interpolación y Predicción Secuencial
Regresión Lineal Ponderada Localmente.
La función lineal se aproxima para cada punto xq a interpolar:
fˆ ( x) w0 w1 x1 ... wm xm
? ? ?
Se intenta minimizar la suma de cuadrados de los k más cercanos
1
E
2
( f ( x ) ˆ ( x)) 2 K (d ( x , x))
f q
x{ los k puntosmás cercanos}
79
Métodos Predictivos.
Aprendizaje Supervisado
k-NN (Nearest Neighbour):
1. Se miran los k casos más cercanos.
2. Si todos son de la misma clase, el nuevo caso se clasifica en
esa clase.
3. Si no, se calcula la distancia media por clase o se asigna a la
clase con más elementos.
? Clasifica ? Clasifica
círculo cuadrado
80
Aprendizaje Supervisado
k-NN (Nearest Neighbour). Mejora (ponderar más los más cercanos):
1
Atracción(c j , xq ) {xi donde:
: xi c j } ·krnli krnli
d ( xq , xi ) 2
Se calcula la fuerza de atracción de cada clase cj para el nuevo
punto xq. Y se elige la clase que más atrae.
(Si el punto xq coincide con un punto xi, la clase es la de xi)
(Si el punto xq coincide con más de un punto xi, se procede de la forma anterior)
Para valores continuos (sirve para interpolar):
Si la clase es un valor real,k el k-NN es fácilmente adaptable:
krnl f ( x )
i i
fˆ ( xq ) i 1
k
donde los xi son los k vecinos
i 1
más
krnlipróximos y f(·) es la función
que da el valor real de cada uno.
81
Aprendizaje Supervisado
(On-line) k-means clustering:
• Aunque lo vimos como una técnica no
supervisada, también se puede utilizar para
aprendizaje supervisado, si se utiliza
convenientemente.
82
Aprendizaje Supervisado
Multilayer Perceptron (redes neuronales artificiales, ANN).
• El perceptron de una capa no es capaz de aprender las funciones
más sencillas.
• Se añaden capas internas, se introducen diferentes funciones de
activación e incluso recientemente se introducen bucles y retardos.
Salidas y1 y2 y3
Hidden
Layer h1,1 h1,2 h1,3 h1,4 h1,5
Entradas x1 x2 x3 x4
83
Aprendizaje Supervisado
Multilayer Perceptron (redes neuronales artificiales, ANN).
• En el caso más sencillo, con la función de activación sgn, el número
de unidades internas k define exactamente el número de boundaries
que la función global puede calcular por cada salida.
PARTICIÓN POLIGONAL
POSIBLE CON 4
UNIDADES INTERNAS
84
Aprendizaje Supervisado
Multilayer Perceptron (redes neuronales artificiales, ANN).
• Para poder extender el gradient descent necesitamos una función de
activación continua:
• La más usual es la función sigmoidal:
1
σ ( x)
1 ex
• Esto permite particiones no lineales:
PARTICIÓN NO LINEAL
MÚLTIPLE POSIBLE CON 4
UNIDADES INTERNAS
85
Aprendizaje Supervisado
Árboles de Decisión (ID3 (Quinlan), C4.5 (Quinlan), CART).
• Algoritmo Divide y Vencerás:
1. Se crea un nodo raíz con S:= todos los ejemplos.
2. Si todos los elementos de S son de la misma clase, el subárbol se
cierra. Solución encontrada.
3. Se elige una condición de partición siguiendo un criterio de partición
(split criterion).
4. El problema (y S) queda subdivido en dos subárboles (los que
cumplen la condición y los que no) y se vuelve a 2 para cada uno de
los dos subárboles.
X>0.25
0 1 No Sí
0
Y>0.25
X>0.25 No Sí
PARTICIÓN
X>0.75 X>0.66
CUADRICULAR. No Sí No Sí
X>0.66
X>0.75 Y>0.6
No Sí
1 Y>0.6
Y>0.25
86
Aprendizaje Supervisado
Árboles de Decisión.
• Ejemplo C4.5 con datos discretos:
Example Sky Temperature Humidity Wind PlayTennis
1 Sunny Hot High Weak No
2 Sunny Hot High Strong No
3 Overcast Hot High Weak Yes
4 Rain Mild High Weak Yes
5 Rain Cool Normal Weak Yes
6 Rain Cool Normal Strong No
7 Overcast Cool Normal Strong Yes
8 Sunny Mild High Weak No
9 Sunny Cool Normal Weak Yes
10 Rain Mild Normal Weak Yes
11 Sunny Mild Normal Strong Yes
12 Overcast Mild High Strong Yes
13 Overcast Hot Normal Weak Yes
14 Rain Mild High Strong No
87
Aprendizaje Supervisado
Árboles de Decisión.
• Ejemplo C4.5 con datos discretos:
Outlook?
Sunny Rain
Overcast
NO YES NO YES
• Representación Lógica:
(Outlook=Sunny AND Humidity=Normal) OR (Outlook=Overcast) OR
(Outlook=Rain AND Wind=Weak)
P.ej., la instancia (Outlook = sunny, Temperature = cool, Humidity = high, Wind = strong) es NO.
88
Aprendizaje Supervisado
Comparación de métodos no relacionales:
• Muy fácil de usar
• k-NN: • Eficiente si el nº de ejemplos no es excesivamente grande.
• El valor de k no es muy importante.
• Gran expresividad de la partición.
• Inteligible sólo visualmente.
• Robusto al ruido pero no a atributos no significativos (las distancias
aumentan, conocido como “the curse of dimensionality”)
• RBF • Preferibles a cualquiera de las dos técnicas por separado.
(combinaciones • Difícil de ajustar el k.
de k-means clustering • Poca inteligibilidad.
+ perceptron):
• El número de capas y elementos por capa difíciles de ajustar.
• Apropiado para clases discretas o continuas.
• Redes neuronales • Poca inteligibilidad.
(multicapa): • Muy sensibles a outliers (datos anómalos).
• Se necesitan muchos ejemplos.
89
Aprendizaje Supervisado
Comparación de métodos no relacionales (cont.):
• Muy fácil de usar.
• Naive Bayes: • Muy eficiente.
• NO HAY MODELO.
• Robusto al ruido.
• Muy fácil de usar.
• Árboles de decisión: • Admite atributos discretos y continuos.
(C4.5): • La clase debe ser discreta y finita. (aunque tb. existen
los árboles de regresión que permiten clase continua)
• Es tolerante al ruido, a atributos no significativos y a
missing attribute values.
• Alta inteligibilidad.