02 TecnicasAprendizaje 2 AnalisisDiscriminante

Master en Big Data
Fundamentos de Aprendizaje Automático

BLOQUE I – APRENDIZAJE SUPERVISADO
TEMA 2: TÉCNICAS DE APRENDIZAJE
Prof. Manuel Emilio Gegúndez Arias (Universidad de Huelva)

Prof. Diego Marín Santos (Universidad de Huelva)
ÍNDICE DEL TEMA
Tema 2: Técnicas de aprendizaje
1. Clasificación: enfoque basado en la teoría de la Decisión

2. Análisis discriminante
3. K-vecinos más cercanos
4. Modelos basados en árboles
5. Máquinas de vector soporte
Máster en Big Data | Universidad Internacional de Andalucía 2

ÍNDICE DEL TEMA


Fundamentos de Aprendizaje Automático ÍNDICE DEL TEMA. 2.- Análisis Discriminante
2.1. Clasificación basada en el Teorema de Bayes
2.2. Clasificación basada en distribución normal multivariante
2.3. Clasificador QDA: análisis discriminante cuadrático
2.4. Clasificador LDA: análisis discriminante lineal
2.5. Casos particulares LDA: clasificadores mínima distancia




Fundamentos de Aprendizaje Automático 2.- Análisis Discriminante
Tema 2: Técnicas de aprendizaje 2.1.- Clasificación basada en el Teorema de Bayes
Clasificación basada en el Teorema de Bayes:
Supongamos un problema de clasificación con K clases (en nuestro problema de predicción la variable respuesta Y
puede tomar K valores cualitativos).
 Clasificador Bayesiano:
 Una instancia u observación dada por X = x, se clasifica/asocia con la clase cuya probabilidad de
pertenencia sea mayor.
 Se diseña una función de decisión por cada clase del problema basada en la probabilidad que tiene una
observación descrita por X = x de pertenecer a la clase en cuestión:
dk = pk(x) = Pr(Y=k| X=x) : probabilidad de pertenencia a la clase k de una muestra descrita por x
 Una observación dada por X = x se clasifica o se asocia con la clase cuya probabilidad de pertenencia
sea mayor.
X=x  Y = i si pi(x) > pj(x)  j i
 Clasificación basada en Teorema de Bayes:
 La probabilidad pk(x) = Pr(Y=k| X=x) se estima aplicando el Teorema de Bayes.

 TEOREMA DE BAYES APLICADO A UN PROBLEMA DE CLASIFICACIÓN CON K CLASES DE

SALIDA:
𝑃𝑟 X=x Y=k 𝑃𝑟 𝑌 = 𝑘 𝑓𝑘 𝑥 𝜋𝑘
pk(x)= Pr(Y=k|X=x) = =
σ𝐾
𝑖=1 𝑃𝑟 X=x Y=i 𝑃𝑟 𝑌 = 𝑖
σ𝐾
𝑖=1 𝑓𝑖 𝑥 𝜋𝑖
 Probabilidad a posteriori (condicional) de pertenencia de una observación descrita por x a la clase k :
pk(x) = Pr (Y = k | X = x)
(Probabilidad a posteriori o probabilidad condicional: es una probabilidad que se estima después de que la evidencia
sea tenida en cuenta. En nuestro caso, la evidencia son los valores de los predictores que describen a la observación
que queremos clasificar X = x) .
 Probabilidad a posteriori de la observación X = x en las muestras de la clase k:

fk(x) = Pr (X = x | Y = k)
(Término de verosimilitud: probabilidad de tener una descripción X = x en las muestras disponibles de la clase k.
Esta probabilidad será alta si hay una probabilidad alta de encontrar observaciones de la clase k con X  x).
 Probabilidad a priori (incondicinal) de pertenencia de una observación a la clase k, independientemente

de su descripción X:
Pr(Y=k) = 𝜋𝑘
(Probabilidad de pertenencia a la clase de una observación cualquiera, probabilidad estimada sin tener en cuenta los
valores de sus predictores X)

 Ejemplo: moneda trucada

Se dispone de una caja cerrada con muchas monedas de dos tipos, una diseñada con acabado tipo brillo y la otra
con acabado tipo mate.
Las monedas de cada tipo son idénticas y están cargadas, esto es, no existe la misma probabilidad de sacar cara o
cruz en el lanzamiento de una moneda.
Se diseña un experimento en el que se saca al azar una moneda de la caja, se lanza, se anota el resultado y se vuelve
a introducir en la caja para volver a repetir el proceso. Tras realizar 200 lanzamientos:
• 40 lanzamientos salieron “cara”, de los cuales 36 se realizaron con monedas de acabado brillo y 4 con
monedas de acabado mate.
• 160 lanzamientos resultaron “cruz”, de los cuales 96 se realizaron con monedas de acabado brillo y 64 con
monedas de acabado mate
Objetivo: utilizando los resultados anteriores, determinar la probabilidad de que al lanzar una moneda de la caja,
salga cara o cruz, sabiendo el tipo de acabado de la moneda que se lanza.
 Problema de clasificación:
- Predictores: 1 predictor, X = Tipo de acabado  variable categórica con dos posibles valores: Brillo o
Mate
- Salida: Y = Resultado del lanzamiento  variable categórica con dos posibles valores: Cara o Cruz
(problema de clasificación binaria)

 Teorema de Bayes aplicado a un problema de clasificación con K clases de salida:

𝑃𝑟 X=x Y=k 𝑃𝑟 𝑌=𝑘 𝑓 𝑥 𝜋𝑘
pk(x) = Pr(Y=k|X=x) = = σ𝐾 𝑘
σ𝐾
𝑖=1 𝑃𝑟 X=x Y=i 𝑃𝑟 𝑌=𝑖 𝑖=1 𝑓𝑖 𝑥 𝜋𝑖
 Si al sacar la moneda de la caja, observamos que es de tipo BRILLO. Evaluamos las probabilidades a posteriori
de, sabiendo que el acabado es tipo brillo, el lanzamiento salga cara o cruz:
𝑃𝑟 X=brillo Y=Cara 𝑃𝑟 𝑌 = 𝐶𝑎𝑟𝑎
Pr(Y=cara|X=brillo) =
𝑃𝑟 X=brillo Y=Cara 𝑃𝑟 𝑌 = 𝐶𝑎𝑟𝑎 + 𝑃𝑟 X=brillo Y=Cruz 𝑃𝑟 𝑌 = 𝐶𝑟𝑢𝑧
𝑃𝑟 X=brillo Y=Cruz 𝑃𝑟 𝑌 = 𝐶𝑟𝑢𝑧

Pr(Y=cruz|X=brillo) =
𝑃𝑟 X=brillo Y=Cara 𝑃𝑟 𝑌 = 𝐶𝑎𝑟𝑎 + 𝑃𝑟 X=brillo Y=Cruz 𝑃𝑟 𝑌 = 𝐶𝑟𝑢𝑧
Considerando los resultados del experimento sobre los 200 lanzamientos:
Probabilidad a posteriori de la observación «BRILLO» en los lanzamientos «CARA» y lanzamientos «CRUZ» :

36 96
𝑃𝑟 X=brillo Y=cara = 40 = 0,9 ; 𝑃𝑟 X=brillo Y=cruz = 160 = 0,6
Probabilidad a priori de que al lanzar la moneda salga cara o cruz, sin atender al tipo de acabado:
40 160
𝑃𝑟 Y=cara = 200 = 0,2 ; 𝑃𝑟 Y=cruz = 200 = 0,8
0,9 ∗ 0,2 0,6 ∗ 0,8

Pr(Y=cara|X=brillo) = = 0,2727 Pr(Y=cruz|X=brillo) = = 0,7273
0,9 ∗ 0,2 + 0,6 ∗ 0,8 0,9 ∗ 0,2 + 0,6 ∗ 0,8


σ𝐾
 Si al sacar la moneda de la caja, observamos que es de tipo MATE. Evaluamos las probabilidades a posteriori
de, sabiendo que el acabado es tipo mate, el lanzamiento salga cara o cruz:
𝑃𝑟 X=mate Y=Cara 𝑃𝑟 𝑌 = 𝐶𝑎𝑟𝑎
Pr(Y=cara|X=mate) =
𝑃𝑟 X=mate Y=Cara 𝑃𝑟 𝑌 = 𝐶𝑎𝑟𝑎 + 𝑃𝑟 X=mate Y=Cruz 𝑃𝑟 𝑌 = 𝐶𝑟𝑢𝑧
𝑃𝑟 X=mate Y=Cruz 𝑃𝑟 𝑌 = 𝐶𝑟𝑢𝑧

Pr(Y=cruz|X=mate) =
𝑃𝑟 X=mate Y=Cara 𝑃𝑟 𝑌 = 𝐶𝑎𝑟𝑎 + 𝑃𝑟 X=mate Y=Cruz 𝑃𝑟 𝑌 = 𝐶𝑟𝑢𝑧
Considerando los resultados del experimento sobre los 200 lanzamientos:
Probabilidad a posteriori de la observación «MATE» en los lanzamientos «CARA» y lanzamientos «CRUZ» :

4 64
𝑃𝑟 X=𝑚𝑎𝑡𝑒 Y=cara = 40 = 0,1 ; 𝑃𝑟 X=𝑚𝑎𝑡𝑒 Y=cruz = 160 = 0,4
Probabilidad a priori de que al lanzar la moneda salga cara o cruz, sin atender al tipo de acabado:
40 160
𝑃𝑟 Y=cara = 200 = 0,2 ; 𝑃𝑟 Y=cruz = 200 = 0,8
0,1 ∗ 0,2 0,4 ∗ 0,8

Pr(Y=cara|X=mate) = = 0,0588 Pr(Y=cruz|X=mate) = = 0,9412
01 ∗ 0,2 + 0,4 ∗ 0,8 0,1 ∗ 0,2 + 0,4 ∗ 0,8


𝑃𝑟 X=x Y=k 𝑃𝑟 𝑌 = 𝑘 𝑓𝑘 𝑥 𝜋𝑘
pk(x) = Pr(Y=k|X=x) = =
σ𝐾
𝑖=1 𝑃𝑟 X=x Y=i 𝑃𝑟 𝑌 = 𝑖 σ𝐾
Resumen. Procedimiento de clasificación:
1.- Diseño de clasificador basado en el Teorema de Bayes:
• Se diseña una función de decisión para cada clase del problema (en el ejemplo anterior, salir cara o cruz), que
depende de X, valores de los predictores de la observación a clasificar (en el ejemplo anterior, un solo predictor –
tipo de acabado de la moneda que se lanza).
• Esta función de decisión representa una estimación, realizada sobre el conjunto de datos de entrenamiento y basada
en el Teorema de Bayes, de la probabilidad de pertenencia de la observación a clasificar a la clase en cuestión.
2.- Aplicación del clasificador para predecir la clase de una observación dada por X:
• Las funciones de decisión de cada clase se evalúan para los valores de los predictores de la observación a
clasificar.
• La observación se clasifica a la clase cuya función de decisión es mayor (la clase que tiene la mayor
probabilidad de pertenencia de la observación).
En la practica, este esquema de clasificación basado en el Teorema de Bayes deriva en los siguientes clasificadores:
⇒ DECISOR MÁXIMO A POSTERIORI y CLASIFICADOR SEGÚN MÁXIMA VEROSIMILITUD


σ𝐾
CLASIFICADOR DECISOR MÁXIMO A POSTERIORI:
• Según el planteamiento anterior, se diseñan funciones de decisión para cada clase del problema que representan
la probabilidad de pertenencia a la clase. Estas funciones tienen el mismo denominador.
• Por tanto, este denominador no tiene influencia en la clasificación de la observación. La clase más probable será
aquella cuya función de decisión es máxima, que es aquella que el numerador más alto.
𝒎𝒂𝒙 𝒎𝒂𝒙 𝑓𝑘 𝑥 𝜋𝑘 𝒎𝒂𝒙

𝒀 𝒙 = 𝒂𝒓𝒈 𝒌 = 𝟏, … 𝑲 pk(x) = 𝒂𝒓𝒈 𝒌 = 𝟏, … 𝑲 𝐾
σ𝑖=1 𝑓𝑖
= 𝒂𝒓𝒈 𝒌 = 𝟏, … 𝑲 𝑓𝑘 𝑥 𝜋𝑘
𝑥 𝜋𝑖
Ejemplo de la moneda anterior: si lanzamos una moneda de acabado tipo BRILLO:
𝑚𝑎𝑥 𝑚𝑎𝑥
𝑌 𝑏𝑟𝑖𝑙𝑙𝑜 = 𝑎𝑟𝑔 𝑐𝑎𝑟𝑎, 𝑐𝑟𝑢𝑧 𝑓𝐶𝐴𝑅𝐴 𝑏𝑟𝑖𝑙𝑙𝑜 𝜋𝐶𝐴𝑅𝐴 , 𝑓𝐶𝑅𝑈𝑍 𝑏𝑟𝑖𝑙𝑙𝑜 𝜋𝐶𝑅𝑈𝑍 = 𝑎𝑟𝑔 𝑐𝑎𝑟𝑎, 𝑐𝑟𝑢𝑧 0.18 , 0.48 = CRUZ
Decisor Máximo a Posteriori (MAP):
Funciones de decisión MAP: 𝑑𝑘 x = 𝑃𝑟 X=x Y=k 𝑃𝑟 𝑌 = 𝑘 = 𝑓𝑘 𝑥 𝜋𝑘


σ𝐾
CLASIFICADOR MÁXIMA VEROSIMILITUD:
• Si por el conocimiento a priori que tenemos del problema, las clases son equiprobables (se dispone de un
conjunto de datos balanceado, mismo número de observaciones de cada clase): 𝜋1 = 𝜋2 = ⋯ = 𝜋𝐾
• La clasificación de una observación dada por X se realiza atendiendo al término 𝑃𝑟 X=x Y=k (verosimilitud).
𝒎𝒂𝒙 𝒎𝒂𝒙 𝑓𝑘 𝑥 𝜋𝑘 𝒎𝒂𝒙

𝒀 𝒙 = 𝒂𝒓𝒈 𝒌 = 𝟏, … 𝑲 pk(x) = 𝒂𝒓𝒈 𝒌 = 𝟏, … 𝑲 σ𝐾
= 𝒂𝒓𝒈 𝒌 = 𝟏, … 𝑲 𝑓𝑘 𝑥
Ejemplo de la moneda anterior: si lanzamos una moneda de acabado tipo BRILLO:
𝑚𝑎𝑥 𝑚𝑎𝑥
𝑌 𝑏𝑟𝑖𝑙𝑙𝑜 = 𝑎𝑟𝑔 𝑐𝑎𝑟𝑎, 𝑐𝑟𝑢𝑧 𝑓𝐶𝐴𝑅𝐴 𝑏𝑟𝑖𝑙𝑙𝑜 , 𝑓𝐶𝑅𝑈𝑍 𝑏𝑟𝑖𝑙𝑙𝑜 = 𝑎𝑟𝑔 𝑐𝑎𝑟𝑎, 𝑐𝑟𝑢𝑧 0.9 , 0.6 = CARA
Decisor Máxima Verosimilitud (ML, maximum likelihood):
Funciones de decisión ML: 𝑑𝑘 x = 𝑃𝑟 X=x Y=k = 𝑓𝑘 𝑥

 TEOREMA DE BAYES ENFOCADO A CLASIFICACIÓN: EJEMPLO – JUGAR AL TENIS
EJERCICIO PROPUESTO: CONTESTAR DE FORMA RAZONADA A LAS SIGUIENTES PREGUNTAS

UTILIZANDO UN SISTEMA DE CLASIFICACIÓN BAYESIANO DECISOR MÁXIMO A POSTERIORI.
¿ Se podrá jugar al tenis con un día soleado?
¿ Se podrá jugar al tenis con un día frío?

CASO DE INTERÉS PRÁCTICO:
¿ Se podrá jugar al tenis con un día soleado, frío, de humedad alta y viento fuerte ?


• Predictores: X = (X1, X2. X3, X4 ) ≡ (estado del cielo, temperatura, humedad, viento)
Variables categóricas: X1 = {soleado, nublado, lluvioso} ; X2 = {fría, suave, alta} ; X3= {normal, alta} ; X4= {flojo, fuerte}
• Salida: Y ≡ posibilidad de jugar al tenis
Variable categórica con dos posibles valores (2 clases, clasificación binaria): Y = {C1 , C2} = {sí, no}
• Conjunto de datos: observaciones realizadas en 14 días previos, donde se ha observado el estado del cielo,
temperatura, humedad y viento y se ha verificado si se podía jugar o no al tenis
• Objetivo:
o Saber si podremos jugar o no al
tenis un día concreto, del que
conocemos sus condiciones
meteorológicas.
→ Clasificar una determinada
observación descrita por sus
predictores.
o Ejemplo: en base a los datos de la
tabla, predecir si podremos jugar al
tenis un día soleado, frío, de
humedad alta y viento fuerte.


¿ Se podrá jugar al tenis con un día soleado, frío, de humedad alta y viento fuerte ?
 Hay que decidir qué clase (C1 = «sí» o C2 = «no») es más probable que suceda para una observación descrita
por un vector de atributos de valores <sunny, cool, high, strong>
Decisor Máximo a Posteriori (MAP):
Funciones de decisión MAP: 𝑑𝑘 x = 𝑃𝑟 X=x Y=k 𝑃𝑟 𝑌 = 𝑘 = 𝑓𝑘 𝑥 𝜋𝑘
x0 =(X01 , X02 , X03 , X04 ) = ( sunny , cool, high, strong)
d1(x0) = 𝑓1 x0 𝜋1 ; d2(x0) = 𝑓2 x0 𝜋2
 El problema implica determinar las siguientes probabilidades:
 Probabilidades a priori de las clases del problema , 𝜋𝑘 con k = 1, 2

9 5
𝜋1 = = 0.64 ; 𝜋2 = = 0.36
14 14
 Probabilidad de los valores de la observación x en los datos disponibles de la clase 1 «yes»: 𝑓1 x0 = ???
 Probabilidad de los valores de la observación x en los datos disponibles de la clase 2 «no»: 𝑓2 x0 = ???

 CLASIFICADOR NAIVE BAYES – CLASIFICADOR BAYESIANO INOCENTE (INGENUO)

 ASUME INDEPENDENCIA ENTRE LOS ATRIBUTOS: las variables que componen el vector de atributos
son estadísticamente independientes:
Sea un problema de clasificación de p predictores: 𝑋 = 𝑋1 , 𝑋2 , … , 𝑋𝑝
Sea una observación: 𝑥0 = X01 , X02 , … , X0p
La probabilidad a posteriori o verosimilitud de la observación con las muestras de una clase dada por 𝑌 = 𝑘:
𝑝
𝑓𝑘 𝑥0 = 𝑃𝑟 X=𝑥0 Y=k = 𝑃𝑟 𝑋1 = X 01 Y=k ∗ 𝑃𝑟 𝑋2 = X 02 Y=k ∗ ⋯ ∗ 𝑃𝑟 𝑋𝑝 = X 0p Y=k =ෑ 𝑃𝑟 𝑋𝑖 = X 0i Y=k
𝑖 =1
EN EL EJEMPLO ANTERIOR: 𝑓1 x0 = ??? ; 𝑓2 x0 = ???

X = (X1, X2. X3, X4 ) ≡ (estado del cielo, temperatura, humedad, viento)
x0 =(X01 , X02 , X03 , X04 ) = ( sunny , cool, high, strong)
Aplicando Naive Bayes

2 3 3 3
𝑓1 x0 = 𝑃𝑟 X1 = 𝑠𝑢𝑛𝑛𝑦 𝑦𝑒𝑠 *𝑃𝑟 X2 = 𝑐𝑜𝑜𝑙 𝑦𝑒𝑠 *𝑃𝑟 X3 = ℎ𝑖𝑔ℎ 𝑦𝑒𝑠 *𝑃𝑟 X4 = 𝑠𝑡𝑟𝑜𝑛𝑔 𝑦𝑒𝑠 = 9
∗ 9 ∗ 9 ∗ 9 = 0.0082
3 1 4 3
𝑓2 x0 = 𝑃𝑟 X1 = 𝑠𝑢𝑛𝑛𝑦 𝑛𝑜 ∗𝑃𝑟 X2 = 𝑐𝑜𝑜𝑙 𝑛𝑜 ∗𝑃𝑟 X3 = ℎ𝑖𝑔ℎ 𝑛𝑜 ∗𝑃𝑟 X4 = 𝑠𝑡𝑟𝑜𝑛𝑔 𝑛𝑜 = ∗ ∗ ∗ = 0.0576
5 5 5 5
Funciones de decisión: d1(x0) = 𝑓1 x0 ∗ 𝜋1 = 0,005 ; d2(x0) = 𝑓2 x0 ∗ 𝜋2 = 0,021 → Y(x0) = NO

 CONSIDERACIONES A LA APLICACIÓN DEL CLASIFICADOR NAIVE BAYES
 Si el ejemplo a clasificar, no tiene el valor de algún atributo: se omite dicho atributo
 Si no hay valores de algún atributo en las muestras de entrenamiento de un atributo: esas instancias no cuentan
en la estimación de probabilidades de ese atributo.
 Si alguna clase no presenta ningún valor posible de un determinado atributo (muestras poco representativas):
 Problema: no es posible evaluar la probabilidad de ese valor del atributo en la clase, saldría siempre cero por no
haber ningún caso. De esta forma, una observación que presentara ese valor del atributo, tendría probabilidad
nula de pertenecer a la clase, independientemente de los valores del resto de los atributos de la instancia
Ejemplo: si en el conjunto de datos de “Jugar al Tenis” no hubiera ninguna muestra con el valor de temperatura
fría «cool» en la clase «no», siempre se podría jugar al tenis en un día «frío»
X = (estado del cielo, temperatura, humedad, viento) ; x0 = ( sunny , cool, high, strong)
3 0 4 3
𝑓2 x0 = 𝑃𝑟 X1 = 𝑠𝑢𝑛𝑛𝑦 𝑛𝑜 ∗𝑃𝑟 X2 = 𝑐𝑜𝑜𝑙 𝑛𝑜 ∗𝑃𝑟 X3 = ℎ𝑖𝑔ℎ 𝑛𝑜 ∗𝑃𝑟 X4 = 𝑠𝑡𝑟𝑜𝑛𝑔 𝑛𝑜 = ∗ ∗ ∗ =0
5 5 5 5
d1(x0) = 𝑓1 x0 ∗ 𝜋1 = 0,005 ; d2(x0) = 𝑓2 x0 ∗ 𝜋2 = 0 → Y(x0) = SI
→ Probabilidades nulas o muy bajas, por ausencia en el conjunto de entrenamiento de algunos valores
de atributos en algunas categorías.
 Solución : se supone que hay M ejemplos virtuales en cada clase por cada posible valor de cada atributo – M
suele tener valores bajos (1-5) (Suavizado de Laplace – Laplace smoothing).
𝒏ú𝒎𝒆𝒓𝒐 𝒅𝒆 𝒆𝒋𝒆𝒎𝒑𝒍𝒐𝒔 𝒅𝒆 𝒍𝒂 𝒄𝒍𝒂𝒔𝒆 𝒌 𝒄𝒐𝒏 𝑿𝒊 =𝑽𝒊 +𝑴
𝑷 𝑿𝒊 = 𝑽𝒊 𝒀 = 𝒌 =
𝒏ú𝒎𝒆𝒓𝒐 𝒅𝒆 𝒆𝒋𝒆𝒎𝒑𝒍𝒐𝒔 𝒅𝒆 𝒍𝒂 𝒄𝒍𝒂𝒔𝒆 𝒌 +𝑴∗ 𝒏ú𝒎𝒆𝒓𝒐 𝒅𝒆 𝒑𝒐𝒔𝒊𝒃𝒍𝒆𝒔 𝒗𝒂𝒍𝒐𝒓𝒆𝒔 𝒅𝒆𝒍 𝒂𝒕𝒓𝒊𝒃𝒖𝒕𝒐 𝑿𝒊

EN EL EJEMPLO “JUGAR AL TENIS”: SE HA APLICADO CLASIFICADOR NAIVE BAYES A UN PROBLEMA

DE CLASIFICACIÓN:
 RESPUESTA DEL SISTEMA: variable de salida de naturaleza cualitativa (variable nominal o categórica).
 ENTRADAS DEL SISTEMA O PREDICTORES: atributos de naturaleza cualitativa (nominales o categóricos)
 LAS PROBABILIDADES IMPLICADAS EN EL DISEÑO DE LAS FUNCIONES DE DECISIÓN SE HAN

ESTIMADO ATENDIENDO A LA FRECUENCIA RELATIVA DE APARICIÓN DE UN DETERMINADO
CASO EN EL CONJUNTO TOTAL DE CASOS DISPONIBLES EN LOS DATOS:
→ PROBABILIDAD A PRIORI DE LAS CLASES DEL PROBLEMA:

𝑁𝑖
Y = 𝐶1 , 𝐶2 , … , 𝐶𝐾 ; 𝑃𝑟 𝑌 = 𝐶𝑖 = 𝑑𝑜𝑛𝑑𝑒 𝑁 = σ𝐾
𝑖=1 𝑁𝑖 ; 𝑁𝑖 : 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑖𝑛𝑠𝑡𝑎𝑛𝑐𝑖𝑎𝑠 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝐶𝑖
𝑁
→ PROBABILIDAD A POSTERIORI DEL VALOR DE UN ATRIBUTO EN LAS INSTANCIAS DE

UNA DETERMINADA CLASE:
𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑒𝑗𝑒𝑚𝑝𝑙𝑜𝑠 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝐶𝑘 𝑐𝑜𝑛 𝑋𝑖 =𝑉𝑖

𝑋 = 𝑋1 , 𝑋2 , … , 𝑋𝑝 ; 𝑃𝑟 𝑋𝑖 = 𝑉𝑖 𝑌 = 𝐶𝑘 =
𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑒𝑗𝑒𝑚𝑝𝑙𝑜𝑠 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝐶𝑘
¿ QUÉ OCURRE SI ALGÚN PREDICTOR TIENEN NATURALEZA NUMÉRICA CUANTITATIVA ?

 SI ATRIBUTO Xi DE NATURALEZA NUMÉRICA/CUANTITATIVA: asumir que sus valores en las muestras

de cada clase pueden modelarse según una determinada función de distribución de probabilidad 𝑓.
 Para cada clase: estimar los parámetros representativos de la distribución de probabilidad elegida a partir de
los valores del atributo disponibles en el conjunto de observaciones. Por ejemplo, en el caso de una
distribución normal o gaussiana, estos parámetros son su valor nominal o media y la tolerancia o desviación
respecto a ese valor (desviación típica).
 Estimar la probabilidad a posteriori del valor del atributo en la clase en cuestión: evaluando la función
de distribución de probabilidad en el valor del atributo y considerando sus parámetros representativos
calculados según el punto anterior.
𝑋 = 𝑋1 , 𝑋2 , … , 𝑋𝑝 ; Y = 𝐶1 , 𝐶2 , … , 𝐶𝐾 : 𝑃𝑟 𝑋𝑖 = 𝑉𝑖 𝑌 = 𝐶𝑘 → 𝑓 𝑋𝑖 = 𝑉𝑖 𝑌 = 𝐶𝑘
CLASIFICADOR NAIVE BAYES GAUSSIANO:

𝟏 𝒙−𝝁 𝟐
−
 Asume que los valores de los atributos continuos para cada clase del problema 𝒇 𝒙 = 𝒆 𝟐𝝈𝟐
siguen una distribución Normal o Gaussiana N(μ , σ): 𝟐𝝅 𝝈
 Para los datos del atributo Xi de la clase en cuestión, se calcula la media y desviación típica: μik , σik
 Asumir como valor representativo de la probabilidad a posteriori del valor del atributo en la clase en cuestión, el
valor de la función de densidad de probabilidad para ese valor del atributo: 𝟐
𝑽 −𝝁
𝟏 − 𝒊 𝒊𝒌𝟐
𝟐𝝈𝒊𝒌
𝑃𝑟 𝑋𝑖 = 𝑉𝑖 𝑌 = 𝐶𝑘 → 𝑓 𝑋𝑖 = 𝑉𝑖 𝑌 = 𝐶𝑘 = 𝒆
𝟐𝝅 𝝈𝒊𝒌

Clasificador Naive Bayes Gaussiano: ¿es posible jugar al tenis en un día soleado, frío, viento fuerte y de humedad 89?
X = (estado del cielo, temperatura, humedad, viento)
x0 = ( sunny , cool, 89, strong)
d1(x0) = 𝑓1 x0 𝜋1 ; d2(x0) = 𝑓2 x0 𝜋2
9 5
𝜋1 = = 0.64 ; 𝜋2 = = 0.36
14 14
𝑓1 x0 = 𝑃𝑟 X1 = 𝑠𝑢𝑛𝑛𝑦 𝑦𝑒𝑠 *𝑃𝑟 X2 = 𝑐𝑜𝑜𝑙 𝑦𝑒𝑠 *

𝑷𝒓 X3 = 𝟖𝟗 𝒚𝒆𝒔 *𝑃𝑟 X4 = 𝑠𝑡𝑟𝑜𝑛𝑔 𝑦𝑒𝑠
𝑃𝑟 X3 = 89 𝑦𝑒𝑠 →
2
89−𝜇ℎ𝑢𝑚,𝑦𝑒𝑠
1 −
2𝜎ℎ𝑢𝑚,𝑦𝑒𝑠 2
→ 𝑓 X3 = 89 𝑦𝑒𝑠 = 𝑒
2𝜋 𝜎ℎ𝑢𝑚,𝑦𝑒𝑠
𝑓2 x0 = 𝑃𝑟 X1 = 𝑠𝑢𝑛𝑛𝑦 𝑛𝑜 *𝑃𝑟 X2 = 𝑐𝑜𝑜𝑙 𝑛𝑜 *

𝑷𝒓 X3 = 𝟖𝟗 𝒏𝒐 *𝑃𝑟 X4 = 𝑠𝑡𝑟𝑜𝑛𝑔 𝑛𝑜
𝑃𝑟 X3 = 89 𝑦𝑒𝑠 →
2
89−𝜇ℎ𝑢𝑚,𝑛𝑜
1 −
2𝜎ℎ𝑢𝑚,𝑛𝑜 2
→ 𝑓 X3 = 89 𝑛𝑜 = 𝑒
2𝜋 𝜎ℎ𝑢𝑚,𝑛𝑜

EJERCICIO
En las tablas adjuntas, se facilitan registros de un banco con decisiones relativos a la concesión de créditos. Estas
decisiones fueron adoptadas en función del salario, edad, número de hijos y si el interesado era o no cliente del banco.
Los datos de salario e hijos se facilitan en formato categórico (tabla de la izquierda) y numérico (tabla de la derecha).
SALARIO CLIENTE EDAD HIJOS CREDITO SALARIO CLIENTE EDAD HIJOS CREDITO
Poco Si Joven Uno NO 525 Si Joven 1 NO
Mucho Si Joven Uno SI 2000 Si Joven 1 SI
Mucho Si Joven Uno SI 2500 Si Joven 1 SI
Poco Si Joven Uno NO 470 Si Joven 1 NO
Mucho Si Joven Dos SI 3000 Si Joven 2 SI
Poco Si Joven Dos NO 510 Si Joven 2 NO
Mucho Si Adulto Dos SI 2800 Si Adulto 2 SI
Poco No Adulto Dos NO 550 No Adulto 2 NO
Medio No Adulto Tres NO 1100 No Adulto 3 NO
Medio Si Adulto Dos SI 1200 Si Adulto 2 SI
Medio No Adulto Tres NO 900 No Adulto 3 NO
Medio No Adulto Dos SI 800 No Adulto 2 SI
Mucho No Mayor Tres NO 800 No Mayor 3 NO
Poco No Mayor Tres SI 1300 No Mayor 3 SI
Poco No Mayor Tres SI 1100 No Mayor 3 SI
Mucho No Mayor Tres NO 1000 No Mayor 3 NO
Mucho No Mayor Tres SI 4000 No Mayor 3 SI

EJERCICIO
a) Con los datos facilitados, diseña un clasificador Naive Bayes asumiendo que todos los predictores tienen
naturaleza categórica y aplícalo para predecir si el banco concederá un crédito a una persona de las siguientes
condiciones:
- Persona adulta, cliente del banco, con 3 hijos y cuyo salario es bajo.
- Persona mayor, también cliente del banco, 3 hijos y salario bajo.
- Perona de las mismas condiciones que las anteriores, pero el banco no dispone de información relativa a
su edad.
b) Repite el apartado anterior utilizando los datos de salario y número de hijos en formato numérico, suponiendo
que el salario de la persona de interés es de 700 euros.
c) Repite el ejercicio asumiendo 5 ejemplos virtuales en cada clase por cada posible valor de cada atributo
categórico.
Observación: deben plantearse teóricamente las expresiones que definen las funciones del Decisor Máximo a
Posteriori y evaluarlas para cada instancia de test para obtener la clase de salida.



Fundamentos de Aprendizaje Automático 2.- Análisis Discriminante. 2.2.- Clasificación basada en
Tema 2: Técnicas de aprendizaje distribución normal multivariante
 Problema de clasificación: recordando la notación
 Variables entrada-salida:
 Variables de entrada o predictores: X = (X1, X2. …, Xp) ( p predictores)
 Variable de salida o respuesta: Y = 𝐶1 , 𝐶2 , … , 𝐶𝐾 = 1, 2, … , 𝐾 (K clases)
x1 X11 ⋯ X1𝑝 y1
 Conjunto de datos de entrenamiento (n datos): X= ⋮ = ⋮ ⋱ ⋮ ; Y= ⋮
x𝑛 X𝑛1 ⋯ X𝑛𝑝 y𝑛
{(x1,y1),(x2,y2),...,(xn,yn)}, con:
xi =(Xi1 , Xi2 , …, Xip ) e yi: valores de las variable de entrada y salida para la observación i
Xij: valor de la variable Xj para la observación i con i = 1,…, n j = 1,…, p
 Observación a clasificar:
Observación específica: 𝑥0 = (X01, X02. …, X0p)
De forma genérica, los valores de los predictores de la observación a clasificar se denotarán por :
X = x = (X1, … , Xp)

 Teorema de Bayes aplicado para clasificar una muestra descrita por X = x = (X1, … , Xp)
σ𝐾
𝑖=1 X=x Y=i 𝑃𝑟 𝑌=𝑖 𝑖=1 𝑓𝑖 𝑥 𝜋𝑖
CLASIFICADOR DECISOR MÁXIMO A POSTERIORI: dk(x) = 𝑃𝑟 X=x Y=k 𝑃𝑟 𝑌 = 𝑘 = 𝑓𝑘 𝑥 𝜋𝑘
ESTIMACIÓN DE LA VEROSIMILITUD O PROBABILIDAD A POSTERIORI DE x EN LA CLASE k, 𝑓𝑘 𝑥 :
→ CLASIFICADOR NAIVE BAYES: asume independencia estadística entre los atributos:

x = x0 = (X01, … , X0p)
𝑝
𝑓𝑘 𝑥0 = 𝑃𝑟 X=𝑥0 Y=k = 𝑃𝑟 𝑋1 = X 01 Y=k ∗ 𝑃𝑟 𝑋2 = X 02 Y=k ∗ ⋯ ∗ 𝑃𝑟 𝑋𝑝 = X 0p Y=k =ෑ 𝑃𝑟 𝑋𝑖 = X 0i Y=k
𝑖 =1
 Atributos categóricos de naturaleza cualitativa: estimar 𝑃𝑟 𝑋𝑖 = X0i Y=k como la frecuencia

de los valores del atributo del conjunto de datos para la clase.
 Atributos numéricos de naturaleza cuantitativa: estimar 𝑃𝑟 𝑋𝑖 = X0i Y=k asumiendo que los
datos de 𝑋𝑖 en la clase k provienen de una determinada función densidad de probabilidad.
Si distribución normal o gausiana – Clasificador Naive Bayes Gaussiano:
𝟏 𝑿𝟎𝒊 − 𝝁𝒊𝒌 𝟐
Para la clase k-ésima: Xi ~ N(μik , σik) ⇒ 𝑃𝑟 𝑋𝑖 = X0i Y=k ~ 𝒆𝒙𝒑(− )
𝟐𝝅 𝝈𝒊𝒌 𝟐𝝈𝒊𝒌 𝟐

 Teorema de Bayes aplicado para clasificar una muestra descrita por X = x = (X1, … , Xp)
σ𝐾
𝑖=1 X=x Y=i 𝑃𝑟 𝑌=𝑖 𝑖=1 𝑓𝑖 𝑥 𝜋𝑖
CLASIFICADOR DECISOR MÁXIMO A POSTERIORI: dk(x) = 𝑃𝑟 X=x Y=k 𝑃𝑟 𝑌 = 𝑘 = 𝑓𝑘 𝑥 𝜋𝑘
ESTIMACIÓN DE LA VEROSIMILITUD O PROBABILIDAD A POSTERIORI DE x EN LA CLASE k, 𝑓𝑘 𝑥 :
→ ANÁLISIS DISCRIMINANTE: Clasificación basada en distribución normal multivariante
 Vector de predictores continuos: X = (X1, X2. …, Xp)
 Asume que las observaciones provienen de una distribución gaussiana multivariante (normal
multivariante) con vector de medias y matriz de covarianzas específicos para cada clase, 𝑘 y 𝑘 ,
respectivamente.
1 1
Para la clase k-ésima: X ~ N(μk ,  k) → 𝑓𝑘 𝑥 = 𝑝Τ2 1Τ2 𝑒𝑥𝑝 − 𝑥 − 𝑘 𝑇
𝑘 −1
𝑥 − 𝑘
2𝜋 𝑘 2
𝑇 𝑇
x = X1 , X 2 , … , X p ; k = 1 , 2 , … , p (vectores columna px1) ; k : 𝑚𝑎𝑡𝑟𝑖𝑧 𝑑𝑒 𝑐𝑜𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎𝑠 (𝑝𝑥𝑝)
𝑘
→ Observación: Multinomial Naive Bayes, aplicar Naive Bayes tratando las variables continuas de forma
conjunta asumiendo que se pueden modelar mediante una distribución normal multivariante.

DISTRIBUCIÓN NORMAL MULTIVARIANTE

PARÉNTESIS – NOCIONES MATEMÁTICAS: MATRIZ DE COVARIANZAS
T
• Sea X = X1 , X2 , … , Xp un vector aleatorio p-dimensional (px1). Si de disponen de n muestras de X, su
vector de medias y matriz de covarianzas se definen de la siguiente forma:
n
T 1
→ Vector de medias: μ = μ1 , μ2 , … , μp , donde μi = E Xi = ෍ Xzi
n
z=1
𝜎11 𝜎12 ⋯ 𝜎1𝑝
→ Matriz de covarianzas:  = 𝐸 𝑋 − 𝜇 𝑋 − 𝜇 𝑇
= 𝜎21 𝜎22 ⋯ 𝜎2𝑝
⋮ ⋮ ⋯ ⋮
𝜎𝑝1 𝜎𝑝2 ⋯ 𝜎𝑝𝑝
donde:
𝑛
1
𝜎𝑖𝑗 = 𝐶𝑜𝑣 X𝑖 , X𝑗 = 𝐸 𝑋𝑖 − 𝜇𝑖 𝑋𝑗 − 𝜇𝑗 = ෍ 𝑋𝑧𝑖 − 𝜇𝑖 𝑋𝑧𝑗 − 𝜇𝑗
𝑛−1
𝑧=1
𝑛
2 1 2
Notar que  es simétrica (𝜎𝑖𝑗 = 𝜎𝑗𝑖 ) y que 𝜎𝑖𝑖 = 𝑉𝑎𝑟 X𝑖 = 𝜎𝑖 2 = 𝐸 𝑋𝑖 − 𝜇𝑖 = ෍ 𝑋𝑧𝑖 − 𝜇𝑖
𝑛−1
𝑧=1


EJEMPLOS SIGNIFICADO MATRIZ DE COVARIANZAS PARA

x1 𝑋11 𝑋12
DISTINTOS CONJUNTO DE n DATOS DESCRITOS POR 𝑋 = X1 , X2 → X= ⋮ = ⋮ ⋮
x𝑛 𝑋𝑛1 𝑋𝑛2
 EJEMPLO 1: variables correlacionadas
𝜎11 𝜎12 𝜎1 2 𝜎12 0,1296 0,2341

= 𝜎 𝜎22 = 𝜎21 2 = 0,2341 0,4228
21 𝜎2
→ La covarianza entre X𝑖 , X𝑗 (términos cruzados

𝜎𝑖𝑗 ) son una medida del grado de dependencia
lineal que presentan las variables X𝑖 , X𝑗 :
𝜎𝑖𝑗
Coeficiente de correlación de Pearson de X𝑖 , X𝑗 :𝜌𝑖𝑗 =
𝜎𝑖 𝜎𝑗
→ En el ejemplo:
𝜎12 0,2341
𝜌12 = = =1
𝜎1 𝜎2 0,1296 0,4228



x1 𝑋11 𝑋12
 EJEMPLO 2: variables no correlacionadas
𝜎11 𝜎12 𝜎1 2 𝜎12 0,3596 0,003

= 𝜎 𝜎22 = =
21 𝜎21 𝜎2 2 0,003 0,7218
→ V𝐚𝐫𝐢𝐚𝐛𝐥𝐞𝐬 X𝑖 , X𝑗 estadísticamente independientes

(no presentan correlación 𝜌𝑖𝑗 = 0):
Cov X𝑖 , X𝑗 = 𝜎𝑖𝑗 = 0
→ En el ejemplo:
𝜎12 0,003
𝜌12 = = = 5,77 ∗ 10−4
𝜎1 𝜎2 0,3596 0,7218



x1 𝑋11 𝑋12
 EJEMPLO 3: relaciona cada matriz de covarianzas con el conjunto de datos
Notar que cuando las

desviaciones estándar de dos
variables son 1, su covarianza
coincide con el coeficiente de
correlación.
𝜎𝑖𝑗
𝜌𝑖𝑗 =
𝜎𝑖 𝜎𝑗

DISTRIBUCIÓN NORMAL MULTIVARIANTE DE UNA VARIABLE ALEATORIA x = (X1, … , Xp)
T
 DEFINICIÓN: El vector aleatorio X = X1 , X2 , … , Xp es normal p-dimensional con vector de medias
𝜎11 𝜎12 ⋯ 𝜎1𝑝
y matriz de covarianzas  = 𝜎21 𝜎22 ⋯ 𝜎2𝑝 , si su función densidad de probabilidad

T
μ = μ1 , μ2 , … , μp
⋮ ⋮ ⋯ ⋮
está dada por: dada por:
1 1
X ~ N(μ ,  ) → 𝑓 𝑥 = 𝑝Τ2 1Τ2 𝑒𝑥𝑝 − 𝑥 − 𝜇 𝑇 −1 𝑥 − 𝜇 , 𝑥 ∈ 𝑅𝑝
2𝜋  2
Ejemplos de funciones de densidad gaussianas multivariantes (caso de dos dimensiones):
• Figura de la izquierda:
caso de variables no
correlacionadas.
• Figura de la derecha, caso

de variables que presentan
una correlación de 0,7.

EJEMPLOS DE DENSIDADES
NORMALES BIDIMENSIONALES
0 1 0,8
𝜇= ; =
0 0,8 1
0 1 0
𝜇= ; =
0 0 1
0 1 −0,8
𝜇= ; =
0 −0,8 1



RECORDANDO: ANÁLISIS DISCRIMINANTE - Clasificación basada en distribución normal multivariante

Instancia a clasificar: x = (X1, … , Xp)
1. Teorema de Bayes: Clasificador Decisor Máximo A Posteriori:
dk(x) = 𝑃𝑟 X=x Y=k 𝑃𝑟 𝑌 = 𝑘 = 𝑓𝑘 𝑥 𝜋𝑘
2. Estimación de la verosimilitud o probabilidad a posteriori de x en la clase k, 𝒇𝒌 𝒙 , asumiendo que los

datos de entrenamiento X siguen una distribución normal multivariante (p-dimensional) para cada clase del
problema:
1 1
X ~ N(μk ,  k) → 𝑓𝑘 𝑥 = 𝑝Τ2 1Τ2 𝑒𝑥𝑝 − 𝑥 − 𝑘 𝑇
𝑘 −1
𝑥 − 𝑘
2𝜋 𝑘 2
3. A partir del conjunto de datos de entrenamiento, diseño de una función de decisión para cada clase
del problema:
dk(x) = 𝑓𝑘 𝑥 𝜋𝑘 ⇒ dk(x)= log 𝑓𝑘 𝑥 𝜋𝑘 = log 𝑓𝑘 𝑥 + log 𝜋𝑘 con 𝑓𝑘 𝑥 = N(μk ,  k)
donde x = (X1, … , Xp) representa los valores de los predictores de cualquier muestra a clasificar
4. Criterio de clasificación: evaluar cada función de decisión para la observación a clasificar dada por X =
x y asociarla a la clase cuya función de decisión es máxima.
Y(x) = i si di(x) > dj(x)  j i

Tema 2: Técnicas de aprendizaje 2.3.- Clasificador QDA: análisis discriminante cuadrático
x1 X11 ⋯ X1𝑝 y1
K clases ; Instancia a clasificar: x=(X1, … ,Xp) ; Datos de entrenamiento: X = ⋮ = ⋮ ⋱ ⋮ ; Y= ⋮
CLASIFICADOR QDA: ANÁLISIS DISCRIMINANTE CUADRÁTICO
1 1
dk(x) = log 𝑓𝑘 𝑥 + log 𝜋𝑘 con 𝑓𝑘 𝑥 = N(μk, k) = 𝑝Τ2 1Τ2 𝑒𝑥𝑝 − 𝑥 − 𝑘 𝑇
𝑘 −1
𝑥 − 𝑘
2𝜋 𝑘 2
1 1
dk(x) = log 𝑝Τ2 1Τ2 𝑒𝑥𝑝 − 𝑥 − 𝑘 𝑇
𝑘 −1
𝑥 − 𝑘 + log 𝜋𝑘 =
2𝜋 𝑘 2
1 1
= − 𝑥 − 𝑘 𝑇
𝑘 −1
𝑥 − 𝑘 + log 𝑝Τ2 1Τ2
+ log 𝜋𝑘 =
2 2𝜋 𝑘
1 𝑝 1
=− 𝑥 − 𝑘 𝑇
𝑘 −1
𝑥 − 𝑘 − log 2𝜋 − log 𝑘 + log 𝜋𝑘
2 2 2
1 1
dk(x)= − 𝑥 − 𝑘 𝑇
𝑘 −1
𝑥 − 𝑘 − log 𝑘 + log 𝜋𝑘
2 2
Y(x) = i si di(x) > dj(x)  j i

CLASIFICADOR QDA: ANÁLISIS DISCRIMINANTE CUADRÁTICO
1 1
dk(x)= − 𝑥 − 𝑘 𝑇
𝑘 −1
2 2
Para diseñar las funciones de decisión de cada clase, se requiere calcular a partir del conjunto de entrenamiento:
1. Vector de medias k y matriz de covarianzas 𝑘 de la clase k (calculados sobre las 𝑛k observaciones de la

clase k disponibles en el número total n de observaciones de entrenamiento):
𝑇 𝑇 1
x = X1 , X 2 , … , X p ; k = 𝜇1𝑘 , 𝜇2𝑘 , … , 𝜇𝑝𝑘 𝑐𝑜𝑛 𝜇𝑖𝑘 = 𝐸 𝑋𝑖𝑘 = ෍ X𝑧i
𝑛𝑘
𝑧: 𝑦𝑧 =𝑘
𝑘 𝑘 𝑘
𝜎11 𝜎12 ⋯ 𝜎1𝑝
𝑘
𝜎21 𝑘
𝜎22 𝑘
⋯ 𝜎2𝑝 1
𝑘 = 𝑐𝑜𝑛 𝜎𝑖𝑗𝑘 = 𝜎𝑗𝑖𝑘 = 𝐸 𝑋𝑖𝑘 − 𝜇𝑖𝑘 𝑋𝑗𝑘 − 𝜇𝑗𝑘 = ෍ 𝑋𝑧𝑖 − 𝜇𝑖𝑘 𝑋𝑧𝑗 − 𝜇𝑗𝑘
⋮ ⋮ ⋯ ⋮ 𝑛𝑘 − 1
𝑘 𝑘 𝑘 𝑧: 𝑦𝑧 =𝑘
2. Probabilidad de priori que tiene una muestra de pertenecer a la clase de la clase k:
• Si no se tiene conocimiento a priori que pueda ser utilizado para estimar esta probabilidad, se suele calcular
a partir de la proporción de las muestras de entrenamiento de pertenecer a la clase en cuestión:
𝑛𝑘
𝜋𝑘 =
𝑛

1 1
CLASIFICADOR QDA: Observaciones dk(x)= − 𝑥 − 𝑘 𝑇 𝑘 −1 𝑥 − 𝑘 − log 𝑘 + log 𝜋𝑘
2 2
→ Divide el espacio de características en tantas regiones como clases tenga el problema mediante fronteras de
decisión cuadráticas.
→ Si clases equiprobables (𝜋1 = 𝜋2 = ⋯ = 𝜋𝐾 ) ⇒ dk(x)= − 𝑥 − 𝑘 𝑇

𝑘 −1
𝑥 − 𝑘 − log 𝑘
→ Clasificador que requiere el ajuste de un número elevado de parámetros, especialmente en el caso de

tener un alto número de predictores:
𝑝 𝑝+1
• La matriz de covarianzas de una clase, 𝑘 , tiene parámetros, por lo que un problema de
2
𝑝 𝑝+1
clasificación con K clases implica el ajuste de K parámetros (si p = 20, K = 5: 1050 parámetros).
2
→ El clasificador requiere un número elevado de datos de entrenamiento.
CLASIFICADOR LDA: ANÁLISIS DISCRIMINANTE LINEAL
APROXIMACIÓN AL PROBLEMA: asume que las clases tienen la misma matriz de covarianzas
• División del espacio de características mediante fronteras de decisión lineales.
• LDA es un modelo menos flexible que QDA (implica el ajuste de un número mucho más reducido de
parámetros).
• Modelo adecuado cuando el número de datos de entrenamiento es reducido o cuando las clases tienen
matrices de covarianzas similares y puede asumirse una única matriz de covarianzas para todas ellas.

FRONTERAS DE DECISIÓN - CLASIFICADOR QDA VS LDA: ejemplo

→ Conjunto de datos simulados compuesto por observaciones descritas por dos predictores y correspondiendo a
dos clases (los datos de cada clase se han generado con una distribución de probabilidad conocida).
 Línea discontinua morada: frontera de decisión del clasificador Bayesiano (referencia ideal)
 Línea discontinua de puntos: frontera de decisión del clasificador LDA
 Línea continua verde: frontera de decisión del clasificador QDA
𝐷𝑎𝑡𝑜𝑠 𝑔𝑒𝑛𝑒𝑟𝑎𝑑𝑜𝑠 𝑐𝑜𝑛 1 = 2 𝐷𝑎𝑡𝑜𝑠 𝑔𝑒𝑛𝑒𝑟𝑎𝑑𝑜𝑠 𝑐𝑜𝑛 1 ≠ 2

Clasificador LDA se aproxima más al de Bayes Clasificador QDA se aproxima más al de Bayes



Tema 2: Técnicas de aprendizaje 2.4.- Clasificador LDA: análisis discriminante lineal
x1 X11 ⋯ X1𝑝 y1
K clases ; Instancia a clasificar: x=(X1, … ,Xp) ; Datos de entrenamiento: X = ⋮ = ⋮ ⋱ ⋮ ; Y= ⋮
1 1
CLASIFICADOR QDA: dk(x)= − 𝑥 − 𝑘 𝑇
𝑘 −1
2 2
𝑇 CLASIFICADOR LDA – ANÁLISIS DISCRIMINANTE LINEAL

x = X1 , X 2 , … , X p
Si conjunto de
1 entrenamiento
1 = 2 = ⋯ = 𝐾 = dk(x)= − 𝑥 − 𝑘 𝑇
 −1
𝑥 − 𝑘 + log 𝜋𝑘 balanceado en las clases
2 (clases equiprobables)
LDA requiere calcular a partir del conjunto de datos entrenamiento:

1 dk(x)= − 𝑥 − 𝑘 𝑇
 −1
𝑥 − 𝑘
𝑇
⇒ k = 𝜇1𝑘 , 𝜇2𝑘 , … , 𝜇𝑝𝑘 𝑐𝑜𝑛 𝜇𝑗𝑘 =𝐸 𝑋𝑗𝑘 = ෍ Xij
𝑛𝑘
𝑖: 𝑦𝑖 =𝑘
𝜎11 𝜎12 ⋯ 𝜎1𝑝

𝐾
1
⇒  = 𝜎21 𝜎21 ⋯ 𝜎2𝑝 𝑐𝑜𝑛 𝜎𝑖𝑗 = 𝜎𝑗𝑖 = ෍ ෍ 𝑋𝑧𝑖 − 𝜇𝑖𝑘 𝑋𝑧𝑗 − 𝜇𝑗𝑘
⋮ ⋮ ⋯ ⋮ 𝑛−𝐾
𝑘=1 𝑧: 𝑦𝑧 =𝑘
Notar que  𝑒𝑠 𝑢𝑛𝑎 𝑒𝑠𝑡𝑖𝑚𝑎𝑐𝑖ón 𝑑𝑒 una 𝑚𝑎𝑡𝑟𝑖𝑧 𝐾
𝑑𝑒 𝑐𝑜𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎𝑠 𝑐𝑜𝑚ú𝑛 a todas las clases  = 1
𝑛𝑘
෍ 𝑛𝑘 − 1 𝑘
⇒ 𝜋𝑘 = calculada a partir de la matriz de covarianzas de 𝑛−𝐾
𝑘=1
𝑛
cada clase, k:

Tema 2: Técnicas de aprendizaje 2.4.- Clasificador LDA: análisis discriminante lineal
DOS FORMAS DE APLICACIÓN LDA: K clases ; Instancia a clasificar: x=(X1, … ,Xp)

1. A partir de las funciones de decisión cuadráticas: diseñar K funciones de decisión (una función de decisión dk
para cada clase k del problema ) de forma que una observación dada por X = x se asocia a la clase cuya función
de decisión es :
1
dk(x)= − 𝑥 − 𝑘 𝑇  −1 𝑥 − 𝑘 + log 𝜋𝑘 Y(x) = i si di(x) > dj(x)  j i
2
2. A partir de las fronteras lineales de decisión: a partir de las

𝐾
funciones de decisión anteriores dk , determinar = 𝐾 𝐾 − 1 /2
2
fronteras de decisión para separar las muestras de las clases dos a dos
de la siguiente forma:
dij(x)= di(x)-dj(x)= 𝛽𝑖𝑗0 + 𝛽𝑖𝑗1 𝑋1 + 𝛽𝑖𝑗2 𝑋2 + ⋯ + +𝛽𝑖𝑗𝑝 𝑋𝑝
Y(x) = i si dij(x) > 0  j i
Ejemplo – Criterio de clasificación para el caso de las 3 clases de la figura:

X ∈ C1 si d12 > 0 y d13 > 0 ; X ∈ C2 si d12 < 0 y d23 > 0 ; X ∈ C3 si d13 < 0 y d23 < 0
FRONTERAS DE SEPARACIÓN ENTRE CLASES LINEALES :

• Frontera de decisión de las clases i-j: HIPERPLANO DADO POR dij(x)= 0
(notar que son los puntos del espacio de predictores que están en la frontera de separación de ambas
clases y cumplen que di(x)=dj(x) )



Fundamentos de Aprendizaje Automático 2.- Análisis Discriminante. 2.5.- Casos particulares LDA:
Tema 2: Técnicas de aprendizaje clasificadores mínima distancia
CLASIFICADOR LDA – ANÁLISIS DISCRIMINANTE LINEAL

1
1 = 2 = ⋯ = 𝐾 = dk(x)= − 𝑥 − 𝑘 𝑇
 −1
𝑥 − 𝑘 + log 𝜋𝑘
2
𝜎11 𝜎12 ⋯ 𝜎1𝑝
 = 𝜎21 𝜎22 ⋯ 𝜎2𝑝 = 1 σ𝐾 𝑛 − 1 

𝑇 𝑇
x = X1 , X 2 , … , X p ; k = 𝜇1𝑘 , 𝜇2𝑘 , … , 𝜇𝑝𝑘 ;
⋮ ⋮ ⋯ ⋮ 𝑛−𝐾 𝑘=1 𝑘 𝑘
→ CLASIFICADOR MÍNIMA DISTANCIA DE MAHALANOBIS
 Asume clases equiprobables (conjunto de entrenamiento balanceado en las clases): 𝜋1 = 𝜋2 = ⋯ = 𝜋𝐾
dk(x)= − 𝑥 − 𝑘 𝑇
 −1
𝑥 − 𝑘 = −𝐷𝑀 2 𝑥, 𝑘
 Este clasificador asigna una observación descrita por x a la clase cuyo vector promedio 𝑖 esté a distancia
de Mahalanobis mínima.
 El criterio es, por tanto, medir la distancia a cada prototipo de las clases y clasificar la instancia cuyo vector
prototipo esté más cerca según la Distancia de Mahalanobis (clasificador mediante el prototipo más
próximo).

CLASIFICADOR LDA – ANÁLISIS DISCRIMINANTE LINEAL

1
1 = 2 = ⋯ = 𝐾 = dk(x)= − 𝑥 − 𝑘 𝑇
 −1
𝑥 − 𝑘 + log 𝜋𝑘
2
𝜎11 𝜎12 ⋯ 𝜎1𝑝
 = 𝜎21 𝜎22 ⋯ 𝜎2𝑝 = 1 σ𝐾 𝑛 − 1 

𝑇 𝑇
x = X1 , X 2 , … , X p ; k = 𝜇1𝑘 , 𝜇2𝑘 , … , 𝜇𝑝𝑘 ;
⋮ ⋮ ⋯ ⋮ 𝑛−𝐾 𝑘=1 𝑘 𝑘
→ CLASIFICADOR MÍNIMA DISTANCIA EUCLIDEA. Asunciones:
 Clases equiprobables (conjunto de entrenamiento balanceado en las claes): 𝜋1 = 𝜋2 = ⋯ = 𝜋𝐾
 Las variables de los predictores Xi son estadísticamente independientes, no están correladas: 𝜎𝑖𝑗 = 0 ∀ 𝑖 ≠ 𝑗
 Las varianzas de cada variable predictora Xi son iguales: 𝜎𝑖𝑖 = 𝜎𝑖 2 = 𝜎 2 ∀ 𝑖 = 1, 2, … , 𝑝

𝜎11 𝜎12 ⋯ 𝜎1𝑝 𝜎2 0 ⋯ 0 1 0 ⋯ 0
 = 𝜎22 𝜎22 ⋯ 𝜎2𝑝 = 0 𝜎2 ⋯ 0 = 𝜎2 0 1 ⋯ 0
= 𝜎2𝐼
⋮ ⋮ ⋯ ⋮ ⋮ ⋮ ⋯ ⋮ ⋮ ⋮ ⋯ ⋮
𝜎𝑝1 𝜎𝑝2 ⋯ 𝜎𝑝𝑝 0 0 ⋯ 𝜎2 0 0 ⋯ 1
1
dk(x)= − 𝑥 − 𝑘 𝑇
 −1
𝑥 − 𝑘 = − 𝑥 − 𝑘 𝑇
𝑥 − 𝑘 dk(x)= − 𝑥 − 𝑘 𝑇
𝑥 − 𝑘 = −𝐷𝐸 2 𝑥, 𝑘
𝜎2
 Este clasificador asigna una observación descrita por x a la clase cuyo vector promedio 𝑖 esté a distancia
Euclidea mínima (clasificador mediante el prototipo más próximo según distancia Euclidea).

CASOS PARTICULARES LDA: Clasificadores Mínima Distancia Mahalanobis, Mínima Distancia Euclidea
Clasificador de Mínima Distancia de Mahalanobis:
 El lugar geométrico de aquellos puntos equidistantes del

centro (vector de medias) son hiperelipsoides.
 Caso de aplicación:
• Clases equiprobables.
• Matrices de covarianzas de las clases similares.
• Las variables presentan cierta dependencia lineal o
correlación entre ellas y/o tienen distinta varianza.
Clasificador de Mínima Distancia Euclídea
 El lugar geométrico de aquellos puntos equidistantes del

centro (vector de medias) son hiperesferas.
 Casos de aplicación:
• Clases equiprobables.
• Matrices de covarianzas de las clases similares.
• Las variables son independientes (no están correladas)
y presentan una varianza similar.

PARÉNTESIS – NOCIONES MATEMÁTICAS: DISTANCIA DE MAHALANOBIS

T
• Sea 𝑋 = X1 , X2 , … , Xp un vector aleatorio p-dimensional (px1). Se dispone de un conjunto de n muestras de
X, cuyo vector de medias y matriz de covarianzas son μ y  , respectivamente:
n
T 1
→ Vector de medias: μ = μ1 , μ2 , … , μp , donde μi = E Xi = ෍ Xzi
n
z=1
𝜎11 𝜎12 ⋯ 𝜎1𝑝

𝑛
1
→ Matriz de covarianzas:  = 𝜎21 𝜎22 ⋯ 𝜎2𝑝 , donde 𝜎 = 𝐶𝑜𝑣 X , X
𝑖𝑗 𝑖 𝑗 = ෍ 𝑋𝑧𝑖 − 𝜇𝑖 𝑋𝑧𝑗 − 𝜇𝑗
⋮ ⋮ ⋯ ⋮ 𝑛−1
𝑧=1
 DISTANCIA DE MAHALANOBIS DE X a μ :
DM(X,𝜇)= X−𝜇 𝑇  −1 X−𝜇 → 𝐷𝑀 2 X, 𝜇 = X − 𝜇 𝑇

 −1
X−𝜇
La distancia de Mahalanobis DM es adimensional, es una distancia normalizada por la dispersión de los datos
(dada por la matriz de covarianzas):
 DM tiene en cuenta las diferentes variabilidades (varianzas de las variables).
 DM tiene en cuenta las correlaciones entre las variables (covarianzas de las variables).

PARÉNTESIS – NOCIONES MATEMÁTICAS: DISTANCIA DE MAHALANOBIS
EJEMPLOS SIGNIFICADO DISTANCIA MAHALANOBIS SUPONIENDO

x1 𝑋11 𝑋12
UN CONJUNTO DE n DATOS DESCRITOS POR 𝑋 = X1 , X2 → X= ⋮ = ⋮ ⋮
 EJEMPLO 1: variables no correlacionadas,  EJEMPLO 2: variables correlacionadas, misma

de distinta varianza varianza 𝜎1 2 𝜎12 6 4
= 2 = 4 6
𝜎21 𝜎2
𝜎1 2 𝜎12 10 0
= 2 = 0
𝜎21 𝜎2 2,5  𝐷𝐸 𝑂, 𝐴 = 𝐷𝐸 𝑂, 𝐵 ; 𝐷𝑀 𝑂, 𝐴 > 𝐷𝑀 𝑂, 𝐵
→ 𝐷𝑀 tiene en cuenta la correlación entre las
 𝐷𝐸 𝑂, 𝐴 = 𝐷𝐸 𝑂, 𝐵 , 𝐷𝑀 𝑂, 𝐴 > 𝐷𝑀 𝑂, 𝐵
variables.
→ 𝐷𝑀 tiene en cuenta las diferentes variabilidades
(varianzas de las variables).

 EJEMPLO 3: dado el conjunto de datos, compuesto por 5 1 1

2 2.5
observaciones de dos variables X1 y X2, comparar los valores de 3 6
X = 3 3.5 ; 𝐴= ; 𝐵=
distancia Euclidea y de Mahalanobis entre los puntos O-A y O-B, 5 7
4 5
donde O es el punto medio del conjunto de datos, A(3,5) y B(6,7) 5 6
3 2,5 3,125
𝑂= ; =
3.6 3,125 3,925
𝐷𝐸 𝑂, 𝐴 = 1,40 ; 𝐷𝑀 𝑂, 𝐴 = 10,22
𝐷𝐸 𝑂, 𝐵 = 4,53 ; 𝐷𝑀 𝑂, 𝐵 = 3,18
B
%% CÓDIGO MATLAB:
% Datos X: A
datos = [1 ,1 ; 2 , 2.5 ; 3 , 3.5 ; 4,5 ; 5 , 6];
% Vector de medias (Punto O): O

O = mean(datos)';
% Definición de X=[x1;x2] simbólico

x1 = sym('x1','real');
X = [x1 ; x2];
% DE y MD al cuadrado de X al punto O
dE2 = expand((X-O)'*(X - O))
MCov = cov(datos);
dM2 = expand((X-O)'*inv(MCov)*(X - O))
% Obtención de distancias solicitadas

x1 = 3; x2 = 5; dE_OA = sqrt(eval(dE2)); dM_OA = sqrt(eval(dM2));
x1 = 6; x2 = 7; dE_OB = sqrt(eval(dE2)); dM_OB = sqrt(eval(dM2));

 EJEMPLO 4: dado el conjunto de datos, compuesto por 2000 observaciones de dos clases (1000 observaciones de
cada clase) descritas por tres variables X1, X2 y X3. Diseña una clasificador LDA.
→ Clases equiprobables (conjunto de

entrenamiento balanceado en las
clases):
𝜋1 = 𝜋2
→ Matrices de covarianzas de las clases

similares.
1 ≈ 2
→ Las variables presentan cierta
dependencia lineal o correlación entre
ellas.

LDA: MÍNIMA DISTANCIA DE MAHALANOBIS
𝑥1
𝑥 = 𝑥2 𝑑𝑘 = −𝐷𝑀 2 𝑥, 𝑘
𝑥3
d1(x)= − 𝑥 − 1 𝑇
 −1
𝑥 − 1
d12(x)= d1(x)-d2(x)= 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝛽3 𝑋3
d2(x)= − 𝑥 − 2 𝑇
 −1
𝑥 − 2
x ∈ C1 si d12 > 0; x ∈ C2 si d12 < 0
x ∈ C1 si d1 > d2 ; x ∈ C2 si d1 < d2

x1 X11 X21 X31 y1
X= ⋮ = ⋮ ⋮ ⋮ ; Y= ⋮ Y = C1 , C2 = 1, 2
x2000 X12000 X22000 X32000 y2000
→ Obtener el vector de medias y

X → XC1 = X1 y XC2 = X2 → μ1 , 1 y μ2 , 2
matriz covarianzas de cada clase:
0,27 −0,27 0,93 0,95 0,91 0,92 0,94 0,83

𝜇1 = −0,12 𝜇2 = 0,12 1 = 0,95 0,99 0,94 2 = 0,94 0,98 0,86
0,13 − 0,13 0,91 0,94 1,02 0,83 0,86 0,96
𝐾 0,93 0,94 0,87

→ Obtener la matriz de covarianzas 1
= ෍ 𝑛𝑘 − 1 𝑘 ⇒  = 0,94 0,99 0,90
común para cada clase: 𝑛−𝐾 0,87 0,90 0,99
𝑘=1
→ Obtener la función de decisión para cada clase: dk(x)= − 𝑥 − 𝑘 𝑇

 −1
𝑥 − 𝑘
d1(x)= 𝐴0 + 𝐴1 𝑥12 + 𝐴2 𝑥22 + 𝐴3 𝑥32 +𝐴4 𝑥1 𝑥2 +𝐴5 𝑥1 𝑥3 +𝐴5 𝑥2 𝑥3 +𝐴6 𝑥1 +𝐴7 𝑥2 +𝐴8 𝑥3
𝑥1
𝑥 = 𝑥2
𝑥3 d2(x)= 𝐵0 + 𝐵1 𝑥12 + 𝐵2 𝑥22 + 𝐵3 𝑥32 +𝐵4 𝑥1 𝑥2 +𝐵5 𝑥1 𝑥3 +𝐵5 𝑥2 𝑥3 +𝐵6 𝑥1 +𝐵7 𝑥2 +𝐵8 𝑥3

x1 X11 X21 X31 y1
X= ⋮ = ⋮ ⋮ ⋮ ; Y= ⋮ Y = C1 , C2 = 1, 2
x2000 X12000 X22000 X32000 y2000
→ Obtener la función discriminante entre las dos clases (frontera de decisión):

𝑥1
𝑥 = 𝑥2 d12(x)=d1(x)-d2(x)=)= 𝛽0 +𝛽1 𝑥1 +𝛽2 𝑥2 +𝛽3 𝑥3
𝑥3
→ Ejemplo de cálculo de coeficientes 𝛽0 , 𝛽1 , 𝛽2 , 𝛽3 en Matlab (en el ejemplo: d12(x)=𝐴𝑥1 +𝐵𝑥2 +𝐶𝑥3 + 𝐷)
x3 = sym('x3','real'); % Función de decisión que separa las muestras de
X = [x1; x2 ; x3]; % las clases:
d12 = d1- d2;
% Asumiendo que ya se han calculado los vectores
% prototipo de cada clase (vectores columna) y la % Calculo de coeicientes: d12 = A*x1+B*x2+C*x3+D
% matriz covarianza común: M1, M2, mCov x1 = 0; x2 = 0; x3 = 0; D = eval(d12);
x1 = 1; x2 = 0; x3 = 0; A = eval(d12)-D;
d1 = expand(-(X-M1)'*inv(mCov)*(X - M1)); x1 = 0; x2 = 1; x3 = 0; B = eval(d12)-D;
d2 = expand(-(X-M2)'*inv(mCov)*(X - M2)); x1 = 0; x2 = 0; x3 = 1; C = eval(d12)-D;

→ Representación frontera de
separación: d12(x)=0 con Matlab:
%% LDA: FRONTERA DE SEPARACIÓN LINEAL

% (HIPERPLANO)
% 2 DIMENSIONES: LÍNEA RECTA
% 3 DIMENSIONES: PLANO
% d12 = 0
%% 1.- Discretizamos espacio x1-x2 con meshgrid

% Debemos establecer los valores mínimos
% y máximos, así como el paso de discretización
[x1Plano, x2Plano] =
meshgrid(x1min:paso1:x1max,x2min:paso2:x2max);
%% 2.- Determinamos x3, sabiendo que:

% A x1 + Bx2 + Cx3 + D = 0
x3Plano = -(A*x1Plano + B*x2Plano + D)/ (C+eps);
%% 3.- Representamos con surf

surf(x1Plano,x2Plano, x3Plano)

Ejercicios de ejemplo: tres ejercicios con conjunto de datos muy reducidos y básicos, pensados para resolverlos de
forma teórica y refrendar los resultados de forma práctica con Matlab.
 Ejercicio 1: Teniendo en cuenta la muestra de la tabla, diseñar un Clasificador de Mínima Distancia

Euclídea.
Calcular la media de cada clase y las funciones de decisión

Mahalanobis estimando una única matriz de covarianzas para ambas clases (no considerar el desbalanceo
de las clases, el criterio de clasificación debe ser considerar únicamente la distancia de Mahalanobis):
 Ejercicio 3: Diseñar un Clasificador de Mínima Distancia Mahalanobis suponiendo 3 clases de patrones,

cada uno de ellos representados por 2 características, y los siguientes datos:
𝑥1 0 5 1 1/2 0 2 0
𝑋 = 𝑥 ; 𝝅𝟏 = 𝝅𝟐 = 𝝅𝟑 ; 𝝁𝟏 = ; 𝝁𝟐 = ; 𝝁𝟑 = ; 𝟏 = 𝟐 = 𝟑 =  = ; −1 =
2 3 2 0 0 1/4 0 4


Euclídea.
𝑥1 𝜇1𝑘 𝜇11 2,5 𝜇12 5,5

𝒙= 𝑥 , k = 𝑘 , → 1 = 1 = 2,5 ; 2 = 2 = 6
2 𝜇2 𝜇2 𝜇2
𝐹𝑢𝑛𝑐𝑖𝑜𝑛𝑒𝑠 de decisión: dk(x)= − 𝐷𝐸 2 𝑥, 𝑘 = − 𝑥 − 𝑘 𝑇

𝑥 − 𝑘
𝑥1 − 2.5 2 2
𝑑1 𝒙 = − 𝑥1 − 2.5 𝑥2 − 2.5 = − 𝑥1 − 2.5 + 𝑥2 − 2.5 =
𝑥2 − 2.5
= −𝑥1 2 − 𝑥2 2 + 5𝑥1 + 5𝑥2 − 12.5
0
2 2
𝑑2 𝒙 = − 𝑥1 − 5.5 + 𝑥2 − 6 = −𝑥1 2 − 𝑥2 2 + 11𝑥1 + 12𝑥2 − 66.25
𝐹𝑢𝑛𝑐𝑖ón discriminante: d12 𝒙 = 𝑑1 𝒙 − 𝑑𝟐 𝒙 = −6𝑥1 − 7𝑥2 + 53.75
𝐹rontera de decisión: d12 𝒙 = 𝟎 → −6𝑥1 − 7𝑥2 + 53.75 = 𝟎
𝐶𝑟𝑖𝑡𝑒𝑟𝑖𝑜 𝑑𝑒 𝑐𝑙𝑎𝑠𝑖𝑓𝑖𝑐𝑎𝑐𝑖ó𝑛: x ∈ C1 𝑠𝑖 d12 𝑥 > 0 ≡ 𝑑1 𝑥 > 𝑑2 𝑥 ; 𝑥 ∈ C2 𝑒𝑛 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟𝑎𝑟𝑖𝑜


𝑥1 𝜇1𝑘 𝜇11 3 𝜇12 6

𝒙= 𝑥 , k = 𝑘 , → 1 = 1 = ; 2 = 2 =
2 𝜇2 𝜇2 2 𝜇2 2
𝐾
𝜎11 𝜎12 1
= 𝜎 𝜎22 𝑐𝑜𝑛 𝜎𝑖𝑗 = 𝜎𝑗𝑖 = ෍ ෍ 𝑋𝑧𝑖 − 𝜇𝑖𝑘 𝑋𝑧𝑗 − 𝜇𝑗𝑘
21 𝑛−𝐾
𝑘=1 𝑧: 𝑦𝑧 =𝑘
4 3
2
1 𝑥𝐳11 − 3 2 𝑥𝐳11 − 3 𝑥𝐳21 − 2 𝑥𝐳1 𝟐 − 𝟔 𝑥𝐳1 𝟐 − 𝟔 𝑥𝐳2 𝟐 − 2 𝟏 𝟒 𝟐
= ා +ා =
𝟓 𝑥𝐳21 − 2 𝑥𝐳11 − 3 𝑥𝐳21 − 2 2 𝑥𝐳2 𝟐 − 2 𝑥𝐳1 𝟐 − 𝟔 𝑥𝐳2 𝟐 − 2
2 𝟓 𝟐 𝟒
𝒛=1 𝒛=1
1 5 −5/2
−1 =
3 −5/2 5


𝑥1 𝜇1𝑘 𝜇11 3 𝜇12 6 𝟏 𝟒 𝟐 1 5 −5/2

𝒙= 𝑥 , k = 𝑘 , → 1 = 1 = 2 ; 2 = 2 = 2 ; = → −1 =
2 𝜇2 𝜇2 𝜇2 𝟓 𝟐 𝟒 3 −5/2 5
𝐹𝑢𝑛𝑐𝑖𝑜𝑛𝑒𝑠 de decisión: dk(x)= − 𝐷𝑀 2 𝑥, 𝑘 = − 𝑥 − 𝑘 𝑇

−1 𝑥 − 𝑘
1 5 −2,5 𝑥1 − 𝟑 𝟐𝟎𝑥1 𝟓𝑥2 𝟓𝑥1 𝑥2 𝟓𝑥1 𝟐 𝟓𝑥𝟐 𝟐 𝟑𝟓

𝑑1 𝒙 = − 𝑥 −𝟑 𝑥2 − 2 = + + − − −
3 1 −2,5 5 𝑥2 − 𝟐 𝟑 𝟑 𝟑 𝟑 𝟑 𝟑
𝟓𝟎𝑥1 𝟏𝟎𝑥2 𝟓𝑥1 𝑥2 𝟓𝑥1 𝟐 𝟓𝑥𝟐 𝟐 𝟏𝟒𝟎

𝑑𝟐 𝒙 = − + − − −
𝟑 𝟑 𝟑 𝟑 𝟑 𝟑
𝑭𝒖𝒏𝒄𝒊ó𝒏 𝒅𝒊𝒔𝒄𝒓𝒊𝒎𝒊𝒏𝒂𝒏𝒕𝒆: 𝒅𝟏𝟐 𝒙 = 𝒅𝟏 𝒙 − 𝒅𝟐 𝒙
𝒅𝟏𝟐 𝒙 = 𝑑1 𝒙 − 𝑑𝟐 𝒙 = −𝟏𝟎𝑥1 + 𝟓𝑥2 + 35
𝐹𝒓𝒐𝒏𝒕𝒆𝒓𝒂 𝒅𝒆 𝒅𝒆𝒄𝒊𝒔𝒊ó𝒏: 𝒅𝟏𝟐 𝒙 = 𝟎
−𝟏𝟎𝑥1 + 𝟓𝑥2 + 35 = 𝟎
𝑪𝒓𝒊𝒕𝒆𝒓𝒊𝒐 𝒅𝒆 𝒄𝒍𝒂𝒔𝒊𝒇𝒊𝒄𝒂𝒄𝒊ó𝒏:
x ∈ C1 𝑠𝑖 d12 𝑥 > 0 ≡ 𝑑1 𝑥 > 𝑑2 𝑥
𝑥 ∈ C2 𝑒𝑛 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟𝑎𝑟𝑖𝑜

 Ejercicio 3: Diseñar un Clasificador de Mínima Distancia Mahalanobis suponiendo 3 clases de patrones,

cada uno de ellos representados por 2 características, y los siguientes datos:
𝑥1 0 5 1 1/2 0 2 0
𝑋 = 𝑥 ; 𝝅𝟏 = 𝝅𝟐 = 𝝅𝟑 ; 𝝁𝟏 = ; 𝝁𝟐 = ; 𝝁𝟑 = ; 𝟏 = 𝟐 = 𝟑 =  = ; −1 =
2 3 2 0 0 1/4 0 4
𝑭𝒖𝒏𝒄𝒊𝒐𝒏𝒆𝒔 de decisión:
𝑑1 𝑥 = −2𝑥1 2 − 4𝑥2 2 + 24𝑥2 + 36
𝑑2 𝑥 = −2𝑥1 2 − 4𝑥2 2 + 20𝑥1 + 16𝑥2 − 66
𝑑3 𝑥 = −2𝑥1 2 − 4𝑥2 2 + 4𝑥1 − 2
𝑭𝒖𝒏𝒄𝒊𝒐𝒏𝒆𝒔 𝒅𝒊𝒔𝒄𝒓𝒊𝒎𝒊𝒏𝒂𝒏𝒕𝒆𝒔 𝒆𝒏𝒕𝒓𝒆 𝒄𝒍𝒂𝒔𝒆𝒔:

𝑑12 𝑥 = 𝑑1 𝑥 − 𝑑2 𝑥 = −20𝑥1 + 8𝑥2 + 30
𝑑13 𝑥 = 𝑑1 𝑥 − 𝑑2 𝑥 = −4𝑥1 + 24𝑥2 − 34
𝑑23 𝑥 = 𝑑1 𝑥 − 𝑑2 𝑥 = 16𝑥1 + 16𝑥2 − 64
𝐹𝒓𝒐𝒏𝒕𝒆𝒓𝒂𝒔 𝒅𝒆 𝒅𝒆𝒄𝒊𝒔𝒊ó𝒏:
𝑑12 = 0 → −10𝑥1 + 4𝑥2 + 15 = 0
𝑑13 = 0 → −2𝑥1 + 12𝑥2 − 17 = 0
𝑑23 = 0 → 𝑥1 + 𝑥2 − 4 = 0
𝑪𝒓𝒊𝒕𝒆𝒓𝒊𝒐 𝒅𝒆 𝒄𝒍𝒂𝒔𝒊𝒇𝒊𝒄𝒂𝒄𝒊ó𝒏: x ∈ C1 𝑠𝑖 d12 𝑥 > 0 𝑦 𝑑13 𝑥 > 0

x ∈ C2 𝑠𝑖 d12 𝑥 < 0 𝑦 𝑑23 𝑥 > 0 ; x ∈ C3 𝑠𝑖 d13 𝑥 < 0 𝑦 𝑑23 𝑥 < 0

2.- Análisis Discriminante
BIBLIOGRAFÍA PRINCIPAL
 James G., Witten D.,Hastie T. y Tibshirani R (2017). "An Introduction to Statistical Learning, with applications in
R“, Springer, Recurso libre: http://faculty.marshall.usc.edu/gareth-james/ISL/index.html
Otras referencias consultadas y fuente de figuras:
- “VISIÓN POR COMPUTADOR” (Paraninfo, 1999), González Jiménez, J.
- “Aprendizaje automático para el análisis de datos”, Grado en Estadística y Empresa, Ricardo Aler, Universidad
Carlos III de Madrid. OpenCourseWare: http://ocw.uc3m.es/ingenieria-informatica/aprendizaje-automatico-
para-el-analisis-de-datos
- "Some of the figures in this presentation are taken from "An Introduction to Statistical Learning, with
applications in R" (Springer, 2013) with permission from the authors: G. James, D. Witten, T. Hastie and R.
Tibshirani "

ÍNDICE DEL TEMA


02 TecnicasAprendizaje 2 AnalisisDiscriminante

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

02 TecnicasAprendizaje 2 AnalisisDiscriminante

Cargado por

Copyright:

Formatos disponibles

Master en Big Data

Fundamentos de Aprendizaje Automático

Prof. Manuel Emilio Gegúndez Arias (Universidad de Huelva)

1. Clasificación: enfoque basado en la teoría de la Decisión

Máster en Big Data | Universidad Internacional de Andalucía 2

1. Clasificación: enfoque basado en la teoría de la Decisión

Máster en Big Data | Universidad Internacional de Andalucía 3

1. Clasificación: enfoque basado en la teoría de la Decisión

3. K-vecinos más cercanos

Máster en Big Data | Universidad Internacional de Andalucía 4

1. Clasificación: enfoque basado en la teoría de la Decisión

3. K-vecinos más cercanos

Máster en Big Data | Universidad Internacional de Andalucía 5

Clasificación basada en el Teorema de Bayes:

X=x  Y = i si pi(x) > pj(x)  j i

 Clasificación basada en Teorema de Bayes:

 La probabilidad pk(x) = Pr(Y=k| X=x) se estima aplicando el Teorema de Bayes.

Máster en Big Data | Universidad Internacional de Andalucía 6

 TEOREMA DE BAYES APLICADO A UN PROBLEMA DE CLASIFICACIÓN CON K CLASES DE

 Probabilidad a posteriori (condicional) de pertenencia de una observación descrita por x a la clase k :

 Probabilidad a posteriori de la observación X = x en las muestras de la clase k:

 Probabilidad a priori (incondicinal) de pertenencia de una observación a la clase k, independientemente

Máster en Big Data | Universidad Internacional de Andalucía 7

 Ejemplo: moneda trucada

Máster en Big Data | Universidad Internacional de Andalucía 8

 Teorema de Bayes aplicado a un problema de clasificación con K clases de salida:

𝑃𝑟 X=brillo Y=Cruz 𝑃𝑟 𝑌 = 𝐶𝑟𝑢𝑧

Considerando los resultados del experimento sobre los 200 lanzamientos:

Probabilidad a posteriori de la observación «BRILLO» en los lanzamientos «CARA» y lanzamientos «CRUZ» :

0,9 ∗ 0,2 0,6 ∗ 0,8

Máster en Big Data | Universidad Internacional de Andalucía 9

 Teorema de Bayes aplicado a un problema de clasificación con K clases de salida:

𝑃𝑟 X=mate Y=Cruz 𝑃𝑟 𝑌 = 𝐶𝑟𝑢𝑧

Considerando los resultados del experimento sobre los 200 lanzamientos:

Probabilidad a posteriori de la observación «MATE» en los lanzamientos «CARA» y lanzamientos «CRUZ» :

0,1 ∗ 0,2 0,4 ∗ 0,8

Máster en Big Data | Universidad Internacional de Andalucía 10

 Teorema de Bayes aplicado a un problema de clasificación con K clases de salida:

1.- Diseño de clasificador basado en el Teorema de Bayes:

Máster en Big Data | Universidad Internacional de Andalucía 11

 Teorema de Bayes aplicado a un problema de clasificación con K clases de salida:

CLASIFICADOR DECISOR MÁXIMO A POSTERIORI:

𝒎𝒂𝒙 𝒎𝒂𝒙 𝑓𝑘 𝑥 𝜋𝑘 𝒎𝒂𝒙

Ejemplo de la moneda anterior: si lanzamos una moneda de acabado tipo BRILLO:

Decisor Máximo a Posteriori (MAP):

Funciones de decisión MAP: 𝑑𝑘 x = 𝑃𝑟 X=x Y=k 𝑃𝑟 𝑌 = 𝑘 = 𝑓𝑘 𝑥 𝜋𝑘

Máster en Big Data | Universidad Internacional de Andalucía 12

 Teorema de Bayes aplicado a un problema de clasificación con K clases de salida:

CLASIFICADOR MÁXIMA VEROSIMILITUD:

𝒎𝒂𝒙 𝒎𝒂𝒙 𝑓𝑘 𝑥 𝜋𝑘 𝒎𝒂𝒙

Ejemplo de la moneda anterior: si lanzamos una moneda de acabado tipo BRILLO:

Decisor Máxima Verosimilitud (ML, maximum likelihood):

Funciones de decisión ML: 𝑑𝑘 x = 𝑃𝑟 X=x Y=k = 𝑓𝑘 𝑥

Máster en Big Data | Universidad Internacional de Andalucía 13

 TEOREMA DE BAYES ENFOCADO A CLASIFICACIÓN: EJEMPLO – JUGAR AL TENIS

EJERCICIO PROPUESTO: CONTESTAR DE FORMA RAZONADA A LAS SIGUIENTES PREGUNTAS

¿ Se podrá jugar al tenis con un día soleado?

¿ Se podrá jugar al tenis con un día frío?

Máster en Big Data | Universidad Internacional de Andalucía 14

 TEOREMA DE BAYES ENFOCADO A CLASIFICACIÓN: EJEMPLO – JUGAR AL TENIS

CASO DE INTERÉS PRÁCTICO:

Máster en Big Data | Universidad Internacional de Andalucía 15

𝑓1 x0 = 𝑃𝑟 X1 = 𝑠𝑢𝑛𝑛𝑦 𝑦𝑒𝑠 𝑃𝑟 X2 = 𝑐𝑜𝑜𝑙 𝑦𝑒𝑠

𝑓2 x0 = 𝑃𝑟 X1 = 𝑠𝑢𝑛𝑛𝑦 𝑛𝑜 𝑃𝑟 X2 = 𝑐𝑜𝑜𝑙 𝑛𝑜