Documentos de Académico
Documentos de Profesional
Documentos de Cultura
2. Análisis discriminante
2.1. Clasificación basada en el Teorema de Bayes
2.2. Clasificación basada en distribución normal multivariante
2.3. Clasificador QDA: análisis discriminante cuadrático
2.4. Clasificador LDA: análisis discriminante lineal
2.5. Casos particulares LDA: clasificadores mínima distancia
2. Análisis discriminante
2.1. Clasificación basada en el Teorema de Bayes
2.2. Clasificación basada en distribución normal multivariante
2.3. Clasificador QDA: análisis discriminante cuadrático
2.4. Clasificador LDA: análisis discriminante lineal
2.5. Casos particulares LDA: clasificadores mínima distancia
Supongamos un problema de clasificación con K clases (en nuestro problema de predicción la variable respuesta Y
puede tomar K valores cualitativos).
Clasificador Bayesiano:
Una instancia u observación dada por X = x, se clasifica/asocia con la clase cuya probabilidad de
pertenencia sea mayor.
Se diseña una función de decisión por cada clase del problema basada en la probabilidad que tiene una
observación descrita por X = x de pertenecer a la clase en cuestión:
dk = pk(x) = Pr(Y=k| X=x) : probabilidad de pertenencia a la clase k de una muestra descrita por x
Una observación dada por X = x se clasifica o se asocia con la clase cuya probabilidad de pertenencia
sea mayor.
pk(x) = Pr (Y = k | X = x)
(Probabilidad a posteriori o probabilidad condicional: es una probabilidad que se estima después de que la evidencia
sea tenida en cuenta. En nuestro caso, la evidencia son los valores de los predictores que describen a la observación
que queremos clasificar X = x) .
(Término de verosimilitud: probabilidad de tener una descripción X = x en las muestras disponibles de la clase k.
Esta probabilidad será alta si hay una probabilidad alta de encontrar observaciones de la clase k con X x).
Objetivo: utilizando los resultados anteriores, determinar la probabilidad de que al lanzar una moneda de la caja,
salga cara o cruz, sabiendo el tipo de acabado de la moneda que se lanza.
Problema de clasificación:
- Predictores: 1 predictor, X = Tipo de acabado variable categórica con dos posibles valores: Brillo o
Mate
- Salida: Y = Resultado del lanzamiento variable categórica con dos posibles valores: Cara o Cruz
(problema de clasificación binaria)
Si al sacar la moneda de la caja, observamos que es de tipo BRILLO. Evaluamos las probabilidades a posteriori
de, sabiendo que el acabado es tipo brillo, el lanzamiento salga cara o cruz:
𝑃𝑟 X=brillo Y=Cara 𝑃𝑟 𝑌 = 𝐶𝑎𝑟𝑎
Pr(Y=cara|X=brillo) =
𝑃𝑟 X=brillo Y=Cara 𝑃𝑟 𝑌 = 𝐶𝑎𝑟𝑎 + 𝑃𝑟 X=brillo Y=Cruz 𝑃𝑟 𝑌 = 𝐶𝑟𝑢𝑧
Probabilidad a priori de que al lanzar la moneda salga cara o cruz, sin atender al tipo de acabado:
40 160
𝑃𝑟 Y=cara = 200 = 0,2 ; 𝑃𝑟 Y=cruz = 200 = 0,8
Si al sacar la moneda de la caja, observamos que es de tipo MATE. Evaluamos las probabilidades a posteriori
de, sabiendo que el acabado es tipo mate, el lanzamiento salga cara o cruz:
𝑃𝑟 X=mate Y=Cara 𝑃𝑟 𝑌 = 𝐶𝑎𝑟𝑎
Pr(Y=cara|X=mate) =
𝑃𝑟 X=mate Y=Cara 𝑃𝑟 𝑌 = 𝐶𝑎𝑟𝑎 + 𝑃𝑟 X=mate Y=Cruz 𝑃𝑟 𝑌 = 𝐶𝑟𝑢𝑧
Probabilidad a priori de que al lanzar la moneda salga cara o cruz, sin atender al tipo de acabado:
40 160
𝑃𝑟 Y=cara = 200 = 0,2 ; 𝑃𝑟 Y=cruz = 200 = 0,8
• Se diseña una función de decisión para cada clase del problema (en el ejemplo anterior, salir cara o cruz), que
depende de X, valores de los predictores de la observación a clasificar (en el ejemplo anterior, un solo predictor –
tipo de acabado de la moneda que se lanza).
• Esta función de decisión representa una estimación, realizada sobre el conjunto de datos de entrenamiento y basada
en el Teorema de Bayes, de la probabilidad de pertenencia de la observación a clasificar a la clase en cuestión.
2.- Aplicación del clasificador para predecir la clase de una observación dada por X:
• Las funciones de decisión de cada clase se evalúan para los valores de los predictores de la observación a
clasificar.
• La observación se clasifica a la clase cuya función de decisión es mayor (la clase que tiene la mayor
probabilidad de pertenencia de la observación).
En la practica, este esquema de clasificación basado en el Teorema de Bayes deriva en los siguientes clasificadores:
⇒ DECISOR MÁXIMO A POSTERIORI y CLASIFICADOR SEGÚN MÁXIMA VEROSIMILITUD
• Según el planteamiento anterior, se diseñan funciones de decisión para cada clase del problema que representan
la probabilidad de pertenencia a la clase. Estas funciones tienen el mismo denominador.
• Por tanto, este denominador no tiene influencia en la clasificación de la observación. La clase más probable será
aquella cuya función de decisión es máxima, que es aquella que el numerador más alto.
𝑚𝑎𝑥 𝑚𝑎𝑥
𝑌 𝑏𝑟𝑖𝑙𝑙𝑜 = 𝑎𝑟𝑔 𝑐𝑎𝑟𝑎, 𝑐𝑟𝑢𝑧 𝑓𝐶𝐴𝑅𝐴 𝑏𝑟𝑖𝑙𝑙𝑜 𝜋𝐶𝐴𝑅𝐴 , 𝑓𝐶𝑅𝑈𝑍 𝑏𝑟𝑖𝑙𝑙𝑜 𝜋𝐶𝑅𝑈𝑍 = 𝑎𝑟𝑔 𝑐𝑎𝑟𝑎, 𝑐𝑟𝑢𝑧 0.18 , 0.48 = CRUZ
• Si por el conocimiento a priori que tenemos del problema, las clases son equiprobables (se dispone de un
conjunto de datos balanceado, mismo número de observaciones de cada clase): 𝜋1 = 𝜋2 = ⋯ = 𝜋𝐾
• La clasificación de una observación dada por X se realiza atendiendo al término 𝑃𝑟 X=x Y=k (verosimilitud).
𝑚𝑎𝑥 𝑚𝑎𝑥
𝑌 𝑏𝑟𝑖𝑙𝑙𝑜 = 𝑎𝑟𝑔 𝑐𝑎𝑟𝑎, 𝑐𝑟𝑢𝑧 𝑓𝐶𝐴𝑅𝐴 𝑏𝑟𝑖𝑙𝑙𝑜 , 𝑓𝐶𝑅𝑈𝑍 𝑏𝑟𝑖𝑙𝑙𝑜 = 𝑎𝑟𝑔 𝑐𝑎𝑟𝑎, 𝑐𝑟𝑢𝑧 0.9 , 0.6 = CARA
¿ Se podrá jugar al tenis con un día soleado, frío, de humedad alta y viento fuerte ?
• Objetivo:
o Saber si podremos jugar o no al
tenis un día concreto, del que
conocemos sus condiciones
meteorológicas.
→ Clasificar una determinada
observación descrita por sus
predictores.
o Ejemplo: en base a los datos de la
tabla, predecir si podremos jugar al
tenis un día soleado, frío, de
humedad alta y viento fuerte.
Hay que decidir qué clase (C1 = «sí» o C2 = «no») es más probable que suceda para una observación descrita
por un vector de atributos de valores <sunny, cool, high, strong>
d1(x0) = 𝑓1 x0 𝜋1 ; d2(x0) = 𝑓2 x0 𝜋2
Probabilidad de los valores de la observación x en los datos disponibles de la clase 1 «yes»: 𝑓1 x0 = ???
Probabilidad de los valores de la observación x en los datos disponibles de la clase 2 «no»: 𝑓2 x0 = ???
La probabilidad a posteriori o verosimilitud de la observación con las muestras de una clase dada por 𝑌 = 𝑘:
𝑝
𝑓𝑘 𝑥0 = 𝑃𝑟 X=𝑥0 Y=k = 𝑃𝑟 𝑋1 = X 01 Y=k ∗ 𝑃𝑟 𝑋2 = X 02 Y=k ∗ ⋯ ∗ 𝑃𝑟 𝑋𝑝 = X 0p Y=k =ෑ 𝑃𝑟 𝑋𝑖 = X 0i Y=k
𝑖 =1
3 1 4 3
𝑓2 x0 = 𝑃𝑟 X1 = 𝑠𝑢𝑛𝑛𝑦 𝑛𝑜 ∗𝑃𝑟 X2 = 𝑐𝑜𝑜𝑙 𝑛𝑜 ∗𝑃𝑟 X3 = ℎ𝑖𝑔ℎ 𝑛𝑜 ∗𝑃𝑟 X4 = 𝑠𝑡𝑟𝑜𝑛𝑔 𝑛𝑜 = ∗ ∗ ∗ = 0.0576
5 5 5 5
Solución : se supone que hay M ejemplos virtuales en cada clase por cada posible valor de cada atributo – M
suele tener valores bajos (1-5) (Suavizado de Laplace – Laplace smoothing).
𝒏ú𝒎𝒆𝒓𝒐 𝒅𝒆 𝒆𝒋𝒆𝒎𝒑𝒍𝒐𝒔 𝒅𝒆 𝒍𝒂 𝒄𝒍𝒂𝒔𝒆 𝒌 𝒄𝒐𝒏 𝑿𝒊 =𝑽𝒊 +𝑴
𝑷 𝑿𝒊 = 𝑽𝒊 𝒀 = 𝒌 =
𝒏ú𝒎𝒆𝒓𝒐 𝒅𝒆 𝒆𝒋𝒆𝒎𝒑𝒍𝒐𝒔 𝒅𝒆 𝒍𝒂 𝒄𝒍𝒂𝒔𝒆 𝒌 +𝑴∗ 𝒏ú𝒎𝒆𝒓𝒐 𝒅𝒆 𝒑𝒐𝒔𝒊𝒃𝒍𝒆𝒔 𝒗𝒂𝒍𝒐𝒓𝒆𝒔 𝒅𝒆𝒍 𝒂𝒕𝒓𝒊𝒃𝒖𝒕𝒐 𝑿𝒊
RESPUESTA DEL SISTEMA: variable de salida de naturaleza cualitativa (variable nominal o categórica).
ENTRADAS DEL SISTEMA O PREDICTORES: atributos de naturaleza cualitativa (nominales o categóricos)
Para cada clase: estimar los parámetros representativos de la distribución de probabilidad elegida a partir de
los valores del atributo disponibles en el conjunto de observaciones. Por ejemplo, en el caso de una
distribución normal o gaussiana, estos parámetros son su valor nominal o media y la tolerancia o desviación
respecto a ese valor (desviación típica).
Estimar la probabilidad a posteriori del valor del atributo en la clase en cuestión: evaluando la función
de distribución de probabilidad en el valor del atributo y considerando sus parámetros representativos
calculados según el punto anterior.
𝑋 = 𝑋1 , 𝑋2 , … , 𝑋𝑝 ; Y = 𝐶1 , 𝐶2 , … , 𝐶𝐾 : 𝑃𝑟 𝑋𝑖 = 𝑉𝑖 𝑌 = 𝐶𝑘 → 𝑓 𝑋𝑖 = 𝑉𝑖 𝑌 = 𝐶𝑘
Para los datos del atributo Xi de la clase en cuestión, se calcula la media y desviación típica: μik , σik
Asumir como valor representativo de la probabilidad a posteriori del valor del atributo en la clase en cuestión, el
valor de la función de densidad de probabilidad para ese valor del atributo: 𝟐
𝑽 −𝝁
𝟏 − 𝒊 𝒊𝒌𝟐
𝟐𝝈𝒊𝒌
𝑃𝑟 𝑋𝑖 = 𝑉𝑖 𝑌 = 𝐶𝑘 → 𝑓 𝑋𝑖 = 𝑉𝑖 𝑌 = 𝐶𝑘 = 𝒆
𝟐𝝅 𝝈𝒊𝒌
d1(x0) = 𝑓1 x0 𝜋1 ; d2(x0) = 𝑓2 x0 𝜋2
9 5
𝜋1 = = 0.64 ; 𝜋2 = = 0.36
14 14
𝑃𝑟 X3 = 89 𝑦𝑒𝑠 →
2
89−𝜇ℎ𝑢𝑚,𝑦𝑒𝑠
1 −
2𝜎ℎ𝑢𝑚,𝑦𝑒𝑠 2
→ 𝑓 X3 = 89 𝑦𝑒𝑠 = 𝑒
2𝜋 𝜎ℎ𝑢𝑚,𝑦𝑒𝑠
𝑃𝑟 X3 = 89 𝑦𝑒𝑠 →
2
89−𝜇ℎ𝑢𝑚,𝑛𝑜
1 −
2𝜎ℎ𝑢𝑚,𝑛𝑜 2
→ 𝑓 X3 = 89 𝑛𝑜 = 𝑒
2𝜋 𝜎ℎ𝑢𝑚,𝑛𝑜
EJERCICIO
En las tablas adjuntas, se facilitan registros de un banco con decisiones relativos a la concesión de créditos. Estas
decisiones fueron adoptadas en función del salario, edad, número de hijos y si el interesado era o no cliente del banco.
Los datos de salario e hijos se facilitan en formato categórico (tabla de la izquierda) y numérico (tabla de la derecha).
SALARIO CLIENTE EDAD HIJOS CREDITO SALARIO CLIENTE EDAD HIJOS CREDITO
Poco Si Joven Uno NO 525 Si Joven 1 NO
Mucho Si Joven Uno SI 2000 Si Joven 1 SI
Mucho Si Joven Uno SI 2500 Si Joven 1 SI
Poco Si Joven Uno NO 470 Si Joven 1 NO
Mucho Si Joven Dos SI 3000 Si Joven 2 SI
Poco Si Joven Dos NO 510 Si Joven 2 NO
Mucho Si Adulto Dos SI 2800 Si Adulto 2 SI
Mucho Si Adulto Dos SI 2700 Si Adulto 2 SI
Poco No Adulto Dos NO 550 No Adulto 2 NO
Mucho Si Adulto Dos SI 2600 Si Adulto 2 SI
Medio No Adulto Tres NO 1100 No Adulto 3 NO
Mucho Si Adulto Dos SI 2300 Si Adulto 2 SI
Medio Si Adulto Dos SI 1200 Si Adulto 2 SI
Medio No Adulto Tres NO 900 No Adulto 3 NO
Medio No Adulto Dos SI 800 No Adulto 2 SI
Mucho No Mayor Tres NO 800 No Mayor 3 NO
Poco No Mayor Tres SI 1300 No Mayor 3 SI
Poco No Mayor Tres SI 1100 No Mayor 3 SI
Mucho No Mayor Tres NO 1000 No Mayor 3 NO
Mucho No Mayor Tres SI 4000 No Mayor 3 SI
EJERCICIO
a) Con los datos facilitados, diseña un clasificador Naive Bayes asumiendo que todos los predictores tienen
naturaleza categórica y aplícalo para predecir si el banco concederá un crédito a una persona de las siguientes
condiciones:
- Persona adulta, cliente del banco, con 3 hijos y cuyo salario es bajo.
- Persona mayor, también cliente del banco, 3 hijos y salario bajo.
- Perona de las mismas condiciones que las anteriores, pero el banco no dispone de información relativa a
su edad.
b) Repite el apartado anterior utilizando los datos de salario y número de hijos en formato numérico, suponiendo
que el salario de la persona de interés es de 700 euros.
c) Repite el ejercicio asumiendo 5 ejemplos virtuales en cada clase por cada posible valor de cada atributo
categórico.
Observación: deben plantearse teóricamente las expresiones que definen las funciones del Decisor Máximo a
Posteriori y evaluarlas para cada instancia de test para obtener la clase de salida.
2. Análisis discriminante
2.1. Clasificación basada en el Teorema de Bayes
2.2. Clasificación basada en distribución normal multivariante
2.3. Clasificador QDA: análisis discriminante cuadrático
2.4. Clasificador LDA: análisis discriminante lineal
2.5. Casos particulares LDA: clasificadores mínima distancia
Variables entrada-salida:
x1 X11 ⋯ X1𝑝 y1
Conjunto de datos de entrenamiento (n datos): X= ⋮ = ⋮ ⋱ ⋮ ; Y= ⋮
x𝑛 X𝑛1 ⋯ X𝑛𝑝 y𝑛
{(x1,y1),(x2,y2),...,(xn,yn)}, con:
xi =(Xi1 , Xi2 , …, Xip ) e yi: valores de las variable de entrada y salida para la observación i
Observación a clasificar:
De forma genérica, los valores de los predictores de la observación a clasificar se denotarán por :
X = x = (X1, … , Xp)
Teorema de Bayes aplicado para clasificar una muestra descrita por X = x = (X1, … , Xp)
𝑃𝑟 X=x Y=k 𝑃𝑟 𝑌=𝑘 𝑓 𝑥 𝜋𝑘
pk(x) = Pr(Y=k|X=x) = = σ𝐾 𝑘
σ𝐾
𝑖=1 X=x Y=i 𝑃𝑟 𝑌=𝑖 𝑖=1 𝑓𝑖 𝑥 𝜋𝑖
Atributos numéricos de naturaleza cuantitativa: estimar 𝑃𝑟 𝑋𝑖 = X0i Y=k asumiendo que los
datos de 𝑋𝑖 en la clase k provienen de una determinada función densidad de probabilidad.
𝟏 𝑿𝟎𝒊 − 𝝁𝒊𝒌 𝟐
Para la clase k-ésima: Xi ~ N(μik , σik) ⇒ 𝑃𝑟 𝑋𝑖 = X0i Y=k ~ 𝒆𝒙𝒑(− )
𝟐𝝅 𝝈𝒊𝒌 𝟐𝝈𝒊𝒌 𝟐
Teorema de Bayes aplicado para clasificar una muestra descrita por X = x = (X1, … , Xp)
𝑃𝑟 X=x Y=k 𝑃𝑟 𝑌=𝑘 𝑓 𝑥 𝜋𝑘
pk(x) = Pr(Y=k|X=x) = = σ𝐾 𝑘
σ𝐾
𝑖=1 X=x Y=i 𝑃𝑟 𝑌=𝑖 𝑖=1 𝑓𝑖 𝑥 𝜋𝑖
Asume que las observaciones provienen de una distribución gaussiana multivariante (normal
multivariante) con vector de medias y matriz de covarianzas específicos para cada clase, 𝑘 y 𝑘 ,
respectivamente.
1 1
Para la clase k-ésima: X ~ N(μk , k) → 𝑓𝑘 𝑥 = 𝑝Τ2 1Τ2 𝑒𝑥𝑝 − 𝑥 − 𝑘 𝑇
𝑘 −1
𝑥 − 𝑘
2𝜋 𝑘 2
𝑇 𝑇
x = X1 , X 2 , … , X p ; k = 1 , 2 , … , p (vectores columna px1) ; k : 𝑚𝑎𝑡𝑟𝑖𝑧 𝑑𝑒 𝑐𝑜𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎𝑠 (𝑝𝑥𝑝)
𝑘
→ Observación: Multinomial Naive Bayes, aplicar Naive Bayes tratando las variables continuas de forma
conjunta asumiendo que se pueden modelar mediante una distribución normal multivariante.
T
• Sea X = X1 , X2 , … , Xp un vector aleatorio p-dimensional (px1). Si de disponen de n muestras de X, su
vector de medias y matriz de covarianzas se definen de la siguiente forma:
n
T 1
→ Vector de medias: μ = μ1 , μ2 , … , μp , donde μi = E Xi = Xzi
n
z=1
→ Matriz de covarianzas: = 𝐸 𝑋 − 𝜇 𝑋 − 𝜇 𝑇
= 𝜎21 𝜎22 ⋯ 𝜎2𝑝
⋮ ⋮ ⋯ ⋮
𝜎𝑝1 𝜎𝑝2 ⋯ 𝜎𝑝𝑝
donde:
𝑛
1
𝜎𝑖𝑗 = 𝐶𝑜𝑣 X𝑖 , X𝑗 = 𝐸 𝑋𝑖 − 𝜇𝑖 𝑋𝑗 − 𝜇𝑗 = 𝑋𝑧𝑖 − 𝜇𝑖 𝑋𝑧𝑗 − 𝜇𝑗
𝑛−1
𝑧=1
𝑛
2 1 2
Notar que es simétrica (𝜎𝑖𝑗 = 𝜎𝑗𝑖 ) y que 𝜎𝑖𝑖 = 𝑉𝑎𝑟 X𝑖 = 𝜎𝑖 2 = 𝐸 𝑋𝑖 − 𝜇𝑖 = 𝑋𝑧𝑖 − 𝜇𝑖
𝑛−1
𝑧=1
𝜎𝑖𝑗
Coeficiente de correlación de Pearson de X𝑖 , X𝑗 :𝜌𝑖𝑗 =
𝜎𝑖 𝜎𝑗
→ En el ejemplo:
𝜎12 0,2341
𝜌12 = = =1
𝜎1 𝜎2 0,1296 0,4228
Cov X𝑖 , X𝑗 = 𝜎𝑖𝑗 = 0
→ En el ejemplo:
𝜎12 0,003
𝜌12 = = = 5,77 ∗ 10−4
𝜎1 𝜎2 0,3596 0,7218
T
DEFINICIÓN: El vector aleatorio X = X1 , X2 , … , Xp es normal p-dimensional con vector de medias
• Figura de la izquierda:
caso de variables no
correlacionadas.
EJEMPLOS DE DENSIDADES
NORMALES BIDIMENSIONALES
0 1 0,8
𝜇= ; =
0 0,8 1
0 1 0
𝜇= ; =
0 0 1
0 1 −0,8
𝜇= ; =
0 −0,8 1
2. Análisis discriminante
2.1. Clasificación basada en el Teorema de Bayes
2.2. Clasificación basada en distribución normal multivariante
2.3. Clasificador QDA: análisis discriminante cuadrático
2.4. Clasificador LDA: análisis discriminante lineal
2.5. Casos particulares LDA: clasificadores mínima distancia
3. A partir del conjunto de datos de entrenamiento, diseño de una función de decisión para cada clase
del problema:
donde x = (X1, … , Xp) representa los valores de los predictores de cualquier muestra a clasificar
4. Criterio de clasificación: evaluar cada función de decisión para la observación a clasificar dada por X =
x y asociarla a la clase cuya función de decisión es máxima.
x1 X11 ⋯ X1𝑝 y1
K clases ; Instancia a clasificar: x=(X1, … ,Xp) ; Datos de entrenamiento: X = ⋮ = ⋮ ⋱ ⋮ ; Y= ⋮
x𝑛 X𝑛1 ⋯ X𝑛𝑝 y𝑛
1 1
dk(x) = log 𝑓𝑘 𝑥 + log 𝜋𝑘 con 𝑓𝑘 𝑥 = N(μk, k) = 𝑝Τ2 1Τ2 𝑒𝑥𝑝 − 𝑥 − 𝑘 𝑇
𝑘 −1
𝑥 − 𝑘
2𝜋 𝑘 2
1 1
dk(x) = log 𝑝Τ2 1Τ2 𝑒𝑥𝑝 − 𝑥 − 𝑘 𝑇
𝑘 −1
𝑥 − 𝑘 + log 𝜋𝑘 =
2𝜋 𝑘 2
1 1
= − 𝑥 − 𝑘 𝑇
𝑘 −1
𝑥 − 𝑘 + log 𝑝Τ2 1Τ2
+ log 𝜋𝑘 =
2 2𝜋 𝑘
1 𝑝 1
=− 𝑥 − 𝑘 𝑇
𝑘 −1
𝑥 − 𝑘 − log 2𝜋 − log 𝑘 + log 𝜋𝑘
2 2 2
1 1
dk(x)= − 𝑥 − 𝑘 𝑇
𝑘 −1
𝑥 − 𝑘 − log 𝑘 + log 𝜋𝑘
2 2
1 1
dk(x)= − 𝑥 − 𝑘 𝑇
𝑘 −1
𝑥 − 𝑘 − log 𝑘 + log 𝜋𝑘
2 2
Para diseñar las funciones de decisión de cada clase, se requiere calcular a partir del conjunto de entrenamiento:
𝑇 𝑇 1
x = X1 , X 2 , … , X p ; k = 𝜇1𝑘 , 𝜇2𝑘 , … , 𝜇𝑝𝑘 𝑐𝑜𝑛 𝜇𝑖𝑘 = 𝐸 𝑋𝑖𝑘 = X𝑧i
𝑛𝑘
𝑧: 𝑦𝑧 =𝑘
𝑘 𝑘 𝑘
𝜎11 𝜎12 ⋯ 𝜎1𝑝
𝑘
𝜎21 𝑘
𝜎22 𝑘
⋯ 𝜎2𝑝 1
𝑘 = 𝑐𝑜𝑛 𝜎𝑖𝑗𝑘 = 𝜎𝑗𝑖𝑘 = 𝐸 𝑋𝑖𝑘 − 𝜇𝑖𝑘 𝑋𝑗𝑘 − 𝜇𝑗𝑘 = 𝑋𝑧𝑖 − 𝜇𝑖𝑘 𝑋𝑧𝑗 − 𝜇𝑗𝑘
⋮ ⋮ ⋯ ⋮ 𝑛𝑘 − 1
𝑘 𝑘 𝑘 𝑧: 𝑦𝑧 =𝑘
𝜎𝑝1 𝜎𝑝2 ⋯ 𝜎𝑝𝑝
• Si no se tiene conocimiento a priori que pueda ser utilizado para estimar esta probabilidad, se suele calcular
a partir de la proporción de las muestras de entrenamiento de pertenecer a la clase en cuestión:
𝑛𝑘
𝜋𝑘 =
𝑛
APROXIMACIÓN AL PROBLEMA: asume que las clases tienen la misma matriz de covarianzas
• División del espacio de características mediante fronteras de decisión lineales.
• LDA es un modelo menos flexible que QDA (implica el ajuste de un número mucho más reducido de
parámetros).
• Modelo adecuado cuando el número de datos de entrenamiento es reducido o cuando las clases tienen
matrices de covarianzas similares y puede asumirse una única matriz de covarianzas para todas ellas.
2. Análisis discriminante
2.1. Clasificación basada en el Teorema de Bayes
2.2. Clasificación basada en distribución normal multivariante
2.3. Clasificador QDA: análisis discriminante cuadrático
2.4. Clasificador LDA: análisis discriminante lineal
2.5. Casos particulares LDA: clasificadores mínima distancia
x1 X11 ⋯ X1𝑝 y1
K clases ; Instancia a clasificar: x=(X1, … ,Xp) ; Datos de entrenamiento: X = ⋮ = ⋮ ⋱ ⋮ ; Y= ⋮
x𝑛 X𝑛1 ⋯ X𝑛𝑝 y𝑛
1 1
CLASIFICADOR QDA: dk(x)= − 𝑥 − 𝑘 𝑇
𝑘 −1
𝑥 − 𝑘 − log 𝑘 + log 𝜋𝑘
2 2
2. Análisis discriminante
2.1. Clasificación basada en el Teorema de Bayes
2.2. Clasificación basada en distribución normal multivariante
2.3. Clasificador QDA: análisis discriminante cuadrático
2.4. Clasificador LDA: análisis discriminante lineal
2.5. Casos particulares LDA: clasificadores mínima distancia
dk(x)= − 𝑥 − 𝑘 𝑇
−1
𝑥 − 𝑘 = −𝐷𝑀 2 𝑥, 𝑘
Este clasificador asigna una observación descrita por x a la clase cuyo vector promedio 𝑖 esté a distancia
de Mahalanobis mínima.
El criterio es, por tanto, medir la distancia a cada prototipo de las clases y clasificar la instancia cuyo vector
prototipo esté más cerca según la Distancia de Mahalanobis (clasificador mediante el prototipo más
próximo).
Las variables de los predictores Xi son estadísticamente independientes, no están correladas: 𝜎𝑖𝑗 = 0 ∀ 𝑖 ≠ 𝑗
1
dk(x)= − 𝑥 − 𝑘 𝑇
−1
𝑥 − 𝑘 = − 𝑥 − 𝑘 𝑇
𝑥 − 𝑘 dk(x)= − 𝑥 − 𝑘 𝑇
𝑥 − 𝑘 = −𝐷𝐸 2 𝑥, 𝑘
𝜎2
Este clasificador asigna una observación descrita por x a la clase cuyo vector promedio 𝑖 esté a distancia
Euclidea mínima (clasificador mediante el prototipo más próximo según distancia Euclidea).
CASOS PARTICULARES LDA: Clasificadores Mínima Distancia Mahalanobis, Mínima Distancia Euclidea
Caso de aplicación:
• Clases equiprobables.
• Matrices de covarianzas de las clases similares.
• Las variables presentan cierta dependencia lineal o
correlación entre ellas y/o tienen distinta varianza.
Casos de aplicación:
• Clases equiprobables.
• Matrices de covarianzas de las clases similares.
• Las variables son independientes (no están correladas)
y presentan una varianza similar.
DISTANCIA DE MAHALANOBIS DE X a μ :
La distancia de Mahalanobis DM es adimensional, es una distancia normalizada por la dispersión de los datos
(dada por la matriz de covarianzas):
DM tiene en cuenta las correlaciones entre las variables (covarianzas de las variables).
3 2,5 3,125
𝑂= ; =
3.6 3,125 3,925
𝐷𝐸 𝑂, 𝐴 = 1,40 ; 𝐷𝑀 𝑂, 𝐴 = 10,22
𝐷𝐸 𝑂, 𝐵 = 4,53 ; 𝐷𝑀 𝑂, 𝐵 = 3,18
B
%% CÓDIGO MATLAB:
% Datos X: A
datos = [1 ,1 ; 2 , 2.5 ; 3 , 3.5 ; 4,5 ; 5 , 6];
% DE y MD al cuadrado de X al punto O
dE2 = expand((X-O)'*(X - O))
MCov = cov(datos);
dM2 = expand((X-O)'*inv(MCov)*(X - O))
EJEMPLO 4: dado el conjunto de datos, compuesto por 2000 observaciones de dos clases (1000 observaciones de
cada clase) descritas por tres variables X1, X2 y X3. Diseña una clasificador LDA.
d1(x)= − 𝑥 − 1 𝑇
−1
𝑥 − 1
d12(x)= d1(x)-d2(x)= 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝛽3 𝑋3
d2(x)= − 𝑥 − 2 𝑇
−1
𝑥 − 2
x ∈ C1 si d12 > 0; x ∈ C2 si d12 < 0
x ∈ C1 si d1 > d2 ; x ∈ C2 si d1 < d2
EJEMPLO 4: dado el conjunto de datos, compuesto por 2000 observaciones de dos clases (1000 observaciones de
cada clase) descritas por tres variables X1, X2 y X3. Diseña una clasificador LDA.
x1 X11 X21 X31 y1
X= ⋮ = ⋮ ⋮ ⋮ ; Y= ⋮ Y = C1 , C2 = 1, 2
x2000 X12000 X22000 X32000 y2000
d1(x)= 𝐴0 + 𝐴1 𝑥12 + 𝐴2 𝑥22 + 𝐴3 𝑥32 +𝐴4 𝑥1 𝑥2 +𝐴5 𝑥1 𝑥3 +𝐴5 𝑥2 𝑥3 +𝐴6 𝑥1 +𝐴7 𝑥2 +𝐴8 𝑥3
𝑥1
𝑥 = 𝑥2
𝑥3 d2(x)= 𝐵0 + 𝐵1 𝑥12 + 𝐵2 𝑥22 + 𝐵3 𝑥32 +𝐵4 𝑥1 𝑥2 +𝐵5 𝑥1 𝑥3 +𝐵5 𝑥2 𝑥3 +𝐵6 𝑥1 +𝐵7 𝑥2 +𝐵8 𝑥3
EJEMPLO 4: dado el conjunto de datos, compuesto por 2000 observaciones de dos clases (1000 observaciones de
cada clase) descritas por tres variables X1, X2 y X3. Diseña una clasificador LDA.
x1 X11 X21 X31 y1
X= ⋮ = ⋮ ⋮ ⋮ ; Y= ⋮ Y = C1 , C2 = 1, 2
x2000 X12000 X22000 X32000 y2000
x1 = sym('x1','real');
x2 = sym('x2','real');
x3 = sym('x3','real'); % Función de decisión que separa las muestras de
X = [x1; x2 ; x3]; % las clases:
d12 = d1- d2;
% Asumiendo que ya se han calculado los vectores
% prototipo de cada clase (vectores columna) y la % Calculo de coeicientes: d12 = A*x1+B*x2+C*x3+D
% matriz covarianza común: M1, M2, mCov x1 = 0; x2 = 0; x3 = 0; D = eval(d12);
x1 = 1; x2 = 0; x3 = 0; A = eval(d12)-D;
d1 = expand(-(X-M1)'*inv(mCov)*(X - M1)); x1 = 0; x2 = 1; x3 = 0; B = eval(d12)-D;
d2 = expand(-(X-M2)'*inv(mCov)*(X - M2)); x1 = 0; x2 = 0; x3 = 1; C = eval(d12)-D;
EJEMPLO 4: dado el conjunto de datos, compuesto por 2000 observaciones de dos clases (1000 observaciones de
cada clase) descritas por tres variables X1, X2 y X3. Diseña una clasificador LDA.
→ Representación frontera de
separación: d12(x)=0 con Matlab:
[x1Plano, x2Plano] =
meshgrid(x1min:paso1:x1max,x2min:paso2:x2max);
Ejercicios de ejemplo: tres ejercicios con conjunto de datos muy reducidos y básicos, pensados para resolverlos de
forma teórica y refrendar los resultados de forma práctica con Matlab.
Ejercicios de ejemplo: tres ejercicios con conjunto de datos muy reducidos y básicos, pensados para resolverlos de
forma teórica y refrendar los resultados de forma práctica con Matlab.
𝑥1 − 2.5 2 2
𝑑1 𝒙 = − 𝑥1 − 2.5 𝑥2 − 2.5 = − 𝑥1 − 2.5 + 𝑥2 − 2.5 =
𝑥2 − 2.5
= −𝑥1 2 − 𝑥2 2 + 5𝑥1 + 5𝑥2 − 12.5
0
2 2
𝑑2 𝒙 = − 𝑥1 − 5.5 + 𝑥2 − 6 = −𝑥1 2 − 𝑥2 2 + 11𝑥1 + 12𝑥2 − 66.25
Ejercicios de ejemplo: tres ejercicios con conjunto de datos muy reducidos y básicos, pensados para resolverlos de
forma teórica y refrendar los resultados de forma práctica con Matlab.
𝐾
𝜎11 𝜎12 1
= 𝜎 𝜎22 𝑐𝑜𝑛 𝜎𝑖𝑗 = 𝜎𝑗𝑖 = 𝑋𝑧𝑖 − 𝜇𝑖𝑘 𝑋𝑧𝑗 − 𝜇𝑗𝑘
21 𝑛−𝐾
𝑘=1 𝑧: 𝑦𝑧 =𝑘
4 3
2
1 𝑥𝐳11 − 3 2 𝑥𝐳11 − 3 𝑥𝐳21 − 2 𝑥𝐳1 𝟐 − 𝟔 𝑥𝐳1 𝟐 − 𝟔 𝑥𝐳2 𝟐 − 2 𝟏 𝟒 𝟐
= ා +ා =
𝟓 𝑥𝐳21 − 2 𝑥𝐳11 − 3 𝑥𝐳21 − 2 2 𝑥𝐳2 𝟐 − 2 𝑥𝐳1 𝟐 − 𝟔 𝑥𝐳2 𝟐 − 2
2 𝟓 𝟐 𝟒
𝒛=1 𝒛=1
1 5 −5/2
−1 =
3 −5/2 5
−𝟏𝟎𝑥1 + 𝟓𝑥2 + 35 = 𝟎
𝑪𝒓𝒊𝒕𝒆𝒓𝒊𝒐 𝒅𝒆 𝒄𝒍𝒂𝒔𝒊𝒇𝒊𝒄𝒂𝒄𝒊ó𝒏:
x ∈ C1 𝑠𝑖 d12 𝑥 > 0 ≡ 𝑑1 𝑥 > 𝑑2 𝑥
𝑥 ∈ C2 𝑒𝑛 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟𝑎𝑟𝑖𝑜
𝑭𝒖𝒏𝒄𝒊𝒐𝒏𝒆𝒔 de decisión:
𝐹𝒓𝒐𝒏𝒕𝒆𝒓𝒂𝒔 𝒅𝒆 𝒅𝒆𝒄𝒊𝒔𝒊ó𝒏:
𝑑12 = 0 → −10𝑥1 + 4𝑥2 + 15 = 0
𝑑13 = 0 → −2𝑥1 + 12𝑥2 − 17 = 0
𝑑23 = 0 → 𝑥1 + 𝑥2 − 4 = 0
BIBLIOGRAFÍA PRINCIPAL
James G., Witten D.,Hastie T. y Tibshirani R (2017). "An Introduction to Statistical Learning, with applications in
R“, Springer, Recurso libre: http://faculty.marshall.usc.edu/gareth-james/ISL/index.html
- “Aprendizaje automático para el análisis de datos”, Grado en Estadística y Empresa, Ricardo Aler, Universidad
Carlos III de Madrid. OpenCourseWare: http://ocw.uc3m.es/ingenieria-informatica/aprendizaje-automatico-
para-el-analisis-de-datos
- "Some of the figures in this presentation are taken from "An Introduction to Statistical Learning, with
applications in R" (Springer, 2013) with permission from the authors: G. James, D. Witten, T. Hastie and R.
Tibshirani "