Discriminante 2018-19

Estadística Multivariante
Aguilar, M.; Castro, M.; Cruces, E. y Díaz, B.

Curso 2018-2019
Tema 6. Análisis discriminante
Índice
6.1. Introducción
6.2. Clasificación con dos grupos
6.3. Función discriminante de Fisher y funciones clasificadoras
6.4. Poder discriminante de las funciones discriminantes y de las
variables
6.5. Evaluación de la capacidad predictiva
6.6. Resolución de casos prácticos con ordenador
Curso 2018-2019 Aguilar, M.; Castro, M.; Cruces, E. y Díaz, B. 3

6.1. Introducción
6.1. Introducción
 El análisis discriminante es una técnica estadística multivariante
cuyo objetivo es explicar la pertenencia de cada observación
muestral a una serie de grupos preestablecidos, en función de un
conjunto de variables. Cada observación (individuos, familias,
empresas, etc.) puede pertenecer a un sólo grupo.
 La pertenencia a uno u otro grupo se introduce en el análisis
mediante una variable cualitativa con tantas modalidades como
grupos existentes (juega el papel de variable dependiente, Y) .
 Las variables independientes Xi que se usan para clasificar
(cuantitativas) se denominan variables clasificadoras.
 La información de estas variables se sintetiza en unas funciones
llamadas funciones discriminantes (combinaciones lineales de
estas variables), que son las que finalmente se usan para
clasificar.
6.1. Introducción
 De forma más precisa, podemos decir que el análisis

discriminante se diseña para cumplir uno o ambos de los
siguientes fines:
 Descriptivo: Describir matemáticamente los casos
observados y separarlos en grupos ya conocidos a priori.
 Predictivo: Clasificar nuevas observaciones en cada uno
de los grupos en función del análisis previo.
 Como utilidad particular, recuérdese que en el tema anterior
vimos que para validar los grupos obtenidos en un análisis
cluster o de conglomerados, podemos realizar un análisis
discriminante.

6.1. Introducción
 Ejemplo: Cuando un banco concede un préstamo a un cliente se
enfrenta a la posibilidad de que éste sea reintegrado o no.
 2 grupos de clientes: fallidos y no fallidos (cumplidores).
 El banco puede usar información sobre préstamos concedidos
en el pasado para reducir la probabilidad de conceder en la
actualidad préstamos que puedan resultar fallidos.
 Utilizando una serie de características de los clientes a los que
se les concedió el préstamo (ingresos, edad, otras deudas,…),
se establecen unas funciones que clasifiquen lo más
correctamente posible a los clientes en cumplidores o fallidos.
 Posteriormente, si se ha conseguido una correcta clasificación,
estas funciones se emplean para determinar si se conceden o no
los préstamos a los futuros solicitantes (finalidad predictiva).
 Comencemos con el caso más sencillo en el que sólo tenemos

dos grupos (I y II) y una única variable clasificadora, X. El
problema que se plantea es el de clasificar a cada observación
en el grupo correcto, atendiendo al valor de la variable X.
 Supondremos que la distribución de frecuencias de la variable
X tiene la misma forma y varianza en ambos grupos y sólo se
diferencian, por tanto, en la media.

 Tal y como se observa en siguiente gráfico, también se supone

que ambas distribuciones se solapan, de manera que existen
zonas donde la clasificación es problemática y pueden
cometerse errores.
Normal Distribution
0,4 Mean,Std. dev.
0,1
3,1
0,3
density
0,2
0,1
0
-5 -2 1 4 7 10

 Con las hipótesis vertidas (igual forma y varianza), el punto de
intersección de las dos funciones será el valor medio entre las
medias de los dos grupos.
𝑥𝐼 + 𝑥𝐼𝐼
𝐶= C: punto de corte discriminante
2
 A la vista de esta figura, resulta lógico tomar el siguiente
criterio para clasificar a una observación i:
Si xi < C se clasifica la observación i en el grupo I
Si xi > C se clasifica la observación i en el grupo II
 Lógicamente, pueden cometerse errores de clasificación
(observaciones del grupo I mayores que C y serán clasificadas
en el grupo II y a la inversa). Se intentarán minimizar estos
errores.
 Ejemplo Banco (xi: patrimonio neto en miles de euros)
Grupo I Grupo II
Clientes Clientes
xi xi 𝑥𝐼 = 5
fallidos no fallidos
1 1’3 I 9 5’2 I 𝑥𝐼𝐼 = 9
2 3’7 I 10 9’8 II
3 5 I 11 9’0 II
4 5’9 I 12 12’0 II 𝑥𝐼 + 𝑥𝐼𝐼 5 + 9
𝐶= = =7
5 7’1 II 13 6’3 I 2 2
6 4’0 I 14 8’7 II
7 7’9 II 15 11’1 II
8 5’1 I 16 9’9 II
⇒ Aquellos clientes con patrimonio neto menor que 7

millones se clasificarán como fallidos (grupo I) y los que
sean mayores de 7 como no fallidos (grupo II).
 Veamos a continuación el caso de dos grupos pero

considerando dos variables clasificadoras: X1 y X2.
 En la figura siguiente se representan las elipses de
concentración de los datos correspondientes a estas dos
variables.
 Las dos elipses tienen el mismo tamaño y difieren sólo en
su centro.
 Debajo del eje X1 se han representado las distribuciones
marginales de la variable X1 para cada grupo, proyectando
sobre el eje la distribución de frecuencias bivariantes.
 Debajo del eje X2 las distribuciones marginales de dicha
variable.

X2
I X II , 2
II X I,2
X1
X I ,1 X II ,1 X1

 Puede comprobarse que tal y como ocurría antes, ambas

distribuciones están solapadas (ya hemos visto que cuanto
mayor sea el solapamiento mayor será el porcentaje de
individuos clasificados erróneamente).
 La siguiente figura muestra que se puede obtener una mejor
función discriminante (menos solapamiento) utilizando las
dos variables conjuntamente, es decir considerando un eje
oblicuo combinación lineal de X1 y X2.

X2
I II
X1
DI
Curso 2018-2019 DII Aguilar, M.; Castro, M.; Cruces, E. y Díaz, B. 16
 Lógicamente, variando la inclinación de este eje se obtienen

distribuciones con un distinto grado de solapamiento.
 El eje con el que se logre un menor grado de solapamiento
será óptimo.
 A este eje se le denomina eje discriminante y a las
proyecciones de los valores de las variables X1 y X2 sobre
dicho eje, puntuaciones discriminantes.
 A la variable D obtenida en la proyección se le llamará
función discriminante. Recordemos que, como puede
comprobarse, con esta función se obtiene un menor error en
la clasificación que con cualquiera de las dos variables por
separado.

6.3. Función discriminante de Fisher
 El problema que hemos ilustrado gráficamente para dos

variables clasificadoras, Fisher lo resolvió en 1936 para el
caso general de p variables.
 La función discriminante (lineal) de Fisher se obtiene como
una función lineal de p variables explicativas, es decir:
𝐷𝑖 = 𝑤1 𝑋1𝑖 + 𝑤2 𝑋2𝑖 +…+𝑤𝑝 𝑋𝑝𝑖 𝑖 = 1, 2 … 𝑛

 La función discriminante de Fisher debe buscar un doble

fin:
1. Que la proyección haga máxima la separación entre los

dos grupos, es decir, que se haga máxima la distancia
entre sus medias, lo que implica que la recta D (función
discriminante) sea paralela a la recta que une 𝑥𝐼 con 𝑥𝐼𝐼 .
2. Que haga mínima las dispersiones de las distribuciones
proyectadas, con objeto de conseguir una zona de
solapamiento menor.

 Como ambos criterios pueden ir en sentido contrario, el

criterio para obtener la función discriminante es la
optimización conjunta de ambos, lo que supone:
𝒔𝒆𝒑𝒂𝒓𝒂𝒄𝒊𝒐𝒏 𝒆𝒏𝒕𝒓𝒆 𝒈𝒓𝒖𝒑𝒐𝒔

𝑴𝒂𝒙 𝝀 =
𝒔𝒆𝒑𝒂𝒓𝒂𝒄𝒊𝒐𝒏 𝒅𝒆𝒏𝒕𝒓𝒐 𝒅𝒆 𝒈𝒓𝒖𝒑𝒐𝒔
 Puede observarse que, en realidad, lo que se está

proponiendo es equivalente a una descomposición de las
varianzas totales, en las variaciones debidas a los grupos
(variabilidad inter-grupos) y las propias de cada grupo
(variabilidad intra-grupos o dentro de los grupos). Es decir,
algo similar al ANOVA.

 Los centroides o centros de gravedad son básicos para

resumir la información de cada uno de los grupos:
𝑥1,𝐼 𝑥1,𝐼𝐼
𝑥 𝑥
𝑋𝐼 = 2,𝐼 𝑋𝐼𝐼 = 2,𝐼𝐼
⋮ ⋮
𝑥𝑝,𝐼 𝑥𝑝,𝐼𝐼

 Sustituyendo en la función discriminante:

𝐷𝐼 = 𝑤1 𝑥1,𝐼 + 𝑤2 𝑥2,𝐼 +…+𝑤𝑝 𝑥𝑝,𝐼
𝐷𝐼𝐼 = 𝑤1 𝑥1,𝐼𝐼 + 𝑤2 𝑥2,𝐼𝐼 +…+𝑤𝑝 𝑥𝑝,𝐼𝐼
𝐷𝐼 + 𝐷𝐼𝐼
 El punto de corte discriminante será: 𝐶=
2
 Y la regla de decisión:
Si Di < C se clasifica la observación i en el grupo I
Si Di > C se clasifica la observación i en el grupo II

 Frecuentemente, se le resta el valor de C a la función

discriminante:
𝐷𝑖 − 𝐶 = 𝑤1 𝑋1𝑖 + 𝑤2 𝑋2𝑖 +…+𝑤𝑝 𝑋𝑝𝑖 − 𝐶 𝑖 = 1, 2 … 𝑛
 Y la regla de decisión:
Si Di –C<0 se clasifica la observación i en el grupo I

Si Di –C>0 se clasifica la observación i en el grupo II

 A veces, los programas de ordenador utilizan una función

clasificadora para cada grupo:
𝐹𝐼 = 𝑎𝐼,1 𝑋1 + 𝑎𝐼,2 𝑋2 +…+𝑎𝐼,𝑝 𝑋𝑝 − 𝐶𝐼
𝐹𝐼𝐼 = 𝑎𝐼𝐼,1 𝑋1 + 𝑎𝐼𝐼,2 𝑋2 +…+𝑎𝐼𝐼,𝑝 𝑋𝑝 − 𝐶𝐼𝐼
 Se clasifica a cada observación en el grupo para el que la
función F es mayor. Este enfoque tiene la ventaja de que se
generaliza fácilmente al caso de que existan más de dos
grupos.
 Equivalencia con la función anterior:
𝐹𝐼𝐼 − 𝐹𝐼 = 𝑎𝐼𝐼,1 − 𝑎𝐼,1 𝑋1 + 𝑎𝐼𝐼,2 − 𝑎𝐼,2 𝑋2 +…+ 𝑎𝐼𝐼,𝑝 − 𝑎𝐼,𝑝 𝑋𝑝 − 𝐶𝐼𝐼 − 𝐶𝐼 =

=𝑤1 𝑋1 + 𝑤2 𝑋2 +…+𝑤𝑝 𝑋𝑝 − C

 En general, el número de ejes discriminantes que se

pueden obtener viene dado por min (G-1, p), siendo G el
número de grupos y p el número de variables explicativas.
 En el caso que hemos visto hasta ahora, con solo dos
grupos, se obtiene una única función discriminante, cuyos
coeficientes vienen dados por el vector asociado al mayor
valor propio al resolver el problema (tras calcular los valores
propios asociados a una forma cuadrática en la que
intervienen la matriz de suma de cuadrados intra-grupos y la
suma de cuadrados entre grupos).

 En el caso de análisis discriminante con más de 2 grupos, los

demás ejes discriminantes vendrán dados por los vectores
propios asociados a los valores propios ordenados de mayor
a menor. (El 2º eje tendrá menos poder discriminante que el
1º, pero más que los restantes).

6.4. Poder discriminante de las funciones
discriminantes y de las variables
 Valor propio o autovalor, 𝝀 : cociente de la suma de

cuadrados intergrupos entre la suma de cuadrados
intragrupos.
𝑆𝐶𝐼𝑛𝑡𝑒𝑟𝑔𝑟𝑢𝑝𝑜𝑠
𝜆=
𝑆𝐶𝐼𝑛𝑡𝑟𝑎𝑔𝑟𝑢𝑝𝑜𝑠
 Valores bajos indican que los grupos están solapados y

no se diferencian bien.
 Tiene un mínimo de cero pero no un máximo, por lo que se

suele interpretar el valor de la Lambda de Wilks (muy
relacionada con el valor propio).

 La Lambda de Wilks indica el poder discriminante de cada

función.
 Es la proporción de la varianza de las puntuaciones
discriminantes que no está explicada por las diferencias entre
grupos.
𝑆𝐶𝐼𝑛𝑡𝑟𝑎𝑔𝑟𝑢𝑝𝑜𝑠 1
Λ= = 0≤Λ≤1
𝑆𝐶𝑇𝑜𝑡𝑎𝑙 1+𝜆
 Cuanto menor valor, mayor poder discriminante de la

función.

 Esta medida permite contrastar la hipótesis nula de que las

medias multivariantes (centroides) de los grupos son iguales.
Por ejemplo, en el caso de 2 grupos:
H0 : I=II H1 : I≠II
 Este contraste se realiza a partir de un estadístico que es una
función de Λ de Wilks de la función discriminante j y que se
distribuye como una chi-cuadrado con (p-j+1)*(g-j) grados de
libertad.
 Si el p-valor del contraste es pequeño (menor que el nivel de

significación prefijado) se rechaza la hipótesis nula de igualdad
entre los vectores de medias, y las variables de forma global
ejercerán un efecto significativo, a través de la función
discriminante, en la separación de los grupos.
 Correlación canónica (𝟎 ≤ 𝜼 ≤1): mide la correlación entre

las puntuaciones discriminantes y la variable categórica que
define los grupos. Cuanto mayor valor, mayor poder
discriminante de la función.
 𝜼𝟐 : es el coeficiente de determinación obtenido al realizar la

regresión entre la variable dicotómica dependiente que indica
la pertenencia al grupo y las puntuaciones discriminantes (es
el cuadrado de la correlación canónica).

6.4. Poder discriminante de las variables
 Coeficientes estandarizados: son los coeficientes de la

función discriminante estandarizada. Al no depender de las
unidades de medida de las variables discriminantes son más
adecuados para reflejar el peso de cada una de ellas.
 Los coeficientes estandarizados se emplean como referentes

de la contribución de la variable a la función discriminante.
Cuanto mayor es el coeficiente, mayor poder discriminante de
la variable.

 La significación estadística de la función discriminante no es

suficiente, ya que nada nos dice acerca de su capacidad
predictiva. Por tanto, es muy importante evaluar la capacidad
predictiva, generalmente, mediante las llamadas matrices de
clasificación, que clasifican las observaciones de acuerdo con
las puntuaciones discriminantes asociadas a las mismas.
Grupo predicho
Grupo I Grupo II
Aciertos en grupo I Fallidos del grupo I clasificados
Grupo I como del grupo II
n11 n12
Grupo real
Fallidos del grupo II Aciertos en grupo II
Grupo II clasificados como del grupo I
n21 n22
𝑛11 +𝑛22
Tasa de aciertos: ∗ 100
𝑛

 Algunos métodos de validación son:
 Obtención de una submuestra (difícil de obtener)
 Cross-validation: mejor, difícil de elaborar si son muchas

las observaciones (hay que dejar una fuera en cada
ocasión y ver, después de aplicado el análisis, si se
clasifica bien). Se calcula así una tasa de éxito esperado o
tasa de error que reste.

Otras consideraciones…
 En los desarrollos anteriores se ha considerado que se

conoce a priori cuáles son las variables clasificadoras y por
tanto, se han introducido simultáneamente en el análisis.
 En la práctica puede disponerse de un gran número de
variables potencialmente discriminantes, y puede ser preciso
seleccionar paso a paso las variables con más capacidad
discriminante.
 Los tres métodos más conocidos para seleccionar variables
son los siguientes procedimientos iterativos:
 Selección hacia adelante (forward)
 Selección hacia atrás (backward)
 Selección paso a paso (stepwise)
Hipótesis básicas
1. Las variables deben ser independientes y normales. Cada

uno de los grupos tiene una distribución normal
multivariante.
2. Las matrices de varianzas y covarianzas iguales en los dos
grupos, aunque no se conozcan (homocedasticidad).
3. No multicolinealidad (alta correlación) entre las variables
independientes.
4. Las relaciones son lineales.
5. No existencia de valores extremos. En caso contrario, deben
eliminarse.

6.6. Resolución de caso práctico
 El archivo “banco.sgd” contiene información de 25 clientes de

un banco a los que se les concedió un préstamo en el pasado.
Considerando tres tipos de clientes (fallidos -el préstamo no es
reintegrado; no fallidos -el préstamo se paga íntegramente-; y
morosos -parte del préstamo está pendiente de pagar-) y tres
variables clasificadoras (ingresos, patrimonio neto y valor de la
deuda), realice un análisis discriminante para tratar de predecir
el impago de los préstamos futuros.

 Menú Statgraphics: Relacionar → Métodos de clasificación

→ Análisis Discriminante

 Menú Statgraphics: Relacionar → Métodos de clasificación

→ Análisis Discriminante

Análisis Discriminante
Variable de clasificación: tipo cliente
Variables independientes:
ingresos
patrimonio neto
deuda
Número de casos completos: 25 Se obtienen 2 funciones

Número de grupos: 3
discriminantes
Función Eigenvalor Porcentaje Correlación min (G-1, p)=min (3-1,3)=2
Discriminante Relativo Canónica
1 1,12432 98,15 0,72750
2 0,0212046 1,85 0,14410
Funciones Lambda
Derivadas de Wilks Chi-Cuadrada GL Valor-P
1 0,460963 16,2632 6 0,0124
2 0,979236 0,4406 2 0,8023
El StatAdvisor
Este procedimiento está diseñado para desarrollar un conjunto de funciones discriminantes el cual puede ayudar a
predecir tipo cliente con base en los valores de otras variables cuantitativas. 25 casos fueron utilizados para
desarrollar un modelo que discrimine entre los 3 niveles de tipo cliente. 3 variables predictoras fueron introducidas.
La función discriminante con valor-P menor que 0,05 es estadísticamente significativa con un nivel de confianza del
95,0%.

Variable de clasificación: tipo cliente Su cuadrado es el
Variables independientes: coeficiente de determinación
ingresos
patrimonio neto de la regresión entre la
deuda variable dicotómica
Número de casos completos: 25 dependiente que indica el
Número de grupos: 3 grupo y las puntuaciones
Función Eigenvalor Porcentaje Correlación
discriminantes. Cuanto más
Discriminante Relativo Canónica elevado mejor (0 ≤ 𝜂 ≤1).
𝜼𝟐𝟏 = 𝟎, 𝟕𝟐𝟕𝟓𝟐 = 𝟎, 𝟓𝟐𝟗𝟑
1 1,12432 98,15 0,72750
2 0,0212046 1,85 0,14410
𝜼𝟐𝟐 = 𝟎, 𝟏𝟒𝟒𝟏𝟐 = 𝟎, 𝟎𝟐𝟎𝟖
Funciones Lambda
Derivadas de Wilks Chi-Cuadrada GL Valor-P Según la primera función
1 0,460963 16,2632 6 0,0124 discriminante, las variables
2 0,979236 0,4406 2 0,8023 consideradas explican un
El StatAdvisor 52,93% de la variable tipo de
clienteelycual
Este procedimiento está diseñado para desarrollar un conjunto de funciones discriminantes según la segunda,
puede ayudar a
desarrollar un modelo que discrimine entre los 3 niveles de tipo cliente. 3 variablesunpredictoras
2,08 %. fueron introducidas.
95,0%.

Variable de clasificación: tipo cliente Indica el poder discriminante
Variables independientes:
ingresos
de cada función.
patrimonio neto Es la proporción de la
deuda
varianza de las
Número de casos completos: 25 puntuaciones discriminantes
que no está explicada por
Función Eigenvalor Porcentaje Correlación las diferencias entre grupos.
1 1,12432 98,15 0,72750 Cuanto menor valor, mayor
2 0,0212046 1,85 0,14410 poder discriminante de la
función.
Funciones Lambda
Derivadas de Wilks Chi-Cuadrada GL Valor-P 𝚲𝟏 = 𝟎, 𝟒𝟔𝟎𝟗𝟔𝟑
1 0,460963 16,2632 6 0,0124
2 0,979236 0,4406 2 0,8023 𝚲𝟐 = 𝟎, 𝟗𝟕𝟗𝟐𝟑𝟔
A partir de ella, realizamos
El StatAdvisor
un contraste
Este procedimiento está diseñado para desarrollar un conjunto de funciones discriminantes el cual puededeayudar
hipótesis
a
predecir tipo cliente con base en los valores de otras variables cuantitativas. 25 casos fueron utilizados
para verificar si laspara
La función discriminante con valor-P menor que 0,05 es estadísticamente significativa funciones
con un niveldiscriminantes
de confianza del son
95,0%. significativas
Análisis Discriminante El estadístico de prueba se
Variable de clasificación: tipo cliente
Variables independientes: distribuye como 𝝌𝟐(p−j+1)(g−j)
ingresos
patrimonio neto j=1 → (3-1+1) (3-1)=6
deuda
j=2 → (3-2+1) (3-2)=2
Número de casos completos: 25
Función Eigenvalor Porcentaje Correlación

1 1,12432 98,15 0,72750
2 0,0212046 1,85 0,14410 H0 : I=II =III
Funciones Lambda Sólo la primera función
Derivadas de Wilks Chi-Cuadrada GL Valor-P discriminante es significativa en
1 0,460963 16,2632 6 0,0124 la separación entre grupos
2 0,979236 0,4406 2 0,8023
(p-valor<0,05 y se rechaza la
El StatAdvisor hipótesis nula)
Este procedimiento está diseñado para desarrollar un conjunto de funciones discriminantes el cual puede ayudar a
95,0%.

 Coeficientes de las funciones discriminantes:
En la primera función
discriminante (que había
resultado significativa), las
variables que más discriminan
son el patrimonio y los ingresos
(coeficientes más altos).

 Matriz de clasificación y capacidad predictiva:
5+6+10
( 25
)× 100 = 84
En total, se clasifican correctamente un 84% de los casos

• Hay 5 clientes fallidos y todos se clasifican correctamente (100%).
• Hay 7 clientes morosos, de los cuales 6 se clasifican correctamente
(85,71) y 1 como fallido.
• Hay 13 clientes no fallidos, de los cuales 10 se clasifican
correctamente (76,92%), 2 como fallidos y 1 como moroso.


 La Tabla de clasificación también sirve para predecir el grupo en

el que será clasificado un nuevo cliente. Por ejemplo, según el
análisis realizado, ¿concedería el préstamo a un individuo con
ingresos mensuales de 3.000 €, un patrimonio neto de 20.000 €
y una deuda de 6.100 €?
 En el editor de datos introducimos un nuevo individuo (fila 26)
con estos datos (ojo a las unidades de medida de las variables).

 Según la tabla de clasificación, el nuevo cliente se clasifica como
no fallido, de manera que el banco le concederá el préstamo.

 Análisis gráfico:

Gráfica de Funciones Discriminantes
2,5 tipo cliente

fallido
moroso
1,5 no fallido
Función 2
0,5
-0,5
La primera función discriminante
separa claramente los tres grupos
-1,5
de clientes, si bien hay algunos
solapamientos.
-2,5
-1,9 -0,9 0,1 1,1 2,1 3,1 La 4,1
localización de los centroides
Función 1 para cada grupo se muestran con
un signo +.

Diagrama de Dispersión
80 tipo cliente
fallido
moroso
no fallido
60
patrimonio neto
40
20
0
0 2 4 6 8 10
(X 1000,0)
ingresos

Diagrama de Dispersión
tipo cliente
fallido
moroso
no fallido
8
6
deuda
2
80
0 60
40
0 2 20
4 6 patrimonio neto
8 10 0
ingresos (X 1000,0)

Discriminante 2018-19

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Discriminante 2018-19

Cargado por

Copyright:

Formatos disponibles

Estadística Multivariante

Aguilar, M.; Castro, M.; Cruces, E. y Díaz, B.

Curso 2018-2019 Aguilar, M.; Castro, M.; Cruces, E. y Díaz, B. 3

 De forma más precisa, podemos decir que el análisis

Curso 2018-2019 Aguilar, M.; Castro, M.; Cruces, E. y Díaz, B. 6

 Comencemos con el caso más sencillo en el que sólo tenemos

Curso 2018-2019 Aguilar, M.; Castro, M.; Cruces, E. y Díaz, B. 9

 Tal y como se observa en siguiente gráfico, también se supone

Curso 2018-2019 Aguilar, M.; Castro, M.; Cruces, E. y Díaz, B. 10

⇒ Aquellos clientes con patrimonio neto menor que 7

 Veamos a continuación el caso de dos grupos pero

Curso 2018-2019 Aguilar, M.; Castro, M.; Cruces, E. y Díaz, B. 13

Curso 2018-2019 Aguilar, M.; Castro, M.; Cruces, E. y Díaz, B. 14

 Puede comprobarse que tal y como ocurría antes, ambas

Curso 2018-2019 Aguilar, M.; Castro, M.; Cruces, E. y Díaz, B. 15

 Lógicamente, variando la inclinación de este eje se obtienen

Curso 2018-2019 Aguilar, M.; Castro, M.; Cruces, E. y Díaz, B. 17

 El problema que hemos ilustrado gráficamente para dos

𝐷𝑖 = 𝑤1 𝑋1𝑖 + 𝑤2 𝑋2𝑖 +…+𝑤𝑝 𝑋𝑝𝑖 𝑖 = 1, 2 … 𝑛

Curso 2018-2019 Aguilar, M.; Castro, M.; Cruces, E. y Díaz, B. 19

 La función discriminante de Fisher debe buscar un doble

1. Que la proyección haga máxima la separación entre los

Curso 2018-2019 Aguilar, M.; Castro, M.; Cruces, E. y Díaz, B. 20

 Como ambos criterios pueden ir en sentido contrario, el

𝒔𝒆𝒑𝒂𝒓𝒂𝒄𝒊𝒐𝒏 𝒆𝒏𝒕𝒓𝒆 𝒈𝒓𝒖𝒑𝒐𝒔

 Puede observarse que, en realidad, lo que se está

Curso 2018-2019 Aguilar, M.; Castro, M.; Cruces, E. y Díaz, B. 21

 Los centroides o centros de gravedad son básicos para

Curso 2018-2019 Aguilar, M.; Castro, M.; Cruces, E. y Díaz, B. 22

 Sustituyendo en la función discriminante:

Curso 2018-2019 Aguilar, M.; Castro, M.; Cruces, E. y Díaz, B. 23

 Frecuentemente, se le resta el valor de C a la función

Si Di –C<0 se clasifica la observación i en el grupo I

Curso 2018-2019 Aguilar, M.; Castro, M.; Cruces, E. y Díaz, B. 24

 A veces, los programas de ordenador utilizan una función

𝐹𝐼𝐼 − 𝐹𝐼 = 𝑎𝐼𝐼,1 − 𝑎𝐼,1 𝑋1 + 𝑎𝐼𝐼,2 − 𝑎𝐼,2 𝑋2 +…+ 𝑎𝐼𝐼,𝑝 − 𝑎𝐼,𝑝 𝑋𝑝 − 𝐶𝐼𝐼 − 𝐶𝐼 =

Curso 2018-2019 Aguilar, M.; Castro, M.; Cruces, E. y Díaz, B. 25

 En general, el número de ejes discriminantes que se

Curso 2018-2019 Aguilar, M.; Castro, M.; Cruces, E. y Díaz, B. 26

 En el caso de análisis discriminante con más de 2 grupos, los

Curso 2018-2019 Aguilar, M.; Castro, M.; Cruces, E. y Díaz, B. 27

 Valor propio o autovalor, 𝝀 : cociente de la suma de

 Valores bajos indican que los grupos están solapados y

 Tiene un mínimo de cero pero no un máximo, por lo que se

Curso 2018-2019 Aguilar, M.; Castro, M.; Cruces, E. y Díaz, B. 29

 La Lambda de Wilks indica el poder discriminante de cada

 Cuanto menor valor, mayor poder discriminante de la

Curso 2018-2019 Aguilar, M.; Castro, M.; Cruces, E. y Díaz, B. 30

 Esta medida permite contrastar la hipótesis nula de que las

 Si el p-valor del contraste es pequeño (menor que el nivel de

 Correlación canónica (𝟎 ≤ 𝜼 ≤1): mide la correlación entre

 𝜼𝟐 : es el coeficiente de determinación obtenido al realizar la

Curso 2018-2019 Aguilar, M.; Castro, M.; Cruces, E. y Díaz, B. 32

 Coeficientes estandarizados: son los coeficientes de la

 Los coeficientes estandarizados se emplean como referentes

Curso 2018-2019 Aguilar, M.; Castro, M.; Cruces, E. y Díaz, B. 33

 La significación estadística de la función discriminante no es

Curso 2018-2019 Aguilar, M.; Castro, M.; Cruces, E. y Díaz, B. 35

 Algunos métodos de validación son:

 Obtención de una submuestra (difícil de obtener)

 Cross-validation: mejor, difícil de elaborar si son muchas

Curso 2018-2019 Aguilar, M.; Castro, M.; Cruces, E. y Díaz, B. 36

 En los desarrollos anteriores se ha considerado que se

1. Las variables deben ser independientes y normales. Cada