Tema4adiscriminate19 20

TEMA 4: ANÁLISIS DISCRIMINANTE
OBJETIVOS DOCENTES
 Comprender los supuestos básicos del análisis discriminante y valorar la conveniencia de

su utilización en un problema concreto
 Interpretar la naturaleza de la función discriminante de Fisher e identificar las variables con
mayor capacidad discriminatoria
 Determinar si la función discriminante sirve para diferenciar entre los dos grupos
 Construir una matriz de clasificación e interpretar sus elementos
 Describir los distintos métodos de validación del modelo
Análisis discriminante
Tema 4. Análisis discriminante.
4.1 Introducción.
4.2 Notación.
4.3 Función discriminante canónica de Fisher: estimación e interpretación.
4.4 Validación de las hipótesis de partida
4.5 Determinación del número de funciones discriminantes significativas.
4.6 Selección de variables.
4.7 Interpretación de las funciones discriminantes
4.8 Validación del proceso de clasificación
4.9 Probabilidades a posteriori de pertenencia al grupo
Bibliografía:
Peña D. (2002) Análisis de Datos Multivariantes., Mc Graw Hill capítulo 13

Uriel, E y Aldás, J. (2005): Análisis Multivariante Aplicado, Thomson, Madrid. Capítulo 9
Zarzosa Espina (2005) La calidad de vida en los municipios de la provincia de Valladolid. Cap5
2
4.1 Introducción. Motivación

Ejemplo: Préstamos Banco Ademuz (Uriel, 1995, p. 259)
cliente patrimonio deuda grupo
1 1,3 4,1 El director del Banco Ademuz tiene
2 3,7 6,9 dos nuevas solicitudes de préstamo.
3 5,0 3,0
4 5,9 6,5
Grupo I: El patrimonio y las deudas
Fallido pendientes del primer cliente son
5 7,1 5,4
6 4,0 2,7 10,1 y 6,8 y del segundo 9,7 y 2,2,
7 7,9 7,6
8 5,1 3,8 respectivamente. El director ¿les
Media concederá o no el préstamo? El
grupo 5 5 Fallido
9 5,2 1,0 análisis discriminante puede
10 9,8 4,2 ayudarle a decidir.
11 9,0 4,8
Grupo II:
12 12,0 2,0
No fallido
13 6,3 5,2
14 8,7 1,1
15 11,1 4,1
16 9,9 1,6
Media
grupo 9 3
3
Veamos cómo se posicionan los 16 clientes respecto a cada variable
Patrimonio Neto
0,0 2,0 4,0 6,0 8,0 10,0 12,0 14,0
Deuda pendiente
0,0 1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0
4
 ¿Cómo clasificariamos a los clientes si sólo tuvieramos datos del patrimonio?
Media grupo I=5 Punto de corte=7 Media grupo II=9
0,0 2,0 4,0 6,0 8,0 10,0 12,0 14,0
Regla de clasificación:
Si el patrimonio es menor que el punto de corte el cliente se clasifica en el grupo I.
Si el patrimonio es mayor que el punto de corte el cliente se clasifica en el grupo II.
Grupo
cliente patrimonio Grupo real Grupo pronosticado cliente patrimonio Grupo real pronosticado
1 1,3 Fallido Fallido 9 5,2 No fallido Fallido
2 3,7 Fallido Fallido 10 9,8 No fallido No fallido
5 7,1 Fallido No Fallido 13 6,3 No fallido Fallido
7 7,9 Fallido No Fallido 15 11,1 No fallido No fallido
5
 ¿Cómo clasificariamos a los clientes si sólo tuvieramos datos de la deuda?
¿Cuál sería la regla de clasificación?:
Completa el grupo pronosticado
Grupo
cliente deuda Grupo real Grupo pronosticado cliente deuda Grupo real pronosticado
1 4,1 Fallido 9 1,0 No fallido
6
 ¿Cómo clasificariamos a los clientes si utilizaramos la información de las dos variables

por ejemplo, podemos obtener los valores del patrimonio-deuda.?
Grupo Grupo Grupo Grupo

cliente Patrimonio-Deuda real pronosticado cliente Patrimonio-Deuda real pronosticado
1 -2,8 Fallido Fallido 9 4,2 No fallido No fallido
5 1,7 Fallido Fallido 13 1,1 No fallido Fallido
Media grupo I: 0
Media grupo II: 6
Punto de corte: 3
7
El análisis discriminante es una técnica de dependencia que trata de buscar una combinación
lineal de las variables originales (cuantitativas), de tal forma que sirva para diferenciar mejor los
dos grupos (diferencias en media).
Objetivos:
 Describir las diferencias entre los grupos de acuerdo con los valores que toman ciertas
variables en dichos grupos  encontrar funciones de dichas variables (funciones
discriminantes) que diferencien los grupos lo más posible
 Clasificar nuevos individuos en alguno de los grupos existentes en base a los valores
que toman las funciones discriminantes en dichos individuos
8
9
Ejemplo1: Caracterización del nivel de bienestar de los municipios de la provincia de Valladolid.

Se dividen los municipios de la provincia de Valladolid en tres grupos: los que tienen mejor calidad
de vida, los que tienen un nivel intermedio y los tienen menor calidad de vida. Se toman datos de
61 variables (el número de turismos por habitante, el nivel de renta, el número de puestos de
trabajo etc.). El análisis discriminante describirá las diferencias existentes entre esos tres grupos
y determina cuáles son las variables que más contribuyen a explicar las diferencias (el número
de empresas por habitante, tiempo que se tarda al centro de salud más cercano, el número de
restaurantes por habitante, porcentaje de viviendas con calefacción y el nivel de renta per cápita)
Ejemplo2: Caracterización del perfil de los compradores de un determinado producto en un

determinado establecimiento. Se elige una muestra de compradores y no comprobares y se
toman datos de la renta, edad y cercanía. El análisis discriminante establecerá la importancia
relativa de estos atributos en la decisión de compra.
10
Ejemplo 3: Se desea conocer las características más destacadas de los contribuyentes que
defraudan a Hacienda y conocer los contribuyentes a los que hay que revisar su declaración por
un alto riesgo de fraude fiscal. A partir de los ficheros históricos de las declaraciones, se toman
datos del nivel de renta, el número de hijos a su cargo, el régimen de tenencia de la vivienda, la
actividad profesional de los contribuyentes que han defraudado y de los que no han defraudado.
El resultado suele ser la revisión de las declaraciones que tengan una mayor probabilidad de
haber defraudado.
Ejemplo 4: Establecer las características más destacadas de los clientes morosos y la

probabilidad de que el banco rechace la concesión de un préstamo debido al alto riesgo de
morosidad. A partir de los datos de los clientes, se toman datos del nivel de renta, el número de
hijos a su cargo, el régimen de tenencia de la vivienda, la actividad profesional de los
contribuyentes que son morosos y de los que no lo son. No concesión de los préstamos en el
caso de que exista una gran probabilidad de ser moroso.
Se utiliza también en medicina (detección de enfermedades), ingeniería (reconocimiento de la

voz)
11
Diferencias con:
El análisis de regresión: en la regresión, la endógena es métrica.
El análisis ANOVA: en el ANOVA, la endógena es métrica y las exógenas no métricas

(al contrario que en el discriminante).
El logit-probit: idéntica al discriminante en el objetivo pero apoyada en técnicas de

estimación paramétrica idénticas a la regresión y no en el análisis de descomposición
de la varianza.
12
ANOVA Regresión Logit/Probit Discriminante

Similitudes Técnicas de Técnicas de Técnicas de Técnicas de
dependencia dependencia dependencia dependencia
Diferencias
Naturaleza de
la variable Cuantitativa Cuantitativa Categórica Categórica
dependiente
Naturaleza de Categóricas Cuantitativas Cuantitativas Cuantitativas

la variable /categóricas /categóricas
independiente
13
4.2 Notación
p=número de variables;
n=número de individuos;
g=número de grupos=2
ni=número de individuos en el grupo i (n1+n2 = n)
Matriz de datos (g=2):
…
⋮ ⋮ ⋮ ⋮
…
⋯
…
⋮ ⋮ ⋮ ⋮
…
Elemento genérico xijg, i representa el
individuo, j la variable y g el grupo
14
Los centros de gravedad o centroides son los vectores de medias:
 X1   X 11   X 12 
     
X   X 21 
x  2  x 1    x 2
X 
  22 
   
px1 px1
 
px1
X  X  X 
 p  p1   p2 
Vector de medias con Vector de medias con los
el conjunto de datos. datos de cada grupo.
S1 y S2 Matrices de varianzas y covarianzas muestrales con los datos de cada grupo.

Consideramos que están dividas por el número de observaciones menos 1 (ni-1)
i=1,2
15
La matriz de sumas de cuadrados y productos cruzados (SCPC):

 n 
   X 1i  X 1   X  X 1  X 2 i  X 2   X  
n n
 
2
1i 1i X 1 X pi X p 
 i 1 i 1 i 1 

 X  X2 X 2 i  X 2 X pi  X p 
n n

2
SCPC   2i
 i 1 i 1

 

X pi  X p  
n

2
 
 i 1 
SCPC1 y SCPC2 son las matrices de sumas de cuadrados y productos cruzados en cada grupo.
= 1 1

En el caso de dos grupos
16
Ejemplo:

130.7 17.99
17.99 61.62
30.02 12.77 4.289 1.824
→
12.77 24.32 1.824 3.474
36.68 1.24 5.240 0.177
→
1. 21.30 0.177 3.043
66.7 14.01
14.01 45.62
4.764 1.001
. Matriz intra-grupos combinada.
1.001 3.259
5 7 2 32 16
. →
5 4 1 16 8
9 7 2 32 16
. →
3 4 1 16 8
64 32
32 16
17
4.3 Función discriminante canónica de Fisher: estimación e interpretación

Fisher (1936) propuso un enfoque empírico del problema discriminante que no asume ninguna
forma particular para la distribución de Xnxp=( X1 X2….. Xp).
Objetivo: buscar una función lineal de las p variables originales
Ynx1 = a1X1 + … + apXp =Xa donde ⋮
Para
1) separar los grupos existentes al máximo
2) clasificar nuevos casos en alguno de dichos grupos.
Dos características de Y: tema 0
1 ′ ′ .
2
2 ∑ 1 ’ ’

18
Cuestión: ¿Cómo elegir el vector de coeficientes a’=(a1, ...,ap)? El criterio de Fisher consiste
en elegir a que máximice el cociente entre la variabilidad entre grupos y la variabilidad dentro
de los grupos.
′
max max
′
La función es una función homogénea de grado 0, es decir, con ∈

. Por lo tanto, el vector a se puede reescalar sin que afecte al cociente.
Solución: el vector que maximiza es el vector propio de W-1B asociado con el
máximo valor propio. En el caso de dos grupos sólo hay un valor propio distinto de 0 y el vector
propio puede adquirir infinitas soluciones todas proporcionales a . . Otra
solución sería también
19

1 
4.764 1.001 4   0.224 - 0.069  4   1.035 
=  

 
=  
=
  
 1.001 3.259 - 2 - 0.069 0.328 - 2 - 0.932

Función discriminante: Y= = 1.035 X1 -0.932 X2
Clasificación
Una observación puede ser clasificada según el valor de la función discriminante en esa
observación, a este valor se le denomina puntuación discriminante.
Si la puntuación discriminante está más cerca de la media de la función discriminante del primer
grupo se clasifica en ese primer grupo.
Por el contrario, si la puntuación discriminante está más cerca de la media de la función
discriminante del segundo grupo se clasifica en este último grupo.
20
Regla de clasificación:
5  9
Y ′ = [1.035, -0.932]  =0.515;


Y ′ 
= [1.035, -0.932]  =6.519

5 3
Si Y = =1.035 X1 -0.932 X2 está más cerca de 0.515 clasificar en Grupo 1. Fallidos
Si Y= =1.035 X1 -0.932 X2 está más cerca de 6.519 clasificar en Grupo 2 No fallidos
Valor medio (“punto de corte”):

1 1 5 9
m̂ = ( ′ ′ )= ( [1.035, -0.932]   + [1.035, -0.932]   )= 3.345
 
2 2 5 3
Si Y = =1.035 X1 -0.932 X2 < 3.345 clasificar en Grupo 1. Fallidos
Si Y= =1.035 X1 -0.932 X2  3.345 clasificar en Grupo 2 No fallidos
21
GRUPOS Individuos Patrimonio Deudas Y= Clasificado

GRUPO I. Cliente 1 1.3 4.1 -2,474 I
Fallidos Cliente 2 3.7 6.9 -2,598 I
Cliente 3 5.0 3.0 2,381 I
Cliente 4 5.9 6.5 0,052 I
Cliente 5 7.1 5.4 2,319 I
Cliente 6 4.0 2.7 1,626 I
Cliente 7 7.9 7.6 1,098 I
Cliente 8 5.1 3.8 1,739 I
GRUPO II. Cliente 9 5.2 1.0 4,452 II
No fallidos Cliente 10 9.8 4.2 6,233 II
Cliente 11 9.0 4.8 4,845 II
Cliente 12 12.0 2.0 10,560 II
Cliente 13 6.3 5.2 1,677 I
Cliente 14 8.7 1.1 7,982 II
Cliente 15 11.1 4.1 7,672 II
Cliente 16 9.9 1.6 8,759 II
22
Ejemplo: Préstamos Banco Ademuz (Uriel, 1995, p. 259) con Spss

SPSS proporciona:
Coeficientes de la función canónica discriminante: son una transformación de los coeficientes de las
funciones de Fisher que cumplen que ′ 1. Se agrega una constante que es la mitad de la suma de
las medias de la función discriminante en cada grupo.
Coeficientes estandarizados de la función canónica discriminante: permiten comparar el poder
discriminante de cada variable. Variables con coeficientes grandes en valor absoluto indican que tienen un
alto poder discriminante.
Función canónica discriminante Función discriminante con las variables
tipificadas
Coeficientes de las funciones canónicas
discriminantes Coeficientes estandarizados de las funciones
Función discriminantes canónicas
1 Función
Patrimonio neto (millones de pesetas) ,422 1
Deuda pendiente (millones de pesetas) -,380 Patrimonio neto (millones de pesetas) ,922
(Constante) -1,437 Deuda pendiente (millones de pesetas) -,686
Coeficientes no tipificados
23
Regla de clasificación
La asignación de un nuevo individuo, cuyos valores son X’0=(X01, X02….,X0p) a uno de los grupos
se hará utilizando el valor de su puntuación discriminante, es decir, el valor que toma la
función discriminante en dicho individuo.
Cliente Préstamo Patrimonio Deuda Grupo pronosticado Valor de la función discriminante

1 Fallido 1,3 4,1 Fallido -2,44623=-1,437+0.422*1,3i-380*4,1 Funciones en
2 Fallido 3,7 6,9 Fallido -2,49687 los centroides
3 Fallido 5,0 3,0 Fallido -,46476 de los grupos
4 Fallido 5,9 6,5 Fallido -1,41530
Prestamo Función
5 Fallido 7,1 5,4 Fallido -,49006
6 Fallido 4,0 2,7 Fallido -,77319 1
7 Fallido 7,9 7,6 Fallido -,98856 Fallido -1,225
8 Fallido 5,1 3,8 Fallido -,72669 No fallido 1,225
9 No fallido 5,2 1,0 No fallido ,38018
Funciones
10 No fallido 9,8 4,2 No fallido 1,10693
discriminantes
11 No fallido 9,0 4,8 No fallido ,54081
12 No fallido 12,0 2,0 No fallido 2,87290 canónicas no tipificadas
13 No fallido 6,3 5,2 Fallido -,75201 evaluadas en las
14 No fallido 8,7 1,1 No fallido 1,82088 medias de los grupos
24
4.4 Validación de las hipótesis de partida

El método de clasificación de Fisher es óptimo (minimiza la probabilidad de clasificar mal a los
individuos) cuando
1  1 
 X|G1  Np(1,)  f1(x) = exp   (x  μ1 )'  1(x  μ1 )
|  |1/ 2 (2 ) p / 2  2 
 
 X|G2  Np(2,)  f2(x) = 1/ 2 1 p / 2 exp 1 (x  μ2 )' 1(x  μ2 )
|  | (2 )  2 
-¿Se cumple la hipótesis de normalidad?
Se puede analizar la normalidad variable a variable. Si hay una variable que no se

distribuye como una normal se incumple la hipótesis de normalidad. Aunque hay que
recordar que, aunque todas las variables se distribuyan como una nomal, la
distribución conjunta no necesariamente es una normal multivariante.
25
-¿Las matrices de varianzas y covarianzas en cada grupo son iguales?

Se puede utilizar la prueba M-Box. Se contrasta bajo la hipótesis nula que las
matrices de varianzas y covarianzas poblacionales de los grupos son iguales frente la
hipótesis alternativa que son diferentes. El estadístico de contraste está basado en los
determinantes de las matrices de varianzas y covarianzas muestrales de cada grupo
y de la matriz de varianzas y covarianzas intragrupos combinada. Este estadístico se
distribuye aproximadamente como una F de Snedecor.
Prueba de Box sobre la igualdad de las matrices de covarianza
Resultados de la prueba
Logaritmo de los determinantes
M de Box ,951
Prestamo Rango Logaritmo del
Aprox. ,268
determinante
gl1 3
Fallido 2 2,449 F
gl2 35280,000
No fallido 2 2,767
Sig. ,849
Intra-grupos combinada 2 2,676
26
4.5 Análisis del poder discriminante de la función discriminante.

 Correlación canónica: i=  (1   )
Es el coeficiente de correlación lineal entre la variable dependiente y las puntuaciones
discriminantes.
i1  fuerte relación grupo de pertenencia y valores función discriminante
Autovalores
Función Autovalor % de varianza % acumulado Correlación canónica
1 1,716a 100,0 100,0 ,795
a. Se han empleado las 1 primeras funciones discriminantes canónicas en el análisis.
27
Estadístico lambda de Wilks y estadístico V de Bartlett
Estadístico lambda de Wilks: Λ , con 0<<1. Nos indica qué parte de la variabilidad de la
función discriminante viene explicada por la variabilidad dentro de los grupos. O lo que es lo
mismo nos indica qué parte de la variabilidad de la función discriminante no viene explicada
por las diferencias entre los grupos.
H0: la media poblacional de la función discriminante en el primer grupo= la media poblacional

de la función discriminante en el segundo grupo.
H1: Son distintas
2
1 Λ→
2
28
= 1 =0.368 El 36.8% de la variabilidad de la función discriminante no viene explicada por

1  1
las diferencias entre los grupos.
 Contraste global  H0:la media de la función discriminante en el primer grupo = la media de
la función discriminante en el segundo grupo
 V=12.987, g.l.=2 (p-valor=0.002)
 Se rechaza H0  la función discriminante sirve es significativa (la diferencia entre los
grupos es significativa) .
Lambda de Wilks
Contraste de las funciones Lambda de Wilks Chi-cuadrado gl Sig.
1 ,368 12,987 2 ,002
29
4.6 Selección de variables

-Análisis previo de los datos.
 1) Primero se puede realizar un análisis descriptivo univariante calculando las medias y las
desviaciones estándar de las variables originales para cada uno de los grupos por separado.
Si para alguna variable las medias de los grupos son diferentes y la variabilidad es pequeña,
se considera que dicha variable será importante a la hora de discriminar a los grupos.
 2) Este análisis descriptivo se debería completar con los correspondientes contraste F
univariantes de igualdad de medias entre los grupos para cada variable.
 Valores elevados de F para una variable, con un nivel de significación próximo a cero,
implican el rechazo de las hipótesis igualdad medias entre los grupos y, por tanto,
diferencias significativas entre los grupos para esa variable.
 Valores pequeños de F, que conllevan niveles de significación mayor, nos permiten
aceptar la igualdad de medias entre los grupos para esas variables.
En consecuencia, aquellas variables con niveles de significación más próximos a cero tendrán,
en principio, un potencial de discriminación mayor que las otras.
30
-Técnicas de selección de variables

1. Selección hacia delante
Comienza seleccionando la variable que más discrimina (F-test) y la empareja con cada una de las k-1
restantes  elige la pareja que más discrimina (F-test)
FIN: todas las variables están seleccionadas o ninguna restante significativa
2. Selección hacia atrás

Comienza incluyendo todas las variables y en cada etapa elimina aquella variable cuya supresión produce
un menor descenso en la discriminación
FIN: todas las variables incluidas son significativas (F-test)
3. Selección paso a paso

“Combinación” de ambos: en cada etapa puede entrar, y también salir, una variable
FIN: (a) ninguna variable que está fuera cumple condición de entrada; (b) la variable a entrar es la recién
eliminada; (c) ninguna variable incluida cumple criterio de salida
Buen procedimiento  pocos individuos mal clasificados
31
4.7 Validación del proceso de clasificación
Buen procedimiento  pocos individuos mal clasificados
 Matriz de confusión: aplicar la regla de clasificación a los propios datos y contar el

nº de casos que son correcta e incorrectamente clasificados  Subestima la
proporción de casos mal clasificados
 Validación cruzada o “jacknife”: eliminar un caso; obtener las funciones

discriminantes para los n-1 restantes; aplicar la regla para clasificar el caso
excluido; repetir el proceso con todos los n casos
32
Resultados de la clasificacióna,c
Prestamo Grupo de pertenencia pronosticado Total
Fallido No fallido
Fallido 8 0 8
Recuento
No fallido 1 7 8
Original
Fallido 100,0 ,0 100,0
%
No fallido 12,5 87,5 100,0
Fallido 8 0 8
Recuento
No fallido 2 6 8
Validación cruzadab
Fallido 100,0 ,0 100,0
%
No fallido 25,0 75,0 100,0
a. Clasificados correctamente el 93,8% de los casos agrupados originales.
b. La validación cruzada sólo se aplica a los casos del análisis. En la validación cruzada, cada caso se clasifica mediante
las funciones derivadas a partir del resto de los casos.
c. Clasificados correctamente el 87,5% de los casos agrupados validados mediante validación cruzada.
33
4.8 Interpretación de las funciones discriminantes

- Posición de los individuos y los centroides
Las medias de las funciones discriminantes en cada grupo se denominan centroides. En
este caso el valor medio de la función discriminante en el grupo de los fallidos es -1,225 y
en el grupo de los no fallidos es 1,225. La clasificación de un cliente entre fallido o no fallido
dependerá de si el valor de función discriminante en dicho cliente esté más cerca de -1,225
o 1,225.
Funciones en los centroides de los grupos

Prestamo Función
1
Fallido -1,225
No fallido 1,225
Funciones discriminantes canónicas no tipificadas evaluadas en las medias de los grupos
34
-. Contribución de las variables a la discriminación
 Coeficientes estandarizados
Coeficientes que definirían a las funciones discriminantes si éstas se hubieran obtenido a
partir de las variables tipificadas, Z1,..,Zp. Indican el peso “relativo” de cada variable en las
funciones discriminantes (como en regresión)
Coeficientes estandarizados de las funciones discriminantes canónicas

Función
1
Patrimonio neto (millones de pesetas) ,922
Deuda pendiente (millones de pesetas) -,686
La variable que más importancia tiene en la función discriminante y, por tanto, mayor poder
discriminante es el patrimonio neto. El signo positivo nos indica la dirección de la relación.
35
 Matriz de estructura
Representa las correlaciones entre las variables (X1,..,Xp) y las funciones discriminantes.
Matriz de estructura
Función
1
Patrimonio neto (millones de pesetas) ,748
Deuda pendiente (millones de pesetas) -,452
Correlaciones intra-grupo combinadas entre las variables discriminantes y las funciones discriminantes
canónicas tipificadas
Variables ordenadas por el tamaño de la correlación con la función.
36
4.9 Probabilidades a posteriori de pertenencia al grupo

La probabilidad de que un cliente, con una puntuación discriminante y, pertenezca al grupo i-ésimo se puede
estimar con la regla de Bayes
p(Gi/y) =
p( y / Gi ) p(Gi )
 p( y / Gi ) p(Gi )
*p(Gi) es la probabilidad a priori. Esta se puede determinar de diferentes modos.
Si la muestra se considera representativa de la población, se pueden usar las proporciones de los casos
en cada grupo como estimadores de dichas probabilidades.
Cuando los grupos tienen el mismo número de individuos y/o no se tiene ningún tipo de información previa
se asigna probabilidades a priori iguales para todos los grupos.
*P(y/Gi) es la probabilidad de obtener la puntuación y estando en el grupo i-ésimo. Como las puntuaciones
discriminantes se calculan a partir de combinaciones lineales de p variables normales, y/Gi también se
distribuye como una normal.
37
Estadísticos por casos

Número de caso Grupo real Grupo mayor Segundo grupo mayor Puntuaciones
discriminantes
Grupo P(D>d | G=g) P(G=g | D=d) Distancia de Grupo P(G=g | D=d) Distancia de Función 1
pronosticado p Gl Mahalanobis al Mahalanobis al
cuadrado cuadrado
hasta el hasta el
centroide centroide
1 1 1 ,222 1 ,998 1,491 2 ,002 13,479 -2,446
2 1 1 ,203 1 ,998 1,617 2 ,002 13,854 -2,497
3 1 1 ,447 1 ,757 ,578 2 ,243 2,856 -,465
4 1 1 ,849 1 ,970 ,036 2 ,030 6,972 -1,415
5 1 1 ,462 1 ,769 ,540 2 ,231 2,942 -,490
6 1 1 ,651 1 ,869 ,204 2 ,131 3,994 -,773
7 1 1 ,813 1 ,919 ,056 2 ,081 4,901 -,989
8 1 1 ,618 1 ,856 ,249 2 ,144 3,810 -,727
Original
9 2 2 ,398 1 ,717 ,714 1 ,283 2,577 ,380
10 2 2 ,906 1 ,938 ,014 1 ,062 5,439 1,107
11 2 2 ,494 1 ,790 ,468 1 ,210 3,119 ,541
12 2 2 ,099 1 ,999 2,715 1 ,001 16,795 2,873
13 2 1** ,636 1 ,863 ,224 2 ,137 3,909 -,752
14 2 2 ,551 1 ,989 ,355 1 ,011 9,279 1,821
15 2 2 ,639 1 ,985 ,220 1 ,015 8,523 1,694
16 2 2 ,361 1 ,995 ,833 1 ,005 11,310 2,138
Para los datos originales, la distancia de Mahalanobis al cuadrado se basa en las funciones canónicas.
Para los datos validados mediante validación cruzada, la distancia de Mahalanobis al cuadrado se basa en las observaciones.
**. Caso mal clasificado
b. La validación cruzada sólo se aplica a los casos del análisis. En la validación cruzada, cada caso se clasifica mediante las funciones derivadas a partir del resto de los casos.
38
Extensiones del análisis discriminante que veremos muy brevemente en clases prácticas:
 Proceso de selección de variables (lectura del capítulo 9 del libro de Uriel y Aldás)
 Análisis discriminante con más de dos grupos (lectura sobre la calidad de vida en los municipios de
Valladolid. lectura obligatoria.). El proceso es semjante que el caso de dos grupos. En este caso se
pueden definir más de una función discriminante. En concreto,
el número de funciones discriminantes= min (el número de grupos-1, el número de variables)

Por ejemplo, si tenemos 3 grupos y 5 variables, el número de funciones discriminantes que se pueden deducir
es 2.
 Otros criterios de clasificación: máxima verosimilitud, enfoque bayesiano, distancia de Mahalanobis
39

Tema4adiscriminate19 20

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema4adiscriminate19 20

Cargado por

Copyright:

Formatos disponibles

TEMA 4: ANÁLISIS DISCRIMINANTE

 Comprender los supuestos básicos del análisis discriminante y valorar la conveniencia de

Tema 4. Análisis discriminante.

Peña D. (2002) Análisis de Datos Multivariantes., Mc Graw Hill capítulo 13

4.1 Introducción. Motivación

Veamos cómo se posicionan los 16 clientes respecto a cada variable

0,0 2,0 4,0 6,0 8,0 10,0 12,0 14,0

0,0 1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0

 ¿Cómo clasificariamos a los clientes si sólo tuvieramos datos del patrimonio?

Media grupo I=5 Punto de corte=7 Media grupo II=9

0,0 2,0 4,0 6,0 8,0 10,0 12,0 14,0

 ¿Cómo clasificariamos a los clientes si sólo tuvieramos datos de la deuda?

¿Cuál sería la regla de clasificación?:

Completa el grupo pronosticado

 ¿Cómo clasificariamos a los clientes si utilizaramos la información de las dos variables

Grupo Grupo Grupo Grupo

Ejemplo1: Caracterización del nivel de bienestar de los municipios de la provincia de Valladolid.

Ejemplo2: Caracterización del perfil de los compradores de un determinado producto en un

Ejemplo 4: Establecer las características más destacadas de los clientes morosos y la

Se utiliza también en medicina (detección de enfermedades), ingeniería (reconocimiento de la

El análisis de regresión: en la regresión, la endógena es métrica.

El análisis ANOVA: en el ANOVA, la endógena es métrica y las exógenas no métricas

El logit-probit: idéntica al discriminante en el objetivo pero apoyada en técnicas de

ANOVA Regresión Logit/Probit Discriminante

Naturaleza de Categóricas Cuantitativas Cuantitativas Cuantitativas

Matriz de datos (g=2):

Los centros de gravedad o centroides son los vectores de medias:

S1 y S2 Matrices de varianzas y covarianzas muestrales con los datos de cada grupo.

La matriz de sumas de cuadrados y productos cruzados (SCPC):

En el caso de dos grupos

4.3 Función discriminante canónica de Fisher: estimación e interpretación

Ynx1 = a1X1 + … + apXp =Xa donde ⋮

La función es una función homogénea de grado 0, es decir, con ∈

Solución: el vector que maximiza es el vector propio de W-1B asociado con el

Ejemplo: Préstamos Banco Ademuz (Uriel, 1995, p. 259)

Función discriminante: Y= = 1.035 X1 -0.932 X2

Si Y= =1.035 X1 -0.932 X2 está más cerca de 6.519 clasificar en Grupo 2 No fallidos

Valor medio (“punto de corte”):

Si Y = =1.035 X1 -0.932 X2 < 3.345 clasificar en Grupo 1. Fallidos

Si Y= =1.035 X1 -0.932 X2  3.345 clasificar en Grupo 2 No fallidos

GRUPOS Individuos Patrimonio Deudas Y= Clasificado

Ejemplo: Préstamos Banco Ademuz (Uriel, 1995, p. 259) con Spss

Cliente Préstamo Patrimonio Deuda Grupo pronosticado Valor de la función discriminante

4.4 Validación de las hipótesis de partida

-¿Se cumple la hipótesis de normalidad?

Se puede analizar la normalidad variable a variable. Si hay una variable que no se

-¿Las matrices de varianzas y covarianzas en cada grupo son iguales?

4.5 Análisis del poder discriminante de la función discriminante.

Estadístico lambda de Wilks y estadístico V de Bartlett

H0: la media poblacional de la función discriminante en el primer grupo= la media poblacional

H1: Son distintas

Ejemplo: Préstamos Banco Ademuz (Uriel, 1995, p. 259)

= 1 =0.368 El 36.8% de la variabilidad de la función discriminante no viene explicada por

4.6 Selección de variables

-Técnicas de selección de variables

2. Selección hacia atrás

3. Selección paso a paso

4.7 Validación del proceso de clasificación

Buen procedimiento  pocos individuos mal clasificados

 Matriz de confusión: aplicar la regla de clasificación a los propios datos y contar el

 Validación cruzada o “jacknife”: eliminar un caso; obtener las funciones

4.8 Interpretación de las funciones discriminantes