Documentos de Académico
Documentos de Profesional
Documentos de Cultura
OBJETIVOS DOCENTES
4.1 Introducción.
4.2 Notación.
4.3 Función discriminante canónica de Fisher: estimación e interpretación.
4.4 Validación de las hipótesis de partida
4.5 Determinación del número de funciones discriminantes significativas.
4.6 Selección de variables.
4.7 Interpretación de las funciones discriminantes
4.8 Validación del proceso de clasificación
4.9 Probabilidades a posteriori de pertenencia al grupo
Bibliografía:
2
Análisis discriminante
3
Análisis discriminante
Patrimonio Neto
Deuda pendiente
4
Análisis discriminante
Regla de clasificación:
Si el patrimonio es menor que el punto de corte el cliente se clasifica en el grupo I.
Si el patrimonio es mayor que el punto de corte el cliente se clasifica en el grupo II.
Grupo
cliente patrimonio Grupo real Grupo pronosticado cliente patrimonio Grupo real pronosticado
1 1,3 Fallido Fallido 9 5,2 No fallido Fallido
2 3,7 Fallido Fallido 10 9,8 No fallido No fallido
3 5,0 Fallido Fallido 11 9,0 No fallido No fallido
4 5,9 Fallido Fallido 12 12,0 No fallido No fallido
5 7,1 Fallido No Fallido 13 6,3 No fallido Fallido
6 4,0 Fallido Fallido 14 8,7 No fallido No fallido
7 7,9 Fallido No Fallido 15 11,1 No fallido No fallido
8 5,1 Fallido Fallido 16 9,9 No fallido No fallido
5
Análisis discriminante
Grupo
cliente deuda Grupo real Grupo pronosticado cliente deuda Grupo real pronosticado
1 4,1 Fallido 9 1,0 No fallido
2 6,9 Fallido 10 4,2 No fallido
3 3,0 Fallido 11 4,8 No fallido
4 6,5 Fallido 12 2,0 No fallido
5 5,4 Fallido 13 5,2 No fallido
6 2,7 Fallido 14 1,1 No fallido
7 7,6 Fallido 15 4,1 No fallido
8 3,8 Fallido 16 1,6 No fallido
6
Análisis discriminante
Media grupo I: 0
Media grupo II: 6
Punto de corte: 3
7
Análisis discriminante
El análisis discriminante es una técnica de dependencia que trata de buscar una combinación
lineal de las variables originales (cuantitativas), de tal forma que sirva para diferenciar mejor los
dos grupos (diferencias en media).
Objetivos:
Describir las diferencias entre los grupos de acuerdo con los valores que toman ciertas
variables en dichos grupos encontrar funciones de dichas variables (funciones
discriminantes) que diferencien los grupos lo más posible
Clasificar nuevos individuos en alguno de los grupos existentes en base a los valores
que toman las funciones discriminantes en dichos individuos
8
Análisis discriminante
9
Análisis discriminante
10
Análisis discriminante
Ejemplo 3: Se desea conocer las características más destacadas de los contribuyentes que
defraudan a Hacienda y conocer los contribuyentes a los que hay que revisar su declaración por
un alto riesgo de fraude fiscal. A partir de los ficheros históricos de las declaraciones, se toman
datos del nivel de renta, el número de hijos a su cargo, el régimen de tenencia de la vivienda, la
actividad profesional de los contribuyentes que han defraudado y de los que no han defraudado.
El resultado suele ser la revisión de las declaraciones que tengan una mayor probabilidad de
haber defraudado.
11
Análisis discriminante
Diferencias con:
12
Análisis discriminante
13
Análisis discriminante
4.2 Notación
p=número de variables;
n=número de individuos;
g=número de grupos=2
ni=número de individuos en el grupo i (n1+n2 = n)
…
⋮ ⋮ ⋮ ⋮
…
⋯
…
⋮ ⋮ ⋮ ⋮
…
Elemento genérico xijg, i representa el
individuo, j la variable y g el grupo
14
Análisis discriminante
X1 X 11 X 12
X X 21
x 2 x 1 x 2
X
22
px1 px1
px1
X X X
p p1 p2
Vector de medias con Vector de medias con los
el conjunto de datos. datos de cada grupo.
15
Análisis discriminante
2
SCPC 2i
i 1 i 1
X pi X p
n
2
i 1
SCPC1 y SCPC2 son las matrices de sumas de cuadrados y productos cruzados en cada grupo.
= 1 1
16
Análisis discriminante
Ejemplo:
130.7 17.99
17.99 61.62
30.02 12.77 4.289 1.824
→
12.77 24.32 1.824 3.474
36.68 1.24 5.240 0.177
→
1. 21.30 0.177 3.043
66.7 14.01
14.01 45.62
4.764 1.001
. Matriz intra-grupos combinada.
1.001 3.259
5 7 2 32 16
. →
5 4 1 16 8
9 7 2 32 16
. →
3 4 1 16 8
64 32
32 16
17
Análisis discriminante
Para
1) separar los grupos existentes al máximo
2) clasificar nuevos casos en alguno de dichos grupos.
Dos características de Y: tema 0
1 ′ ′ .
2
2 ∑ 1 ’ ’
18
Análisis discriminante
Cuestión: ¿Cómo elegir el vector de coeficientes a’=(a1, ...,ap)? El criterio de Fisher consiste
en elegir a que máximice el cociente entre la variabilidad entre grupos y la variabilidad dentro
de los grupos.
′
max max
′
máximo valor propio. En el caso de dos grupos sólo hay un valor propio distinto de 0 y el vector
propio puede adquirir infinitas soluciones todas proporcionales a . . Otra
solución sería también
19
Análisis discriminante
Clasificación
Una observación puede ser clasificada según el valor de la función discriminante en esa
observación, a este valor se le denomina puntuación discriminante.
Si la puntuación discriminante está más cerca de la media de la función discriminante del primer
grupo se clasifica en ese primer grupo.
Por el contrario, si la puntuación discriminante está más cerca de la media de la función
discriminante del segundo grupo se clasifica en este último grupo.
20
Análisis discriminante
Regla de clasificación:
5 9
Y ′ = [1.035, -0.932] =0.515;
Y ′
= [1.035, -0.932] =6.519
5 3
Si Y = =1.035 X1 -0.932 X2 está más cerca de 0.515 clasificar en Grupo 1. Fallidos
21
Análisis discriminante
22
Análisis discriminante
23
Análisis discriminante
Regla de clasificación
La asignación de un nuevo individuo, cuyos valores son X’0=(X01, X02….,X0p) a uno de los grupos
se hará utilizando el valor de su puntuación discriminante, es decir, el valor que toma la
función discriminante en dicho individuo.
24
Análisis discriminante
1 1
X|G1 Np(1,) f1(x) = exp (x μ1 )' 1(x μ1 )
| |1/ 2 (2 ) p / 2 2
X|G2 Np(2,) f2(x) = 1/ 2 1 p / 2 exp 1 (x μ2 )' 1(x μ2 )
| | (2 ) 2
25
Análisis discriminante
26
Análisis discriminante
Autovalores
Función Autovalor % de varianza % acumulado Correlación canónica
1 1,716a 100,0 100,0 ,795
a. Se han empleado las 1 primeras funciones discriminantes canónicas en el análisis.
27
Análisis discriminante
Estadístico lambda de Wilks: Λ , con 0<<1. Nos indica qué parte de la variabilidad de la
función discriminante viene explicada por la variabilidad dentro de los grupos. O lo que es lo
mismo nos indica qué parte de la variabilidad de la función discriminante no viene explicada
por las diferencias entre los grupos.
2
1 Λ→
2
28
Análisis discriminante
29
Análisis discriminante
30
Análisis discriminante
31
Análisis discriminante
32
Análisis discriminante
Resultados de la clasificacióna,c
Prestamo Grupo de pertenencia pronosticado Total
Fallido No fallido
Fallido 8 0 8
Recuento
No fallido 1 7 8
Original
Fallido 100,0 ,0 100,0
%
No fallido 12,5 87,5 100,0
Fallido 8 0 8
Recuento
No fallido 2 6 8
Validación cruzadab
Fallido 100,0 ,0 100,0
%
No fallido 25,0 75,0 100,0
a. Clasificados correctamente el 93,8% de los casos agrupados originales.
b. La validación cruzada sólo se aplica a los casos del análisis. En la validación cruzada, cada caso se clasifica mediante
las funciones derivadas a partir del resto de los casos.
c. Clasificados correctamente el 87,5% de los casos agrupados validados mediante validación cruzada.
33
Análisis discriminante
34
Análisis discriminante
Coeficientes estandarizados
Coeficientes que definirían a las funciones discriminantes si éstas se hubieran obtenido a
partir de las variables tipificadas, Z1,..,Zp. Indican el peso “relativo” de cada variable en las
funciones discriminantes (como en regresión)
La variable que más importancia tiene en la función discriminante y, por tanto, mayor poder
discriminante es el patrimonio neto. El signo positivo nos indica la dirección de la relación.
35
Análisis discriminante
Matriz de estructura
Representa las correlaciones entre las variables (X1,..,Xp) y las funciones discriminantes.
Matriz de estructura
Función
1
Patrimonio neto (millones de pesetas) ,748
Deuda pendiente (millones de pesetas) -,452
Correlaciones intra-grupo combinadas entre las variables discriminantes y las funciones discriminantes
canónicas tipificadas
Variables ordenadas por el tamaño de la correlación con la función.
36
Análisis discriminante
p(Gi/y) =
p( y / Gi ) p(Gi )
p( y / Gi ) p(Gi )
*p(Gi) es la probabilidad a priori. Esta se puede determinar de diferentes modos.
Si la muestra se considera representativa de la población, se pueden usar las proporciones de los casos
en cada grupo como estimadores de dichas probabilidades.
Cuando los grupos tienen el mismo número de individuos y/o no se tiene ningún tipo de información previa
se asigna probabilidades a priori iguales para todos los grupos.
*P(y/Gi) es la probabilidad de obtener la puntuación y estando en el grupo i-ésimo. Como las puntuaciones
discriminantes se calculan a partir de combinaciones lineales de p variables normales, y/Gi también se
distribuye como una normal.
37
Análisis discriminante
38
Análisis discriminante
Extensiones del análisis discriminante que veremos muy brevemente en clases prácticas:
Proceso de selección de variables (lectura del capítulo 9 del libro de Uriel y Aldás)
Análisis discriminante con más de dos grupos (lectura sobre la calidad de vida en los municipios de
Valladolid. lectura obligatoria.). El proceso es semjante que el caso de dos grupos. En este caso se
pueden definir más de una función discriminante. En concreto,
39