Está en la página 1de 8

ANALISIS DISCRIMINANTE

Mg. Solange Basualdo


La Distribución Normal Multivariante
• Un vector X k-dimensional de variables aleatorias: X = (X1, X2, X3..., Xk)
• Una realización de una variable aleatoria X k-dimensional: x = (x1, x2, x3..., xk)
• Una función de probabilidad conjunta acumulada de una variable aleatoria X k-dimensional:
• F(x1, x2, x3..., xk) = P(X1x1, X2x2,..., Xkxk)
La variable aleatoria normal multivariada tiene la siguiente función de densidad de probabilidad
 1 ( X  )1( X  )
 
 
 
 
 

f (x , x ,, x )  1 e 2
 
 
 

1 2 k  k 1

2 2


2
 
La Distribución Normal Multivariante
f(x1,x2)

x2
x1
Análisis Discriminante
En un análisis discriminante, las observaciones se clasifican en dos o más grupos, según el valor de
una función discriminante multivariada.
Como lo ilustra la figura, puede ser más fácil clasificar las observaciones mirándolas desde otra
dirección. Los grupos aparecen más separados cuando se observan desde un punto perpendicular a
la Línea L, en lugar de desde un punto perpendicular al eje X1 o X2. La función discriminante
proporciona la dirección que maximiza la separación entre los grupos.
X2

Group 1

1

2 Group 2

Line L

X1
Análisis Discriminante
Las técnicas de análisis discriminante se utilizan para clasificar a las personas en
uno o más grupos alternativos (o poblaciones) sobre la base de un conjunto de
mediciones. Se sabe que las poblaciones son distintas, y cada individuo pertenece a
uno de ellos.
Estas técnicas también pueden usarse para identificar qué variables contribuyen a
hacer la clasificación. Por lo tanto, como en el análisis de regresión, tenemos dos
usos, predicción y descripción.
Supuestos
• Linealidad: similar a otras técnicas multivariantes que emplean una variable (es decir,
combinación lineal que representa la suma ponderada de dos o más variables predictoras
que discriminan mejor entre grupos definidos a priori), una suposición implícita es que
todas las relaciones entre todos los pares de predictores dentro de cada grupo son lineales.
• Normalidad multivariante: la suposición es que los puntajes de cada variable predictora
se distribuyen normalmente (normalidad univariante) y que la distribución muestral de la
combinación de dos o más predictores también se distribuye normalmente (normalidad
multivariada). La normalidad multivariada es difícil de probar y actualmente no existen
pruebas específicas capaces de probar la normalidad de todas las combinaciones lineales
de distribuciones muestrales de predictores. Sin embargo, dado que la normalidad
multivariado implica normalidad univariada (aunque lo contrario no es necesariamente
cierto), una situación en la que todas las variables muestran una normalidad univariada
ayudará a obtener, aunque no garantiza, la normalidad multivariada.
Supuestos
• Homogeneidad de las matrices de varianza-covarianza: cuando los tamaños de muestra
son desiguales y pequeños, las matrices de covarianza desiguales pueden afectar
negativamente los resultados de las pruebas de significación. Incluso con muestras de
tamaño decente, la heterogeneidad de las matrices de varianza-covarianza puede afectar
el proceso de clasificación por el cual los casos son "sobre clasificados" en grupos con
mayor variabilidad (Tabachnick y Fidell, 2001). Una prueba de esta suposición puede
hacerse a través de la M. de Box. Como esta prueba es demasiado sensible (aumenta la
probabilidad de error tipo I), se recomienda un nivel alfa de .001.

• Multicolinealidad: al igual que en el análisis de regresión múltiple, la multicolinealidad


denota la situación en la que las variables independientes / predictoras están altamente
correlacionadas. Cuando las variables independientes son multicolineales, existe una
"superposición" o intercambio de poder predictivo, de modo que una variable puede ser
altamente explicada o predicha por la (s) otra (s) variable (s). Por lo tanto, esa variable
predictora agrega poco al poder explicativo de todo el conjunto.
La Función Discriminante
La forma de la ecuación pronosticada estimada: D = b0 +b1X1+b2X2+...+bkXk
Donde bi son los pesos discriminantes y b0 es una constante.
La intersección de las distribuciones marginales normales de dos grupos da la puntuación de corte,
que se usa para asignar observaciones a grupos. Las observaciones con puntuaciones inferiores a C
se asignan al grupo 1, y las observaciones con puntuaciones superiores a C se asignan al grupo 2.
Dado que las distribuciones pueden superponerse, algunas observaciones pueden clasificarse
erróneamente.
El modelo se puede evaluar en términos de porcentajes de observaciones asignadas correcta e
incorrectamente. Group 2
Group 1

C
Cutting Score

También podría gustarte