Clasifcacion Discrimacion 1

ANALISIS
MULTIVARIADO
UNIDAD IV
DISCRIMINACION Y CLASIFICACION
INTRODUCCÓN
 La discriminación y la clasificación son técnicas multivariantes que se ocupan de separar
conjuntos distintos de objetos (u observaciones) y asignar nuevos objetos (observaciones) a
grupos previamente definidos.
 El análisis discriminante es más bien exploratorio por naturaleza. Como procedimiento de

separación, se suele emplear una sola vez para investigar las diferencias observadas cuando no
se conocen bien las relaciones causales o no se comprenden bien las relaciones causales.
 Los procedimientos de clasificación son menos exploratorios en el sentido de que conducen a

reglas bien definidas, que pueden utilizarse para asignar nuevos objetos. La clasificación suele
requerir una mayor estructuración del problema que la discriminación.
INTRODUCCÓN
 Así, los objetivos inmediatos de la discriminación y la clasificación, respectivamente, son los
siguientes:
 Objetivo 1. Describir, ya sea gráficamente (en tres o menos dimensiones) o algebraicamente

las características diferenciales de los objetos (observaciones) de varias colecciones conocidas
(poblaciones). Intentamos encontrar "discriminantes“ cuyos valores numéricos sean tales que
las colecciones se separen lo más posible.
 Objetivo 2. Clasificar los objetos (observaciones) en dos o más clases etiquetadas. El objetivo
es en derivar una regla que pueda utilizarse para asignar óptimamente nuevos objetos a las
clases etiquetadas.
PARA 2 PABLACIONES
 Para fijar las ideas, enumeremos las situaciones en las que uno puede estar interesado en
separar dos clases de objetos o asignar un nuevo objeto a una de las dos clases. Es
conveniente etiquetar las clases y 2 Los objetos se separan o clasifican ordinariamente sobre la
base de medidas sobre, por ejemplo, p variables aleatorias asociadas X' = [X 1, X2 , ….. , Xp].
Los valores observados de X difieren en cierta medida de una clase a otra.
 Podemos pensar que la totalidad de los valores de la primera clase son la población de valores
de x para y los de la segunda clase son la población de valores de x para 2 .Estas dos
poblaciones pueden describirse mediante funciones de densidad de probabilidad f 1(x) y f2(x),
y en consecuencia, podemos hablar de asignar observaciones a poblaciones u objetos a clases
indistintamente.
PARA 2 PABLACIONES
Poblaciones y 2 Variables medidas X

compañías de seguros de responsabilidad civil Activos totales, coste de las acciones y bonos,
solventes y en dificultades valor de mercado de las acciones y bonos, gastos
por pérdidas, excedente, importe de las primas
suscritas
dispépticos
dispépticos no
no ulcerosos
ulcerosos (aquellos
(aquellos con
con problemas
problemas medidas
medidas de
de ansiedad,
ansiedad, dependencia,
dependencia, culpa,
culpa,
de malestar estomacal) y controles (normales)
de malestar estomacal) y controles (normales) perfeccionismo
perfeccionismo
Riesgo de crédito bueno y malo Ingresos, edad, número de tarjetas de crédito,
tamaño de la familia
Riesgo de crédito bueno y malo Ingresos, edad, número de tarjetas de crédito,
alcohólicos y no alcohólicos actividad
tamaño dedelalafamilia
enzima monoamino oxidasa,
actividad de la enzima adenilato ciclasa
alcohólicos y no alcohólicos actividad de la enzima monoamino oxidasa,
actividad de la enzima adenilato ciclasa
PARA 2 PABLACIONES
 Llegados a este punto, puede que se pregunte cómo es que sabemos que algunas
observaciones pertenecen a una población concreta, pero no estamos seguros de otras. (Esto,
por supuesto, es lo que hace que la clasificación sea un problema). Varias condiciones pueden
dar lugar a esta aparente anomalía
 1. Conocimiento incompleto del futuro rendimiento.

 Ejemplo: En el pasado, se observaron valores extremos de ciertas variables financieras 2 años
antes de la posterior quiebra de una empresa. Clasificar otra empresa de una empresa como
sólida o en dificultades sobre la base de los valores observados de estos indicadores
adelantados puede permitir a los responsables tomar medidas correctivas, si es necesario,
antes de que sea demasiado tarde.
PARA 2 PABLACIONES
 2. La información "perfecta" requiere la destrucción del objeto.
 ejemplo: La vida útil de la pila de una calculadora se determina utilizándola hasta que se
caiga, y la resistencia de un trozo de madera se obtiene cargándolo hasta que se se rompa. Los
productos defectuosos no se pueden vender. Se quiere clasificar los productos como buenos o
malos (que no cumplen las especificaciones) sobre la base de ciertas medidas preliminares.
 3. Información no disponible o cara.

 Ejemplo: Se supone que algunos de los Documentos Federalistas fueron escritos por James
Madison o Alexander Hamilton porque los firmaron, otros documentos no fueron firmados y
es interesante determinar cuál de los dos hombres escribió los documentos no firmados.
Evidentemente, no podemos preguntárselo a ellos. La frecuencia de las palabras y la longitud
de las frases pueden ayudar a clasificar los Documentos controvertidos.
PARA 2 PABLACIONES
 De estos ejemplos debería quedar claro que las reglas de clasificación no suelen proporcionar
un método de asignación sin errores. Esto se debe a que puede no haber una clara distinción
entre las características medidas de las poblaciones; es decir, los grupos pueden solaparse.
 Entonces es posible, por ejemplo, clasificar incorrectamente un objeto 2 como perteneciente a

o un objeto como perteneciente a 2 .
EJEMPLO
 Consideremos dos grupos en una ciudad: , propietarios de cortacéspedes a caballo, y 2 los que
no tienen cortacéspedes a caballo, es decir, los no propietarios. Con el fin de identificar las
mejores perspectivas de venta para una campaña intensiva de ventas, un fabricante de
cortacéspedes está interesado en clasificar a las familias de propietarios o no propietarios en
función de X1 = ingresos y X2 = tamaño de la parcela. Las muestras aleatorias de n1 = 12
propietarios actuales y n2 = 12 no propietarios actuales.
EJEMPLO
EJEMPLO
 Se observa que los propietarios de cortacéspedes tienden a tener mayores ingresos y parcelas
más grandes que los no propietarios, aunque los ingresos parecen ser un mejor
"discriminador" que el tamaño de la parcela.
 Por otra parte, existe un cierto solapamiento entre los dos grupos. Si, por ejemplo, asignamos
los valores de (X1,X2) que caen en la región R1 (según la línea continua de la figura) a ,
propietarios de segadoras y los valores de (X1,X2) que caen en la región R2 a 2 , los no
propietarios, cometeríamos algunos errores. Algunos propietarios de cortacéspedes se
clasificarían incorrectamente como no propietarios y, a la inversa, algunos no propietarios
como propietarios. La idea es crear una regla (regiones RI y R2 ) que minimice las
posibilidades de cometer estos errores.
EJEMPLO
 Un buen procedimiento de clasificación debería dar lugar a pocas clasificaciones erróneas. En
otras palabras, las posibilidades, o probabilidades, de clasificación errónea deben ser
pequeñas. Como veremos, hay otras características que debe poseer una regla de clasificación
"óptima".
 Puede ser que una clase o población tenga una mayor probabilidad de aparecer que otra
porque una de las dos poblaciones es relativamente mucho mayor que la otra. Por ejemplo,
suele haber más empresas financieramente sólidas que empresas en quiebra. Otro ejemplo:
una especie de pamplina puede ser más frecuente que otra.
EJEMPLO
 Una regla de clasificación óptima debería tener en cuenta estas probabilidades "previas" de
ocurrencia". Si realmente creemos que la probabilidad (a priori) de que una empresa entre en
crisis y acabe quebrando es muy pequeña o Si realmente creemos que la probabilidad (a
priori) de que una empresa tenga problemas financieros y acabe quebrando es muy pequeña,
deberíamos clasificar una empresa seleccionada al azar como no quebrada, a menos que los
datos favorezcan de forma abrumadora la quiebra.
 Otro aspecto de la clasificación es el coste. Supongamos que clasificar un objeto como que
pertenezca a 2 representa un error más grave que clasificar un objeto 2 como perteneciente a .
En ese caso, hay que ser prudente a la hora de hacer la primera asignación.
EJEMPLO
 Como ejemplo, no diagnosticar una enfermedad potencialmente mortal es sustancialmente
más "costoso" que concluir que la enfermedad está presente cuando, en realidad, no lo está.
Un procedimiento óptimo de Un procedimiento de clasificación óptimo debe tener en cuenta,
siempre que sea posible, los costes asociados a la clasificación errónea. con la clasificación
errónea.
 Sean f1(x) y f2(x) las funciones de densidad de probabilidad asociadas a la pX1 vector
aleatorio X para las poblaciones y 2 , respectivamente. Un objeto con medidas asociadas debe
asignarse a o 2 . Sea Ω el espacio muestral, es decir, la colección de todas las posibles
observaciones .
EJEMPLO
 Sea R1 ese conjunto de valores de x para los que clasificamos los objetos como y R2 = Ω - R 1
el resto de valores de valores de x para los que clasificamos los objetos como 2 . Dado que
cada objeto debe ser asignado a una y sólo una de las dos poblaciones, los conjuntos RI y R2
son mutuamente excluyentes y exhaustivos. Para p = 2, La probabilidad condicional P(2/1),
de clasificar un objeto como 2 cuando, en realidad es de es
EJEMPLO
 El signo integral en la figura anterior representa el volumen formado por la función de

densidad f1(x) sobre la región R2. Del mismo modo, el signo integral en esta figura representa
el volumen formado por f2(x) sobre la región R1.
 Esto se ilustra en la siguiente Figura para el caso univariante univariante, P = 1
EJEMPLO
 Sea P1 la probabilidad a priori de y P2 la probabilidad a priori de 2, donde p1 + p2 = 1.

Entonces, las probabilidades globales de clasificar correctamente o incamente los objetos se
pueden derivar como el producto de las probabilidades de clasificación a priori y condicional
de clasificación condicional:
EJEMPLO
EJEMPLO
 Los esquemas de clasificación se evalúan a menudo en términos de sus probabilidades de
clasificación errónea pero esto ignora el coste de la clasificación errónea.
 Por ejemplo incluso una probabilidad aparentemente pequeña como 0,06 = P(2/1) puede ser
demasiado grande si el coste de hacer una asignación incorrecta a 2 es extremadamente alto.
Una regla que ignore los costes puede causar problemas. Los costes de la clasificación errónea
pueden definirse mediante una matriz de costes:
EJEMPLO
 Los costes son cero para la clasificación correcta, (2) c(1/2) cuando una observación de se
2
clasifica incorrectamente como , y (3) c(2/1) cuando una observación de se clasifica
incorrectamente como 2 .
 Para cualquier regla, el coste medio o esperado de la clasificación errónea (ECM) se obtiene
multiplicando las entradas no diagonales de la tabla por sus probabilidades de ocurrencia. En
consecuencia,
 Una regla de clasificación razonable debería tener un ECM tan pequeño, o casi, como sea
posible.
Clasificación con dos poblaciones normales multivariantes
 Los procedimientos de clasificación basados en poblaciones normales predominan en la
práctica estadística debido a su simplicidad y a su eficacia razonablemente alta en una amplia
variedad de modelos de población. Suponemos ahora que f1(x) y f2(x) son densidades
normales multivariadas, la primera con vector medio µ1 y matriz de covarianza ∑1 y la
segunda con vector medio µ2 y matriz de covarianza ∑2 .
 El caso especial de matrices de covarianza iguales conduce a un estadístico de clasificación

lineal particularmente sencillo:
Clasificación de las poblaciones normales cuando ∑1 = ∑2 = ∑

Clasificación con dos poblaciones normales multivariantes
 Supongamos también que se conocen los parámetros poblacionales µ 1, µ2 e ∑ . Entonces, tras

la cancelación de los términos (2π)P/2| ∑ |1/2 las regiones mínimas del ECM se convierten en:
 Dadas estas regiones R1 y R2 , podemos construir la regla de clasificación dada en el siguiente

resultado.
Enfoque de Fisher para la clasificación con dos poblaciones
 La idea de Fisher era transformar las observaciones multivariantes x a observaciones

univariantes Y de forma que las y derivadas de la población y 2 estuvieran lo más separadas
posible. Fisher sugirió tomar combinaciones lineales de x para crear y's porque son funciones
lo suficientemente simples de la x como para ser manejadas fácilmente.
 El enfoque de Fisher no supone que las poblaciones sean normales. Sin embargo, asume
implícitamente que las poblaciones son normales y que las matrices de covarianza de las
poblaciones son iguales, porque se utiliza una estimación conjunta de la matriz de covarianza
común.
 Una combinación lineal fija de las x toma los valores Y 11, Y12, ... Y1n1 para las observaciones
de la primera población y los valores Y21, Y22, ... , Y2n2 para las observaciones de la segunda
población. La separación de estos dos conjuntos de Y univariantes se evalúa en términos de la
diferencia entre 1 e 2. expresada en unidades de desviación estándar. Es decir,
 es la estimación conjunta de la varianza. El objetivo es seleccionar la combinación lineal de

las x para conseguir la máxima separación de las medias muestrales 1 e 2
 Considerar:
¿Es la clasificación una buena idea?
 Para dos poblaciones, la máxima separación relativa que puede obtenerse considerando
combinaciones lineales de las observaciones multivariantes es igual a la distancia D 2. Esto es
conveniente porque la D2 puede utilizarse, en ciertas situaciones, para probar si las medias
poblacionales µ1 y µ2 difieren significativamente.
 En consecuencia, una prueba de las diferencias en los vectores de las medias puede
considerarse como una prueba de la "importancia" de la separación que puede lograrse.
¿Es la clasificación una buena idea?
 Supongamos que las poblaciones y 2 son normales multivariantes con una matriz de
covarianza común ∑. Entonces, como en la sección anterior, una prueba de Ho: µ 1 = µ2 frente
a H1: µ1 ≠ µ2 se lleva a cabo refiriendo
 una distribución F con v1= p y v2= n1 + n2 – p.
 Ho se rechaza, podemos concluir que la separación entre las dos poblaciones y 2 es

significativa.
 Revisar Clasificación de poblaciones normales cuando ∑ ≠ ∑

Regla de clasificación cuadrática – covarianza desiguales
 Asignar x0 para si:
 Asignar x0 para de lo contrario.
 La clasificación con funciones cuadráticas es bastante complicada en más de dos dimensiones

y puede llevar a resultados extraños. Esto es especialmente cierto cuando los datos no son
(esencialmente) normales multivariantes.
 La figura muestra la regla de igualdad de costes e igualdad de prioridades basada en el caso

idealizado de dos distribuciones normales con diferentes varianzas. Esta regla cuadrática
conduce a una región R1 formada por dos conjuntos de puntos disjuntos.
 En muchas aplicaciones, la cola inferior de la distribución será menor que la prescrita por una
distribución normal. Entonces, como se muestra en la Figura (b) la parte inferior de la región
R1 producida por el procedimiento cuadrático, no se alinea bien con las distribuciones de la
población y puede conducir a grandes tasas de error. Una grave debilidad de la regla
cuadrática es que es sensible a las desviaciones de la normalidad.
 Si los datos no son normales multivariantes, existen dos opciones. En primer lugar, los datos
no normales pueden transformarse en datos más cercanos a la normalidad, y se puede realizar
una prueba de igualdad de las matrices de covarianza para ver si la regla lineal o la regla
cuadrática (11-29) es apropiada.
 Las transformaciones se analizan en el capítulo 4. (Las pruebas habituales de homogeneidad

de la covarianza se ven muy afectados por la no normalidad. La conversión de los datos no
normales en datos no normales debe realizarse antes de llevar a cabo esta prueba).
 En segundo lugar, podemos utilizar una regla lineal (o cuadrática) sin preocuparnos por la
forma de las poblaciones y esperar que funcione razonablemente bien. Los estudios han
demostrado, sin embargo, que hay casos no normales en los que una función de clasificación
función de clasificación lineal no funciona bien, aunque las matrices de covarianza de la
población sean las mismas.
 La moraleja es que siempre hay que comprobar el rendimiento de cualquier procedimiento de

clasificación. Como mínimo, esto debería hacerse con los conjuntos de datos utilizados para
construir el clasificador. Lo ideal es que haya suficientes datos disponibles para proporcionar
muestras de "entrenamiento" y muestras de "validación". Las muestras de entrenamiento
pueden utilizarse para desarrollar la función de clasificación, y las muestras de validación
pueden utilizarse para evaluar su rendimiento.

Clasifcacion Discrimacion 1

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Clasifcacion Discrimacion 1

Cargado por

Copyright:

Formatos disponibles

ANALISIS

 El análisis discriminante es más bien exploratorio por naturaleza. Como procedimiento de

 Los procedimientos de clasificación son menos exploratorios en el sentido de que conducen a

 Objetivo 1. Describir, ya sea gráficamente (en tres o menos dimensiones) o algebraicamente

Poblaciones y 2 Variables medidas X

 1. Conocimiento incompleto del futuro rendimiento.

 3. Información no disponible o cara.

 Entonces es posible, por ejemplo, clasificar incorrectamente un objeto 2 como perteneciente a

 El signo integral en la figura anterior representa el volumen formado por la función de

 Sea P1 la probabilidad a priori de y P2 la probabilidad a priori de 2, donde p1 + p2 = 1.

 El caso especial de matrices de covarianza iguales conduce a un estadístico de clasificación

Clasificación de las poblaciones normales cuando ∑1 = ∑2 = ∑

 Supongamos también que se conocen los parámetros poblacionales µ 1, µ2 e ∑ . Entonces, tras

 Dadas estas regiones R1 y R2 , podemos construir la regla de clasificación dada en el siguiente

 La idea de Fisher era transformar las observaciones multivariantes x a observaciones

 es la estimación conjunta de la varianza. El objetivo es seleccionar la combinación lineal de

 una distribución F con v1= p y v2= n1 + n2 – p.

 Ho se rechaza, podemos concluir que la separación entre las dos poblaciones y 2 es

 Revisar Clasificación de poblaciones normales cuando ∑ ≠ ∑

 Asignar x0 para si:

 Asignar x0 para de lo contrario.

 La clasificación con funciones cuadráticas es bastante complicada en más de dos dimensiones

 La figura muestra la regla de igualdad de costes e igualdad de prioridades basada en el caso

 Las transformaciones se analizan en el capítulo 4. (Las pruebas habituales de homogeneidad

 La moraleja es que siempre hay que comprobar el rendimiento de cualquier procedimiento de

También podría gustarte