Está en la página 1de 6

Anlisis discriminante.

Vernica Londoo Osorio. Juan Pablo Viana Villa. Qu es el anlisis discriminante? El anlisis discriminante es una tcnica de la estadstica multivariada que permite a investigadores de diversas reas de las ciencias generar modelos a fin de clasificar un individuo dentro de uno de varios grupos mutuamente excluyentes determinados previamente. se trata de minimizar el error en la clasificacin y se parte de un vector
x1 x= x 2 ... xp

[]

asociado a cada elemento , el cual contiene medidas de

algunas caractersticas cuantificables del individuo; por ejemplo a la hora de clasificar un animal de una especie como perteneciente a una raza (grupo), podra emplearse un vector asociado en el cual x 1 : peso ; x 2 : altura ; x 3 :tamao de las patas ; x 4 :tamao de la cabeza entre otras; el anlisis discriminante determina adems la relevancia de cada variable (caracterstica) en la clasificacin de individuos, reducindose as la dimensin de los vectores asociados y con sta la complejidad de los modelos. Cundo de empez a utilizar? El primero en emplear el anlisis discriminante, y quien podra considerarse el padre de sta y varias disciplinas ms de la estadstica, fue el cientfico britnico Ronald Aylmer Fisher, afamado bilogo e investigador del siglo XX. El problema al que se enfrent Fisher fue el de clasificar grupos de plantas partiendo de de caractersticas de su fisionoma, tales como: longitud y separacin del spalo, longitud y separacin del ptalo. Cundo se utiliza el anlisis discriminante? El anlisis discriminante se hace especialmente til cuando se necesiten clasificar elementos en familias y la informacin de la que se dispone es limitada; este caso puede darse por ejemplo en procesos de control de calidad o en procesos donde la medicin de muchas variables puede resultar demasiado costoso o simplemente poco prctico. Es de acotar que las variables a usar deben ser linealmente independientes, el hecho de que una o ms sea combinacin lineal de las otras hace que stas no aporten informacin para la clasificacin, por lo que su inclusin en el modelado es inadecuado. El anlisis discriminante se usa cuando se desea determinar cul de las variables independientes cuantifica mejor las diferencias entre un grupo u otro. Cmo comenzar? Lo primero que se debe hacer es determinar frente a que tipo de problema se est, es decir, hay que identificar si lo que se desea es clasificar individuos en determinadas poblaciones o si se desea

seleccionar las variables que influyan mas significativamente en las diferencias entre poblaciones. En el caso de la clasificacin debe hacerse un reconocimiento de la informacin sobre las variables con la que se cuenta, es decir, considerar si se conocen o no las funciones con las que stas se distribuyen; luego se procede a elegir el mtodo, sugerido por la tcnica, que ms se acomode a nuestras necesidades. Cmo se sabe frente a que caso se est? Hay tres aspectos a tener en cuenta: 1. cuntas poblaciones se tienen? 2. conozco la funcin de distribucin de las variables? 3. cmo se relacionan la variables? , es decir, tienen los grupos matrices de covarianza iguales? , puedo suponerlo? Cul es el caso mas simple? El caso mas sencillo de todos se presenta cuando se tienen dos grupos con funciones de distribucin son conocidas y las matrices de varianza-covarianza son iguales, en particular cuando stas son distribuciones normales multivariadas N (i , V ) . cmo proceder en el caso ms simple? Cuando se tienen dos grupos
1 , 2

preestablecidos con funciones


x1 x= x 2 ... xp

f 1( x) , f 2 ( x ) respectivamente

y se desea clasificar un individuo con medidas

[]

, se procede a calcular la probabilidad de que P(ix 0) , la cual

el individuo provenga de alguno de los dos grupos, es decir, es necesario calcular haciendo uso del teorema de Bayes puede ser hallada como : P(ix 0)= P ( x 0i ) f i ( x0 ) = P( x 01)+P(x 02) f 1 ( x 0 )+f 2 (x 0) (1)

como los denominadores son iguales, se clasifica un individuo en 1 cuando f 1( x0 )>f 2 ( x 0) (2)

Muchas veces los investigadores cuentan con informacin previa sobre las probabilidades de que un i . Otro factor es el individuo pertenezca a un grupo, sta se conoce como probabilidad a priori llamado costo de clasificacin C ( j i ) , el cual es un indicador de cuanto cuesta hacer una mala clasificacin (clasificar en el grupo j dado que pertenece a i). Estos dos conceptos pueden incluirse en la expresin (2) de la siguiente forma: 1 f 1( x 0) f (x ) > 2 2 0 C (1 2 ) C (21) (3)

Otra forma de hacer la clasificacin es mediante la denominada funcin discriminante lineal , definida como: z=b ' x (4) donde
b=V ( 1 2)
1

(5)

La utilidad de esta funcin radica en que resume la informacin contenida en el vector x en un escalar, lo que da una manera ms entendible de cuantificar un individuo a partir de sus caractersticas. Geomtricamente, se est tratando de establecer un rea del espacio donde se encuentre cada poblacin, intuitivamente se deduce que un individuo pertenece a la poblacin a la que se encuentre ms cerca. Es posible estimar la distancia entre el centro de una poblacin y un individuo mediante la denominada distancia cuadrada de Mahalanobis , definida como:
D i =( x i )' v ( x i ) (6)
2 1

Es razonable pues clasificar en 1 si:


D 2>D1
2 2

(7)

Combinando los conceptos de la distancia cuadrada de Mahalanobis y la funcin discriminante lineal, se obtiene un criterio de clasificacin equivalente: el individuo pertenece a 1 si zk>0 ; 1 (8) k = (1 2) V 1 (1+ 2) 2 Lo que se obtiene con (8) es determinar si el individuo se encuentra a la derecha o a la izquierda de la linea que divide a dos poblaciones. Cuando tanto los errores de clasificacin como las covarianzas sean iguales para los grupos, es posible definir las funciones de clasificacin como: 1 c i=i ' V 1 x i ' V 1 i+ln(i ) (9) 2 Se escoge el grupo que entregue el mayor valor para la funcin de clasificacin. Qu hacer cuando no conozco la funcin de distribucin de las variables? Cuando la funcin de distribucin es desconocida y se cuenta con una cantidad considerablemente grande de mediciones para cada variable del grupo g, es posible hacer uso de estimadores. Para la media se puede estimar mediante : n 1 x g= x ig (10) n g i=1
g

donde g representa el grupo e i representa cada individuo en el grupo . para la matriz de varianzacovarianza del grupo g se usa:

1 Sg= ( x x )( x x )' (11) ng 1 i=1 ig g ig g y por el teorema central del limite cada grupo tendr una distribucin normal multivariada N ( xg , Sg ) . Una buena suposicin es que las poblaciones tienen igual o muy parecida matriz de varianzacovarianza, por lo que puede usarse una combinacin de la las matrices individuales para obtener la matriz combinada: Sw =
G

ng

g=1

ng 1 S (12) ng g

en donde G representa el nmero total de grupos. El procedimiento es en adelante igual al caso de funciones de densidad conocidas y matrices de varianza-covarianza iguales. Qu hacer cuando se tienen ms de dos poblaciones? Cuando se tienen ms de dos poblaciones es posible extender los mtodos descritos anteriormente, se elije pues un grupo cuando: 1. El grupo minimice la distancia de Mahalanobis, es decir, se escoge el grupo que genere el D2 mas pequeo. i 2. El grupo genere la la mayor probabilidad a posteriori. 3. La funcin de clasificacin entregue el valor mas grande. Son confiables estos mtodos de discriminacin? Como en la mayora de teoras estadsticas, en el proceso de clasificacin se induce un error, ste puede ser estimado mediante procedimientos sencillos. Uno de ellos es el mtodo de restitucin, el cual consiste en emplear los modelos de discriminacin para clasificar la muestra que se ha usado para generarlos; es de esperarse que cada individuo sea clasificado correctamente, pero el error involucrado en la generacin de los modelos hace que algunos de ellos sean clasificados errneamente. El error ser pues la proporcin de individuos mal clasificados. La tabla 1 muestra como puede realizarse el clculo del error. Grupo al que pertenece. A B Asignar a A Decisin correcta Error Asignar a B Error Decisin correcta

Tabla 1- Proporcin de error.

El problema con usar la misma poblacin para estimar el error es que sta resulta ser sesgada, es decir, dicha estimacin no es tan buena como se esperara. Para mejorar la estimacin es recomendable dividir la muestra en dos, generar los modelos de clasificacin con un subconjunto y validar con el

otro. Cmo se sabe que variables son tiles para clasificar? Para la generacin de modelos adecuados para la clasificacin se requiere que ninguna variable dependa de otras, es decir, que todas sean linealmente independientes. Existen tres mtodos bsicos para la seleccin de las variables, pero los tres se basan en los criterios de la distribucin F (distribucin de Fisher), particularmente en su aplicacin en el test ANOVA, dicho test nos va a decir que tanto se relacionan las variables, as pues, mientras mayor sea el valor de de F mayor ser la varianza entre las variables. El primero de los mtodos (basados en la distribucin F) es el mtodo hacia adelante o Forward que consiste en seleccionar la variable que tenga mayor valor de F, si ninguna variable produce un valor significativo, entonces ese grupo de variables no sirve para discriminar; en caso de que se encuentre dicha variable se comparan las dems con sta y se selecciona una segunda si alguna entrega un valor de F comparable con el establecido por el investigador en un test de covarianza. Si no se cumple que alguna variable llegue al valor establecido se detiene el proceso, caso contrario se continua con la seleccin de una tercera y as sucesivamente. El segundo mtodo es el mtodo de eliminacin hacia atrs o backward que consiste tomar todas la variables y compararlas entre ellas mediante un test de covarianza, aquella que no sea significativa (respecto de lo establecido por el investigador) se elimina, si todas son significativas se para el proceso. Si se elimina alguna se vuelve a realizar el anlisis de covarianza y otra vez se elimina la menos significativa y as sucesivamente hasta que todas las variables sean significativas. El tercer mtodo es el mtodo paso a paso o step to step el cual es una combinacin de los dos anteriores. Se comienza con la seleccin variables como en el forward, pero a diferencia de este en cada paso en el que se selecciona una variable se realiza una anlisis de covarianza y de ser necesario se elimina la que no sea significativa segn los criterios del backward.

Bibliografa. (1) Johnson, Dallas E. Mtodos multivariados aplicados al anlisis de datos. Edicin 1. Mxico: International Thomson Editores SA, ao 2000. 566p. (2) Pea, Daniel. Anlisis de datos multivariantes. Edicin 1. Madrid: McGrawHill, ao 2002. 539p. (3) Klecka, William R. Discriminant analysis. Edicin 1. Iowa:Sara Miller McCune, Sage Publications, Inc, ao 1980. 70p. ISBN 9780585180939. (4) Diaz,Luis . Estadstica Multivariada:inferencia y mtodos. Edicin 1 . Bogot D.C: Editorial Panamericana formas e impresos S.A, ao 2002.

También podría gustarte