Está en la página 1de 5

ANALISIS MULTIVARIANTE

Es un conjunto de tcnicas que se utilizan cuando se trabaja sobre colecciones e de datos en las cules hay muchas variables implicadas. Los principales proba lemas, en este contexto, son: (i) [Anlisis en Componentes Principales] Muchas de las variables que se a recogen entre los individuos de la poblacin estn correlacionadas, con lo o a cul la informacin es redundante. Interesa, por lo tanto, reducir el nmero a o u de variables para resumir adecuadamente la informacin. En este sentido, o la tcnica consiste en crear articialmente unas pocas variables nuevas e que retengan una parte signicativa de la informacin proporcionada por los o datos. El procedimiento para crear dichas variables es matemtico y no hay a seguridad de que las nuevas variables tengan un sentido claro; sin embargo, en muchos casos esas variables pueden interpretarse, es decir, se les puede dotar de sentido. Por ejemplo, si tomamos como variables las notas de un conjunto de alumnos de Bachillerato en las distintas materias, el anlisis en a componentes principales puede reducir las variables a unas pocas variables, que quiz puedan identicarse como a ndices de competencia human stica, cient co-tcnica, etc. e (ii) [Anlisis Discriminante] Consideremos una variable Y , categrica, con a o una cantidad nita de valores (niveles) posibles, y varias variables numricas e X1 , . . . , Xn . Tanto la variable Y como las Xi se registran simultneamente a sobre un conjunto de individuos. Por ejemplo, si consideramos un conjunto de pacientes afectados de una cierta enfermedad, las Xi podr ser el an nmero de pulsaciones, el nmero de glbulos rojos, niveles de calcio, potau u o sio, etc. y la variable Y podr ser una variable cualitativa que indica si se a estima que el paciente puede curar totalmente, parcialmente, o no curar. Se plantean entonces dos cuestiones: (a) Cules de entre las variables Xi permiten discriminar mejor el valor de Y a entre distintas alternativas? (obsrvese que en el fondo estamos intentando e detectar inuencias). (b) Dado un nuevo individuo en el cul se han registrado los valores de las a variables Xi , predecir el valor ms probable de Y para dicho individuo (es a decir, clasicar dicho individuo en alguno de los niveles posibles para la variable Y ). (iii) [Anlisis Cluster] Dado un conjunto amplio de individuos sobre los cules a a se han registrado los valores de ciertas variables numricas X1 , . . . , Xn , die vidir a dichos individuos en k grupos, tambin llamados clusters, distintos e 1

(el nmero de grupos lo ja el experimentador) de modo que los elemenu tos de cada grupo posean cierta anidad. La tcnica para determinar los e clusters es matemtica, es decir, la idea de anidad se traduce en ciertos a procedimientos matemticos que permiten agrupar observaciones. Al igual a que en el caso del anlisis en componentes principales, corre despus a cargo a e del experimentador dar sentido a cada uno de los grupos determinados, es decir, encontrar los rasgos, comunes a las observaciones pertenecientes a un cluster dado, que lo denen. Por ejemplo, en el caso de los clientes de una empresa, el anlisis cluster puede servir para dividir a dichos clientes en a distintos grupos, cada uno con un perl distinto. A menudo las tcnicas anteriores se combinan. Por ejemplo, puede suceder que e la prediccin de una cierta variable categrica Y mejore cuando se utilizan no o o ciertas variables Xi , sino ciertas combinaciones de las Xi determinadas a partir de un anlisis en componentes principales. O que el anlisis discriminante a a funcione mejor sobre los elementos de un cierto cluster, en lugar de aplicarse a toda la muestra, etc.

Anlisis en Componentes Principales a El problema es el siguiente: dadas X1 , . . . , Xn variables, recogidas sobre una cierta poblacin, que poseen las siguientes caracter o sticas, a. n es grande b. Entre ellas existen correlaciones (es decir, proporcionan informacin reduno dante). c. Tienen signicacin (es decir, cada Xi tiene un sentido claro), o determinar nuevas variables Y1 , . . . , Ym , llamadas componentes principales, cada una de ellas de la forma Yj = a1,j X1 + + an,j Xn (el coeciente ak,i recibe el mombre de peso de la variable Xi en Yj ) y con las siguientes caracter sticas: a. m es menor que n (a menudo, signicativamente menor) b. Las Yj son independientes (es decir, entre ellas no hay correlaciones, y por tanto no proporcionan informacin redundante). o c. En principio, se obtienen a partir de un procedimiento matemtico, y no a hay certeza de que tengan un signicado claro. Sin embargo, al observar en las Yj las variables que tienen mayor peso (es decir, aquellas a las que corresponden los mayores ak,j ), algunas Yj pueden interpretarse (observemos que para hacer efectivo este criterio, las Yj deben ser de tamaos similares). n 2

En principio, el procedimiento matemtico suministra Y1 , . . . , Yn , es decir, el a mismo nmero de Yj que de Xi (lo cul no supone ningn adelanto). Sin emu a u bargo, las Yj aparecen ordenadas segn el porcentaje de informacin original u o (es decir, procedente de las Xi ) que retienen. De este modo, basta con tomar unas cuantas Yj , no todas, para retener un porcentaje de informacin suo ciente. Es en esta etapa del proceso cuando el nmero de variables se reduce. u Dicho porcentaje de informacin se mide como el porcentaje de varianza origo inal retenida. La idea es que, conocidas las varianzas de las Xi (que pueden calcularse a partir de los datos originales) y las expresiones de las Yj (es decir, una vez determinados los pesos de las Xi en cada Yj ), las varianzas de las Yj pueden determinarse. Adems, la varianza conjunta de varias variables se a estima como la suma de las varianzas. Puesto que la varianza conjunta de las Xi supone una estimacin de la diversidad presente en los datos, para que o un nmero reducido de Yj describa sucientemente bien la poblacin la variu o anza conjunta de estas Yj debe suponer un porcentaje sucientemente grande (digamos, cerca del 80 por ciento) de la variabilidad original. De hecho, este es el criterio que suele considerarse para escoger las componentes principales ms relevantes. a

Anlisis Discriminante a Dadas X1 , . . . , Xn variables numricas, y una variable categrica (o discreta) e o Y , que recibe el nombre de variable clasicadora o factor de clasicacin, o y que posee k valores (niveles) posibles, se plantean dos cuestiones: (i) Determinar las Xi ms inuyentes a la hora de discriminar el valor de Y a entre distintas opciones. Este problema est relacionado con las llamadas a funciones discriminantes. (ii) Predecir el valor de Y ms probable para un individuo en el que se han rega istrado valores concretos de las Xi . Esta cuestin puede responderse tambin o e mediante las funciones discriminanes, o bien mediante las llamadas funciones de clasicacin. o Las funciones discriminantes son expresiones del tipo:

F1 = a1 X1 + a2 X2 + + an Xn F2 = b1 X1 + b2 X2 + + bn Xn . . . donde los ai , bj , etc. reciben el nombre de pesos. Cada funcin discriminante o posee un cierto poder discriminante. En general, el procedimiento proporciona varias funciones discriminantes; de ellas, nosotros nos quedaremos con unas cuntas (en ocasiones, bastar con una) de modo que el poder discriminante a a 3

total sea grande. Cada funcin discriminante permite discriminar entre diso tintas opciones, de modo que la utilizacin sucesiva de todas las funciones o permite discriminar efectivamente el valor de Y ; por ejemplo, si Y es un diagnstico sobre un enfermo del tipo cura totalmente, cura parcialmente o o no cura, y tenemos dos funciones discriminantes, puede suceder que la primera permita distinguir entre aquellos pacientes que curan (total o parcialmente) y aquellos que no, mientras que la segunda funcin permita distinguir o los que curan totalmente de los que slo lo hacen parcialmente. Si por el cono trario, en el mismo ejemplo tenemos slo una funcin discriminante, de su o o valor podemos deducir directamente el posible diagnstico de entre las tres o alternativas que se dan. Observemos que, si las variables involucradas en la funcin tienen tamaos similares, las variables que poseen mayor peso en cada o n funcin discriminante son las ms inuyentes a la hora de discriminar Y entre o a las alternativas correspondientes a dicha funcin. o Si la variable Y tiene k niveles posibles, hay k funciones de clasicacin o

s1 = c1,0 + c1,1 X1 + + c1,n Xn . . . sj = cj,0 + cj,1 X1 + + cj,n Xn de modo que dado un nuevo individuo, que registra valores x1 , . . . , xn en las respectivas variables Xi , el valor ms probable de Y para dicho individuo se a obtiene sustituyendo los valores x1 , . . . , xn en las funciones de clasicacin, o y tomando el nivel correspondiente al sub ndice de aquella funcin que de o un valor mayor. En el caso de las funciones de clasicacin, los coecientes o de las funciones no son interpretables, y por tanto no pueden utilizarse para responder a la pregunta (i).

Anlisis Cluster a Dado un nmero sucientemente grande de individuos entre los cules hemos u a registrado los valores de las variables numricas X1 , . . . , Xn , queremos dividir e las observaciones en grupos (clusters) segn criterios de homogeneidad. Es u decir, cada grupo responder a un cierto perl, cuya descripcin corre a cargo a o del experimentador (es decir, el criterio para formar los clusters es matemtico, a y los resultados son interpretados por el experimentador, si ello es posible). Para formar los grupos o clusters, el procedimiento es el siguiente: (1) Fijamos una cierta distancia. La ms habitual es la eucl a dea al cuadrado, segn la cul la distancia entre dos puntos del plano es el cuadrado de la u a longitud de la porcin de recta que los une; esta nocin puede generalizarse o o al espacio, y a un nmero mayor de dimensiones. Hay, no obstante, otras u 4

nociones posibles de distancia, que tambin pueden usarse. e (2) Fijamos un nmero (k) de clusters. u (3) Buscamos la pareja de datos ms prxima, conforme a la distancia jada a o en (1). Dicha pareja forma, provisionalmente, un grupo. (4) A partir de este momento, continuamos buscando la pareja ms prxima. a o En este sentido, el grupo formado en (3) cuenta ahora como una sla entio dad, y por tanto se hace necesaria denir la distancia de una observacin o a un grupo como el anterior, o, en general, la distancia entre dos grupos (por ejemplo, entre dos parejas que han sido encontradas en distintos pasos del procedimiento). Para medir distancias entre grupos hay distintas posibilidades. Entre ellas: mtodo del centroide: Se sustituye el grupo por el punto (centroide) cuyas e coordenadas son las medias de las observaciones que integran el grupo. De este modo, la distancia entre dos grupos es la distancia entre sus centroides, medida segn (1). u mtodo del vecino ms prximo: La distancia entre dos grupos es la menor e a o de las distancias (segn (1)) entre los integrantes de cada grupo. u mtodo de Ward: tiene en cuenta la variabilidad total de cada grupo, de e modo que la distancia entre dos grupos se dene como el aumento que se producir en la variabilidad conjunta si ambos grupos se fundieran para a formar uno slo. Este mtodo requiere que la distancia jada en (1) sea o e la eucl dea al cuadrado. etc. (5) Reiteramos el paso (4) hasta obtener k clusters. Conviene observar que el experimentador tiene que decidir tanto el nmero u de clusters, como la distancia entre observaciones y la distancia entre grupos. Distintas elecciones para estos parmetros llevan a resultados distintos, con a lo cul en cada caso habr que ver qu elecciones arrojan resultados ms a a e a signicativos.

También podría gustarte