Está en la página 1de 11

BANCO CENTRAL DE COSTA RICA

DIVISIN ECONMICA
DEPARTAMENTO DE INVESTIGACIONES ECONMICAS
DIE-NT-01-95

TCNICAS DE ANLISIS MULTIVARIANTE

Juan E. Muoz Gir

ENERO, 1995
TCNICAS DE ANLISIS MULTIVARIANTE1

INTRODUCCIN

En las ciencias econmicas el anlisis numrico de la informacin generalmente se ha


realizado por medio de simples clculos estadsticos, o bien, cuando es ms complejo, con el
uso del anlisis de regresin lineal. Es, por tanto, importante mostrar una serie de tcnicas de
anlisis que pueden ser consideradas como hermanas de la regresin lineal. Este parentesco
tan cercano se explica por provenir de la rama de la Estadstica conocida como anlisis
multivariante.

Estas hermanas de la regresin lineal son las siguientes: el anlisis de componentes


principales, el anlisis discriminante, el anlisis factorial, el anlisis de correlacin cannica y el
de conglomerados. Todos estos anlisis son variaciones de un mismo tema en el que el
objetivo principal es presentar diferentes desgloses de las variancias de un conjunto de datos y
someterlos a una serie de pruebas estadsticas para determinar el grado de asociacin entre
esas variancias y, por tanto, entre las variables.

El anlisis multivariable tiene una historia que data desde el uso de la regresin lineal por parte
de Gauss en 1809 y, posteriormente, por otros estadsticos como Markov en 1900. Las
tcnicas ms recientes datan desde los aos de 1930. En la actualidad, los paquetes
estadsticos y economtricos incluyen procedimientos para aplicar estas otras tcnicas del
anlisis de datos. A continuacin se resumen las principales caractersticas de estas tcnicas.

EL ANLISIS MULTIVARIABLE

En trminos generales, los conjuntos de datos se pueden clasificar en un subconjunto de


variables y y otro subconjunto de variables x. Considere que se tienen k1 variables en el
conjunto y y k2 variables en el grupo de las variables x. Pueden existir relaciones entre las
variables de un mismo grupo y entre las variables de los dos grupos. La existencia de
relaciones entre estas variables y su intensidad dependen, fundamentalmente, de la naturaleza
de las variables. Las variables estaran relacionadas por coeficientes para las variables y y
coeficientes para las variables x. Las relaciones entre las variables se puede observar de la
siguiente forma:

1 y 1i + 2 y 2i + . . . + k 1 y k1 i + 1 x1i + 2 x 2i +. . . + k 2 x k2 i + ui = 0 1

donde el nmero de observaciones por variable es i = 1,...,N y la variable u denota un trmino


aleatorio que captura la informacin contenida en el conjunto de series que no est explicada
por las asociaciones entre las x y las y. En funcin del comportamiento de las variables u y de
la clasificacin de las x y las y en un lado de la ecuacin o en el otro, se tendran diferentes
enfoques del tratamiento de los datos, los cuales constituyen los anlisis multivariantes
definidos anteriormente.

1
Autorizado por Lic. Hermgenes Arguedas Troyo.

1
Sin embargo, la discusin de estas tcnicas se tornara relativamente difcil si se trabajara
directamente con la ecuacin (1). Es por ello que el enfoque matricial permitira un manejo de
las relaciones estadsticas ms adecuado. En este sentido defnanse las siguientes matrices:2


y 1 1
y 2 1
y k 1 ,1

y y y
1 2 2 2 k 1 ,2

y =






y 1 N
y 2 N
y k 1 , N
Orden : (Nxk1)

y 1 1
y 2 1
y k 1 ,1

y y y
1 2 2 2 k 1 , 2


x =





y y y
1 N 2 N k 1 ,N
Orden: (Nxk2)


'= 1 2
k 1

Orden: (k1xN)


'= 1 2
k2

Orden: (k2xN)


U'= u1 u2 u N

Orden: (NxN)

2
En notacin matricial, el signo de comilla (') denota la transposicin de una matriz.

2
Los componentes de las matrices de coeficientes y corresponden a vectores de orden
(1xN). Con esta definicin matricial, las relaciones algebraicas de la ecuacin (1) se pueden
especificar como:

Y + X + U = 0 2

la cual posibilita sustancialmente el tratamiento estadstico del anlisis multivariante. El


supuesto bsico para llevar a cabo este anlisis es el de asumir una funcin de densidad
normal para cada una de las variables u. Por tanto, para la matriz U la funcin de densidad
conjunta es:

N N 1
(2 )- 2 | |- 2 e- 2 [U - E(U)]
-1[U - E(U)]
3

donde denota el determinante de la matriz , la matriz de variancias y covariancias de las


variables u.

Con el propsito de ilustrar la aplicacin de las diferentes tcnicas, considrese un ejemplo en


el que las variables y se refieren a las utilidades de los bancos comerciales, medidas bajo
alguna dimensin temporal (meses, trimestres, semestres, aos), mientras que las variables x
pueden ser variables asociadas con el funcionamiento de los bancos: niveles de depsitos y
crditos, estructuras de plazos de estos activos y pasivos, tasas de inters de los bonos
fiscales, inflacin, nivel de represin financiera (margen de intermediacin), injerencia poltica,
costos de operacin, etc.

ANLISIS DE REGRESIN LINEAL

En su aplicacin ms sencilla, la regresin lineal slo considera una variable y, por lo que la
matriz Y se convierte en un vector de orden (Nx1), mientras que el vector de los coeficientes
corresponde a un escalar. En trminos matriciales, la regresin lineal transforma a la ecuacin
(2) de la siguiente manera:

yi = X (- -11 ) + U 1
-1
4

En otras palabras, se traslada al conjunto de las variables x a la derecha de la ecuacin, con el


signo contrario que afecta a los coeficientes , y se divide por el coeficiente asociado con la
variable yi. Este procedimiento de dividir los coeficientes de las x por el coeficiente 1 recibe el
nombre de normalizacin. De aqu la interpretacin que generalmente se le concede a los
estimadores de esos coeficientes de establecer el efecto de la variable x por unidad de
variacin sobre la variable y. En forma ms reducida, la ecuacin (4) se conoce como:

yi = X + 5

donde el vector de coeficientes corresponde a los coeficientes entre parntesis de la


ecuacin (4). El vector de variables aleatorias corresponde a las variables u divididas por .
El anlisis de regresin lineal supone, adicionalmente, que E( ) = 0 y la matriz de variancias y
covariancias de equivalente a 2In, donde I es una matriz identidad de orden (NxN).

3
Los coeficientes representan el efecto de la variabilidad de las x sobre la variabilidad de la y.
Para obtener estos coeficientes se recurre, generalmente, a los estimadores mnimo
cuadrticos ordinarios definidos por:

$ = (x x )-1 x y
6

La teora de los mnimos cuadrados permite evaluar la calidad de los estimadores en trminos
de su insesgamiento y eficiencia, as como tambin el cumplimiento de los supuestos de la
regresin lineal.

En trminos de la ilustracin propuesta, las utilidades de los bancos comerciales se


constituiran en las variables dependientes, mientras que las variables exgenas estaran
definidas por las variables x. Las variables x seran los determinantes de las utilidades. O, en
otras palabras, la variabilidad de las y est explicada por la variabilidad de las x.

Bajo el supuesto de que las utilidades de los bancos no ejercen influencia entre ellas mismas y
que los trminos aleatorios son independientes de una ecuacin a la otra, el mtodo de
mnimos cuadrados ordinarios es el recomendable para analizar el comportamiento de las
utilidades bancarias. Sin embargo, si existiera un efecto cruzado de utilidades bancarias, en el
sentido de que las utilidades de un banco afectan las de otros bancos (una ecuacin tiene dos o
ms variables y), sera necesario aplicar un mtodo como el de mnimos cuadrados en dos
etapas, por ejemplo. An ms, si los componentes estocsticos de las ecuaciones estn
relacionados entre ellos, sera indispensable aplicar un mtodo como el de mnimos cuadrados
en tres etapas.

ANLISIS DE COMPONENTES PRINCIPALES

Para un conjunto de datos (x,y), como los de la ecuacin (2), la tcnica de componentes
principales permite obtener combinaciones lineales de aquellas variables (x,y) que aportan una
mayor contribucin a la explicacin de la variancia del conjunto de datos. Para obtener tales
combinaciones es necesario construir la matriz de variancias y covariancias de esas variables.

Por la importancia que representa esta tcnica en el anlisis de regresin, su explicacin se


har en funcin de la utilidad para resolver problemas de multicolinealidad. Uno de los
supuestos bsicos del anlisis de regresin lineal es el de asumir que las variables x son
linealmente independientes, de tal forma que sea posible invertir la matriz (x'x). Ello significa
que la matriz (x'x) tiene un determinante diferente de cero. En el caso de que este supuesto no
se cumpla, los coeficientes mnimo cuadrticos para estimar los parmetros no pueden ser
obtenidos. Existen variables que son linealmente dependientes.

Por consiguiente, una de las tcnicas recomendadas para evitar estos problemas de
multicolinealidad es la de construir una combinacin de las variables linealmente dependientes y
para ello se usa la tcnica de componentes principales.

La naturaleza de los componentes principales se puede entender mejor al preguntarse el grado


de independencia que realmente existe entre las k2 variables x. Para ello se considera una
transformacin de las variables en un nuevo conjunto en el que el primer componente aporta la

4
mayor variancia y los que le siguen van disminuyendo su contribucin a la variancia total.
Defnase entonces la combinacin como:
z1i = a 11 x1i + a21 x 2i + . . . + a k 2i x k 2 i , i = 1,..., N 7

En forma matricial:

z1 = X a 1 8
donde z es un vector (Nx1), X es una matriz de orden (Nxk2) y a es un vector (k2x1). La suma
de cuadrados de la nueva variable z est dada por:

z 1 z1 = a 1 X X a1 9

El objetivo del anlisis de componentes principales es el de maximizar esta suma de


cuadrados, la cual representa la variancia de z, sujeta a que la suma de cuadrados de los
coeficientes a sea igual a 1.

Este proceso de maximizacin con restriccin conduce a una solucin de orden de la forma:

(X X)a 1 = 1 a1 10

donde es el multiplicador de Lagrange, asociado con el problema de maximizacin, pero a la


vez es la raz caracterstica de la matriz (X'X). Esta raz caracterstica es un vector de
coeficientes ai, los cuales son valores caractersticos (eigenvalues). Se dice, por tanto, que
es la raz con el valor ms alto en la matriz (X'X) y que el primer componente principal de X es,
entonces, z 1.

Si se supone que la matriz (X'X) contiene k races caractersticas, entonces los k componentes
principales, ortogonales entre ellos mismos, se especificaran como:

Z = XA 11

donde la variancia de los componentes estara dada por:

Z Z = A X XA= 12

donde la matriz es de la forma:


1 0 0

0 2
0


=





0 0 k

5
En otras palabras, los elementos de la diagonal de la matriz proporcionan la ponderacin que
tienen los componentes principales en la variancia total de (X'X) de forma tal que 1 es mayor
que 2 y as sucesivamente.

En el ejemplo de las utilidades bancarias se puede presentar el caso en el que se definan


combinaciones lineales de las x que expliquen la variabilidad de las utilidades de cada banco.
Por ejemplo, el anlisis de componentes principales podra decir que una combinacin de los
niveles de depsitos, de crdito, los plazos de captacin y colocacin y los costos de operacin
aportan la mayor variabilidad a las utilidades. El segundo componente principal, el que sigue en
la explicacin de la variancia de las utilidades, puede ser una combinacin de las tasas de
inters del gobierno, el margen de intermediacin y la tasa de inflacin, por ejemplo. El anlisis
termina cuando se establece la ltima combinacin que explicara el remanente con el 100 por
ciento de variabilidad.

El anlisis de componentes principales es tambin til para la construccin de ndices e


indicadores adelantados.

ANLISIS FACTORIAL

El anlisis factorial, variante del anlisis de componentes principales, consiste en extraer los
componentes principales de una matriz de correlacin de las variables x y de las y. Se
diferencia del anlisis de componentes principales en que las ponderaciones i se transforman
de forma tal que su suma de cuadrados es igual al valor caracterstico de la matriz . El
anlisis factorial permite seleccionar el nmero de factores retenidos en la solucin final.

Considere que existen ciertos factores comunes F que influyen a las variables y y x
simultneamente. De la misma forma, existen factores especficos G1 que slo afectan a las
variables y y factores G2 que afectan exclusivamente a las x. Bajo estas condiciones, las
variables pueden ser expresadas como:

Y = A1 F + G1 13

X = A2 F + G2 14

donde F es un vector de m factores comunes a y y x; las matrices A corresponden a


coeficientes que asocian los factores comunes con las variables.

El anlisis factorial requiere que los factores F no estn relacionados con los factores G.
Tampoco se permite que haya covariancias entre los factores G. Adicionalmente, se supone
que los factores F poseen una matriz de variancias y covariancias igual a la matriz identidad (I).
Bajo estos supuestos, las variancias de las variables y y x estn dadas por:

var(Y) = 11 = A1 A1 + var(G1 ) 15

var(X) = 22 = A2 A2 + var( G2 ) 16

cov(Y, X) = 12 = A1 A 2 17

6
La ecuacin (17) significa que la correlacin entre y y x se explica solamente por sus factores
comunes. El menor nmero de factores comunes est dado por:

m = R 12 18

donde R es la matriz de correlaciones cannicas. La importancia fundamental del anlisis


factorial radica en la identificacin de las variables ms importantes, dentro de cada
componente principal, para explicar la covariancia entre y y x.

Es probable que las utilidades de los bancos comerciales (variables y) y el margen de


intermediacin financiera (variable x) estn altamente influidos por las tasas de inters de los
bonos fiscales, por la tasa de inflacin y por los costos de operacin. Si ello fuera cierto, el
anlisis factorial permitira observar la importancia de estos factores comunes en la explicacin
de la variabilidad de las utilidades y del margen de intermediacin financiera.

ANLISIS DE CORRELACIN CANNICA

Las correlaciones cannicas se definen como las correlaciones mltiples mximas entre unas
variables y varias funciones lineales de otras variables. Defnanse 11, 22 y 12 como las
matrices de variancias y covariancias entre y y x. Defnanse tambin dos combinaciones
lineales de variancia unitaria de la forma L'Y y M'X. El anlisis de correlacin cannica escoge
los coeficientes de las matrices L y M tal que la correlacin entre esas dos combinaciones
lineales es la mxima. En trminos matemticos, el problema consiste en maximizar la
covariancia de las combinaciones lineales:

L 12 M 19

sujeto a que las variancias de las combinaciones lineales sean normalizadas a 1:

L 11 L = 1 20

M 22 M = 1 21

Las soluciones de primer orden conducen a definir los multiplicadores de Lagrange de la


siguiente forma:

1 = L 12 M 22

2 = M 21 L 23

En vista de que los multiplicadores de Lagrange son iguales, se puede decir que 1 = 2 = .
Ello implica que corresponde a la raz caracterstica de la ecuacin determinante:

| 21 -111 12 - 2 22 | = 0 24

Para este caso de dos combinaciones lineales, 1 y 2 son las correlaciones cannicas.
Cuando se consideran ms de dos combinaciones lineales se definen races caractersticas

7
1...s para los correspondientes vectores M1...Ms. Al agrupar estos vectores en una matriz =
[ M1. . . M2 ] tal que:

22 = I 25

se puede definir, entonces, una matriz R de la forma:

R = 21 -111 12 26

La matriz R es una matriz diagonal cuyos elementos corresponden a las correlaciones


cannicas 1 > . . . > s. Las funciones lineales en corresponderan a las variables
cannicas.

Considrense combinaciones lineales de las utilidades de diferentes bancos comerciales


(variables y) y combinaciones lineales de diferentes variables x. Al maximizar la variancia entre
pares de combinaciones de y y x, se encontraran coeficientes asociados con las variables y y
con las variables x. Esos coeficientes, llamados correlaciones cannicas, permitiran observar
la importancia de las relaciones dentro de las variables y y dentro de las variables y bajo la
restriccin de que los coeficientes maximicen la variancia de las dos combinaciones. Este tipo
de anlisis permitira, en un principio, identificar cules variables seran tiles de considerar
como endgenas en un modelo de ecuaciones simultneas, as como aquellas exgenas que
aportaran explicacin al modelo.

ANLISIS DISCRIMINANTE

El anlisis discriminante enfoca un problema de identificacin relacionado con la pregunta de


que a cul grupo, de entre varios, pertenece la variable o unidad estadstica en observacin.
Por ejemplo, el anlisis discriminante clasificara a un banco comercial como de utilidades bajas
o de utilidades altas, dos poblaciones diferentes, en funcin de los niveles de las variables x. Es
decir, el anlisis discriminante probablemente asocie a la condicin de bancos con bajas
utilidades a aquellos con mrgenes de intermediacin financiera elevados, con depsitos
altamente concentrados en el corto plazo o con una alta injerencia poltica. Es decir, el anlisis
definira las caractersticas para pertenecer a un grupo o a otros.

Los siguientes pasos son necesarios para resolver el problema:

(a)Conocer las densidades de probabilidad P1(y),...,Pz(y) para clasificar las variables y


en z grupos diferentes.

(b)Conocer las probabilidades a priori 1,..., z para las poblaciones, las cuales son
frecuencias relativas de unidades estadsticas de los z grupos.

(c)Especificar valores rij que representen la prdida por identificar una variable y en el
grupo i cuando en realidad pertenece a la poblacin j.

A las variables y se les asocia un puntaje S que consiste en un promedio ponderado de las
probabilidades de que cada variable muestre los atributos que definen a una poblacin en
particular. Es decir:

8

Z

Si = n Pn (y) r ni 27
n=1

La variable yi se asigna a la poblacin para la cual su puntaje discriminante es el ms alto. En


el caso de que las variables sean normales, el puntaje discriminante se puede calcular como:

1 1
S i = - ln| i | - ( y - y i ) i ( y - y i ) + ln i
-1
28
2 2

el cual es el logaritmo de la funcin de verosimilitud de la variable yi.

Cuando existen slo dos poblaciones (bancos con utilidades altas o con utilidades bajas), la
regla de decisin para la asignacin de un banco en un grupo o en el otro est dada por la
diferencia de dos puntajes discriminantes: S1 - S2. En trminos de la verosimilitud normal, la
diferencia de los discriminantes sera:

1
( y 1 - y 2 ) -1 Y - ( y 1 -1 y 1 - y 2 -1 y 2 ) + ln 1 - ln 2 29
2

Si se denota el primer sumando de la ecuacin (29) como L(Y) y los dos ltimos como c, la
regla de decisin es la siguiente: asigne el i-simo banco al grupo de bancos con utilidades
altas si L(Y)>c o, al contrario, al grupo con utilidades bajas si L(Y)<c.

ANLISIS DE CONGLOMERADOS

Una variacin sutilmente diferente del anlisis discriminante es el anlisis de conglomerados, el


cual agrupa las observaciones provenientes de un conjunto de variables multivariantes en
conglomerados similares. El anlisis calcula la distancia euclidiana entre pares de puntos en un
grfico bidimensional.

Los procedimientos de agrupacin son los siguientes: (a) se escogen puntos iniciales contra los
cuales se comparan y aglomeran las siguientes observaciones; (b) se definen conglomerados
amplios a partir de los cuales se comienzan a extraer aquellas observaciones ms diferentes.
Este ltimo mtodo consiste en los clculos de distancias mximas y mnimas.

En el ejemplo que se ha presentado, el anlisis de conglomerados permite identificar a los


bancos ms parecidos de acuerdo con su nivel de utilidades (variables y) y alguna otra variable
del grupo de las x.

PROGRAMAS DE ANLISIS ESTADSTICO

El manejo de estas tcnicas de anlisis multivariante se ha simplificado sustancialmente con el


uso de programas de anlisis estadstico para computadoras. En el caso del anlisis de
regresin lineal, los programas economtricos han explotado la tcnica con modelos
relativamente difciles y complejos. Generalmente, estos paquetes economtricos tambin
incorporan comandos para llevar a cabo el anlisis de componentes principales. Como ejemplo
estn SHAZAM y algunas versiones de TSP.

9
Para las restantes tcnicas de anlisis multivariante destaca el paquete SPSS, el cual contiene
una serie de comandos que permiten un uso flexible y rpido de las tcnicas, con la ventaja de
el manual incorpora discusiones tericas y prcticas de los resultados estadsticos. Otro
paquete avanzado es SAS, pero no contiene la discusin de los resultados. Como una ltima
opcin se podra contar con STATGRAPHS, el cual tiene la limitacin en cuanto al nmero de
variables y observaciones que permite manipular.

BIBLIOGRAFA

Johnston, J. (1984). Econometric Methods. Third Edition. New York: McGraw-Hill Book Co., 568
pginas.

Rao, C. Radhakrishna (1973). Linear Statistical Inference and Its Applications. Second Edition.
New York: John Wiley & Sons, 625 pginas.

Software Publishing Group. Manual de STATGRAPHICS.

F:\INVESTIG\DIE\NT\NT95\NT0195.DOC

10

También podría gustarte