Revolución informática
Todos los programas (software) de estadística (por ej., SPSS, SAS, STATA, R, etc.)
contienen rutinas o algoritmos que tratan el análisis multivariante. Estos programas
especializados incluyen todo tipo de análisis multivariante, incluyendo los de escala
multidimensional, modelos de ecuaciones simulatáneas/estructurales y análisis
conjunto. Se están desarrollando sistemas expertos dirigidos incluso a temas tales
como la selección de una técnica estadística o diseñar un plan de muestreo que
asegure los objetivos prácticos y estadísticos deseados.
Para ser considerado un análisis multivariante, todas las variables deben ser
aleatorias y estar interrelacionadas de tal forma que sus diferentes efectos no
puedan ser interpretados separadamente con algún sentido. Algunos autores
afirman que el propósito del análisis multi ariante es medir, e plicar y predecir el
grado de relación de los valores teóricos (combinaciones ponderadas de variables).
Por tanto, el carácter multivariante reside en los múltiples valores teóricos
(combinaciones múltiples de variables) y no sólo en el número de variables u
observaciones.
b) Regresión múltiple
5 Existen otras técnicas que no están incluidas en este libro, pero son herramientas valiosas en el
análisis multivariado: análisis discriminante, análisis de clúster, análisis conjunto, regresión logística
y probit, modelos de ecuaciones estructurales, entre otras.
c) Análisis de correspondencias
d) Correlación canónica
e) Análisis multidimensional
El análisis descriptivo debe siempre aplicarse como primer paso para comprender
la estructura de los datos y extraer la información que contienen, antes de pasar a
los métodos más complejos de las secciones siguientes.
Datos multivariantes
CO X1 X2 X3
A 1 0 0
V 0 1 0
C 0 0 1
N 0 0 0
La matriz de datos X, puede representarse de dos formas distintas: por filas, como:
x11 x12 ... x1p x1'
x21 x22 ... x2p x2'
X = ... = ...
xn1 xn2 ... xnp xp'
Donde cada variable xi' es un ector fila, px1, que representa los valores de las p
variables sobre el individuo i. Alternativamente, podemos representar la matriz x
por columnas:
Donde ahora cada variable x(j) es un vector columna, nx1, que representa la variable
escalar xj medida en los n elementos de la población.
x1
1 x
n
x = ∑ x1 = 2
n i =1
x p
1
x= X '1
n
Donde 1 representará siempre un vector de números unos, de la dimensión
adecuada. Escri iendo la matri en t rminos de sus ectores fila, que son ectores
de dimensión 1xp que contienen los valores de las p variables en cada elemento de
la muestra, estos vectores son las columnas de X ', y tendremos que:
1
1
x= [ x1 xn ]
n
1
∑( x 1 −x ) = 0
i =1
1 n
S jk =
n
∑ n
i =1
( xij − x j ) ( xik − xk ) ,
i =1
Para una aria le multi ariante se define la matri de arian as y co arian as como:
1 n
S=
n
∑( x i − x )( xi − x )'
i =1
s12 s1 p
S =
sp 1 sp2
p = 1 – 1 11'
n
Entonces, la matriz S puede escribirse:
1 1
S= X'X = X ' PX
n n
VG = |S|
b) Es una medida del área (para p=2), volumen (para p=3) o hipervolumen
(para p>3), ocupado por el conjunto de datos.
s2 rsx s y
x
S=
rsx s y s y2
|S| 2 = sx s y 1 – r2
1
La variabilidad promedio
1
VP = |S| p
Que tiene la ventaja de que, cuando todas las variables van en las mismas
dimensiones esta medida tiene las unidades de la varianza. Para matrices
diagonales esta medida es simplemente la media geométrica de las varianzas.
Observemos que, como el determinante es el producto de los valores propios, la
variabilidad promedio es la media geométrica de los valores propios de la matriz
, que por ser semidefinida positi a, serán siempre no negati os.
1
DP = |S| 2 p
define el coeficiente de asimetría multi ariante en la distri ución con unta de las
p variables como:
1 n n
Ap = ∑∑d 3
ij
n 2
i =1 j =1
el de kurtosis:
1 n
Kp =
n
∑d i =1
2
ii
1 n n 3 ( ∑ni=1 ( xi – x )3 ) 2
Ap = ∑∑( x i – x ) ( xj – x )
3
s 6 = A2
n 2
i =1 j =1 n s
2 6
Se solicita:
Procedimiento:
Estas características son muy claras en los histogramas de las variables. La primera
variable, rentabilidad efectiva por dividendos, x1, muestra dos grupos de acciones
con comportamiento distinto. El histograma de la segunda variable, x2, muestra
también dos grupos de acciones. Finalmente, la distribución de la tercera variable
es muy asimétrica, con un valor atípico muy destacado. La evidencia disponible
indica que las acciones pueden probablemente dividirse en dos grupos más
homogéneos. Sin embargo, vamos a ilustrar el análisis de todos los datos.
Los elementos diagonales de esta matriz son los cuadrados de las desviaciones
típicas de la tabla donde se muestran los resultados de las estadísticas descriptivas.
Como las dimensiones de las variables son distintas, no tiene sentido calcular
medidas promedio.
Los histogramas de las tres variables han mostrado una clara ausencia de
normalidad. Una posibilidad es transformar las variables para facilitar su
interpretación. Tomando logaritmos y calculando nuevamente la matriz de
covarianzas, realicemos en SPSS lo siguiente:
Pasos:
— Realizamos esto para las tres variables, y repetimos los pasos, como en
el procedimiento anterior, para calcular la matriz de covarianzas. Así
tenemos como resultado:
. e o ser a que los logaritmos modifican los resultados. os datos ahora son
más homogéneos y la variable que tenía mayor varianza, ahora pasa a ser la
menor arian a el logaritmo de la proporción de eneficios mientras que
la variable que tenía la menor varianza, ahora ocupa el segunda lugar (el
coeficiente entre precio por acción y eneficios . Además, la relación entre el
logaritmo del ratio eneficio y la renta ilidad efecti a es negati a
mientras que las otras relaciones son débiles.
Una ventaja adicional de los logaritmos es que hace las variables independientes
de la escala de medida. Si multiplicamos las variables por una constante al
tomar logaritmos, esto es equivalente a sumar una cantidad, y sumar una
constante a los datos no altera su variabilidad. Por tanto, al tomar logaritmos
en las variables, las varianzas pueden compararse aunque los datos tengan
distintas dimensiones. La varianza media de las tres variables viene dada por:
Recordemos que las correlaciones miden las relaciones lineales entre las variables
y pueden ser mal interpretadas cuando las relaciones no son lineales. Por esa
razón se intenta transformar las variables para que las variables transformadas
tengan relaciones aproximadamente lineales. Por último, los datos multivariantes
contienen con frecuencia observaciones que son heterogéneas con el resto y que
pueden alterar completamente el análisis descriptivo de las variables.
Otros ejemplos:
6 Para generar números aleatorios y almacenarlos en una nueva variable, utilizar la expresión
RV.NORMAL(0,1). Ver literal b), de este mismo ejercicio.
Calculando y1.
Calculando y2.
Correlations
y1 y2
y1 Pearson Correlation 1 .891**
Sig. (2-tailed) .000
N 1000 1000
y2 Pearson Correlation .891** 1
Sig. (2-tailed) .000
N 1000 1000
En este caso, podemos hacer una representación en tres dimensiones de las tres
variables. Para ello, utilicemos el SPSS y sigamos los pasos siguientes:
En la figura anterior se o ser a que la relación entre las aria les y depende
del ni el de la . Esta figura ilustra tam i n con claridad el carácter claramente
atípico de las observaciones 1 y 34, que aparecen muy separadas del resto. Por otro
lado, se o ser a en el gráfico tridimensional que las o ser aciones se agrupan en
dos con untos distintos. Esta característica, que se apunta en los gráficos idimen
sionales, aparece claramente de manifiesto en la representación tridimensional,
ilustrando las ventajas de construir estas representaciones cuando sea posible.
1.10. Ejercicios
Ejercicio 1
Se solicita:
7 Según las medidas de dependencia lineal, la matriz de correlación viene dada por la siguiente fórmula:
R = D-1/2 SD-1/2, S = D1/2 RD1/2.
Ejercicio 2
a) La varianza generalizada.
b) La varianza efectiva.
c) La desviación efectiva.
Ejercicio 3
A partir de los tres indicadores económicos X1, X2, X3 del ejemplo 1, se construyen
dos nuevos indicadores:
y2 = x1 – 0.5x2 – 0.5x3
Se solicita:
Ejercicio 4
Realizar el mismo ejercicio anterior para los logaritmos de las variables de los tres
indicadores económicos; luego, analizar dichos resultados y compararlos con el
ejemplo sin la transformación debida.
Ejercicio 5