Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Escalamiento Multidimensional
Escalamiento Multidimensional
Resumen: En los ltimos aos la proliferacin de datos y el fcil acceso a los mismos
ha hecho que, en la mayora de las investigaciones, se analicen grandes conjuntos de
datos, utilizando para ello las tcnicas multivariantes. En este sentido, hay que indicar
que las tcnicas multivariantes cobran cada vez mayor importancia en las
investigaciones.
Dentro de las tcnicas multivariantes podemos citar al Escalamiento
Multidimensional (Multidimensional Scaling, MDS). El MDS es una tcnica
multivariante de interdependencia que trata de representar en un espacio geomtrico de
pocas dimensiones las proximidades existentes entre un conjunto de objetos o de
estmulos. Esta tcnica, aunque tiene sus races a principios del siglo XX, hoy da sigue
siendo infrautilizada en muchas reas.
En este trabajo se pretende dar una visin general del funcionamiento del MDS,
comparndolo con otras tcnicas multivariantes ms tradicionales como son el Anlisis
Factorial y el Anlisis Cluster, de modo que pueda servir como alternativa y como
complemento a las mismas en cualquier investigacin que utilice dichas tcnicas.
Tambin se incluye un anlisis comparativo de los resultados de estas tcnicas,
mediante una aplicacin a la infraestructura del sector turstico en Andaluca.
Palabras clave: Anlisis multivariante, escalamiento, distancia, estmulo, anlisis
factorial, anlisis cluster, turismo.
1. INTRODUCCIN.
El escalamiento multidimensional, ms conocido como MultiDimensional Scaling
(MDS), tiene sus orgenes a principios de siglo XX en el campo de la Psicologa. Surge
cuando se pretenda estudiar la relacin que exista entre la intensidad fsica de ciertos
estmulos con su intensidad subjetiva.
22
= 21
M
M
n1 n 2
L 1n
L 2n
O M
L nn
A partir de esta matriz de proximidades el MDS nos proporciona como salida una
matriz Xnxm, donde n, al igual que antes, es el nmero de estmulos, y m es el
nmero de dimensiones. Cada valor xij representa la coordenada del estmulo i en la
dimensin j (ms adelante veremos el procedimiento para obtener esta matriz).
x11
x
X = 21
M
x
n1
x12
x22
M
xn 2
L x1m
L x2 m
O M
L xnm
A partir de esta matriz X se puede calcular la distancia existente entre dos estmulos
cualesquiera i y j, simplemente aplicando la frmula general de la distancia de
Minkowski:
m
dij = ( xit x jt ) p
t =1
donde p puede ser un valor entre 1 e infinito. A partir de estas distancias podemos
obtener una matriz de distancias que denominamos DMnxn:
d11 d12
d 22
d
D = 21
M
M
d
n1 d n 2
L d1n
L d 2n
O M
L d nn
La solucin proporcionada por el MDS debe ser de tal modo que haya la mxima
correspondencia entre la matriz de proximidades inicial y la matriz de distancias
obtenidas D. Para que exista la mxima correspondencia MDS proporciona varias
medidas, que veremos ms adelante, y que nos informan sobre la bondad del modelo.
dij 0 = dii
dij = dji
dij dik + dkj
1. No negatividad
2. Simetra
3. Desigualdad triangular
Los dos primeros axiomas son fciles de cumplir, pero el tercer axioma no se
cumple siempre. Este problema se conoce con el nombre de estimacin de la constante
aditiva. Torgerson solucion este problema, estimando el valor mnimo de c que
verifica la desigualdad triangular de la siguiente forma:
cmin = max (i , j , k ) { ij ik kj }
De esta forma las distancias se obtienen sumando a las proximidades la constante c,
es decir, dij=ij+c. Por ejemplo, supongamos que tenemos la siguiente matriz de
proximidades:
0 1 5
= 1 0 2
5 2 0
D = 3 0 4
7 4 0
1 n 2
dij
n j =1
d.2j =
1 n 2
dij
n i =1
d..2 =
1 n n 2
dij
n 2 i =1 j =1
Una vez llegados a este punto, lo nico que queda es transformar la matriz BMnxn
en una matriz Xnxm tal que B=XX, siendo X la matriz que nos da las coordenadas de
cada uno de los n estmulos en cada una de las m dimensiones. Cualquier mtodo de
factorizacin permite transformar B en XX.
En resumen el procedimiento consiste en transformar:
(Proximidades) D (Distancias) B (Productos escalares) X (coordenadas)
Modelo de escalamiento no mtrico.A diferencia del escalamiento mtrico, el modelo de escalamiento no mtrico no
presupone una relacin lineal entre las proximidades y las distancias, sino que establece
una relacin montona creciente entre ambas, es decir, si ij < kl dij dkl. Su
desarrollo se debe a Shepard (1962) quin demostr que es posible obtener soluciones
mtricas asumiendo nicamente una relacin ordinal entre proximidades y distancias.
Posteriormente Kruskal (1964) mejor el modelo. El procedimiento se basa en los
siguientes apartados:
1) Transformacin de la matriz de proximidades en una matriz de rangos, desde
1 hasta (n (n - 1))/2.
2) Obtencin de una matriz Xnxm de coordenadas aleatorias, que nos da la
distancia entre los estmulos.
3) Comparacin de las proximidades con las distancias, obtenindose las
disparidades (ij).
4) Definicin del Stress.
5) Minimizacin del Stress.
Tanto para el modelo mtrico como para el modelo no mtrico es necesario obtener
un coeficiente que nos informe sobre la bondad del modelo. Sabemos que las distancias
son una funcin de las proximidades, es decir:
f: ij(x) dij(x)
De esta forma se tiene que dij=f(ij). Esto no deja ningn margen de error, sin
embargo, en las proximidades empricas es difcil que se d la igualdad, con lo que
generalmente ocurre que dijf(ij). A las transformaciones de las proximidades por f se
le denomina disparidades. A partir de aqu podemos definir el error cuadrtico como:
eij2 = ( f ( ij ) d ij ) 2
Como medida que nos informa de la bondad del modelo podemos utilizar el Stress
que Kruskal defini como:
( f ( ) d
d
ij
Stress =
ij
)2
i, j
2
ij
i, j
Mientras mayor sea la diferencia entre las disparidades y las distancias, es decir,
entre f(ij) y dij, mayor ser el Stress y por tanto peor ser el modelo. Por tanto, el Stress
no es propiamente una medida de la bondad del ajuste, sino una medida de la no bondad
o maldad del ajuste. Su valor mnimo es 0, mientras que su lmite superior para n
estmulos es 1 (2 / n) .
Kruskal (1964) sugiere las siguientes interpretaciones del Stress:
- 0.2 Pobre
- 0.1 Aceptable
- 0.05 Bueno
- 0.025 Aceptable
- 0.0 Excelente
Tambin se suele utilizar una variante del Stress que se denomina S-Stress, definida
como:
( f ( )
(d
ij
S Stress =
dij2 ) 2
i, j
2 2
ij
i, j
(d ij d.. )( f (d ij ) f (d.. ))
i j
RSQ =
2
2
(d ij d.. ) ( f (d ij ) f (d.. ))
i j
i j
OFERTA TURSTICA
(Infraestructura turstica)
Establecimientos hoteleros
Hoteles
Hoteles apartamentos
Agencias de
viajes
Pensiones
Restaurantes
Cafeteras
Infraestructuras
turstico
deportivas
Campings
USUARIOS
(turistas, visitantes)
DEMANDA TURSTICA
Partiendo de las dos encuestas sealadas anteriormente hemos obtenido para cada
una de las provincias andaluzas los datos correspondientes al nmero de
establecimientos y nmero de plazas de hoteles, de hoteles-apartamentos, de pensiones,
de camping, de agencias de viajes (slo nmero de establecimientos), de restaurantes,
de cafeteras y de infraestructuras rurales2. Estos datos corresponden al ao 2000.
Con el fin de obtener una variable que nos informe de la capacidad turstica en cada
una de las provincias andaluzas se ha creado un ratio para cada una de las variables
anteriores, excepto para la variable nmero de agencias de viajes, dividiendo el nmero
de plazas entre el nmero de establecimientos. El siguiente paso ha sido obtener a partir
de estos ratios una matriz de correlaciones entre ciudades. Finalmente, tenemos que
hacer una ltima transformacin de los datos, para convertirlos en distancias, a travs de
la frmula de Coxon (1982):
dij = 2(1 rij )
Esta matriz de distancias nos informa sobre las proximidades que existen entre las
ciudades, en relacin a la infraestructura turstica. A partir de los datos obtenidos con la
transformacin de Coxon hemos aplicado un MDS, obtenindose los siguientes
resultados:
La ECTA proporciona los datos referentes al nmero de establecimientos tursticos rurales y plazas de
los mismos por provincias, en vez de los datos referentes a las infraestructuras turstico-deportivas.
Los valores del Stress y del RSQ (013230 y 089424) nos indican que el ajuste de
los datos es bueno. Un grfico importante que nos informa si el modelo es adecuado o
no es el grfico de ajuste lineal. Si los datos se ajustan bien a una recta entonces el
modelo es adecuado, ya que estamos suponiendo una relacin lineal entre las distancias
y las disparidades. En el grfico podemos observar como los datos se ajustan bastante
bien a una recta, por lo que el anlisis es adecuado.
Distancias
1,5
1,0
,5
0,0
0,0
,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
Disparidades
1,5
huelva
1,0
,5
malaga
jaen
Dimensin 2
0,0
granada cadiz
sevilla
-,5
-1,0
cordoba
-1,5
-1,5
-1,0
Dimensin 1
-,5
0,0
,5
1,0
1,5
2,0
2,5
2
4
8
3
5
6
1
7
6. CONCLUSIONES.
Con este trabajo se ha pretendido mostrar que la tcnica de escalamiento
multidimensional, a pesar de seguir siendo infrautilizada en muchas reas, puede ser
perfectamente utilizada en muchos casos, como alternativa a otras tcnicas
multivariantes o bien como complemento a las mismas. Para ello hemos visto las
diferencias ms importantes existentes entre el MDS y otras tcnicas multivariantes
como son el Anlisis Factorial, el Anlisis Cluster y el Anlisis de Correspondencias.
A travs del caso prctico realizado hemos visto que datos, que en un principio
parece ser que estn pensados para otro tipo de anlisis, tambin pueden ser analizados
a travs de un escalamiento multidimensional.
BIBLIOGRAFA
- ARCE, C. (1993): Escalamiento Multidimensional. Una Tcnica Multivariante para
el Anlisis de Datos de Proximidad y Preferencia. PPU, Barcelona.
- ARCE, C. (1994): Tcnicas de Construccin de Escalas Psicolgicas. Sntesis,
Madrid.
- BORG, I. y GROENEN, P. (1997): Modern Multidimensional Scaling. Springer,
New York.
- COXON, A. P. (1982): The Users Guide to Multidimensional Scaling. Heinemann
Educational Books, London.
- GREEN, P. E. y CARMONE, F. J.(1969): Multidimensional Scaling: An
Introduction and Comparison of Nonmetric Unfolding Techniques. Journal of
Maketing Research, 6, 330-341.
- HAIR, J. F., ANDERSON R.E., TATHAM, R. L., BLACK, W. C. (1999): Anlisis
Multivariante. Prentice Hall, Madrid.
- KRUSKAL, J. B. (1964): Nonmetric Multidimensional Scaling: A Numerical
Method. Psychometrika, 2, 115-129.
- LUQUE, T. (2000): Tcnicas de Anlisis de Datos en Investigacin de Mercados.
Pirmide, Madrid.
- REAL, J. E. (2001): Escalamiento Multidimensional. La Muralla, Madrid.
- SCHIFFMAN, S. S., REYNOLDS, M. L. y YOUNG, F. W. (1981): Introduction to
Multidimensional Scaling: Theory, Methods and Applications. Academic Press,
New York.
- SHEPARD, R. N. (1962): The analysis of proximities: muldimensional scaling with
an unknown distance function. Psychometrika, 27, 125-140, 219-246.
- TAKANE, Y., YOUNG, F.W. y DE LEEW, J. (1977): Nonmetric individual
differences multidimensional scaling: an alternating least squares method with
optimal scaling feautures. Psychometrika, 42, 7-67.
- TORGENSON, W. S. (1952): Multidimensional Scaling: Theory and Method.
Psychometrika, 4, 401-419.
- YOUNG, G. y HOUSEHOLDER, A. S.(1938): Discussion of a set of points in
terms of their mutual distances. Psychometrika, 3, 19-22.