Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Análisis de Correspondencias
Análisis de Correspondencias
de correspondencias
MICHAEL GREENACRE
Catedrtico de Estadstica en la Universidad Pompeu Fabra
_______________________________________________
www.fbbva.es
CAPTULO
Diagramas de dispersin y mapas
El anlisis de correspondencias es un mtodo de anlisis de datos que representa
grficamente tablas de datos. El anlisis de correspondencias es una generalizacin de una representacin grfica con la que todos estamos familiarizados, el
diagrama de dispersin. Un diagrama de dispersin representa los datos en forma
de puntos con relacin a dos ejes de coordenadas perpendiculares: el eje horizontal, eje de las x, y el eje vertical, eje de las y. Para introducirnos poco a poco en el
anlisis de correspondencias, es conveniente que reflexionemos sobre lo que entendemos por diagrama de dispersin y sobre cmo interpretamos los datos que
ste representa grficamente. Haremos nfasis en cmo interpretar las distancias
entre puntos y en averiguar cundo podemos considerar que los diagramas de
dispersin son mapas de datos.
Contenido
Conjunto de datos 1: mis viajes en 2005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Variables continuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Expresin de los datos en valores relativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Variables categricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ordenacin de las categoras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Distancias entre las categoras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Interpretacin de las distancias en los diagramas de dispersin . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Los diagramas de dispersin como mapas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Calibracin de una direccin en un mapa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Transformacin de la informacin en la representacin grfica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Variables nominales y variables ordinales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Representacin grfica de ms de un conjunto de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Interpretacin de las frecuencias absolutas y de las frecuencias relativas . . . . . . . . . . . . . . . . . . . . .
Descripcin e interpretacin de los datos vs modelizacin e inferencia estadstica . . . . . . . . . . . . . . .
Conjuntos de datos grandes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
RESUMEN: Diagramas de dispersin y mapas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
16
16
16
17
17
17
17
18
18
19
19
20
21
21
22
22
15
Conjunto de datos 1:
mis viajes en 2005
A finales de 2005, cuando empec a escribir este libro, reflexion sobre los viajes
que durante ese ao haba hecho a tres de mis pases favoritos: Noruega, Canad y Grecia. Segn mi diario pas 18 das en Noruega, 15 das en Canad y
29 das en Grecia. Aparte de estas visitas, tambin hice algunos viajes cortos a
Francia y a Alemania, en total 24 das. Podemos representar esta descripcin
numrica del tiempo que estuve de viaje en grficos como los de la imagen 1.1.
Este ejemplo, aparentemente trivial, esconde algunos conceptos importantes
para la interpretacin de grficos en los que representamos los datos con relacin a dos ejes de coordenadas, y que eventualmente nos pueden ayudar a
comprender el anlisis de correspondencias. Vamos a revisar estos conceptos
uno a uno.
Variables continuas
El eje vertical situado a la izquierda, que hemos etiquetado como Das, es una
escala con informacin numrica de una variable continua. La escala de este eje
indica claramente el nmero de das que pas en algunos pases extranjeros.
Hemos ordenado los valores numricos desde 0 das, en la parte inferior de la
escala, hasta 30 das en la parte superior de la misma. En el diagrama de barras
situado a la derecha de la imagen 1.1, mostramos una representacin grfica muy
habitual de datos, en la cual la longitud de las barras es proporcional a los valores de la variable. Hemos redondeado el tiempo que pas en cada pas a nmero
de das, sin embargo, seguimos considerando esta variable como continua, ya que el
tiempo es esencialmente una variable continua.
El eje vertical situado a la derecha de los dos grficos de la imagen 1.1 expresa el
nmero de das de viaje en cada pas, como porcentaje, con relacin al total de
mis 86 das de viaje. Por ejemplo, 18 das en Noruega corresponde al 21% del tiempo total. El total de 86 das es la base con relacin a la cual expresamos los valores
relativos de los datos. En este caso tenemos un solo conjunto de datos, y en consecuencia slo una base. En estos dos grficos podemos representar, en el mismo
grfico, la escala absoluta original de la izquierda y la escala de valores relativos
de la derecha.
40%
40%
30
30
30%
20
20%
10
10%
Noruega
16
Canad
Grecia Francia/Alemania
Das
30%
Das
Imagen 1.1:
Grficos sobre el nmero de
das que pas en pases
extranjeros en 2005, en
forma de diagrama de
dispersin y de diagrama
de barras. A la derecha de
cada grfico, el eje vertical
expresa el nmero de das
en porcentaje con relacin
al total de 86 das de viaje
20
20%
10
10%
Noruega
Canad
Grecia Francia/Alemania
A diferencia del eje vertical, eje y, el eje horizontal, eje x, corresponde claramente a una variable no numrica. En este eje, los cuatro puntos son slo posiciones
en las que hemos situado las etiquetas que indican el pas visitado. La escala horizontal representa una variable categrica. Hay dos caractersticas de este eje
horizontal que no tienen significado sustantivo alguno en el grfico: la ordenacin de las categoras y la distancia entre ellas.
Variables categricas
En primer lugar, no hay ninguna razn de peso por la cual hayamos situado
a Noruega en primer lugar, a Canad en segundo y a Grecia en tercer lugar;
quizs el hecho de que visit estos pases por este orden. Como la etiqueta
Francia/Alemania indica un conjunto de viajes cortos que realic en distintos
momentos del ao, hemos situado esta etiqueta despus de las otras. Sin embargo, en este tipo de representaciones grficas en las que el orden es irrelevante, siempre es bueno reordenar las categoras de manera que tengan algn
significado sustantivo, por ejemplo, los valores de la variable. As, podramos
ordenar los pases en orden descendiente de acuerdo con el tiempo que pas
en cada pas. En tal caso habramos situado los pases en el siguiente orden:
Grecia, Francia/Alemania, Noruega y Canad. Esta sencilla reordenacin facilita
la interpretacin de los datos, especialmente cuando tenemos muchos. Por
ejemplo, si hubiera visitado 20 pases distintos, la ordenacin contendra informacin relevante que no obtendramos de forma rpida a partir de la ordenacin original.
Ordenacin de las
categoras
En segundo lugar, no existe razn alguna por la cual hayamos situado los cuatro puntos a intervalos iguales en el eje de las y. Asimismo, no existe tampoco
razn por la cual hayamos de situarlos a intervalos distintos; en realidad los hemos situado a intervalos iguales por conveniencia y esttica. Cuando utilicemos
el anlisis de correspondencias, veremos que existen distintas maneras de
definir intervalos entre las categoras de las variables como la que acabamos
de comentar. Es ms, presentaremos el anlisis de correspondencias como un
procedimiento para la cuantificacin de las categoras de una variable y, as,
tanto las distancias entre categoras como su ordenacin tendrn un significado
importante.
En el eje horizontal del grfico de la izquierda de la imagen 1.1, tanto la ordenacin de los pases como la separacin entre stos son arbitrarias, por tanto,
no tiene ningn sentido que midamos e interpretemos las distancias entre los
puntos mostrados en el grfico de la izquierda. Dada la naturaleza numrica
del eje vertical que indica frecuencia (o frecuencia relativa), las nicas medidas de distancia que tienen sentido son estrictamente las distancias en direccin vertical.
Interpretacin de las
distancias en los
diagramas de dispersin
17
Imagen 1.2:
Diagrama de dispersin de
las calificaciones de 20
estudiantes en dos materias
(lgebra y geometra)
en un examen de
matemticas. Los puntos
tienen propiedades
especiales. As podemos
obtener la calificacin total
de los estudiantes
proyectando los puntos
perpendicularmente
sobre la bisectriz que
hemos calibrado de
0 (abajo a la izquierda) a
100 (arriba a la derecha)
50
40
Geometra
30
20
10
0
0
10
20
30
40
50
lgebra
Los diagramas de
dispersin como mapas
En algunos casos especiales, las dos variables que definen a los ejes de los diagramas
de dispersin tienen la misma naturaleza numrica y escalas similares. Por ejemplo,
supongamos que 20 estudiantes han realizado un examen de matemticas que consta de dos partes, lgebra y geometra. Supongamos que cada parte representa el 50%
de la nota final. En la imagen 1.2, hemos representado grficamente los pares de calificaciones de los estudiantes. Es importante que los dos ejes, que representan las
respectivas calificaciones, tengan escalas con unidades de la misma longitud. Dada
la naturaleza similar de las dos variables y de sus dos escalas, en esta representacin
grfica podemos medir distancias en cualquier direccin; no solamente horizontal o
verticalmente igual que en un mapa en el que podemos medir distancias entre
poblaciones. Dos puntos que se hallen cerca tendrn calificaciones similares. Por
tanto, tiene sentido que nos fijemos en la forma de la distribucin de los puntos y,
en particular, remarcar que hay un pequeo grupo de cuatro estudiantes con calificaciones elevadas y slo un estudiante con calificaciones muy elevadas. Podemos
considerar la imagen 1.2 un mapa, ya que las posiciones de los estudiantes vienen
definidas por posiciones bidimensionales, de la misma manera que, en una regin,
las localizaciones geogrficas vienen definidas por la longitud y la latitud.
Calibracin de una
direccin en un mapa
Transformacin
de la informacin en la
representacin grfica
En el ejemplo sobre mis viajes, la variable categrica pas tiene cuatro categoras, y dado que no existe una ordenacin intrnseca de las categoras, llamamos a
esta variable nominal. En cambio, si podemos ordenar de forma natural las categoras de una variable categrica, llamamos a la variable ordinal. Por ejemplo, podemos clasificar los das en tres categoras de acuerdo con el tiempo que dediqu
cada da a trabajar: a) menos de una hora (festivos), b) ms de una pero menos de seis horas (medias jornadas) y c) ms de seis horas (jornadas completas). Por tanto, hemos ordenado estas categoras de acuerdo con una variable
continua tiempo diario de trabajo que hemos dividido en intervalos. Tendremos en cuenta esta ordenacin en cualquier representacin grfica de las variables. En muchas encuestas sociales, se dan las respuestas en una escala ordinal.
Por ejemplo, una escala ordinal sobre valoracin de la importancia: nada importante/algo importante/muy importante. Otro ejemplo tpico es la escala de
acuerdo/desacuerdo: muy de acuerdo/algo de acuerdo/ni de acuerdo ni en desacuerdo/algo en desacuerdo/muy en desacuerdo. Aqu la posicin ordinal de la
categora ni de acuerdo ni en desacuerdo puede no estar situada entre algo
de acuerdo y algo en desacuerdo, podra ser, por ejemplo, una categora utilizada por algunos encuestados para expresar que no sabe cuando stos o bien
no comprenden la pregunta o bien no tienen una respuesta clara. Veremos este
tema ms adelante (cap. 21), una vez hayamos desarrollado las herramientas que
nos permitan estudiar las asociaciones entre las respuestas en cuestionarios de datos multivariantes.
Variables nominales y
variables ordinales
19
Imagen 1.3:
Frecuencias de los tipos de
da en los cuatro viajes
Festivos
PAS
Noruega
Canad
Grecia
Francia/Alemania
TOTAL
Medias jornadas
Jornadas completas
TOTAL
6
1
4
2
1
3
25
2
11
11
0
20
18
15
29
24
13
31
42
86
Representacin grfica
de ms de un conjunto
de datos
Imagen 1.4:
Diagramas de frecuencias
absolutas (a) y de
frecuencias relativas (b),
expresadas como
porcentajes de las filas de
la imagen 1.3
(a)
(b)
30
100
25
Das
20
15
10
75
50
25
5
0
Festivos
Noruega
Grecia
20
Medias
jornadas
Jornadas
completas
Canad
Francia/Alemania
Festivos
Noruega
Grecia
Medias
jornadas
Jornadas
completas
Canad
Francia/Alemania
Festivos
Medias jornadas
Jornadas completas
Noruega
Canad
Grecia
Francia/Alemania
33%
7%
14%
8%
6%
20%
86%
8%
61%
73%
0%
83%
Global
15%
36%
49%
PAS
Imagen 1.5:
Porcentajes
correspondientes a los
tipos de da en cada pas,
as como los porcentajes
globales de los pases,
donde la suma de
los valores de las filas
es el 100%
Interpretacin de las
frecuencias absolutas y
de las frecuencias
relativas
Descripcin e
interpretacin de los
datos versus
modelizacin e
inferencia estadstica
21
sencillas para detectar qu partes de la tabla son las responsables de esta asociacin. El anlisis de correspondencias es una herramienta que puede contribuir a
rellenar este vaco. Permite al analista visualizar las asociaciones existentes en los
datos, y en consecuencia le permite formular hiptesis que ste puede contrastar
en una etapa ms avanzada de su investigacin. En la mayor parte de las situaciones, podemos describir, interpretar y modelizar los datos. De todas formas, existen situaciones en las que la descripcin y la interpretacin de los datos tiene, por
s misma, una importancia capital, por ejemplo, cuando los datos representan a
la totalidad de la poblacin de inters.
Conjuntos de datos
grandes
A medida que las tablas de datos aumentan de tamao, debido al excesivo nmero de puntos, se hace difcil representar stos de forma simple, como hemos
hecho, por ejemplo, en la imagen 1.4. Supongamos que durante un ao hubiera
visitado 20 pases, al clasificar el tiempo pasado en cada uno de ellos, hubiese obtenido una tabla de contingencia con muchas ms filas. Tambin podra haber registrado otros datos, como por ejemplo la meteorologa de cada da (buen tiempo, parcialmente nublado o lluvioso), con el objetivo de estudiar posibles
relaciones con el tipo de da. Tendra, pues, una tabla de datos con muchas ms
columnas y muchas ms filas. Representar, de la misma manera como hemos hecho
en la imagen 1.4, a los 20 conjuntos de puntos clasificados en muchas ms categoras podra llevarnos a una gran confusin entre puntos y etiquetas. Resultara
absolutamente imposible identificar pauta alguna. Por tanto, en estas situaciones
para resaltar las caractersticas esenciales de esos datos, tendramos que buscar
una alternativa a los diagramas de dispersin, el instrumento para la descripcin
de datos que hemos utilizado hasta ahora. Tal como veremos en el libro, el anlisis de correspondencias, un mtodo de representacin grfica de datos igual que
los diagramas de dispersin, nos permitir trabajar fcilmente con conjuntos de
datos grandes.
RESUMEN:
Diagramas de dispersin
y mapas
1. Los diagramas de dispersin representan grficamente dos variables con relacin a un eje horizontal y un eje vertical, el eje x y el eje y, respectivamente.
2. A menudo, la naturaleza de la variable x es completamente distinta a la de la
variable y, de manera que solamente podemos interpretar distancias en la
direccin de unos de los dos ejes, de acuerdo con una determinada escala de
medida con la que hayamos calibrado el eje. En estas situaciones, no tiene sentido medir o interpretar distancias en cualquier otra direccin del grfico.
3. El algunos casos, las variables x e y son de naturaleza similar con escalas de
medida comparables. En estas situaciones, podemos interpretar las distancias
entre los puntos como una medida de la diferencia, o de la disimilitud, entre
los puntos representados. En estos casos especiales consideramos que los diagramas de dispersin son mapas.
22
4. Cuando representamos valores positivos (en general, en nuestro contexto, frecuencias), estamos interesados tanto en los valores relativos como en los absolutos.
5. Cuanto ms complejos sean los datos, menos conveniente ser representarlos
en forma de diagramas de dispersin.
6. Este libro, ms que sobre la modelizacin de informacin compleja, trata sobre la descripcin y la interpretacin de la informacin.
23