Está en la página 1de 11

La prctica del anlisis

de correspondencias
MICHAEL GREENACRE
Catedrtico de Estadstica en la Universidad Pompeu Fabra

_______________________________________________

Separata del captulo 1

Diagramas de dispersin y mapas

Primera edicin: julio 2008


ISBN: 978-84-96515-71-0
Traduccin: Jordi Comas Angelet
Revisin: Carles M. Cuadras Avellana

Michael Greenacre, 2008


de la edicin en espaol, Fundacin BBVA, 2008

www.fbbva.es

CAPTULO
Diagramas de dispersin y mapas
El anlisis de correspondencias es un mtodo de anlisis de datos que representa
grficamente tablas de datos. El anlisis de correspondencias es una generalizacin de una representacin grfica con la que todos estamos familiarizados, el
diagrama de dispersin. Un diagrama de dispersin representa los datos en forma
de puntos con relacin a dos ejes de coordenadas perpendiculares: el eje horizontal, eje de las x, y el eje vertical, eje de las y. Para introducirnos poco a poco en el
anlisis de correspondencias, es conveniente que reflexionemos sobre lo que entendemos por diagrama de dispersin y sobre cmo interpretamos los datos que
ste representa grficamente. Haremos nfasis en cmo interpretar las distancias
entre puntos y en averiguar cundo podemos considerar que los diagramas de
dispersin son mapas de datos.

Contenido
Conjunto de datos 1: mis viajes en 2005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Variables continuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Expresin de los datos en valores relativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Variables categricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ordenacin de las categoras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Distancias entre las categoras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Interpretacin de las distancias en los diagramas de dispersin . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Los diagramas de dispersin como mapas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Calibracin de una direccin en un mapa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Transformacin de la informacin en la representacin grfica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Variables nominales y variables ordinales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Representacin grfica de ms de un conjunto de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Interpretacin de las frecuencias absolutas y de las frecuencias relativas . . . . . . . . . . . . . . . . . . . . .
Descripcin e interpretacin de los datos vs modelizacin e inferencia estadstica . . . . . . . . . . . . . . .
Conjuntos de datos grandes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
RESUMEN: Diagramas de dispersin y mapas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

16
16
16
17
17
17
17
18
18
19
19
20
21
21
22
22

15

LA PRCTICA DEL ANLISIS DE CORRESPONDENCIAS

Conjunto de datos 1:
mis viajes en 2005

A finales de 2005, cuando empec a escribir este libro, reflexion sobre los viajes
que durante ese ao haba hecho a tres de mis pases favoritos: Noruega, Canad y Grecia. Segn mi diario pas 18 das en Noruega, 15 das en Canad y
29 das en Grecia. Aparte de estas visitas, tambin hice algunos viajes cortos a
Francia y a Alemania, en total 24 das. Podemos representar esta descripcin
numrica del tiempo que estuve de viaje en grficos como los de la imagen 1.1.
Este ejemplo, aparentemente trivial, esconde algunos conceptos importantes
para la interpretacin de grficos en los que representamos los datos con relacin a dos ejes de coordenadas, y que eventualmente nos pueden ayudar a
comprender el anlisis de correspondencias. Vamos a revisar estos conceptos
uno a uno.

Variables continuas

El eje vertical situado a la izquierda, que hemos etiquetado como Das, es una
escala con informacin numrica de una variable continua. La escala de este eje
indica claramente el nmero de das que pas en algunos pases extranjeros.
Hemos ordenado los valores numricos desde 0 das, en la parte inferior de la
escala, hasta 30 das en la parte superior de la misma. En el diagrama de barras
situado a la derecha de la imagen 1.1, mostramos una representacin grfica muy
habitual de datos, en la cual la longitud de las barras es proporcional a los valores de la variable. Hemos redondeado el tiempo que pas en cada pas a nmero
de das, sin embargo, seguimos considerando esta variable como continua, ya que el
tiempo es esencialmente una variable continua.

Expresin de los datos


en valores relativos

El eje vertical situado a la derecha de los dos grficos de la imagen 1.1 expresa el
nmero de das de viaje en cada pas, como porcentaje, con relacin al total de
mis 86 das de viaje. Por ejemplo, 18 das en Noruega corresponde al 21% del tiempo total. El total de 86 das es la base con relacin a la cual expresamos los valores
relativos de los datos. En este caso tenemos un solo conjunto de datos, y en consecuencia slo una base. En estos dos grficos podemos representar, en el mismo
grfico, la escala absoluta original de la izquierda y la escala de valores relativos
de la derecha.

40%

40%

30

30
30%

20
20%

10

10%

Noruega

16

Canad

Grecia Francia/Alemania

Das

30%

Das

Imagen 1.1:
Grficos sobre el nmero de
das que pas en pases
extranjeros en 2005, en
forma de diagrama de
dispersin y de diagrama
de barras. A la derecha de
cada grfico, el eje vertical
expresa el nmero de das
en porcentaje con relacin
al total de 86 das de viaje

20
20%

10

10%

Noruega

Canad

Grecia Francia/Alemania

DIAGRAMAS DE DISPERSIN Y MAPAS

A diferencia del eje vertical, eje y, el eje horizontal, eje x, corresponde claramente a una variable no numrica. En este eje, los cuatro puntos son slo posiciones
en las que hemos situado las etiquetas que indican el pas visitado. La escala horizontal representa una variable categrica. Hay dos caractersticas de este eje
horizontal que no tienen significado sustantivo alguno en el grfico: la ordenacin de las categoras y la distancia entre ellas.

Variables categricas

En primer lugar, no hay ninguna razn de peso por la cual hayamos situado
a Noruega en primer lugar, a Canad en segundo y a Grecia en tercer lugar;
quizs el hecho de que visit estos pases por este orden. Como la etiqueta
Francia/Alemania indica un conjunto de viajes cortos que realic en distintos
momentos del ao, hemos situado esta etiqueta despus de las otras. Sin embargo, en este tipo de representaciones grficas en las que el orden es irrelevante, siempre es bueno reordenar las categoras de manera que tengan algn
significado sustantivo, por ejemplo, los valores de la variable. As, podramos
ordenar los pases en orden descendiente de acuerdo con el tiempo que pas
en cada pas. En tal caso habramos situado los pases en el siguiente orden:
Grecia, Francia/Alemania, Noruega y Canad. Esta sencilla reordenacin facilita
la interpretacin de los datos, especialmente cuando tenemos muchos. Por
ejemplo, si hubiera visitado 20 pases distintos, la ordenacin contendra informacin relevante que no obtendramos de forma rpida a partir de la ordenacin original.

Ordenacin de las
categoras

En segundo lugar, no existe razn alguna por la cual hayamos situado los cuatro puntos a intervalos iguales en el eje de las y. Asimismo, no existe tampoco
razn por la cual hayamos de situarlos a intervalos distintos; en realidad los hemos situado a intervalos iguales por conveniencia y esttica. Cuando utilicemos
el anlisis de correspondencias, veremos que existen distintas maneras de
definir intervalos entre las categoras de las variables como la que acabamos
de comentar. Es ms, presentaremos el anlisis de correspondencias como un
procedimiento para la cuantificacin de las categoras de una variable y, as,
tanto las distancias entre categoras como su ordenacin tendrn un significado
importante.

Distancias entre las


categoras

En el eje horizontal del grfico de la izquierda de la imagen 1.1, tanto la ordenacin de los pases como la separacin entre stos son arbitrarias, por tanto,
no tiene ningn sentido que midamos e interpretemos las distancias entre los
puntos mostrados en el grfico de la izquierda. Dada la naturaleza numrica
del eje vertical que indica frecuencia (o frecuencia relativa), las nicas medidas de distancia que tienen sentido son estrictamente las distancias en direccin vertical.

Interpretacin de las
distancias en los
diagramas de dispersin

17

LA PRCTICA DEL ANLISIS DE CORRESPONDENCIAS

Imagen 1.2:
Diagrama de dispersin de
las calificaciones de 20
estudiantes en dos materias
(lgebra y geometra)
en un examen de
matemticas. Los puntos
tienen propiedades
especiales. As podemos
obtener la calificacin total
de los estudiantes
proyectando los puntos
perpendicularmente
sobre la bisectriz que
hemos calibrado de
0 (abajo a la izquierda) a
100 (arriba a la derecha)

50

40

Geometra

30

20

10

0
0

10

20

30

40

50

lgebra

Los diagramas de
dispersin como mapas

En algunos casos especiales, las dos variables que definen a los ejes de los diagramas
de dispersin tienen la misma naturaleza numrica y escalas similares. Por ejemplo,
supongamos que 20 estudiantes han realizado un examen de matemticas que consta de dos partes, lgebra y geometra. Supongamos que cada parte representa el 50%
de la nota final. En la imagen 1.2, hemos representado grficamente los pares de calificaciones de los estudiantes. Es importante que los dos ejes, que representan las
respectivas calificaciones, tengan escalas con unidades de la misma longitud. Dada
la naturaleza similar de las dos variables y de sus dos escalas, en esta representacin
grfica podemos medir distancias en cualquier direccin; no solamente horizontal o
verticalmente igual que en un mapa en el que podemos medir distancias entre
poblaciones. Dos puntos que se hallen cerca tendrn calificaciones similares. Por
tanto, tiene sentido que nos fijemos en la forma de la distribucin de los puntos y,
en particular, remarcar que hay un pequeo grupo de cuatro estudiantes con calificaciones elevadas y slo un estudiante con calificaciones muy elevadas. Podemos
considerar la imagen 1.2 un mapa, ya que las posiciones de los estudiantes vienen
definidas por posiciones bidimensionales, de la misma manera que, en una regin,
las localizaciones geogrficas vienen definidas por la longitud y la latitud.

Calibracin de una
direccin en un mapa

Los mapas tienen interesantes propiedades geomtricas. Por ejemplo, en la


imagen 1.2, la bisectriz, que hemos representado como una lnea discontinua,
define un eje que expresa las calificaciones finales de los estudiantes, combi18

DIAGRAMAS DE DISPERSIN Y MAPAS

nando las calificaciones de lgebra y de geometra. Si calibramos este eje de 0


(abajo izquierda) hasta 100 (arriba a la derecha), podemos leer las calificaciones finales de los estudiantes en el mapa, proyectando de forma perpendicular
sobre el mencionado eje los puntos que representan sus calificaciones. En la representacin grfica podemos ver un ejemplo para un estudiante que obtuvo 12
puntos sobre 50 en lgebra y 18 sobre 50 en geometra. A la proyeccin de este
punto sobre la bisectriz, de coordenadas 15 y 15, le corresponde una calificacin final de 30.
Los diagramas de dispersin de las imgenes 1.1 y 1.2 son dos maneras distintas de expresar, de forma grfica, la informacin numrica contenida en dos
tablas que contienen datos sobre viajes y calificaciones, respectivamente. En
ambos casos, no hay prdida de informacin entre los datos y las representaciones grficas. Dados los grficos, es fcil recuperar exactamente la informacin numrica. Decimos que los diagramas de dispersin o los mapas son
instrumentos de transformacin de la informacin en los que, en absoluto,
se produce un procesado de los datos; simplemente expresamos los datos de
forma visual, es decir, se trata de una manifestacin alternativa de la misma
informacin.

Transformacin
de la informacin en la
representacin grfica

En el ejemplo sobre mis viajes, la variable categrica pas tiene cuatro categoras, y dado que no existe una ordenacin intrnseca de las categoras, llamamos a
esta variable nominal. En cambio, si podemos ordenar de forma natural las categoras de una variable categrica, llamamos a la variable ordinal. Por ejemplo, podemos clasificar los das en tres categoras de acuerdo con el tiempo que dediqu
cada da a trabajar: a) menos de una hora (festivos), b) ms de una pero menos de seis horas (medias jornadas) y c) ms de seis horas (jornadas completas). Por tanto, hemos ordenado estas categoras de acuerdo con una variable
continua tiempo diario de trabajo que hemos dividido en intervalos. Tendremos en cuenta esta ordenacin en cualquier representacin grfica de las variables. En muchas encuestas sociales, se dan las respuestas en una escala ordinal.
Por ejemplo, una escala ordinal sobre valoracin de la importancia: nada importante/algo importante/muy importante. Otro ejemplo tpico es la escala de
acuerdo/desacuerdo: muy de acuerdo/algo de acuerdo/ni de acuerdo ni en desacuerdo/algo en desacuerdo/muy en desacuerdo. Aqu la posicin ordinal de la
categora ni de acuerdo ni en desacuerdo puede no estar situada entre algo
de acuerdo y algo en desacuerdo, podra ser, por ejemplo, una categora utilizada por algunos encuestados para expresar que no sabe cuando stos o bien
no comprenden la pregunta o bien no tienen una respuesta clara. Veremos este
tema ms adelante (cap. 21), una vez hayamos desarrollado las herramientas que
nos permitan estudiar las asociaciones entre las respuestas en cuestionarios de datos multivariantes.

Variables nominales y
variables ordinales

19

LA PRCTICA DEL ANLISIS DE CORRESPONDENCIAS

Imagen 1.3:
Frecuencias de los tipos de
da en los cuatro viajes

Festivos

PAS
Noruega
Canad
Grecia
Francia/Alemania

TOTAL

Medias jornadas

Jornadas completas

TOTAL

6
1
4
2

1
3
25
2

11
11
0
20

18
15
29
24

13

31

42

86

Representacin grfica
de ms de un conjunto
de datos

Supongamos que clasificamos mis 86 das de viaje en el extranjero de acuerdo


con las categoras, festivos, medias jornadas y jornadas completas. En la imagen
1.3 se muestra una tabla que corresponde a la clasificacin cruzada de pas por
tipo de da. Podemos ver esta tabla de dos formas distintas: como un conjunto
de filas o como un conjunto de columnas. En este caso, las columnas son conjuntos de frecuencias que caracterizan a los respectivos tipos de da; mientras
que las filas caracterizan a los respectivos pases. En la figura (a) de la imagen
1.4, se muestra un diagrama de frecuencias de los distintos pases (filas), en el
que hemos situado el tipo de da (las columnas) en el eje horizontal. Dado que
hemos ordenado las categoras de la variable tipo de da, tiene sentido unir
los valores de las categoras de esta variable mediante lneas. Sin embargo, si
queremos comparar los pases entre s, hemos de tener en cuenta que el
nmero de das que pas en cada pas no fue el mismo. El nmero total de das
que pas en cada pas nos proporciona una base sobre la que podemos reexpresar los valores de las filas de la imagen 1.3, como porcentajes con relacin a
estos totales (imagen 1.5). En la representacin grfica de la imagen 1.4(b),
hemos visualizado estos porcentajes, y ahora s podemos comparar los tipos de
da de los distintos viajes.

Imagen 1.4:
Diagramas de frecuencias
absolutas (a) y de
frecuencias relativas (b),
expresadas como
porcentajes de las filas de
la imagen 1.3

(a)

(b)

30

100

Porcentaje de das (%)

25

Das

20
15
10

75

50

25

5
0

Festivos

Noruega
Grecia

20

Medias
jornadas

Jornadas
completas

Canad
Francia/Alemania

Festivos

Noruega
Grecia

Medias
jornadas

Jornadas
completas

Canad
Francia/Alemania

DIAGRAMAS DE DISPERSIN Y MAPAS

Festivos

Medias jornadas

Jornadas completas

Noruega
Canad
Grecia
Francia/Alemania

33%
7%
14%
8%

6%
20%
86%
8%

61%
73%
0%
83%

Global

15%

36%

49%

PAS

Imagen 1.5:
Porcentajes
correspondientes a los
tipos de da en cada pas,
as como los porcentajes
globales de los pases,
donde la suma de
los valores de las filas
es el 100%

De estas representaciones grficas tenemos que extraer una leccin fundamental


para el anlisis de frecuencias de datos. Cada viaje ha implicado un diferente nmero de das y, por tanto, corresponde a una base distinta sobre la que expresar
la frecuencia de los tipos de da. Slo podemos comparar los 6 festivos en Noruega, con los 4 en Grecia, con relacin al nmero total de das que pas en cada uno
de estos pases. Como porcentajes, estos valores se transforman en valores muy
distintos; 6 de 18 es el 33%, mientras que 4 de 29 es el 14%. La visualizacin de
las frecuencias relativas de la imagen 1.4(b) nos permite una comparacin ms
precisa de cmo pas mi tiempo en los diferentes pases. Tambin podemos
expresar las frecuencias marginales (18, 15, 29 y 24, de los pases y 13, 31, 42
del tipo de da) con relacin a sus respectivos totales (por ejemplo, en la ltima
fila de la imagen 1.5 mostramos los porcentajes correspondientes al tipo de da
para la combinacin de todos los pases). Estas frecuencias marginales relativas,
tambin las podamos haber representado en la imagen 1.4 (b).

Interpretacin de las
frecuencias absolutas y
de las frecuencias
relativas

Cualquier conclusin que hayamos sacado sobre la posicin de los puntos de la


imagen 1.4(b) es slo una interpretacin de los datos, no es una afirmacin sobre la significacin estadstica de lo que hemos observado. Estos aspectos estadsticos de las representaciones grficas, los veremos solamente al final del libro
(cap. 25). Por tanto, en la mayor parte del libro nos concentraremos en la descripcin y en la interpretacin de los datos. La deduccin de que, en proporcin,
pas ms das festivos en Noruega que en ningn otro pas es ciertamente verdadera, lo podemos ver en la imagen 1.4(b). Sin embargo, analizar si este fenmeno es estadsticamente comparable con un modelo o con una hiptesis sobre
mi comportamiento que, por ejemplo, postule que la proporcin de festivos fue
la misma en todos mis viajes, es un tema completamente distinto. Gran parte de la
metodologa estadstica existente se concentra en saber si los datos se ajustan, o
se pueden comparar, con un determinado modelo terico o con una hiptesis
preconizada. Se dedica poca atencin a desarrollar procedimientos para describir datos, para interpretarlos o para generalizar hiptesis. Un ejemplo tpico, en
ciencias sociales, es la utilizacin omnipresente del estadstico ji-cuadrado para
contrastar asociaciones en tablas de contingencia. A menudo se hallan asociaciones estadsticamente significativas, pero en cambio no existen herramientas

Descripcin e
interpretacin de los
datos versus
modelizacin e
inferencia estadstica

21

LA PRCTICA DEL ANLISIS DE CORRESPONDENCIAS

sencillas para detectar qu partes de la tabla son las responsables de esta asociacin. El anlisis de correspondencias es una herramienta que puede contribuir a
rellenar este vaco. Permite al analista visualizar las asociaciones existentes en los
datos, y en consecuencia le permite formular hiptesis que ste puede contrastar
en una etapa ms avanzada de su investigacin. En la mayor parte de las situaciones, podemos describir, interpretar y modelizar los datos. De todas formas, existen situaciones en las que la descripcin y la interpretacin de los datos tiene, por
s misma, una importancia capital, por ejemplo, cuando los datos representan a
la totalidad de la poblacin de inters.
Conjuntos de datos
grandes

A medida que las tablas de datos aumentan de tamao, debido al excesivo nmero de puntos, se hace difcil representar stos de forma simple, como hemos
hecho, por ejemplo, en la imagen 1.4. Supongamos que durante un ao hubiera
visitado 20 pases, al clasificar el tiempo pasado en cada uno de ellos, hubiese obtenido una tabla de contingencia con muchas ms filas. Tambin podra haber registrado otros datos, como por ejemplo la meteorologa de cada da (buen tiempo, parcialmente nublado o lluvioso), con el objetivo de estudiar posibles
relaciones con el tipo de da. Tendra, pues, una tabla de datos con muchas ms
columnas y muchas ms filas. Representar, de la misma manera como hemos hecho
en la imagen 1.4, a los 20 conjuntos de puntos clasificados en muchas ms categoras podra llevarnos a una gran confusin entre puntos y etiquetas. Resultara
absolutamente imposible identificar pauta alguna. Por tanto, en estas situaciones
para resaltar las caractersticas esenciales de esos datos, tendramos que buscar
una alternativa a los diagramas de dispersin, el instrumento para la descripcin
de datos que hemos utilizado hasta ahora. Tal como veremos en el libro, el anlisis de correspondencias, un mtodo de representacin grfica de datos igual que
los diagramas de dispersin, nos permitir trabajar fcilmente con conjuntos de
datos grandes.

RESUMEN:
Diagramas de dispersin
y mapas

1. Los diagramas de dispersin representan grficamente dos variables con relacin a un eje horizontal y un eje vertical, el eje x y el eje y, respectivamente.
2. A menudo, la naturaleza de la variable x es completamente distinta a la de la
variable y, de manera que solamente podemos interpretar distancias en la
direccin de unos de los dos ejes, de acuerdo con una determinada escala de
medida con la que hayamos calibrado el eje. En estas situaciones, no tiene sentido medir o interpretar distancias en cualquier otra direccin del grfico.
3. El algunos casos, las variables x e y son de naturaleza similar con escalas de
medida comparables. En estas situaciones, podemos interpretar las distancias
entre los puntos como una medida de la diferencia, o de la disimilitud, entre
los puntos representados. En estos casos especiales consideramos que los diagramas de dispersin son mapas.
22

DIAGRAMAS DE DISPERSIN Y MAPAS

4. Cuando representamos valores positivos (en general, en nuestro contexto, frecuencias), estamos interesados tanto en los valores relativos como en los absolutos.
5. Cuanto ms complejos sean los datos, menos conveniente ser representarlos
en forma de diagramas de dispersin.
6. Este libro, ms que sobre la modelizacin de informacin compleja, trata sobre la descripcin y la interpretacin de la informacin.

23

También podría gustarte