Está en la página 1de 21

3.

ANLISIS DE CORRESPONDENCIAS SIMPLES

El anlisis de correspondencias simples es un procedimiento estadstico multivariado


apropiado para la lectura y sntesis de la informacin contenida en una tabla de
contingencia. Una tabla lxica agregada es una tabla de contingencia en donde las filas son
las formas grficas y las columnas los textos. Con las respuestas a preguntas abiertas se
pueden definir textos artificiales utilizando las particiones de las respuestas originadas en
preguntas cerradas.

3.1. Tabla de contingencia

Los elementos del anlisis de correspondencias se ilustran a continuacin utilizando una


tabla lxica agregada pequea (tabla 3.1), construida a partir de las respuestas a la pregunta
abierta: En su opinin porque le ha ido bien con el caf?., de una encuesta a fincas
cafeteras. Los textos se han conformado con la variable: tipologa del productor, con las
modalidades:

1. Empresarios tecnificados modernos. Em.Te.Mo.


2. Tecnificados modernos: Te.Mo.
3. Campesinos tecnificados modernos: Ca.Te.Mo.
4. Campesinos tradicionales: Ca.Tr.
32 Alvaro Montenegro y Campo Elas Pardo

Em.Te.Mo. Te.Mo. Ca.Te.Mo. Ca.Tr. Marginal


ADMINISTRACION 26 14 22 11 73
ADMINISTRADOR 17 6 5 4 32
AGRICULTOR 1 4 6 15 26
CULTIVO 5 8 14 6 33
LABORES 12 10 6 14 42
MANEJO 15 15 20 20 70
PERSONA 5 8 10 18 41
PROPIETARIO 4 14 10 6 34
Marginal 85 79 93 94 351
Tabla 3.1: Tabla de contingencia formas*textos

Las ocho palabras son utilizadas en 351 respuestas. Cada celda representa el nmero de
utilizaciones de la palabra de la fila por el grupo de cafeteros de la columna. Por ejemplo la
palabra agricultor fue utilizada cuatro veces por el grupo de cafeteros tecnificados
modernos. La ltima columna es la marginal de las palabras, es decir el nmero de veces
que es utilizada cada palabra por todos los cafeteros encuestados. La ltima fila es la
marginal que representa el nmero de veces que cada grupo de cafeteros utilizaron las ocho
palabras.

3.2. Tablas de perfiles fila y columna

La lectura ms interesante de la informacin contenida en una tabla de contingencia es la


comparacin entre filas y entre columnas. En la tabla de frecuencias relativas las filas y las
columnas estn influenciadas por el peso relativo de sus marginales. La comparacin se
facilita obteniendo las distribuciones condicionales o perfiles de cada una de las filas y de
cada una de las columnas. Para obtener la distribucin condicional de una fila, se dividen
todas las celdas de esa fila por el valor total de la fila. De manera anloga se obtienen las
condicionales de las columnas. Se llega entonces a dos tablas: una de perfiles fila y otra de
perfiles columna.

La tabla de perfiles fila es la tabla 3.2, en donde se incluye la distribucin marginal, es decir
la frecuencia relativa con que fueron utilizadas las ocho palabras en conjunto por los cuatro
Introduccin al anlisis de datos textuales 33

grupos de cafeteros. En la figura 3.1 aparece la misma informacin en forma de histograma


de barras.

Em.Te.Mo. Te.Mo. Ca.Te.Mo. Ca.Tr.


ADMINISTRACION 35.6 19.2 30.1 15.1 100
ADMINISTRADOR 53.1 18.8 15.6 12.5 100
AGRICULTOR 3.8 15.4 23.1 57.7 100
CULTIVO 15.2 24.2 42.4 18.2 100
LABORES 28.6 23.8 14.3 33.3 100
MANEJO 21.4 21.4 28.6 28.6 100
PERSONA 12.2 19.5 24.4 43.9 100
PROPIETARIO 11.8 41.2 29.4 17.6 100
Marginal 24.2 22.5 26.5 26.8 100
Tabla 3.2: Tabla de perfiles fila

PERFILES FILA

Marginal

PROPIET ARIO

PERSONA

MANEJO
PALABRAS

LABORES

CULT IVO

AGRICULT OR

ADMINIST RADOR Ca.T r.

ADMINIST RACION Ca.T e.Mo.


T e.Mo.
0% 20% 40% 60% 80% 100% Em.T e.Mo.
PO RC ENTAJE

Figura 3.1: Perfiles fila

Cada perfil fila representa la distribucin de frecuencias con que cada palabra es utilizada
por los cuatro grupos de agricultores. Por ejemplo la palabra propietario fue utilizada con
34 Alvaro Montenegro y Campo Elas Pardo

mayor frecuencia por los cafeteros tcnificados modernos (41.2%) y con menor frecuencia
por los cafeteros empresarios tecnificados modernos (4.7%). La distribucin marginal es
la distribucin de la frecuencia de uso de todas las ocho palabras entre los cuatro grupos de
agricultores. Se observa una frecuencia de uso muy similar.

Una primera lectura de esta informacin es la comparacin con el perfil marginal. Se


observa, por ejemplo, que la palabra manejo tiene un perfil muy parecido al marginal. La
palabra agricultor es mucho ms usada por los cafeteros campesinos tradicionales
(57.7%), en comparacin con el conjunto global de las palabras (26.8% por campesinos
tradicionales). Otra lectura es la comparacin de los perfiles entre palabras. Se observa,
por ejemplo, que los perfiles de agricultor y administrador son bien diferentes. El hecho
de que dos palabras tengan perfiles similares significa que son usadas con frecuencias
similares por los cuatro grupos de agricultores. Las palabras persona y agricultor tienen
distribuciones algo parecidas, los campesinos tradicionales las utilizan con mayor
frecuencia (19.1% y 16%) y los empresarios tecnificados modernos con menor
frecuencia (5.9% y 1.2%). En trminos generales se estn comparando las frecuencias de
utilizacin de las palabras en los diferentes textos.

La tabla 3.3 es la tabla de perfiles columna y la figura 3.2 contiene los respectivos
histogramas, junto con el perfil marginal. Se tiene una distribucin de frecuencias de las
ocho palabras para cada uno de los cuatro grupos de agricultores y la distribucin marginal,
que es la distribucin de frecuencias de utilizacin de las ocho palabras por todos los
cafeteros encuestados. La distribucin para el caficultor tecnificado moderno se observa
ms parecida a la distribucin marginal. Los perfiles de los cafeteros empresario
tecnificado moderno y campesino tradicional parecen ser los ms diferentes. En general
la comparacin de perfiles columna en una tabla lxica agregada permite describir las
diferencias y semejanzas entre los textos respecto a las palabras utilizadas.

Em.Te.Mo. Te.Mo. Ca.Te.Mo. Ca.Tr. Marginal


ADMINISTRACION 30.6 17.7 23.7 11.7 20.8
Introduccin al anlisis de datos textuales 35

ADMINISTRADOR 20.0 7.6 5.4 4.3 9.1


AGRICULTOR 1.2 5.1 6.5 16.0 7.4
CULTIVO 5.9 10.1 15.1 6.4 9.4
LABORES 14.1 12.7 6.5 14.9 12.0
MANEJO 17.6 19.0 21.5 21.3 19.9
PERSONA 5.9 10.1 10.8 19.1 11.7
PROPIETARIO 4.7 17.7 10.8 6.4 9.7
100.0 100.0 100.0 100.0 100.0
Tabla 3.3: Tabla de perfiles columna

PERFILES COLUMNA

100%
90%
80%
70%
PORCENTAJE

60%
50%
40% PROPIET ARIO
30% PERSONA
20% MANEJO
10% LABORES
0% CULT IVO
Marginal
Ca.Tr.
Te.Mo.

Ca.Te.Mo.
Em.Te.Mo.

AGRICULT OR
ADMINIST RADOR
ADMINIST RACION
TIPO DE CAFICULTO R

Figura 3.2: Perfiles columna

En el anlisis de correspondencias simples (ACS) se busca una representacin ms


adecuada para analizar simultneamente los perfiles fila y columna obtenidos a partir de
una tabla de contingencia. Cuando se tienen tablas de contingencia de gran tamao es muy
difcil obtener una sntesis apropiada de forma como se hizo en el ejemplo. Para el ACS se
parte de la representacin de los perfiles lnea en un espacio multidimensional, donde las
columnas son los ejes y simtricamente de otra nube de perfiles columna, donde las lneas
son los ejes. Para ello se requiere del uso de una distancia apropiada: la distancia ji-
cuadrado entre distribuciones. Podemos hacer lecturas fciles para representaciones
36 Alvaro Montenegro y Campo Elas Pardo

geomtricas en dos dimensiones, pero es imposible leer ms de tres dimensiones, entonces


es necesario hacer proyecciones sobre planos, buscando que se conserven lo mejor posible
el conjunto de las distancias originales. Este es el principio de funcionamiento de todos los
mtodos factoriales. La lectura en proyeccin es desde luego aproximada pero se tendr lo
ms relevante de la informacin de la tabla de contingencia. Se requiere de ndices para
complementar los grficos y evitar lecturas errneas, por ejemplo, un punto mal
representado en la proyeccin puede aparecer cercano a otro cuando en realidad no lo est.

3.3. Representacin geomtrica de los perfiles

A partir de la tabla de contingencia se obtiene la tabla de frecuencias relativas dividiendo


cada celda por el total de la tabla. Esta tabla representa la distribucin de frecuencias
conjunta de las palabras y los textos, en el caso de la tabla lxica agregada. Para el ejemplo
esta tabla es la 3.4, que se obtiene dividiendo cada celda de la tabla 3.1 por 351. El valor 7.4
de la celda (1,1) significa que el 7.4% de las formas grficas corresponden a la palabra
administracin y pertenecen al texto de los cafeteros empresarios tcnicos modernos. La
ltima fila (columna) es la distribucin marginal.

Em.Te.Mo. Te.Mo. Ca.Te.Mo. Ca.Tr. Marginal


ADMINISTRACION 7.4 4.0 6.3 3.1 20.8
ADMINISTRADOR 4.8 1.7 1.4 1.1 9.1
AGRICULTOR 0.3 1.1 1.7 4.3 7.4
CULTIVO 1.4 2.3 4.0 1.7 9.4
LABORES 3.4 2.8 1.7 4.0 12.0
MANEJO 4.3 4.3 5.7 5.7 19.9
PERSONA 1.4 2.3 2.8 5.1 11.7
PROPIETARIO 1.1 4.0 2.8 1.7 9.7
Marginal 24.2 22.5 26.5 26.8 100.0
Tabla 3.4: Tabla de frecuencias relativas

Una notacin generalizada de una tabla de frecuencias relativas es la siguiente:


Introduccin al anlisis de datos textuales 37

f 11  f1j  f1p f1.


  
 p
F =   f ij   f i . f i . = f ij
j =1
   
f n1  f nj  f np
fn.
n p n p
. . . f .1  f .j  f .p . 1 1 = f ij = fi .= f . j
i =1 j =1 i =1 j =1

. . . . . . . .
n
. . . . . . f . j = f ij . .
i =1

donde n es el nmero de filas y p el nmero de columnas; i y j son los ndices para las filas
y las columnas, respectivamente; fi. y f.j son las marginales fila y columna,
respectivamente. Las tablas de perfiles tambin se pueden obtener de la tabla de frecuencias
de la misma forma que de la tabla de contingencia.

3.3.1 Nube de perfiles fila

En el espacio Rp se representan los n perfiles fila, dotados del peso pi = fi.

f ij
, j = 1,2..... p , i = 1,2..... n con peso pi = f i .
fi .

3.3.2. Nube de perfiles columna

En el espacio Rn cada punto representa un perfil columna y esta dotado de un peso igual a la
marginal la respectiva columna.
38 Alvaro Montenegro y Campo Elas Pardo

f ij
, i = 1,2..... n , j = 1,2..... p con peso p j = f $ j
f . j

3.3.3. La distancia ji-cuadrado entre perfiles

La distancia ji-cuadrado entre dos perfiles lnea i e i viene dada por:

2
p
1 f ij f ij
d (i , i ) =
2
(3.1)
j =1 f . j f i . f i .

Para el caso de dos lneas, esta distancia, es la suma de la diferencia de cada una de las
respectivas componentes de los dos perfiles, ponderadas por el inverso de las frecuencias
marginales de las columnas respectivas (ver figura 3.3).

i
perfil i

i
perfil i

pesos de columnas f.j

Figura 3.3: Significado de la distancia ji-cuadrado


Con este peso las diferencias se amplifican cuando se deben a columnas de baja frecuencia,
es decir tiende a destacar los casos raros. De manera simtrica, la distancia entre perfiles
columna es:
2
n
1 f ij f
d 2 ( j , j ) = ij (3.2)
i =1 f i. f. j f. j
Introduccin al anlisis de datos textuales 39

La distancia ji-cuadrado se puede escribir como una distancia euclidiana convencional, lo


cual se ha ilustrado en el ejemplo:

2
p f ij f ij
d 2 (i , i ) = (3.3)

j =1 f i .

f.j f i . f . j

3.3.4. La equivalencia distribucional de la distancia ji-cuadrado

& &
Si wi y wl son dos perfiles idnticos, entonces estn representados por el mismo punto en
Rp. Si se reemplazan los dos puntos por un punto comn de peso la suma de los pesos (fi. +
fl.), entonces las distancias de los dems puntos, tanto en Rp como en Rn permanecen
inalteradas. Igual resultado se obtiene para dos perfiles idnticos en Rn.. En Crivisqui
[1993] hay una descripcin bastante pedaggica de esta propiedad. Con la distancia ji-
cuadrado los resultados son robustos respecto a la arbitrariedad en la determinacin del
nmero de categoras filas y categoras columna, en un anlisis. Otra implicacin prctica
de la equivalencia distribucional es la de poder agregar filas o columnas de perfiles
similares sin perturbar demasiado la distancia entre puntos.

3.3.5. Centro de gravedad de la nube de perfiles fila (en Rp)

Si se consideran los puntos y sus pesos como un sistema de masas en el espacio, se


encuentra un punto en torno al cual las masas estn en el equilibrio, que es precisamente el
centro de gravedad. La fuerza necesaria aplicada en el centro de gravedad para mantener
suspendido el sistema de masas es lo que se denomina la inercia y es una medida de la
dispersin de la nube de puntos. La inercia se puede calcular respecto a cualquier otro
punto, pero tal inercia es superior a la inercia respecto al centro de gravedad. Si se tiene un
sistema de ejes ortogonales, entonces la inercia de la nube respecto al centro de gravedad se
40 Alvaro Montenegro y Campo Elas Pardo

puede descomponer como la suma de las inercias a lo largo de cada uno de los ejes. Es por
las razones anteriores que los calculos se hacen respecto al centro de gravedad.

Sea la matriz X, de termino general:

f ij
xi j = (3.4)
f i$ f$ j

Las filas de esta matriz son los vectores, wi que se representan en Rp:

& f f ip
wi = i1
  (3.5)
f i $ f $1 f i$ f$p

&
Sea g el vector de p componentes, centro de gravedad de la nube de perfiles fila, la
componente j es:

n
f ij n f ij
g j = pi = f i . = f.j (3.6)
f i . i =1 f f
i =1 i. . j

&
es decir que g = [ f .1  f.j  f .p ] (3.7)

La distancia del centro de gravedad al origen de coordenadas es:

&&
( )
p
d 2 ( g ,0) =
2
f$ j =1 (3.8)
j =1

Restando el centro de gravedad a todos los vectores se obtiene una matriz de perfiles

( ) , donde:
centrados, Y = y ij
Introduccin al anlisis de datos textuales 41

f ij f ij f i $ f $ j
y ij = f$j = (3.9)
f i$ f$j f i$ f$j

En general para un perfil i el trmino de la ecuacin (3.9) es la j-sima componente del


vector asociado centrado, Wci.

3.3.6. Inercia de la nube de puntos

La inercia de la nube de puntos respecto al centro de gravedad es:

( )
2 2
n n p f ij f i $ f $ j n p f f i$ f $ j 2
I = pi wci = f i$ = ij =
2
(3.10)
i =1 i =1
f
j =1 f $ j i =1 j =1 f i$ f $ j k
i$

donde 2 es la estadstica ji-cuadrado, de la prueba de independencia, calculada para la tabla


de contingencia K y k es el nmero total de individuos en la tabla. Crivisqui (1993) ilustra
el hecho de que la nube de puntos perfiles es una hiperesfera en el caso de independencia en
la tabla de contingencia. La inercia es un ndice de deformacin de la nube y se puede
descomponer en los diferentes ejes de la representacin.

3.4. Solucin del anlisis de correspondencias simples - ACS

Lo que se tiene hasta ahora son dos representaciones que contienen la informacin de la
tabla de contingencia: la nube de perfiles fila y la nube de perfiles columna, con puntos
ponderados, centradas y con una inercia asociada. Esta informacin es apta para llevar a
cabo dos anlisis de componentes principales con ponderacin, que consiste en la
proyeccin de la nube de puntos fila (columna) sobre subespacios de dimensin reducida,
42 Alvaro Montenegro y Campo Elas Pardo

escogidos de forma que la proyeccin conserve la mayor dispersin posible. La solucin


tiene propiedades particulares derivadas de la propiedades de las tablas de perfiles.

Para encontrar el subespacio (plano de proyeccin, en el caso de dos dimensiones), que se


aproxime lo mejor posible a la nube de n puntos (perfiles fila i), dotados de los pesos fi., se
hace un anlisis en componentes principales de la matriz Y, cuyo trmino general est dado
en la ecuacin 3.9, con la mtrica N = diag(fi.), es decir la matriz diagonal que contiene las
marginales fila de la tabla de frecuencias, asociada a la tabla de contingencia. La matriz a
diagonalizar es A = ZZ, donde

1 f ij f i $ f $ j
Z = N 2 Y , es decir zij = pi yij zij = (3.11)
f i$ f $ j

& &
El vector de coordenadas de todos los individuos sobre el eje es: = Yu . Para un

individuo i la coordenada es, entonces:

p
f ij f i $ f $ j
i = u j (3.12)
j =1 f i$ f $ j

el vector de coordenadas de los individuos sobre un eje est centrado y tiene como norma el
valor propio asociado:

n
& n

f i $ i = 0 = f i $ i2 =
2
y (3.13)
i =1 i =1

Para todos los perfiles y se verifica:

& & p
f ij f i $ f $ j
wig = f i $ =0 (3.14)
j =1 f i$ f $ j
Introduccin al anlisis de datos textuales 43

es decir que el vector centro de gravedad es perpendicular a todos los puntos perfiles
centrados, lo cual indica que la nube de puntos esta en un subespacio de dimensin p-1,
ortogonal a g y que g es un vector propio se A, asociado al valor propio 0. Esta propiedad
permite obtener la solucin del problema sin necesidad de centrar los datos, lo cual se
puede estudiar en Lebart et al. (1984). De ese hecho se deriva tambin que el vector de
coordenadas de las proyecciones se puede obtener mediante:

& &
= Xu (3.15)

El anlisis de los perfiles columna en Rn se obtiene de la misma manera, intercambiando los


papeles de los subndices i y j. Las coordenadas sobre los ejes factoriales son, entonces:

f ij
i = vi (3.16)
j f i o f oj

y el vector de coordenadas sobre un eje factorial es:

& &
= X v (3.17)

3.4.1. Relaciones entre los espacios fila y columna

El anlisis tiene propiedades que permiten obtener la solucin para la nube de puntos
columna a partir de la solucin de la nube de puntos fila o viceversa, mediante las
siguientes relaciones de transicin entre los espacios fila y columna:

Vectores propios de un espacio en funcin del otro

1 n f ij
u j =


i =1 f i o f oj
vi (3.18)
44 Alvaro Montenegro y Campo Elas Pardo

p
1 f ij
v j =

f i o f oj
u j (3.19)
j =1

Coordenadas en funcin de los vectores propios del otro espacio

1
i = vi (3.20)
f io

1
j = u j (3.21)
f oj

Relaciones bibaricentricas

1 p
f ij
i = f j (3.22)
j =1 io

1 n f ij
ji =

f i (3.23)
i =1 oj

Exceptuando el coeficiente 1 , la coordenada de un punto es el baricentro de los puntos


de la otra nube, con pesos iguales a los elementos del perfil. Haciendo la dilatacin
apropiada las dos nubes se pueden representar simultneamente sobre el mismo plano.

3.4.2. Proyeccin de elementos suplementarios


Introduccin al anlisis de datos textuales 45

Sobre los ejes factoriales se pueden proyectar filas y columnas que no hayan participando
en el anlisis. Los trminos con K hacen referencia a la tabla de contingencia y el signo + a
informacin suplementaria.

Fila suplementaria, i+

1 p
k ij +
i+ = k j (3.24)
j =1 i o+

Columna suplementaria, j+

1 n k ij+
ji + =

=1 k + i (3.25)
i oj

3.4.3. ndices para ayudar a la interpretacin de los ejes y a la lectura de las proyecciones

En un anlisis se requiere establecer qu significado se le puede dar a cada uno de los ejes
de inters o en, otras palabras, qu modalidades contribuyen ms a la formacin del eje,
para ello se utilizan las contribuciones absolutas.

Contribucin absoluta del punto i en el eje , ca(i)

f i o i2
ca (i ) = (3.26)

Es la proporcin con que cada punto contribuye a la inercia del eje. Los puntos que tengan
contribucin absoluta fuerte son los que fijan la posicin del eje.
46 Alvaro Montenegro y Campo Elas Pardo

Las proyecciones sobre los ejes y sobre los planos factoriales sern muy buenas para
algunos puntos pero tambin pueden ser de mala calidad para otros puntos, se requiere
entonces de un ndice que ponga en evidencia este hecho.

Contribucin relativa del eje a la posicin de un punto i, cr(i)

i2
cr (i ) = (3.27)
d 2 (i , g )

Estos valores son los cosenos cuadrados y miden la calidad de la representacin de los
puntos.

3.5. Resultados del anlisis de correspondencia de la tabla lxica agregada del ejemplo

Los planos de proyeccin se obtienen con dos de los ejes o factores principales obtenidos.
Como los ejes se enumeran segn la inercia que retienen, el primer plano principal es la
mejor proyeccin de las nubes de puntos. En general no es suficiente analizar el primer
plano y una primer decisin en la lectura de los resultados es determinar cuntos ejes vale la
pena interpretar: La herramienta para ello es el histograma de valores propios (figura 3.4).

HISTOGRAMME DES 3 PREMIERES VALEURS PROPRES


+--------+------------+----------+----------+----------------------------------------------------------------------------+
| NUMERO | VALEUR | POURCENT.| POURCENT.| |
| | PROPRE | | CUMULE | |
+--------+------------+----------+----------+----------------------------------------------------------------------------+
| 1 | .1145 | 64.01 | 64.01 | ************************************************************************** |
| 2 | .0478 | 26.75 | 90.76 | ********************************** |
| 3 | .0165 | 9.24 | 100.00 | ************ |
+--------+------------+----------+----------+----------------------------------------------------------------------------+

Figura 3.4: Histograma de valores propios para el ACS de la tabla lxica agregada del
ejemplo
Introduccin al anlisis de datos textuales 47

En el ejemplo la representacin completa est en tres dimensiones, por lo cual al leer el


primer plano solo se pierde una dimensin. El porcentaje de inercia (informacin en el
sentido de dispersin de la nube), retenido por el primer plano es el 91%. Por lo tanto es de
esperarse que en tal plano este prcticamente toda la informacin relevante (figura 3.5). En
la tabla 3.5 se muestra la informacin tabulada dada por el SPAD-T.

EDITION DES COORDONNEES ET CONTRIBUTIONS DES COLONNES


-----------------------------------------------------------------------------------------------------------------------------------------------------------------------
IDEN LIBELLES MASSES DISTO2 * COORDONNEES * CONTRIBUTIONS ABS* COSINUS CARRES *
********************************************************************************************
* * F1 F2 F3 * F1 F2 F3 * F1 F2 F3 *
********************************************************************************************
TETM Emp.Tec.Mod. .242 .30 * -.51 .20 -.01 *55.54 20.13 .11 * .87 .13 .00 *
TTMO Tec.Mod. .225 .08 * .01 -.21 .21 * .01 19.90 57.58 * .00 .50 .50 *
TCTM Cam.Tec.Mod. .265 .08 * .02 -.24 -.16 * .11 31.12 42.28 * .01 .68 .32 *
TCTR Cam.Trad. .268 .24 * .44 .23 .00 *44.34 28.85 .03 * .79 .21 .00 *
--------------------------------------------------------------------------------------------

EDITION DES COORDONNEES ET CONTRIBUTIONS DES LIGNES


--------------------------------------------------------------------------------------------
MOTS MASSES DISTO2 * COORDONNEES *CONTRIBUTIONS ABSO * COSINUS CARRES *
********************************************************************************************
* F1 F2 F3 * F1 F2 F3 * F1 F2 F3 *
********************************************************************************************
ADMINISTRACION .208 .11 * -.32 -.03 -.10 *18.81 .29 13.31 * .90 .01 .09 *
ADMINISTRADOR .091 .47 * -.63 .27 .06 *31.53 13.74 2.18 * .84 .15 .01 *
AGRICULTOR .074 .56 * .70 .24 -.07 *31.91 8.85 2.05 * .89 .10 .01 *
CULTIVO .094 .16 * .04 -.36 -.16 * .11 25.59 15.39 * .01 .82 .17 *
LABORES .120 .08 * .01 .23 .17 * .01 12.98 20.90 * .00 .64 .36 *
MANEJO .199 .01 * .07 -.02 -.04 * .77 .15 2.15 * .67 .06 .27 *
PERSONA .117 .17 * .40 .12 -.02 *16.35 3.46 .26 * .92 .08 .00 *
PROPIETARIO .097 .25 * .08 -.42 .27 * .51 34.94 43.76 * .02 .68 .29 *
--------------------------------------------------------------------------------------------

Tabla 3.5: coordenadas y contribuciones de filas y columnas

El primer eje contrapone el texto campesino tradicional (lado positivo) al texto


empresario tecnificado moderno (lado negativo). Las palabras AGRICULTOR y
PERSONA aparecen al lado positivo del primer eje contraponindose a las palabras
48 Alvaro Montenegro y Campo Elas Pardo

ADMINISTRADOR y ADMINISTRACIN. Estos dos hechos ponen de manifiesto una


correspondencia de las palabras AGRICULTOR y PERSONA con el texto campesino
tradicional y de las palabras ADMINISTRADOR y ADMINISTRACIN con empresario
tecnificado moderno.

En el plano se observan como ms cercanos los textos de tecnificado moderno y


campesino tecnificado moderno, pero la calidad de la representacin no es buena (50% y
69% respectivamente). El hecho de que el texto campesino tradicional aparezca cerca a las
palabras AGRICULTOR, PERSONA y LABORES significa que estas tres palabras son las
de mayor frecuencia en el perfil de este texto. De manera anloga la cercana entre
AGRICULTOR y campesino tradicional manifiesta que esta palabra es usada con mayor
frecuencia por este grupo, lo cual se puede verificar en la tabla de perfiles.
Introduccin al anlisis de datos textuales 49

Figura 3.5: Primer plano factorial

Las palabras cercanas (si estn bien representadas en el plano) tienen perfiles similares. Las
ms cercanas son: CULTIVO y PROPIETARIO, es necesario verificar la calidad de
representacin en el plano, es decir la suma de cosenos cuadrados de los dos primeros ejes,
esta son: 83% y 71%, para las dos palabras respectivamente. En parte la cercana se debe a
la proyeccin. La palabra ms cercana al perfil medio es MANEJO, lo cual es tambin
cierto en el espacio original pues tiene la menor distancia al origen (0.01), esto se haba
observado directamente en los perfiles.

3.6 Aplicacin del anlisis de correspondencias a datos textuales


50 Alvaro Montenegro y Campo Elas Pardo

3.6.1 Anlisis de correspondencia de una tabla lxica: respuestas*formas

La tabla de contingencia a analizar es una matriz dispersa de grandes dimensiones, la


informacin significativa est repartida sobre numerosos ejes y la interpretacin del anlisis
factorial presenta muchas dificultades. Sin embargo, el anlisis se la tabla
respuestas*formas podr ser til en una primera fase de exploracin de los datos. En este
caso solo intervendrn las repeticiones suficientemente numerosas e insistentes. Podremos
ver las grandes ideas presentes en las respuestas y percibir las asociaciones entre formas
(Bcue, 1991, pg.41).

El anlisis se puede enriquecer proyectando como ilustrativos los segmentos repetidos de la


tabla respuestas*segmentos y se pueden detectar asociaciones entre el vocabulario y
caractersticas de los individuos proyectando como ilustrativas respuestas a preguntas
cerradas.

3.6.2 Anlisis de una tabla lxica agregada: formas*textos

En la seccin 3.5 se hace el anlisis de una tabla lxica agregada, con lo cual se pueden ver
asociaciones entre el vocabulario utilizado y una variable categrica de la informacin
cerrada. Si las respuestas individuales han sido agregadas con un criterio adecuado, el
anlisis de estas tablas revela una estructura en los datos textuales que no se hubiera
manifestado mediante la simple lectura. (Bcue, 1991, pg.41).

Se suelen obtener variables mediante el cruce de otras, por ejemplo sexo*grupos de edad,
grupos de edad*nivel profesional, etc. y utilizar esas variables para hacer anlisis de tablas
lxicas agregadas. Cuando se tienen varias variables de un mismo tema no es posible
cruzarlas todas, ya que se tendra una variable con muchas modalidades, algunas de ellas sin
individuos. Una alternativa es la de crear una variable nominal mediante un anlisis de
correspondencias mltiples y clasificacin.
Introduccin al anlisis de datos textuales 51

3.6.3 Anlisis de tablas lxicas agregadas yuxtapuestas

Se forma una tabla en la cual las filas son las formas grficas y las columnas son
particiones yuxtapuestas correspondientes a diferentes variables. Las distancias entre
formas son las distancias medias, con la misma importancia para cada una de las
particiones. Para que la interpretacin de las proximidades entre formas sea posible es
necesario que las particiones no sean demasiado heterogneas. (Lebart y Salem, 1994). En
el captulo 5 se presenta un ejemplo de anlisis de tabla lxicas agregadas yuxtapuestas.

También podría gustarte