Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Las ocho palabras son utilizadas en 351 respuestas. Cada celda representa el nmero de
utilizaciones de la palabra de la fila por el grupo de cafeteros de la columna. Por ejemplo la
palabra agricultor fue utilizada cuatro veces por el grupo de cafeteros tecnificados
modernos. La ltima columna es la marginal de las palabras, es decir el nmero de veces
que es utilizada cada palabra por todos los cafeteros encuestados. La ltima fila es la
marginal que representa el nmero de veces que cada grupo de cafeteros utilizaron las ocho
palabras.
La tabla de perfiles fila es la tabla 3.2, en donde se incluye la distribucin marginal, es decir
la frecuencia relativa con que fueron utilizadas las ocho palabras en conjunto por los cuatro
Introduccin al anlisis de datos textuales 33
PERFILES FILA
Marginal
PROPIET ARIO
PERSONA
MANEJO
PALABRAS
LABORES
CULT IVO
AGRICULT OR
Cada perfil fila representa la distribucin de frecuencias con que cada palabra es utilizada
por los cuatro grupos de agricultores. Por ejemplo la palabra propietario fue utilizada con
34 Alvaro Montenegro y Campo Elas Pardo
mayor frecuencia por los cafeteros tcnificados modernos (41.2%) y con menor frecuencia
por los cafeteros empresarios tecnificados modernos (4.7%). La distribucin marginal es
la distribucin de la frecuencia de uso de todas las ocho palabras entre los cuatro grupos de
agricultores. Se observa una frecuencia de uso muy similar.
La tabla 3.3 es la tabla de perfiles columna y la figura 3.2 contiene los respectivos
histogramas, junto con el perfil marginal. Se tiene una distribucin de frecuencias de las
ocho palabras para cada uno de los cuatro grupos de agricultores y la distribucin marginal,
que es la distribucin de frecuencias de utilizacin de las ocho palabras por todos los
cafeteros encuestados. La distribucin para el caficultor tecnificado moderno se observa
ms parecida a la distribucin marginal. Los perfiles de los cafeteros empresario
tecnificado moderno y campesino tradicional parecen ser los ms diferentes. En general
la comparacin de perfiles columna en una tabla lxica agregada permite describir las
diferencias y semejanzas entre los textos respecto a las palabras utilizadas.
PERFILES COLUMNA
100%
90%
80%
70%
PORCENTAJE
60%
50%
40% PROPIET ARIO
30% PERSONA
20% MANEJO
10% LABORES
0% CULT IVO
Marginal
Ca.Tr.
Te.Mo.
Ca.Te.Mo.
Em.Te.Mo.
AGRICULT OR
ADMINIST RADOR
ADMINIST RACION
TIPO DE CAFICULTO R
. . . . . . . .
n
. . . . . . f . j = f ij . .
i =1
donde n es el nmero de filas y p el nmero de columnas; i y j son los ndices para las filas
y las columnas, respectivamente; fi. y f.j son las marginales fila y columna,
respectivamente. Las tablas de perfiles tambin se pueden obtener de la tabla de frecuencias
de la misma forma que de la tabla de contingencia.
f ij
, j = 1,2..... p , i = 1,2..... n con peso pi = f i .
fi .
En el espacio Rn cada punto representa un perfil columna y esta dotado de un peso igual a la
marginal la respectiva columna.
38 Alvaro Montenegro y Campo Elas Pardo
f ij
, i = 1,2..... n , j = 1,2..... p con peso p j = f $ j
f . j
2
p
1 f ij f ij
d (i , i ) =
2
(3.1)
j =1 f . j f i . f i .
Para el caso de dos lneas, esta distancia, es la suma de la diferencia de cada una de las
respectivas componentes de los dos perfiles, ponderadas por el inverso de las frecuencias
marginales de las columnas respectivas (ver figura 3.3).
i
perfil i
i
perfil i
2
p f ij f ij
d 2 (i , i ) = (3.3)
j =1 f i .
f.j f i . f . j
& &
Si wi y wl son dos perfiles idnticos, entonces estn representados por el mismo punto en
Rp. Si se reemplazan los dos puntos por un punto comn de peso la suma de los pesos (fi. +
fl.), entonces las distancias de los dems puntos, tanto en Rp como en Rn permanecen
inalteradas. Igual resultado se obtiene para dos perfiles idnticos en Rn.. En Crivisqui
[1993] hay una descripcin bastante pedaggica de esta propiedad. Con la distancia ji-
cuadrado los resultados son robustos respecto a la arbitrariedad en la determinacin del
nmero de categoras filas y categoras columna, en un anlisis. Otra implicacin prctica
de la equivalencia distribucional es la de poder agregar filas o columnas de perfiles
similares sin perturbar demasiado la distancia entre puntos.
puede descomponer como la suma de las inercias a lo largo de cada uno de los ejes. Es por
las razones anteriores que los calculos se hacen respecto al centro de gravedad.
f ij
xi j = (3.4)
f i$ f$ j
Las filas de esta matriz son los vectores, wi que se representan en Rp:
& f f ip
wi = i1
(3.5)
f i $ f $1 f i$ f$p
&
Sea g el vector de p componentes, centro de gravedad de la nube de perfiles fila, la
componente j es:
n
f ij n f ij
g j = pi = f i . = f.j (3.6)
f i . i =1 f f
i =1 i. . j
&
es decir que g = [ f .1 f.j f .p ] (3.7)
&&
( )
p
d 2 ( g ,0) =
2
f$ j =1 (3.8)
j =1
Restando el centro de gravedad a todos los vectores se obtiene una matriz de perfiles
( ) , donde:
centrados, Y = y ij
Introduccin al anlisis de datos textuales 41
f ij f ij f i $ f $ j
y ij = f$j = (3.9)
f i$ f$j f i$ f$j
( )
2 2
n n p f ij f i $ f $ j n p f f i$ f $ j 2
I = pi wci = f i$ = ij =
2
(3.10)
i =1 i =1
f
j =1 f $ j i =1 j =1 f i$ f $ j k
i$
Lo que se tiene hasta ahora son dos representaciones que contienen la informacin de la
tabla de contingencia: la nube de perfiles fila y la nube de perfiles columna, con puntos
ponderados, centradas y con una inercia asociada. Esta informacin es apta para llevar a
cabo dos anlisis de componentes principales con ponderacin, que consiste en la
proyeccin de la nube de puntos fila (columna) sobre subespacios de dimensin reducida,
42 Alvaro Montenegro y Campo Elas Pardo
1 f ij f i $ f $ j
Z = N 2 Y , es decir zij = pi yij zij = (3.11)
f i$ f $ j
& &
El vector de coordenadas de todos los individuos sobre el eje es: = Yu . Para un
p
f ij f i $ f $ j
i = u j (3.12)
j =1 f i$ f $ j
el vector de coordenadas de los individuos sobre un eje est centrado y tiene como norma el
valor propio asociado:
n
& n
f i $ i = 0 = f i $ i2 =
2
y (3.13)
i =1 i =1
& & p
f ij f i $ f $ j
wig = f i $ =0 (3.14)
j =1 f i$ f $ j
Introduccin al anlisis de datos textuales 43
es decir que el vector centro de gravedad es perpendicular a todos los puntos perfiles
centrados, lo cual indica que la nube de puntos esta en un subespacio de dimensin p-1,
ortogonal a g y que g es un vector propio se A, asociado al valor propio 0. Esta propiedad
permite obtener la solucin del problema sin necesidad de centrar los datos, lo cual se
puede estudiar en Lebart et al. (1984). De ese hecho se deriva tambin que el vector de
coordenadas de las proyecciones se puede obtener mediante:
& &
= Xu (3.15)
f ij
i = vi (3.16)
j f i o f oj
& &
= X v (3.17)
El anlisis tiene propiedades que permiten obtener la solucin para la nube de puntos
columna a partir de la solucin de la nube de puntos fila o viceversa, mediante las
siguientes relaciones de transicin entre los espacios fila y columna:
1 n f ij
u j =
i =1 f i o f oj
vi (3.18)
44 Alvaro Montenegro y Campo Elas Pardo
p
1 f ij
v j =
f i o f oj
u j (3.19)
j =1
1
i = vi (3.20)
f io
1
j = u j (3.21)
f oj
Relaciones bibaricentricas
1 p
f ij
i = f j (3.22)
j =1 io
1 n f ij
ji =
f i (3.23)
i =1 oj
Sobre los ejes factoriales se pueden proyectar filas y columnas que no hayan participando
en el anlisis. Los trminos con K hacen referencia a la tabla de contingencia y el signo + a
informacin suplementaria.
Fila suplementaria, i+
1 p
k ij +
i+ = k j (3.24)
j =1 i o+
Columna suplementaria, j+
1 n k ij+
ji + =
=1 k + i (3.25)
i oj
3.4.3. ndices para ayudar a la interpretacin de los ejes y a la lectura de las proyecciones
En un anlisis se requiere establecer qu significado se le puede dar a cada uno de los ejes
de inters o en, otras palabras, qu modalidades contribuyen ms a la formacin del eje,
para ello se utilizan las contribuciones absolutas.
f i o i2
ca (i ) = (3.26)
Es la proporcin con que cada punto contribuye a la inercia del eje. Los puntos que tengan
contribucin absoluta fuerte son los que fijan la posicin del eje.
46 Alvaro Montenegro y Campo Elas Pardo
Las proyecciones sobre los ejes y sobre los planos factoriales sern muy buenas para
algunos puntos pero tambin pueden ser de mala calidad para otros puntos, se requiere
entonces de un ndice que ponga en evidencia este hecho.
i2
cr (i ) = (3.27)
d 2 (i , g )
Estos valores son los cosenos cuadrados y miden la calidad de la representacin de los
puntos.
3.5. Resultados del anlisis de correspondencia de la tabla lxica agregada del ejemplo
Los planos de proyeccin se obtienen con dos de los ejes o factores principales obtenidos.
Como los ejes se enumeran segn la inercia que retienen, el primer plano principal es la
mejor proyeccin de las nubes de puntos. En general no es suficiente analizar el primer
plano y una primer decisin en la lectura de los resultados es determinar cuntos ejes vale la
pena interpretar: La herramienta para ello es el histograma de valores propios (figura 3.4).
Figura 3.4: Histograma de valores propios para el ACS de la tabla lxica agregada del
ejemplo
Introduccin al anlisis de datos textuales 47
Las palabras cercanas (si estn bien representadas en el plano) tienen perfiles similares. Las
ms cercanas son: CULTIVO y PROPIETARIO, es necesario verificar la calidad de
representacin en el plano, es decir la suma de cosenos cuadrados de los dos primeros ejes,
esta son: 83% y 71%, para las dos palabras respectivamente. En parte la cercana se debe a
la proyeccin. La palabra ms cercana al perfil medio es MANEJO, lo cual es tambin
cierto en el espacio original pues tiene la menor distancia al origen (0.01), esto se haba
observado directamente en los perfiles.
En la seccin 3.5 se hace el anlisis de una tabla lxica agregada, con lo cual se pueden ver
asociaciones entre el vocabulario utilizado y una variable categrica de la informacin
cerrada. Si las respuestas individuales han sido agregadas con un criterio adecuado, el
anlisis de estas tablas revela una estructura en los datos textuales que no se hubiera
manifestado mediante la simple lectura. (Bcue, 1991, pg.41).
Se suelen obtener variables mediante el cruce de otras, por ejemplo sexo*grupos de edad,
grupos de edad*nivel profesional, etc. y utilizar esas variables para hacer anlisis de tablas
lxicas agregadas. Cuando se tienen varias variables de un mismo tema no es posible
cruzarlas todas, ya que se tendra una variable con muchas modalidades, algunas de ellas sin
individuos. Una alternativa es la de crear una variable nominal mediante un anlisis de
correspondencias mltiples y clasificacin.
Introduccin al anlisis de datos textuales 51
Se forma una tabla en la cual las filas son las formas grficas y las columnas son
particiones yuxtapuestas correspondientes a diferentes variables. Las distancias entre
formas son las distancias medias, con la misma importancia para cada una de las
particiones. Para que la interpretacin de las proximidades entre formas sea posible es
necesario que las particiones no sean demasiado heterogneas. (Lebart y Salem, 1994). En
el captulo 5 se presenta un ejemplo de anlisis de tabla lxicas agregadas yuxtapuestas.