Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Adrin Leguina
Departamento de Estadstica, Facultad de Matemtica,
Pontificia Universidad Catlica de Chile
anleguin@uc.cl
1. Introduccin
En estudios de caracterizacin y/o construccin de perfiles, es usual utilizar variables cualitativas y
cuantitativas. A este tipo de variables multidimensionales, se les conoce como variables mixtas. Para
el tratamiento conjunto de variables cualitativas y cuantitativas, encontramos diferentes tipos de
discretizacin para variables numricas, las que generalmente consisten en transformar las variables
continuas en variables cualitativas multiestado, asumiendo que este proceso implica perder
informacin. Dentro de estas posibilidades encontramos la codificacin de variables continuas de
Escofier (Escofier 1979).
Para el anlisis estadstico de variables mixtas, se propone aplicar la codificacin de Escofier a
variables cuantitativas, transformar cada categora de variables cualitativas multiestado en variables
dicotmicas, y finalmente aplicar anlisis de correspondencias (AC) a toda la matriz de datos.
Comparando los resultados del AC slo para variables cuantitativas codificadas, con la aplicacin
de anlisis de componentes principales a las variables originales, es posible verificar el grado de
informacin perdida debido a la codificacin de variables (Leguina 2009).
-1-
En estricto rigor, no es posible construir una tabla disyuntiva completa a variables continuas con recorrido en los
nmeros reales, debido a que tendran infinitas modalidades.
-2-
2 categoras
2
1
2
2
2
3 categoras
3
2
3
3
2
4 categoras
4
2
3
4
3
5 categoras
4
3
4
6
3
6 categoras
6
3
6
6
4
Fuente: Elaboracin propia
0,81
0,8
0,7
0,67
0,6
0,50
0,5
0,4
0,35
0,3
0,2
1
Nmero de intervalos
Este problema se ve acentuado al aplicar AC sobre una variable discretizada de esta manera.
-3-
La codificacin de Escofier (Escofier 1979), utilizada como paso previo al AC, tiene como fin
poder analizar en forma simultnea variables cuantitativas y cualitativas. El procedimiento consiste
en transformar cada variable cuantitativa en dos nuevas variables:
(1 xi ) 2
(1 + xi ) 2
Donde xi es el valor estandarizado de la variable para el individuo i. Notamos que al igual que para
una variable cualitativa binaria, la variable recodificada queda definida por dos columnas, que para
una misma variable siempre la suma ser igual a 1. Las variables cuantitativas codificadas de esta
manera se pueden analizar simultneamente con variables cualitativas con 2 ms categoras
presentadas en forma de tabla disyuntiva completa.
En estadstica, la distancia cuantifica la proximidad o lejana entre individuos o poblaciones (Cuadras 2007).
Se le llama disimilaridad al clculo de la distancia entre individuos cuando se utiliza variables cualitativas.
5
Este coeficiente se calcula como 1 - (# de similitudes / # variables totales) (Cuadras 2007)
-4-
4. ANLISIS DE CORRESPONDENCIAS
El anlisis de correspondencias 6 puede ser definido como una tcnica descriptiva para casi
cualquier tipo de matriz de datos con entradas no negativas, especialmente til para representar
tablas de contingencia que resuman informacin cualitativa, de una forma exploratoria y
reduciendo sus caractersticas multivariantes a la menor cantidad de dimensiones posibles. El
mtodo resulta ser una forma sencilla de graficar los resultados, permitiendo su rpida comprensin
e interpretacin (Greenacre 2007). A pesar de que AC es muy flexible para trabajar con distintos
tipos de variables, es la codificacin la que aporta aun ms a esta capacidad (Murtagh 2005).
Dentro de las principales ventajas de la tcnica, se encuentra que su principio geomtrico permite
representar simultneamente individuos y variables en un mismo espacio, construyendo una
cartografa del espacio social de los encuestados, y caracterizando mediante las variables principales
(o factoriales) resultantes la existencia de distintos perfiles. Para enriquecer los resultados e
interpretaciones, AC permite incluir variables y/o individuos suplementarios, que no participan
en la construccin del espacio geomtrico de las variables. Adems, sus resultados grficos facilitan
la comprensin e interpretacin de los datos.
5. ANLISIS DE DATOS GEOMTRICOS, SOCIOLOGA Y ESTRATIFICACIN
SOCIAL
Desde sus principios, el anlisis de datos geomtricos (ADG) ha sido utilizado en las ms diversas
disciplinas de las ciencias. El anlisis de correspondencias, es la tcnica ms importante de ADG,
donde es posible encontrar que una parte importante de su historia, est muy relacionada con la
sociologa. Para explicar la razn, en primer lugar se debe tener en cuenta una de las diferencias
ms importantes entre la metodologa propuesta por el ADG y la estadstica tradicional aplicadas
a la sociologa (Roux y Rouanet 2005):
En este artculo no se presentar la formulacin matemtica del anlisis de correspondencias. Para una completa
definicin se recomienda consultar Murtagh (2005), Roux y Rouanet (2005) y Greenacre (2007).
-5-
En ADG, las nubes de puntos son el centro de atencin. Desde esta perspectiva se busca
construir el espacio social de las variables.
Las caractersticas especiales del ADG (y especficamente de AC) resultaron ser bastante deseables
por toda una escuela de sociologa. El marco conceptual del libro La Distincin del socilogo
francs Pierre Bourdieu (19302002), considerado uno de los ms importantes socilogos
contemporneos, nace del uso exhaustivo de teora y evidencia emprica de tipo cualitativa
(entrevistas) y cuantitativa (encuestas). A grandes rasgos, Bourdieu (1979) especifica tres tipos de
capitales (econmico, cultural y social 7), como las dimensiones bsicas del espacio social de los
estilos de vida. De esta forma, una serie de interrelaciones entre los capitales se asocian al lugar o
posicin de los individuos en la estratificacin social, definiendo la forma en que se relacionan y
diferencian entre s. En este contexto, el AC, junto con el uso de metodologas cualitativas, fueron
capaces de caracterizar mediante grficos de sus ejes factoriales, con notable precisin y detalle, a la
sociedad francesa de la dcada de los 60s. No solo en esta rea Bourdieu aplic el anlisis de
correspondencias, sino que en gran parte de sus investigaciones empricas.
La obra de Bourdieu y sus seguidores, ha tenido un gran impacto sobre el AC. Sin lugar a dudas,
entre los ms importantes encontramos el dar a conocer la tcnica a nivel mundial, generar
discusin e inters a nivel terico, tanto sociolgico como estadstico, lo cual produjo muchos
avances tericos paralelos en la obra de Benzcri.
Desde el punto de vista estadstico, se puede notar que en estudios de estratificacin social es difcil
diferenciar las variables entre dependientes e independiente 8, de la forma en la que usualmente
se hace en modelos lineales u otras tcnicas. Definir relaciones causales, o incluso explicativas en el
estudio de la estratificacin social, ha sido cuestionado incluso antes de la aparicin de La
Distincin (Bourdieu 1979; Savage et al. 2005), donde aun no se tiene del todo clara la existencia de
relaciones explicativas entre los capitales, y mucho menos la forma de esta relacin.
En Chile tambin se puede ver un gran inters por el tema, donde en los ltimos aos se han
generado varios proyectos relacionados. Por ltimo, y no menos importante, esta investigacin es
clara la influencia de la obra de Benzcri y Bourdieu en el apartado estadstico y aplicado
respectivamente.
-6-
La investigacin propuesta por Seplveda y Leguina (2008) tiene como objetivo aportar a los
estudios de estratificacin social, mediante un concepto de desigualdad social, que define una
distincin global y otra local. Dichos conceptos, provenientes de investigaciones anteriores,
consideran que adems de las variables tradicionalmente utilizadas en estratificacin social (ingreso,
educacin, posesin de bienes, etc.), existen otros factores para distinguir a las personas en grupos
sociales. Bajo este contexto se profundiz la instrumentalizacin de los conceptos de nivel de
informacin que tiene una persona, el cul est sujeto a la calidad, la rapidez, el tipo de
informacin y qu valor le genera en la interaccin con su entorno (Seplveda 2008) y acceso a la
informacin que tiene relacin a la disponibilidad de los distintos medios informacionales
(Seplveda 2008). Desde esta mirada, se pretendi demostrar estadsticamente que los sujetos se
pueden distinguir a travs de nuevos factores no analizados bajo el enfoque clsico de los estudios
de estratificacin social.
Con el fin de caracterizar tanto el nivel como el acceso a la informacin se lleva a cabo un anlisis
de correspondencias mltiples, seleccionando las variables de la encuesta 10 que definen de la mejor
manera posible su nivel y acceso a la informacin. Para su implementacin se utiliz el programa
estadstico R (R Development Core Team 2008). El detalle de las dimensiones, sus indicadores y
definiciones tcnicas pueden verse en Seplveda y Leguina (2008).
El problema detectado en Leguina y Seplveda (2008), es que junto a variables cualitativas
nominales, se analiza variables de tipo cuantitativas ordinales (entre 5 y 6 categoras, adems de
continuas) recodificadas en 3 4 categoras consideradas como nominales. Esta recodificacin se
llev a cabo arbitrariamente. Leguina (2009) presenta un estudio detallado acerca de los
inconvenientes de realizar este procedimiento arbitrariamente, sufriendo severos problemas de
prdida de informacin, que llevan a una incorrecta construccin de la nube de puntos, falta de
ortogonalidad de la solucin factorial, y finalmente, a interpretaciones incorrectas.
-7-
7. RESULTADOS PRINCIPALES
Para el anlisis codificando arbitrariamente las variables cuantitativas, la solucin con tres variables
principales es capaz de explicar un 61,6 % de la variabilidad total de los datos. Los resultados se
resumen en la tabla 2. A continuacin, para cada variable principal, se descompone su variabilidad
segn las siete componentes de nivel y acceso a la informacin, de manera de determinar cual(es)
de ella(s) mejor la explican.
Tabla 2. Contribuciones relativas de los componentes de nivel y acceso a la informacin por las
variables principales aplicando codificaciones arbitrarias y de Escofier.
Vp1
C. arbitraria
Vp2
Vp3
Vp1
36,4 %
14,5 %
10,7 %
17,9 %
13,6 %
9,0 %
6,8 %
23,5 %
2,7 %
0,9 %
39,3 %
32,1 %
4,0 %
3,0 %
46,5 %
33,3 %
11,1 %
26,4 %
2,8 %
1,6 %
39,8 %
32,5 %
7,6 %
32,2 %
11,0 %
36,6 %
4,4 %
5,0 %
0,2 %
32,2 %
0,4 %
0,2 %
0,0 %
43,9 %
18,3 %
7,8 %
100 %
100 %
Rapidez/Frecuencia de la
informacin
Tipo de informacin
Influencia de los medios
Influencia de la elite
Influencia propia
Calidad de la informacin
Acceso a la informacin
14,2 %
9,3 %
7,1 %
2,7 %
14,2 %
29,0 %
2,7 %
1,8 %
20,5 %
TOTAL
100 %
100 %
2,0 %
0%
13,0 %
6,8 %
4,8 %
2,8 %
12,9 %
33,2 %
100 %
100 %
C. Escofier
Vp2
Vp3
2,8 %
1,5 %
19,1 %
100 %
Vp4
La codificacin de datos mediante la tcnica de Escofier se llev a cabo tal como se present en la
seccin 4. La tabla 2 presenta el resumen de los resultados de la aplicacin del AC. Se opta por una
solucin con cuatro variables principales, capaces de explicar un 47,3 % de la variabilidad total. La
componente de influencia propia no figura en ninguna de las primeras cuatro variables principales,
considerando que no tiene importancia suficiente como para ser interpretada dentro del anlisis.
Gracias a la comparacin de los resultados anteriores, podemos visualizar las diferencias entre los
anlisis. Por ejemplo, codificando arbitrariamente pareciera que se explica un mayor porcentaje de
varianza total, pero eso se debe a la violacin del supuesto de ortogonalidad 11 de las variables
principales. Aunque se explique un menor porcentaje de la varianza total, utilizando codificacin de
Escofier se obtiene una solucin ms realista, donde cada variable principal est asociada a distintas
modalidades componentes del nivel y acceso a la informacin.
11
Las variables principales construidas mediante AC son independientes entre s. Si dos variables principales se
conforman con las mismas modalidades, estas no sern independientes, ya que estarn asociadas a travs de la variacin
en la respuesta de estas modalidades comunes.
-8-
Desde el punto de vista interpretativo, la solucin mediante codificacin de Escofier nos lleva a un
correcto anlisis del nivel de importancia que adquiere cada una de las modalidades sobre las
variables principales, anulando el efecto de influencia propia, pero incluyendo la percepcin de
calidad de la informacin, e incluso diferenciando entre medios, incluyendo a diarios (VP3) y
televisin (VP4) como factores jerarquizados y diferenciadores sociales. Esto es de gran
importancia para comprender adecuadamente los fenmenos sociales detrs de la posicin que
adquieren los individuos en la estratificacin social, mediante el nivel y acceso de la informacin.
Leguina (2009) analiza en detalle los resultados numricos, profundizando en las ventajas de aplicar
la codificacin de Escofier.
Para decidir si efectivamente es la estrategia que presenta mejores resultados, es necesario
preguntarse si existe prdida de informacin en la codificacin. Para demostrarlo empricamente, se
propone verificar qu ocurre con los porcentajes de varianza explicados y calidad de
representacin, comparndolos con la aplicacin de un anlisis de componentes principales (ACP)
slo para las variables cuantitativas. No se detallar la teora de ACP, pero esta tcnica es posible
entenderla como realizar un AC sobre variables cuantitativas, donde se busca una proyeccin
geomtrica segn la cual los datos sean mejor representados en trminos de mnimos cuadrados.
C.arbitraria
C. Escofier
Valor propio
% relativo
% relativo
acumulado
Valor propio
% relativo
% relativo
acumulado
Valor propio
% relativo
% relativo
acumulado
1 VP
2,777
27,800
2 VP
1,640
16,400
3 VP
1,090
10,900
4 VP
1,015
10,200
27,800
0,215
11,041
44,200
0,157
9,365
55,100
0,103
7,281
65,200
0,082
5,241
11,041
0,277
27,800
20,406
0,164
16,400
27,688
0,109
10,900
32,962
0,101
10,200
27,800
44,200
55,100
65,200
Fuente: Leguina (2009)
-9-
- 10 -
Grfico 2. Resultados de ACP para encuestados. Se utilizaron solo las variables cuantitativas.
Grfico 3. Resultados de ACM con codificacin arbitraria para encuestados. Se utilizaron solo las
variables cuantitativas.
- 11 -
Grfico 4. Resultados de AC para encuestados. Se utilizaron solo las variables cuantitativas aplicando
codificacin de Escofier.
- 12 -
8. CONCLUSIONES
- 13 -
Bibliografa
o
Bramardi, S., Reeb, P., De Bernardin, F., Tasille, V., & Ferrer, M. (2006). Codificacin de Escofier: una
discretizacin sin prdida de informacin. In Actas del VII Congreso Latinoamericano de Sociedades de
Estadstica. Rosario, Argentina.
Greenacre, M. (2007). Correspondence analysis in practice (Segunda ed.). Boca Raton: Chapman & Hall/CRC.
Leguina, A., & Seplveda-Snchez, D. (2008). El nivel de informacin como una nueva forma de distincin
social. Una aplicacin de estadstica multivariante. En Actas de las VIII Jornadas Latinoamericanas de
Sociedades de Estadstica. Montevideo, Uruguay.
Murtagh, F. (2005). Correspondence analysis and data coding with Java and R. Boca Raton: Chapman &
Hall/CRC.
R Development Core Team. (2007). R: A language and environment for statistical computing [Computer
software manual]. Vienna, Austria. Available from http://www.R-project.org.
Roux, B., & Rouanet, H. (2005). Geometric data analysis. New York: Kluwer Academic Publishers.
Savage, M., Gayo-Cal, M., Warde, A., & Tampubolon, G. (2005). Cultural capital in the uk: A preeliminary
report using correspondence analysis. CREST Working Paper Series, 4 .
Seplveda, D. (2008). Una nueva perspectiva de clases sociales en Chile: Global y local. En IX Jornadas de
estudiantes de postgrado en Humanidades, Artes, Ciencias Sociales y Educacin: Amrica Latina en el
Nuevo Milenio, Procesos, Crisis y Perspectivas. Santiago, Chile.
Seplveda, D., Leguina A. (2008). El nivel de la informacin como una nueva forma de distincin social.
Actas del Encuentro preALAS Chile 2008 50 aos de Sociologa en Chile, Santiago, Chile.
Universidad Diego Portales. (2007). Tercera Encuesta Nacional de Opinin Pblica UDP 2007. Santiago,
Chile: ICSO-UDP.
- 14 -