Material de ayudanta Estadstica IV 2012 Facultad de Ciencias Sociales Universidad de Chile
Andrea Baeza, Carla Brega, Catalina Canals, Carolina Galleguillos RESUMEN: Correspondencias Mltiples El anlisis de correspondencias mltiples es una tcnica estadstica para analizar la relacin entre categoras de variables cualitativas. A diferencia del anlisis de correspondencia simple, este trabaja con ms de 2 variables, lo que permite incluir variables objetos, que son aquellas donde cada categora tiene frecuencia igual a 1 (como pases o comunas). Al igual que en el anlisis de correspondencias simples, las relaciones entre las categoras de las variables, se analizan a travs de los mapas perceptuales, donde cada categora es ubicada en un punto. La distancia entre las distintas categoras nos permitir analizar qu tan relacionadas estn. Usos: Profundizar el anlisis de la asociacin entre variables cualitativas (nominales u ordinales) Analizar la estructura de la relacin entre categoras de variables Identificar dimensiones que representen esquemas conceptuales de anlisis Corroborar dependencia entre dos variables cualitativas Condiciones: a) Cantidad de variables: ms de 2. b) Variables admitidas: nominales y ordinales. Si existen variables cuantitativas, stas pueden recodificarse a ordinales (Por ejemplo, tendencia poltica de 1 a 7, donde 1= extrema izquierda y 7= extrema derecha, podemos tener 1,2 y 4= izquierda extrema o moderada, 4=centro, 5,6 y 7= derecha moderada o extrema). c) Relacin entre las variables: de asociacin segn el estadgrafo chi 2 . Si no hay relacin entre las variables, no tiene sentido realizar un anlisis de correspondencias.
EJERCICIO DE APLICACIN
0. DISPONER LA BASE DE DATOS La base de datos utilizada para este ejercicio es parte de una encuesta sobre percepciones socio- culturales en la poblacin adulta (mayor de 18 aos) en algunos distritos de Espaa. La base consta de 1.200 casos, por tanto, es una muestra grande. Se trabajar con 3 variables. La pregunta que gua este ejercicio es Cmo se relacionan los distintos tramos etarios con los aspectos que ms les preocupan en su vida y aquellos con los que ms se sienten satisfechos? 0.a. Variables a utilizar y Valores perdidos Las variables que vamos a usar son: *Tramos de edad (tedad): variable ordinal, cuyas categoras son: {1, Jvenes} {2, Adultos jvenes} {3, Adultos} {4, Adultos mayores}
*Preocupaciones: aspecto que ms le preocupa (a1): variable nominal, cuyas categoras son:
{1, Su vida afectiva} {2, El dinero} {3, Armona familiar} {4, Su salud} {9, NS/NR} Marcar como Valor Perdido
*Satisfaccin: aspecto con que se siente ms satisfecho (a2): variable nominal, cuyas categoras son:
{1, Tiempo libre} {2, Casa en que vive} {3, Calidad del medioambiente} {4, Comprar lo que quiere} {9, NS/NR} Marcar como Valor Perdido
O.b. Descriptivos Analizar Estadsticos Descriptivos Descriptivos Ingresar variables Tramos de edad Preocupaciones: aspectos que ms le preocupan Satisfaccin: aspecto con que se siente ms satisfecho
Opciones Media Desviacin Tpica Mnimo Mximo Lista de Variables
1. ESTADSTICOS DESCRIPTIVOS La tabla muestra los descriptivos para cada variable: Media, Desviacin tpica, Mnimo, Mximo y Nmero de casos vlidos. Cmo se observa, hay la variable tramos de edad tiene 1200 casos; mientras que la variable referente a los aspectos de mayor preocupacin tiene 42 casos menos y la variable referente al aspecto de mayor satisfaccin tiene 55 casos menos. Esta disminucin de casos se debe a los casos perdidos que establecimos anteriormente (9=NS/NR).
A partir de esto, el nmero de casos vlidos con el que trabajaremos ser de 1.108, ya que excluye segn lista como se indica en la tabla (que no es significativamente distinto de los 1.200 casos de la muestra total inicial).
Por lo dems, tambin podemos observar la media de cada variable, pero es difcil de interpretar dado que estas no son variables cuantitativas. En cuanto a la desviacin tpica, podemos ver que la variable tramos de edad, es la que presenta mayor dispersin, y la variable Satisfaccin es la que presenta menos.
2. ANLISIS DE CORRESPONDENCIAS MLTIPLES Analizar Reduccin de datos (o dimensiones, segn la versin SPSS) Escalamiento ptimo
Nivel de escalamiento ptimo: Todas las variables son nominales mltiples Nmero de conjuntos de Variables: Un conjunto Anlisis seleccionado: Anlisis de correspondencias mltiple
DEFINIR
En la nueva ventana, tenemos que tomar decisiones referentes al Anlisis propiamente tal:
Variables de anlisis: Agregamos aquellas variables que nos interesa analizar sus relaciones. Preocupaciones ms importantes (a1) Aspectos de mayor satisfaccin (a2) Tramos de edad (tedad)
Al agregar las variables de anlisis aparece entre parntesis un valor =1. Este indica el peso proporcional- asignado a cada variable. Es decir, en nuestro modelo se le otorgar igual peso (importancia) a cada variable. Eventualmente, en Definir ponderacin de la variable se le pueden asignar distintos pesos a las variables segn la importancia para el modelo, pero en este caso, mantendremos todas las variables con peso =1.
Variables suplementarias: En esta seccin se pueden agregar variables, que no sern parte del modelo, pero que nos interesa que sean igualmente ubicadas en el mapa generado por este. En este caso no ingresaremos variables suplementarias.
Variables de etiqueta: Si quisiramos etiquetar a todos los casos, es decir, si quisiramos utilizar una variable objeto, la incluimos en este mdulo. Sin embargo, esto solo es til cuando se trabaja con pocos casos.
Dimensiones de la solucin: Aqu dejaremos el valor predeterminado 2, ya que la solucin entregada en un plano (2 dimensiones) es la ms sencilla para interpretar los resultados.
*Discretizar: En este modulo podemos definir las categoras de cada variable. Esto se usa para transofrmar variables continuas (cadena), en discretas. En nuestro caso no es necesario. Continuar
Perdidos: Aqu se determina qu hacer con los valores perdidos. Hay tres opciones posibles: 1. Excluir casos perdidos; para las correlaciones imputar tras cuentificacin: Se trata de excluir a los sujetos slo en las variables en las que presentan valores perdidos, imputando la moda o un valor de categora extra para el clculo de correlaciones entre variables. 2. Imputar valores perdidos: Rellenar los casos perdidos con algun valor (moda u otra categoria). 3. Excluir a los objetos con valores perdidos en esta variable: Dejar fuera los sujetos con valores perdidos. Dejaremos la opcion predeterminada (1). Continuar
Opciones Objetos suplementarios: Se puede asignar una condicin de suplemetariedad a un individuo u objeto. Con ello este es ignorado en la construccin del modelo. En este caso no se ignorar ningun individuo/objeto. Mtodo de Normalizacin: Principal por variable.
Esta opcin optimiza la asociacin entre las variables, es til cuando el inters principal est en la correlacin entre las variables. Cuando se utilizan variables objeto, se recomienda utilizar el mtodo Simtrico. Este distribuye la normalizacin entre variables y ojetos. Criterios: El criterio de convergencia e iteraciones mximas determinan hasta qu punto el programa debe intentar optimizar la solucin. Dejamos las opciones predeterminadas. Convergencia: ,00001 Iteraciones mximas: 100 Etiquetar grficos con: Se puede optar por etiquetar segn (1) etiquetas, (2) Nombres. Para el caso de la etiqueta hay que determinar la longitud mxima. Dejamos las opciones predeterminadas. Etiquetas de variable o de valor Limite de longitud de etiqueta: 20 Dimensiones del grfico: Cuando uno trabaja con muchas dimensiones, se puede elegir grficar una menor cantidad de ellas. En este caso como trabajamos con 2, no es necesario. Por tanto, dejamos las opciones predeterminadas. Mostrar todas las dimensiones de la solucin
Continuar
Resultados Tablas: Marcaremos todas las opciones menos puntuaciones de los objetos (esto se utiliza para conocer las coordenadas de las variables objeto; en nuestro caso no utilizamos variables objeto por lo que no tendra sentido pedir esta salida). Medidas Discriminantes Historial de iteracin Correlaciones de variables originales Correlaciones de variables transformadas
Cuantificaciones y contribuciones de las categoras: Indican las coordenadas de posicionamiento en el mapa perceptual de las categoras y sus contribucin a las dimensiones. Inclumos aqu todas las variables. Estadsticos descriptivos: Inclumos aqu todas las variables. Continuar
*Guardar: Esta ventana puede ser util cuando se quiere guardar informacin en la base de datos. En este caso no guardaremos nada. *Grficos: Objetos. Se utiliza para grficar las categoras de las variables objetos. En este caso no es necesario. Grficos: Variable. En Grficos de categoras conjuntas se pide el mapa de posicionamiento conjunto de las categoras de las variables que participaron en la construccin del modelo. Este es la principal herramienta de interpretacin del mismo. Incluir aqu todas las variables. Continuar PEGAR MULTIPLE CORRES VARIABLES=tedad a1 a2 /ANALYSIS=tedad(WEIGHT=1) a1(WEIGHT=1) a2(WEIGHT=1) /MISSING=tedad(PASSIVE,MODEIMPU) a1(PASSIVE,MODEIMPU) a2(PASSIVE,MODEIMPU) /DIMENSION=2 /NORMALIZATION=VPRINCIPAL /MAXITER=100 /CRITITER=.00001 /PRINT=CORR DESCRIP(tedad a1 a2) HISTORY DISCRIM OCORR QUANT(tedad a1 a2) /PLOT=OBJECT(20) JOINTCAT(tedad a1 a2) (20) DISCRIM (20).
Ejecutar 3. RESULTADOS 3.a. Resumen del procesamiento de casos
Resumen del procesamiento de los casos Casos activos vlidos 1108 Casos activos con valores perdidos 92 Casos suplementarios 0 Total 1200 Casos usados en el anlisis 1200
La primera salida nos indica la cantidad de casos vlidos (1108). 3.b. Estadsticos descriptivos A continuacin se presentan los estadsticos descriptivos, que nos permiten conocer mejor las caractersticas de la poblacin y muestra, en cuanto a los tramos de edad, hay alrededor de 300 casos para cada categora. En cuanto a las preocupaciones, hay 63 personas, donde el aspecto de mayor preocupacin es la vida afectiva, casi 300 que se preocupan por el dinero, y prcticamente la misma cantidad que se preocupa por la armona familiar, y 525 preocupado por su salud. Finalmente, en cuanto a la satisfaccin, la mayor parte de las personas, estn ms satisfechas con la casa en que viven (574), una parte importante (310) con su tiempo libre, 184 con la calidad del medioambiente y solo 77 con comprar lo que quiere.
Satisfaccin: aspecto con el que se siente ms satisfecho
Frecuencia Vlidos Tiempo libre 310 Casa en que vive a 574 Tramos de edad Frecuencia Vlidos Jovenes (18 a 30) a 341 Adultos jovenes (31 a 45) 307 Adultos 249 Adulto Mayor 303 Total 1200 a. Modo. Preocupaciones: aspecto que ms le preocupa
Frecuencia Vlidos Su vida afectiva 63 El dinero 290 Armona familiar 280 Su salud a 525 Total 1158 Perdidos b Definidos por el usuario 42 Total 42 Total 1200 a. Modo. b. Estrategia para valores perdidos: Excluir valores. Calidad Med.Ambiente 184 Comprar lo que quiere 77 Total 1145 Perdidos b Definidos por el usuario 55 Total 55 Total 1200 a. Modo. b. Estrategia para valores perdidos: Excluir valores.
3.c. Historial de iteraciones (Se muestra solo una parte)
El historial de iteraciones muestra los pasos que fueron necesarios para llegar a la solucin ltima. Observamos que el paso 34 se detuvo, dado que el incremento de varianza explicada dej de ser significativo como para seguir iterando.
3.d. Resumen del Modelo La tabla de resumen del modelo, permite observar que se crearon 2 dimensiones (tal como nosotros sealamos). El autovalor da cuenta de la proporcin de informacin del modelo que es explicada por cada dimensin; permite analizar de la importancia de cada una de ellas. Ac se puede observar que la primera dimensin es ms importante para el modelo que la segunda. A su vez, la primera explica ms inercia (0,5) que la segunda (0,414). Esto quiere decir que las categoras presentan mayor varianza en la dimensin 1, sin embargo las diferencias entre ambas dimensiones no parecen muy grandes.
Resumen del modelo Dimensi n Alfa de Cronbach Varianza explicada Total (Autovalores) Inercia 1 ,501 1,501 ,500 2 ,293 1,243 ,414 Total
2,744 ,915 Media ,407 a 1,372 ,457 a. El Alfa de Cronbach Promedio est basado en los autovalores promedio.
Historial de iteraciones Nmero de iteracio nes Varianza explicada Prdida Total Incremento 32 1,37185 ,00001 1,62815 33 1,37187 ,00001 1,62813 34 a 1,37187 ,00001 1,62813 a. Se ha detenido el proceso de iteracin debido a que se ha alcanzado el valor de la prueba para la convergencia. 3.e. Cuantificaciones Las siguientes tablas muestran las coordenadas de cada una de las categoras en ambas dimensiones: puntajes altos en las dimensiones indican que la categora se asocia a dicha dimensin. En el caso de los tramos de edad, observamos que los jvenes, adultos jvenes y adultos mayores se asocian ms a la dimensin 1; mientras que los adultos se asocian ms a la dimensin 2. Aun as, los adultos jvenes no parecen tener una asociacin muy fuerte a ninguna dimensin. Tramos de edad Puntos:Coordenadas Categora Frecuencia Coordenadas de centroide Dimensin 1 2 Jovenes (18 a 30) 341 ,883 -,691 Adultos jovenes (31 a 45) 307 ,460 ,396 Adultos 249 -,242 1,251 Adulto Mayor 303 -1,254 -,611 Normalizacin principal por variable.
En el caso de las preocupaciones, la vida afectiva, el dinero y la salud se asocia a la dimensin 1, mientras que la armona familiar a la dimensin 2. Vale sealar que la vida afectiva parece altamente asociada a ambas dimensiones.
Preocupaciones: aspecto que ms le preocupa Puntos:Coordenadas Categora Frecuencia Coordenadas de centroide Dimensin 1 2 Su vida afectiva 63 1,311 -1,095 El dinero 290 ,965 ,087 Armona familiar 280 ,281 ,720 Su salud 525 -,820 -,309 Perdidos 42
Normalizacin principal por variable.
En el caso de las satisfacciones, la casa y comprar lo que se quiere se asocia a la dimensin 1, y el tiempo libre y calidad del medio ambiente a la dimensin 2.
Satisfaccin: aspecto con el que se siente ms satisfecho Puntos:Coordenadas Categora Frecuencia Coordenadas de centroide Dimensin 1 2 Tiempo libre 310 ,315 -1,019 Casa en que vive 574 -,445 ,339 Calidad Med.Ambiente 184 ,531 ,763 Comprar lo que quiere 77 ,618 -,348 Perdidos 55
Normalizacin principal por variable.
3.e. Grfico
Al observar el mapa perceptual se puede asociar cada tramo etario a ciertas preocupaciones y/o satisfacciones. Jvenes; se sienten satisfechos con el uso que le dan a su tiempo libre y con sus prcticas de consumo, siendo lo ms relevante para ellos su vida afectiva y el dinero. Adultos jvenes: disfrutan de la calidad del medio ambiente y se preocupan por la armona familiar y el dinero. Adultos: disfrutan de la casa en que viven y de la calidad del medio ambiente a la vez que les preocupa la armona familiar. Adultos mayores: se encuentran preocupados por su salud.
Pistas para interpretar mapas perceptuales: 1. Interpretacin polar: aglomeracin de las categoras de las variables. 2. Interpretacin por proyeccin: proyeccin de puntos tal que se genera la interpretacin de la asociacin de las categoras de las variables con los factores. Los puntos se proyectan, de modo que los ms polares dan sentido a los factores.
3. Interpretacin por cercana: reas compartidas por categoras en el mapa perceptual.
3.f. Correlaciones Las siguientes tablas dan cuenta de qu tan asociadas se encuentran las variables. En ambos caso se evidencia que la variable tramos de edad se correlaciona moderadamente (0,38) con las preocupaciones. Sin embargo las correlaciones entre los otros pares de variables son menores.
Correlaciones de las Variables originales
Tramos de edad Preocupaciones: aspecto que ms le preocupa Satisfaccin: aspecto con el que se siente ms satisfecho Tramos de edad 1,000 ,380 ,002 Preocupaciones: aspecto que ms le preocupa ,380 1,000 -,036 Satisfaccin: aspecto con el que se siente ms satisfecho ,002 -,036 1,000 Dimensin 1 2 3 Autovalores 1,381 1,000 ,619 Se han imputado los valores con la moda de la variable.
Correlaciones de las Variables transformadas Dimensin:1
Tramos de edad Preocupaciones: aspecto que ms le preocupa Satisfaccin: aspecto con el que se siente ms satisfecho Tramos de edad 1,000 ,400 ,140 Preocupaciones: aspecto que ms le preocupa a
,400 1,000 ,092 Satisfaccin: aspecto con el que se siente ms satisfecho a
,140 ,092 1,000 Dimensin 1 2 3 Autovalores 1,459 ,944 ,597 a. Se han imputado los valores perdidos con la moda de la variable cuantificada.
3.g. Objetos El siguiente grfico presenta dodos los casos en el mapa perceptual. Solo es til cuando hay pocos casos.
3.h. Medidas de discriminacin Esta tabla permite ver cunto discrimina cada variable en cada dimensin; indican la importancia de cada variable para cada una de las dimensiones. Ac se ve que la dimensin 1 se encuentra explicada principalmente por los tramos de edad y aspectos que ms preocupan en la vida y la dimensin 2 por el aspecto con el que se siente ms satisfecho.
Medidas de discriminacin
Dimensin Media 1 2 Tramos de edad ,685 ,595 ,640 Preocupaciones: aspecto que ms le preocupa ,628 ,227 ,428 Satisfaccin: aspecto con el que se siente ms satisfecho ,188 ,420 ,304 Total activo 1,501 1,243 1,372
El grfico presenta la misma informacin, tramos de edad, se encuentra a ms menos igual distancia de ambos ejes, dando cuenta de que es importante en ambas dimensiones; satisfaccin en cambio, se encuentra ms cerca de la dimensin 2, siendo ms importante en esta; mientras que las preocupaciones se acercan ms a la dimensin 1, evidenciando se ms importantes para esta que para la dimensin 2.