Está en la página 1de 14

ANÁLISIS DE CORRESPONDENCIA SIMPLE

Dario Alexander Hoyos, Carlos David Aguiño y Felipe Burgos

2022-08-12

ANÁLISIS DE CORRESPONDENCIA SIMPLE


Es una técnica descriptiva o exploratoria cuyo objetivo es resumir una gran cantidad de datos en un número
reducido de dimensiones, con la menor pérdida de información posible. En esta línea, su objetivo es similar
al de los métodos factoriales, salvo que en el caso del análisis de correspondencias. El método se aplica sobre
variables categóricas u ordinales.
El análisis de correspondencias simples se utiliza a menudo en la representación de datos que se pueden
presentar en forma de tablas de contingencia de dos variables nominales u ordinales. Otras utilizaciones
implican el tratamiento de tablas de proximidad o distancia entre elementos, y tablas de preferencias.
Si se trata de una tabla de contingencia de dos variables cualitativas, una variable cuyas categorías aparecen
en filas y la otra variable cuyas categorías son representadas en columnas, el análisis de correspondencias
consiste en resumir la información presente en las filas y columnas de manera que pueda proyectarse sobre
un subespacio reducido, y representarse simultáneamente los puntos fila y los puntos columna, pudiéndose
obtener conclusiones sobre relaciones entre las dos variables nominales u ordinales de origen.

EJERCICIO PRÁCTICO EN RSTUDIO:

Inicialmente, será necesario instalar e implementar las librerias necesarias para el ejercicio:

library(ca)
library(factoextra)

## Loading required package: ggplot2

## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa

library(corrplot)

## corrplot 0.92 loaded

Para este ejercicio que busca implementar el análisis de correspondencia simple, se recurrió a una base de
datos, incluída en el paquete "factoextra", esta base de datos con el nombre "housetasks" es una tabla
de contingencia la cual contiene 13 labores domésticas repartidas entre la pareja de un hogar; las filas de esta
tabla son las diferentes labores y los valores que toma son las frecuencias de las labores, las cuales pueden
tomar los valores de:
- Solamente la esposa.
- Alternado.

1
- Solamente el esposo.
- Conjuntamente.
Como podemos apreciar en la visualización de la tabla:

data("housetasks")
housetasks

## Wife Alternating Husband Jointly


## Laundry 156 14 2 4
## Main_meal 124 20 5 4
## Dinner 77 11 7 13
## Breakfeast 82 36 15 7
## Tidying 53 11 1 57
## Dishes 32 24 4 53
## Shopping 33 23 9 55
## Official 12 46 23 15
## Driving 10 51 75 3
## Finances 13 13 21 66
## Insurance 8 1 53 77
## Repairs 0 3 160 2
## Holidays 0 1 6 153

Ahora, procederemos a realizar un conjunto de pasos correspondientes la metodología que compone el de-
sarrollo del análisis de correspondencia simple.

1° PASO: Prueba de independencia.

Inicialmente, para desarrollar el análisis de correspondencia simple, será necesario identificar si efectivamente
existen asociaciones entre las categorías de la distribución de las labores y las categorías de las labores. Para
evaluar tales asociaciones, lo más común es hacer uso del estadístico chi cuadrado de Pearson el cual
tiene como hipótesis:

• Ho: Ambas variables son independientes.


• Ha: Existe una relación de dependencia.

chisq.test(housetasks)

##
## Pearson’s Chi-squared test
##
## data: housetasks
## X-squared = 1944.5, df = 36, p-value < 2.2e-16

Podemos apreciar que la prueba de Chi-cuadrado de Pearson arrojó un p-valor de 2.2e-16, el cual al ser menor
que un alfa de 0,05 podemos decir que se acepta la hipótesis alterna, indicando que existe una relación de
dependencia.

qchisq(0.95,36)

## [1] 50.99846

2
Adicionalmente, entorno a las pruebas de Chi-cuadrado podemos apreciar que el estadístico de prueba, cuyo
valor fue de 1944,5 resulta ser mayor que el estadístico de contraste (50,99846) y, en ese sentido, podemos
decir que existe suficiente evidencia estadística para rechazar la hipótesis nula y aceptar la hipótesis alterna,
la cual nos muestra el mismo resultado descrito anteriomente, pero a partir del estadístico de contraste
(existe una relación de dependencia).

2° PASO: Análisis de correspondencias simples.

Una vez confirmada la asociación entre las dos categorías consideradas a traves de la prueba de independencia
es adecuado hacer uso de la técnica del análisis de correspondencias simples. Para llevar a cabo esto, en el
lenguaje de programación R se recurrió al comando de análisis de correspondencias simples, correspondiente
a la librería "ca" , este comando a su vez se llama también “ca”.
Este tipo de análisis es una técnica que permite recoger una grran cantidad de datos y mostrar de una
manera gráfica y descriptiva cómo están relacionadas entre sí, particularmente cuando se trata de variables
categóricas, las cuales generalmente se representan a través de tablas de contingencia.

datos.ca<-ca(housetasks)
datos.ca

##
## Principal inertias (eigenvalues):
## 1 2 3
## Value 0.542889 0.445003 0.127048
## Percentage 48.69% 39.91% 11.4%
##
##
## Rows:
## Laundry Main_meal Dinner Breakfeast Tidying Dishes Shopping
## Mass 0.100917 0.087729 0.061927 0.080275 0.069954 0.064794 0.068807
## ChiDist 1.152997 1.016747 0.785880 0.715740 0.593815 0.549821 0.466440
## Inertia 0.134160 0.090692 0.038246 0.041124 0.024667 0.019587 0.014970
## Dim. 1 -1.346122 -1.188346 -0.939962 -0.690273 -0.534477 -0.256462 -0.159717
## Dim. 2 -0.742517 -0.734702 -0.461866 -0.678779 0.651108 0.662533 0.604596
## Official Driving Finances Insurance Repairs Holidays
## Mass 0.055046 0.079702 0.064794 0.079702 0.094610 0.091743
## ChiDist 0.984014 1.128542 0.675490 0.852589 1.818512 1.462801
## Inertia 0.053300 0.101509 0.029564 0.057936 0.312874 0.196311
## Dim. 1 0.307586 1.006731 0.367485 0.878213 2.074861 0.342675
## Dim. 2 -0.380181 -0.979506 0.926221 0.710229 -1.295584 2.151159
##
##
## Columns:
## Wife Alternating Husband Jointly
## Mass 0.344037 0.145642 0.218463 0.291858
## ChiDist 0.935393 0.899443 1.321252 1.038436
## Inertia 0.301019 0.117824 0.381373 0.314725
## Dim. 1 -1.136821 -0.084397 1.575600 0.202801
## Dim. 2 -0.547487 -0.437116 -0.902313 1.538902

summary(datos.ca)

##

3
## Principal inertias (eigenvalues):
##
## dim value % cum% scree plot
## 1 0.542889 48.7 48.7 ************
## 2 0.445003 39.9 88.6 **********
## 3 0.127048 11.4 100.0 ***
## -------- -----
## Total: 1.114940 100.0
##
##
## Rows:
## name mass qlt inr k=1 cor ctr k=2 cor ctr
## 1 | Lndr | 101 925 120 | -992 740 183 | -495 185 56 |
## 2 | Mn_m | 88 974 81 | -876 742 124 | -490 232 47 |
## 3 | Dnnr | 62 930 34 | -693 777 55 | -308 154 13 |
## 4 | Brkf | 80 905 37 | -509 505 38 | -453 400 37 |
## 5 | Tdyn | 70 975 22 | -394 440 20 | 434 535 30 |
## 6 | Dshs | 65 764 18 | -189 118 4 | 442 646 28 |
## 7 | Shpp | 69 811 13 | -118 64 2 | 403 748 25 |
## 8 | Offc | 55 119 48 | 227 53 5 | -254 66 8 |
## 9 | Drvn | 80 767 91 | 742 432 81 | -653 335 76 |
## 10 | Fnnc | 65 997 27 | 271 161 9 | 618 837 56 |
## 11 | Insr | 80 885 52 | 647 576 61 | 474 309 40 |
## 12 | Rprs | 95 933 281 | 1529 707 407 | -864 226 159 |
## 13 | Hldy | 92 992 176 | 252 30 11 | 1435 962 425 |
##
## Columns:
## name mass qlt inr k=1 cor ctr k=2 cor ctr
## 1 | Wife | 344 954 270 | -838 802 445 | -365 152 103 |
## 2 | Altr | 146 110 106 | -62 5 1 | -292 105 28 |
## 3 | Hsbn | 218 980 342 | 1161 772 542 | -602 208 178 |
## 4 | Jntl | 292 998 282 | 149 21 12 | 1027 977 691 |

Este comando “ca” se aplica sobre la base de datos "housetasks" para definir el objeto "datos.ca", y pos-
teriormente se visualiza este objeto “datos.ca” para obtener los resultados más importantes de este análisis
de correspondencia simple de una manera resumida. A partir de estos resultados, se pueden observar cómo
están asociadas estas variables categóricas de acuerdo a ciertos criterios, dentro de los cuales algunos de los
más importantes son: las inercias principales, y los porcentajes de varianza; en cuanto a las inercias princi-
pales se puede decir que son uno de los elementos más importantes dado que nos indicarán cuál es el número
de dimensiones adecuado, para el caso estudiado con una sola dimensión estamos incluyendo el 48,7% de la
inercia total, a través del porcentaje de varianza, mientras que con la segunda dimensión estamos recogiendo
el 39,9% a través del porcentaje de varianza; evidenciando así que solamente con dos dimensiones se está
recogiendo más del 88% del comportamiento de los encuestados en relación con los atributos estudiados.
Estos porcentajes de varianza indican qué proporción de los datos explica cada dimensión, para observar lo
anterior de una manera gráfica, se utiliza el siguiente comando:

fviz_screeplot(datos.ca, addlabels = TRUE, ylim = c(0, 80))+ggtitle("")+


ylab("Porcentaje de varianza explicado") + xlab("Dimensiones")

4
80
Porcentaje de varianza explicado

60

48.7%

39.9%
40

20

11.4%

1 2 3
Dimensiones

Siguiendo con los resultado de la tabla inicial, se tiene para el caso del criterio “Mass” que el propósito es
observar la proporción de unidades transversales que adopta cara categoría de cada atributo por medio de
las masas, y por otra parte el criterio de “Inertia” muestra el grado en que cada categoría influye en el
comportamiento de los entrevistados por medio de las inercias.
De acuerdo a lo anterior se puede interpretar, por ejemplo, que el 34,4% de las labores domésticas corresponde
unicamente a la esposa, lo cual aporta el 30,1% del comportamiento de los entrevistados; el 14,5% de las
labores domésticas son repartidas de manera alternada, aportando al 11,7% del comportamiento de los
entrevistados; el 21,8% de estas labores corresponden únicamente al esposo, aportando así al 38,1% del
comportamiento de los encuestados; finalmente, el 29,2% de las labores domésticas son repartidas de manera
conjunta, aportando así un 31,5% del comportamiento de los encuestados.

3° PASO: Análisis gráfico.

Siguiendo con el análisis de correspondencia simple, se procede a revisar y describir el componente gráfico
del ejercicio.
En primera instancia tenemos el análisis de los puntos fila, los cuales se despliegan a través del siguiente
comando:

fviz_ca_row(datos.ca, repel = TRUE)+ggtitle("") + ylab("Eje 2(39.9%)")+xlab("Eje 1(48.7%)")+ylim(-1,1.5)

5
1.5
Holidays

1.0

Finances
Eje 2(39.9%)

0.5 Dishes
Tidying Insurance
Shopping

0.0

Dinner Official

Main_meal
−0.5
Laundry Breakfeast
Driving

−1.0 Repairs

−1 0 1 2
Eje 1(48.7%)

A partir de los puntos fila mostrados en este plano se observa que las categoras de labores domésticas
guardan ciertas distancias entre sí. Esto tiene sentido, puesto que no todas las labores requieren de las
mismas capacidades y tienen propósitos muy diferentes, algunas entre sí. Por ejemplo, para labores como
hacer el desayuno o lavar la ropa no se requiere de tanta formación académica como para labores relacionadas
a las finanzas.
Posteriormente, se despliegan los puntos columnas a través del siguiente comando:

fviz_ca_col(datos.ca)+ggtitle("")+ylab("Eje 2(39.9%)")+xlab("Eje 1(48.7%)")+ylim(-1,1.5)+xlim(-1.5,2)

6
1.5

Jointly
1.0
Eje 2(39.9%)

0.5

0.0

Alternating
Wife
−0.5 Husband

−1.0

−1 0 1 2
Eje 1(48.7%)

A partir de los puntos columna ilustrados en este plano se puede evidenciar que las categorías de la distribu-
ción de labores en las parejas también guardan distancias considerables entre sí, esto tiene sentido ya que en
términos sociales y culturales es sabido que ciertas labores domésticas son predominantemente por mujeres,
mientras que otras, son ejercidas por hombres, esto se puede explicar en gran parte por los roles sociales
asignados de acuerdo al género tal como lo propone la idealogía de género.
Como resultado de los anteriores gráficos, es posible realizar una representación simultánea en donde se
muestre si existe alguna relación entre las labores domésticas y la distribución de las labores en las parejas,
a partir del siguiente comando se muestra esta representación:

fviz_ca_biplot(datos.ca, repel = TRUE)+ggtitle("")+ylab("Eje 2(39.9%)")+xlab("Eje 1(48.7%)")+ylim(-1,1.5

7
1.5 Holidays

1.0
Jointly

Finances
Eje 2(39.9%)

0.5 Dishes
Tidying Insurance
Shopping

0.0

Dinner Official

Main_meal Alternating
−0.5 Wife
Laundry Breakfeast Driving Husband
Repairs
−1.0

−1 0 1 2
Eje 1(48.7%)

Como se puede apreciar, en esta representación simultánea existen algunos puntos de las categorías de labor
doméstica que se encuentran muy cerca de algunos puntos correspondientes a la distribución de la labor.
Para el caso de las labores domésticas de la preparación de las comidas del día y la lavandería se encuentran
considerablemente cerca al punto correspondiente de la distribución de la labor únicamente por parte de la
esposa. Por otro lado, particularmente se puede evidenciar que los puntos de las labores como manejar o las
reparaciones en general se encuentran bastante próximos al punto que corresponde a la distribución de la labor
únicamente por parte del esposo. También resulta interesante apreciar que en el punto de la distribución de la
labor que se realiza en conjunto (esposo y esposa) se encuentra cercano a los puntos puntos correspondientes
a las labores de las finanzas y las vacaciones, las cuales suelen ser actividades donde ambos agentes suelen
intervenir. Esta representación simultánea confirma que existen ciertas labores donde predominantemente
son ejercidas únicamente por mujeres y otras labores que son ejercidas predominantemente por hombres;
como se pudo ver en el caso de la preparación de las comidas y la lavandería que socioculturamente son roles
asociados a la mujer, y las labores asociadas a la conducción, la mecánica y el trabajo duro que social y
culturamente son roles asociados a los hombres.

4° PASO: Análisis de las contribuciones y la calidad de representación:

Por último, para este análisis se estudian dos aspectos muy importantes para el análisis de correspondencia,
que son las contribuciones y la calidad de representación tanto de filas como columnas.
Para el caso de las filas, se define primero el objeto que aisla únicamente los elementos correspondientes a las
filas y se efectúan los siguientes comandos para obtener las contribuciones y las calidades de representación:

variables_fila=get_ca_row(datos.ca)
contribuciones_fila=variables_fila$contrib;contribuciones_fila

8
## Dim.1 Dim.2 Dim.3
## Laundry 18.2867003 5.5638913 7.96842443
## Main_meal 12.3888433 4.7355230 1.85868941
## Dinner 5.4713982 1.3210221 2.09692603
## Breakfeast 3.8249284 3.6986131 3.06939857
## Tidying 1.9983518 2.9656441 0.48873403
## Dishes 0.4261663 2.8441170 3.63429434
## Shopping 0.1755248 2.5151584 2.22335679
## Official 0.5207837 0.7956201 36.94038942
## Driving 8.0778371 7.6468564 18.59638635
## Finances 0.8750075 5.5585460 0.06175066
## Insurance 6.1470616 4.0203590 5.25263863
## Repairs 40.7300940 15.8806509 16.59639139
## Holidays 1.0773030 42.4539986 1.21261994

cosenos_fila=variables_fila$cos2;cosenos_fila

## Dim.1 Dim.2 Dim.3


## Laundry 0.73998741 0.18455213 0.075460467
## Main_meal 0.74160285 0.23235928 0.026037873
## Dinner 0.77664011 0.15370323 0.069656660
## Breakfeast 0.50494329 0.40023001 0.094826699
## Tidying 0.43981243 0.53501508 0.025172490
## Dishes 0.11811778 0.64615253 0.235729693
## Shopping 0.06365362 0.74765514 0.188691242
## Official 0.05304464 0.06642648 0.880528877
## Driving 0.43201860 0.33522911 0.232752289
## Finances 0.16067678 0.83666958 0.002653634
## Insurance 0.57601197 0.30880208 0.115185951
## Repairs 0.70673575 0.22587147 0.067392778
## Holidays 0.02979239 0.96235977 0.007847841

Como se puede observar en estos resultados, se tiene una gran cantidad de valores numéricos que sería
necesario analizar uno por uno para poder evidenciar cuáles categorías tiene una mayor contribución y una
mejor representación en las dimensiones. Por este motivo, se opta por un análisis gráfico que es de mayor
utilidad para una gran cantidad de categorías, por lo cual se recurre a los siguientes comandos:

corrplot(variables_fila$contrib, is.corr=FALSE)

9
Dim.1
Dim.2
Dim.3
42.45
Laundry
Main_meal 38.21

Dinner 33.98
Breakfeast
29.74
Tidying
25.5
Dishes
Shopping 21.26

Official
17.02
Driving
12.78
Finances
Insurance 8.54

Repairs 4.3
Holidays
0.06

corrplot(variables_fila$cos2, is.corr=FALSE)

10
Dim.1
Dim.2
Dim.3
0.96
Laundry
Main_meal 0.87

Dinner 0.77
Breakfeast
0.67
Tidying
0.58
Dishes
Shopping 0.48

Official
0.39
Driving
0.29
Finances
Insurance 0.19

Repairs 0.1
Holidays
0

Una vez desplegados estos gráficos se puede ver con mayor facilidad que las categorías de las labores que
más contribuyen a las dimensiones son:

• Lavandería
• Official
• Reparaciones
• Vacaciones

• Conducción

Después de referencias estas categorías es posible revisar en la tabla de valores numéricos cuáles son ex-
actamente estas contribuciones más destacables, encontrando que la lavandería contribuye al 18% en la
construcción de la dimensión 1, la conducción contribuye un 18,6% en la construcción de la dimensión 3,
Official contribuye un 36,9% a la construcción de la dimensión 3, reparaciones contribuye un 40,7% a la
construcción de la dimensión 1, y las vacaciones contribuyen al 42,4% de la construcción de la dimensión 2.
Por otra parte, en cuanto a la gráfica de la calidad de representación, es posible evidenciar que las categorías
de las labores que tienen una mejor representación en las dimensiones son: La lavandería, la preparación de
las comidas, las reparaciones y los seguros en la dimensión 1; ordenar la casa, lavar los platos, ir de compras,
finanzas y vacaciones para la dimensión 2; y finalmente, para la dimensión 3, la categoría que tiene mayor
representación es Official.
Análogamente, se desarrolla el mismo análisis para el caso de las columnas, usando los siguientes comandos:

11
variables_columna=get_ca_col(datos.ca)
contribuciones_columna=variables_columna$contrib; contribuciones_columna

## Dim.1 Dim.2 Dim.3


## Wife 44.462018 10.312237 10.8220753
## Alternating 0.103739 2.782794 82.5492464
## Husband 54.233879 17.786612 6.1331792
## Jointly 1.200364 69.118357 0.4954991

cosenos_columna=variables_columna$cos2;cosenos_columna

## Dim.1 Dim.2 Dim.3


## Wife 0.801875947 0.1524482 0.045675847
## Alternating 0.004779897 0.1051016 0.890118521
## Husband 0.772026244 0.2075420 0.020431728
## Jointly 0.020705858 0.9772939 0.002000236

Como se puede observar para el caso de las columnas, se tienen unas tablas con menores valores numéricos,
de manera que es más fácil análizar e interpretar cuáles son las categorías con una mayor contribución y
mejor representación en las dimensiones.
Para el caso de las contribuciones se observa que las categorías de esposa y esposo son las que más contribuyen
en la dimensión 1, con un 44% y 54% respectivamente. Para la dimensión 2, la categoría que mayor contribuye
es la categoría de distribución conjunta, con un 69%, y finalmente, para la dimension 3, la categoría que más
contribuye es la alternada, con un 82%.
Ahora para las calidades de representación es fácil distinguir que las categorías mejor representadas en
la dimensión 1 son las categorías de esposa y esposo, para la dimensión 2, la categoría con una mejor
representación es la categoría conjunta; y finalmente, para la dimensión 3, la categoría con una mejor
representación es la categoría alternada.
Sin embargo, también podemos apreciar estos hallazgos de forma gráfica, a través de los siguientes comandos:

corrplot(variables_columna$contrib, is.corr=FALSE)

12
Dim.1

Dim.2

Dim.3
82.55

74.3
Wife
66.06

57.82

Alternating
49.57

41.33

33.08
Husband
24.84

16.59

Jointly
8.35

0.1

corrplot(variables_columna$cos2, is.corr=FALSE)

13
Dim.1

Dim.2

Dim.3
0.98

0.88
Wife
0.78

0.68

Alternating
0.59

0.49

0.39
Husband
0.29

0.2

Jointly
0.1

Como podemos apreciar, aquellos circulos que tienen un mayor tamaño y un color más oscuro, son aquellos
que tienen una mayor contribución y una mejor representación para cada una de las dimensiones que se
observa.

CONCLUSIÓN:

Podemos concluir reconociendo la importancia que tienen estas herramientas de programación, lo cual los
permite asociar de forma más sofisticada las distribuciones en las variables, las correspondencias y el impacto
que tienen estas variables para las dimensiones definidas en el ejercicio.
Por otra parte, el análisis resulta considerablemente intuitivo en el contexto sociocultural de los roles del
género en función de las distintas labores y trabajos entorno a la sociedad, apreciando de forma un poco
más objetiva estos sesgos que existen en que las mujeres se les asocia la correspondencia de labores más
doméstica, mientras que por su parte el hombre le correponde y tiene más relación con las labores como
la reparación y la conducción. Lo cual nos permite reconocer la utilidad del ejercicio a través de distintas
bases teoricas y la metodología correspondiente al análisis de correspondencia simple puestas en práctica en
el software libre RStudio.

14

También podría gustarte