Está en la página 1de 49

Introducción a la Estadística con R (2017) C: 1-48

GUÍA DIDÁCTICA PARA LA ENSEÑANZA DEL ANÁLISIS DE CORRESPONDENCIA.

Anginy Francini Concepción Miranda
Universidad Autónoma de Chiriquí

{angi_23_92@hotmail.com}

RESUMEN

El Análisis de Correspondencia (AC) es una técnica estadística que relaciona las categorías de las
variables cualitativas y cuantitativas en las áreas de estudio y reduce las dimensiones en una tabla
de contingencia con la finalidad de graficar los datos obtenidos. Este documento elabora una guía
didáctica para la enseñanza del método de Análisis de Correspondencia llevando su ejecución
mediante funciones y argumentos en el programa R-Studio.

ABSTRACT

Correspondence Analysis (AC) is a statistical technique that relates the categories of the
qualitative and quantitative variables in the study areas and reduces the dimensions in a
contingency table in order to graph the data obtained.  This document elaborates a didactic guide
for the teaching  of the  Correspondence  Analysis method taking its  execution through functions
and arguments in the R-Studio program.

PALABRAS CLAVES; Keywords

Análisis  de  Correspondencia,  técnica  descriptiva, técnica  multivariante,  programa estadístico  R,


métodos estadísticos, comandos, CA, FactoMineR, ji-cuadrado, tabla de contingencia, estadística;
Correspondence Analysis, descriptive technique, multivariate technique, statistical program R,
statistical methods, commands, AC, FactoMineR, chi-square, contingency table, statistics.
2 Introducción a la programación estadística con R (2017) C: 1-48

INTRODUCCIÓN
El  Análisis  de  Correspondencias y sus  técnicas  de  clasificación  se fundamentan en su interés
para la investigación  en las ciencias sociales y  del comportamiento. “El  objetivo del  estudio
puede centrarse en los individuos, sus diferencias o similitudes, en las variables, su
interrelación o  explicación de una  en función de las restantes.  Por tanto,  la estadística  es hoy
multivariante, considera múltiples medidas, continuas o no, sobre un  conjunto de individuos
que pueden provenir de una o más poblaciones” (Batista y Sureda, 1987, p.171).

Borrás, J. et al. (1995), elaboraron un estudio y aplicaron el Análisis de Correspondencias,
basado en el estado de salud, utilización de servicios sanitarios y morbilidad declarada. Dado el
carácter cualitativo de las variables estudiadas y en función del objetivo exploratorio del
estudio dichos autores seleccionaron la técnica del Análisis de Correspondencias Múltiples
(ACM), ya que ésta consiste en una técnica, básicamente descriptiva, exploratoria, que permite
resumir la información de las variables introducidas en el análisis en una serie de factores que
explican la mayor parte posible de la variabilidad observada en los datos. Por otra parte, el
Método ACM, es una técnica gráfica que permite mostrar cada categoría de una variable como
un punto sobre un plano formado por los ejes factoriales.  La posición relativa de las categorías
indica el nivel de asociación o similitud que existen entre categorías.

Herrera, N. y Sánchez, R. (1999), utilizan  el Análisis de Correspondencias Múltiples en la
caracterización de pacientes psiquiátricos hospitalizados. Esta técnica permite distinguir 5
grupos con características diagnósticas y pronósticas específicas. Predomina el uso del método
detectando tipologías que sean convenientes a los clínicos para la determinación en este tipo de
pacientes.

Fernández, F. (2002) realizó un Análisis de Correspondencia Simple (ACS) como ayuda en la
interpretación del dato en arqueología, cuya técnica usa el estudio de la cerámica para analizar
los datos. Su propósito es mostrar un ejemplo ilustrativo con la herramienta estadística del
Análisis de Correspondencia Simple o Binaria (A.C.S.), con la finalidad de contribuir a la
difusión de técnicas estadísticas no tradicionales en la arqueología venezolana, pero que se
comenzó a aplicar desde hace mucho tiempo en las ciencias sociales.

Latrille, L., Moreira, V. y Smith, R. (2002), hicieron un análisis que consiste en la
caracterización de sistemas lecheros en la décima región de Chile mediante Análisis
Multivariante. Este estudio se fundamenta en caracterizar y clasificar las explotaciones lecheras
de acuerdo con aspectos técnicos, productivos y relacionados al capital humano con que ellas
cuentan. Una de las técnicas multivariables exploratorias que emplearon es la de Análisis de
Correspondencia Múltiple cuya técnica, aplicada sobre variables cualitativas, proporciona
información análoga a la obtenida de la aplicación de un Análisis de Componentes Principales
a variables cuantitativas. La información numérica necesaria para esto es generada en un
A.  Concepción / Guía Didáctica para la Enseñanza de Método de Análisis de Correspondencia
Introducción a la programación estadística con R (2017) C: 1-48 Sigui
endo 
Análisis de Correspondencia Múltiple (ACM) a través de un proceso que implica el uso de las i
tablas de frecuencia de entrada múltiple y Tablas de Burt. deas 
de B
Blanco et al. (2008) desarrolló una encuesta para estudiar la historia de vida, sobre la lanco 
Transición Educativo-Formativa e Inserción Laboral. Este estudio “adopta un enfoque distinto et al
al utilizar un método multivariante exploratorio, como es el Análisis de Correspondencias y . (20
aplicarlo a la super-matriz indicador que  recoge las historias  de vida  de los individuos  como 08, 
secuencias de eventos” p.2), 
para 
lleva
r a cabo dicho análisis, ellos 3
presentaron una metodología aplicable al análisis de datos apropiados de la Encuesta de
Transición Educativo-Formativa e Inserción Laboral elaborada por el Instituto Nacional de
Estadística en 2005, con el fin de conocer las diferentes formas de transición de la educación y
la formación del mercado laboral.

Conforme a Santiago de la Fuente (2011), el Análisis de Correspondencias tiene como objetivo
hacer un compendio de una gran cantidad de datos en un número reducido de dimensiones con
la menor pérdida  de información posible. Además, su  objetivo es  parecido al de los métodos
factoriales,  sólo  que para el caso  del  Análisis  de  Correspondencias  el método  se utiliza  sobre
variables categóricas u ordinales. Este análisis utiliza la distancia de chi-cuadrado.

El Análisis de Correspondencia se clasifica en análisis de correspondencia simple y múltiple. El
primero  se utiliza en la representación de datos en una tabla de contingencia de dos variables
ordinales o nominales y el segundo usa más de dos variables cualitativas.

Lanziano et  al. (2011) realizaron una encuesta de perfiles asociados al consumo de alcohol de
adolescentes escolarizados de ambos sexos en nueve ciudades de Colombia mediante un
análisis de Correspondencias Múltiples. Los datos obtenidos sobre el consumo de alcohol
arrojó una gran cantidad de valores por lo que se utiliza el método de Correspondencias
Múltiples que permite representar las relaciones entre grandes conjuntos de variables y grupos
de individuos, simultáneamente. Se llaman exploratorios porque no utilizan las expresiones
formales que establecen relaciones entre variables, como “dependencia” o “independencia”. De
hecho, este tipo de análisis no busca modelar las relaciones entre las variables, ni establecer un
valor de probabilidad para la aparición o el cambio en la condición de una variable
dependiente. Lo que se busca con este método es utilizar la mayor cantidad de variables
posibles de manera simultánea.

De acuerdo a Santamaría, E. (2013, pág. 16 y 32),  el Análisis de Correspondencia se usa en el
Análisis Multivariante de los Factores que intervienen  en la compra de marcas propias en  el
Ecuador, aplicando el programa R. Dentro del área de Marketing se hace análisis multivariantes
utilizando los libros de Análisis de Correspondencia Simple, Múltiple y Conjunto (CA) y
Análisis de Correspondencia Simpley Canónica (Anacor).
Introducción  a la  programación  estadística  con  R (2017)  C:  1-48
4 Introducción a la programación estadística con R (2017) C: 1-48

Análisis de Correspondencia Simple, Múltiple y Conjunto (CA) es un libro creado por Michael
Greenacre y Oleg Nenadic que busca realizar un estudio de Correspondencia basado en el valor
descomposición de las variables analizadas simples, múltiples y conjuntas, el Análisis de
Correspondencia Simple y Canónica (Anacor) es un libro que busca el cálculo y representación
gráfica basando la descomposición de las dimensiones en el escalamiento de distancias, creado
por Jan  de Leeuw y  Patrick Mair. El estudio define la relación  que existe entre los factores
demográficos y culturales, permitiendo definir perfiles de consumidor de acuerdo con la marca
analizada.

Conforme a Amarilla, Arriola, Closas, Jovanovich y Kuc (2013, p.74), el Análisis de
Correspondencia se aplica a un Análisis  multivariante,  basado  en conceptos y  aplicaciones en
Psicología Educativa y Psicometría. Esta técnica pretende facilitar información sobre las
diferentes aplicaciones realizadas en el área de la Psicología Educativa y de la Psicometría. En
las últimas décadas debido a la disponibilidad de programas informáticos, el progreso de la
tecnología ha producido un crecimiento notable en la utilización de métodos y modelos
estadísticos en todos los campos de la investigación científica. Dicha técnica estadística
pretende representar en un  espacio multidimensional  reducido, la relación  existente entre las
categorías  de  dos  variables no métricas. En dicho análisis, el mapa  perceptual que  se  obtiene
muestra las distancias de dos variables,  por  lo  que este estudio  sirve para  visualizar  tablas de
contingencia.

Greenacre (2008), intervino en el análisis de Correspondencia en el año 1973 cuando inició su
doctorado en el Laboratorio de análisis de datos de Benzécri en Paris. Para Greenare, el
Análisis de Correspondencia es un método de análisis de datos en la cual se generaliza una
representación gráfica de las tablas de datos, dicho de otra manera es un diagrama de dispersión
que representa los datos en forma de puntos considerando los dos ejes de coordenadas
perpendiculares; es decir, el eje horizontal y el eje vertical.

Díaz, L. y Morales, M. (2015), consideran que el Análisis de Correspondencia obtiene una
tipología de las filas o una tipología de las columnas y relacionadas entre sí. Este análisis se
desarrolla mediante dos tablas de datos, la primera tabla contiene las frecuencias respecto a las
modalidades de dos variables denominada Análisis de Correspondencia binaria o simple y la
segunda tabla contiene información sobre varias variables la cual se le denomina Análisis de
Correspondencia Múltiple.

En este estudio, nos interesa conocer cómo funciona el Análisis de Correspondencia que
emplea el programa estadístico R, aplicando los conceptos y propiedades teóricas sobre las que
se desarrolla los diversos métodos. En la actualidad, el uso de estos programas computacionales
simplifica el trabajo de Análisis Multivariante, el programa R es un software libre, gratuito, que
permite el trabajo con gran cantidad de dimensiones, es decir, sirve para el análisis estadístico
de datos y es considerado interesante por la variedad de métodos estadísticos que cubre, las
A.  Concepción / Guía Didáctica para la Enseñanza de Método de Análisis de Correspondencia
Introducción a la programación estadística con R (2017) C: 1-48 
 Ide
capacidades gráficas que ofrece. El Análisis de Correspondencia se puede efectuar usando los ntific
paquetes CA (Análisis de Correspondencia), Anacor, FactoMiner, ade4 y MASS para ar la
facilitar el estudio tanto del Análisis de Correspondencia Simple como el Análisis de s bi
bliot
Correspondencia Múltiple. Esta guía se desarrolla mediante ejemplos utilizando los paquetes de ecas 
R, llamados CA y FactoMiner. estab
lecid
OBJETIVO GENERAL as e
n la 
Elaborar una  guía  didáctica  que  permita  comprender el uso de las funciones  diseñadas  en  las librer
librerías de CA y FactoMineR en R-Studio para el Análisis de Correspondencia. ía C
A y 
OBJETIVOS ESPECÍFICOS Fact
oMineR en 5
R-Studio para la resolución de problemas del método de Análisis de
Correspondencia.
 Identificar datos y artículos científicos publicados donde se utilice la librería CA
y FactoMineR en R-Studio para la resolución del método de Análisis de
Correspondencia.

JUSTIFICACIÓN

La importancia de este trabajo radica en la confección de una guía didáctica que facilite la
enseñanza al momento de aplicar el método de Análisis de Correspondencias utilizando las
librerías CA y FactoMineR en R-Studio para determinar y  conocer los diferentes algoritmos
que necesite en su resolución.

MARCO TEÓRICO

El Análisis de Correspondencias es un método inicialmente adaptado para el tratamiento de
tablas de contingencia, tablas de frecuencias bidimensionales que permite estudiar las
eventuales relaciones existentes entre las filas y columnas de dicha tabla a través de la
representación gráfica simultánea de las mismas. (Blanco, P., García, A.  y González, J., 2008,
p.4)

Este Análisis de Correspondencia es una técnica  descriptiva utilizada para analizar  de manera


gráfica, las relaciones de dependencia e independencia de todas aquellas variables categóricas a
partir de los datos que se presentan en una tabla de contingencia. Esta técnica es de gran
utilidad ya que la interpretación de los resultados puede hacerse más sencilla mediante gráficas.
Con esto se hace posible evidenciar el grado de  relación entre las categorías de cada variable;
de todo lo mencionado anteriormente surge el nombre de mapas perceptuales.
“El Análisis Multivariante es un conjunto de métodos estadísticos y matemáticos, destinados a
describir e interpretar los datos que provienen de la observación de varias variables estadísticas,
estudiadas conjuntamente” (Cuadras, 2014, p. 11).

Introducción  a la  programación  estadística  con  R (2017)  C:  1-48


6 Introducción a la programación estadística con R (2017) C: 1-48

Por lo tanto, el Análisis Multivariante juega un papel fundamental en la parte estadística y en el
análisis de datos que estudia, además interpreta, representa y analiza los datos en los cuales se
observa más de una variable estadística sobre aquellas muestras de individuos. Dichas variables
observables son homogéneas y correlacionadas sin que alguna prevalezca sobre las otras.
También se afirma que el análisis estadístico multivariante es una herramienta capaz de
estudiar el comportamiento de tres o más variables a la vez.

El Análisis de Correspondencia  se inicia a partir  del año 1935,  fue desarrollado por Jean-Paul


Benzécri en 1973 y Greenacre en 1984. Este Análisis es trabajado sobre variables categóricas o
variables cualitativas. Además es una técnica de interdependencia que facilita tanto la
reducción dimensional de una clasificación de objetos (por ejemplo, productos, personas, etc.)
sobre un conjunto de atributos y el mapa perceptual de objetos relativos a estos atributos. Los
investigadores se enfrentan constantemente a la necesidad de cuantificar datos cualitativos que
se encuentran en variables nominales. Este análisis difiere de otras técnicas de interdependencia
en su capacidad de ajustar tanto datos no métricos como relaciones no lineales. (Crespín, 2016,
p.16)

Dicho  Análisis de Correspondencias es de mucha utilidad en el ámbito de la estadística como
método de control de calidad de los datos que se obtienen. Sin embargo, según Peña (2002, p.
201) las tablas de contingencia son aquellas en donde se obtienen las frecuencias de aparición
de dos o más variables cualitativas en un conjunto de elementos. En general, son aquellas que
se emplean para registrar y analizar la asociación de dos o más variables de carácter cualitativas
ya sean de tipo nominales u ordinales.

El Análisis de Correspondencias es una técnica de elaboración de mapas perceptuales. Estos se
basan  en la asociación entre  objetos y un  conjunto de características descriptivas o atributos
específicos  para  el investigador. Su  aplicación  es muy  directa y su beneficio es la capacidad
para representar filas y columnas en un mismo espacio. En este sentido la finalidad será
determinar la posición de una serie de objetos según una serie de características a través de un
espacio vectorial en dos, tres o más dimensiones. (Crespín, 2016, p.130)

Siguiendo las ideas de Crespín (2016, p.131), el Análisis de Correspondencia examina las
relaciones entre categorías de datos nominales mediante la medida de asociación de la chi-
cuadrado. Este análisis realiza una reducción de la dimensión del problema, en donde la
proximidad, en sentido matemático, entre los individuos, indicará el nivel de asociación.

El Análisis de Correspondencia tiene dos objetivos básicos:

- Asociación entre categorías de columnas o filas: se usa para medir la asociación de sólo
una fila o columna, para ver, por ejemplo, si las modalidades de una variable pueden ser
combinadas.
- Asociación entre categorías de  filas  y columnas: se usa para estudiar  si existe relación
entre categorías 
en l Color de ojos as filas y colum
nas.
Claros        Azules       Medios         Oscuros           Total
(C)                (A)             (M)                   (O)              (𝑛𝑖.) Dicho análisis s
e ca Color de cabello racteriza en dos 
part Rubio (ru) 688               326             343                  98                  1455 es:
Rojo (r) 116                 38                84                  48                     286
A.  C Medio (m) 584                241             909               403                   2137 oncepción  / Guía Di
dácti ca para la Enseñanz
Oscuro (o) 188                110             412               681                   1391
a de  Método de Análisi
Negro (n) 4                        3                26                 85                     118
s de  Correspondencia
Total (𝑛.𝑗) 1580               718           1774             1315 5387 7
Intro
ducción a la programación estadística con R (2017) C: 1-48

- Se  enuncia el Análisis de  Correspondencia  Simple  (ACS) cuando los  datos  a  analizar


tienen forma de tabla de contingencia y evalúa las relaciones existentes entre dos
variables.
- Cuando se  trabaja  con  más  de  dos variables nominales  estaremos  ante  el denominado
Análisis de Correspondencias Múltiples (ACM)
1. Análisis de Correspondencia Simple

El Análisis de Correspondencia Simple se hace mediante la función ca()de la misma librería
de Análisis de Correspondencia (ca). Este análisis se utiliza en la generalización de datos que
se presentan en una tabla de contingencia de dos variables ya sean nominales u ordinales.
(Fuente, 2011; Díaz y Morales, 2015)

Si la tabla de contingencia se trata de dos variables cualitativas,  en la que una de ellas, cuyas
categorías aparecen en fila y la otra, cuyas categorías se presentan en columnas. El Análisis de
Correspondencia se basa en reducir la información en las filas y las columnas de forma que se
proyecten en un subespacio reducido y se puedan representar los puntos fila y los puntos
columna. De esta manera se obtienen conclusiones de la relación que existe entre las dos
variables nominales u ordinales de origen.

De acuerdo  a Díaz,  L.  y Morales,  A.  (2015), se considera  la  matriz de  frecuencias  𝑛𝑖𝑗  contenida
en  la  tabla  1  a manera  de  ejemplo del  Análisis  de  Correspondencia  Simple  para  desarrollarlo
con el programa R a través del paquete ca.

Tabla 1: Frecuencias absolutas

La  matriz  de  densidades  o  frecuencias  relativas  𝑓𝑖𝑗 y las  densidades  marginales  de  las  filas  (𝑓𝑖.)
y las columnas  𝑓.𝑗  es mostrada en la tabla 2.

Introducción a  la  program


ació Color de ojos n  estadística  con  R (2017
)  C:  1-48
8 Claros        Azules       Medios         Oscuros           Total Introducción a la p
(C)                (A)            (M)                   (O)                (𝑛𝑖.) rogramación estadística co
Color de cabello n R (2017) C: 1-48

Rubio (ru) 12.77           6.05            6.37            1.82               27.01

Rojo (r) 2.15            0.71            1.56           0.89                 5.31

Medio (m) 10.84            4.47           16.87           7.48              39.66

Oscuro (o) 3.49            2.04             7.65         12.65              25.83

Negro (n) 0.07               0.06            0.48           1.58               2.19

Total (𝑛.𝑗) 29.32            13.33          32.93         24.42 100.00


;   𝑓𝑖.  =  ∑𝑗=1 𝑓𝑖𝑗 = Tabla 2: Frecuencias relativas

1.1 Representación geométrica de una tabla de contingencia

En una tabla de contingencia o una matriz de datos se consideran dos espacios, el espacio  fila
(𝑅𝑝) o el espacio columna (𝑅𝑛). La matriz de datos X, tiene  n-filas y  p- columnas, 𝑛𝑖𝑗
representa el número de individuos de la fila  i y la columna  j.

El número total de individuos por fila se representa de la siguiente manera
𝑝

El número total de individuos por columna es denotado por
∑  𝑛𝑖𝑗    para
𝑛𝑛.𝑖.𝑗   =
=   ∑𝑗=1
𝑛𝑖=1 𝑛𝑖𝑗 para 𝑗𝑖   = 1, …
=   1, … , 𝑛.
    ,  𝑝.

El número total de individuos de una tabla está dado por
𝑛 𝑝 𝑛 𝑝

𝑁  =  ∑ ∑ 𝑛𝑖𝑗  =  ∑ 𝑛𝑖.  =  ∑ 𝑛.𝑗.


𝑖=1 𝑗=1 𝑖=1 𝑗=1

Las frecuencias relativas absolutas y marginales se denotan así:

A.  Concepción / Guía Didáctica para la Enseñanza de Método de Análisis de Correspondencia
Introducción a la programación estadística con R (2017) C: 1-48 9

𝑛𝑖𝑗 𝑝 𝑛𝑖. 𝑛.𝑗


𝑓𝑖𝑗 = ;  y 𝑓.𝑗  =  ∑𝑛𝑖=1 𝑓𝑖𝑗  = . (a)
𝑁 𝑁 𝑁
Con  lo  anterior  se  puede  ver  que  la  matriz  X  de  elementos  𝑛𝑖𝑗 se  ha  transformado  en  la  matriz
de elementos 𝑓𝑖𝑗 ; esta última se denota por 𝑭  =  (𝑓𝑖𝑗 ).

Las frecuencias  relativas  condicionales, de columna respecto a  perfiles filas y  fila respecto a


perfiles columnas, se escriben como sigue:
𝑛𝑖𝑗 𝑓𝑖𝑗 𝑛𝑖𝑗 𝑓𝑖𝑗
𝑓𝑖|𝑗  = = y 𝑓𝑗|𝑖  = = , para 𝑖  = 1, … , 𝑛 𝑗  = 1, … , 𝑝. (b)
𝑛.𝑗 𝑓.𝑗 𝑛𝑖. 𝑓𝑖.

En esta notación,  𝑓𝑗|𝑖  es  la  frecuencia de  la columna  j a condición de estar con la  fila  i.

1.2 Perfiles fila y columna

Las ecuaciones (a) y  (b) equivalen a las densidades marginales y condicionales. La tabla de
frecuencias por celda 𝑛𝑖𝑗 para cada fila 𝑖, el vector de densidades condicionales de tamaño
𝑛
𝑖
condicionales por filas son llamadas perfil fila.
𝑛𝑖𝑗
El vector  columna de densidades condicionales es determinado  por 𝑛.𝑗
,  con 𝑖  = 1, … , 𝑛 y se
denota así 𝑓𝑖|𝑗. Estas densidades condicionales  se  llaman perfil columna.
𝑝 𝑥 1 es determinado  a través de   𝑛𝑖𝑗,  con 𝑗  =  1, … , 𝑝  y se denota por 𝑓𝑗|𝑖.  Las densidades
1.3 Semejanza entre perfiles: distancia ji- cuadrado

Después de definido las dos nubes de puntos, espacio fila  (𝑅𝑝) y el espacio columna (𝑅  𝑛), se


debe decir como se va a medir la distancia entre ellos. En el Análisis de Correspondencia
Simple, la similitud entre dos líneas o entre dos columnas se da por la distancia entre sus
perfiles. Dicha distancia es conocida por el nombre de ji-c cuadrado y es expresada por 𝑋2.

La distancia entre dos perfiles fila 𝑖  e 𝑖´ esta dada por
2
𝑝 1
(c)
.𝑗 𝑖.

Semejantemente, la distancia entre dos perfiles columna 𝑗  y 𝑗´ es
2
2 ´ 1 𝑖𝑗
𝑑 (𝑗, 𝑗 ) = ∑ (d)
𝑑2(𝑖, 𝑖´)  =  ∑𝑗=1 𝑓𝑛𝑖=1   (  𝑓𝑓𝑖.𝑖𝑗 − 𝑓𝑓.𝑗𝑖  𝑗) 𝑓 ´

𝑖.´

Introducción  a la  programación  estadística  con  R (2017) 


𝑖𝑗 − 𝑓   ´)C:  1-48
(𝑓𝑓     𝑓   
10 Introducción a la programación estadística con R (2017) C: 1-48
.𝑗´

Obsérvese  que  (c) y (d) miden  la  distancia  entre  dos  distribuciones multinominales; es  decir,


permite comparar los histogramas por cada par de filas o columnas.

Las distancias anteriores se traducen en que el Análisis de Correspondencia (AC) da
preferencia a las modalidades con menor frecuencia y dan menos importancia a las que tienen
una frecuencia alta.
La  distancia de ji- cuadrado es  semejante  a la  distancia  euclidiana  usual; es  decir, sólo basta
transformar adecuadamente las coordenadas de los vectores de perfiles para conseguir el
cuadrado  de la distancia euclidiana entre tales puntos. Para dos perfiles  fila 𝑖 e 𝑖´ su distancia
está dada por:
𝑝 2
2 ´ 1 𝑓𝑖𝑗  𝑓𝑖´𝑗
𝑑 (𝑖, 𝑖 ) =∑ ( −  )
𝑓.𝑗 𝑓𝑖.  𝑓𝑖´.
𝑗=1

2
1 𝑓𝑖𝑗  1  𝑓𝑖´𝑗
= ∑𝑝𝑗=1 (√
𝑓.𝑗 𝑖.  .𝑗  𝑖´.

Un resultado similar se tiene para la distancia entre dos perfiles columna 𝑗  y 𝑗´, éste es:
𝑛 2
2 ´ 1 𝑓𝑖𝑗  𝑓𝑖𝑗´
𝑑 (𝑗, 𝑗 ) =∑ ( −  )
(  𝑓 )𝑓𝑖. 
𝑖=1
𝑓. 𝑗   𝑓.𝑗´
 − √ 𝑓   (  𝑓   ))  .
2
1 𝑓𝑖𝑗  1  𝑓𝑖𝑗´
= ∑𝑛𝑖=1 ( √ 𝑓𝑖. 𝑗.  𝑖.  .𝑗´

1.4 Ajuste de las dos nubes de puntos

En el desarrollo del Análisis de Correspondencia Simple se debe distinguir las filas y las
columnas desde el punto de vista de la tabla de contingencia, en la que luego se calcula los
( 𝑓  )  − √ 𝑓   ( 𝑓   ) )  .
perfiles filas y los perfiles columnas con el fin de ajustar las dos nubes de punto, una
constituida por  𝑛 puntos  en 𝑅  de  coordenadas y  la otra  constituida por 𝑝 puntos  en 𝑅𝑛 de
𝑝

coordenadas.

1.4.1 Ajuste de la nube de puntos fila en 𝑹𝒑

El problema consiste en encontrar un subespacio (𝑅𝑞) de dimensión menor que el espacio fila
(𝑅𝑝), es  decir, 𝑞 < 𝑝, que  observe el máximo de información de la nube  de  puntos  original;
una  medida de  la cantidad de  información es  la cantidad de  varianza o inercia retenida por  el

A.  Concepción / Guía Didáctica para la Enseñanza de Método de Análisis de Correspondencia
Introducción a la programación estadística con R (2017) C: 1-48 11

subespacio (𝑅𝑞). El Análisis de Correspondencia (AC) procede a buscar una sucesión de ejes
ortogonales sobre los cuales la nube de puntos es proyectada.

Las distancias entre los puntos en el subespacio  imagen, deben ser semejantes a las distancias
entre los puntos de la nube inicial. La nube estudiada debe centrarse, de forma tal que su
baricentro o  Centroide 𝐺𝑓, sea seleccionado  como  el origen del sistema de coordenadas.

Sea 𝑋 la matriz de datos de tamaño (𝑛 𝑥 𝑝). Se considera primero la nube de puntos fila (𝑅𝑞).
Se debe buscar un subespacio 𝑅𝑞 de dimensión menor (𝑅𝑞  ⊆ 𝑅𝑝), que conserve la máxima
información de la nube original.

Esto se obtiene  buscando  un subespacio 𝐻,  en el que la 


−1⁄ inercia de  los puntos proyectados sea
−1⁄
𝐷𝑝−1  =  𝐷𝑝 𝐷𝑝
máxima, lo que corresponde a maximizar la expresión:

∑𝑖 𝑓𝑖 . 𝑑𝐻2(𝑖, 𝐺𝑓),
⁄ −1
=  𝐴̃ 𝐷𝑝 el perfil
Donde 𝑑𝐻2(𝑖, 𝐺𝑓)  es  la  distancia  al cuadrado𝑆  entre 𝐷𝑝  fila  𝑖  y su  respectivo  Centroide  𝐺𝑓,  el
cual está contenido  en 𝐻.  El subespacio  𝐻  se produce por los vectores unitarios 𝑢𝑖.

Se  demuestra  que  los  vectores  𝑢1, 𝑢2, … , 𝑢𝑝,  que  determinan  la  posición  y dirección  de  los  ejes
−1⁄
principales, son generados por los correspondientes valores propios de la matriz.
𝐴̃ 𝐷𝑝 𝐷 𝑝

𝑆  =  𝐹´𝐷𝑛−1𝐹𝐷𝑝−1, (e)

En el orden 𝜆1  ≥  𝜆2 …  ≥  𝜆𝑝, los cuales son soluciones del sistema

𝑆𝑢 = 𝜆𝑢. (f)

El término  general  𝑠𝑗𝑗´  de la  matriz S,  se escribe en la  forma


𝑛
𝑓𝑖𝑗 𝑓𝑖𝑗´
𝑠𝑗𝑗´  =  ∑
𝑓𝑖.𝑓.𝑗´
𝑖=1

La inercia recogida en cada eje, corresponde al valor propio asociado al eje; así la inercia total
es

𝐼𝑇  =  𝜆1 + 𝜆2 + ⋯ + 𝜆𝑝.

Obsérvese que la matriz S no es una matriz simétrica. Pero esto se puede solucionar utilizando
la  matriz S,  de acuerdo  (e), como  sigue  𝑆  =  𝐹´𝐷𝑛−1𝐹𝐷𝑝−1.

Sea 𝐴̃  = 𝐹´𝐷𝑛−1𝐹,  la cual es simétrica.  Como  la  matriz  𝐷𝑝−1  es diagonal se puede  manifestar en


la forma

Introducción  a la  programación  estadística  con  R (2017)  C:  1-48


12 Introducción a la programación estadística con R (2017) C: 1-48

2 2

Luego
−1⁄
2
2 .

La ecuación (f) es similar a
−1⁄
2
2 𝑢 = 𝜆𝑢,
2
a la izquierda de cada miembro de la igualdad anterior y llamando
−1⁄
2
𝐷𝑝 𝑢 = 𝑤, se obtiene
−1⁄
2
𝑤 = 𝜆𝑤.
−1⁄

De forma tal que la matriz
−1⁄ 
2
(g)
−1⁄

Es simétrica y tiene los mismos valores propios que la matriz S. Con esta última matriz es más
fácil obtener los valores y vectores propios, los cuales sugieren la cantidad de inercia retenida y
−1⁄
Se  multiplica por 𝐷𝑝
la dirección de los ejes principales.

1.4.2 Relación con el ajuste de la nube de puntos columna en 𝑹𝒏.

Los datos dispuestos juegan un papel similar; es 
𝐷𝑝 2 ̃𝐴 𝐷𝑝 decir,  aquellos que están en correspondencia
con los datos fila, de esto el análisis en 𝑅𝑛 puede deducirse del desarrollo para 𝑅𝑝  mediante el
intercambio de los subíndices 𝑖  y 𝑗.

A partir de la matriz de datos 𝑋, de tamaño 𝑛 𝑥 𝑝, se busca un subespacio de dimensión menor
𝑆∗  =  𝐷𝑝 2 ̃
𝐴 𝐷𝑝
que 𝑛, de manera tal que recoja la cantidad máxima de información de la nube original. Esto se
consigue, buscando un subespacio 𝐻∗, en el que la inercia de los puntos proyectados sobre éste
sea máxima; es decir, se maximiza la siguiente expresión:

∑𝑗 𝑓.𝑗𝑑𝐻2 ∗(𝑗, 𝐺𝑐),
2
Donde 𝑑𝐻  ∗(𝑗, 𝐺𝑐) es la distancia al cuadrado  entre el perfil columna  𝑗  y el respectivo  Centroide
de  las columnas  𝐺𝑐.

Los vectores 𝑣1, 𝑣2, … , 𝑣𝑛, que determinan la posición y dirección de los  ejes  principales y


generan el subespacio 𝐻∗, se obtienen de los respectivos valores propios de la matriz.

A.  Concepción / Guía Didáctica para la Enseñanza de Método de Análisis de Correspondencia
Introducción a la programación estadística con R (2017) C: 1-48 13

𝑆∗  =  𝐹𝐷𝑝−1𝐹´𝐷𝑛−1.

Retomando la ecuación (f)

𝑆𝑢 = 𝜆𝑢,

𝐹´𝐷𝑛−1𝐹𝐷𝑝−1𝑢  =  𝜆𝑢.

Se multiplica en ambos  lados por 𝐹𝐷𝑝−1:

𝐹𝐷𝑝−1  𝐹´𝐷𝑛−1(𝐹𝐷𝑝−1𝑢)  =  𝜆(𝐹𝐷𝑝−1𝑢)


Se  nota  que  el vector  𝑣  es  proporcional a  𝐹𝐷𝑝−1𝑢.  Como  𝐹𝐷𝑝−1𝑢  respecto  a  𝐷𝑛−1  es  igual a  λ,  y
además,  𝑣´𝐷𝑛−1𝑣  =  1, se obtiene  la  siguiente relación entre  los vectores propios que generan los
subespacios 𝐻∗ y 𝐻, respectivamente

1
𝑣 = 𝐹𝐷𝑝−1𝑢,
√𝜆
1 −1
𝑢 = 𝐹´𝐷 𝑝 𝑣.
{ √𝜆

Estas dos relaciones presentan que las coordenadas de los puntos sobre un determinado eje
principal en un espacio, son proporcionales a las componentes del factor del otro espacio
correspondiente al mismo valor propio. Se tienen las siguientes ecuaciones al denominar como
𝜓𝑖𝛼  la  proyección de  la  𝑖-  ésima  fila  sobre  el eje  𝛼  y 𝜓𝑗𝛼 la  proyección de  la columna  𝑗-  ésima
sobre el eje 𝛼.
1
𝜓𝑖𝛼  = 𝐷𝑛−1𝐹𝜑𝑗𝛼,
√𝜆𝛼
{ 1
(h)
𝜑𝑗𝛼  = √𝜆𝛼
𝐷𝑝−1𝐹´𝜓𝑖𝛼.

Las ecuaciones (h) son llamadas  ecuaciones  de  transición y se pueden reescribir en términos de


coordenadas de proyección de la siguiente manera:

1 𝑓𝑖𝑗
𝜓̂𝑖𝛼  = ∑𝑝𝑗=1 𝜑̂𝑗𝛼 ,
√𝜆𝛼 𝑓𝑖.
{ 1 𝑓𝑖𝑗
(i)
𝜑̂𝑖𝛼  = ∑𝑛𝑖=1
𝑓.𝑗
𝜓𝑖𝛼̂ .
√𝜆𝛼

Estas últimas ecuaciones ponen en relación las dos representaciones graficas obtenidas.

Una interpretación de acuerdo a las dos últimas ecuaciones es la siguiente: un punto fila,
aparece cerca de aquellas columnas en las cuales su perfil presenta máximos y aparece alejado
de aquellas en las que el perfil tiene los mínimos. Dicho de otra forma, un punto columna
Introducción  a la  programación  estadística  con  R (2017)  C:  1-48
14 Introducción a la programación estadística con R (2017) C: 1-48

aparece cerca de aquellas filas en las que su perfil presenta valores más altos y está alejado de
las filas en las que su perfil tiene valores más bajos.

1.4.3 Reconstrucción de la tabla de frecuencias
𝑓𝑖𝑗
Se reconstruye la matriz de frecuencias. Esta matriz 𝐹∗ = ( ) se puede obtener mediante
√𝑓𝑖.𝑓.𝑗

𝑞
∗ ∗
𝐹   ≈  𝑋   =  ∑ √𝜆𝛼𝑣𝛼𝑢´𝛼.
𝛼=1
De  las  relaciones  (h)  y sustituyendo  𝑢𝛼 y 𝑣𝛼 por  sus  respectivas  proyecciones,  luego  de  varias
simplificaciones se obtiene  la  fórmula de reconstrucción de  la  matriz  𝑭  =  (𝑓𝑖𝑗 ),  con

𝑓𝑖𝑗 =  𝑓𝑖.𝑓.𝑗 {1 + ∑ √𝜆𝛼𝜓𝑖𝛼𝜑𝑗𝛼 }
𝛼>1

1.5 Caso de estudio 1: Color de cabello versus el color de ojos

Para ilustrar el método e introducir un tipo particular de tablas de contingencia, importante para
el  caso que nos ocupa, consideremos la siguiente matriz de datos (Tabla 1 formadas por las
filas (𝑖 = 1,2,3,4,5) que son el color del cabello, cuyas modalidades varían de rubio a negro y
las columnas (𝑖 = 1,2,3,4) que son el color de los ojos. Para encontrar la representación, la
generalización más adecuada de estos datos, se realiza una comparación de las filas y las
columnas de la tabla. En esta comparación implica hacer uso de una medida de distancia
apropiada. El Análisis de Correspondencia Simple accede a describir las proximidades
existentes entre los perfiles,  color de los ojos (perfil fila)  y color del cabello (perfil columna),
de acuerdo con la participación que se haga de los individuos, sea por filas o por columnas.

El Análisis de Correspondencia Simple se realiza con el programa R, utilizando la función (ca)
de la librería con el mismo nombre.

Antes de realizar el Análisis de Correspondencia Simple, se introducen los datos de la tabla 1
en una matriz llamada frecabsolutas, en la cual utilizamos la función primitiva matrix
(), que permite alterar  la secuencia por default de armado de la matriz. La función c() nos
ayuda para concatenar varios elementos del mismo tipo. Se imprime la matriz
frecabsolutas, formada por 5 filas y 4 columnas.

A.  Concepción / Guía Didáctica para la Enseñanza de Método de Análisis de Correspondencia
Introducción a la programación estadística con R (2017) C: 1-48 15

frecabsolutas<-matrix(c(688,116,584,188,4,326,38,241,110,3,343,84,

909,412,26,98,48,403,681,85), ncol=4)

Print(frecabsolutas) #  se  imprime  el  valor  de  frecabsolutas.

# es  una  matriz  5x4  que  contiene  5  filas  y  4  columnas.


[,1] [,2] [,3] [,4]
[1,] 688 326 343  98
[2,] 116  38  84  48
[3,] 584 241 909 403
[4,] 188 110 412 681
[5,] 4  3  26  85

Con la  función dimnames se  asignan nombres a  las  filas  y las columnas de  la tabla  o  de la


matriz, que luego pueden ser usados como índices.

La función list  se usa para construir  y verificar  ambos tipos de  listas  de la  matriz.  Además


una lista  de la clase list, puede  tener ceros  o más elementos, cada  uno de  ellos  puede  ser de
distintas clases.

El comando col devuelve una matriz de números enteros en el cual indica su número de
columnas en  un  objeto ya sea de tipo matriz o factor de etiquetas de columna. Asimismo la
función as.table utiliza los factores de clasificación cruzada para construir una tabla de
contingencia de los conteos en cada combinación de niveles de factor.

# Se  construye  la  lista  de  los  nombres para  el  color  de  cabello.
rownames(frecabsolutas)<-c("Rubio","Rojos","Medio","Oscuro","Negro")

# Se  construye  la  lista  de  los  nombres para  el  color  de  los  ojos.
colnames(frecabsolutas)<-c("Claros","Azules","Medios", "Oscuros")

# Se  construye  la lista  de  nombres  de  la  tabla  frecabsolutas.


dimnames(frecabsolutas)<-
list(rownames(frecabsolutas),colnames(frecabsolutas))

#Impresión de  la  variable  frecabsolutas.


print(frecabsolutas)

Claros Azules Medios Oscuros
Rubio 688  326  343  98
Rojos 116  38  84  48
Medio 584  241  909  403
Oscuro 188  110  412  681
Negro 4  3  26  85

Introducción  a la  programación  estadística  con  R (2017)  C:  1-48


16 Introducción a la programación estadística con R (2017) C: 1-48

# Se  convierte  la  matrizfrecabsolutas  en  una  clase con  sus


# respectivos  márgenes.
frecabsolutas<- as.table(frecabsolutas)

La función addmargins se usa para establecer cuál de los factores se difundirá por uno o más
niveles para mantener los márgenes que se van a calcular. Se forman sumas y medios sobre la
primera dimensión y medias sobre  la segunda.  La tabla resultante tendrá entonces dos niveles
adicionales para la primera dimensión y un nivel adicional para la segunda. El valor
predeterminado es sumar todos los márgenes de la tabla. Otras posibilidades pueden dar
resultados que dependen del orden en que se calculan los márgenes. Esto se marca en  la salida
impresa de la función.

# Se  agregan  las  sumas  de  las  filas  y  las  columnas  de frecabsolutas
# y  se  guardan  en  la  variable  sumfrecabsolutas.
sumfrecabsolutas<-addmargins(frecabsolutas)
#Impresión  de  la  variable sumfrecabsolutas.
print(sumfrecabsolutas)

Claros Azules Medios Oscuros Sum
Rubio 688  326  343  98 1455
Rojos 116  38  84  48 286
Medio 584  241  909  403 2137
Oscuro 188  110  412  681 1391
Negro 4  3  26  85 118
Sum 1580  718  1774  1315 5387

Se calculará la matriz de densidades o frecuencias relativas y las densidades marginales de las
filas y columnas.  La función round redondea los valores en su primer argumento al número
especificado de decimales (valor predeterminado 0). El comando prop.table lo que hace es
crear un objeto de la tabla frecabsolutas y así obtener la proporción del objeto tabla.
Además si el margen tiene longitud cero, entonces se obtiene x / sum (x). La función
prop.table() transforma una tabla de frecuencias a porcentajes o proporciones a partir de
los resultados de table().

# Cálculo  de  las  frecuencias  relativas de  las  filas  y  las  columnas.


round(prop.table(frecabsolutas)*100,2)

Claros Azules Medios Oscuros
Rubio 12.77  6.05  6.37  1.82
Rojos 2.15  0.71  1.56  0.89
Medio 10.84  4.47 16.87  7.48
Oscuro 3.49  2.04  7.65  12.64
Negro 0.07  0.06  0.48  1.58

A.  Concepción / Guía Didáctica para la Enseñanza de Método de Análisis de Correspondencia
Introducción a la programación estadística con R (2017) C: 1-48 17

# Se agregan las sumas de las filas y las columnas de las frecuencias
# relativas  con  la  función  addmargins.
round(addmargins(prop.table(frecabsoltas)*100),2)

Claros Azules Medios Oscuros Sum
Rubio 12.77  6.05  6.37  1.82 27.01
Rojos 2.15  0.71  1.56  0.89  5.31
Medio 10.84  4.47 16.87  7.48 39.67
Oscuro 3.49  2.04  7.65  12.64  25.82
Negro 0.07  0.06  0.48  1.58  2.19
Sum 29.33 13.33  32.93  24.41 100.00

# Se calcula el perfil fila de las filas y las columnas mostrando la
# distribución  del  color  de  los  ojos  por  cada  uno  de  los  colores  de
# cabello.
round(perfilfila<-prop.table(frecabsolutas,1),4)

Medio Claros 0.2733


Rubio Oscuro 0.4729 0.1352
Rojos Negro 0.4056 0.0339
Azules 0.0791 Medios  0.2937  0.1678
0.2241 0.0254 Oscuros 0.4254  0.1886
0.1329 0.2357 0.2962  0.4896
0.1128 0.2203  0.7203

# Se anexa  las  sumas de  las  filas  y  las  columnas  utilizando  la


# función  addmargins.
round(addmargins(prop.table(frecabsolutas,1)),4)

Claros Azules Medios Oscuros  Sum


Rubio 0.4729 0.2241 0.2357  0.0674 1.0000
Rojos 0.4056 0.1329 0.2937  0.1678 1.0000
Medio 0.2733 0.1128 0.4254  0.1886 1.0000
Oscuro 0.1352 0.0791 0.2962  0.4896 1.0000
Negro 0.0339 0.0254 0.2203  0.7203 1.0000
Sum 1.3208 0.5742 1.4713  1.6337 5.0000

La función barplot se usa para elaborar un gráfico de barras ya que estos son flexibles para
ser adaptados en momentos en los que el trabajo gráfico ha tenido poco éxito, en este caso para
el análisis de datos categóricos. El argumento beside es un valor  lógico. Además si el valor
es “FALSE” las columnas de “height” son representadas por barras aglomeradas y si es
“TRUE” entonces serán representadas por  barras yuxtapuestas.  Legend.text es un vector
de texto para construir una leyenda para el gráfico, es útil si “height” es una matriz, en las que
las leyendas pertenecen a sus filas. El argumento ylim específica los limites inferiores y
superiores de los de ejes.

Introducción  a la  programación  estadística  con  R (2017)  C:  1-48


18 Introducción a la programación estadística con R (2017) C: 1-48

# Se  crea  un  gráfico  de  barras  ya  sea  con  barras  verticales  u
# horizontales  para  ilustrar  el  perfil fila.
barplot(perfilfila,beside = T,legend.text = T, col = c(1:4),main =
"Perfiles filas",ylim = c(0, 0.95))
Figura 1: perfiles filas

# Se  calcula  el  perfil  columna  de  las  filas  y  columnas respecto  al


# color  del  cabello y  a  los  colores de los  ojos.
round(perfilcolumna<-prop.table(frecabsolutas,2),4)

Claros Azules Medios Oscuros


Rubio 0.4354 0.4540 0.1933  0.0745
Rojos 0.0734 0.0529 0.0474  0.0365
Medio 0.3696 0.3357 0.5124  0.3065
Oscuro 0.1190 0.1532 0.2322  0.5179
Negro 0.0025 0.0042 0.0147  0.0646

# Se  añade  las sumas  de  las  filas  y  las  columnas  del  perfil columna
# con  la  función  addmargins.
round(addmargins(prop.table(frecabsolutas,2)),4)

A.  Concepción / Guía Didáctica para la Enseñanza de Método de Análisis de Correspondencia
Introducción a la programación estadística con R (2017) C: 1-48 19

Claros Azules Medios Oscuros  Sum


Rubio 0.4354 0.4540 0.1933  0.0745 1.1574
Rojos 0.0734 0.0529 0.0474  0.0365 0.2102
Medio 0.3696 0.3357 0.5124  0.3065 1.5241
Oscuro 0.1190 0.1532 0.2322  0.5179 1.0223
Negro 0.0025 0.0042 0.0147  0.0646 0.0860
Sum 1.0000 1.0000 1.0000  1.0000 4.0000

#Se hace  un  gráfico  para  ilustrar  el  perfil  columna.


barplot(t(perfilcolumna),beside = T,legend.text = T, col = c(2:4),main
= "Perfiles columnas",ylim = c(0,0.75))
Figura 2: perfiles columnas

El Análisis de Correspondencia es una técnica en la que se representan las tablas de
contingencia, es  decir, tablas en  la  que  se  recogen  las frecuencias  de  aparición de  dos  o más
variables cualitativas en un conjunto de elementos.

La función library gestiona los libros de la biblioteca, dando información sobre los
existentes y cargándolos en memoria o descargándolos de la misma.

Análisis de correspondencia, usando la librería ca.

# Se  carga  la  librería  ca  en  R  para  utilizarla.


library(ca)

Introducción  a la  programación  estadística  con  R (2017)  C:  1-48


20 Introducción a la programación estadística con R (2017) C: 1-48

# Se le asigna un nombre a una variable el cual llamaremos acs, esto
# es para calcular el Análisis de Correspondencia Simple de los datos
# originales  de  la  tabla  de  frecuencias  absolutas.
acs<-ca(frecabsolutas)

# Se  imprime  la  variable  acs.


print(acs)

Principal inertias (eigenvalues):
1 2 3
Value 0.199245 0.030087 0.000859
Percentage 86.56% 13.07% 0.37%

Rows:
Rubio Rojos Medio Oscuro Negro
Mass 0.270095 0.053091 0.396696 0.258214 0.021905
ChiDist 0.571235 0.265854 0.212526 0.597901 1.132193
Inertia 0.088134 0.003752 0.017918 0.092308 0.028079
Dim. 1 -1.218714 -0.522575 -0.094147 1.318885 2.451760
Dim. 2 -1.002243 -0.278336 1.200909 -0.599292 -1.651357

Columns:
Claros Azules Dim. 1 -0.987318 -0.896793
Mass 0.293299 0.133284 Dim. 2 -0.510004 -0.953623
ChiDist 0.450620 0.437855
Inertia 0.059557 0.025553
Medios  Oscuros 0.020149  0.124932
0.329311  0.244106 0.075306  1.574347
0.247359  0.715398 1.412478 -0.772036

La función Summary presenta un  resumen del Análisis de Correspondencias Simples, en la
que incluye las inercias  principales y contribuciones  de fila y columna. También muestra  los
resultados específicos en valores propios (inercias principales), valores de los porcentajes de
contribución a la inercia total. Como información adicional se presentan masas, inercias y
contribuciones absolutas y relativas, así como una suma sobre el conjunto de dimensión
escogido.

# El comando summary muestra un resumen del Análisis de


# Correspondencia  Simple.
summary(acs)

Principal inertias (eigenvalues):
dim value % cum% scree plot
1 0.199245 86.6 86.6 **********************
2 0.030087 13.1 99.6 ***
3 0.000859 0.4 100.0
-------- -----
Total: 0.230191 100.0

A.  Concepción / Guía Didáctica para la Enseñanza de Método de Análisis de Correspondencia
Introducción a la programación estadística con R (2017) C: 1-48 21

Rows:
name mass qltinr k=1 corctr k=2 corctr
1 | Rubi | 270 1000  383 | -544 907 401 | -174 93 271 |
2 | Rojs | 53  803  | -233 770  14 | -48  33  |
3 | Medi | 16 | -42  39  | 4 |
4 | Oscr | 397 1000  78 | 4 | 208 961 572 |
5 | Negr | 258 1000  401 | 589 969 449 | -104 30 93 |
22  998  1094 934 132 -286 64 60
122

Columns:
name mass qltinr k=1 corctr k=2 corctr
1 | Clrs | 293 995 259 | -441 956 286 | -88  39  |
2 | Azls | 133 979 111 | -400 836 107 | 76 |
3 | Meds | 329 999  88 | 34  18  | -165 143 121 |
4 | Oscr | 244 1000  543 | 2 | 245 981 657 |
703 965 605 -134 35 145

#Se  asigna  una  variable  llamada  res  para  recuperar  la  información
#tanto  de  las  filas  como  de  las  columnas de  la  siguiente  manera:
res<-summary(acs)

Las funciones cbind() y rbind(), se  pueden utilizar para  construir matrices, dando ya


sea columnas individuales o renglones individuales, respectivamente.

Nótese que $ es un operador que al emplearlo, no se usan las comillas para mencionar el
nombre del elemento, pero, éste también admite nombres con comillas. Igualmente el operador
22 Introducción a la programación estadística con R (2017) C: 1-48
se  emplea  para  extraer o acceder a  los  elementos de  un  lista  o de  un data  frame, a  partir del
nombre del elemento.
# Se  establece  una  variable  llamada  cord.col  para  recuperar  la
La argumento 
# información rows devuelve una matriz de números enteros que indica su número de fila en
de  las  coordenadas  de  las  columnas.
cord.col<--cbind(res$columns[,5],res$columns[,8])/1000
un objeto de tipo matriz o un factor que indica las etiquetas de fila. De igual manera el
comando rows es un valor lógico que indica si se devuelven las coordenadas de la fila.
# Se  Imprime  la  variable  cord.col.
print(cord.col)
# Se  establece 
[,1] una  variable  llamada  cord.fila  para  recuperar  la
[,2]
# información 
[1,] de  las  coordenadas  de  las  filas.
0.441 0.088
cord.fila<--cbind(res$rows[,5], res$rows[,8])/1000
[2,] 0.400 0.165
[3,] -0.034 -0.245
#se  imprime  la 
[4,] -0.703 variable  cor.fila
0.134
print(cord.fila)

[,1] [,2]
La función plot() toma como argumentos dos vectores de la misma dimensión, uno para los
[1,] 0.544 0.174
valores de  las “x”, y otro  para los valores  “y”.  Dicha  función  es  la  más simple para graficar.
[2,] 0.233 0.048
Asimismo plot() es una función genérica para trazar objetos en R.
[3,] 0.042 -0.208
[4,] -0.589 0.104
# Con  la  función 
[5,] -1.094 0.286plot  sobre  un  objeto  de  clase  ca  se  obtiene  el
# biplot.

plot(acs ,main = "Color de Ojos y Cabello")
Introducción  a la  programación  estadística  con  R (2017)  C:  1-48

Figura 3: Representación de los datos color de ojos(∆) y del cabello ( 
A.  Concepción / Guía Didáctica para la Enseñanza de Método de Análisis de Correspondencia
Introducción a la programación estadística con R (2017) C: 1-48 23
2. Análisis de Correspondencia Múltiple

El Análisis de Correspondencia Múltiple (ACM),  es una generalización del  Análisis  Factorial


de Correspondencias,  al caso  de problemas donde  se tienen más de dos variables cualitativas.
Las  bases de datos correspondientes a cuestionarios, encuestas socioeconómicas, encuestas de
opinión y otras, generalmente contienen una gran cantidad de variables cualitativas por lo que
el ACM es una opción para el análisis descriptivo de dichas bases de datos. (Castillo, González
y Trejos, 2014)

Como lo menciona Husson, F.  et al.  (2012),  en el Análisis  de Correspondencias  Múltiples se


usan tablas  para cruzar individuos  y sus respuestas con diversas variables cualitativas. A este
análisis se le considera un método global por las propiedades específicas y los resultados
importantes que da. Además el Análisis de Correspondencia Múltiple es utilizado en tablas que
cruzan individuos en fila y  variables cualitativas en  columnas. La aplicación más común  del
Análisis de Correspondencia Múltiple son las encuestas ya que dentro de este contexto, una
pregunta  corresponde  a  una  variable y una  respuesta  posible  a la  pregunta  corresponde  a  una
modalidad de la variable.

2.1 La tabla de datos en Análisis de Correspondencia Múltiple (ACM).
Los datos provienen de  la  observación de  variables cualitativas  sobre una población o
muestra de objetos, el nombre de las modalidades son registrados en un computador
escritos de manera abreviada.

2.2 Código disyuntivo completo
Para hacer un estudio exploratorio de 𝑝 variables cualitativas observadas sobre 𝑛
individuos, los datos s codifican de la siguiente forma: para cada variable su modalidad
𝑗 se identifica con su indicatriz, la cual es una columna de ceros y unos definida
mediante el siguiente procedimiento: si el individuo 𝑖 posee la modalidad 𝑗 de una
variable, se escribe un 1 y un cero si no lo posee.

2.3 Objetivos
Los datos pueden estudiarse a partir de individuos, variables y modalidades; lo que lleva
a plantear varios tipos de preguntas relativas a los objetos de naturaleza diferente,
además los objetivos del Análisis de Correspondencias Múltiples se refieren a la
búsqueda de proximidades y disimilitudes entre individuos activos y entre modalidades
de las variables activas.

2.4 Estudio de Individuos
El estudio consiste en  comprender las semejanzas entre individuos desde el punto de
vista del conjunto de las variables, es decir, se construyen planos de representación con
el fin de encontrar tipologías de los individuos, lo que implica definir una distancia
entre individuos de manera que las proximidades entre ellos se reproduzcan lo mejor
posible en los planos de representación.

Introducción  a la  programación  estadística  con  R (2017)  C:  1-48


24 Introducción a la programación estadística con R (2017) C: 1-48

2.5 Estudio de variables y de modalidades
Se procura establecer un balance de las relaciones entre variables. Las relaciones se
eondencia Múltiple hay que
stud centrarse en el estudio de las modalidades; una modalidad representa a la vez una
ian  variable y un grupo de individuos.
Usando las propiedades de la codificación (𝑥𝑖𝑘  =  0 𝑜 1  y entonces 𝑥𝑖𝑘  =  𝑥𝑖𝑘y como
dos 
consecuencia  ∑𝑖 𝑥𝑖𝑘  =  ∑𝑖 𝑥𝑖𝑘  =  𝐼𝑘),  se puede escribir:
a do2.6 Definición de una distancia entre individuos y de una distancia entre modalidades.
s o  Como se vio en los objetivos, nos centramos en los individuos y  en las modalidades
glob 𝑑𝑘,2 𝑘´  =  𝐶´ ( 𝐼   + 𝐼   − 2
durante el estudio de una tabla de individuos por variables cualitativas. Es lógico
alm construir la tabla disyuntiva completa (TDC), que cruza en filas los individuos y en
ente columnas las modalidades de todas las variables, a partir de la tabla de datos individuos
. En  por variables.
el A
náli 2.6.1  Distancia entre individuos
sis 
de  La distancia entre individuos se debe calcular sumando las diferencias entre
Cor modalidades, es decir (𝑥𝑖𝑘  − 𝑥𝑖´𝑘)2, y ponderando por una función inversamente
resp proporcional a  𝐼𝑘. La distancia al cuadrado  se escribe  de la siguiente  manera:
𝐾
2 (𝑥𝑖𝑘  − 𝑥𝑖´𝑘)2
𝑑𝑖, 𝑖´ = 𝐶 ∑
𝐼𝑘
𝑘=1

Con una constante C.

2.6.2 Distancia entre modalidades

La distancia entre dos modalidades 𝑘 y 𝑘´ se calcula contando los individuos que toman
la modalidad 𝑘 o la modalidad 𝑘´(es decir 𝐼𝑘≠𝑘´), y considerando una función
inversamente proporcional a  𝐼𝑘 e𝐼𝑘´.  La distancia se denota así:
𝐼
𝑘 𝑘´

con una  constante  C´.  Según  la  codificación  (𝑥𝑖𝑘  =  0 𝑜 1),  el número  de individuos  que
toma una sola de ambas modalidades es igual a 𝐼𝑘≠𝑘´  =  ∑𝐼𝑖=1(𝑥𝑖𝑘  − 𝑥𝑖𝑘´)2. Esto se
puede escribir de la manera siguiente:𝑑𝑘,2 𝑘´  =  𝐶´ 𝐼𝑘≠𝐼 𝑘´,
2
𝑑𝑘,  𝑘´  =  𝐶´ 1
∑𝐼𝑖=1(𝑥𝑖𝑘  − 𝑥𝑖´𝑘)2.
𝐼𝑘𝐼𝑘´

Desarrollando esta ecuación se tiene:
2 1 2  2
𝑑𝑘,  𝑘´  =  𝐶´ 𝐼𝑘𝐼𝑘´

2  2
= 𝐶´
𝐼𝑘𝐼𝑘´
∑ 𝐼𝑖=1 (𝑥𝑖𝑘   +  𝑥𝑖𝑘´  − 2𝑥𝑖𝑘𝑥𝑖𝑘´),
A.  Concepción / Guía Didáctica para la Enseñanza de Método de Análisis de Correspondencia
Introducción a la programación estadística con R (2017) C: 1-48 25
∑𝐼𝑖=1 𝑥𝑖𝑘  + ∑𝐼𝑖=1 𝑥𝑖𝑘´ − 2 ∑𝐼𝑖=1 𝑥𝑖𝑘 𝑥𝑖𝑘´
2
2

1 1 ∑𝐼𝑖=1 𝑥𝑖𝑘𝑥𝑖𝑘´
).
𝑘´ 𝑘 𝐼𝑘𝐼𝑘´
Ahora bien
2
= =
𝐼𝑘 𝐼𝑘2 𝐼𝑘2

La distancia al cuadrado entre dos modalidades se escribe así:
2  2
2 12  𝐼𝑘+  ∑2𝐼𝑖=1   𝑥𝑖𝑘 − 2 
𝑑𝑘,  𝑘´ =  𝐶´ (  )
𝐼𝑘´  𝐼𝑘  𝐼𝑘𝐼𝑘´

𝐼  𝐼  𝐼
2 𝑥𝑖𝑘´  𝑥𝑖𝑘  2 𝑥𝑖𝑘  𝑥𝑖𝑘´
𝑑𝑘,  𝑘´ = 𝐶´ (∑(  )  + ∑( )2 − 2 ∑ (  𝑥  ))
𝐼𝑘´  𝐼𝑘  𝐼𝑘  𝐼𝑘´
𝑖=1  ∑ 𝑖=1  ∑𝐼𝑖=1 𝑥𝑖𝑘 𝑖=1 ∑𝐼𝑖=1 𝑥𝑖𝑘𝑥𝑖𝑘´
𝐼𝑖=1 𝑥𝑖𝑘´
𝑥 𝑥𝑖𝑘´ 2
𝑘 𝐼𝑘´

2.7 Perfiles y distancia en Análisis de Correspondencia Múltiple.
𝐼𝑛𝑒𝑟𝑐𝑖𝑎(𝑘)  =  𝑑𝑘,2 𝐺𝐼 𝑥  𝐼𝑘𝐽  = 𝐼𝐽𝑘 ( 𝐼   − 1)  = = (1 − ).
2 𝐼𝐽𝑘   𝐽      𝐼𝑘
La distancia de 𝑋  entre los perfiles filas 𝑖  y 𝑖´ es

𝑘
1 𝑓𝑖𝑘  𝑓𝑖𝑘´ 2
𝑑𝑥22(perfil fila 𝑖, perfil fila 𝑖´) = ∑ (  −  )
𝑑𝑘,2 𝑘´  =  𝐶´ ∑𝐼𝑖=1( 𝐼𝑖𝑘 − 𝑘=1
𝑓.𝑘 𝑓𝑖.  𝑓𝑖´.
) .
Se considera que la constante C´=I, entonces la distancia al cuadrado entre dos
modalidades 𝑘 y 𝑘´ se escribe como sigue:
𝐼
𝑥𝑖𝑘 𝑥𝑖𝑘´
𝑑𝑘,  𝑘´  =  𝐼 ∑(  −   2)
2
𝐼𝑘  𝐼𝑘´
𝑖=1

La distancia de 𝑋2 entre los perfiles columnas 𝑘 y 𝑘´ es
𝑘
1 𝑓𝑖𝑘  𝑓𝑖𝑘´ 2
𝑑𝑥22(perfil columna 𝑖, perfil columna 𝑖´) = ∑ (  −  )
𝑘=1
𝑓𝑖. 𝑓.𝑘  𝑓.𝑘´

Introducción  a la  programación  estadística  con  R (2017)  C:  1-48


26 Introducción a la programación estadística con R (2017) C: 1-48

2.8 Nube de individuos, Variables y Modalidades

2.8.1 Nube de Individuos: Se maximiza la inercia de la nube de individuos
proyectados sobre una serie de ejes ortogonales.

2.8.2 Nube de Variables: Las variables se representan calculando las razones de
correlación entre  las coordenadas de  individuos sobre un eje y cada una de  las
variables cualitativas. En caso de que la razón de correlación entre la variable  𝑗
y el  eje 𝑠 es  próxima  a  1,  los  individuos  que  poseen  la modalidad igual tienen
coordenadas próximas en el eje 𝑠.

2.8.3 Nube de Modalidades: En el Análisis de Correspondencia Múltiple, las
modalidades se pueden representar en el baricentro de los individuos que se
tomaron. Esta representación es excelente puesto que corresponde a la que se
obtiene al maximizar la inercia de la nube de las modalidades sobre una serie de
ejes ortogonales.

La inercia de la modalidad 𝑘 la podemos escribir de la siguiente forma:
𝐼 𝐼 𝐼 𝐼−𝐼 1 𝐼
𝑘

La fórmula anterior muestra que la inercia de una modalidad es más importante
cuanto más rara es dicha modalidad.

La inercia del conjunto de 𝐾𝑗 modalidades de una variable 𝑗, es denominada
inercia de la variable 𝑗, así:
𝐾𝑗
1    𝐼 𝑘
𝐼𝑛𝑒𝑟𝑐𝑖𝑎(𝑗) = ∑ (1 − ).
𝐽 𝐼
𝑘=1

𝐾𝑗
Como  ∑𝑘=1 𝐼𝑘  =  𝐼, se tiene que

𝐾𝑗  − 1
𝐼𝑛𝑒𝑟𝑐𝑖𝑎(𝑗) =
𝐽
De esta manera, la inercia de una variable depende sólo del número de
modalidades que la constituyen.

Además se puede calcular la inercia asociada al conjunto de las modalidades,
que corresponden a  la  inercia de  la nube de  modalidades  (𝑁𝐾):
𝐽
𝐾𝑗  − 1  𝐾
𝐼𝑛𝑒𝑟𝑐𝑖𝑎(𝑁𝐾)  =  ∑ = −1
𝐽 𝐽
𝑗=1

A.  Concepción / Guía Didáctica para la Enseñanza de Método de Análisis de Correspondencia
Introducción a la programación estadística con R (2017) C: 1-48 27

2.9 Ayuda a la Interpretación
2.9.1 Indicadores numéricos

Porcentaje de Inercia asociado a un eje: En el Análisis de Correspondencia Múltiple (ACM), la
inercia afiliada a los primeros ejes son más débiles que en el Análisis de Componentes
Principales (ACP). Además en ACM, se estudia  las relaciones más generales y por  los menos
mín (𝐾𝑗, 𝐾𝑙) − 1 dimensiones son necesarias para representar la relación entre dos variables
que tienen 𝐾𝑗 y 𝐾𝑙 respectivamente. Por este motivo, en el Análisis de Correspondencia
Múltiple (ACM) se debe interpretar un número más grande de dimensiones que en ACP
(Análisis de Componentes Principales).

2.9.2 Elementos suplementarios

Los elementos suplementarios pueden ser individuos, variables cualitativas o cuantitativas.

Para un individuo suplementario 𝑖´ y una modalidad suplementaria 𝑘´, las fórmulas de
transición se escriben así:
1 𝐾𝑗 𝑥𝑖´𝑘
𝐹𝑠(𝑖´) = 𝐺𝑠(𝑘),
√𝜆𝑠 𝐽

1 𝑥𝑖´𝑘
𝐺𝑠(𝑘´) = ∑𝐼𝑖=1 𝐹𝑠(𝑖).
√𝜆𝑠 𝐼𝑘´

Estas fórmulas de transición son iguales a los de los elementos (individuos y modalidades)
activos.

Las variables cuantitativas suplementarias se representan sobre un círculo de correlación con la
ayuda de los coeficientes de correlación entre la variable y los factores.

Para llevar a cabo el desarrollo del Análisis de Correspondencia Múltiple en el programa R se
∑𝐽𝑗=1 ∑𝑘=1
utiliza el paquete FactoMineR, considerando los datos del consumo de té obtenidos en una
encuesta proporcionados por Husson, F. et al. (2012).

2.10 Caso de estudio 2: Consumidores de té.

Se ilustra el Método de Análisis de Correspondencia Múltiple mediante datos que proceden de
una encuesta realizada a 300 consumidores de té. Las preguntas fueron formuladas en base a la
manera en que consumían té,  la  imagen que tenían del producto  y su estrato socioeconómico.
En el análisis realizado, se incluyen las variables del comportamiento del consumo como
activas, las variables de imagen y embalaje como variables suplementarias.

Entre las diecinueve preguntas que se relacionan con el modo en el que consumen té se
consideran las siguientes:

 ¿Qué variedad de té consume la mayoría de las veces (té negro, té verde, té
perfumado)?
 ¿Cómo consume el té la mayoría de las veces (puro, con limón, con leche, otro)?
Introducción  a la  programación  estadística  con  R (2017)  C:  1-48
28 Introducción a la programación estadística con R (2017) C: 1-48

 ¿En qué forma consume el té (en bolsita, a granel, en bolsita y a granel)?
 ¿Le echa azúcar a su té (sí, no)?
 ¿Dónde compra el té (en el supermercado, en las tiendas especializadas, en los dos)?
 ¿Qué tipo de té compra (gama baja, marca del distribuidor (MDD), marca conocida,
gama alta, variable, no sabe)?
 ¿Con qué frecuencia bebe té (más de dos veces al día, una vez al día, tres a seis veces a
la semana, una a dos veces a la semana)?
 Seis preguntas tienen que ver con el lugar de degustación del producto: ¿Consume té en
casa?, ¿Consume té en su lugar de trabajo?, ¿Consume té en un salón de té o una
cafetería?, ¿Consume té en casa de sus amigos?, ¿Consume té en el restaurante?,
¿Consume té en un bar?. Para estas preguntas,  los consumidores debían responder sí o
no.
 Seis preguntas conciernen al momento de degustación del producto: ¿Consume té en el
desayuno?, ¿Consume té en la merienda?, ¿Consume té por la tarde?, ¿Consume té
después del almuerzo?, ¿Consume té después de la cena?, ¿Consume té a cada momento
del día?. Para estas seis preguntas, los consumidores debían responder sí o no.

Para la imagen que se tiene del producto, se formularon doce preguntas:

¿Asocia el té con la evasión o el exotismo?, ¿Asocia el té con la espiritualidad?, ¿El té es bueno
para la salud?, ¿El té es diurético?, ¿Asocia el té con la convivencia?, ¿El té impide la
absorción de hierro?, ¿El té es femenino?, ¿El té es refinado?, ¿El té adelgaza?, ¿El té es
excitante?, ¿El té es  relajante?, ¿El té no  tiene  ningún efecto sobre  la  salud?.  Para  estas doce
preguntas, los consumidores debían responder sí o no.

Cálculos en R utilizando el paquete FactoMineR

Para la puesta en práctica del Análisis de Correspondencia Múltiple (ACM) utilizando el
lenguaje R, se programa o se instala el paquete denominado FactoMineR. La función
library ejecuta los libros de la biblioteca, facilita la información sobre los existentes,
cargándolos o descargándolos de la memoria.

El comando read.table lee un archivo en formato de tabla y crea un marco de datos, con
casos correspondientes a líneas y variables a campos del archivo. La función summary es una
función genérica que tiene como  objetivo  resumir los resultados de varias  funciones de ajuste
del modelo. En particular dicha función hace un llamado a los métodos que dependen  de la
clase del primer argumento.

# Se  carga  la  librería  FactoMiner.


library(FactoMineR)

# Se  asigna  un  nombre  a  una  variable,  el  cual  llamaremos  te,  para
# ejecutar  desde  la  página  web  los  datos  tabulados  en Excel y  así
# calcular  el  Análisis  de  Correspondencia  Múltiple.
te<-read.table("http://factominer.free.fr/libra/te.csv",header
=TRUE,sep = ";")

A.  Concepción / Guía Didáctica para la Enseñanza de Método de Análisis de Correspondencia
Introducción a la programación estadística con R (2017) C: 1-48 29

# El  comando  summary,  presenta  un resumen  del  Análisis  de


# Correspondencia  Múltiple.
summary(te)

desayuno merienda  tarde  después.almuerzo


desayuno:144 merienda:169 No.tarde:197 después.almuerzo: 44
No.desayuno:156 No.merienda:131  tarde  :103 No.después.almuerzo:256

después.cenaa.cada.momento.del.día casa trabajo


después.cena: 21 a cada momento del día:103 casa:291 No.trabajo:213
No.después.cena:279 No.acada momento del día:197 No.casa:9 trabajo: 87

salón.de.té amigos restaurante bar variedad


No.salón de té:242   amigos:196  No.restaurante:221   bar:63 aromatizado:193
salón de té:58 No.amigos:104 restaurante:79 No.bar:237 negro: 74
verde: 33

cómo azúcar forma lugar.de.compra


leche:63 azúcar:145 a granel:36 supermercado:192
limón:33 No.azúcar:155  bolsita:170    supermercado+tienda.especializada:78
otro:9                    bolsita+a granel:94          tienda especializada:30
puro :195

tipo sexo  categoría.profesionalSport


té_desconocido :12 F:178 ejecutivo medio:40 deportista:179
té_gama_alta:53 H:122ejecutivo superior:35 No.deportista:121
té_gama_baja: 7 empleado:59
té_marca_conocida:95 estudiante:70
té_MDD :21 no activo:64
té_variable:112 obrero:12
otro activo:20

edad edad_cual frecuencia evasión.exotismo


Min. :15.00 15-24 :92 + de 2/día  :127 evasión-exotismo  :142
1st Qu.:23.00 25-34 :69 1 a 2/semana: 44 No.evasión-exotismo:158
Median :32.00 35-44 :40 1/día  : 95
Mean :37.05 45-59 :61 3 a 6/semana: 34
3rd Qu.:48.00 60 y +:38
Max. :90.00

espiritualidad bueno.para.la.salud diurético


espiritualidad : 94 bueno para la salud  :210 diurético:174
No.espiritualidad:206 No.bueno para la salud: 90 No.diurético:126

convivencia absorción.del.hierrofemenino refinado


convivencia:242 absorción del hierro:31 femenino:129 No.refinado:85
No.convivencia:58 No.absorción del hierro:269 No.femenino:171   refinado:215

Introducción  a la  programación  estadística  con  R (2017)  C:  1-48


30 Introducción a la programación estadística con R (2017) C: 1-48

adelgazante excitante relajante


adelgazante : 45 excitante  :116 No.relajante:113
No.adelgazante:255 No.excitante:184 relajante  :187

sin.efectos.para.la.salud
No.sin efectos para la salud:234
sin efectos para la salud : 66

Se ejecuta la línea de código siguiente, que almacena los resultados del Análisis de
Correspondencia Múltiple (ACM) en el objeto res.mca.

El comando quanti.sup es un vector que indica los índices de las variables continuas
suplementarias y el comando quali.sup también es un vector, pero a diferencia del
quanti.sup este indica los índices de la variable suplementaria categórica.
# Se  designa  un  nombre  a  una  variable  el  cual  se  denomina  res.mca,
# dicho código ejecuta el Análisis de Correspondencia Múltiple (ACM)
# y  da  una  ilustración  gráfica  de  las  variables  cuantitativas
# suplementarias.
res.mca<- MCA(te,quanti.sup = 22,quali.sup = c(19:21,23:36))

Figura 4: Datos de té: representación de la variable suplementaria Edad.

A.  Concepción / Guía Didáctica para la Enseñanza de Método de Análisis de Correspondencia
Introducción a la programación estadística con R (2017) C: 1-48 31

El argumento  cex corresponde a un valor numérico que nos ayuda a controlar el tamaño del
texto y de los símbolos con respecto al valor por defecto.

La función plot es sencilla para graficar y además es genérica para trazar objetos, funciones,
data.frames, entre otros más. El argumento title se utiliza para agregar etiquetas a un
gráfico.

# Se hace una gráfica para la nube de individuos con el comando plot.
plot(res.mca,invisible = c("var","quali.sup"),cex=0.7, title="Nube de
Individuos")
Figura 5: Datos de té: Representación plana de la nube de individuos.

Introducción  a la  programación  estadística  con  R (2017)  C:  1-48


32 Introducción a la programación estadística con R (2017) C: 1-48

# Se  grafica  la  nube  de  modalidades.


plot(res.mca,invisible = c("ind","quali.sup", title="Nube de
Modalidades")
Figura 6: Datos de té: representación plana de la nube de modalidades

A.  Concepción / Guía Didáctica para la Enseñanza de Método de Análisis de Correspondencia
Introducción a la programación estadística con R (2017) C: 1-48 33

# Se  crea  un gráfico  para la  nube  de  individuos  y  de  modalidades.
plot(res.mca,invisible = "quali.sup", title="Nube de Individuos y
Modalidades")
Figura 7: Datos de té: representación plana de la nube de individuos y de modalidades

Introducción  a la  programación  estadística  con  R (2017)  C:  1-48


34 Introducción a la programación estadística con R (2017) C: 1-48

# Se  hace  un  gráfico de  las  modalidades  activas  y  suplementarias.


plot(res.mca,invisible = "ind", title="Modalidades Activas y
Sumplementarias")
Figura 8: Datos de té: representación de las modalidades activas y suplementarias.

A.  Concepción / Guía Didáctica para la Enseñanza de Método de Análisis de Correspondencia
Introducción a la programación estadística con R (2017) C: 1-48 35

# Se  dibuja  un  gráfico  de  las  modalidades suplementarias.


plot(res.mca,invisible = c("ind","var"),title="Modalidades
Suplementarias")
Figura 9: Datos de té: representación de las modalidades suplementarias.

Introducción  a la  programación  estadística  con  R (2017)  C:  1-48


36 Introducción a la programación estadística con R (2017) C: 1-48

La función round puede usarse para redondear los elementos o valores ya sea desde 𝑥 hasta 𝑛
cifras decimales o desde de su primer argumento al número especificado de decimales.

El  operador $ sirve para  concatenar cadenas  de caracteres y cuando se  emplea no se  usa las


comillas para mencionar el nombre del elemento.

El comando eig se usa para crear una matriz que contenga todos los valores propios, el
porcentaje de varianza y el valor acumulativo.

# Se crea  una  tabla  de  descomposición  de  la  variabilidad  para  los
# ejes  que  incluye  el  valor propio,  el porcentaje  de  inercia  y  el
# porcentaje  de  inercia  acumulada.
round(res.mca$eig,2)

eigenvalue percentage of variance cumulative percentage of variance
dim 1 0.15 9.88 9.88
dim 2 0.12 8.10 17.99
dim 3 0.09 6.00 23.99
dim 4 0.08 5.20 29.19
dim 5 0.07 4.92  34.11
dim 6 0.07 4.76 38.87
dim 7 0.07 4.52 43.39
dim 8 0.07 4.36 47.74
dim 9 0.06 4.12 51.87
dim 10 0.06 3.90 55.77
dim 11 0.06 3.81  59.57
dim 12 0.05 3.63 63.20
dim 13 0.05 3.46 66.66
dim 14 0.05 3.25 69.91
dim 15 0.05 3.22 73.13
dim 16 0.05 3.13 76.26
dim 17 0.05 3.04 79.30
dim 18 0.04 2.68  81.98
dim 19 0.04 2.54 84.52
dim 20 0.04 2.44 86.96
dim 21 0.04 2.38 89.34
dim 22 0.03 2.32 91.66
dim 23 0.03 2.06 93.72
dim 24 0.03 1.92 95.63
dim 25 0.03 1.82 97.45
dim 26 0.02 1.41 98.86
dim 27 0.02 1.14 100.00

La función lapply permite redondear dentro de una lista. El código dimdesc facilita la
descripción automática de las dimensiones de las variables cualitativas o de las modalidades.

# Se  calcula  la  descripción  de  las  dimensiones  por  las


# variables  cualitativas.
lapply(dimdesc(res.mca),lapply,round,4)

A.  Concepción / Guía Didáctica para la Enseñanza de Método de Análisis de Correspondencia
Introducción a la programación estadística con R (2017) C: 1-48 37

$`Dim 1`
$`Dim 1`$quali
R2 p.value
lugar.de.compra 0.4179  0.0000
salón.de.té 0.3719  0.0000
forma 0.2988  0.0000
amigos 0.2432  0.0000
restaurante 0.2265  0.0000
merienda 0.1920  0.0000
tipo 0.2161  0.0000
bar 0.1472  0.0000
trabajo 0.1115  0.0000
cómo 0.1029  0.0000
variedad 0.0895  0.0000
después.almuerzo 0.0746  0.0000
frecuencia 0.0944  0.0000
convivencia 0.0713  0.0000
tarde 0.0531  0.0001
a.cada.momento.del.día 0.0448  0.0002
sexo 0.0334  0.0015
después.cena 0.0329  0.0016
deasayuno 0.0254  0.0057
azúcar 0.0153  0.0323

$`Dim 1`$category
Estimatep.value
supermercado+tienda.especializada. té_varia convivencia
salón de té ble otro
bolsita+a granel trabajo tarde
amigos + de 2/d a cada momento del día
restaurante ía F
merienda después. No.después.cena
bar almuerzo limón
desayuno 0.3385 0.0000
ejecutivo superior 0.2973 0.0000
aromatizado 0.2346 0.0000
No.azúcar 0.1995 0.0000
azúcar 0.2080 0.0000
1 a 2/semana 0.1701 0.0000
té_MDD 0.1814 0.0000
No.desayuno 0.2760 0.0000
después.cena 0.1417 0.0000
H 0.1486 0.0000
0.1486 0.0000
0.1302 0.0000
0.3819 0.0000
0.0935 0.0001
0.0858 0.0002
0.0716 0.0015
0.1369 0.0016
0.0122 0.0035
0.0614 0.0057
0.1680 0.0089
0.1220 0.0155
0.0476 0.0323
-0.0476 0.0323
-0.1043 0.0183
-0.1198 0.0116
-0.0614 0.0057
-0.1369 0.0016
-0.0716 0.0015

Introducción  a la  programación  estadística  con  R (2017)  C:  1-48


38 Introducción a la programación estadística con R (2017) C: 1-48

puro -0.2314 0.0002


No.a cada momento del día -0.0858 0.0002
1/día -0.1004 0.0002
No.tarde -0.0935 0.0001
No.convivencia -0.1302 0.0000

No.después.almuerzo -0.1486 0.0000


verde -0.2457 0.0000
No.trabajo -0.1417 0.0000
té_marca_conocida -0.1091 0.0000
No.bar -0.1814 0.0000
No.merienda -0.1701 0.0000
No.restaurante -0.2080 0.0000
No.amigos -0.1995 0.0000
bolsita -0.2318 0.0000
supermercado -0.2401 0.0000
No.salón de té -0.2973 0.0000

$`Dim 2`
$`Dim 2`$quanti
correlationp.value
edad 0.2035 4e-04

$`Dim 2`$quali
R2 p.value
lugar.de.compra forma
tipo variedad
restaurante 0.6255  0.0000
edad_cual 0.5606  0.0000
después.cena 0.5129  0.0000
trabajo 0.1603  0.0000
azúcar 0.0588  0.0000
cómo 0.0766  0.0001
después.almuerzo 0.0476  0.0001
deasayuno 0.0433  0.0003
refinado 0.0308  0.0023
salón.de.té 0.0430  0.0046
categoría.profesional 0.0261  0.0050
sexo 0.0255  0.0055
amigos 0.0230  0.0085
0.0216  0.0108
$`Dim 2`$category 0.0534  0.0128
Estimatep.value 0.0173  0.0225
0.0153  0.0324
tienda especializada 0.5662 0.0000
té_gama_alta 0.5868 0.0000
a granel 0.4752 0.0000
verde 0.1764 0.0000
No.restaurante 0.0960 0.0000
negro 0.0283 0.0001
después.cena 0.1491 0.0001
No.trabajo 0.0800 0.0003

A.  Concepción / Guía Didáctica para la Enseñanza de Método de Análisis de Correspondencia
Introducción a la programación estadística con R (2017) C: 1-48 39

No.azúcar 0.0612
No.después.almuerzo $`Dim 3` 0.0796
No.desayuno $`Dim 3` 0.0558
60 y + $quanti 0.1145
refinado correlat 0.0587
salón de té ionp.val 0.0649
ejecutivo medio ue 0.0979
H edad 0.0467
No.amigos 0.3398 0.0453
amigos -0.0453
té_MDD $`Dim 3` -0.1356
F $quali -0.0467
No.salón de té -0.0649
No.refinado -0.0587
té_desconocido -0.2317
desayuno -0.0558
después.almuerzo -0.0796
té_variable -0.0448
estudiante -0.1298
azúcar -0.0612
leche -0.1322
trabajo -0.0800
No.después.cena -0.1491
restaurante -0.0960
15-24 -0.1634
té_marca_conocida -0.1125
aromatizado -0.2047
bolsita -0.3176
supermercado -0.3689
0.0023 0.0055
0.0050 0.0050
0.0055 0.0035
0 0.0076 0.0024
0.0085 0.0023
0.0108 0.0007
0.0223 0.0003
0.0225 0.0001
0.0324 0.0000
0.0324 0.0000
0.0230 0.0000
0.0225 0.0000
0.0108 0.0000
0.0085 0.0000
0.0076
R2 p.value
variedad 0.3318  0.0000
deasayuno 0.2150  0.0000
azúcar 0.2103  0.0000
cómo 0.1960  0.0000
casa 0.1344  0.0000
edad_cual 0.1457  0.0000
tarde 0.1064  0.0000
amigos 0.1029  0.0000
a.cada.momento.del.día 0.1013  0.0000
merienda 0.0542  0.0000
frecuencia 0.0636  0.0002
bar 0.0431  0.0003
categoria.profesional 0.0763  0.0007
lugar.de.compra 0.0417  0.0018
excitante 0.0243  0.0069
después.cena 0.0215  0.0110

Introducción  a la  programación  estadística  con  R (2017)  C:  1-48


40 Introducción a la programación estadística con R (2017) C: 1-48

espiritualidad 0.0161 0.0282


después.almuerzo 0.0156 0.0305
diurético 0.0130 0.0483

$`Dim 3`$category
Estimatep.value
aromatizado espiritu cado+tienda.especializada.
No.desayuno alidad 35-44
azúcar después. No.después.cena
No.casa almuerzo no activo
tarde a granel No.excitante
amigos No.diuré 45-59
a cada momento del día tico 60 y +
limón diurétic No.bar
No.merienda o merienda
1 a 2/semana + de 2/d otro
25-34 ía leche
estudiante No.despu No.a cada momento del día
bar és.almue No.amigos
15-24 rzo No.tarde
puro No.espir casa
tienda especializada itualida No.azúcar
excitante d desayuno
después.cena supermer negro
0.1812 0.0000
0.1392 0.0000
0.1376 0.0000
0.3224 0.0000
0.1030 0.0000
0.1011 0.0000
0.1006 0.0000
0.2911 0.0000
0.0704 0.0000
0.1337 0.0000
0.1546 0.0001
0.1176 0.0001
0.0765 0.0003
0.1228 0.0004
0.1320 0.0008
0.1288 0.0019
0.0480 0.0069
0.0863 0.0110
0.0410 0.0282
0.0530 0.0305
0.0767 0.0377
0.0347 0.0483
-0.0347 0.0483
-0.0776 0.0332
-0.0530 0.0305
-0.0410 0.0282
-0.0989 0.0220
-0.0714 0.0196
-0.0863 0.0110
-0.0879 0.0086
-0.0480 0.0069
-0.0779 0.0013
-0.1281 0.0004
-0.0765 0.0003
-0.0704 0.0000
-0.3358 0.0000
-0.0874 0.0000
-0.1006 0.0000
-0.1011 0.0000
-0.1030 0.0000
-0.3224 0.0000
-0.1376 0.0000
-0.1392 0.0000
-0.2277 0.0000

# Se  calcula  la  descripción de  la  primera  dimensión por  las


# modalidades  sobreexpresadas.

A.  Concepción / Guía Didáctica para la Enseñanza de Método de Análisis de Correspondencia
Introducción a la programación estadística con R (2017) C: 1-48 amigos .1810
té_va
.2000 riabl
$`Dim 1`$category restaurante e
Estimatep.value 0
supermercado+tienda.especializada. .2080 .2760
0.3390 merienda traba
salón de té jo
0.2970 .1700 0
bolsita+a granel bar .1420
0.2350 + de 
2/día
0.1490
después.almuerzo 0.2080
0.1490 No.amigos
convivencia
0.1300 0.2000
otro bolsita 1.34e
0.3820
-35
tarde 0.2320 6.08e
0.0935 supermercado -32
a cada momento del día 1.36e
0.0858 0.2400 -21
F No.salón de té 8.62e
0.0716 -20
No.después.cena 0.2970 2.32e
0.1370 -18
limón 1.65e
0.0122 -15
desayuno 5.85e
0.0614 -12
ejecutivo superior 5.96e
0.1680 -12
aromatizado 3.00e
0.1220 -09
No.azúcar 7.38e
0.0476 -07
azúcar 1.57e
-0.0476 -06
1 a 2/semana 2.71e
-0.1040 -06
té_MDD 9.24e
-0.1200 -06
No.desayuno 5.59e
-0.0614 -05
después.cena 2.22e
-0.1370 -04
H 1.49e
-0.0716 -03
puro 1.61e
-03
-0.2310
3.52e
No.a cada momento del día
-03
-0.0858
5.67e
1/día
-03
-0.1000 8.89e
No.tarde -03
-0.0935 1.55e
No.convivencia -02
-0.1300 3.23e
No.después.almuerzo -02
-0.1490 3.23e
verde -02
-0.2460 1.83e
No.trabajo -02
-0.1420 1.16e
té_marca_conocida -02
-0.1090 5.67e
No.bar -03
-0.1810 1.61e
No.merienda -03
-0.1700 1.49e
No.restaurante -03
2.33e-04 1.12e-09 41
2.22e-04 5.85e-12
1.56e-04 1.65e-15
5.59e-05 2.32e-18
2.71e-06 8.62e-20
1.57e-06 8.88e-22
1.28e-07 3.01e-27
3.00e-09 6.08e-32

La función plotellipses permite construir elipses de confianza para el conjunto de las
modalidades de diversas variables cualitativas.

Introducción  a la  programación  estadística  con  R (2017)  C:  1-48


42 Introducción a la programación estadística con R (2017) C: 1-48

# Se  crea  un  gráfico  para  representar  las  elipses  de  confianza  de
# algunas  variables.
plotellipses(res.mca,keepvar=c("restaurante","lugar.de.compra",
"relajante","categoria.profesional"))
Figura 10: Datos de té: representación de las elipses de confianza para algunas variables.

El argumento graph es  de tipo Boleano, si se le  asigna  TRUE a  la función ella muestra  la


gráfica y si es FALSE no muestra la gráfica. La función MCA realiza el Análisis de
Correspondencia Múltiple con individuos suplementarios, variables cuantitativas
suplementarias y variables categóricas suplementarias.

A.  Concepción / Guía Didáctica para la Enseñanza de Método de Análisis de Correspondencia
Introducción a la programación estadística con R (2017) C: 1-48 43

# Al código siguiente se le agregó graph asignándole un False para no
# graficar  inmediatamente.
res.mca<-MCA(te,quanti.sup= 22,quali.sup=c(19:21,23:36),graph= FALSE)

El comando cbind.data.frame es una función genérica que toma una secuencia de vector,
matriz o datos de marco de argumentos y los combina por columnas o filas, respectivamente.

Nótese que la función ind  nos ayuda a construir una lista de matrices que contiene todos los
resultados para los individuos ya sean coordenadas, cuadrado o un coseno.

# Se  le  asigna  un  nombre  a  una  variable  a  la  que  llamamos  new.data
# para  que  en  este  código se  efectúe una  secuencia  de  una  matriz
# combinándola  por  filas  y  columnas,  y así  diseñar  una lista  de
# matriz  para  los  individuos.
new.data<-cbind.data.frame(te[,11],res.mca$ind$coord)

La función scale es una función genérica que permite por defecto centrar o escalar las
columnas de una matriz numérica. También la función PCA realiza el Análisis de Componentes
Principales (PCA) con individuos suplementarios, variables cuantitativas suplementarias y
variables categóricas suplementarias.

# Se le  da  un  nombre  a  una  variable  el cual  llamaremos  res.pca


# utilizando la función de Análisis de Componentes Principales (PCA),
# que  permite  centrar  las  columnas  de  la  matriz.
res.pca<-PCA(new.data,quali.sup=1,scale=FALSE,graph=FALSE)

# Se  usan los valores  propios  de  la  variable  que  llamamos  res.pca


# para  concatenar  sus  caracteres.
res.pca$eig[1:5,]=res.mca$eig[1:5,]

# Se asigna un  nombre  a  una  variable  llamada concat.data  para


# combinar  las  filas  o columnas  de  una secuencia  y una  lista  de
datos.
concat.data<- cbind.data.frame(te[,11],res.mca$ind$coord)

La función coord.ellipse se usa para construir elipses de confianza. El Argumento bary
es de carácter boleano, si bary es TRUE, se calculan las coordenadas de la elipse alrededor del
baricentro de los individuos.

Introducción  a la  programación  estadística  con  R (2017)  C:  1-48


44 Introducción a la programación estadística con R (2017) C: 1-48

# Se  establece  un  nombre  para  una  variable  llamada


# ellipse.de.confianz, que sirve para calcular las coordenadas de la
# elipse  de confianza.
Ellipse.de.confianz<-coord.ellipse(concat.data,bary=TRUE)

La función plot.PCA se encarga de trazar las gráficas para un Análisis de Componentes
Principales (ACP) con individuos suplementarios, variables cuantitativas suplementarias y
variables categóricas suplementarias.  Además con esta función se realiza un ACP  no normado
sobre los componentes  del Análisis de Correspondencia Múltiple  (ACM) proporcionando los
mismos resultados del Análisis de Correspondencia Múltiple(ACM).

El  comando habillage se  usa  para  colorear a  los individuos  entre  una  variable categórica


dando el número de la categoría, variable  suplementaria  o su nombre. Además ellipse es
una función genérica que devuelve una elipse de una región de confianza para dos parámetros.

La función label es usada en una lista de caracteres para los elementos que están etiquetados,
por defecto todos los elementos están marcados.

# Con  la  función  plot.PCA  se  hace  una  reconstrucción  de  un  gráfico
# para  las  elipses  de  confianza para  el  Análisis  de  Correspondencia
# Múltiple.
plot.PCA(res.pca,habillage=1,ellipse=ellipsedeconfianz,cex=0.8,label="none",
title="Modalidades de la Variable Restaurante")
Figura 10: Datos de té: representación de las elipses de confianza alrededor de las modalidades
de la variable  Restaurante.
A.  Concepción / Guía Didáctica para la Enseñanza de Método de Análisis de Correspondencia
Introducción a la programación estadística con R (2017) C: 1-48 45

El código catdes es usado para describir las categorías de un factor por variables categóricas
o por variables cuantitativas. El argumento num.var es el índice de la variable a caracterizar.

# Descripción  de  la  variable Tipo  por  las  variables  cualitativas.


catdes(te,num.var=18)

$test.chi2
p.valuedf
lugar.de.compra 1.109612e-18 10
forma 8.441989e-11 10
salón.de.té 1.672882e-03  5
amigos 4.271608e-02  5
adelgazante 4.329224e-02  5
variedad 4.963497e-02 10

AGRADECIMIENTOS

En primer lugar, quiero agradecer a  Dios  por haberme  permitido llegar hasta esta meta;  por


darme salud y brindarme lo necesario día a día para lograr mis objetivos, y culminar con éxito
este trabajo que es de gran importancia en esta etapa de mi vida.

Agradezco a mis  Padres  María  E. Miranda y Francisco J. Concepción por apoyarme  en todo


momento,  por sus consejos,  sus valores,  por la  motivación constante que  me ha permitido  ser
una persona de bien, por sus ejemplos de perseverancia que los han caracterizado siempre pero
más que nada, por todo su amor.

También agradezco a toda mi familia por brindarme su apoyo incondicional durante mi proceso
académico, en especial estos últimos meses, porque sin su ayuda no habría terminado a tiempo
este trabajo.

Además quiero agradecer al profesor Javier Torres por haber aceptado la misión de ser mi tutor,
por haber confiado, creído en mí y por darme valiosas recomendaciones.

A mis abuelas, Victoria Concepción por regalarme su cariño y apoyo, a María de los Ángeles
Valdés por darme su amor en cada momento de mi vida, aunque estés en el cielo sé que cuidas
de mí, guías mis pasos, gracias por demostrarme luz en los momentos de oscuridad, te
convertiste en mi ángel cuidando mi camino, así como lo hacías en vida, por eso y más las amo.

Por último quiero agradecer a las personas y amigos que me ayudaron directa o indirectamente
para concluir con mi trabajo.
Introducción  a la  programación  estadística  con  R (2017)  C:  1-48
46 Introducción a la programación estadística con R (2017) C: 1-48

REFERENCIAS

Amarilla, M., Arriola, E., Closas, A., Jovanovich, E. yKuc, C.(2013).Análisis multivariante,
conceptos y aplicaciones en Psicología Educativa y Psicometría.  Enfoque XXV, 25(1), 8.

Batista, J. y Sureda, J. (1987). El Análisis de Correspondencias y técnicas de clasificación: Su
interés  para la investigación en  las  ciencias  sociales y del  comportamiento.  Infancia y
Aprendizaje, 39(40), pp.171-186.

Blanco, P., García, A. y González, J. (2008). Análisis de Correspondencias y estudio de
historias de vida: Una aplicación a la Encuesta de Transición Educativo-Formativa e
Inserción Laboral. Pecvnia, 6(1), pp. 1-27.

Borrás, J., Espinás, J., Riba, M., y Sánchez, V. (1995). Estado de salud, utilización de servicios
sanitarios y morbilidad declarada: Aplicación del Análisis de Correspondencias. Revista
Española de Salud Pública, 69(2), pp. 195-205.

Castillo, W., González, J. y Trejos, J. (2014). Análisis Multivariado de Datos: Métodos y
Aplicaciones. San José, Costa Rica: UCR.

Correa, J. y González, N. (2002). Gráficos Estadísticos con R. Colombia: Universidad
Nacional- Sede Medellín. Recuperado de: https://cran.r-
project.org/doc/contrib/grafi3.pdf

Crespín, E. (2016). Análisis Multivariante: Aplicaciones con SPSS. El Salvador: San Salvador.

Cuadras, C. (2014). Nuevos Métodos de Análisis Multivariante.Barcelona, Spain: CMC.

De la Fuente, S. (2011). Análisis Correspondencias Simples y Múltiples. Madrid: Universidad
Autónoma de Madrid.

Díaz,  L. y Morales,  M.  (2015). Análisis estadístico  de datos multivariados.Bogotá, Colombia:


Universidad Nacional de Colombia.

Farfán, E. y Santana, J. (2014).El arte de programar en R: un lenguaje para la estadística.
México: Instituto Mexicano de Tecnología del Agua.

Fernández, F. (2002).El uso del Análisis de Correspondencia Simple (ACS) como ayuda en la
interpretación del dato en arqueología. Un caso de estudio. Boletín Antropológico,
20(55), pp. 687-713.
Greenacre, M. (2008). La práctica del Análisis de Correspondencias. España: Rubes.

A.  Concepción / Guía Didáctica para la Enseñanza de Método de Análisis de Correspondencia
Introducción a la programación estadística con R (2017) C: 1-48 47

Herrera, N. y Sánchez, R. (1999). Caracterización de pacientes hospitalizados mediante
análisis de correspondencias  múltiples. Revista Colombiana dePsiquiatría,  XXVIII (1),
pp. 25-34. Recuperado de http://www.scielo.org.co/pdf/rcp/v28n1/v28n1a04.pdf

Lanziano, C., Pérez, A. y Scoppetta DG, O. (2011). Perfiles asociados al consumo de alcohol
de adolescentes escolarizados mediante Análisis de Correspondencias Múltiples. Acta
Colombiana de Psicología, 14 (1), pp. 139-146. Recuperado de
http://www.redalyc.org/html/798/79822602012/

Latrille, L., Moreira, V. y Smith, R. (2002). Caracterización de sistemas lecheros en la X región
de Chile  mediante Análisis  multivariante.  SciELO,  62(3),  pp. 375-395.  Recuperado  de
http://www.scielo.cl/scielo.php?script=sci_arttext&pid=S0365-28072002000300004

Peña, D. (2002). Análisis de Datos Multivariantes. Alianza Editorial.

Santamaría,  E.  (2013).  Análisis  multivariante de  los factores que  intervienen en la compra de


marcas propias en el Ecuador, aplicando el programa R. Granada: Universidad de
Granada.
Introducción  a la  programación  estadística  con  R (2017)  C:  1-48
48 Introducción a la programación estadística con R (2017) C: 1-48

GLOSARIO
1. Análisis: Examen detallado de una cosa para conocer sus características o cualidades o
su estado y extraer conclusiones, que se realiza separando o considerando las partes
que la constituyen.

2. Análisis de Correspondencia: Es una técnica descriptiva. Suele aplicarse al estudio
de tablas de contingencia y es conceptualmente similar al análisis de componentes
principales con la diferencia de que en el análisis de correspondencias los datos se
escalan de modo que filas y columnas se tratan de modo equivalente.

3. Análisis Multivariante: Es la rama de la Estadística y del análisis de datos que
estudia, interpreta y elabora el material estadístico sobre un conjunto de n>1 de
variables que pueden ser cuantitativas, cualitativas o una mezcla.

4. Argumento: Razonamiento que demuestra, refuta o justifica algo.

5. Chi cuadrada(o): En estadística, chi cuadrado(a) (χ²), es una distribución de
probabilidad continua con un parámetro k que representa los grados de libertad de
la variable aleatoria.

6. Dimensión: Expresión de una magnitud mediante el producto de potencias de las
magnitudes fundamentales.

7. Distancia: Es una magnitud que mide la relación de lejanía o cercanía entre dos
cuerpos, objetos o individuos.

8. Función: Es una relación entre un conjunto dado X (llamado dominio) y otro conjunto
de  elementos  Y  (llamado codominio) de forma  que  a  cada  elemento x del dominio le
corresponde un único elemento f(x) del codominio (los que forman el recorrido,
también llamado rango o ámbito).

9. Método: Modo ordenado y sistemático de proceder para llegar a un resultado o fin
determinado.

10. Métodos estadísticos: Son procedimientos para manejar datos cuantitativos y
cualitativos mediante técnicas de recolección, recuento, presentación, descripción y
análisis.
A.  Concepción / Guía Didáctica para la Enseñanza de Método de Análisis de Correspondencia
Introducción a la programación estadística con R (2017) C: 1-48 49

11. R: Es un entorno y lenguaje de programación con un enfoque al análisis estadístico.
Además, es una implementación de software libre del lenguaje S pero con soporte
de alcance estático. Se trata de uno de los lenguajes más utilizados en investigación por
la comunidad estadística, siendo además muy popular en el campo de la minería de
datos, la investigación biomédica, la bioinformática y las matemáticas financieras. A
esto contribuye la posibilidad de cargar diferentes bibliotecas o paquetes con
funcionalidades de cálculo y gráficas.

12. Tabla de correspondencia: En estadística, se emplea para registrar y analizar la
asociación entre dos o más variables, habitualmente de
naturaleza cualitativa (nominales u ordinales).

13. Técnicas descriptivas: Utilizan los datos observados para realizar un resumen de la
información que contienen.

14. Variables: Es un símbolo que puede ser remplazado o que toma un valor numérico en
una ecuación o expresión matemática en general.

15. Vector: Toda magnitud en la que, además de la cuantía, hay que considerar el punto de
aplicación, la dirección y el sentido.

Introducción  a la  programación  estadística  con  R (2017)  C:  1-48

También podría gustarte