Está en la página 1de 8

Revista FABICIB • año 2015 • volumen 19 • PÁGS.

113 a 120 113

Divulgación

Análisis factorial múltiple para RECIBIDO: 28/05/2015

la caracterización de variedades REVISION: 27/07/2015


ACEPTADO: 29/09/2015
de trigo pan en diferentes ambientes

Vitelleschi, M.S. • Chavasa, V.

Instituto de Investigaciones Teóricas y Aplicadas de la Escuela de


Estadística. Facultad de Ciencias Económicas y Estadística. Univer-
sidad Nacional de Rosario. Bvrd. Oroño 1261. (2000) Rosario, Santa
Fe, Argentina. Teléfono (0341)-4802794 interno 151.
E-mail: mvitelle@fcecon.unr.edu.ar

RESUMEN: En muchas situaciones de ciclo largo, realizados en Corral de


experimentales las observaciones de Bustos y Cavanagh, campaña 2011/2012.
varias variables sobre un conjunto de Se consideraron 21 variedades de trigo
individuos u objetos se realizan en distintas pan y se evaluaron 8 variables cuantitativas
condiciones experimentales, temporales referidas a la calidad y al rendimiento. Lo
o ambientales, dando origen a datos de que constituyó una tabla múltiple de tres
tres modos o vías: individuos, variables y modos: individuos, variables y ambientes.
condiciones. Los métodos multivariados El AFM permitió observar qué variedades
que permiten analizar tablas de tres o más estaban más afectadas por el ambiente y
modos recogen la verdadera estructura posibilitó estudiar qué variables resultaron
presente en los datos y así, generan más sensibles a los cambios ambientales.
conclusiones más completas que las
obtenidas al realizar, en forma aislada, los Palabras claves: Datos de tres modos,
análisis multivariados tradicionales a tablas Análisis Factorial Múltiple, Caracterización
de dos modos (individuos y variables). El de trigo pan.
Análisis Factorial Múltiple (AFM) permite
abordar esta problemática. En este trabajo
se aplica dicha técnica a un conjunto de SUMMARY: Multiple factor analysis for the
datos proporcionados por la Estación characterization of varieties of bread wheat
Experimental Agropecuaria del INTA de in different environments.
Marcos Juárez; que provienen de ensayos This paper aims at characterizing 21
comparativos de variedades de trigo pan varieties of bread wheat conserved at the
114 FABICIB • 2015 • 19

germplasm bank of the INTA Marcos Juárez Multiple Factorial Analysis. In conclusion,
Experimental Station. To this purpose, we this method provided useful analytic and
analyze together 8 quantitative variables graphic tools to study and characterize
in two different environmental situations varieties of bread wheat, specially when the
(Corral de Bustos and Cavanagh). The characterization was based on the study of
experimental design generated three-way agronomic variables that were affected by
or three-mode data, repeated observations environmental conditions.
of a set of attributes for a set of individuals
in different conditions. The information was Keywords: Three-way data; Multiple
displayed in a three-dimensional array. The factorial analysis; Characterization of bread
structure of the data was explored using wheat.

Introducción Estas diferentes estructuras pueden quedar


Las técnicas estadísticas multivaria- ocultas en los análisis de la información en
das posibilitan el estudio simultáneo de un su conjunto, si son analizadas como datos
grupo de variables intercorrelacionadas de dos modos. Por tal motivo, esta informa-
medidas sobre un conjunto de individuos u ción puede ser estudiada desde la óptica
objetos, permitiendo obtener representacio- de tablas múltiples; es decir, teniendo en
nes simplificadas de bases de datos volu- cuenta la existencia de diversos grupos, lo
minosas. Dichas técnicas son utilizadas que requiere realizar, por un lado, análisis
como herramientas para sintetizar la infor- parciales de cada uno de ellos y, por otro,
mación (1). un análisis global en el que la influencia
Los datos multivariados son arreglados individual de cada uno de los grupos esté
en una tabla o matriz en la que cada fila equilibrada (2). El AFM es uno de los méto-
corresponde a una unidad de observación dos utilizados para analizar tablas múltiples
y cada columna a una variable en estudio; (individuos, variables y condiciones).
es decir son "datos de dos modos o vías". En este trabajo los datos utilizados fue-
Denominándose "modo o vía" al conjunto ron proporcionados por la Estación Expe-
de índice de la tabla; siendo un modo el rimental Agropecuaria del INTA de Marcos
conjunto de variables y otro el de las obser- Juárez, sobre diferentes variedades de trigo
vaciones. pan de ciclo largo.
En muchas investigaciones las observa-
ciones de un conjunto de variables sobre Métodos
un grupo de individuos u objetos pueden • Análisis Factorial Múltiple
presentar diferentes estructuras de com- El AFM (3, 4 y 5), desarrollado por Esco-
portamiento, asociadas principalmente a fier y Pagès, en el seno de la Escuela Fran-
variables de caracterización como distintas cesa de Análisis de Datos, es un método
condiciones experimentales, momentos en factorial adaptado al tratamiento de tablas
el tiempo o puntos geográficos, entre otras. de datos (6) en las que un mismo conjunto
Vitelleschi, M.S. y col. • Análisis factorial múltiple para la caracterización... 115

de individuos se describe a través de varios Figura 2. Segunda etapa del AFM


grupos de variables. Los mismos pueden
ser diferentes, tanto en el número de varia-
bles que los componen como en la natura-
leza (cuantitativa o cualitativa) o un mismo
conjunto de variables medidas en distin-
tos periodos de tiempo o ambientes. Para
la aplicación del AFM se requiere que las
variables que integran un grupo (o tabla) El objetivo principal de este método es
sean de la misma naturaleza. analizar la estructura común de las distintas
La metodología del AFM, cuando todas tablas de datos, poniendo de manifiesto
las variables analizadas son cuantitativas, cuáles son los elementos heterogéneos, es
como en este trabajo, se basa en el Análi- decir diferentes al resto.
sis de Componentes Principales (ACP) y se El AFM proporciona, además de los
compone de dos etapas: resultados clásicos del ACP, medidas glo-
Etapa 1. Análisis parcial. Efectúa un ACP bales de relación entre los grupos, basados
normado de cada tabla de datos (k=1, …, en los coeficientes RV y Lg, que permiten
K) y retiene el primer valor propio de cada cuantificar la semejanza global existente
una de ellas (Figura 1). entre grupos de indicadores parciales (7).
El coeficiente RV (7) puede ser utilizado
Figura 1. Primera etapa del AFM como medida de similitud entre dos con-
figuraciones; se define como el producto
escalar entre pares de matrices (el producto
de Hilbert-Schmidt); este producto escalar
induce una norma y, por lo tanto, una dis-
tancia. Si la correlación vectorial entre dos
matrices es igual a la unidad, eso significa
que ambas matrices son equivalentes en el
sentido de que ambas estructuras son con-
Etapa 2. Análisis global. Realiza un ACP gruentes; cuanto más próximo a uno, más
de la tabla global que resulta de yuxtaponer similares las estructuras. Mientras que, si es
todas las tablas, a las que previamente a igual a cero significa que no existe relación
cada una se las ponderó por el inverso del entre las variables de los dos grupos con-
primer valor propio obtenido en la primera siderados. Esta medida es completada con
etapa (Figura 2). Esta ponderación per- los coeficientes Lg (3) que pueden orde-
mite mantener la estructura de cada tabla, narse en una matriz de orden KxK y miden
ya que todas las variables han recibido la la dimensionalidad (número de factores de
misma ponderación, pero consigue equili- inercia considerable) de cada grupo. Estos
brar la influencia de los grupos, ya que la coeficientes toman el valor cero cuando no
inercia máxima de cada una de las nubes existe relación entre los grupos y no tienen
de individuos definida por los distintos gru- cota superior; es decir, son más grandes
pos, vale 1 en cualquier dirección. cuanto más multidimensionales sean las
116 FABICIB • 2015 • 19

tablas analizadas y presenten mayor canti- En la segunda etapa, el primer autova-


dad de dimensiones comunes y próximas lor ( λ1 =1,8) recoge el 42% de la inercia
a las direcciones de inercia más importante total, mientras que el segundo ( λ 2 = 0,9)
de cada tabla. un 20%. El valor del primer autovalor está
próximo a la cantidad de condiciones ana-
Materiales lizadas, lo que indica que el primer eje prin-
El datos analizados en este trabajo cipal es la dirección global de mayor inercia
corresponde a un conjunto de 21 varieda- común a las dos tablas.
des de trigo pan de ciclo largo (8 y 9) pro- La correlación entre los factores parciales
porcionados por la Estación Experimental de cada una de las tablas y los correspon-
Agropecuaria del INTA de Marcos Juárez. dientes a la tabla global (Tabla 1) muestran
Los ensayos fueron realizados en campo que ninguno de los grupos tiene mayor pro-
de productores de las localidades de Corral tagonismo en el análisis global.
de Bustos y Cavanagh, durante el ciclo agrí-
cola 2011/2012. Se evaluaron las varia- Tabla 1. Coeficientes de correlación entre los
bles: Rendimiento (REND, Kg/ha), Peso factores parciales y los factores del análisis
hectolítrico (PESOh, Kg/hl), Proteína grano global.
(PROTg, %), Rendimiento harina (RENDh,
%), Gluten húmedo (GLUTh, %), Alveo- Correlación
Ambientes Eje 1 Eje 2
grama W (W, 10-4 Julios), Alveograma P/L
A1 0,942 0,946
(PL, mm. de agua) y Volumen de Panifica-
A2 0,943 0,947
ción (VOL, cm3). Cada localidad representa
un ambiente, por lo tanto los modos de la
matriz de datos resultante son: variedades, En este trabajo se considera para el aná-
características y ambientes. lisis, el plano factorial generado por las
dos primeras componentes dado que en el
Resultados mismo se pueden observar las principales
Todos los resultados se obtuvieron a características, semejanzas y diferencias de
través del software R (versión 2.12.0). Se las variedades de trigo pan.
denotó con A1 al conjunto de datos que El coeficiente RV resultó ser igual a 0,6, lo
pertenecen a Corral de Bustos y con A2 a cual sugiere que los dos ambientes presen-
Cavanagh. Análogamente, a cada etiqueta tan una estructura con más similitudes que
de las variables se le agregó el número 1 o diferencias.
2, para referenciar al ambiente. En la matriz de coeficientes Lg (Tabla
En la primera etapa se realizó un ACP 2) se puede observar que el coeficiente
normado sobre cada tabla de datos obte- Lg(A1,A2) es igual a 0,843, lo que indica que
niendo el primer autovalor de cada una las variables del ambiente 1 están relacio-
(1) (2)
de ellas, λ1 = 3,8 y λ1 = 3,7, respecti- nadas con las variables del ambiente 2.
vamente. El primer eje parcial proyecta un
porcentaje de inercia del 48% para A1 y
46% para A2.
Vitelleschi, M.S. y col. • Análisis factorial múltiple para la caracterización... 117

Tabla 2. Matriz de coeficientes Lg men de panificación del ambiente 2, gluten


húmedo del ambiente 1 y proteína en grano
A1 A2 de ambos ambientes. En lo que se refiere al
A1 1,374 0,843 segundo eje global, las variables que más
A2 0,843 1,365 contribuyen son alveograma P/L de ambos
ambientes, rendimiento de harina del grupo
En el análisis de los vectores–variables 1, gluten húmedo del ambiente 2 y volumen
(Figura 3) se puede apreciar que el primer de panificación del ambiente 1. Marcando
eje global, marca diferencias entre las varia- diferencias entre ellas, las dos primeras
bles rendimiento de ambos ambientes y contribuyen en forma negativa y las tres res-
peso hectolítrico del ambiente 1 con volu- tantes en forma positiva.

Figura 3. Proyección de las variables sobre los dos primeros ejes factoriales

Además, en la Figura 3 se puede obser- En relación al plano de los individuos, en


var que la mayoría de los vectores que la Figura 4 se muestra la trayectoria de cada
representan a la misma variable en ambos variedad de trigo pan en los dos ambientes,
ambientes presentan un ángulo pequeño, proyectadas sobre los dos primeros ejes fac-
es decir tienen un comportamiento estable toriales. Las trayectorias están representadas
en los dos ambientes. Se producen algunas por tres puntos: los de los extremos corres-
excepciones, los vectores que represen- ponden a cada posición relativa que ocupa la
tan a las variables W, GLUTh y VOL exhiben variedad en cada uno de los dos ambientes
un ángulo mayor entre los dos ambientes, (individuos parciales) y el punto medio es el
sugiriendo que las mismas presentan un centro de gravedad (individuos medios).
comportamiento menos estable. Pudiendo
concluir que serían las variables más afec-
tadas por el ambiente.
118 FABICIB • 2015 • 19

Figura 4. Proyección de los individuos medios y parciales sobre los dos primeros ejes factoriales.

A1
A2 12
1
11
1
1715 6 13
32
9
Dim 2 (20.32 %)

18 1419
0

5 16 21
7
-1

20
4
8
10
-2

-3 -2 -1 0 1 2 3

Dim 1 (41.58 %)

Se puede observar que las variedades distintos contenidos de proteína en grano,


17, 16, 1 y 12 no se ven afectadas por el peso hectolítrico del grano y rendimiento.
ambiente. En cambio, las variedades 10, 5, En la representación de los dos ambien-
7, 15, 19 y 8, entre otras, son las que pre- tes sobre los dos primeros ejes globa-
sentan mayor efecto ambiente. En 5, 10 y les (Figura 5) se pone de manifiesto que
7 las mayores diferencias se relacionan al los ejes presentados recogen una reali-
rendimiento de la harina, volumen de pani- dad común a las tablas consideradas, ya
ficación, alveograma P/L y gluten húmedo. que la contribución es la misma para todas
Mientras que, en las variedades 15, 19 y 8 se y cada una de ellas. Los dos factores glo-
diferencian de un ambiente a otro por tener bales extraídos para el análisis están igual-

Figura 5. Representación de los ambien-


tes sobre los dos primeros ejes globales
Vitelleschi, M.S. y col. • Análisis factorial múltiple para la caracterización... 119

mente afectados por los dos ambientes. Se fueron menos afectadas por el ambiente,
puede apreciar que en el primer eje global, siendo las mismas 12, 1, 17 y 16 entre
los valores de las coordenadas para los dos otras; como así también a las variedades
ambientes son próximos a 1, constituyén- 5, 10, 8,7 15 y 19, entre otras, que resulta-
dose en una dirección de inercia importante ron ser las más afectadas por el ambiente.
para cada ambiente. El segundo eje global Las mayores diferencias de las variedades
está relacionado moderadamente con los 7, 5 y 10 se relacionan al rendimiento de la
ambientes. harina y volumen de panificación; mientras
que en las 15, 8 y 19 se deben al peso hec-
Comentarios finales tolítrico del grano y gluten húmedo.
Las investigaciones en las que se dis- En síntesis, el AFM permitió caracterizar
pone de información de tres vías tienen a las variedades de trigo pan, sin que haya
objetivos más ambiciosos, ya que no se un grupo de variables más preponderante
limitan a la búsqueda de relaciones entre que otro. Se logró obtener una representa-
variables y tipologías de los individuos, sino ción superpuesta de las variedades de trigo
que se amplían al análisis comparativo de pan vistas a través de cada ambiente, per-
las realidades presentes en el seno de cada mitiendo observar qué variedades estaban
una de las tablas (6). más afectada por el mismo. Además, posi-
El tratamiento de tablas múltiples supone bilitó estudiar qué variables resultaron más
un enfoque mucho más completo que el sensibles a los cambios ambientales; en
de tablas a doble entrada. En el que cada este caso particular resultaron ser las varia-
una tiene identidad propia, esto es, tiene bles alveograma W, gluten húmedo y volu-
un papel activo en los resultados globa- men de panificación.
les; proporcionando, además, indicadores
apropiados para medir las semejanzas y las Agradecimientos
diferencias entre las estructuras internas de Las autoras agradecen a la Estadística
cada uno de los grupos considerados (5). Beatriz Masiero y a la Ingeniera Leticia Mir
El AFM se ha convertido en una metodo- por brindar la base de datos utilizada en
logía con una gran versatilidad para el trata- este trabajo.
miento de información de tres dimensiones.
Los resultados obtenidos a través del Parte de este trabajo fue presentado a la XIX
AFM, poseen información mucho más rica Reunión Científica del Grupo Argentino de Bio-
en relación a la interpretación del efecto metría (2014).
ambiente y sus interacciones, que las que
se hubieran obtenido al analizar las tablas Referencias bibliográficas
de datos a dos modos con las técnicas 1. Cuadras, C., 2012. "Nuevos Métodos de Análi-
multivariadas tradicionales. Se logró identi- sis Multivariente". CMC Editions, Barcelona.
2. Kroonenberg, P. M., 2008. “Applied Multiway
ficar a las variables que resultaron más sen-
Data Analysis”. John Wiley & Sons, Inc. Hoboken.
sibles a los cambios ambientales, siendo
New Jersey.
las mismas: volumen de panificación, glu-
3. Escofier, B.; Pagès, J., 1992. “Análisis Factoria-
ten húmedo y alveograma W. Además, se les Simples y Múltiples”. Ed. Universidad del País
consiguió identificar a las variedades que Vasco.
120 FABICIB • 2015 • 19

4. Escofier, B.; Pagès, J., 1994. Multiple Factor 7. Abdi, H., 2007. RV Coefficient and Congruence
Analysis (AFMULT package). Computational Sta- Coefficient. Encycl. of Measuremente and Statis-
tistics and Data Analysis 18: 121-140. tics. Thousand Oaks (CA): Sage. 849-853.
5. Pagès, J., 2004. Multiple Factor Analysis: Main 8. Abbate, P.; Gutheim, O.; Milisich, H.; Cuniberti,
Features and Application to Sensory Data. Rev. M., 2010. "Fundamentos para la clasificación del
Colombiana de Estadística 27: 1-26. trigo argentino por calidad: efectos del cultivar, la
6. Fernández Aguirre, K; Landaluce Calvo, M.; localidad, el año y sus interacciones". Agriscien-
Modroño Herrán, J. 2013. Nuevo procedimiento tia 17: 1-9.
metodológico para el análisis exploratorio de una 9. Cuniberti, M.; Mir, L.; Masiero, B.; Fraschina, J.,
tabla estructurada en diversos conjuntos de indi- 2012. Influencia varietal en parámetros de calidad
viduos. Estadística Española, 55, 182: 305-322. y rendimiento en trigo. Interacción GxA. Informe
de Actualización Técnica 23: 43-54.

También podría gustarte