Está en la página 1de 9

GLOSARIO

ANÁLISIS MULTIVARIADO

Rubén José Rodríguez

2 de abril de 2008

[Son dos tipos de análisis factorial exploratorio]. En primer lugar hay


que tener clara la diferencia entre Componentes Principales y
Factores Comunes. Con el análisis de Componentes Principales
analizamos toda la varianza, común y no común [ … ] y con el
análisis de Factores Comunes sólo se analiza la varianza
Análisis de
compartida […]. En el análisis de Factores Comunes (como
Componentes
Maximum Likelihod) los factores van explicando sucesivamente la
Principales y
máxima proporción de varianza en la población, no en la muestra.
Análisis de Factores
El término Análisis Factorial designa a una familia de
Comunes
procedimientos que se diferencian por el método de extracción de
factores: Análisis de Componentes Principales y Análisis de
Factores Comunes. “Ambos enfoques dan resultados similares y se
interpretan de manera casi idéntica.” (Morales Vallejo, Pedro (2011,
pp. 5 y 10-11).

La regresión lineal múltiple es la generalización de la regresión lineal


simple para más de dos variables independiente o explicativas (X 1,
X2, ….Xn) que explican la variación de una variable dependiente (Y)
o variable explicada. En la ecuación de regresión múltiple, cada
variable independiente o explicativa está multiplicada por los
coeficientes `b` (en unidades de medida de la variable) o por los
Análisis de Regresión coeficientes β (Beta) (en unidades de desviación standard o puntajes
Lineal Múltiple standarizados o tipificados). Los coeficientes standarizados Beta
Modelo de Regresión miden el peso o contribución de cada variable independiente X en la
Lineal Múltiple explicación de la variación de la variable dependiente Y. (Etxeberria
1999). La terminología de denominación de las variables X e Y varía
según se utilice el Análisis de Regresión como modelo explicativo, se
denominarán variables explicativas y variables explicadas,
respectivamente. Si se lo utiliza como modelo predictivo se
denominan variables predictoras (X) y variable criterio (Y).
(Morales Vallejo 2011, pág. 13).
Análisis de Varianza El ANOVA es una extensión de la prueba de “z” y “t” de Student
(ANOVA) para más de dos muestras. El ANOVA es una prueba estadística que
mide si una variables independiente categórica (nominal u ordinal)
influye en la variable dependiente métrica (interval o cocientes) de
modo de identificar si la diferencia entre las medias aritméticas de la
variable dependiente se puede atribuir a esa fuente de variación
(variable independiente) o, se debe al azar.
La prueba de significación estadística utilizada es el test F de Fisher,
que es el cociente de la varianza intergrupo y la varianza intragrupo.
1
(Sierra Bravo 1991).
El Análisis Factorial de tipo exploratorio (AFE) no presupone
sostener hipótesis sobre la organización subyacente de los datos ni
sobre la identificación de variables independientes y dependientes. Es
una técnica estadística cuantitativa multivariada de tipo descriptivo o
de interdependencia que permite reducir un número grande de
variables empíricas (ítems, test, pruebas, escalas) a un número menor
de factores teóricos o hipotéticos subyacentes a las mismas. Parte del
análisis de la matriz de coeficientes de correlación ‘r’ de Pearson* y,
concluye obteniendo una matriz factorial* que contiene coeficientes
factoriales* que por la magnitud de los mismos (cargas o pesos
factoriales) permiten identificar cuáles son los ítems o pruebas que
están altamente correlacionadas (saturadas) en uno y solo un factor.
Esta saturación factorial* expresa la covariación común de los ítems
en el factores. (Cf. Cea D’Ancona 2002, Morales Vallejo 2011)
Análisis Factorial
El análisis factorial nos indica cómo tienden a agruparse los
ítems o variables. Examinando el contenido conceptual de los ítems
que pertenecen al mismo factor podemos comprender qué factores [o
constructos] subyacentes explican las correlaciones entre los ítems.
(Morales Vallejos 2011, p. 5). Todo factor es una variable
explicativa. El análisis factorial nos dice, pues, qué características se
hallan en una persona para rendir en cada uno de los test. El análisis
brinda una saturación factorial que puede ser considerada como una
correlación entre el puntaje en el test y el puntaje factorial. El
cuadrado de las saturaciones nos dice qué proporción de la varianza
del test puede ser explicada por el factor en cuestión. (Cronbach
1972, pág. 348).
El análisis factorial (AF) es una técnica de análisis multivariante que
se utiliza para el estudio e interpretación de las correlaciones entre un
grupo de variables. Parte de la idea de que dichas correlaciones no
son aleatorias sino que se deben a la existencia de factores comunes
entre ellas. El objetivo del AF es la identificación y cuantificación de
dichos factores comunes. Por ejemplo, hay fenómenos como estilo de
vida, imagen de un producto, actitudes de compra, nivel
socioeconómico, que es necesario conocer pero que no se pueden
medir con una sola pregunta, porque se trata de fenómenos complejos
que se manifiestan en infinidad de situaciones, sentimientos,
comportamientos y opiniones concretas. Estos fenómenos son el
resultado de la medición de un conjunto de características. El AF nos
permitirá combinar preguntas de manera que podamos obtener nuevas
variables o factores que no son directamente medibles pero que tienen
un significado. Se trata de una técnica adecuada para el caso de
variables continuas altamente correlacionadas. (Data Mining Institute.
Diccionario de Estadística. Disponible:
http://www.estadistico.com/dic.html?p=4024)

2
El análisis factorial (AF) es una técnica de análisis multivariante que
se utiliza para el estudio e interpretación de las correlaciones entre un
grupo de variables. Parte de la idea de que dichas correlaciones no
son aleatorias sino que se deben a la existencia de factores comunes
entre ellas. El objetivo del AF es la identificación y cuantificación de
dichos factores comunes. Por ejemplo, hay fenómenos como estilo de
vida, imagen de un producto, actitudes de compra, nivel
socioeconómico, que es necesario conocer pero que no se pueden
medir con una sola pregunta, porque se trata de fenómenos complejos
que se manifiestan en infinidad de situaciones, sentimientos,
comportamientos y opiniones concretas. Estos fenómenos son el
resultado de la medición de un conjunto de características. El AF nos
permitirá combinar preguntas de manera que podamos obtener nuevas
variables o factores que no son directamente medibles pero que tienen
un significado. Se trata de una técnica adecuada para el caso de
variables continuas altamente correlacionadas. (1)1
Procedimiento que se utiliza sobre todo para la reducción y el
resumen de datos. (Diccionario de estadística. Universidad de Costa
Rica. Disponible:
http://www.so.ucr.ac.cr/Enlaces/Estadistica/problemas/Diccionario.ht
Análisis Factorial ml
“Fundamentalmente lo que se pretende con el análisis factorial
(análisis de Componentes Principales o de Factores Comunes) es
simplificar la información que nos da una matriz de correlaciones
para hacerla más fácilmente interpretable. Se pretende encontrar una
respuesta a esta pregunta: ¿Por qué unas variables se relacionan más
entre sí y menos con otras…? La respuesta hipotética es porque
existen otras variables, otras dimensiones o factores que explican por
qué unos ítems se relacionan más con unos que con otros. Se trata en
definitiva de un análisis de la estructura subyacente a una serie de
variables”. (Morales Vallejo, 2011, pág. 3)

Chi o Ji cuadrado es un estadístico de contraste no paramétrico que


pone a prueba la hipótesis nula (H0) de independencia estadística en
una tabla de contingencia entre dos variables categoriales
(nominales u ordinales). Chi cuadrado calcula el residuo o
diferencia entre las frecuencias observadas o empíricas (fo) de celda
Chi cuadrado (X2). y las frecuencias esperadas meramente por azar (fe), obteniéndose
Prueba de un Chi cuadrado calculado o empírico. Si este es mayor que el Chi
independencia. cuadrado de tabla o teórico, bajo un determinado nivel de
significación Pα (.05) esto significa que la distribución condicional
de celdas se aleja de los esperado por azar indicando que las dos
variables no son independientes, lo que habilita rechazar la H0,
asumiendo un riesgo de Tipo I, de rechazar H0 como falsa cuando en
realidad es verdadera. (Siegel y Castellan 1998, pág. 137-151).
1
Los numerales de cada entrada remiten a las Referencias Bibliográficas.
3
El coeficiente Beta (β) standarizado informa la contribución
individual de cada variable independiente en la explicación de la
variable dependiente. Mide la importancia relativa de cada variable
dependiente en la explicación y predicción de la variable dependiente.
Representa el incremento de la VI (en unidades de Desviación
Standard) que se produce cuando aumenta una unidad de Desviación
Coeficiente Beta ( β)
Estándar el valor de la VD, mientras permanecen constantes las otras
variables X. Los coeficientes b (en unidades de medida de la variable
independiente) son coeficientes de regresión parcial no
standarizados. Que al multiplicarlos por el cociente de las respectivas
Desviaciones Standard se convierten en coeficiente Beta. (Cea
D’Ancona 2002).

En la Teoría Clásica de los Test (TCT) el coeficiente de confiabilidad


rxx es una medida de la proporción de la variancia del test que se debe
a la variancia verdadera. (Garrett 1998, pág. 383). El coeficiente de
confiabilidad Alfa (α) propuesto por Cronbach (1951) mide la
coherencia o consistencia de las respuestas de los sujetos a los ítems.
La confiabilidad se refiere a la medición y no al instrumento, porque
Coeficiente de
la confiabilidad expresa el grado de precisión de la medida, por ello
confiabilidad Alfa (α)
es importante calcular el Error Típico de Medición. (Morales Vallejo
de Cronbach
2007 pág. 4 y 9). El coeficiente Alfa es una estimación de la
proporción de varianza compartida atribuible a los factores comunes
de todos los ítems. La fórmula de Cronbach es un cociente, donde el
numerador es la suma de las covarianzas conjunta de X e Y, y en
denominador la varianza total. (Morales Vallejo 2006, pág. 301). El
coeficiente α es un indicador de la consistencia interna del test.
(Muñíz 1992, pág. 48).

Índice estadístico que mide el grado de co-variación entre dos


variables métricas, e indican el grado de variación común de las
variables, el grado de variancia conjunta o variancia compartida. El
coeficiente ‘r’ de Pearson mide la fuerza o intensidad y la dirección y
Coeficiente de sentido de la correlación. Al ser un coeficiente está standarizado por
correlación ‘r’ de lo que ‘r’ varía entre -1 y +1 (0 < r < 1 ó -1 < r < 0). Un ‘r’ de +1
Pearson indica correlación perfecta y positiva, y un ‘r’ de -1 una correlación
perfecta y negativa. La primera expresa una covariación directa
(ambas variables aumentan o disminuyen en el mismo sentido), la
segunda una covariación inversa (a medida que una variable aumenta,
la otra disminuye, o viceversa). (Garret 1966, pág. 149-158).

Es la correlación lineal simple o correlación bivariada rxy. Se


Coeficiente de
denomina de orden 0 porque la correlación bivariada XY no tiene
correlación de orden 0
ninguna variable controlada.
Coeficiente de El índice más apropiado para cuantificar la concordancia entre
Correlación Intraclase diferentes mediciones de una variable numérica es el llamado
(CCI) Coeficiente de Correlación Intraclase (CCI). Dicho coeficiente
4
estima el promedio de las correlaciones entre todas las posibles
ordenaciones de los pares de observaciones disponibles y, por lo
tanto, evita el problema de la dependencia del orden del coeficiente
de correlación. Así mismo, extiende su uso al caso en el que se
disponga de más de dos observaciones por sujeto.... Los valores del
CCI pueden oscilar entre 0 y 1, de modo que la máxima concordancia
posible corresponde a un valor de CCI = 1.  En este caso, toda la
variabilidad observada se explicaría por las diferencias entre sujetos y
no por las diferencias entre los métodos de medición o los diferentes
observadores. Por otro lado, el valor CCI = 0 se obtiene cuando la
concordancia observada es igual a la que se esperaría que ocurriera
sólo por azar.” (Prieto et al. 1998, pp. 142, 143). [Además del uso del
Coeficiente de correlación r de Pearson* para calcular el CCI, se
utiliza el Análisis de Varianza* (ANOVA) para medias repetidas, que
mide] “…la variabilidad total de las mediciones y se puede
descomponer en dos componentes: la variabilidad debida a las
diferencias entre los distintos sujetos (diferencias interobservadores)
y la debida a las diferencias entre las medidas para cada sujeto
(diferencias intrasujetos). El CCI como índice de concordancia entre
observadores o jueces puede definirse como la proporción de la
variabilidad total que se debe a la variabilidad de los sujetos.,
[variabilidad, por lo tanto, que no es atribuible a las diferencias entre
observadores o jueces]. (Pita Fernández 2004, pp. 2). El CCI se
calcula, entonces, como la proporción que supone la varianza
entre sujetos sobre la variabilidad total. (Epidat 4.0 2012, p.
16).

El coeficiente de determinación múltiple (R2) permite calcular el


porcentaje de la variabilidad de la variable dependiente que, de forma
conjunta, explican las variables independientes del modelo. La
expresión R12.3… significa que se ha calculado la correlación neta entre
Coeficiente de
las variables 1 y 2 dejando constante la variable 3, es decir, restando,
correlación parcial
parcializando sus efectos. Los coeficientes de correlación parcial van
(R12.3…) y semiparcial
a permitir parcializar el porcentaje total de la explicación de la
(R1(23)
variable independiente. El coeficiente de correlación semiparcial es el
incremento del coeficiente de determinación múltiple que se produce
al incluir una nueva variable en la ecuación de regresión. (Etxeberría
1999).
Coeficiente de R2 permite calcular el porcentaje de la variabilidad de la variable
determinación dependiente que, de forma conjunta, está explicada por la variación
múltiple R21.23… de las variables independientes incluidas en el modelo de regresión
múltiple. La raíz cuadrada del R 2 es el coeficiente de correlación
múltiple (R). Éste mide las intercorrelaciones entre las variables
independiente que en forma conjunta actúan sobre la variable
dependientes. El R2 indica qué porcentaje de la Variancia Explicada
sobre la Variancia Total de la variable Y está explicada por la

5
variación de las variables independientes en conjunto. (Etxeberría
1991).

Al incluir nuevas variables independientes en la ecuación de


Coeficiente de regresión múltiple se aumenta la variancia explicada por la regresión,
determinación por lo que se debe ajustarse el coeficiente R2 mediante una corrección
Ajustado (R2a) que tiene en cuenta en la fórmula del R2 el número de variables
independientes.

Es un coeficiente no paramétrico, válido para calcular la correlación


entre dos variables ordinales. (Sierra Bravo 1991). El coeficiente
gamma se puede calcular tanto para tablas de contingencia de 2 x 2
como de r filas x k columnas. El cálculo del coeficiente gamma se
basa en la razón de diferencia entre el número de acuerdo y el número
Coeficiente Gamma
de desacuerdos de las frecuencias de celda, dividido la suma de
(γ)
acuerdos y desacuerdos. El coeficiente gamma es igual a +1 si las
frecuencias en una tabla de contingencia están concentradas en la
diagonal desde la parte superior izquierda hasta la parte inferior
derecha, y es igual a -1 si las frecuencias se concentran en la
diagonal opuesta. (Siegel y Castellan 1998, pág. 337).

Es un coeficiente de acuerdo o concordancia entre un conjunto de


jueces. El coeficiente Kappa (K) de Cohen calcula la proporción de
veces que los jueces están de acuerdo (Acuerdo observado) y la
Coeficiente Kappa proporción de veces que los jueces podrían estar de acuerdo por azar
(K) (Acuerdo esperado). Si el número de acuerdos observados es igual a
los esperados por azar, se trata de concordancia aleatoria, y K sería
igual a 0. Si existe completo acuerdo entre los evaluadores entonces,
K sería igual a 1. (Siegel y Castellan 1998, pág. 327).

El objetivo principal del análisis factorial, […] consiste en averiguar


Coeficientes los coeficientes factoriales. […] es decir, lo que más importa es
factoriales averiguar cuáles son los factores que intervienen en la solución de
una prueba”. (Yela 1997, p. 51).
En Análisis de Componentes Principales y en Análisis de Factores
Comunes es la proporción de la Variancia de cada variable explicada
Comunalidad por los factores. (Diccionario de Estadística:
http://www.so.ucr.ac.cr/Enlaces/Estadistica/problemas/Diccionario.html)

Dimensión subyacente que explica la correlación entre un conjunto de


variables. (Diccionario de Estadística:
Factor http://www.so.ucr.ac.cr/Enlaces/Estadistica/problemas/Diccionario.ht
ml. Es una variable latente multidimensional, o también es una
variable hipotética. Los factores son constructos hipotéticos.

Matriz de Es un arreglo de columnas y filas. Es una matriz donde las variables


correlaciones
6
en la fila se cruzan con las mismas variables en la columna, de modo
que en la intersección de ambas se encuentran los coeficientes de
correlación “r” de Pearson. Es una matriz cuadrada, donde la
hemimatriz superior es igual a la hemimatriz inferior. En la diagonal
principal se ubican las correlaciones de las variables consigo misma,
es decir las autocorrelaciones son iguales a “r” = 1. El análisis de las
magnitudes de los coeficientes de correlación permite descubrir las
variables que más covarian entre sí. El análisis de la covariación
común de las variables de la matriz de correlaciones dará lugar al
Análisis Factorial. Este analiza las fuentes de variación de la varianza
común y la varianza específica. (Morales Vallejo, 2007)

Es un arreglo de columnas x filas, donde en las filas se representan


las variables (ítems, tests o pruebas) y en las columnas los factores.
En la intersección de ambas se encuentra las celdas o casillas donde
se ubican los coeficientes factoriales. Estos son coeficiente de
correlación que indican el grado en cada prueba depende y está
explicada, con un peso dominante, por cada factor (Yela, Mariano
(1997). Técnica de Análisis Factorial. Madrid: Biblioteca Nueva,
pág. 59). “Los Fij [Factores] pueden interpretarse como índices de
correlación entre el factor i y la variable j. En realidad son
Matriz factorial correlaciones cuando los factores no están correlacionados entre sí
[incorrelacionados]. Es decir, cuando los factores son ortogonales
[ejes perpendiculares]. Estos coeficientes reciben el nombre pesos,
cargas, ponderaciones o saturaciones factoriales. Las saturaciones
factoriales indican el peso que cada variable asigna a cada factor.
Cuando hay variables con saturación altas de un factor significa que
están asociadas” (Bisquerra Alzina, Rafael (1989). Introducción
conceptual al Análisis Multivariado. Un enfoque informático con los
paquetes SPS-X, BMDP, LISREL y SPAD. Vol. I. Barcelona:
Promociones y Publicaciones Universitarias, pág. 302-304)

“Correlación elevada entre una serie de variables independientes” “…


demanda la existencia de correlación entre las variables. Los análisis
son pertinentes sólo cuando existe correlación entre las variables: al
Multicolinealidad menos ≤ .30. Si de la inspección de la matriz de correlación R se
observa que ninguna o muy pocas correlaciones superar el valor 0,30,
se debería desconsiderar la aplicación de un análisis factorial.”. (Cea
D’Ancona, 2002: 429).

Los peso factoriales son coeficientes factoriales (coeficiente de


Pesos o cargas
correlación) entre una variable y un factor e indican la importancia de
factoriales (W:
esa variable en el factor. (Comrey, Andrew L (1985). Manual de
Weight)
Análisis Factorial. Madrid: Editorial Cátedra, p. 37)
Residuos tipificados El cálculo de Chi cuadrado* se basa en determinar la proporción entre
corregidos la sumatoria del cuadrado de los residuos absolutos (frecuencia
observada – frecuencia esperada), dividido por la frecuencia
7
esperada. El residuo absoluto o residuo no tipificado (RESID) es la
diferencia entre la frecuencia empírica de cada celda y la que hubiera
de esperarse por mero azar (frecuencia esperada) (fo – fe). Los
residuos tipificados (SRESID) son iguales al residuo no tipificado
dividido por la raíz cuadrada de su correspondiente frecuencia
esperada. Su limitación es que no pueden interpretarse como puntaje
Z. En cambio los residuos tipificados corregidos o ajustados
(ASRESID), se distribuyen normalmente con media 0 y desviación
típica 1. Se calculan dividiendo el residuo de cada casilla por error
típico, por lo que se interpretan como puntajes tipificados Z. Los
residuos tipificados corregidos mayores a ±1,96z son
estadísticamente significativos para un intervalo de confianza de 0,95.
Los residuos tipificados corregidos constituyen la mejor herramienta
para interpretar el significado de la asociación detectada entre las
categorías combinadas de la celda. Cuanto mayor sea el valor
absoluto del residuo tipificado corregido, mayor será la relación entre
la pareja de categorías. (Sánchez Carrión 1999, p. 341-342).

El efecto de rotar la matriz de factores es redistribuir la varianza de


los primeros factores a los últimos para lograr un patrón de factores
más simple y teóricamente más significativos. Los métodos de
rotación tienen como objetivo simplificar las filas y columnas de la
matriz de factores para facilitar la interpretación. El método de
rotación Varimax maximiza la suma de las varianzas de las cargas
requeridas de la matriz de factores, cuando se analizan diferentes
subconjuntos de variables.
Rotación factorial El método que tiene mayores ventajas es el Varimax, pues éste se
Varimax enfoca a maximizar la varianza de los factores y a minimizar el
número de variables que tienen saturaciones altas en un factor. Esto
es importante porque ofrece más facilidad para interpretar los
resultados. Aquí en cada columna de la matriz factorial rotada se
producen algunos “loandings” muy altos y los otros se aproximan a
cero. (Sierra Bravo 1991, Cea D`Ancona 2002). La rotación factorial
busca la obtención de factores que presenten alguna saturación alta
en un factor y muchas saturaciones bajas en el resto de los factores.
(García Jiménez, Gil Flores, Rodríguez Gómez 2000, págs. 59, 65 y
118).
Rotación oblicua En este caso la matriz T de rotación no tiene que ser ortogonal
(cuando una matriz multiplicada por su transpuesta es la matriz
identidad T T I ' = ) sino únicamente no singular (matriz cuadrado
cuyo determinante no es cero) De esta manera, los factores rotados
no tienen por qué ser ortogonales y tener, por tanto, correlaciones
distintas de cero entre sí. La rotación oblicua puede utilizarse cuando
es probable que los factores en la población tengan una correlación
muy fuerte. Es necesario ir con mucha atención en la interpretación
de las rotaciones oblicuas, pues la superposición de factores puede
8
confundir la significación de los mismos.

Los ejes se rotan de forma que quede preservada la incorrelación


entre los factores.  Es decir, los nuevos ejes (ejes rotados) son
perpendiculares de igual forma que lo son los factores sin rotar. La
rotación se apoya en el problema de falta de identificabilidad de los
factores obtenidos por rotaciones ortogonales. Se trata de buscar una
matriz T tal que la nueva matriz de cargas factoriales B tenga muchos
valores nulos o casi nulos, y unos pocos valores cercanos a la unidad
Rotación ortogonal de acuerdo con el principio de estructura simple. Los métodos
empleados en la rotación ortogonal de factores son: Varimax,
Quartimax, Equamax, Oblimin y Promax. El Método Varimax.‐ Es
un método de rotación que minimiza el número de variables con
cargas altas en un factor, mejorando así la interpretación de factores.
Método de rotación ortogonal que minimiza el número de variables
que tienen saturaciones altas en cada factor. Simplifica la
interpretación de los factores.

El modelo de regresión múltiple debe cumplir una serie de supuestos


o requisitos para poder ser aplicado. (1) Multicolinealidad. Debe
haber ausencia de correlación entre las variables explicativas. Este
supuesto es medido por el Coeficiente de Tolerancia que es un
indicador de la independencia de una variable con respecto a las otras
variables independientes. Se define la tolerancia como el porcentaje
de una variable independiente que no es explicada por las otras.
También se utiliza el Factor de Inflación de la Varianza (FIV) para
medir la multicolinealidad. El FIV es el inverso de la Tolerancia. (2)
Supuestos del Modelo Linealidad. Las variables independientes que se introduzcan en el
de Regresión Múltiple modelo de regresión deben ser lineales. El diagrama de dispersión
(scaterplot) permite visualizar en un diagrama de punto la dispersión
de los mismos alrededor de una recta de ajuste. También se puede
diagnosticar linealidad mediante la representación gráfica de los
residuos tipificados. (3) Homoscedasticidad, se refiere igualdad de
varianzas de la variable dependiente para cada valor de la variable
independiente. Entre las pruebas que miden homoscedasticidad está
el estadístico de Durbin-Watson. (4) Normalidad de las variables. El
histograma de los residuos tipificados con superposición de la Curva
Normal permite verificar el cumplimiento de este supuesto.

También podría gustarte