Documentos de Académico
Documentos de Profesional
Documentos de Cultura
GEOESTADISTICA
GEOESTADISTICA
El análisis factorial es una técnica de reducción de datos que sirve para encontrar
grupos homogéneos de variables a partir de un conjunto numeroso de variables. Esos
grupos homogéneos se forman con las variables que correlacionan mucho entre sí y
procurando, inicialmente, que unos grupos sean independientes de otros.
Cuando recogemos un gran número de variables de forma simultánea, como por
ejemplo en un cuestionario de satisfacción laboral, podemos estar interesados en
averiguar si las preguntas del cuestionario se agrupan de alguna forma característica.
Aplicando un análisis factorial a las respuestas de los sujetos podemos encontrar
grupos de variables con significado común y conseguir de esta manera reducir el
número de dimensiones necesarias para explicar las respuestas de los sujetos. El
análisis factorial es, por tanto, una técnica de reducción de la dimensionalidad de los
datos. Su propósito último consiste en buscar el número mínimo de dimensiones
capaces de explicar el máximo de información contenida en los datos.
A diferencia de lo que ocurre en otras técnicas como el análisis de varianza o el de
regresión, en el análisis factorial todas las variables del análisis cumplen el mismo
papel: todas ellas son independientes en el sentido de que no existe a priori una
dependencia conceptual de unas variables sobre otras.
ANALISIS FACTORIAL
El análisis factorial consta de cuatro fases características: el cálculo de una matriz capaz de
expresar la variabilidad conjunta de todas las variables, la extracción del número óptimo de
factores, la rotación de la solución para facilitar su interpretación y la estimación de las
puntuaciones de los sujetos en las nuevas dimensiones. Para ejecutar correctamente un
análisis factorial será necesario tomar algunas decisiones en cada una de estas fases. La
estructura del procedimiento Análisis factorial del SPSS se ajusta a las cuatro fases
mencionadas. Este capítulo explica cuáles son las especificaciones mínimas para obtener una
solución inicial y cuáles son las opciones disponibles para personalizar la ejecución del
procedimiento.
Seleccionar la opción Reducción de datos > Análisis factorial... del menú Analizar
para acceder al cuadro de diálogo Análisis factorial que se muestra en la figura
La lista de variables del archivo de datos contiene un listado de todas las variables
del archivo, incluidas las variables de cadena (aunque éstas sólo pueden utilizarse
como variables de selección). Para llevar a cabo un análisis factorial:
Variable de selección. Este cuadro permite seleccionar una de las variables del
archivo de datos como variable de filtro: para definir una sub-muestra de sujetos que
cumplan una determinada condición. Esta opción es especialmente útil cuando se ha
reservado un porcentaje de los sujetos de la muestra para llevar a cabo una
validación cruzada del modelo final. Para utilizar una variable de selección:
. DISEÑOS FACTORIALES
Muchos experimentos se llevan a cabo para estudiar los efectos producidos por dos o más
factores. Puede mostrarse que en general los diseños factoriales son los más eficientes para este
tipo de experimentos. Por diseño factorial se entiende aquel en el que se investigan todas las
posibles combinaciones de los niveles de los factores en cada ensayo completo o réplica del
experimento. Por ejemplo, si existen “a” niveles del factor A y “b” niveles del factor B, entonces
cada réplica del experimento contiene todas las “ab” combinaciones de los tratamientos. A
menudo, se dice que los factores están cruzados cuando éstos se arreglan en un diseño factorial.
El efecto de un factor se define como el cambio en la respuesta producida por un cambio en el
nivel del factor. Con frecuencia, éste se conoce como efecto principal porque se refiere a los
factores de interés primordial del experimento. Por ejemplo, consideremos los datos de la tabla
1. El efecto principal del factor A podría interpretarse como la diferencia entre la respuesta
promedio en el primer y segundo nivel de ese factor. Numéricamente:
Factor B
B1 B2
A1 20 30
Factor A
A2 40 52
40 52 20 30
A 21
2 2
30 52 20 40
B 11
2 2
Si los factores tienen más de dos niveles, el procedimiento anterior debe ser modificado ya que
las diferencias entre las respuestas promedio pueden expresarse de muchas formas.
A1 20 40
Factor A
A2 50 12
A = 50 - 20 = 30
A = 12 - 40 = 28
Puede observarse que existe una interacción entre los factores A y B porque el efecto de A
depende del nivel elegido de B.
Estas ideas pueden ilustrarse gráficamente. En la Fig. 1 se muestra una gráfica de la respuesta
de los datos de la Tabla 1 contra los niveles del factor A para ambos niveles del factor B. Se
observa que las rectas B1 y B2 son, aproximadamente, paralelas. Esto indica que no hay
interacción entre los factores. De manera similar, en la Fig. 2 se presenta una gráfica de la
respuesta de los datos de la Tabla 2.
60
B2
50
B1
Respuesta
40
30 B2
20
B1
10
A1 A2
Factor A
60 B1
50
B2
Respuesta
40
30
20
B1
10 B2
A1 A2
Factor A
Hay que notar que cuando una interacción es grande los correspondientes efectos principales
tienen poco significado práctico. Una estimación del efecto principal de A de los datos de la
Tabla 2 es:
50 12 20 40
A 1
2 2
El cual resulta ser muy pequeño corriéndose el riesgo de concluir que no existe un efecto
debido a A. Sin embargo, cuando se examinó el efecto de A en niveles diferentes de B
se concluyó que éste no era el caso. El factor A tiene un efecto, pero depende del nivel
del factor B. En otras palabras, es más útil conocer la interacción AB que el efecto
principal. Una interacción significativa oculta a menudo el significado de los efectos
principales.
Ventajas de los diseños factoriales
Las ventajas de los diseños factoriales pueden ilustrarse fácilmente. Supongamos que se tienen
dos factores, A y B, cada uno con dos niveles. Estos niveles se representan mediante A1, A2, B1
y B1. La información acerca de ambos factores puede obtenerse variando un factor a la vez como
aparece en la tabla 3. El efecto de variar el factor A está dada por A2B1 -A1B2. A causa de que
existe error experimental, es conveniente realizar, por ejemplo, dos observaciones de cada
combinación de tratamientos y hacer una estimación de los efectos de los factores usando las
respuestas promedio. Por lo tanto, se requiere un total de seis observaciones.
Factor B
B1 B2
A1 A1B1 A1B2
Factor A
A2 A2B1 12
Tabla 3 El método de un factor a la vez
Los diseños factoriales son necesarios cuando alguna interacción puede estar
presente, para evitar hacer conclusiones engañosas.
Ejemplo 1 Considérese una investigación llevada a cabo para estudiar el efecto que tiene la
concentración de un reactivo y la presencia de un catalizador sobre el tiempo de reacción de un
proceso químico. Sea la concentración del reactivo el factor A con dos niveles de interés, 15% y
20%. El catalizador constituye el factor B; el nivel alto o superior denota el uso de dos sacos de
catalizador y el nivel bajo o inferior denota el uso de un solo saco. El experimento se realiza
(“replica o repite”) tres veces, y los datos son como sigue:
Combinación de Replica
A baja, B baja 28 25 27 80
A baja, B alta 18 19 23 60
A alta, B alta 31 30 29 90
b = 60(18+19+23) ab = 90(31+30+19)
Cantidad de catalizador B
Alto (2 sacos) +
bajo (1 saco) -
(1) = 80(28+25+27) a = 100(36+32+32)
- +
bajo (15%) alto (20%)
Concentracion de reactivo A
Así
“a” representa la combinación de tratamientos, en la que A se encuentra en el
nivel superior y B en el nivel inferior;
Por convención (1) se usa para representar a ambos factores en el nivel inferior.
El efecto promedio de un factor se define como el cambio en la respuesta producida por
un cambio en el nivel de ese factor, promediado sobre los niveles del otro factor.
Como se ilustra en la figura 3, las letras minúsculas (1), a, b y ab también se usan para
representar los totales de las n replicas de las combinaciones de tratamientos
correspondientes. Ahora bien, el efecto de A en el nivel B es {a-(1)}/n. Mientras que el
nivel superior B es {ab-b}/n. Tomando el promedio de estas dos cantidades se obtiene:
1 1
A ab b a (1) ab a b (1)
2n 2n
El efecto promedio de B se determina a partir de su efecto en el nivel inferior de A (esto es, {b-
(1)}/n, y de su efecto en el nivel superior de A (que es igual a [ab-a]/n obteniéndose:
B
1
ab a b (1) 1
ab b - a (1)
2n 2n
AB
1
ab b a (1) 1
ab (1) a (b)
2n 2n
Por otro lado se puede definir AB como la diferencia promedio entre el efecto de B en
el nivel superior de A y el efecto de B en el nivel inferior de A.
Las formulas para los efectos de A, B y AB pueden deducirse por otro método. El efecto de A
puede hallarse como la diferencia en la respuesta promedio de las dos combinaciones de
tratamiento en la mitad derecha (que llamaremos Y A+, puesto que es la respuesta promedio
para las combinaciones de tratamientos a las que A que se encuentra en el nivel alto) y las dos
combinaciones de tratamientos en la mitad izquierda (o Y A). Esto es,
A YA YA
ab a b (1)
2n 2n
1
ab a b (1)
2n
B YB YB
ab b a (1)
2n 2n
1
ab b a (1)
2n
ab (1) ab
AB
2n 2n
1
ab (1) a b
2n
Con los datos que aparecen en la figura 1, las estimaciones de los efectos promedio son:
A
1
90 100 60 80 8.33
2(3)
B
1
90 60 100 80 5.00
2(3)
AB
1
90 80 100 60 1.67
2(3)
El efecto de A (concentración de reactivo) es positivo; esto sugiere que al elevar A del nivel bajo
(15%) al nivel alto (25%) incrementará el rendimiento. El efecto de B (catalizador) es negativo;
esto sugiere que elevar la cantidad del catalizador agregada al proceso reducirá el rendimiento.
Al parecer, el efecto de interacciones es pequeño comparado con los dos efectos principales.
Consideremos la suma de cuadrados para A, B y AB. Obsérvese la primera ecuación que se utiliza
un contraste para estimar A; esto es,
ContrasteA ab a b (1)
Este contraste suele llamarse efecto total de A. A partir de la segunda y tercera ecuación, puede
apreciarse que también se utilizan contraste para estimar B y AB. Además, estos tres contrastes
son ortogonales. La suma de cuadrados de cualquiera de ellos puede calcularse usando la
siguiente ecuación:
SSc 1
aciyi. 2 na ci2
a .
Esta ecuación establece que la suma de cuadrados de contraste es igual al contraste elevado al
cuadrado entre el producto del número de las observaciones de cada total del contraste por la
suma de cuadrados de los coeficientes del mismo. En consecuencia, se obtiene que las sumas
de cuadrados de A, B y AB sean:
SSA
ab a b (1)
2
n*4
SSB
ab b a (1)
2
n*4
SSAB
ab (1) a b
2
n*4
Con los datos de la figura 3, las sumas de cuadrados se pueden calcular aplicando las ecuaciones
anteriores, obteniéndose:
2
50
SSA 208.33
4(3)
2
30
SSB 75.00
4(3)
2
10
SSAB 8.33
4(3)
2
2 Y ...
SST i21 2j1 n
k 1 Y ijk
4n
En general SST tiene 4n –1 grados de libertad. La suma de cuadrados del error, con 4(n-1) G.L. se
puede calcular en la forma usual, por diferencia, mediante.
2
2 2 3 2 Y
SS E Yijk 9398.00 9075.00 323.00
i1j1k 1 4(3)
SS E SS T SS A SS B SS AB
A: -1 +1 -1 +1
B: -1 -1 +1 +1
AB: +1 -1 -1 +1
Fuente de
variación SS G.L. MS Fo
Total 323.00 11
a
significativo al 1%
Combinación
Efecto Factorial
De
Tratamientos I A B AB
(1) + - - +
a + + - -
b + - + -
ab + + + +
Observe que los coeficientes de los contrastes usados para estimar la interacción son
iguales al producto de los coeficientes correspondientes a los dos efectos principales.
Los coeficientes de los contrastes siempre son +1 o –1 y se puede usar una tabla de
signos positivos y negativos como la mostrada en la de signos algebraicos para
determinar el signo apropiado de cada combinación de tratamientos. En el encabezado
de las columnas de tabla y se encuentran los efectos principales (A y B), la interacción
AB, e I, que representa el total el total o el promedio de todo el experimento. Se observa
que la columna encabezada por I se compone de solo de signos positivos. Los renglones
corresponden a las combinaciones de tratamientos.
A
1
ab b a (1) 1
ab a b (1)
2n 2n
Los tipos más sencillos de diseños factoriales implican sólo dos factores o conjuntos de
tratamientos. Haya “a” niveles del factor A y “b” niveles del factor B, dispuestos en un diseño
factorial; esto es, cada A repetición o réplica del experimento contiene todas las combinaciones
de tratamiento ab. En general, hay n repeticiones.
5. DISEÑOS DE EXPERIMENTOS FRACCIONALES DE
DOS NIVELES
Por otro lado, se necesitan 128 observaciones para un experimento con 7 factores por que se
deben evaluar 127 posibles efectos (que son los grados de libertad totales en 128 observaciones)
de estos efectos 7 son los factores principales, 21 interacciones de 2 factores, 35 de tres, 35 de
cuatro, 27 de cinco en cinco, 7 de seis en seis y una interacción de 7 factores. En general el
número de interacciones de k factores tomados r en r es:
K!
r! (k r)!
1. Las interacciones de tres o más factores son sumamente raras en la práctica, por lo que
en general se pueden suponer como no existentes.
2. En un experimento de varios factores lo más probable es que solo algunos de ellos sean
relevantes para la variable de respuesta.
3. La mayor parte del efecto se debe a los factores principales y algunas interacciones de
dos factores.
Lo anterior implica que por ejemplo para siete factores son necesarios probablemente solo 28
grados de libertad (7 factores principales y 21 interacciones de dos factores), y esto equivale a
solo 29 unidades de información y no 128 como en el experimento original. Esto quiere decir
que no es necesario el correr una replicación completa de todo el experimento cuando el
número de factores crece, sino solamente algunas casillas o condiciones experimentales.
Cuando solamente una parte de las posibles casillas se prueban, se dice que se tiene una
replicación fraccionada del experimento.
En la tabla 1 aparecen signos positivos y negativos del diseño 23. Supóngase que para componer
la fracción un medio, se seleccionan las combinaciones de tratamientos se usa indistintamente
la notación convencional (a,b,c,...) y la de signos positivos y negativos. La equivalencia de las dos
notaciones se muestra a continuación.
Notación 1 Notación 2
a + - -
b - + -
c - - +
abc + + +
Tratamientos
I A B C AB AC BC ABC
a + + - - - - + +
b + - + - - + - +
c + - - + + - - +
abc + + + + + + + +
ab + + + - + - - -
ac + + - + - + - -
bc + - + + - - + -
(1) + - - - + + + -
Nótese que el diseño 23-1 se forma al seleccionar solo las combinaciones de tratamientos que
producen un signo positivo sobre la columna ABC. Por esto ABC se denomina generador de una
fracción particular. Además, la columna identidad I siempre es positiva, por lo cual:
I = ABC
abc bc
c ac
b ab
C
B
Las combinaciones de tratamientos del diseño 23-1 producen 3 G.L. que pueden usase para
estimar los efectos principales. En la tabla 1 se muestra que las combinaciones lineales de las
observaciones que se utilizan para estimar los efectos principales A, B, y C son:
LA 1/2(a b c abc)
LB 1/2( a b c abc)
LC 1/2( a b c abc)
LBC 1/2(a b c abc)
LAC 1/2( a b c abc)
LAB 1/2( a b c abc)
Por lo tanto LA = LBC, LB = LAC y LC = LAB. En consecuencia, es imposible distinguir entre A y BC,
entre B y AC y entre C y AB. De hecho, es posible mostrar que cuando se estima A, B y C, en
realidad, lo que sé esta haciendo es estimar A + BC, CB + AC y C + AB, respectivamente. Dos o
más efectos que tienen esta propiedad se conoce como alias. En este ejemplo, A y BC, B y AC y C
y AB son alias. Esto se indica empleando la notación:
LA A BC,
LB B AC
LC C AB
La estructura de los alias de este diseño pueden determinarse fácilmente con la relación I = ABC,
multiplicando cualquier efecto por la relación que define al diseño, modulo 2, da como resultado
los alias de dicho efecto. En el ejemplo anterior, los alias son:
A = BC
Esta fracción un medio o semifracción, con I = +ABC, suele llamarse fracción principal.
Ahora supóngase que se eligió la otra mitad de la réplica. Esta se compone de las combinaciones
de tratamientos de la tabla 1 que tiene signo negativo asociado con ABC. Esta fracción un medio
o alterna que consta de las siguientes corridas:
Notación 1 Notación 2
(1) ---
ab ++-
ac +-+
abc -++
I = -ABC
Usando la fracción alterna, las combinaciones lineales de las observaciones, L’A, L’B y L’C, son:
L' A A BC
L' B B AC
L' C C AB