Está en la página 1de 16

Redes de Informacin y

Anlisis de Datos
ANLISIS FACTORIAL
Gua de Exposicin
Ramon Maha
Noviembre 2002

REDES DE INFORMACIN Y ANLISIS DE DATOS - CURSO 2002 - 2003

ANLISIS FACTORIAL
IDEA CONCEPTUAL BSICA
- (1) Parte de un conjunto amplio de variables que presentan
interrelaciones importantes.. (2) se asume que las relaciones
existen porque las variables son manifestaciones comunes de
factores no "observables" de forma directa...y (3) se pretende
llegar a un clculo de esos factores: (a)- resumiendo informacin
(b)- clarificando las relaciones entre ellas y (c) sin prdida
excesiva de informacin.
DEFINICIN
- (1) Proporciona la estructura interna, las dimensiones
subyacentes, el transformado de un conjunto amplio de variables,
elaborando una estructura ms simple, con menos dimensiones,
que proporcione la misma informacin y permita globalizar as el
entendimiento del fenmeno.
- (2) Simplifica la modelizacin convirtiendo, por eliminacin de
redundancias expresadas en altas correlaciones entre variables,
un amplio conjunto de variables en factores "estructurales".
DIFERENCIAS CON OTRAS TCNICAS
- No es una tcnica de dependencia (no hay seleccin a priori de
dependiente y exgenas), es una Tcnica de Interdependencia
- No es una tcnica de agrupacin: Aunque puede aplicarse con
fines de agrupacin sobre matrices de correlaciones entre
objetos/sujetos (Factorial Q), lo habitual es su aplicacin sobre
matrices de correlaciones entre variables (Factorial R).
MODELO FACTORIAL EXPLORATORIO (Un ejemplo):

REDES DE INFORMACIN Y ANLISIS DE DATOS - CURSO 2002 - 2003

ANLISIS FACTORIAL
Se desea extrapolar de la provincia al municipio, un modelo de regresin
explicativo del nivel de renta disponible funcin de una serie de
manifestaciones de esa renta. Para ello, se parte de un amplio conjunto de
variables provinciales y para los 8.000 municipios espaoles.

Recaudacin de los distintos impuestos directos e indirectos


Tasa de paro y actividad
Generacin neta de empleo
Kilmetros de carreteras de cada tipo en servicios
Kilmetros de lnea frrea en servicio
Nmero de vehculos de distintos tipos por habitante
Lneas telefnicas por cada 100 habitantes
Camas hospitalarias por cada 1000 habitantes
Empresas creadas y cerradas en el ao
ndice de precios al consumo
ndice de precios industriales
Indice de comercio al por menor
Licencias fiscales concedidas
.etc
Con el fin de poder abordar con grados de libertad suficiente la
estimacin del modelo de renta, la informacin relativa a estas variables
se intenta resumir en tres factores, sin perder excesiva informacin y logrando
una incorrelacin muy conveniente. El factorial arroj tres factores cuyos
significados se asociaron a:
Factor 1: Factor de renta y riqueza personal - familiar
Factor 2: Factor de salud y desarrollo del mercado laboral
Factor 3: Factor de desarrollo infraestructural

REDES DE INFORMACIN Y ANLISIS DE DATOS - CURSO 2002 - 2003

ANLISIS FACTORIAL
MODELO FACTORIAL CONFIRMATORIO (ejemplo):
Se desea medir la capacidad de abstraccin, analtica y memoria de los
alumnos.
Se observaron 10 notas de cada alumno de un determinado grupo de
estudiantes universitarios. Entre estas notas, o al menos entre algunas de ellas,
se observan correlaciones elevadas que, en cierta medida, provienen de
aptitudes globales del alumno que no se observan directamente:

Nota en lgebra
Nota en clculo
Nota en estadstica
Nota en derecho mercantil
Nota en derecho laboral
Nota en contabilidad financiera y de sociedades
Nota en anlisis de costes
Nota en comunicacin comercial
Nota en actuariales
Nota en econometra
Un anlisis factorial permiti que la informacin relativa a estas variables
se resumiese en tres nicos factores de fondo, sin prdida excesiva de
informacin y logrando, de nuevo, una incorrelacin muy conveniente. Cada
uno de estos tres factores se interpret como:
F2 - Factor de CAPACIDAD DE ABSTRACCIN
F3 - Factor de MEMORIA
F4 - Factor de CAPACIDAD ANLTICA
Independientemente de estos tres factores relacionados con grupos de
variables (notas) se identific, claro est, una factor comn que podramos
llamar inteligencia en general y un factor especfico para cada asignatura (su
propia dificultad y componentes de tipos aleatorio relativos a las distintas
formas de evaluacin).

MODELO FACTORIAL TERICO

REDES DE INFORMACIN Y ANLISIS DE DATOS - CURSO 2002 - 2003

ANLISIS FACTORIAL
Xij = ai1 F1j + ai2 F2j + ai3 F3j + + diUij
Xij = Valor normalizado de la variable i para el sujeto j
Nota en Matemticas (i) del alumno (j)

F1j = Valor del Factor 1 para el sujeto j


Valor del factor CAPACIDAD DE ABSTRACCIN del alumno j

ai1 =

Relacin entre variable i y factor 1


Relacin entre las Matemticas y la CAPACIDAD DE ABSTRACCIN

F2j = Valor del Factor 2 para el sujeto j


Valor del factor MEMORIA del alumno j

ai2 =

Relacin entre variable i y factor 2


Relacin entre las Matemticas y la MEMORIA

diUij = Parte aleatoria independiente de los factores:

- Di es la/s particularidad/es de la nota en Matemticas y Uij es

la forma en que esa peculiaridad afecta al alumno j. (P.ej. di


puede hacer referencia a la concentracin que se requiere en un
examen de matemticas y Uij a la capacidad de concentracin del
alumno):

REDES DE INFORMACIN Y ANLISIS DE DATOS - CURSO 2002 - 2003

ANLISIS FACTORIAL
MSA SOBRE EL MODELO TERICO I
Si los factores estn normalizados (esperanza nla y varianza
unitaria) y son independientes los unos de los otros pueden
obtenerse los siguientes resultados:

1.- aik

ser el coeficiente de correlacin simple entre la


variable i y el factor k:
1
a
X F
N
ik

ij

kj

- Cargas
factoriales:
Coeficientes
bsicos
para
determinacin contenido conceptual de los factores en
anlisis exploratorio.
- Matriz de cargas: Se denomina as a la matriz que recoge
las cargas entre todas las variables originales y la seleccin
final de factores.

REDES DE INFORMACIN Y ANLISIS DE DATOS - CURSO 2002 - 2003

ANLISIS FACTORIAL
MS SOBRE EL MODELO TERICO II

2.-

La varianza de la variable observada i puede


descomponerse en una parte explicada por los factores comunes
al resto de variables y otra explicada por el factor especfico:
m

Var ( X i ) aik2 d i2
k 1

- Comunalidad: Uno de los trminos ms clsicos del


anlisis factorial expresa la parte de cada variable (su
variabilidad) que puede ser explicada por los factores
comunes a todas ellas.
- Especificidad: Es el trmino opuesto a comunalidad ya que
expresa la parte especfica de cada variable que escapa a los
factores comunes.

3.- El coeficiente de correlacin entre dos variables depender


exclusivamente de la forma en que ambas variables compartan
factores comunes:
m

Cov( X i X s ) aik ask


k 1

REDES DE INFORMACIN Y ANLISIS DE DATOS - CURSO 2002 - 2003

ANLISIS FACTORIAL
PASOS A COMPLETAR (I)
1.- SELECCIN DE VARIABLES
Dimensin conceptual: Variables en relacin con el
fenmeno de anlisis. An en el caso de un anlisis
exploratorio, tener claro el modelo factorial terico ayuda a la
seleccin conceptual de las mismas. "Basura dentro - Basura
Fuera"
Dimensin tcnica:
(1)

Deben ser mtricas, aunque se admite la presencia


(no generalizada) de ficticias (0,1).

(2)

Un nmero elevado no garantiza un mejor anlisis,


es ms, debe optarse por la minimizacin del
nmero inicial.

(3)

Las correlaciones son la base del planteamiento.


3.A) Deben existir altas correlaciones en
general para encontrar factores comunes.
3.B) Todas deben presentar, al menos, alguna
relacin fuerte: variables aisladas del resto
constituirn factores aislados.

REDES DE INFORMACIN Y ANLISIS DE DATOS - CURSO 2002 - 2003

ANLISIS FACTORIAL
PASOS A COMPLETAR (II)
2.- SELECCIN DE LA MUESTRA
Amplitud: Cuanto mayor ratio observaciones/variables,
mejor. (receta: N observaciones 5 veces mayor que el de
variables). Una ratio reducida aumenta las posibilidades de
encontrar correlaciones espurias, propias de la muestra, no de
la poblacin general.
Heterogeneidad: Evidente pero a veces se olvida: una
muestra de objetos/sujetos homognea no contiene
informacin.
3.- EXTRACCIN DE FACTORES:
Nos referimos al clculo analtico de los factores a partir
de las variables originales.
La extraccin implicar:
(1)

Decidir el mtodo analtico - matemtico de


clculo de los mismos.
1.A) Factorial por componentes principales: El
anlisis explora toda la varianza de cada variable: la
comn al resto, la especfica y la debida a errores
de observacin.
- Recomendable para reduccin de datos
- Recomendable en conjuntos con varianza comn
elevada
PASOS A COMPLETAR (II)

REDES DE INFORMACIN Y ANLISIS DE DATOS - CURSO 2002 - 2003

ANLISIS FACTORIAL
(2)

(Continuacin) Decidir el mtodo analtico matemtico de clculo de los mismos.


1.B) Factorial Comn: El anlisis explora slo la
parte comn al resto, de la varianza de cada
variable.
- Recomendable en anlisis confirmatorio de
dimensiones latentes (objetivo de reduccin en
2 plano)
- Recomendable cuando
las puntuaciones
factoriales no son importantes (no van a usarse);
el mtodo adolece de indeterminacin de
factores.

(3)

Seleccionar el nmero de factores que son


necesarios para captar una cantidad razonable
de informacin de los datos originales.
2.a) Valor de los Autovalores o Races Latentes
2.b) Seleccin a proiri (modelo terico conocido)
2.c) Utilidad prctica (conceptual) de los factores
2.d) % global varianza original explicada
2.e) Contraste de cada en la comunalidad
acumulada

REDES DE INFORMACIN Y ANLISIS DE DATOS - CURSO 2002 - 2003

ANLISIS FACTORIAL
PASOS A COMPLETAR (III)
3.- INTERPRETACIN Y ROTACIN:
La matriz de cargas, factorial o de componentes
relacionarn factores y variables para aproximarnos a su
significado. (Matriz de estructura: Matriz que contiene los
coeficientes de correlacin entre factores y variables
originales. Para factores ortogonales coincide con la de
cargas).
- A la hora de valorar si una carga expresa relacin o no
(es suficientemente elevada), deberemos ser tanto ms
exigentes cuanto:
- Menor sea el tamao muestral
- Menos variables se incluyan en el factorial
- El factor analizado sea de los ltimos extrados
Si esta misin es difcil,
ambigedades, ayudando a hacerlo:

la

rotacin

elimina

- Rotaciones
ortogonales
(Varimax,
Equamax,
Cuartimax): Es conceptualmente menos realista, pero
maximiza la varianza "explicada" y, en ocasiones, la
ortogonalidad resulta til.
- Rotaciones oblicuas (Oblimin): Es ms realista (es
difcil suponer ortogonalidad conceptualmente), suele
ofrecer resultados ms claros y adems aporta
informacin sobre la relacin entre factores.
DETALLE TCNICO I:

REDES DE INFORMACIN Y ANLISIS DE DATOS - CURSO 2002 - 2003

ANLISIS FACTORIAL
ALGO MS SOBRE EL ANLISIS DE CORRELACIONES
Triple condicin de anlisis:

A.- En general, la mayor parte de las variables deben estar


relacionadas de forma importante
B.- Todas las variables deben estar relacionadas con, al
menos, otra del conjunto
C.- Las correlaciones parciales no indican presencia de
factores subyacenetes comunes.
Matriz Anti - Imagen: Matriz de correlaciones parciales.
Test de esfericidad de Bartlett: Test paramtrico basado
en el determinante transformado de la matriz de
correlaciones: permite contrastar la doble hiptesis de que
los elementos de la diagonal principal de la matriz son la
unidad y el resto cero.
Test Kaiser Mayer Olkin: Ratio sencilla entre
correlaciones simples entre parciales + simples debe ser
cercano a 1. La misma medida puede elaborarse para una
sola variable atendiendo slo a sus relaciones con el resto
de variables (Test MASi).

REDES DE INFORMACIN Y ANLISIS DE DATOS - CURSO 2002 - 2003

ANLISIS FACTORIAL
DETALLE TCNICO II:
ALGO MS SOBRE LA EXTRACCIN POR
COMPONENTES PRINCIPALES (MARCO GENERAL)
"P" variables iniciales:
X = [X1, X2 ........Xp
Construiremos p componentes principales guiados por: (1) funcin
lineal de las variables originales, (2) que absorban el mximo de
variacin de las variables X y (3) que estn incorrelacionados.
Yij = i 1 X 1 j i 2 X 2 j ......... ip X pj ;
2, ....., n
Yi = X i

X 11 X 21 ....... X p1

Y i1

Y i 2
Yi .

.
Y
in

i1

X 12 X 22 ....... X p 2

X .............................

..............................

.......
X 1n X 2n X pn

La variacin de la variable Yi, ser:

i 2
i .
.


ip

j = 1,

REDES DE INFORMACIN Y ANLISIS DE DATOS - CURSO 2002 - 2003

ANLISIS FACTORIAL

Yi Yi iS i

donde S = XX

REDES DE INFORMACIN Y ANLISIS DE DATOS - CURSO 2002 - 2003

ANLISIS FACTORIAL
DETALLE TCNICO III:
DETALLE OBTENCIN 1ER Y 2 COMPONENTES
PRINCIPALES
El primer componente es:

Y1 X1

..... y debemos procurar que se maximice:

Y1Y1 1S 1

Para abordar el proceso debemos exigir: ' 1 1 1


..... por tanto al final: Max Z ' 1 S 1 1 ( ' 1 1 1 ) ........ o sea:
Z
2 S 1 2 1 1 0
1
S 1 1 1 0
( S 1 I ) 1 0

Huyendo de la solucin trivial tenemos: S 1 I 0 ........


...... a partir de aqu, hallamos
nos da 1

que sustituida en

( S I ) 1 0
1

REDES DE INFORMACIN Y ANLISIS DE DATOS - CURSO 2002 - 2003

ANLISIS FACTORIAL
DETALLE TCNICO III:
DETALLE OBTENCIN 1ER Y 2 COMPONENTES
PRINCIPALES (Continuacin)
El segundo componente es: Y 2 X 2
..... y de nuevo debemos procurar maximizar: Y ' 2 Y 2 ' 2 S 2
.... sujeto de nuevo a la ' 2 2 1 a la que ahora aadimos la
ausencia de correlacin con el primer componente: Y2Y1=0....o lo
que es igual ' 2 S 1 0 que puede escribirse tambin como

' 2 1 0
Por tanto, la funcin a maximizar queda:
Max Z ' S ( '
2

1) ( '
1

)
1

tras hallar la primera derivada y realizar una serie de


reducciones, tenemos que:

S 2 2 2 0 o sea ..... ( S 2 I ) 2 0
que se resuelve como para el 1er componente.

También podría gustarte