Está en la página 1de 16

Redes de Informacin y Anlisis de Datos

ANLISIS FACTORIAL Gua de Exposicin


Ramon Maha Noviembre 2002

REDES DE INFORMACIN Y ANLISIS DE DATOS - CURSO 2002 - 2003

ANLISIS FACTORIAL
IDEA CONCEPTUAL BSICA - (1) Parte de un conjunto amplio de variables que presentan interrelaciones importantes.. (2) se asume que las relaciones existen porque las variables son manifestaciones comunes de factores no "observables" de forma directa...y (3) se pretende llegar a un clculo de esos factores: (a)- resumiendo informacin (b)- clarificando las relaciones entre ellas y (c) sin prdida excesiva de informacin. DEFINICIN - (1) Proporciona la estructura interna, las dimensiones subyacentes, el transformado de un conjunto amplio de variables, elaborando una estructura ms simple, con menos dimensiones, que proporcione la misma informacin y permita globalizar as el entendimiento del fenmeno. - (2) Simplifica la modelizacin convirtiendo, por eliminacin de redundancias expresadas en altas correlaciones entre variables, un amplio conjunto de variables en factores "estructurales". DIFERENCIAS CON OTRAS TCNICAS - No es una tcnica de dependencia (no hay seleccin a priori de dependiente y exgenas), es una Tcnica de Interdependencia - No es una tcnica de agrupacin: Aunque puede aplicarse con fines de agrupacin sobre matrices de correlaciones entre objetos/sujetos (Factorial Q), lo habitual es su aplicacin sobre matrices de correlaciones entre variables (Factorial R). MODELO FACTORIAL EXPLORATORIO (Un ejemplo):

REDES DE INFORMACIN Y ANLISIS DE DATOS - CURSO 2002 - 2003

ANLISIS FACTORIAL
Se desea extrapolar de la provincia al municipio, un modelo de regresin explicativo del nivel de renta disponible funcin de una serie de manifestaciones de esa renta. Para ello, se parte de un amplio conjunto de variables provinciales y para los 8.000 municipios espaoles.

Recaudacin de los distintos impuestos directos e indirectos Tasa de paro y actividad Generacin neta de empleo Kilmetros de carreteras de cada tipo en servicios Kilmetros de lnea frrea en servicio Nmero de vehculos de distintos tipos por habitante Lneas telefnicas por cada 100 habitantes Camas hospitalarias por cada 1000 habitantes Empresas creadas y cerradas en el ao ndice de precios al consumo ndice de precios industriales Indice de comercio al por menor Licencias fiscales concedidas .etc Con el fin de poder abordar con grados de libertad suficiente la estimacin del modelo de renta, la informacin relativa a estas variables
se intenta resumir en tres factores, sin perder excesiva informacin y logrando una incorrelacin muy conveniente. El factorial arroj tres factores cuyos significados se asociaron a: Factor 1: Factor de renta y riqueza personal - familiar Factor 2: Factor de salud y desarrollo del mercado laboral Factor 3: Factor de desarrollo infraestructural

REDES DE INFORMACIN Y ANLISIS DE DATOS - CURSO 2002 - 2003

ANLISIS FACTORIAL
MODELO FACTORIAL CONFIRMATORIO (ejemplo):
Se desea medir la capacidad de abstraccin, analtica y memoria de los alumnos. Se observaron 10 notas de cada alumno de un determinado grupo de estudiantes universitarios. Entre estas notas, o al menos entre algunas de ellas, se observan correlaciones elevadas que, en cierta medida, provienen de aptitudes globales del alumno que no se observan directamente:

Nota en lgebra Nota en clculo Nota en estadstica Nota en derecho mercantil Nota en derecho laboral Nota en contabilidad financiera y de sociedades Nota en anlisis de costes Nota en comunicacin comercial Nota en actuariales Nota en econometra
Un anlisis factorial permiti que la informacin relativa a estas variables se resumiese en tres nicos factores de fondo, sin prdida excesiva de informacin y logrando, de nuevo, una incorrelacin muy conveniente. Cada uno de estos tres factores se interpret como: F2 - Factor de CAPACIDAD DE ABSTRACCIN F3 - Factor de MEMORIA F4 - Factor de CAPACIDAD ANLTICA Independientemente de estos tres factores relacionados con grupos de variables (notas) se identific, claro est, una factor comn que podramos llamar inteligencia en general y un factor especfico para cada asignatura (su propia dificultad y componentes de tipos aleatorio relativos a las distintas formas de evaluacin).

MODELO FACTORIAL TERICO

REDES DE INFORMACIN Y ANLISIS DE DATOS - CURSO 2002 - 2003

ANLISIS FACTORIAL Xij = ai1 F1j + ai2 F2j + ai3 F3j + + diUij
Xij = Valor normalizado de la variable i para el sujeto j
Nota en Matemticas (i) del alumno (j)

F1j = Valor del Factor 1 para el sujeto j

Valor del factor CAPACIDAD DE ABSTRACCIN del alumno j

ai1 =

Relacin entre variable i y factor 1


Relacin entre las Matemticas y la CAPACIDAD DE ABSTRACCIN

F2j = Valor del Factor 2 para el sujeto j


Valor del factor MEMORIA del alumno j

ai2 =

Relacin entre variable i y factor 2


Relacin entre las Matemticas y la MEMORIA

diUij = Parte aleatoria independiente de los factores: - Di es la/s particularidad/es de la nota en Matemticas y Uij es la forma en que esa peculiaridad afecta al alumno j. (P.ej. di puede hacer referencia a la concentracin que se requiere en un examen de matemticas y Uij a la capacidad de concentracin del alumno):

REDES DE INFORMACIN Y ANLISIS DE DATOS - CURSO 2002 - 2003

ANLISIS FACTORIAL
MSA SOBRE EL MODELO TERICO I Si los factores estn normalizados (esperanza nla y varianza unitaria) y son independientes los unos de los otros pueden obtenerse los siguientes resultados:

1.- aik

ser el coeficiente de correlacin simple entre la variable i y el factor k: 1 a = X F N


ik ij kj j

- Cargas factoriales: Coeficientes bsicos para determinacin contenido conceptual de los factores en anlisis exploratorio.
-

Matriz de cargas: Se denomina as a la matriz que recoge las cargas entre todas las variables originales y la seleccin final de factores.

REDES DE INFORMACIN Y ANLISIS DE DATOS - CURSO 2002 - 2003

ANLISIS FACTORIAL
MS SOBRE EL MODELO TERICO II

2.-

La varianza de la variable observada i puede descomponerse en una parte explicada por los factores comunes al resto de variables y otra explicada por el factor especfico:
2 Var ( X i ) = aik + d i2 k =1 m

Comunalidad: Uno de los trminos ms clsicos del anlisis factorial expresa la parte de cada variable (su variabilidad) que puede ser explicada por los factores comunes a todas ellas. Especificidad: Es el trmino opuesto a comunalidad ya que expresa la parte especfica de cada variable que escapa a los factores comunes.

3.- El coeficiente de correlacin entre dos variables depender


exclusivamente de la forma en que ambas variables compartan factores comunes:
Cov ( X i X s ) = aik ask
k =1 m

REDES DE INFORMACIN Y ANLISIS DE DATOS - CURSO 2002 - 2003

ANLISIS FACTORIAL
PASOS A COMPLETAR (I) 1.- SELECCIN DE VARIABLES Dimensin conceptual: Variables en relacin con el fenmeno de anlisis. An en el caso de un anlisis exploratorio, tener claro el modelo factorial terico ayuda a la seleccin conceptual de las mismas. "Basura dentro - Basura Fuera" Dimensin tcnica: (1) (2) Deben ser mtricas, aunque se admite la presencia (no generalizada) de ficticias (0,1). Un nmero elevado no garantiza un mejor anlisis, es ms, debe optarse por la minimizacin del nmero inicial. Las correlaciones son la base del planteamiento. 3.A) Deben existir altas correlaciones en general para encontrar factores comunes. 3.B) Todas deben presentar, al menos, alguna relacin fuerte: variables aisladas del resto constituirn factores aislados.

(3)

REDES DE INFORMACIN Y ANLISIS DE DATOS - CURSO 2002 - 2003

ANLISIS FACTORIAL
PASOS A COMPLETAR (II) 2.- SELECCIN DE LA MUESTRA Amplitud: Cuanto mayor ratio observaciones/variables, mejor. (receta: N observaciones 5 veces mayor que el de variables ). Una ratio reducida aumenta las posibilidades de encontrar correlaciones espurias, propias de la muestra, no de la poblacin general. Heterogeneidad: Evidente pero a veces se olvida: una muestra de objetos/sujetos homognea no contiene informacin. 3.- EXTRACCIN DE FACTORES: Nos referimos al clculo analtico de los factores a partir de las variables originales. La extraccin implicar: (1) Decidir el mtodo analtico - matemtico de clculo de los mismos. 1.A) Factorial por componentes principales : El anlisis explora toda la varianza de cada variable: la comn al resto, la especfica y la debida a errores de observacin. - Recomendable para reduccin de datos - Recomendable en conjuntos con varianza comn elevada PASOS A COMPLETAR (II)

REDES DE INFORMACIN Y ANLISIS DE DATOS - CURSO 2002 - 2003

ANLISIS FACTORIAL
(2) (Continuacin) Decidir el mtodo analtico matemtico de clculo de los mismos. 1.B) Factorial Comn: El anlisis explora slo la parte comn al resto, de la varianza de cada variable. - Recomendable en anlisis confirmatorio de dimensiones latentes (objetivo de reduccin en 2 plano) - Recomendable cuando las puntuaciones factoriales no son importantes (no van a usarse); el mtodo adolece de indeterminacin de factores. (3) Seleccionar el nmero de factores que son necesarios para captar una cantidad razonable de informacin de los datos originales. 2.a) Valor de los Autovalores o Races Latentes 2.b) Seleccin a proiri (modelo terico conocido) 2.c) Utilidad prctica (conceptual) de los factores 2.d) % global varianza original explicada 2.e) Contraste de cada en la comunalidad acumulada

REDES DE INFORMACIN Y ANLISIS DE DATOS - CURSO 2002 - 2003

ANLISIS FACTORIAL
PASOS A COMPLETAR (III) 3.- INTERPRETACIN Y ROTACIN: La matriz de cargas, factorial o de componentes relacionarn factores y variables para aproximarnos a su significado. (Matriz de estructura: Matriz que contiene los coeficientes de correlacin entre factores y variables originales. Para factores ortogonales coincide con la de cargas). - A la hora de valorar si una carga expresa relacin o no (es suficientemente elevada), deberemos ser tanto ms exigentes cuanto: - Menor sea el tamao muestral - Menos variables se incluyan en el factorial - El factor analizado sea de los ltimos extrados Si esta misin es difcil, ambigedades, ayudando a hacerlo: la rotacin elimina

- Rotaciones ortogonales (Varimax, Equamax, Cuartimax): Es conceptualmente menos realista, pero maximiza la varianza "explicada" y, en ocasiones, la ortogonalidad resulta til. - Rotaciones oblicuas (Oblimin): Es ms realista (es difcil suponer ortogonalidad conceptualmente), suele ofrecer resultados ms claros y adems aporta informacin sobre la relacin entre factores. DETALLE TCNICO I:

REDES DE INFORMACIN Y ANLISIS DE DATOS - CURSO 2002 - 2003

ANLISIS FACTORIAL
ALGO MS SOBRE EL ANLISIS DE CORRELACIONES Triple condicin de anlisis:

A.- En general, la mayor parte de las variables deben estar


relacionadas de forma importante B.- Todas las variables deben estar relacionadas con, al menos, otra del conjunto C.- Las correlaciones parciales no indican presencia de factores subyacenetes comunes. Matriz Anti - Imagen: Matriz de correlaciones parciales. Test de esfericidad de Bartlett: Test paramtrico basado en el determinante transformado de la matriz de correlaciones: permite contrastar la doble hiptesis de que los elementos de la diagonal principal de la matriz son la unidad y el resto cero. Test Kaiser Mayer Olkin: Ratio sencilla entre correlaciones simples entre parciales + simples debe ser cercano a 1. La misma medida puede elaborarse para una sola variable atendiendo slo a sus relaciones con el resto de variables (Test MASi).

REDES DE INFORMACIN Y ANLISIS DE DATOS - CURSO 2002 - 2003

ANLISIS FACTORIAL
DETALLE TCNICO II: ALGO MS SOBRE LA EXTRACCIN POR COMPONENTES PRINCIPALES (MARCO GENERAL) "P" variables iniciales: X = [X1, X2 ........Xp ] Construiremos p componentes principales guiados por: (1) funcin lineal de las variables originales, (2) que absorban el mximo de variacin de las variables X y (3) que estn incorrelacionados.
X 1j + X 2 j + ......... + X pj ; Yij = i1 i2 ip 2, ....., n

j = 1,

Yi = X i

Y i1 Y i 2 Yi = . ; . Y in

X 11 X 21 ....... X p1 X 12 X 22 ....... X p 2 X = ............................. .............................. ....... X 1n X 2n X pn


donde S = XX

i1 i 2 i = . . ip

La variacin de la variable Yi, ser:


S Yi Yi = i i

REDES DE INFORMACIN Y ANLISIS DE DATOS - CURSO 2002 - 2003

ANLISIS FACTORIAL

REDES DE INFORMACIN Y ANLISIS DE DATOS - CURSO 2002 - 2003

ANLISIS FACTORIAL
DETALLE TCNICO III: DETALLE OBTENCIN 1ER Y 2 COMPONENTES PRINCIPALES El primer componente es:
Y1 = X 1

..... y debemos procurar que se maximice:

S Y1 Y1 = 1 1

' =1 Para abordar el proceso debemos exigir: 1 1 ' S ' 1 ) ........ o sea: 1( ..... por tanto al final: Max Z = 1 1 1 1
Z 2 =0 1 = 2S 1 1 1

=0 1 S 1 1 =0 1I ) (S 1

1 I = 0 ........ Huyendo de la solucin trivial tenemos: S


...... a partir de aqu, hallamos nos da 1

que sustituida en

(S I ) 1 = 0
1

REDES DE INFORMACIN Y ANLISIS DE DATOS - CURSO 2002 - 2003

ANLISIS FACTORIAL
DETALLE TCNICO III: DETALLE OBTENCIN 1ER Y 2 COMPONENTES PRINCIPALES (Continuacin)

El segundo componente es: Y 2 = X 2 ' S ..... y de nuevo debemos procurar maximizar: Y ' 2 Y 2 = 2 2 ' = 1 a la que ahora aadimos la .... sujeto de nuevo a la 2 2 ausencia de correlacin con el primer componente: Y2Y1=0....o lo ' S = 0 que puede escribirse tambin como que es igual 2 1 ' =0 2 1
Por tanto, la funcin a maximizar queda:
Max Z =

' S ' (
2 2 2 2

1)

' ) (
1 2 1

tras hallar la primera derivada y realizar una serie de reducciones, tenemos que:

= 0 o sea ..... ( S =0 2 2 I ) S 2 2 2
que se resuelve como para el 1er componente.

También podría gustarte