Está en la página 1de 18

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS

(Universidad del Perú, Decana de América)

FACULTAD DE CIENCIAS MATEMÁTICAS


Escuela Académico Profesional de Estadística

CURSO: Análisis Multivariante.

TEMA: APLICACIÓN DEL ANÁLISIS FACTORIAL EXPLORATORIO

PROFESOR: Lic. Vigo Chacón Geraldine Judith.

ALUMNOS:

 09140196, Alamo Palomino José Jesús

 15140037, Bruno Reyes, Yossellin Isabel

 14140034, Chavez Loayza, Joseph Miguel

 10140075, Farfán Farfán, Mirella Medalith

CICLO/AULA/TURNO: 2018-II /102/Noche

Ciudad Universitaria, octubre 2018.


Ejemplo 2:
La base de datos Seatbelts (Cinturón de seguridad) es una serie de tiempo, de los tota
les mensuales de conductores de automóviles en Gran Bretaña muertos o heridos de e
nero de 1969 a diciembre de 1984. Además, a partir del 31 de enero de 1983 se introd
ujo el uso obligatorio de los cinturones de seguridad.

Las variables son:

DriversKilled : Nº de Conductores muertos


Drivers : Nº de conductores
Fronts : Nº de pasajeros del asiento delantero, muertos o grávemente heridos.
Rear : Nº de pasajeros del asiento trasero, muerto o grávemente heridos.
Kms : Distancia conducida.
PetrolPrice : Precio de la gasolina.
VanKilled : Nº de conductores de furgonetas (vehiculo de mercancías ligeras).
Law : ¿estaba vigente la ley ese mes? (0. No/1. Si)
EN SPSS:
ATAPAS DEL ANÁLISIS FACTORIAL
1. MATRIZ DE CORRELACIONES:

Matriz de correlacionesa

DriversKilled drivers front rear Kms PetrolPrice VanKilled

DriversKilled 1,000 ,889 ,707 ,353 -,321 -,387 ,407

drivers ,889 1,000 ,808 ,344 -,445 -,458 ,485

front ,707 ,808 1,000 ,620 -,357 -,539 ,472

Correlación rear ,353 ,344 ,620 1,000 ,333 -,133 ,122

kms -,321 -,445 -,357 ,333 1,000 ,384 -,498

PetrolPrice -,387 -,458 -,539 -,133 ,384 1,000 -,289

VanKilled ,407 ,485 ,472 ,122 -,498 -,289 1,000

Interpretación:

 Se observa que existe una fuerte correlación lineal positiva entre el número de
conductores muertos y el número de conductores.

 Se observa que existe una fuerte correlación lineal positiva entre el número de
conductores muertos y el número de pasajeros del asiento delantero, muertos
o gravemente heridos.

 Se observa que existe una correlación lineal débil positiva entre el número de
conductores muertos y el número de conductores de furgonetas.

 Se observa que existe una fuerte correlación lineal positiva entre el número de
conductores y el número de pasajeros del asiento delantero, muertos o
gravemente heridos.

 Se observa que existe una correlación lineal débil negativa entre el número de
conductores y la distancia conducida.

 Se observa que existe una correlación lineal débil negativa entre el número de
conductores y el precio de la gasolina.

 Se observa que existe una correlación lineal moderada positiva entre el


número de pasajeros del asiento delantero, muertos o gravemente heridos y el
número de pasajeros del asiento trasero, muerto o gravemente heridos.
 Se observa que existe una correlación lineal moderada negativa entre el
número de pasajeros del asiento delantero, muertos o gravemente heridos y el
número de pasajeros del asiento trasero, muerto o gravemente heridos.

 Se observa que existe una correlación lineal débil positiva entre el número de
pasajeros del asiento delantero, muertos o gravemente heridos y el precio de
gasolina.

 Se observa que existe una correlación lineal débil negativa entre la distancia
conducida y el número de conductores de furgonetas

2. DETERMINANTE DE LA MATRIZ DE CORRELACIONES:

. Determinante = 0,006

Interpretación:

La determinante de la matriz de correlaciones es cercana a cero, entonces es


adecuado realizar un análisis factorial en este caso.

3. TEST DE ESFERICIDAD DE BARTLETT:

I. Planteamiento de Hipótesis:

H0 : R = I , no se debe utilizar la técnica de análisis de factores para resumir


información de la base de datos.

H1 : R ≠ I , si se puede emplear la técnica de análisis de factores

II. Nivel de significancia:


𝛼 = 0.05

III. Estadístico de Prueba:

χ²𝒄 = 𝟗𝟔𝟖. 𝟕𝟓𝟕𝟗

IV. Decisión:
Se rechaza 𝐻0 si 𝑝 − 𝑣𝑎𝑙𝑜𝑟 < 𝛼
Como 𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 1.260103 × 10−191 y 𝛼 = 0.05
→ Se rechaza H0

V. Conclusión:

Con un nivel de significancia del 5% existe suficiente evidencia estadística para


afirmar que si se puede emplear la técnica de análisis factorial.
4. EL INDICE DE KAISER-MEYER-OLKIN (KMO)
𝑲𝑴𝑶 = 0.67

Como el valor del índice del KMO es mayor mayor a 0.5, esto indicaría que es
apropiado aplicar la técnica de análisis factorial.

5. COEFICIENTE DE CORRELACIÓN PARCIAL

Donde:

- NCM = DriversKilled = N° de conductores muertos.


- NC = Drivers = N° de conductores.
- PADMGH = Fronts = N° de pasajeros del asiento delantero, muertos o
gravemente heridos.
- PATMGH = Rear = N° de pasajeros del asiento trasero, muertos o gravemente
heridos.
- DC = Kms = Distancia conducida.
- PG = PetrolPrice = Precio de gasolina.
- NFC = VanKilled = N° de conductores de furgonetas.

Interpretación:

Podemos observar que la mayoría de correlaciones parciales entre las variables


tienden ser próximas a cero, entonces podemos aplicar el análisis de factores.
6. EL COEFICIENTE DE CORRELACIÓN ANTI-IMAGEN:

Matrices anti-imagen

DriversKilled drivers front rear kms PetrolPrice VanKilled

DriversKilled ,202 -,121 ,013 -,015 -,019 ,007 -,002

drivers -,121 ,125 -,058 ,033 ,012 -,016 -,020

front ,013 -,058 ,128 -,132 ,093 ,104 -,010


Covarianza anti-
rear -,015 ,033 -,132 ,238 -,194 -,077 -,041
imagen
kms -,019 ,012 ,093 -,194 ,328 -,015 ,153

PetrolPrice ,007 -,016 ,104 -,077 -,015 ,639 -,021

VanKilled -,002 -,020 -,010 -,041 ,153 -,021 ,637


DriversKilled ,753a -,763 ,081 -,067 -,075 ,020 -,006
(X1)

Drivers (X2) -,763 ,723a -,461 ,194 ,058 -,057 -,071


Front (X3) ,081 -,461 ,658a -,756 ,456 ,366 -,036

Correlación anti- Rear (X4) -,067 ,194 -,756 ,402a -,695 -,197 -,105
imagen Kms (X5) -,075 ,058 ,456 -,695 ,535a -,033 ,334

PetrolPrice ,020 -,057 ,366 -,197 -,033 ,834a -,034


(X6)

VanKilled -,006 -,071 -,036 -,105 ,334 -,034 ,882a


(X7)

El coeficiente de correlación anti-imagen es el negativo del coeficiente de


correlación parcial entre dos variables. Existen factores comunes ya que hemos visto
pequeños coeficientes de correlación parcial en el análisis anterior. Por ello, el análisis
factorial es aplicable ya que en la matriz de correlaciones anti-imagen hay muchos
coeficientes pequeños.

7. LA DIAGONAL DE LA MATRIZ DE CORRELACIÓN ANTI-IMAGEN


Los valores de la diagonal de la matriz de correlación anti-imagen deben ser mayores a
0.5 para poder realizar el análisis factorial.

𝑋1 = 0.753, entonces debe estar en el análisis.

𝑋2 = 0.753, entonces debe estar en el análisis.

𝑋3 = 0.658, entonces debe estar en el análisis.

𝑋4 = 0.402, entonces puede que sea necesario retirarlo para mejorar el análisis.

𝑋5 = 0.535, entonces debe estar en el análisis.

𝑋6 = 0.834, entonces debe estar en el análisis.


𝑋7 = 0.882, entonces debe estar en el análisis.

La variable: 𝑋4 = El número de pasajeros del asiento trasero, muertos o gravemente


heridos puede que sea necesario excluirla del análisis para aumentar la correlación
entre las demás variables ya que tiene un valor menor a 0.5.

8. COMUNALIDADES

- Un 74.2% de la variabilidad de la variable N° de conductores muertos es explicada por


los factores.

- Un 85.2% de la variabilidad de la variable N° de conductores es explicada por los


factores.

- Un 88.9% de la variabilidad de la variable N° de pasajeros del asiento delantero,


muertos o gravemente heridos es explicada por los factores.

- Un 88.3% de la variabilidad de la variable N° de pasajeros del asiento trasero, muertos


o gravemente heridos es explicada por los factores.

- Un 86.1% de la variabilidad de la variable Distancia conducida es explicada por los


factores.

- Un 42.5% de la variabilidad de la variable Precio de la gasolina es explicada por los


factores.

- Un 51.0% de la variabilidad de la variable Número de conductores de furgonetas es


explicada por los factores.
9. NUMERO DE FACTORES A CONSIDERAR:

 Varianza total explicada

Varianza total explicada

Componente Autovalores iniciales Sumas de las saturaciones al cuadrado de la


extracción

Total % de la % acumulado Total % de la % acumulado


varianza varianza

1 3,688 52,682 52,682 3,688 52,682 52,682


2 1,474 21,060 73,742 1,474 21,060 73,742
3 ,721 10,296 84,038
4 ,611 8,723 92,761
5 ,331 4,731 97,492
6 ,109 1,555 99,046
7 ,067 ,954 100,000

Método de extracción: Análisis de Componentes principales.

Número de factores a usar según:

 El criterio de Kaisser λ𝑖 ≥ 1 seria dos factores.


 El criterio del porcentaje de varianza acumulada mayor igual al 80% sería tres factores.

 Según el criterio de la gráfica de sedimentación el número de factores a usar serian dos.

Por lo tanto según los tres criterios debemos utilizar solo 2 factores.
I. SIN ROTACIÓN

 Matriz de componentes:

La matriz de componentes recoge la carga o ponderación de cada factor en cada una


de las variables. Según la información de la matriz de componentes, las variables
iniciales definidas en función de los factores son de la siguiente forma:

𝑍1 = 𝑋1∗ = 0.853𝐹1 + 0.118𝐹2

𝑍2 = 𝑋2∗ = 0.923𝐹1 + 0.034𝐹2

𝑍3 = 𝑋3∗ = 0.912𝐹1 + 0.241𝐹2

𝑍4 = 𝑋4∗ = 0.435𝐹1 + 0.833𝐹2

𝑍5 = 𝑋5∗ = −0.531𝐹1 + 0.761𝐹2

𝑍6 = 𝑋6∗ = −0.642𝐹1 + 0.761𝐹2

𝑍7 = 𝑋7∗ = 0.642𝐹1 − 0.314𝐹2


 Matriz de coeficientes para el cálculo de las puntuaciones en las componentes:

Matriz de coeficientes para el cálculo de las


puntuaciones en las componentes
Componente
1 2
Número de conductores
,231 ,080
muertos
Número de conductores ,250 ,023
Número de pasajeros del
asiento delantero, muertos o ,247 ,163
gravemente heridos
Número de pasajeros del
asiento trasero, muertos o ,118 ,565
gravemente heridos
Distancia conducida -,144 ,516
Precio de gasolina -,171 ,117
Número de conductores de
,174 -,213
furgonetas
Método de extracción: Análisis de componentes
principales.

De la Matriz de los coeficientes para el cálculo de las puntuaciones en las componentes


se pueden deducir la relación entre componentes (factores) y variables:

𝐹1 = 0.231 × 𝑁𝐶𝑀 + 0.250 × 𝑁𝐶 + 0.247 × 𝑃𝐴𝐷𝑀𝐺𝐻 + 0.118 × 𝑃𝐴𝑇𝑀𝐺𝐻 − 0.144


× 𝐷𝐶 − 0.171 × 𝑃𝐺 + 0.174 × 𝑁𝐶𝐹

𝐹2 = 0.08 × 𝑁𝐶𝑀 + 0.023 × 𝑁𝐶 + 0.63 × 𝑃𝐴𝐷𝑀𝐺𝐻 + 0.565 × 𝑃𝐴𝑇𝑀𝐺𝐻 + 0.516


× 𝐷𝐶 + 0.117 × 𝑃𝐺 − 0.213 × 𝑁𝐶𝐹

 Matriz de covarianza de las puntuaciones de las componentes:


Matriz de covarianza de las
puntuaciones de las componentes
Componente 1 2
1 1,000 ,000
2 ,000 1,000
Método de extracción: Análisis de
componentes principales.

 Gráfico de componentes:
El gráfico muestra con claridad como las variables:
- NFC = VanKilled = N° de conductores de furgonetas.
- NC = Drivers = N° de conductores.
- NCM = DriversKilled = N° de conductores muertos.
- PADMGH = Fronts = N° de pasajeros del asiento delantero, muertos o
gravemente heridos.
- PG = PetrolPrice = Precio de gasolina.
Se sitúan más próximas al Factor 1 (Componente 1), es decir, están más
correlacionadas con este factor.

Luego observamos que las variables:


- PATMGH = Rear = N° de pasajeros del asiento trasero, muertos o gravemente
heridos.
- DC = Kms = Distancia conducida.

Se sitúan más próximas al Factor 2 (Componente 2), es decir, están más


correlacionadas con este factor.
II. CON ROTACIÓN (VARIMAX)
Matriz de componentes rotadosa
Componente
1 2
kms -,892 ,256
VanKilled ,696 ,161
drivers ,695 ,608
PetrolPrice -,596 -,263
rear -,188 ,921
front ,556 ,762
DriversKilled ,588 ,629

Método de extracción: Análisis de componentes principales.


Método de rotación: Normalización Varimax con Kaiser.

a. La rotación ha convergido en 3 iteraciones.

La matriz de componentes rotados recoge la carga o ponderación de cada factor en cada una de
las variables. Según la información de la matriz de componentes, las variables iniciales definidas
en función de los factores son de la siguiente forma:

𝑍1 = 𝑋1∗ = −0.892𝐹1 + 0.256𝐹2

𝑍2 = 𝑋2∗ = 0.696𝐹1 + 0.161𝐹2

𝑍3 = 𝑋3∗ = 0.695𝐹1 + 0.608𝐹2

𝑍4 = 𝑋4∗ = −0.596𝐹1 − 0.263𝐹2

𝑍5 = 𝑋5∗ = −0.188𝐹1 + 0.921𝐹2

𝑍6 = 𝑋6∗ = 0.556𝐹1 + 0.762𝐹2

𝑍7 = 𝑋7∗ = 0.588𝐹1 + 0.629𝐹2

 Matriz de transformación de componente.

Matriz de transformación de las


componentes
Componente 1 2
1 ,776 ,631
2 -,631 ,776
Método de extracción: Análisis de
componentes principales.
Método de rotación: Normalización
Varimax con Kaiser.
 Matriz de coeficientes para el cálculo de las puntuaciones en las componentes:

Matriz de coeficientes para el cálculo de las puntuaciones en las componentes

Componente
1 2

Número de conductores muertos ,129 ,208


Número de conductores ,180 ,176
Número de pasajeros del asiento delantero, muertos o
,089 ,283
gravemente heridos

Número de pasajeros del asiento trasero, muertos o


-,265 ,513
gravemente heridos
Distancia conducida -,437 ,310
Precio de gasolina -,206 -,017
Número de conductores de furgonetas ,269 -,056

Método de extracción: Análisis de componentes principales.


Método de rotación: Normalización Varimax con Kaiser.
Puntuaciones de componentes.

De la Matriz de los coeficientes para el cálculo de las puntuaciones en las componentes se


pueden deducir la relación entre componentes (factores) y variables:

𝐹1 = 0.129 × 𝑁𝐶𝑀 + 0.180 × 𝑁𝐶 + 0.089 × 𝑃𝐴𝐷𝑀𝐺𝐻 − 0.265 × 𝑃𝐴𝑇𝑀𝐺𝐻 − 0.437 × 𝐷𝐶


− 0.206 × 𝑃𝐺 + 0.269 × 𝑁𝐶𝐹

𝐹2 = 0.208 × 𝑁𝐶𝑀 + 0.176 × 𝑁𝐶 + 0.283 × 𝑃𝐴𝐷𝑀𝐺𝐻 + 0.513 × 𝑃𝐴𝑇𝑀𝐺𝐻 + 0.310 × 𝐷𝐶


− 0.017 × 𝑃𝐺 − 0.056 × 𝑁𝐶𝐹
 Gráfico de componentes en espacio rotado

El gráfico de componentes en espacio rotado muestra una variación respecto al anterior (sin
rotación). Podemos observar que las variables:
- NFC = N° de conductores de furgonetas.
- PG = Precio de gasolina.
- DC = Distancia conducida.
Se sitúan más próximas al Factor 1 (Componente 1), es decir, están más correlacionadas con
este factor. Anteriormente la Variable DC se estaba más próxima al Factor 2.

Luego observamos que la variable:


- PATMGH = N° de pasajeros del asiento trasero, muertos o gravemente heridos.
Se sitúan más próximas al Factor 2 (Componente 2), es decir, están más correlacionadas con
este factor.

Mientras tanto las variables:


- NC = N° de conductores.
- NCM = N° de conductores muertos.
- PADMGH = N° de pasajeros del asiento delantero, muertos o gravemente heridos.

Que anteriormente estaban más correlacionadas con el factor 1, ahora se puede


observar que mantienen correlación con ambos factores a la vez.
DIAGRAMA DE DISPERSION DE FACTORES:

BIPLOT:
Interpretación:

*El número de pasajeros del asiento trasero, muerto o gravemente herido es la variable que
contribuye más al análisis de los meses.

*El precio de la gasolina es posiblemente la variable que tiene menos contribución en el análisis
de los meses.

*En el mes de Diciembre de 1972 se registró un mayor número de pasajeros del asiento
delantero, muerto o gravemente heridos, número de conductores y número de conductores
muertos que en los otros meses,

*En el mes de Agosto de 1982 se registró una mayor distancia conducida y número de pasajeros
del asiento trasero, muerto o gravemente heridos que en los otros meses.

*En el mes de Julio de 1983 se registró una mayor distancia conducida y mayor precio de la
gasolina que en los otros meses.

*En el mes de Febrero de 1977 se registró una menor y número de pasajeros del asiento trasero,
muerto o gravemente heridos, distancia conducida, número de pasajeros del asiento delantero,
muerto o gravemente heridos, número de conductores y número de conductores muertos que en
los otros meses.
*Se observa que a partir del año 1983 que se introdujo el uso obligatorio de los cinturones de
seguridad, se incrementó el precio de la gasolina y la distancia conducida. Por otro lado esta ley
hizo que se redujera el número de conductores ya que probablemente aun existían algunos
conductores que al infringir la ley se les suspendía la licencia viéndose reflejado esto en la
disminución del número de pasajeros o conductores muertos o gravemente heridos.
*Se observa que la observación 48 y 24 son posibles datos atípicos.

*Se verifica que no se cumple el supuesto de Multinormalidad pero para fines prácticos se
aplicara el análisis factorial.