Está en la página 1de 10

1

TECNICAS MULTIVARIADAS - ACP Y AF


Jonathan Josué Ruiz Pantevis, Estudiante de Maestría Bioestadística
UMB [Asignatura: Aplicaciones de la Bioestadística].

1. La base de datos “EFA.csv” contiene 14 variables sobre la percepción de 90 clientes


sobre el nivel de importancia que tiene a la hora de comprar un vehículo de marca
SEAT o de otra marca en particular.
Análisis descriptivo:
Tabla 1. Parámetros de las variables.
Variables Media Desviación Mínimo Máximo p. valor Shapiro
estándar wilks
Price 4.17 0.59 3 5 <0.001
Exterior looks 3.82 0.82 1 5 <0.001
Safety 4.20 0.64 3 5 <0.001
Space confort 4.00 0.65 2 5 <0.001
Technology 4.16 0.87 1 5 <0.001
After sales service 4.41 0.65 2 5 <0.001
Resale value 3.68 1.22 1 5 <0.001
Fuel type 4.09 0.65 3 5 <0.001
Fuel efficiency 3.87 0.82 1 5 <0.001
Color 3.73 0.92 1 5 <0.001
Maintenance 3.99 0.77 2 5 <0.001
Test drive 3.43 1.11 1 5 <0.001
Product reviews 4.13 0.89 2 5 <0.001
Testimonials 3.88 0.87 1 5 <0.001

En la tabla 1, se observa parámetros de las 14 variables, donde el promedio más alto es el de


la variable Safety (4.20), y el promedio menor es Test drive, se calcula el valor p de shapiro
wilks y se observa que en todas las 14 variables se rechaza normalidad.

FIGURA 1. Correlograma de Pearson de las variables.


a. b.
2

De la figura 1 se presenta el correlograma de las 14 variables de percepción; se observa las


correlaciones directas entre las variables fuel type y space confort con un valor de Pearson
de 0.48, maintenaince y resale value de 0.44 y full effeciency y space confort de 0.42; las
correlaciónes negativas entre las variables color y exterior looks de -0.33.

TABLA 2. Kaiser Meyer Olkin


Price Safety Exterior Space comfort Technology After sales Resale Value
Looks service
0.72 0.47 0.55 0.61 0.65 0.62 0.63
Fuel Type Fuel Color Maintenance Test drive Product Testimonials
Efficiency reviews
0.68 0.62 0.56 0.61 0.64 0.69 0.50
KMO global: 0.61
Prueba de Bartlet.
Bartlett's K-squared = 111.69, df = 13, p-value < 2.2e-16

En la tabla 2 se ejecutaron la prueba de Bartlet y se evidencia significancia con un p-valor


α=0.05, para la Prueba de Kaiser Meyer Olkin (KMO) se observa que las 14 variables
presentaron valores menores del 0.8 y el KMO global de 0.61; lo que indica que podría ser
adecuado realizar un análisis factorial.

Para realizar el análisis factorial. Se realiza primero, un Análisis Factorial Paralelo.

FIGURA 2. Scree plot Análisis paralelos


3

En la figura 2, se observa que el número de componentes principales y el análisis de factorial


paralelo, es de cuatro factores necesarios para capturar la mayor parte de la información entre
las 14 variables.

FIGURA 3. Scree test factores potenciales

En la figura 3, se identifica el número de factores potenciales basado en los autovalores en


componentes principales 5 factores, coordenadas óptimas 4 factores y el factor de
aceleración 3.
De lo anterior, se indica que al menos tres factores eran suficientes para explicar la
variabilidad de las 14 variables.

Se realiza un análisis factorial sin rotación, con rotaciones oblicuas (Criterio Oblimin y
promax) y ortogonales ( varimax, quartimax y equamax) y utilizando la máxima
verosimilitud como estimador, de tres a cinco factores.

Tabla 3. Parámetro factorial de los modelos.


Rotación Factor 1 Factor 2 Acumulado Valor p χ2
Tres factores
Ninguna 0.139 0.130 0.333 0.0925 65.94
Varimax 0.125 0.112 0.333 0.0925 65.94
Quartimax 0.125 0.114 0.333 0.0925 65.94
Equamax 0.124 0.112 0.333 0.0925 65.94
4

Oblimin 0.125 0.110 0.326 0.0925 65.94


Promax 0.142 0.127 0.380 0.0925 65.94
Cuatro factores
Ninguna 0.129 0.116 0.397 0.323 44.58
Varimax 0.119 0.118 0.397 0.323 44.58
Quartimax 0.120 0.119 0.397 0.323 44.58
Equamax 0.118 0.117 0.397 0.323 44.58
Oblimin 0.118 0.117 0.390 0.323 44.58
Promax 0.139 0.123 0.424 0.323 44.58
Cinco factores
Ninguna 0.126 0.106 0.472 0.749 25.42
Varimax 0.114 0.102 0.472 0.749 25.42
Quartimax 0.115 0.103 0.472 0.749 25.42
Equamax 0.113 0.101 0.472 0.749 25.42
Oblimin 0.116 0.099 0.459 0.749 25.42
Promax 0.132 0.104 0.489 0.749 25.42

En la tabla 3, se identifica la proporción de varianza acumulada mayor, dos índices de ajuste,


el chi-cuadrado (χ2) menor y la raíz media cuadrada de los residuos cercana a cero. Se
establece que, en los 3 modelos, la rotación oblicua promax, presentaron las proporciones
acumuladas de varianza mayor, sin embargo, el mejor modelo fue de cinco factores ya que,
este, presento el chi-cuadrado menor y la raíz media cuadrada de los residuos más cercano a
cero.

FIGURA 4. Biplot componentes principales

En la figura 4, se observa las variables resale value y space comfort aportan las mayores
cargas al modelo.
5

2. Se realizará un análisis y regresión de componentes principales con la base “mtcars”


contenida en la librería “pls” en R-Studio, evaluando la relación existente entre la
variable potencia bruta (hp) y sus variables predictoras:
mpg: Miles/(US).
disp: Displacement (cu.in.).
drat: Rear axle ratio.
wt: Weight (1000 lbs).
qsec: qsec: 1/4-mile time.
La data “mtcars” se extrajeron de la revista Motor Trend de EE. UU. De 1974 y
comprenden el consumo de combustible y 10 aspectos del diseño y rendimiento del
automóvil para 32 automóviles (modelos 1973–74).

Análisis descriptivo:

La base de datos “mtcars” suministrada, contenía 32 registros con 11 variables, sin presentar
datos faltantes. De la base se extrae la variable hp y las variables predictoras mpg, disp, drat,
wt, qsec y realizó alistamiento de la base de datos con una descripción inicial de la
distribución de las variables en donde se encontró una distribución heterogénea de las
variables (ver tabla 4)

Tabla 4. Parámetros de las variables características especiales de los automóviles.


Variables Media Desviación Mínimo Máximo Mediana CV Curtosis
estándar
hp 146.69 68.56 52.00 335.00 123.00 0.47 -0.14
mpg 20.09 6.03 10.40 22.80 19.20 0.30 -0.37
disp 230.72 123.94 71.10 472.00 196.30 0.54 -1.21
drat 3.60 0.53 2.76 4.93 3.70 0.15 -0.71
Wt 3.22 0.98 1.51 5.42 3.33 0.30 -0.02
qsec 17.85 1.79 14.50 22.90 17.71 0.10 0.34

Del correlograma de las 6 variables de funcionamiento y características de los automóviles,


se observa las correlaciones directas alcanzaron un valor máximo de 0.89 y las indirectas un
valor de -0.87. cabe resaltar que entre las variables con índice que correlación mayor se
encontraron en peso (wt) y desplazamiento (disp.) con una correlación positiva de 0.89 y
6

entre las variables peso (wt) y millas por galón (mpg) una correlación negativa de -0.87. (ver
figura 5).
Figura 5. Correlograma de Pearson de las variables funcionamiento y características de
automóviles

Podemos ver en el resultado que el valor de R cuadrado para el modelo es 0.7858, el


estadístico F general es 23.74 y el p valor correspondiente es 6.262e-09 , lo que indica que el
modelo de regresión general es significativo. Además, la variable predictora qsec son
estadísticamente significativa al nivel de significancia de 0.05, mientras que las demás no lo
son. (ver tabla 5).

Tabla 5. Modelo Regresión Múltiple


Parámetro GL Coeficientes β (IC95%) Estadístico F Valor p
2
𝑹𝑳𝑴 (aR : 78.58%) 5/26 23.74 -
Intercepto - 392.81 (144.98, 637.63) - 0.00282
mpg - -3.17 (-8.00, 1.66) - 0.18936
disp. - 0.18 (-0.09, 0.46) - 0.18099
drat - 12.96 (-21.52, 47.45) - 0.44658
wt - 7.97 (-30.44, 46.39) - 0.67299
qsec - -16.68 (-26.79, -6.56) - 0.00223
GL: grados de libertad. aR2 : R cuadrado ajustado. RLM: Regresión Lineal Múltiple.

Las variables con factores de inflacion de la varianza (VIF) tanto para wt, disp. como
para mpg es mayor que 5. (ver figura 6).
7

Figura 6. Valores VIF de la base de “mtcars”

Preliminarmente, se ejecutó un Análisis Factorial Paralelo (AFP) y tanto de los componentes


principales como del AFP se obtuvieron los respectivos “scree plot” que podrían extraerse
un factor latente de las 5 variables (Figura 7).

Figura 7. Scree plots análisis paralelos data mtcars


8

Después, se realizó un scree plot para identificar el número de factores potenciales basados
en los autovalores, en componente principales, coordenadas óptimas o el factor de
aceleración (Figura 8).
Figura 8. Scree plot componentes principales, coordenadas optimas o factor aceleración.

Dado que los scree plot indicaron que con solo un componente eran necesarios para realizar
un modelo adecuado.

Ahora bien, cuando se realiza el resumen del análisis de componentes se demostró que en los
dos primeros componentes se acumula el 89.35% de los datos (ver tabla 6 y figura 9).

Tabla 6. resumen del análisis de componentes


Mediciones PC1 PC2 PC3 PC4 PC5

Standard deviation 1.8685 0.9880 0.5714 0.39202 0.22852

Proportion of Variance 0.6983 0.1952 0.0653 0.03074 0.01044

Cumulative Proportion 0.6983 0.8935 0.9588 0.98956 1.00000


9

Figura 9. Scree plot dimensiones

Modelos de regresión por componentes principales.

Ahora bien, se realizó el modelo de regresión con dos componentes principales para
explicar la variable potencia bruta (hp) donde se obtuvo un p valor de 0.881 y un R
cuadrado ajustado de -0.0325 lo cual no es significante el modelo. Sin embargo, se realizó
un modelo con las variables predictoras y los dos componentes principales y por medio de
la función “step” se identificó el modelo que tenia el menor criterio de Akaike (AIC) (ver
tabla 7).

Tabla 7. Comparación de modelos para explicar hp y las variables predictoras y PC

MODELOS RLMACP RLMACP1 RLMACP2 RLMACP3 RLMACP4


VARIABLES pc1, pc2 mpg, disp, qsec, pc1 qsec, disp, wt, qsec
drat, wt, qsec, pc1
pc1, pc2.

R-cuadrado
-0.03256 0.7955 0.4691 0.8049 0.485
ajustado
Valor p 0.8819 <0.001 <0.001 <0.001 <0.001
AIC 367.21 324.97 347.46 319.01 344.95

El mejor modelo que explica la relación entre las variables y los dos componentes es el
modelo RLMACP3, modelo que incluye las variables predictoras qsec, disp., wt y la
primera componente y menor AIC (319.01), el mayor R-cuadrado ajustado (0.8049), se
recalca que se rechazó el supuesto de normalidad de los residuales. No obstante, el análisis
residual, se evidenció dos outlier 31 y 9 (ver figura 10)
10

Figura 10. Datos outlier

Se concluye que excluyendo el outlier 31 de RLMACP3, el modelo RLMACP3.1 con un AIC de


294.2 disminuye al modelo RLMACP3 y un p valor <0.001 se cumple los supuestos de los
residuales.

También podría gustarte