Documentos de Académico
Documentos de Profesional
Documentos de Cultura
2006
MÉTODOS ESTADÍSTICOS
MULTIVARIADOS
Pág. 1
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
CONTENIDO
1. Coeficiente de Cronbach
2. Métodos de análisis multivariado
3. ANOVA de K direcciones
4. Análisis multivariado de Varianza (MANOVA)
5. Análisis de Covarianza
6. Análisis Discriminante
7. Análisis de Conglomerados (Clusters)
8. Análisis Factorial
9. Análisis de Regresión Múltiple
Pág. 2
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
1. COEFICIENTE DE CRONBACH
Pág. 3
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
a) Se aplica la escala.
b) Se obtienen los resultados.
c) Se calculan los coeficientes de correlación r de Pearson entre todos los ítems (todos
contra todos de par en par).
d) Se elabora la matriz de correlación con los coeficientes obtenidos. Por
ejemplo:
Pág. 4
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Pág. 5
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Pág. 6
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
2. MÉTODOS DE ANÁLISIS
MULTIVARIADO
Pág. 7
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Los métodos de análisis multivariado son aquellos en que se analiza la relación entre
diversas variables independientes y al menos una dependiente. Son métodos más
complejos que requieren del uso de computadoras para efectuar los cálculos necesarios
Pág. 8
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Regresión múltiple
En un método de análisis adecuado cuando el problema de investigación
involucra una variable dependiente única que se presume se relaciona a dos o
más variables independientes medibles. El objetivo es predecir el cambio en la
variable dependiente de respuesta con cambios en las variables
independientes, normalmente con el método de mínimos cuadrados.
Pág. 9
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Análisis conjunto
Se aplica a nuevos productos para evaluar la importancia de los atributos del
nuevo producto así como los niveles de cada atributo, mientras que el
consumidor evalúa solo unos pocos perfiles del producto como combinaciones
de los niveles de producto.
Por ejemplo asumir un producto con tres atributos (precio, calidad y color),
cada uno en tres niveles posibles (vgr. Rojo, amarillo y azul). En vez de tener
que evalur las 27 combinaciones posibles (3x3x3), se evalúa un subconjunto de
9 o más combinaciones con base en su atractivo para el consumidor, de
manera que el investigador no solo conozca la importancia de cada atributo,
sino además la importancia de cada nivel (atractivo del rojo vs amarillo vs azul).
Correlación canónica
El análisis de correlación puede ser visto como una extensión lógica de la
regresión múltiple. Donde se trata de correlacionar simultáneamente varias
variables dependientes medibles o métricas y varias variables independientes
medibles. El principio es establecer una combinación lineal de cada conjunto de
variables (dependientes e independientes) para maximizar la correlación entre
los dos conjuntos (obteniendo ponderacións adecuados para las variables).
Pág. 10
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Escala multidimensional
El objetivo es transformar los juicios del consumidor de similitud o preferencias
(vgr. Preferencia por tiendas o marcas) en distancias representadas en un
espacio multidimensional. Si los objetos A y B se juzgan por el consumidor
como similares, comparados con cualquier otro par de objetos, la técnica
posiciona los objetos A y B de manera que la distancia entre ellos en un
espacio multidimensional es más pequeño que la distancia entre cualquier otro
par de objetos. Al final se muestra un mapa perceptual con la posición relativa
de los objetos.
Análisis de correspondencia
Facilita tanto la reducción dimensional de objetos en un conjunto de atributos y
el mapa perceptual de objetos respecto a estos atributos. En su forma más
elemental es una tabla de contingencia o tabulación cruzada de dos variables
categóricas. Transforma los datos no métricos a un nivel medible y realiza una
reducción dimensional (similar al análisis de factores) y un mapa perceptual
(similar al análisis multidimensional).
Pág. 11
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Pág. 12
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Variables / Tipo
Percepciones / Medibles (Métricas)
X1 Tiempo de entrega - entrega del producto con la orden confirmada
X2 Nivel de precios - nivel de precio percibido ponderacióndo por
proveedores
X3 Flexibilidad de precios - flexibilidad para negociar precios
X4 Imagen de la empresa - general
X5 Servicio en general - nivel necesario para mantener relaciones
X6 Imagen de la fuerza de ventas - general
X7 Calidad del producto – calidad percibida en desempeño o rendimiento
Pág. 13
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
3. ANOVA DE K DIRECCIONES
Pág. 14
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Definición: Es una prueba estadística para evaluar el efecto de dos o más variables
independientes sobre una variable dependiente.
Pág. 15
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Interpretación y ejemplo
Pág. 16
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
TABLA ANOVA
NOTA: Normalmente interesa saber si las razones “F” resultaron o no significativas; por
tanto, sólo se incluyen estos valores. Se recomienda concentrarse en dichos valores y
evitar confusiones. Desde luego, el investigador experimentado acostumbra estudiar
todos los valores.
Pág. 17
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Ejemplo:
Un experimento se realizó para probar cuanto tiempo toma usar un modelo
nuevo y un modelo anterior de calculadora. Seis ingenieros trabajando en un
problema estadístico y uno de ingeniería se les toma el tiempo para resolver el
problema. Los ingenieros se consideran como bloques en el diseño
experimental.
Hay dos factores: Tipo de problema y modelo de calculadora – cada uno con
dos niveles, se hacen experimentos donde esos niveles de los factores se
cruzan. Los datos se muestran a continuación:
Pág. 18
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Source DF SS MS F P
Engineer 5 1.053 0.211 3.13 0.039
ProbType 1 16.667 16.667 247.52 0.000
Calculator 1 72.107 72.107 1070.89 0.000
ProbType*Calculator 1 3.682 3.682 54.68 0.000
Error 15 1.010 0.067
Total 23 94.518
Means
ProbType N SolveTime
Eng 12 3.8250
Stat 12 5.4917
Calculator N SolveTime
New 12 2.9250
Old 12 6.3917
Pág. 19
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Pág. 20
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Pág. 21
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Es un modelo para analizar la relación entre una o más variables independientes y dos o
más variables dependientes. Es decir, es útil para estructuras causales del tipo:
- Identificar las interacciones entre las variables independientes y la asociación entre las
dependientes.
Pág. 22
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
1) Hotelling's T. Es parecida a la prueba t (dos grupos) pero con más dependientes: una
variable independiente dicotómica y varias dependientes.
2) MANOVA unidireccional. Análogo al ANOVA de una sola vía, pero con más
dependientes: una variable independiente multicategórica y varias
dependientes.
3) MANOVA factorial. Similar al ANOVA factorial, solamente que con dos o más
dependientes: varias independientes categóricas y varias dependientes.
Los modelos del MANOVA tienen en común que forman combinaciones lineales de las
dependientes que discriminan mejor entre los grupos en un experimento o una situación
no experimental. Es una prueba de significancia de las diferencias en los grupos en un
espacio multidimensional donde cada dimensión está definida por combinaciones
lineales del conjunto de variables dependientes.
Una pregunta que suele hacer el estudiante al revisar el MANOVA es ¿por qué no
hacemos ANOVAS separados, uno para cada dependiente? La respuesta: las
dependientes están correlacionadas muy frecuentemente, por lo cual los resultados de
varios ANOVA pueden ser redundantes y difíciles de integrar. He aquí una síntesis de la
explicación de Wiersma (1999) sobre este tipo de análisis:
Pág. 23
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
positiva y elevada, significa que altos valores en la dependiente se asocian con altos
valores en la canónica. Por ejemplo, si una variable dependiente consiste en
puntuaciones a una prueba sobre innovación, y dichas puntuaciones se correlacionan en
forma considerable con una variable canónica, inferimos que la variable canónica
representa un constructo que involucra esencialmente a la innovación.
En los cálculos que se hacen en el MANOVA, se generan variables canónicas hasta que
se encuentra que no hay una diferencia estadística significativa entre las categorías o los
grupos de las variables independientes; o bien, hasta que se agotan los grados de
libertad de las variables independientes (lo que ocurra primero). El número de variables
canónicas no puede exceder el número de variables dependientes, pero es común que el
número de dependientes sea mayor que el de variables canónicas estadísticamente
significativas o los grados de libertad.
Se calculan diversas estadísticas para evaluar ambas hipótesis, entre las que destacan: F
(total, toma en cuenta el modelo completo), la prueba Hotelling's TSquare, T2 (cuando
hay dos grupos formados por las variables independientes), Wilks' lambda, U (cuando
hay más de dos grupos formados por las variables independientes), y Pillai-Bartlett
(cuando hay coeficientes canónicos); y si resultan significativas en un nivel de
confianza, se acepta la hipótesis de investigación de diferencia de medias. Esto indica
que hay, por lo menos, una variable canónica significativa (pero puede haber varias). Si
diversas variables canónicas son significativas, esto muestra que se presentan
diferencias en las variables canónicas en cuestión, entre los grupos o categorías de las
independientes.
Pág. 24
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
variable independiente pueden ser cero o tener un valor positivo o negativo. Una
puntuación discriminante positiva y elevada para un grupo, indica que éste se coloca por
encima de los demás en la respectiva variable canónica. Y deben considerarse las
ponderacións, las cuales son positivas o negativas. Las puntuaciones discriminantes son
utilizadas para interpretar las separaciones de los grupos en las variables canónicas, en
tanto que las ponderacións se usan para evaluar y ligar los resultados de las variables
dependientes (Wiersma, 1999). Un ejemplo de las ponderacións de los coeficientes de
correlación entre las variables dependientes y las variables canónicas así como las
puntuaciones discriminantes se muestran en las tablas siguientes:
Pág. 25
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Pág. 26
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
DATOS
Instrucciones de Minitab
Pág. 27
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Test DF
Criterion Statistic F Num Denom P
Wilks' 0.38186 7.554 3 14 0.003
Lawley-Hotelling 1.61877 7.554 3 14 0.003
Pillai's 0.61814 7.554 3 14 0.003
Roy's 1.61877
Pág. 28
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Eigenvector 1 2 3
Tear 0.6541 0.4315 0.0604
Gloss -0.3385 0.5163 0.0012
Opacity 0.0359 0.0302 -0.1209
Test DF
Criterion Statistic F Num Denom P
Wilks' 0.52303 4.256 3 14 0.025
Lawley-Hotelling 0.91192 4.256 3 14 0.025
Pillai's 0.47697 4.256 3 14 0.025
Roy's 0.91192
Eigenvector 1 2 3
Pág. 29
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Test DF
Criterion Statistic F Num Denom P
Wilks' 0.77711 1.339 3 14 0.302
Lawley-Hotelling 0.28683 1.339 3 14 0.302
Pillai's 0.22289 1.339 3 14 0.302
Roy's 0.28683
Eigenvector 1 2 3
Tear -0.1364 0.1806 0.7527
Gloss -0.5376 -0.3028 -0.0228
Opacity -0.0683 0.1102 -0.0000
Por default se muestra la tabla para las cuatro pruebas multivariadas (Wliks,
Lawley, Hotelling, Pillai y Roy) para cada uno de los términos en el modelo.
Pág. 30
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Pág. 31
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
3 En Model, introducir los términos del modelo que se quiera ajustar.
4. Click OK.
Pág. 32
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
5. ANÁLISIS DE COVARIANZA
Pág. 33
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
5. ANÁLISIS DE COVARIANZA
Perspectivas o usos: Wildt y Ahtola (1978, pp. 8-9) destacan tres perspectivas para el
análisis de covarianza:
Pág. 34
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Los niveles de medición nominal y ordinal son categóricos en sí mismos, mientras que
los niveles de intervalos y razón deben transformarse en categorías más discretas. Estos
últimos son en sí: cuantitativos, continuos y de categorías múltiples. Por ejemplo, el
ingreso en su “estado natural” (ponderacións, dólares, euros, etc.) varía de la categoría
cero hasta la categoría (K)k, ya que puede haber millones de categorías.
Pág. 35
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Pág. 36
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Ejemplo:
Pág. 37
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Pág. 38
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Wildt y Ahtola (1978, p. 13) definen algunos usos del análisis de covarianza:
Pág. 39
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Nivel de medición de las variables: La variable dependiente siempre está medida por
intervalos o razón y las variables independientes pueden estar medidas en cualquier
nivel.
Ejemplo:
Pág. 40
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Como la asignación al azar está ausente, no se sabe si los resultados se ven influidos por
dicho factor. Entonces, el experimentador decide eliminar o controlar el efecto de la
motivación sobre la productividad para conocer los efectos de la variable independiente:
tipo de retroalimentación. La motivación se convierte en covariable.
Pág. 41
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Cabe destacar que, para introducir una covariable en el análisis, de preferencia debe
medirse antes del inicio del experimento.
Si el resultado fuera:
G1 = 35
G2 = 36
G3 = 38
Gl entre = K – 1 = 3 – 1 = 2
Gl intra = N – K = 107
F = 1.70
Pág. 42
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Ejemplo:
Y X Maq
36 20 1
41 25 1
39 24 1
42 25 1
49 32 1
40 22 2
48 28 2
39 22 2
45 30 2
44 28 2
35 21 3
37 23 3
42 26 3
34 21 3
32 15 3
En Minitab:
Pág. 43
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
45
40
Y
35
30
15.0 17.5 20.0 22.5 25.0 27.5 30.0 32.5
X
Para el ANOVA con Covariados, las instrucciones de Minitab son las siguientes:
3. En Covariates X
6. OK
Pág. 44
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Conclusión:
Se observa que no hay diferencia en las máquinas una vez que eliminamos la
Con Minitab:
3. OK
Source DF SS MS F P
Maq 2 140.4 70.2 4.09 0.044
Error 12 206.0 17.2
Total 14 346.4
Pág. 45
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
entre máquinas.
Pág. 46
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Pág. 47
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
El análisis discriminante, se aplica cuando las variables independientes son medidas por
intervalos o razón, y la dependiente es categórica. Tal análisis sirve para predecir la
pertenencia de un caso a una de las categorías de la variable dependiente, sobre la base
de varias independientes (dos o más). Se utiliza una ecuación de regresión llamada
función discriminante. Por ejemplo, si queremos predecir el voto obtenido por dos
partidos contendientes (variable dependiente nominal con dos categorías) sobre la base
de cuatro variables independientes, aplicaremos el análisis discriminante, para resolver
una ecuación de regresión; así se obtienen las predicciones individuales. En el ejemplo,
hay dos categorías (votar por A o votar por B); por tanto, los valores a predecir son 0 y 1
(A y B, respectivamente). Si el sujeto obtiene una puntuación más cercana a cero, se
predice que pertenece al grupo que votará por A; si logra una puntuación más cercana a
1, se predice que pertenece al grupo que votará por B. Además, se consigue una medida
del grado de discriminación del modelo.
Se pueden hacer análisis discriminantes lineales y cuadráticos. Los lineales asumen que
todos los grupos tienen la misma matriz de covarianza, los cuadráticos no hacen este
supuesto y no son bien comprendidos.
Pág. 48
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Ejemplo:
Pág. 49
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Summary of classification
True Group
Put into Group Alaska Canada
Alaska 44 1
Canada 6 49
Total N 50 50
N correct 44 49
Proportion 0.880 0.980
Alaska Canada
Alaska 0.00000 8.29187
Canada 8.29187 0.00000
Pág. 50
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Pág. 51
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Donde:
Zjk = Valor Z discriminante de la función discriminante J para el objeto K.
a = Intersección en eje Y
Wi = Peso discriminante para la variable independiente i.
Xik = Variable independiente i para el objeto k.
A B A B
Representación univariada de los valores Z de la función discriminante
Las áreas sombreadas son la probabilidad de clasificar erróneamente los objetos entre A y B
Pág. 52
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
4. Click OK.
Discriminant Analysis: X11 versus X1, X2, X3, X4, X5, X6, X7
Summary of classification
True Group
Put into Group 0 1
0 24 2
1 1 33
Pág. 53
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Total N 25 35
N correct 24 33
Proportion 0.960 0.943
N = 60 N Correct = 57 Proportion Correct = 0.950
Wilks'
Lambda F df1 df2 Sig.
X1 .614 36.526 1 58 .000
X2 .716 22.953 1 58 .000
X3 .467 66.302 1 58 .000
X4 .997 .145 1 58 .704
X5 .993 .414 1 58 .523
X6 .991 .522 1 58 .473
X7 .528 51.951 1 58 .000
Function
Pág. 54
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
1
X1 1.152
X2 .749
X3 .668
X4 .111
X5 -1.153
X6 .042
X7 -.626
Function
1
X3 .643
X7 -.569
X1 .477
X2 -.379
X6 .057
X5 .051
X4 .030
Pooled within-groups correlations between discriminating variables and standardized canonical
discriminant functions Variables ordered by absolute size of correlation within function.
Function
X11 1
.00 -1.933
1.00 1.381
Unstandardized canonical discriminant functions evaluated at group means
Z=0
N=24 N=33
Zo=-1.933 Z1=1.063
Gráfica de los centroides de grupos
Pág. 55
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Wilks'
Lambda F df1 df2 Sig.
X1 .546 31.628 1 38 .000
X2 .934 2.676 1 38 .110
X3 .789 10.185 1 38 .003
X4 .969 1.205 1 38 .279
X5 .798 9.611 1 38 .004
X6 .997 .105 1 38 .748
X7 .535 33.043 1 38 .000
Log Determinants
Log
X11 Rank Determinant
.00 7 -9.872
1.00 7 -6.987
Pooled within-groups 7 -6.367
The ranks and natural logarithms of determinants printed are those of the group covariance matrices.
Test Results
Box's M 63.963
F Approx. 1.776
df1 28
df2 3061.289
Sig. .007
Tests null hypothesis of equal population covariance matrices.
Function
1
X1 1.932
X2 1.525
X3 .294
X4 -.621
X5 -1.698
X6 .934
X7 -.783
Structure Matrix
Function
1
X7 -.644
X1 .630
X3 .358
X5 .347
X2 -.183
X4 -.123
X6 -.036
Pooled within-groups correlations between discriminating variables and standardized canonical
discriminant functions Variables ordered by absolute size of correlation within function.
Pág. 56
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Function
X11 1
.00 -1.822
1.00 1.093
Unstandardized canonical discriminant functions evaluated at group means
X11 = 0
X11 = 1
5
5
4
4
3
3
2 2
1 1
Classification Results(a)
Predicted Group
Membership
Pág. 57
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Regresión Logística
Una de las ventajas de la regresión logística versus el análisis discriminante es
que es menos afectada por las diferencias en varianzas / covarianzas entre los
grupos, que es una premisa del análisis discriminante. Otra ventaja es que la
regresión logística puede manejar variables independientes categóricas
fácilmente, mientras que en el análisis discriminante el uso de variables de
apoyo crea problemas con la igualdad de varianza / covarianza. Finalmente la
regresión logística es similar a la regresión múltiple en términos de su
interpretación e interpretación incluyendo los residuos.
Ejemplo:
You are a researcher who is interested in understanding the effect of smoking
and weight upon resting pulse rate. Because you have categorized the
response-pulse rate-
into low and high, a binary logistic regression analysis is appropriate to
investigate the effects of smoking and weight upon pulse rate.
Se tiene interés en comprender el efecto de fumar y el peso sobre el pulso (alto
y bajo).
Los datos utilizados son los siguientes:
RestingPulse Smokes Weight RestingPulse Smokes Weight RestingPulse Smokes Weight
Low No 140 Low No 215 Low No 115
Low No 145 Low Yes 150 Low No 102
Low Yes 160 Low Yes 145 Low No 115
Low Yes 190 Low No 155 Low No 150
Low No 155 Low No 155 Low No 110
Low No 165 Low No 150 High No 116
High No 150 Low Yes 155 Low Yes 108
Low No 190 Low No 150 High No 95
Low No 195 High Yes 180 High Yes 125
Low No 138 Low No 160 Low No 133
High Yes 160 Low No 135 Low No 110
Low No 155 Low No 160 High No 150
High Yes 153 Low Yes 130 Low No 108
Low No 145 Low Yes 155 Low No 155
Low No 170 Low Yes 150 Low No 180
Low No 175 Low No 148 Low No 122
Low Yes 175 High No 155 Low No 120
Low Yes 170 Low No 150 Low No 118
Low Yes 180 High Yes 140 Low No 125
Low No 135 Low Yes 190 High Yes 135
Low No 170 High No 145 Low No 125
Low No 157 High Yes 150 High No 118
Pág. 58
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Factor Information
Factor Levels Values
Smokes 2 No Yes
Pág. 59
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Log-Likelihood = -46.820
Test that all slopes are zero: G = 7.574, DF = 2, P-Value = 0.023
Method Chi-Square DF P
Pearson 40.848 47 0.724
Deviance 51.201 47 0.312
Hosmer-Lemeshow 4.745 8 0.784
Brown:
General Alternative 0.905 2 0.636
Symmetric Alternative 0.463 1 0.496
Estas pruebas de bondad de ajuste con P values de 0.312 a 0.724 indican que
no hay evidencia suficiente que indique que el modelo no ajuste a los datos
adecuadamente, considerando un nivel de significancia de 0.05.
Table of Observed and Expected Frequencies:
(See Hosmer-Lemeshow Test for the Pearson Chi-Square Statistic)
Group
Value 1 2 3 4 5 6 7 8 9 10 Total
Low
Obs 4 6 6 8 8 6 8 12 10 2 70
Exp 4.4 6.4 6.3 6.6 6.9 7.2 8.3 12.9 9.1 1.9
Pág. 60
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
High
Obs 5 4 3 1 1 3 2 3 0 0 22
Exp 4.6 3.6 2.7 2.4 2.1 1.8 1.7 2.1 0.9 0.1
Total 9 10 9 9 9 9 10 15 10 2 92
Esta tabla permit ever que tan bien ajusta el modelo a los datos, comparando
las frecuencias observadas y las frecuencias esperadas, siendo similares indica
que no hay evidencia suficiente de que los datos no ajusten bien al modelo,
soportado por las pruebas de bondad de ajuste para un nivel de significancia
de 0.05.
Measures of Association:
(Between the Response Variable and Predicted Probabilities)
Esta tabla muestra 1540 pares (70 individuos con un low pulse y 22 con high
pulse resultando en 70*22 = 1540) con valores de respuesta diferentes. Con
base en el modelo un par es concordante si el individuo con una tasa de pulso
baja (low pulse rate) tiene una más alta probabilidad de tener pulso bajo,
discrepante de si sucede lo contrario, y empate si las probabilidades son
iguales. En este ejemplo el 67.9% de los pares son concordantes y 29% son
discrepantes. Se pueden usar estos valores como una medición comparativa
de predicción, por ejemplo para comparar ajustes con diferentes conjuntos de
predictores o con funciones diferentes de enlace.
Pág. 61
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
4
Delta Chi-Square
4
Delta Chi-Square
Con la opción Editor > Brush se puede observar que corresponden a los
valores de datos 31 y 66, correspondientes a individuos con un pulso alto, que
no fuman, y que tienen pesos menores al promedio (116 y 136 libras).
Pág. 62
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Pág. 63
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
7. Análisis de Conglomerados
Pág. 64
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
7. ANÁLISIS DE CONGLOMERADOS
Se cuenta también con el análisis de conglomerados o clusters (técnica para
agrupar los casos o elementos de una muestra en grupos con base en una o
más variables).
Pág. 65
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Variables A B C D E F G
V1 3 4 4 2 6 7 6
V2 2 5 7 7 6 7 4
Scatterplot of V2 vs V1
D C F
7
E
6
B
5
V2
G
4
A
2
2 3 4 5 6 7
V1
Pág. 66
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Ejemplo 1:
Para medir la similitud se evalúa con la distancia euclidiana (línea recta) entre
cada par de observaciones (ver Tabla), entendiendo que las distancias
pequeñas indican similaridad, E y F son las más similares (1.414) y la A y F las
más diferentes (6.403).
Observ. A B C D E F G
A
B 3.162
C 5.099 2.000
D 5.099 2.828 2.000
E 5.000 2.236 2.236 4.123
F 6.403 3.606 3.000 5.000 1.414
G 3.606 2.236 3.606 5.000 2.000 3.162
Distancia
Mínima Solución por
entre conglomerados
observa-
ciones
Paso Par Miembros en el Núm. Dist. Prom.
observado conglomerado De Dentro
Congl. Cong.
Sol. inicial A, B,C,D,E,F,G 7 0
1 1.414 E-F A, B,C,D,E-F,G 6 1.414
2 2.000 E-G A, B,C,D,E-F-G 5 2.192
3 2.000 C-D A, B,C-D,E-F-G 4 2.144
4 2.000 B-C A, B-C-D,E-F-G 3 2.234
5 2.236 B-E A,B-C-D-E-F-G 2 2.896
6 3.162 A=B A-B-C-D-E-F-G 1 3.420
Utilizando Minitab:
Stat > Multivariate Análisis > Cluster Observations
Distance Measured Euclidean Seleccionar Show Dendogram OK
Pág. 67
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
50.61
67.08
Similarity
83.54
100.00
A B C D E F G
Observations
Final Partition
Number of clusters: 1
Within Average Maximum
cluster distance distance
Number of sum of from from
observations squares centroid centroid
Cluster1 7 41.4286 2.23187 3.77154
Ejemplo 2:
Pág. 68
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Pág. 69
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
3.0
2.5
2.0
Eigenvalue
1.5
1.0
0.5
0.0
1 2 3 4 5
Component Number
PC1 = .558 Pop .313 School .568 Employ .487 Health + .174 Home
Pág. 70
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Ejemplo 3:
Con los datos de HATCO se utilizan las siete percepciones de clientes para
identificar segmentos de clientes.
Pág. 71
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Pág. 72
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
46 54 97.902 1.660 45 86 45 2
47 53 97.877 1.680 39 96 39 2
48 52 97.761 1.772 10 53 10 4
49 51 97.321 2.120 13 35 13 3
50 50 96.355 2.885 50 69 50 4
51 49 96.203 3.005 40 45 40 4
52 48 95.986 3.177 14 38 14 3
53 47 95.818 3.310 9 58 9 3
54 46 95.552 3.520 22 55 22 2
55 45 95.325 3.700 65 79 65 2
56 44 94.826 4.095 10 31 10 5
57 43 94.301 4.510 6 52 6 4
58 42 94.054 4.706 10 37 10 7
59 41 93.996 4.751 14 66 14 5
60 40 93.783 4.920 15 19 15 4
61 39 93.745 4.950 16 29 16 4
62 38 93.594 5.070 4 75 4 4
63 37 92.867 5.645 25 33 25 4
64 36 92.341 6.062 25 26 25 6
65 35 91.633 6.622 18 50 18 6
66 34 90.732 7.335 23 56 23 4
67 33 90.566 7.466 9 12 9 5
68 32 89.797 8.075 11 85 11 4
69 31 89.607 8.225 8 36 8 6
70 30 88.621 9.005 1 51 1 4
71 29 88.537 9.072 13 22 13 5
72 28 87.859 9.608 40 94 40 6
73 27 87.621 9.797 4 24 4 6
74 26 86.484 10.697 3 10 3 9
75 25 86.381 10.778 18 43 18 8
76 24 86.216 10.909 7 15 7 7
77 23 85.195 11.717 16 47 16 6
78 22 85.001 11.870 39 65 39 4
79 21 82.841 13.580 3 57 3 10
80 20 82.550 13.810 9 14 9 10
81 19 81.104 14.954 9 49 9 12
82 18 77.848 17.531 2 4 2 8
83 17 76.996 18.205 8 17 8 8
84 16 67.541 25.688 1 25 1 10
85 15 65.781 27.081 2 40 2 14
86 14 61.257 30.661 7 9 7 19
87 13 60.778 31.040 11 23 11 8
88 12 56.202 34.662 6 8 6 12
89 11 49.784 39.741 2 39 2 18
90 10 42.640 45.395 3 82 3 12
91 9 40.362 47.197 1 18 1 18
92 8 36.171 50.514 1 16 1 24
93 7 29.104 56.107 6 11 6 20
94 6 19.593 63.634 5 7 5 21
95 5 17.930 64.950 1 13 1 29
96 4 -15.826 91.665 2 6 2 38
97 3 -96.701 155.669 2 3 2 50
98 2 -135.645 186.489 1 5 1 50
99 1 -839.878 743.820 1 2 1 100
Final Partition
Number of clusters: 1
Within Average Maximum
cluster distance distance
Number of sum of from from
observations squares centroid centroid
Cluster1 100 996.352 3.05166 5.27503
Pág. 73
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
406.13
270.75
Distance
135.38
0.00
Observations
406.13
270.75
Distance
135.38
0.00
2 8 3 7 5 9 9 2 3 3 2 5 6 91 6 70 52 60 8 68 36 41 84 88 4 89 24 27 40 54 45 86 9 4 9 8 3 9 9 6 6 5 7 9 3 71 10 34 30 5 3 37 48 57 17 64 31 82 93
Observations
Pág. 74
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
406.13
270.75
Distance
135.38
0.00
1 9 5 5 1 7 7 1 1 0 0 8 5 8 7 4 7 6 1 1 3 2 1 3 5 22 5 5 9 7 4 49 9 7 1 2 7 6 5 8 1 5 2 0 3 8 6 3 6 6 8 0 1 6 7 3 2 9 7 8 18 9 2 43 4 6 50 7 2 6 9 8 1 2 5 4 4 2 6 5 9 3 3 6 2 5 4 2 7 6 7 9 0 14 1 9 28
1
Observations
Final Partition
Number of clusters: 2
Cluster Centroids
Grand
Variable Cluster1 Cluster2 centroid
X1 4.3827 2.5750 3.5150
X2 1.5808 3.2125 2.3640
X3 8.8615 6.8458 7.8940
X4 4.9250 5.5979 5.2480
X5 2.9577 2.8708 2.9160
X6 2.5250 2.8167 2.6650
X7 5.9038 8.1271 6.9710
Pág. 75
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Cluster1 Cluster2
Cluster1 0.0000 3.9347
Cluster2 3.9347 0.0000
Cluster Error
Mean Square df Mean Square df F Sig.
X1 81.563 1 .930 98 87.717 .000
X2 66.457 1 .766 98 86.753 .000
X3 101.414 1 .923 98 109.816 .000
X4 11.302 1 1.178 98 9.596 .003
X5 .188 1 .568 98 .331 .566
X6 2.123 1 .579 98 3.670 .058
X7 123.372 1 1.280 98 96.404 .000
The F tests should be used only for descriptive purposes because the clusters have been chosen to
maximize the differences among cases in different clusters. The observed significance levels are not
corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are
equal.
Number of clusters: 4
Within Average Maximum
cluster distance distance
Number of sum of from from
observations squares centroid centroid
Cluster1 34 155.126 2.100 2.922
Cluster2 29 123.693 2.012 3.211
Cluster3 14 54.234 1.833 3.051
Cluster4 23 109.941 2.031 3.947
Pág. 76
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Cluster Centroids
Grand
Variable Cluster1 Cluster2 Cluster3 Cluster4 centroid
X1 4.1441 2.0241 3.6143 4.4043 3.5150
X2 1.5794 2.7655 4.1286 1.9435 2.3640
X3 8.5765 7.0103 5.9500 9.1826 7.8940
X4 4.4176 5.1621 6.0643 6.0870 5.2480
X5 2.8353 2.3655 3.8429 3.1652 2.9160
X6 2.0882 2.5552 3.1643 3.3522 2.6650
X7 5.3147 8.2690 7.9500 7.1870 6.9710
Cluster Error
Mean Square df Mean Square df F Sig.
X1 37.108 3 .639 96 58.055 .000
X2 28.530 3 .583 96 48.960 .000
X3 37.115 3 .839 96 44.224 .000
X4 15.527 3 .835 96 18.598 .000
X5 7.487 3 .348 96 21.509 .000
X6 8.242 3 .355 96 23.204 .000
X7 53.222 3 .928 96 57.330 .000
The F tests should be used only for descriptive purposes because the clusters have been chosen to
maximize the differences among cases in different clusters. The observed significance levels are not
corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are
equal.
Pág. 77
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Number
Number of obs.
of Similarity Distance Clusters New in new
Step clusters level level joined cluster cluster
1 6 89.4112 0.21178 4 6 4 2
2 5 80.5950 0.38810 1 5 1 2
3 4 73.4873 0.53025 2 7 2 2
4 3 57.8288 0.84342 1 3 1 3
5 2 39.4434 1.21113 2 4 2 4
6 1 -4.3342 2.08668 1 2 1 7
2.09
1.39
Distance
0.70
0.00
X1 X5 X3 X2 X7 X4 X6
Variables
Pág. 78
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Instrucciones en Minitab:
3. Rotation Varimax
5. OK
Pág. 79
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
X4 -0.000 -0.000
X5 -0.815 0.832
X6 -0.000 -0.000
X7 -0.000 0.000
0.8
X2
Second Factor
0.6
X1
0.4
X4
X6
0.2
X7
0.0
X3
3. OK
X1 X2 X3 X4 X5 X6
X2 -0.349
0.000
X3 0.476 -0.472
0.000 0.000
Pág. 80
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Al definir los factores que son las dimensiones de las variables que se
correlacionan significativamente, se observan dos factores. El primer factor
contiene a X1, X2, X3 y X7 y el segundo factor contiene a los aspectos de
imagen X4 y X6. En el primer factor X2 y X7 se relacionan inversamente con
X1 y X3, es decir que mientras se incrementan unas, las otras bajan. Esto
sugiere que altos valores en X1 y X3 implican valores bajos en X2 y X7. O sea
que definir conglomerados sólo con base en valores altos o bajos es
inapropiado.
De la tabla ANOVA para dos conglomerados se observa que solo X5 – Servicio general
no es significativa.
10
9
8
7
Cluster
6
1
5
2
4
3
2
1
0
X1 X2 X3 X4 X5 X6 X7
Pág. 81
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
12
10
8 1
2
6
3
4 4
0
X1 X2 X3 X4 X5 X6 X7
Pág. 82
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
8. ANÁLISIS FACTORIAL
Pág. 83
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
8. ANÁLISIS FACTORIAL
El análisis factorial es un método cuyo propósito principal es definir la
estructura subyacente de una matriz de datos. Atiende el problema de analizar
la estructura de las interrelaciones (correlaciones) entre un gran número de
variables (vgr. Respuestas de cuestionarios) al definir un conjunto de
dimensiones subyacentes comunes, conocidas como factores. Con el análisis
factorial se identifican las dimensiones separadas de la estructura y después se
determina que tanto cada variable es explicada por cada dimensión. Una vez
que se determinan las dimensiones y se explican las variables por cada
dimensión, se puede hacer un resumen y reducción de datos.
Pág. 84
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Pág. 85
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Análisis de componentes
El análisis de componentes se usa cuando el objetivo es resumir la mayor parte
de la información original (varianza) en un mínimo número de factores para
Pág. 86
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Análisis factorial
En contraste el análisis de factores comunes se utiliza para identificar los
factores subyacentes o dimensiones que reflejan aquello que las variables
comparten en común.
En este método se tienen tres tipos de varianzas: (1) común, (2) específica
(única), y (3) error. La varianza común se define como la varianza en una
variable que es compartida por todas las demás variables. La varianza
específica es la varianza asociada solo con una variable específica. La
varianza del error es la varianza debida a la incertidumbre en el proceso de
recolección de datos, errores de medición, o componente aleatorio en el
fenómeno medido.
Criterio a Priori: en este método el investigador ya tiene una idea clara de los
factores a extraer y así lo indica en la computadora.
Pág. 87
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Criterio Scree Test: Se usa para identificar el número óptimo de factores que
pueden ser extraídos antes de que la cantidad de varianza única empiece a
dominar la estructura de varianza común.
E
i
g
e
n
v
a
l
o
r
8
1
Número de factores
Pág. 88
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
V5
+1 Factor I rotado
-1
Pág. 89
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Equimax:
Es un compromiso entre las anteriores. Trata de simplificar los renglones y las
columnas, no se utiliza frecuentemente.
Pág. 90
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Ponderación Tamaño de
del factor muestra requerida
para tener
significancia
0.30 350
0.35 300
0.40 250
0.45 200
0.50 150
0.55 100
0.60 85
0.65 70
0.70 60
Pág. 91
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Pág. 92
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
X1 X2 X3 X4 X6
X2 -0.349
0.000
X3 0.476 -0.472
0.000 0.000
7 Click Graphs y seleccionar Loading plot for first 2 factors y Scree Plot.
Pág. 93
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
factor 1, se ven dos grupos de variables. Las primeras son el nivel de precios
Pág. 94
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
(X2) y la calidad del producto (X7) ambas con signos positivos y varían como
conjunto. Las otras dos, tiempo de entrega (X1) y flexibilidad de precios (X3)
En el factor 1, ambos grupos varían en sentido contrario, tal vez este factor sea
precios.
Se tienen ahora dos factores como combinación lineal de las variables para
efectos de realización de estudios:
Pág. 95
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
2.0
Eigenvalue
1.5
1.0
0.5
0.0
1 2 3 4 5 6
Factor Number
Pág. 96
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
0.9
0.8
0.7
Second Factor
0.6
0.5
0.4
0.3 X2
X1 X7
0.2
0.1
X3
0.0
Pág. 97
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Pág. 98
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
3.0
2.5
2.0
Eigenvalue
1.5
1.0
0.5
0.0
1 2 3 4 5
Factor Number
Interpretación de resultados
Se seleccionan dos factores como el número que representa los datos del
censo en base al análisis de componentes principales. Se realiza una
extracción de máxima verisimilitud y rotación varimax para interpretar los
factores.
Pág. 99
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Pág. 100
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
0.8
Pop
Second Factor
0.6 Employ
0.4
0.2 Home
Health
0.0
Pág. 101
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Pág. 102
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Pág. 103
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Términos clave
Coeficiente ajustado de determinación (R2 ajustada): Es una métrica
modificada del coeficiente de determinación que toma en cuenta el
número de variables independientes incluidas en la ecuación de
regresión y el tamaño de muestra. A pesar de que la adición de variables
independientes hace que se incremente el coeficiente de determinación,
el coeficiente de determinación ajustado se reduce si las variables
independientes tienen poco poder explicativo y/o si los grados de
libertad son muy pequeños. Este estadístico es útil para comparar
ecuaciones con diferentes números de variables independientes, con
diferentes tamaños de muestra, o ambos.
Regresión con todos los posibles subconjuntos: Método de
selección de variables en el modelo que considera todas las
Pág. 104
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Pág. 105
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Pág. 106
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Pág. 107
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Fórmulas:
La ecuación de regresión simple es:
Donde:
bo = Término de intercepción
b1 = coeficiente de la regresión.
Error de predicción o residuo = diferencia entre valor real y estimado de la
variable dependiente.
Pág. 108
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
DIAGNÓSTICO AVANZADO
Índice de condición: Medición de la cantidad de varianza asociada con un
Eigenvalor (valor característico) de manera que un índice grande indica un
alto grado de colinealidad.
Distancia de Cook (Di): Medida resumida de la influencia de una
observación simple con base en los cambios totales en todos los demás
residuos cuando la observación se excluye del proceso de estimación. Los
valores mayores a 1 indican influencia significativa de la observación en la
estimación de los coeficientes de la regresión.
COVRATIO (razón de covarianza): Mide la influencia de una observación
simple en conjunto completo de coeficientes de la regresión. Un valor
cercano a 1 indica poca influencia, si (COVRATIO – 1) > 3 p/n (p es el
número de variables independientes +1 y n es el tamaño de muestra), la
observación se considera que tiene influencia.
Residuo excluido (deleted residual): Es el proceso de calcular residuos
en los cuales la influencia de cada una de las observaciones se excluye
cuando se calcula su residuo. Esto se logra al omitir la i-ésima observación
de la ecuación de regresión usada para calcular el valor estimado Y.
DFBETA: Mide el cambio en un coeficiente de la regresión cuando una
observación se omite del análisis de la regresión, se establece en términos
del coeficiente mismo, también se puede tener una versión estandarizada
SDBETA, donde sus valores son ajustados por sus errores estándar, se
definen cortes en 1 o 2 correspondientes a niveles de confianza de 0.10 y
0.05 respectivamente.
DFFIT: Mide el impacto de una observación en el ajuste general del modelo,
con una versión estandarizada DFFIT. La mejor regla práctica es calsificar
como influenciables cualquier valor SDFFIT > 2 / raiz(p/n). p es el número
de variables independientes +1 y n es el tamaño de muestra.
Eigenvalor (valor característico): Mide la cantidad de varianza contenida
en la matriz de correlación de manera que la suma de los eigenvalores es
igual al número de variables. También se conoce como raíz latente o raíz
característica.
Matriz sombrero: Matriz que contiene valores para cada observación en la
diagonal conocida como matriz sombrero, que representan el impacto de la
Pág. 109
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Pág. 110
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Evaluado la multicolinealidad
Regression
Variables Entered/Removed(b)
b Dependent Variable: X9
Model Summary
ANOVA(b)
Pág. 111
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Total 8000.256 99
b Dependent Variable: X9
Coefficients(a)
Beta t Sig.
Model B Std. Error Tolerance VIF
a Dependent Variable: X9
Collinearity Diagnostics(a)
Variance Proportions
Condition
Dimension Eigenvalue Index
Model (Constant) X1 X2 X3 X4 X5 X6 X7
1 7.533 1.000 .00 .00 .00 .00 .00 .00 .00 .00
2 .251 5.474 .00 .00 .01 .01 .00 .00 .00 .01
3 .106 8.426 .00 .01 .01 .00 .01 .00 .04 .04
4 6.548E-02 10.726 .01 .00 .00 .04 .03 .00 .18 .09
1
5 2.463E-02 17.489 .01 .01 .01 .31 .00 .00 .00 .53
6 1.219E-02 24.861 .03 .00 .00 .07 .75 .00 .67 .05
7 6.259E-03 34.692 .86 .00 .00 .52 .17 .00 .10 .28
8 8.354E-04 94.959 .09 .97 .97 .05 .04 .99 .01 .00
Pág. 112
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
a Dependent Variable: X9
Pág. 113
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Ejemplo:
1 Cargar datos
2 en Minitab.
5 Click Graphs.
Pág. 114
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
95
90
80
70
Percent
60
50
40
30
20
10
1
-3 -2 -1 0 1 2 3
Standardized Residual
Analysis of Variance
Source DF SS MS F P
Regression 2 18.9503 9.4751 15.53 0.007
Residual Error 5 3.0497 0.6099
Total 7 22.0000
Source DF Seq SS
Tamano 1 16.5143
Ingreso 1 2.4360
Interpretación de resultados
Salida de sesión
Pág. 115
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
Salida gráfica
Pág. 116
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
4 OK
X1 X2 X3 X4 X5 X6 X7
X2 -0.349
0.000
X3 0.476 -0.472
0.000 0.000
Pág. 117
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
5 Click Graphs.
Analysis of Variance
Source DF SS MS F P
Regression 7 6177.81 882.54 44.55 0.000
Residual Error 92 1822.44 19.81
Total 99 8000.26
Source DF Seq SS
X1 1 3659.76
X2 1 927.88
X3 1 1424.10
X4 1 80.48
X5 1 18.20
X6 1 38.97
X7 1 28.43
Unusual Observations
Pág. 118
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / DIC. 2006
99
95
90
80
70
Percent
60
50
40
30
20
10
5
0.1
-3 -2 -1 0 1 2 3
Standardized Residual
1
Standardized Residual
-1
-2
-3
20 30 40 50 60
Fitted Value
Pág. 119