Está en la página 1de 73

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

CLCULO DEL COEFICIENTE DE CONFIABIL IDAD


(FIABILIDAD) ALFA-CRONBACH
Existen tres procedimientos para determinar el coeficiente o alfa :
1. Sobre la base de la varianza de los tems, con la aplicacin de la siguiente
frmula:

En donde N representa el nmero de tems de la escala, s2 (Yi) es igual a la


sumatoria de las varianzas de los tems y s2x equivale a la varianza de toda la
escala.
2. Sobre la base de la matriz de correlacin de los tems, el procedimiento
sera:
a) Se aplica la escala.
b) Se obtienen los resultados.
c) Se calculan los coeficientes de correlacin r de Pearson entre todos los
tems (todos contra todos de par en par).
d) Se elabora la matriz de correlacin con los coeficientes obtenidos. Por
ejemplo:

Pg. 1

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Los coeficientes que se mencionan como ya fue calculado, se ubican en la


parte superior de las lneas horizontales (guiones). Es decir, cada coeficiente
se incluye una sola vez y se excluyen los coeficientes que vinculan al tem o
puntuacin consigo misma (1 con 1, 2 con 2, 3 con 3 y 4 con 4).

Pg. 2

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

3. Mediante otra frmula que se basa en la correlacin promedio

Pg. 3

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Los mtodos de anlisis multivariado


Los mtodos de anlisis multivariado son aquellos en que se analiza la relacin
entre diversas variables independientes y al menos una dependiente. Son
mtodos ms complejos que requieren del uso de computadoras para efectuar
los clculos necesarios

Entre las tcnicas ms comunes se encuentran (1) Anlisis de componentes


principales y factores comunes, (2) regresin y correlacin mltiple, (3) anlisis
discriminante mltiple, (4) anlisis multivariado de varianza y covarianza, (5)
anlisis conjunto, (6) correlacin cannica, (7) anlisis de clusters, (8) escala
multidimensional.

Otras

tcnicas

nuevas

incluyen

(9)

anlisis

de

correspondencia, (10) modelos de probabilidad lineal tales como el logit y


probit, y (11) modelos de ecuacin simultaneas / estructurales. A continuacin
se describen brevemente stas tcnicas.

Anlisis de componentes principales y de factores comunes


Es un mtodo estadstico que puede usarse para analizar las interrelaciones
entre un gran nmero de variables y explicar esas variables en trminos de sus
dimensiones subyacentes comunes. El objetivo es hallar la forma de sintetizar
la informacin contenida en un nmero de variables originales, dentro de un

Pg. 4

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

conjunto ms pequeo de variates (factores) con mnima prdida de


informacin.

Regresin mltiple
En un mtodo de anlisis adecuado cuando el problema de investigacin
involucra una variable dependiente nica que se presume se relaciona a dos o
ms variables independientes medibles. El objetivo es predecir el cambio en la
variable

dependiente

de

respuesta

con

cambios

en

las

variables

independientes, normalmente con el mtodo de mnimos cuadrados.


Por ejemplo se pueden predecir los montos gastados en cenas a partir de
ingresos de las familias (variable dependiente), su tamao, y la edad del padre
(variables independientes).

Anlisis discriminante mltiple (MDA)


Se aplica cuando la variable dependiente es dicotmica (vgr. hombre mujer) o
multitmica (vgr. Alto medio bajo) y por tanto no medible. Como en la
regresin las variables independientes deben ser medibles. Se aplica cuando la
muestra total se puede dividir en grupos con base en una variable no medible
caracterizando varias clases conocidas. Su objetivo es comprender las
diferencias entre grupos y predecir la probabilidad de que una entidad (objeto
individual) pertenezca a una clase o grupo particular con base en varias
variables independientes medibles o mtricas.
Por ejemplo el anlisis discriminante se puede utilizar para distinguir entre
innovadores y no innovadores de acuerdo a su perfil demogrfico y
psicogrfico.

Anlisis multivariado de varianza y covarianza (MANOVA)


Es un mtodo estadstico para explorar simultneamente la relacin entre
varias variables categricas independientes (referidas como tratamientos) y dos
o ms variables dependientes medibles o mtricas. Es una extensin del
ANOVA univariado. El anlisis multivariado de covarianza (MANCOVA) se

Pg. 5

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

puede usar en conjunto con el MANOVA para remover (despus del


experimento) el efecto de cualquier variable mtrica independiente no
controlada (conocida como covariada) en la variable independiente.

Anlisis conjunto
Se aplica a nuevos productos para evaluar la importancia de los atributos del
nuevo producto as como los niveles de cada atributo, mientras que el
consumidor evala solo unos pocos perfiles del producto como combinaciones
de los niveles de producto.
Por ejemplo asumir un producto con tres atributos (precio, calidad y color),
cada uno en tres niveles posibles (vgr. Rojo, amarillo y azul). En vez de tener
que evalur las 27 combinaciones posibles (3x3x3), se evala un subconjunto de
9 o ms combinaciones con base en su atractivo para el consumidor, de
manera que el investigador no solo conozca la importancia de cada atributo,
sino adems la importancia de cada nivel (atractivo del rojo vs amarillo vs azul).

Correlacin cannica
El anlisis de correlacin puede ser visto como una extensin lgica de la
regresin mltiple. Donde se trata de correlacionar simultneamente varias
variables dependientes medibles o mtricas y varias variables independientes
medibles. El principio es establecer una combinacin lineal de cada conjunto de
variables (dependientes e independientes) para maximizar la correlacin entre
los dos conjuntos (obteniendo ponderacins adecuados para las variables).

Anlisis de conglomerados (Clusters)


Es una tcnica analtica para desarrollar sugrupos significativos de individuos u
o objetos. Especficamente, el objetivo es clasificar una muestra de entidades
(individuos u objetos) en un nmero ms pequeo de grupos ms pequeos
con base en las similitudes entre entidades. A diferencia del anlisis
discriminante, los grupos no estn definidos, ms bien se usa para
identificarlos.

Pg. 6

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Normalmente se realiza en tres pasos. El primero es la medicin de alguna


forma de similitud o asociacin entre las entidades para identificar cuantos
grupos realmente existen en la muestra. El segundo paso es el proceso en s
de

conglomerados,

donde

las

entidades

se

particionan

en

grupos

(conglomerados o clusters). El paso final es perfilar las personas o variables


para determinar su composicin. Muchas veces esto ltimo se realiza con el
anlisis discriminante.

Escala multidimensional
El objetivo es transformar los juicios del consumidor de similitud o preferencias
(vgr. Preferencia por tiendas o marcas) en distancias representadas en un
espacio multidimensional. Si los objetos A y B se juzgan por el consumidor
como similares, comparados con cualquier otro par de objetos, la tcnica
posiciona los objetos A y B de manera que la distancia entre ellos en un
espacio multidimensional es ms pequeo que la distancia entre cualquier otro
par de objetos. Al final se muestra un mapa perceptual con la posicin relativa
de los objetos.
Anlisis de correspondencia
Facilita tanto la reduccin dimensional de objetos en un conjunto de atributos y
el mapa perceptual de objetos respecto a estos atributos. En su forma ms
elemental es una tabla de contingencia o tabulacin cruzada de dos variables
categricas. Transforma los datos no mtricos a un nivel medible y realiza una
reduccin dimensional (similar al anlisis de factores) y un mapa perceptual
(similar al anlisis multidimensional).
Por ejemplo, las preferencias de marcas de los consumidores pueden ser
tabuladas contra variables demogrficas (vgr. Gnero, categoras de ingresos,
ocupacin) indicando cuanta gente prefiere cada una de las marcas que caen
en cada categora de las variables demogrficas. Por medio del anlisis de
correspondencia, la asociacin o correspondencia de marcas y las
caractersticas distintivas de aquellos que prefieren las marcas se muestran en

Pg. 7

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

un mapa tridimensional o bidimensional tanto de marcas como de las


caractersticas que distinguen a aquellos que prefieren cada marca.

Modelos de probabilidad lineal (Anlisis Logit)


Son una combinacin de regresin mltiple y anlisis discrimnante. Es similar
al anlisis de regresin mltiple excepto que la variable dependiente es
categrica no mtrica como en el anlisis discriminante.

Modelos de ecuaciones estructurales


A veces se refiere como el nombre del software LISREL, es una tcnica que
permite separar las relaciones del conjunto de variables dependientes. En su
forma ms sencilla proporciona el modelo ms adecuado y la tcnica de
estimacin ms eficiente para una serie de ecuaciones de regresin mltiple,
evaluadas simultneamente. Se caracteriza por dos componentes bsicos: (1)
el modelo estructural y (2) el modelo de medicin.
El modelo estructural es la va que relaciona variables dependientes e
independientes. El modelo de medicin permite al investigador a usar varias
variables (indicadores) para una variable dependiente e independiente.

Pg. 8

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Los datos para HATCO son los siguientes:


Variables / Tipo
Percepciones / Medibles (Mtricas)
X1

Tiempo de entrega - entrega del producto con la orden confirmada

X2

Nivel de precios

- nivel de precio percibido ponderacindo por

proveedores
X3

Flexibilidad de precios

- flexibilidad para negociar precios

X4

Imagen de la empresa

- general

X5

Servicio en general

- nivel necesario para mantener relaciones

X6

Imagen de la fuerza de ventas - general

X7

Calidad del producto calidad percibida en desempeo o rendimiento

Resultados de compras / Medibles (Mtricas)


X9

Nivel de utilizacin - que porcentaje de producto es surtido por Hatco

X10

Nivel de satisfaccin que tan satisfecho esta el cliente con Hatco

Caractersticas del comprador / No Medibles (No Mtricas)


X8

Tamao de la empresa

- 1- Grande 0 - pequeo

X11

Especificacin de compra - 1-Evala por el valor total y 0- especificacin

X12

Estructura de abastecimiento 1- centralizado 0 - descentralizado

X13

Tipo de industria

X14

Tipo de situacin de compra 1- nueva 2- modificada 0- tradicional

- 1- industria A

Pg. 9

0 otras industrias

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

ANOVA (anlisis de varianza de k direcciones )


El ANOVA es similar a la regresin en el sentido de que se utiliza para
investigar y modelar la relacin entre una variable de respuesta y una o ms
variables independientes. Sin embargo, el ANOVA difiere de la regresin en
dos aspectos: las variables independientes son cualitativas (categricas), y no
hay supuestos acerca de la naturaleza de la relacin (o sea que el modelo no
incluye coeficientes para variables). En efecto el ANOVA extiende la prueba de
dos muestras con prueba t para probar la igualdad de dos poblaciones a una
hiptesis ms general al comparar ms de dos medias, versus que no sean
iguales.
Definicin: Es una prueba estadstica para evaluar el efecto de dos o ms
variables independientes sobre una variable dependiente.
Responde a esquemas como el que se muestra en la figura:

Constituye una extensin del anlisis de varianza unidireccional, solamente


que incluye ms de una variable independiente. Evala los efectos por
separado de cada variable independiente y los efectos conjuntos de dos o ms
variables independientes.
Pg. 10

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Variables: Dos o ms variables independientes y una dependiente.


Nivel de medicin de las variables: La variable dependiente (criterio) debe estar
medida en un nivel por intervalos o razn, y las variables independientes
(factores) pueden estar en cualquier nivel de medicin, pero expresadas de
manera categrica.
Interpretacin y ejemplo
Hi: La similitud en valores, la atraccin fsica y el grado de retroalimentacin
positiva son variables que inciden en la satisfaccin sobre la relacin en
parejas de novios.
Contexto: Muestra de parejas de adultos jvenes (23-29 aos), pertenecientes
a estratos econmicos altos (n=400).
El ANOVA efectuado mediante un paquete estadstico computacional como
SPSS produce los siguientes elementos bsicos:
Fuente de la variacin (source of variation). Es el factor que origina variacin
en la dependiente. Si una fuente no origina variacin en la dependiente, no
tiene efectos.
Efectos principales (main effects). Es el efecto de cada variable independiente
por

separado;

no

est

contaminado

del

efecto

de

otras

variables

iindependientes ni de error. Suele proporcionarse la suma de todos los efectos


principales.
Interacciones de dos direcciones (2-way interactions). Representa el efecto
conjunto de dos variables independientes, aislado de los dems posibles
efectos de las variables independientes (individuales o en conjuntos). Suele
proporcionarse la suma de los efectos de todas estas interacciones.

Pg. 11

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Interacciones de tres direcciones (3-way interactions). Constituye el efecto


conjunto de tres variables independientes, aislado de otros efectos. Suele
proporcionarse la suma de los efectos de todas estas interacciones.
Puede haber efecto de K-direcciones, esto dependie del nmero de variables
independientes.
En nuestro ejemplo, tenemos los resultados siguientes:

TABLA ANOVA
VARIABLE DEPENDIENTE: SATISFACCIN EN LA RELACIN
Fuente

de Suma

variacin

cuadrados

de Grados de Cuadrados
libertad

Estadstico F

medios

Significancia
de Fc = P

22.51

.001**

31.18
21.02
11.84

0.001**
0.001**
0.004**

-4.32

0.04*

ATRACCIN
SIMILITUD

2.18

0.11

RETROALIM
ATRACCION

1.56

0.190

RETROALIM
SIM

8.01

0.02*

Efectos
principales
(main effects

SIMILITUD
ATRACCIN
RETROALIM
SIMILITUD

RETROLATRACCION
NOTA:

Normalmente interesa saber si las razones F resultaron o no

significativas; por tanto, slo se incluyen estos valores. Se recomienda


concentrarse en dichos valores y evitar confusiones. Desde luego, el
investigador experimentado acostumbra estudiar todos los valores.
** Razn F significativa al nivel del 0.01 (p < 0.01)

Pg. 12

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

*Razn F significativa al nivel del 0.05 (p < 0.05)


Como podemos ver en la tabla, la similitud, la atraccin y la retroalimentacin
tienen un efecto significativo sobre la satisfaccin en la relacin.
Respecto a los efectos de dos variables independientes conjuntas, slo la
similitud y la atraccin tienen un efecto, hay un efecto conjunto de las tres
variables independientes. La hiptesis de investigacin se acepta y la nula se
rechaza. Asimismo, se recuerda al lector que en el captulo 5 del presente
disco: Otros diseos experimentales (en el apartado sobre diseos factoriales)
se explica la nocin de interaccin entre variables independientes. Cabe
agregar que el ANOVA es un mtodo estadstico propio para los diseos
experimentales factoriales.

Ejemplo:
Un experimento se realiz para probar cuanto tiempo toma usar un modelo
nuevo y un modelo anterior de calculadora. Seis ingenieros trabajando en un
problema estadstico y uno de ingeniera se les toma el tiempo para resolver el
problema. Los ingenieros se consideran como bloques en el diseo
experimental.
Hay dos factores: Tipo de problema y modelo de calculadora cada uno con
dos niveles, se hacen experimentos donde esos niveles de los factores se
cruzan. Los datos se muestran a continuacin:
SolveTime
3.1
7.5
2.5
5.1
3.8
8.1
2.8
5.3
3
7.6
2

Engineer
Jones
Jones
Jones
Jones
Williams
Williams
Williams
Williams
Adams
Adams
Adams

ProbType
Stat
Stat
Eng
Eng
Stat
Stat
Eng
Eng
Stat
Stat
Eng

Calculator
New
Old
New
Old
New
Old
New
Old
New
Old
New

Pg. 13

MTODOS ESTADSTICOS MULTIVARIADOS

4.9
3.4
7.8
2.7
5.5
3.3
6.9
2.5
5.4
3.6
7.8
2.4
4.8

Adams
Dixon
Dixon
Dixon
Dixon
Erickson
Erickson
Erickson
Erickson
Maynes
Maynes
Maynes
Maynes

Eng
Stat
Stat
Eng
Eng
Stat
Stat
Eng
Eng
Stat
Stat
Eng
Eng

P. REYES / OCT. 2006

Old
New
Old
New
Old
New
Old
New
Old
New
Old
New
Old

Las instrucciones de Minitab son las siguientes:


1

Abrir la worksheet EXH_AOV.MTW.

Stat > ANOVA > Balanced ANOVA.

Responses, poner SolveTime.

Model, poner Engineer ProbType | Calculator.

En Random Factors, poner Engineer.

6 Click Results. En Display means corresponding to the terms, poner


ProbType | Calculator. Click OK cada cuadro de dilogo.
Los resultados obtenidos son los siguientes:
ANOVA: SolveTime versus Engineer, ProbType, Calculator
Factor
Engineer
ProbType
Calculator

Type
random
fixed
fixed

Levels
6
2
2

Values
Adams, Dixon, Erickson, Jones, Maynes, Williams
Eng, Stat
New, Old

Analysis of Variance for SolveTime


Source
Engineer
ProbType
Calculator
ProbType*Calculator
Error
Total
S = 0.259487

DF
5
1
1
1
15
23

SS
1.053
16.667
72.107
3.682
1.010
94.518

R-Sq = 98.93%

MS
0.211
16.667
72.107
3.682
0.067

F
3.13
247.52
1070.89
54.68

R-Sq(adj) = 98.36%

Means

Pg. 14

P
0.039
0.000
0.000
0.000

MTODOS ESTADSTICOS MULTIVARIADOS

ProbType
Eng
Stat
Calculator
New
Old

N
12
12

ProbType
Eng
Eng
Stat
Stat

P. REYES / OCT. 2006

SolveTime
3.8250
5.4917
N
12
12

SolveTime
2.9250
6.3917

Calculator
New
Old
New
Old

N
6
6
6
6

SolveTime
2.4833
5.1667
3.3667
7.6167

Interpretacin de los resultados:


Se muestran los factores (fijos y aleatorios), niveles y valores. Despus se
muestra la tabla de ANOVA, donde se indica de acuerdo al valor P que hay una
interaccin significativa entre el tipo de problema y el modelo de calculadora, lo
que implica que la reduccin en tiempo de proceso de la calculadora depende
del tipo de problema.
En la lista de promedios se observa un menor tiempo entre la calculadora
nueva y la anterior.

Pg. 15

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

ANLISIS MULTIVARIADO DE VARIANZA (MANOVA)


Es un modelo para analizar la relacin entre una o ms variables
independientes y dos o ms variables dependientes. Es decir, es til para
estructuras causales del tipo:

La tcnica posee varios usos, entre los que destacan:


- Evaluar diferencias entre grupos a travs de mltiples variables dependientes
(medidas por intervalos o razn). La(s) variable(s) independiente(s) es(son)
categrica(s) (no mtricas). Tiene el poder de evaluar no solamente las
diferencias

totales,

sino

diferencias

entre

las

combinaciones

de

las

dependientes.
En este sentido representa una extensin del anlisis de varianza (ANOVA)
para cubrir casos donde hay ms de una variable dependiente y/o cuando las
variables dependientes simplemente no pueden ser combinadas. En otras
palabras, reconoce si los cambios en la(s) variable(s) independiente(s) tienen
un efecto significativo en las dependientes. Seala qu grupos difieren en una
variable o en el conjunto de variables dependientes.
- Identificar las interacciones entre las variables independientes y la asociacin
Pg. 16

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

entre las dependientes.


Las tres clases principales del MANOVA son:
1) Hotelling's T. Es parecida a la prueba t (dos grupos) pero con ms
dependientes: una variable independiente dicotmica y varias dependientes.
2) MANOVA unidireccional. Anlogo al ANOVA de una sola va, pero con ms
dependientes: una variable independiente multicategrica y varias
dependientes.
3) MANOVA factorial. Similar al ANOVA factorial, solamente que con dos o ms
dependientes: varias independientes categricas y varias dependientes.
Los modelos del MANOVA tienen en comn que forman combinaciones
lineales de las dependientes que discriminan mejor entre los grupos en un
experimento o una situacin no experimental. Es una prueba de significancia
de las diferencias en los grupos en un espacio multidimensional donde cada
dimensin est definida por combinaciones lineales del conjunto de variables
dependientes.
Una pregunta que suele hacer el estudiante al revisar el MANOVA es por qu
no hacemos ANOVAS separados, uno para cada dependiente? La respuesta:
las dependientes estn correlacionadas muy frecuentemente, por lo cual los
resultados de varios ANOVA pueden ser redundantes y difciles de integrar. He
aqu una sntesis de la explicacin de Wiersma (1999) sobre este tipo de
anlisis:
Al incluir dos o ms variables dependientes simultneamente no se consideran
las diferencias entre las medias en cada variable, sino las diferencias en
variables cannicas. El inters no slo es saber si los grupos definidos por las
variables independientes difieren en las variables cannicas, sino conocer la
naturaleza de stas. Una variable cannica es una variable artificial generada a
partir de los datos. Representa constructos y se compone de variables reales,
Pg. 17

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

las cuales deben ser descritas en trminos de variables dependientes. Lo


anterior se efecta por medio de las ponderacins de los coeficientes de
correlacin entre una variable dependiente y una variable cannica. Si una
ponderacin entre la variable cannica y la dependiente es positiva y elevada,
significa que altos valores en la dependiente se asocian con altos valores en la
cannica. Por ejemplo, si una variable dependiente consiste en puntuaciones a
una prueba sobre innovacin, y dichas puntuaciones se correlacionan en forma
considerable con una variable cannica, inferimos que la variable cannica
representa un constructo que involucra esencialmente a la innovacin.
En los clculos que se hacen en el MANOVA, se generan variables cannicas
hasta que se encuentra que no hay una diferencia estadstica significativa entre
las categoras o los grupos de las variables independientes; o bien, hasta que
se agotan los grados de libertad de las variables independientes (lo que ocurra
primero). El nmero de variables cannicas no puede exceder el nmero de
variables dependientes, pero es comn que el nmero de dependientes sea
mayor que el de variables cannicas estadsticamente significativas o los
grados de libertad.
La hiptesis general de investigacin en el MANOVA postula que las medias de
los grupos o las categoras de la(s) variable(s) independiente(s) difieren entre s
en las variables cannicas. La hiptesis nula postula que dichas medias sern
iguales.
Se calculan diversas estadsticas para evaluar ambas hiptesis, entre las que
destacan: F (total, toma en cuenta el modelo completo), la prueba Hotelling's
TSquare,

T2

(cuando

hay

dos

grupos

formados

por

las

variables

independientes), Wilks' lambda, U (cuando hay ms de dos grupos formados


por las variables independientes), y Pillai-Bartlett (cuando hay coeficientes
cannicos); y si resultan significativas en un nivel de confianza, se acepta la
hiptesis de investigacin de diferencia de medias. Esto indica que hay, por lo
menos, una variable cannica significativa (pero puede haber varias). Si
diversas variables cannicas son significativas, esto muestra que se presentan

Pg. 18

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

diferencias en las variables cannicas en cuestin, entre los grupos o


categoras de las independientes.
Los paquetes estadsticos que contiene el MANOVA suelen posicionar a los
grupos de las variables independientes por puntuaciones discriminantes; stas
son calculadas con una funcin discriminante, que es una ecuacin de
regresin para un compuesto de variables dependientes. A cada grupo se le
asigna una puntuacin discriminante en cada variable cannica. Las
puntuaciones discriminantes de una variable independiente pueden ser cero o
tener un valor positivo o negativo. Una puntuacin discriminante positiva y
elevada para un grupo, indica que ste se coloca por encima de los dems en
la respectiva variable cannica. Y deben considerarse las ponderacins, las
cuales son positivas o negativas. Las puntuaciones discriminantes son
utilizadas para interpretar las separaciones de los grupos en las variables
cannicas, en tanto que las ponderacins se usan para evaluar y ligar los
resultados de las variables dependientes (Wiersma, 1999). Un ejemplo de las
ponderacins

de

los

coeficientes

de

correlacin

dependientes y las variables cannicas as como


discriminantes se muestran en las tablas siguientes:

Pg. 19

entre

las

variables

las puntuaciones

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Como observamos en la ltima tabla, se obtuvieron tres constructos


subyacentes en las puntuaciones recolectadas de la muestra: motivacin
intrnseca, atribucin de causalidad externa y desempeo laboral. Vemos en la
tabla que los grupos (niveles en la empresa) estn separados en las tres
variables cannicas (los grupos difieren), particularmente en la primera variable
cannica (motivacin intrnseca) y los obreros ocupan la posicin ms baja. Las
variables dependientes enmarcadas en un recuadro en la primera variable

Pg. 20

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

cannica se ponderacinn en ella; en consecuencia, los ejecutivos tienen las


puntuaciones ms altas en motivacin intrnseca medida por la escala
mencionada, en atribuciones internas y en sentimientos de xito en el trabajo.
As se interpretan todas las variables cannicas y dependientes.
En el MANOVA se incluyen razones F y anlisis de varianza. Algunos paquetes
estadsticos agregan una prueba denominada correlacin cannica, que es
muy similar al MANOVA. sta es la mxima correlacin que llega a obtenerse
entre los conjuntos de puntuaciones y las relaciones entre las variables
independientes, entre las variables dependientes y entre los conjuntos de
ambas (dependientes e independientes) (Kerlinger, 1979). Las variables en el
MANOVA y la correlacin cannica asumen que las variables dependientes
estn medidas en un nivel de intervalos o razn. Tal correlacin se interpreta
como otras; pero el contexto de interpretacin vara de acuerdo con el nmero
de variables involucradas.

Pg. 21

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Ejemplo con Minitab


Se realiza un estudio para determinar las condiciones ptimas para extruir
pelcula plstica. Se miden tres respuestas Tear, gloss y opacity cinco
veces en cada combinacin de dos factores tasa de extrusin y cantidad de
aditivo cada grupo se pone en niveles bajos y altos. Se utiliza el MANOVA
balanceado para probar la igualdad de las medias.
DATOS
Tear
6.5
6.2
5.8
6.5
6.5
6.9
7.2
6.9
6.1
6.3
6.7
6.6
7.2
7.1
6.8
7.1
7
7.2
7.5
7.6

Gloss
9.5
9.9
9.6
9.6
9.2
9.1
10
9.9
9.5
9.4
9.1
9.3
8.3
8.4
8.5
9.2
8.8
9.7
10.1
9.2

Opacity
4.4
6.4
3
4.1
0.8
5.7
2
3.9
1.9
5.7
2.8
4.1
3.8
1.6
3.4
8.4
5.2
6.9
2.7
1.9

Extrusion
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
2

Additive
1
1
1
1
1
2
2
2
2
2
1
1
1
1
1
2
2
2
2
2

Instrucciones de Minitab
1

Abrir el archivo EXH_MVAR.MTW.

Seleccionar Stat > ANOVA > Balanced MANOVA.

En Responses, poner Tear Gloss Opacity.

En Model, poner Extrusion | Additive.

Pg. 22

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Click Results. En Display of Results, seleccionar Matrices

(hypothesis, error, partial correlations) y Eigen analysis.


6

Click OK en cada cuadro de dilogo.

Los resultados se muestran a continuacin:


Results for: Exh_mvar.MTW
ANOVA: Tear, Gloss, Opacity versus Extrusion, Additive

MANOVA for Extrusion


s = 1

m = 0.5

n = 6.0
Test

Criterion

DF

Statistic

Num

Denom

Wilks'

0.38186

7.554

14

0.003

Lawley-Hotelling

1.61877

7.554

14

0.003

Pillai's

0.61814

7.554

14

0.003

Roy's

1.61877

SSCP Matrix for Extrusion

Tear
Gloss
Opacity

Tear

Gloss

Opacity

1.740

-1.505

0.8555

-1.505

1.301

-0.7395

0.855

-0.739

0.4205

SSCP Matrix for Error


Tear

Gloss

Opacity

Tear

1.764

0.0200

-3.070

Gloss

0.020

2.6280

-0.552

-3.070

-0.5520

64.924

Opacity

Partial Correlations for the Error SSCP Matrix


Tear

Gloss

Opacity

Pg. 23

MTODOS ESTADSTICOS MULTIVARIADOS


Tear

1.00000

0.00929

-0.28687

Gloss

0.00929

1.00000

-0.04226

-0.28687

-0.04226

1.00000

Opacity

P. REYES / OCT. 2006

EIGEN Analysis for Extrusion

Eigenvalue

1.619

0.00000

0.00000

Proportion

1.000

0.00000

0.00000

Cumulative

1.000

1.00000

1.00000

Eigenvector
Tear
Gloss
Opacity

0.6541

0.4315

0.0604

-0.3385

0.5163

0.0012

0.0359

0.0302

-0.1209

MANOVA for Additive


s = 1

m = 0.5

n = 6.0
Test

Criterion

DF

Statistic

Num

Denom

Wilks'

0.52303

4.256

14

0.025

Lawley-Hotelling

0.91192

4.256

14

0.025

Pillai's

0.47697

4.256

14

0.025

Roy's

0.91192

SSCP Matrix for Additive


Tear

Gloss

Opacity

Tear

0.7605

0.6825

1.931

Gloss

0.6825

0.6125

1.732

Opacity

1.9305

1.7325

4.901

EIGEN Analysis for Additive

Eigenvalue

0.9119

0.00000

0.00000

Proportion

1.0000

0.00000

0.00000

Cumulative

1.0000

1.00000

1.00000

Pg. 24

MTODOS ESTADSTICOS MULTIVARIADOS


Eigenvector

Tear

-0.6330

0.4480

-0.1276

Gloss

-0.3214

-0.4992

-0.1694

Opacity

-0.0684

0.0000

0.1102

P. REYES / OCT. 2006

MANOVA for Extrusion*Additive


s = 1

m = 0.5

n = 6.0
Test

Criterion

DF

Statistic

Num

Denom

Wilks'

0.77711

1.339

14

0.302

Lawley-Hotelling

0.28683

1.339

14

0.302

Pillai's

0.22289

1.339

14

0.302

Roy's

0.28683

SSCP Matrix for Extrusion*Additive


Tear

Gloss

Opacity

Tear

0.000500

0.01650

0.04450

Gloss

0.016500

0.54450

1.46850

Opacity

0.044500

1.46850

3.96050

EIGEN Analysis for Extrusion*Additive

Eigenvalue

0.2868

0.00000

0.00000

Proportion

1.0000

0.00000

0.00000

Cumulative

1.0000

1.00000

1.00000

Eigenvector

Tear

-0.1364

0.1806

0.7527

Gloss

-0.5376

-0.3028

-0.0228

Opacity

-0.0683

0.1102

-0.0000

Por default se muestra la tabla para las cuatro pruebas multivariadas (Wliks,
Lawley, Hotelling, Pillai y Roy) para cada uno de los trminos en el modelo.
Los valores s, m y n se utilizan para los clculos de los estadsticos de prueba
Fc, el cual es exacto si s = 1 o 2 de otra forma es aproximado.
Pg. 25

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Examinando los valores P de las pruebas para Extrusin y Aditivo se observa


que son significativas para un nivel de 0.05, no as la interaccin.
Las matrices SSCP se usan para evaluar la contribucin a la variabilidad de
manera similar a la suma de cuadrados en la ANOVA univariada. La matriz
SSCP para Extrusion es la suma de cuadrados de la hiptesis y matriz de
productos cruzados H para las tres respuestas con el trmino de modelo
Extrusin. Los elementos diagonales de esta matriz, 1.740, 1.301 y 0.405 son
las sumas de cuadrados univariados para el trmino del modelo Extrusin
cuando las variables de respuesta son Tear, Gloss y Opacity respectivamente .
Los elementos fuera de la diagonal son los productos cruzados.
La matriz SSCP para el error es la suma de cuadrados de los errores y
productos cruzados E. Los elementos diagonales de la matriz 1.764, 2.6280, y
64.924 son las sumas de cuadrados de los errores para las variables de
respuesta Teat, Gloss y Opacity, respectivamente. Los elementos fuera de la
diagonal de esta matriz son los productos cruzados.
La matriz de correlaciones parciales para el error SSCP, se usa para evaluar
que tanto se relacionan las variables de respuesta. Las correlaciones parciales
entre Tear y Gloss son pequeas con 0.00929 y entre Gloss y Opacity
-0.04226. Y la correlacin parcial entre Tear y Opacity es de -0.28687 tampoco
es grande. Como la estructura de las correlaciones es dbil, se pueden realizar
anlisis univariados de ANOVA para cada una de las respuestas.
Se puede utilizar el anlisis de valores caractersticos o Eigenvalores, para
evaluar como difieren los promedios de las respuestas entre los niveles de los
diferentes trminos del modelo. El anlisis de Eigenvalores es E -1 H donde E es
la matriz SCCP del error y H es la matriz SCCP de las variables de respuesta.
Estos son los eigenvalores utilizados para calcular las cuatro pruebas de
MANOVA.
Poner la mayor importancia en los eigenvectores que corresponden a valores
altos de eigenvalores. En el ejemplo, el segundo y tercer eigenvalores son
pequeos, no signiicativos. Para ambos factores, Extrusion y Additive, los
Pg. 26

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

primeros eigenvalores contienen informacin similar. Para Extrusion is 0.6541,


-0.3385, 0.0359 and for Additive it is -0.6630, -0.3214, -0.0684. El mayor valor
absoluto dentro de esos eigenvalores corresponde a la respuesta Tear, el
segundo a Gloss y el valor para Opacity es pequeo. Esto implica que Tear
tiene la mayor diferencia entre los dos niveles de los factores ya sea Extrusion
o Additive, el Gloss tiene las siguientes mayores diferencias y op.citp. tiene solo
pequeas diferencias.
Para un anlisis ms general utilizar General MANOVA con diseos
balanceados y no balanceados, incluso si se tienen covariados.
1

Seleccionar Stat > ANOVA > General MANOVA.

En Responses, seleccionar hasta 50 columnas numricas conteniendo las

variables de respuesta.
3

En Model, introducir los trminos del modelo que se quiera ajustar.

4. Click OK.

Pg. 27

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

ANLISIS DE COVARIANZA
Definicin: Es un mtodo estadstico que analiza la relacin entre una variable
dependiente y dos o ms independientes, con el que se elimina o controla el
efecto de al menos una de estas independientes. Similar al ANOVA, excepto
que permite controlar la influencia de una variable independiente, la cual con
frecuencia es una caracterstica antecedente que puede variar entre los grupos
(Mertens, 2005) o influir los resultados y afectar la claridad de las
interpretaciones.
Perspectivas o usos: Wildt y Ahtola (1978, pp. 8-9) destacan tres perspectivas
para el anlisis de covarianza:
A. Perspectiva experimental. Se aplica a aquellas situaciones en que el inters
del investigador se centra en las diferencias observadas en la variable
dependiente, por medio de las categoras de la variable independiente (o
variables independientes). Pero el experimentador asume que hay otras
variables independientes cuantitativas que contaminan la relacin y cuya
influencia debe ser controlada.

Pg. 28

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Y el investigador nicamente se interesa por conocer la relacin entre las


variables independientes categricas y la variable dependiente. Desea al
mismo tiempo remover y controlar el efecto de las variables independientes
cuantitativas no categricas (continuas). Es decir, desea tener un esquema
como el de la figura

El objetivo es purificar la relacin entre las independientes categricas y la


dependiente, mediante el control del efecto de las independientes no
categricas o continuas.
Ejemplos de variables independientes categricas seran: gnero (masculino,
femenino), inteligencia (alta, media, baja), ingreso (menos de un salario
mnimo, dos a cuatro salarios mnimos, cinco a 10 salarios mnimos, 11 o ms
salarios mnimos).
Los niveles de medicin nominal y ordinal son categricos en s mismos,
mientras que los niveles de intervalos y razn deben transformarse en
categoras ms discretas. Estos ltimos son en s: cuantitativos, continuos y de
categoras mltiples. Por ejemplo, el ingreso en su estado natural
(ponderacins, dlares, euros, etc.) vara de la categora cero hasta la
categora (K)k, ya que puede haber millones de categoras.
Pg. 29

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Variable categrica unas cuantas categoras o un rango medio.


Variable continua muchas categoras (a veces una infinidad).
A dichas variables independientes cuantitativas continuas, cuya influencia se
controla, se les denomina covariables. Una covariable se incluye en el anlisis
para remover su efecto sobre la variable dependiente, e incrementar el
conocimiento de la relacin entre las variables independientes categricas de
inters y la dependiente, lo cual aumenta la precisin del anlisis.
En esta perspectiva, el anlisis de covarianza puede ser concebido primero
como un ajuste en la variable dependiente respecto a diferencias en la
covariable o las covariables y, posteriormente, como una evaluacin de la
relacin entre las variables independientes categricas y los valores ajustados
de la variable dependiente (Wildt y Ahtola, 1978). En trminos de Creswell
(2005):
El procedimiento ajusta las puntuaciones en la dependiente para dar cuenta
por la covarianza (por decirlo en trminos sencillos: hace equivalentes a los
grupos en la(s) covariable(s) y controla influencias potenciales que pueden
afectar a la variable dependiente).
B. Perspectiva de inters por la covariable. Esta perspectiva se ejemplifica con
aquellas instancias en las cuales el inters principal se centra en analizar la
relacin entre la variable dependiente y la covariable (variable cuantitativa
continua) o las covariables. Aqu el enfoque es distinto; la influencia que se
remueve es la de las variables independientes categricas. Primero se controla
el efecto (en este caso contaminante) de estas variables y despus se analiza
el efecto purificado de las covariables.
C. Perspectiva de regresin. En esta tercera perspectiva, tanto las variables
independientes categricas como las covariables resultan de inters para el
investigador, quien puede desear examinar el efecto de cada variable
Pg. 30

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

independiente (covariables y no covariables, todas) y despus ajustar o corregir


los efectos de las dems variables independientes.
En cualquier caso, el anlisis de covarianza elimina influencias no deseadas
sobre la variable dependiente. Se puede utilizar en contextos experimentales y
no experimentales. La mayora de las veces la funcin del ANCOVA es
remover la varianza compartida entre una o ms covariables y la dependiente,
de este modo, se valora en su justa dimensin la relacin causal entre la(s)
variable(s) independiente(s) de inters y la dependiente (Creswell, 2005).
Vemoslo conceptualmente pero de forma grfica con un ejemplo simple:
Ejemplo:
Estudio: Al investigador le interesa analizar el efecto en el aprendizaje de la
computacin, por medio un nuevo mtodo para su enseanza a nios. La
hiptesis es: El nuevo mtodo de enseanza de la computacin (MA-RH)
provocar un mayor aprendizaje en los nios que un mtodo tradicional.
Entonces, implementa el siguiente experimento: A un grupo de infantes lo
expone al nuevo mtodo de enseanza de computacin (MA-RHS); a otro
grupo no lo expone al nuevo mtodo, ste aprende con el mtodo tradicional;
finalmente, a un tercer grupo, de control, no recibe ningn tipo de enseanza
en computacin.
La variable independiente es el tipo de mtodo con tres categoras o niveles
(mtodo nuevo, mtodo tradicional y ausencia de mtodo), la dependiente es el
aprendizaje en computacin (medida por una prueba estandarizada a nivel de
intervalos). Se tiene un esquema como el de la figura

Pg. 31

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Con el experimento el investigador desea conocer la varianza en comn entre


mtodo y aprendizaje (cuantificarla), la relacin XY (pura). Si los nios son
asignados al azar a los grupos del experimento y tiene grupos de tamao
aceptable, por el diseo mismo, remueve la influencia de las covariables que
pudieran afectar. Pero si no es factible hacerlo y tiene un diseo
cuasiexperimental (grupos intactos), debe remover tal influencia con el anlisis
de covarianza (eliminar al mnimo posible la varianza del aprendizaje
no explicada), para evitar que las covariables impidan ver con claridad la
relacin XY. Por ejemplo, el nivel educativo tecnolgico de los padres puede
influir (hace variar al aprendizaje) y este efecto debe ser controlado, al
introducirlo como covariable.

Pg. 32

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Lo que el investigador desea tambin se puede expresar grficamente as:

Wildt y Ahtola (1978, p. 13) definen algunos usos del anlisis de covarianza:
1. Incrementar la precisin en experimentos con asignacin al azar.
Pg. 33

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

2. Eliminar influencias extraas o contaminantes que pueden resultar cuando


las pruebas o los individuos no son asignados al azar a las diferentes
condiciones experimentales (grupos de un experimento).
3. Eliminar efectos de variables que confundan o distorsionen la interpretacin
de resultados en estudios no experimentales.
Nivel de medicin de las variables: La variable dependiente siempre est
medida por intervalos o razn y las variables independientes pueden estar
medidas en cualquier nivel.
Interpretacin: Depende de cada caso especfico, ya que el anlisis de
covarianza efectuado mediante un programa estadstico computacional,
produce un cuadro de resultados muy parecido al del anlisis de varianza. Los
elementos ms comunes pueden obssevarse en la tabla ANOVA.
La razn F es, igual que en el anlisis de varianza, una razn de varianzas. El
razonamiento estadstico es el mismo y F se interpreta igual, incluso se utiliza
el mismo cuadro de la distribucin F. Solamente que las inferencias y
conclusiones se hacen al considerar que las medias de la variable
dependiente, a travs de las categoras de las variables independientes, se han
ajustado, de este modo eliminan el efecto de la covariable o covariables.

Ejemplo:
Diseo de investigacin que utiliza el anlisis de covarianza
Hi: Los trabajadores que reciban retroalimentacin verbal sobre el desempeo
de parte de su supervisor mantendrn un nivel mayor de productividad que los
trabajadores que reciban retroalimentacin sobre el desempeo por escrito,
ms an que los trabajadores que no reciban ningn tipo de retroalimentacin.
__
Hi: X1

__

__

> X2 >

X3

(verbal) (por escrito) (ausencia)

Pg. 34

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

El investigador plantea un diseo experimental para intentar probar su


hiptesis. Sin embargo, no puede asignar aleatoriamente a los trabajadores a
los tres grupos del experimento. El diseo sera con grupos intactos
(cuasiexperimental) y se esquematizara as:

Asimismo, el investigador presupone que hay un factor que puede


contaminar los resultados (actuar como fuente de invalidacin interna): la
motivacin. Diferencias iniciales en motivacin pueden invalidar el estudio.
Como la asignacin al azar est ausente, no se sabe si los resultados se ven
influidos por dicho factor. Entonces, el experimentador decide eliminar o
controlar el efecto de la motivacin sobre la productividad para conocer los
efectos de la variable independiente: tipo de retroalimentacin. La motivacin
se convierte en covariable.
El esquema es el que se muestra en la figura

Pg. 35

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Cabe destacar que, para introducir una covariable en el anlisis, de preferencia


debe medirse antes del inicio del experimento.
El anlisis de covarianza quita a la variabilidad de la dependiente lo que se
debe a la covariable. Ajusta la varianza de la variable dependiente en las
categoras de la independiente, al basarse en la covariable. En el ejemplo,
ajusta la varianza de la productividad debida a la motivacin, en las categoras
experimentales (tratamientos o grupos). El ajuste se realiza sobre la base de la
correlacin

entre

la

covariable

la

dependiente.

Esto

se

muestra

esquemticamente en la tabla.
Una vez realizado el anlisis de covarianza, se evala si F es o no significativa.
Cuando F resulta significativa se acepta la hiptesis de investigacin.
Si el resultado fuera:
G1 = 35
G2 = 36
La correlacin entre la calificacin en motivacin y las puntuaciones en
productividad es la base para el ajuste.
G3 = 38
Glentre = K 1 = 3 1 = 2
Glintra = N K = 107
F = 1.70
Comparamos con el valor de la tabla respectiva: en el nivel de 0.05 es igual a
3.07, y nuestra razn F a 1.70 es menor a este valor. Por lo tanto, rechazamos
la hiptesis de investigacin y aceptamos la hiptesis nula. Esto se contrasta y
profundiza con las medias ajustadas de los grupos que proporcione el anlisis
de covarianza (no las medias obtenidas en el experimento por cada grupo, sino
las ajustadas con base en la covariable).

Pg. 36

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Recordemos que SPSS nos proporciona automticamente la significancia de F.

Ejemplo:
Determinar si hay diferencia en la resistencia de una fibra monofilamento
producida por tres mquinas diferentes. El dimetro de la fibra parece tener
influencia en la resistencia como se muestra abajo (covariado de Y).
Datos de resistencia - Y es la respuesta, X es el covariado.
Y
36
41
39
42
49
40
48
39
45
44
35
37
42
34
32

X
20
25
24
25
32
22
28
22
30
28
21
23
26
21
15

Maq
1
1
1
1
1
2
2
2
2
2
3
3
3
3
3

La relacin entre X y Y es significativa como se observa en la siguiente grfica:


En Minitab:
1. Stat > Regresin > Fitted line plot
2. Introducir Y y X, seleccionar Linear
3. OK

Pg. 37

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Fitted Line Plot


Y = 14.14 + 1.080 X
50

S
R-Sq
R-Sq(adj)

1.78174
88.1%
87.2%

45

40

35

30
15.0

17.5

20.0

22.5

25.0

27.5

30.0

32.5

Para el ANOVA con Covariados, las instrucciones de Minitab son las


siguientes:
1. Stat > ANOVA > General Linear Model
2. Introducir en Response Y, en Model X y Maquina
3. En Covariates X
4. En Results en Display Least Square Means corresponding to the terms Maq
5. En Graphs seleccionar Normal plot for residuals
6. OK
Los resultados se muestran a continuacin:
General Linear Model: Y versus Maq
Factor
Maq

Type
fixed

Levels
3

Values
1, 2, 3

Analysis of Variance for Y, using Adjusted SS for Tests


Source
X
Maq
Error
Total

DF
1
2
11
14

S = 1.59505

Seq SS
305.13
13.28
27.99
346.40

Adj SS
178.01
13.28
27.99

R-Sq = 91.92%

Adj MS
178.01
6.64
2.54

F
69.97
2.61

P
0.000
0.118

R-Sq(adj) = 89.72%

Pg. 38

MTODOS ESTADSTICOS MULTIVARIADOS

Term
Constant
X

Coef
17.177
0.9540

SE Coef
2.783
0.1140

T
6.17
8.36

P. REYES / OCT. 2006

P
0.000
0.000

Unusual Observations for Y


Obs
7

Y
48.0000

Fit
45.1080

SE Fit
0.7489

Residual
2.8920

St Resid
2.05 R

R denotes an observation with a large standardized residual.


Means for Covariates
Covariate
X

Mean
24.13

StDev
4.324

Least Squares Means for Y


Maq
1
2
3

Mean
40.38
41.42
38.80

SE Mean
0.7236
0.7444
0.7879

Conclusin:
Se observa que no hay diferencia en las mquinas una vez que eliminamos la
variabilidad introducida por el dimetro de la fibra, en caso de no haber tomado
en cuenta la covarianza del dimetro en la resitencia, se hubiese concluido al
revs, que si hay diferencia en las mquinas, como se muestra a continuacin:
Con Minitab:
1. Stat > ANOVA > One way
2. Response Y Factor Maquina
3. OK
Los resultados son los siguientes:
One-way ANOVA: Y versus Maq
Source
Maq
Error
Total

DF
2
12
14

S = 4.143

SS
140.4
206.0
346.4

MS
70.2
17.2

F
4.09

R-Sq = 40.53%

P
0.044

R-Sq(adj) = 30.62%

Individual 95% CIs For Mean Based on Pooled

Pg. 39

MTODOS ESTADSTICOS MULTIVARIADOS

Level
1
2
3

N
5
5
5

Mean
41.400
43.200
36.000

StDev
4.827
3.701
3.808

P. REYES / OCT. 2006

StDev
+---------+---------+---------+--------(---------*----------)
(---------*---------)
(---------*---------)
+---------+---------+---------+--------32.0
36.0
40.0
44.0

Pooled StDev = 4.143

Conclusin: Como P value es menor a 0.05 aparentemente si hay diferencia


entre mquinas.

Pg. 40

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

ANALISIS DISCRIMINANTE
El anlisis discriminante, se aplica cuando las variables independientes son
medidas por intervalos o razn, y la dependiente es categrica. Tal anlisis
sirve para predecir la pertenencia de un caso a una de las categoras de la
variable dependiente, sobre la base de varias independientes (dos o ms). Se
utiliza una ecuacin de regresin llamada funcin discriminante. Por ejemplo, si
queremos predecir el voto obtenido por dos partidos contendientes (variable
dependiente nominal con dos categoras) sobre la base de cuatro variables
independientes, aplicaremos el anlisis discriminante, para resolver una
ecuacin de regresin; as se obtienen las predicciones individuales. En el
ejemplo, hay dos categoras (votar por A o votar por B); por tanto, los valores a
predecir son 0 y 1 (A y B, respectivamente). Si el sujeto obtiene una puntuacin
ms cercana a cero, se predice que pertenece al grupo que votar por A; si
logra una puntuacin ms cercana a 1, se predice que pertenece al grupo que
votar por B. Adems, se consigue una medida del grado de discriminacin del
modelo.
Usar el Anlisis Discrimnate para clasificar observaciones en dos o ms
grupos si se tiene una muestra con grupos conocidos. Se puede utilizar
tambin para investigar como contribuyen las variables a la separacin de
grupos.
Se pueden hacer anlisis discriminantes lineales y cuadrticos. Los lineales
asumen que todos los grupos tienen la misma matriz de covarianza, los
cuadrticos no hacen este supuesto y no son bien comprendidos.
Para el caso de clasificar las observaciones nuevas en una de dos categoras,
la regresin logstica puede ser superior al anlisis discriminante.

Ejemplo:
Para regular la pesca de salmn, se desea identificar si el pescado es originario
de Alaska o de Canad. Cincuenta peces de cada lugar de origen fueron
capturados y pesados cuando vivan en agua dulce y cuando vivieron en agua

Pg. 41

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

salada. El objetivo es el de poder identificar si los nuevos pescados vienen de


criaderos en Alaska o Canad. Los datos se muestran a continuacin:
SalmonOrigin Freshwater
Alaska
108
Alaska
131
Alaska
105
Alaska
86
Alaska
99
Alaska
87
Alaska
94
Alaska
117
Alaska
79
Alaska
99
Alaska
114
Alaska
123
Alaska
123
Alaska
109
Alaska
112
Alaska
104
Alaska
111
Alaska
126
Alaska
105
Alaska
119
Alaska
114
Alaska
100
Alaska
84
Alaska
102
Alaska
101
Alaska
85
Alaska
109
Alaska
106
Alaska
82
Alaska
118
Alaska
105
Alaska
121
Alaska
85
Alaska
83
Alaska
53
Alaska
95
Alaska
76
Alaska
95
Alaska
87
Alaska
70
Alaska
84
Alaska
91
Alaska
74
Alaska
101
Alaska
80
Alaska
95
Alaska
92
Alaska
99
Alaska
94

Marine
368
355
469
506
402
423
440
489
432
403
428
372
372
420
394
407
422
423
434
474
396
470
399
429
469
444
397
442
431
381
388
403
451
453
427
411
442
426
402
397
511
469
451
474
398
433
404
481
491

SalmonOrigin Freshwater
Canada
129
Canada
148
Canada
179
Canada
152
Canada
166
Canada
124
Canada
156
Canada
131
Canada
140
Canada
144
Canada
149
Canada
108
Canada
135
Canada
170
Canada
152
Canada
153
Canada
152
Canada
136
Canada
122
Canada
148
Canada
90
Canada
145
Canada
123
Canada
145
Canada
115
Canada
134
Canada
117
Canada
126
Canada
118
Canada
120
Canada
153
Canada
150
Canada
154
Canada
155
Canada
109
Canada
117
Canada
128
Canada
144
Canada
163
Canada
145
Canada
133
Canada
128
Canada
123
Canada
144
Canada
140
Canada
150
Canada
124
Canada
125
Canada
153

Pg. 42

Marine
420
371
407
381
377
389
419
345
362
345
393
330
355
386
301
397
301
438
306
383
385
337
364
376
354
383
355
345
379
369
403
354
390
349
325
344
400
403
370
355
375
383
349
373
388
339
341
346
352

MTODOS ESTADSTICOS MULTIVARIADOS

Alaska

87

480

P. REYES / OCT. 2006

Canada

108

339

Las intrucciones de Minitab son las siguientes:


1

Abrir la worksheet EXH_MVAR.MTW.

Stat > Multivariate > Discriminant Analysis.

En Groups, poner SalmonOrigin.

En Predictors, poner Freshwater Marine. Click OK.

Los resultados obtenidos se muestran a continuacin:


Discriminant Analysis: SalmonOrigin versus Freshwater, Marine
Linear Method for Response: SalmonOrigin
Predictors: Freshwater, Marine
Group
Count

Alaska
50

Canada
50

Summary of classification
True Group
Alaska Canada
44
1
6
49
50
50
44
49
0.880
0.980

Put into Group


Alaska
Canada
Total N
N correct
Proportion
N = 100

N Correct = 93

Proportion Correct = 0.930

Squared Distance Between Groups


Alaska
Canada

Alaska
0.00000
8.29187

Canada
8.29187
0.00000

Linear Discriminant Function for Groups


Alaska Canada
Constant
-100.68 -95.14
Freshwater
0.37
0.50
Marine
0.38
0.33
Summary of Misclassified Observations
Observation
1**

True Group
Alaska

Pred Group
Canada

2**

Alaska

Canada

12**

Alaska

Canada

13**

Alaska

Canada

30**

Alaska

Canada

32**

Alaska

Canada

Group
Alaska
Canada
Alaska
Canada
Alaska
Canada
Alaska
Canada
Alaska
Canada
Alaska

Pg. 43

Squared
Distance
3.544
2.960
8.1131
0.2729
4.7470
0.7270
4.7470
0.7270
3.230
1.429
2.271

Probability
0.428
0.572
0.019
0.981
0.118
0.882
0.118
0.882
0.289
0.711
0.464

MTODOS ESTADSTICOS MULTIVARIADOS

71**

Canada

Alaska

Canada
Alaska
Canada

P. REYES / OCT. 2006


1.985
2.045
7.849

0.536
0.948
0.052

Interpretando los resultados


El Anlisis Discriminante identific correctamente 93 de los 100 peces, a pesar
de que la probabilidad de clasificar correctamente un pez de Alaska fue menor
(44/50 o 88%) que la probabilidad de clasificar correctamente un pez de
Canad (49/50 o 98%). Para identificar el origen de un pez recientemente
capturado depende de cual valor discriminante sea mayor. Se puede correr el
anlisis discriminante de nuevo y predecir a que grupo pertenecen las nuevas
observaciones.
El resumen de las observaciones mal clasificadas muestra la distancia al
cuadrado desde el punto mal clasificado a los centroides del grupo (vectores
medios) y las probabilidades posteriores. Las observaciones son asignadas al
grupo con la mayor probabilidad posterior.
Si en Options introducimos en Predict membership for: 100 130, la
clasificacin aparece como:
Prediction for Test Observations
Observation
1

Pred Group
Canada

From Group
Alaska
Canada

Squared
Distance

Probability

78.448
55.194

0.000
1.000

Pg. 44

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

ANLISIS DE CONGLOMERADOS
Se cuenta tambin con el anlisis de conglomerados o clusters (tcnica para
agrupar los casos o elementos de una muestra en grupos con base en una o
ms variables).
Usar Anlisis de componentes principales para ayudar a comprender la
estructura de datos y/o a formar un pequeo nmero de variables no
correlacionadas (por ejemplo para evitar multicolinealidad en la regresin).

Ejemplo:
Se registran las siguientes caractersticas para 14 censos: Poblacin total
(Pop), mediana de aos escolares (School), empleo total (Employ),empleo en
servicios de salud (Health), y valor mediano del valor de la casa (Home). Los
datos se muestran a continuacin:
Pop
5.935
1.523
2.599
4.009
4.687
8.044
2.766
6.538
6.451
3.314
3.777
1.53
2.768
6.585

School
14.2
13.1
12.7
15.2
14.7
15.6
13.3
17
12.9
12.2
13
13.8
13.6
14.9

Employ
2.265
0.597
1.237
1.649
2.312
3.641
1.244
2.618
3.147
1.606
2.119
0.798
1.336
2.763

Health
2.27
0.75
1.11
0.81
2.5
4.51
1.03
2.39
5.52
2.18
2.83
0.84
1.75
1.91

Home
2.91
2.62
1.72
3.02
2.22
2.36
1.97
1.85
2.01
1.82
1.8
4.25
2.64
3.17

Se realiza un anlisis de components principales para comprender la estructura


de datos subyacente. Se usa la matriz de correlacin para estandarizar las
mediciones dado que no se mide con la misma escala.
Las instrucciones de Minitab son las siguientes:
1

Abrir la worksheet EXH_MVAR.MTW.

Stat > Multivariate > Principal Components.

En Variables, Pop-Home.

En Type of Matrix, seleccionar Correlation.

Pg. 45

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Click Graphs y seleccionar Scree plot.

Click OK en cada cuadro de dilogo.

Los resultados se muestran a continuacin:


Principal Component Analysis: Pop, School, Employ, Health, Home
Eigenanalysis of the Correlation Matrix
Eigenvalue
Proportion
Cumulative
Variable
Pop
School
Employ
Health
Home

3.0289
0.606
0.606
PC1
-0.558
-0.313
-0.568
-0.487
0.174

1.2911
0.258
0.864
PC2
-0.131
-0.629
-0.004
0.310
-0.701

0.5725
0.114
0.978
PC3
0.008
-0.549
0.117
0.455
0.691

0.0954
0.019
0.998
PC4
0.551
-0.453
0.268
-0.648
0.015

0.0121
0.002
1.000
PC5
-0.606
0.007
0.769
-0.201
0.014

Scree Plot of Pop, ..., Home


3.0

Eigenvalue

2.5
2.0
1.5
1.0
0.5
0.0
1

3
Component Number

Interpretando los resultados


El primer componente principal tiene varianza (eigenvalor) 3.029 y acumula el
60.6% de la varianza total. Los coeficientes para el PC1 muestran como
calcular el nivel del componente principal.
PC1 = .558 Pop .313 School .568 Employ .487 Health + .174 Home
Notar que la interpretacin de los components principales es subjetiva, sin
embargo, frecuentemente surgen patrones obvios. Por ejemplo, se podra
pensar que el primer componente represente el efecto del tamao de la

Pg. 46

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

poblacin total, el nivel de escolaridad, empleo y servicios de salud, dado que


los coeficientes de estos trminos tienen el mismo signo y no son cercanos a
cero.
El segundo componente tiene varianza 1.2911 y acumula el 25.8% de la
variabilidad de los datos. Se calcula de los datos originales usando los
coeficientes listados en PC2. Este componente podra ser pensado como nivel
de contraste de escolaridad y valor de la casa con salud y empleo de alguna
manera.
Juntos el primero y segundo componentes representan el 86.4% y 97%,
respectivamente, de la variabilidad total. As, la mayora de la estructura de
datos puede ser capturada en dos o tres dimensiones relevantes. Los
componentes remanentes solo tienen una menor proporcin de probabilidad y
no son importantes. La grfica Scree proporciona una visin grfica de lo
anterior.

Pg. 47

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

ANLISIS FACTORIAL
El anlisis factorial es un mtodo cuyo propsito principal es definir la
estructura subyacente de una matriz de datos. Atiende el problema de analizar
la estructura de las interrelaciones (correlaciones) entre un gran nmero de
variables

(vgr. Respuestas de cuestionarios) al definir un conjunto de

dimensiones subyacentes comunes, conocidas como factores. Con el anlisis


factorial se identifican las dimensiones separadas de la estructura y despus se
determina que tanto cada variable es explicada por cada dimensin. Una vez
que se determinan las dimensiones y se explican las variables por cada
dimensin, se puede hacer un resumen y reduccin de datos.
El anlisis factorial es una tcnica de interdependencia en la cual todas las
variables son consideradas de manera simultanea, cada una relacionada a las
otras, y empleando el concepto de variate, composicin lineal de variables. De
hecho las variates (factores) se forman para maximizar su explicacin de todo
el conjunto de variables, no para predecir una variable dependiente(s). Una
variate (factor) es una variable dependiente que es funcin del conjunto total de
variables.
Se usa el Anlisis factorial, de manera similar al anlisis de componentes
principales, para resumir la estructura de covarianza de los datos en una pocas
dimensiones de los mismos. Sin embargo, el nfasis en anlisis factorial es la
identificacin de los factores subyacentes que pueden explicar las
dimensiones asociadas con la gran variabilidad de los datos.
Se pueden tener tres tipos de datos de entrada:

Columnas de datos unitarios

Una Matriz de correlaciones o covarianzas

Columnas conteniendo ponderaciones de factores

Con los datos del ejemplo anterior de Componentes principales, realizar un


anlisis factorial como sigue:

Pg. 48

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Nos gustara investigar que factores pueden explicar la mayor parte de la


variabilidad. Como primer paso del anlisis factorial, se utiliza la extraccin de
componentes principales y se examinan los eigenvalores en grfica como
ayuda para decidir el nmero de factores.

PROCESO DE DECISIN DE ANLISIS FACTORIAL


Paso 1. Objetivos del Anlisis factorial
El propsito es encontrar una forma de condensar (resumir) la informacin
contenida en un cierto nmero de variables originales, en un grupo ms
pequeo de dimensiones nuevas, compuestas o variates (factores) con un
mnimo de prdida de informacin.
Por ejemplo si hay datos de 100 cuestionarios en 10 caractersticas, el anlisis
factorial se aplica a la matriz de correlacin de variables y se denomina
Anlisis Factorial R, para identificar las dimensiones que estn latentes o no
son fcilmente observables.
El anlisis factorial tambin se puede aplicar a una matriz de correlacin de los
cuestionarios individuales basados sus caractersticas, referido como Anlisis
Factorial Q, es un mtodo de condensar o combinar un grupo grande de gente
en diferentes grupos distintos dentro de una poblacin grande, para esto se
utiliza el anlisis de conglomerados (clusters).

Paso 2. Diseo del anlisis factorial


Incluye tres decisiones bsicas: (1) clculo de los datos de entrada (una matiz
de correlacin) para cumplir con los objetivos especificados de agrupar
variables o cuestionarios; (2) el diseo del estudio en trminos del numeor de
variables, propiedades de medicin de las variables, y el tipo de variables
permitidas y (3) el tamao de muestra necesario (al menos 5 veces el nmro de
variables analizadas), ambos en trminos absolutos y como funcin de del
nmero de variables en el anlisis.

Paso 3. Supuestos del anlisis factorial


Pg. 49

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Es deseable algn grado de multicolinealidad entre variables dado que el


objetivo es identificar conjuntos de variables interrelacionadas, no son tan
importantes la normalidad, homoestacidad y linealidad a menos que
disminuyan significativamente las correlaciones observadas.
La matriz de correlacin debe indicar valores mayores a 0.3 para aplicar el
anlisis de correlacin. Tambin si las correlaciones parciales entre variables
(correlacin entre variables cuando el efecto de las otras variables se toma en
cuenta) son pequeas dado que la variable puede explicada por los factores
(variates con ponderacins para cada una de

las variables). Si las

correlaciones parciales son altas, no hay factores subyacentes verdaderos y


el anlisis factorial es inapropiado.
La prueba de esfericidad de Bartlett mide la presencia de correlaciones entre
las variables, proporciona la probabilidad de que la matriz de correlacin tenga
correlaciones significativas en algunas de las variables. Otro indicador es el
Measure of Sampling Adequacy (MSA), con rango de 0 a 1, donde 0.8 o ms
es meritorio; 0.07 o ms es regular; 0.60 o ms es mediocre; 0.50 o ms
miserable y debajo de 0.50 inaceptable.
El supuesto bsico en el anlisis factorial es que existe una estructura
subyacente en el conjunto de variables seleccionadas.

Paso 4. Identificando factores y evaluando el ajuste del modelo


Una vez que se especifican las variables y se prepara la matriz de correlacin,
se toman decisiones en relacin a (1) el mtodo de extraccin de los factores
(anlisis de factores comunes versus anlisis de componentes) y (2) el nmero
de factores seleccionados para representar la estructura subyacente en los
datos.
Anlisis de componentes
El anlisis de componentes se usa cuando el objetivo es resumir la mayor parte
de la informacin original (varianza) en un mnimo nmero de factores para

Pg. 50

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

propsitos de prediccin. Considera la varianza total y determina factores que


contienen pequeas proporciones de varianza nica y, en algunos casos,
varianza del error.
Anlisis factorial
En contraste el anlisis de factores comunes se utiliza para identificar los
factores subyacentes o dimensiones que reflejan aquello que las variables
comparten en comn.
En este mtodo se tienen tres tipos de varianzas: (1) comn, (2) especfica
(nica), y (3) error. La varianza comn se define como la varianza en una
variable que es compartida por todas las dems variables. La varianza
especfica es la varianza asociada solo con una variable especfica. La
varianza del error es la varianza debida a la incertidumbre en el proceso de
recoleccin de datos, errores de medicin, o componente aleatorio en el
fenmeno medido.
Criterios para el nmero de factores a extraer
El mtodo primero extrae la combinacin de variables explicando la mayor
cantidad de varianza y despus continua con combinaciones que representan
menos y menos cantidades de varianza.
La seleccin de factores a extraer equivale a enfocar un microscopio
normalmente se hace por prueba y error contrastando los resultados.
Criterio de Raz Latente: su racional es que cualquier factor individual debe
contener la varianza de al menos una variable. Como cada variable contribuye
con 1 al eigenvalor total o raz latente. Se seleccionan solo los factores con
eigenvalores mayores a uno, cuando se tienen menos de 20 variables, los
factores extrados son pocos.
Criterio a Priori: en este mtodo el investigador ya tiene una idea clara de los
factores a extraer y as lo indica en la computadora.

Pg. 51

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Criterio de porcentaje de varianza: Enfoque basado en lograr un porcentaje


acumulado de varianza total extrado por factores sucesivos. Normalmente el
proceso para al acumular 95%.
Criterio Scree Test: Se usa para identificar el nmero ptimo de factores que
pueden ser extrados antes de que la cantidad de varianza nica empiece a
dominar la estructura de varianza comn.
Eig
env
alor
1

Nmero de factores

Paso 5. Interpretando los factores


Se obtiene la matriz no rotada para estimar el nmero de factores a extraer. La
matriz de factores contiene ponderacins de factores para cada variable en
cada factor. El primer factor puede verse como la mejor combinacin lineal
incluida en los datos, con cada factor con ponderacins significativos y acumula
la mayor parte de a varianza; el segundo factor es la segunda mejor
combinacin lineal de variables, sujeta a que es ortogonal al primer factor, se
basa en la porcin residual de la varianza una vez removido el primero, as
sucesivamente.
Los ponderacins de los factores representan la correlacin de cada una de las
variables y el factor, entre mayores sean, mayor ser la representatividad del
factor por la variable.

Pg. 52

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

La rotacin de los factores ms simple es una rotacin ortogonal, en la cual


se mantienen los ejes a 90 grados. Se pueden rotar los ejes sin mantener los
90 grados entre los ejes de referencia. Cuando no hay restriccin de
ortogonalidad, el procedimiento de rotacin se denomina rotacin oblicua.
+1 Factor II rotado

+1 Factor II sin rotar


V1
V2

+1 Factor I sin rotar

-1
V4
V3
V5

+1 Factor I rotado

-1
Factor II

Fig. 1 Rotacin ortogonal de factores ( observar la ponderacin

o ponderacin de factores I y

II en la variable V2, es ms clara cuando se rotan los factores)

En la figura se observan dos conglomerados de variables (V1 y V2) y (V3, V4 y


V5), sin embargo con los factores sin rotar no es muy obvia su ponderacin o
ponderacin de los factores I y II. Despus de la rotacin de los ejes de
factores, las variables 3, 4 y 5 tienen una ponderacin o ponderacin fuerte de
factor I, y las variables 1 y2 tienen una ponderacin o ponderacin fuerte en el
factor II. Siendo ms obvia la distincin entre conglomerados en dos grupos.
Mtodos de rotacin ortogonal
En la prctica el objetivo de todos los mtodos de rotacin es simplificar las
filas y columnas de la matriz de factores para facilitar la interpretacin. En una
matriz de factores las columnas representan factores, con cada rengln
correspondiente a la ponderacin de las variables a travs de los factores. Al
simplificar los renglones, se hacen tantos valores en cada fila tan cercanos a
cero como sea posible (i.e. maximizando la ponderacin de una variable con un
Pg. 53

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

factor nico). Simplificando las columnas, se hacen tantos valores en las


columnas tan cercanos a cero como sea posible (i.e. hacer el mximo nmero
de ponderacins altas como sea posible). Se han desarrollado tres mtodos
para lo anterior como sigue:
Quartimax: para simplificar las filas de la matriz; o sea, que Quartimax se
enfoca a rotar los factores iniciales de manera que las variables tengan la
mayor ponderacin posible de un factor y la mnima de los otros. Aunque este
mtodo no ha sido eficiente.
Varimax: se centra en simplificar las columnas de la matriz factorial. La
mxima simplificacin posible se logra cuando solo hay 1s y 0s en la columna.
Es decir que VARIMAX maximiza la suma de variancias de ponderacins
requeridas de la matriz factorial. Este mtodo ha probado ser un mtodo
analtico efectivo para obtener una rotacin ortogonal de factores.
Equimax:
Es un compromiso entre las anteriores. Trata de simplificar los renglones y las
columnas, no se utiliza frecuentemente.
Mtodos de rotacin oblicua:
Estos mtodos son similares a las rotaciones ortogonales excepto que permiten
factores correlacionados en vez de mantener la independencia de los factores
rotados.
En general no hay reglas para seleccionar uno de los mtodos anteriores.
Criterios para la significancia de ponderacin de factores en las variables
De manera prctica si las ponderacins son de 0.30 se considera que
cumplen el nivel mnimo; ponderacins de 0.40 son importantes; 0.50 o
mayores son significativas en la prctica. Como la ponderacin del factor es la
correlacin de la variable y el factor, la ponderacin al cuadrado es la cantidad
representada de la varianza total por el factor. De esta forma con 0.3 se tiene

Pg. 54

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

un 10% de explicacin y un 0.5 de ponderacin denota que un 25% de la


varianza es representada por el factor.
Evaluando la significancia estadstica
Con base en un nivel de significancia de 0.05, un nivel de potencia del 80% y
errores estndar asumidos se el doble de los coeficientes de correlacin
convencionales, se tiene la tabla siguiente:
Ponderacin
del factor

Tamao

muestra requerida
para

0.30
0.35
0.40
0.45
0.50
0.55
0.60
0.65
0.70

de
tener

significancia
350
300
250
200
150
100
85
70
60

Resumiendo las guas para la significancia de los factores son:


(1) entre mayor sea el tamao de muestra, el valor de ponderacin
significativo se reduce.
(2) Entre ms variables sean consideradas en el anlisis, ms pequea es
la ponderacin que se considera significativa.
(3) Entre ms factores haya, mayor es la ponderacin en los factores
adicionales para que sea considerada significativa.
Cada columna de nmeros en la matriz representa un factor por separado. Las
columnas de nmeros representan las ponderacins para cada una de las
variables. Identificar la ms alta ponderacin para cada variable. Recordar que
para tamaos de muestra similares a 100 se considera significante 0.3. La
comunalidad para cada variable representa la cantidad de varianza
considerada por la solucin factorial para cada variable. Evaluar la comunalidad
de las variables, es decir identificar las que tengan ms del 50%, ya que las
Pg. 55

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

que tengan menos no tienen suficiente explicacin. El nombre de los factores


se desarrolla de manera intuitiva, con base en las variables con una mayor
ponderacin se consideran ms importantes y tienen una mayor influencia para
el nombre seleccionado para representar al factor.

Validacin del anlisis factorial


Se trata de evaluar el grado de generalizacin de los resultados en la poblacin
y la influencia potencial de casos individuales en los resultados totales.
El alfa de Cronbach es una medida del coeficiente de confiabilidad que evalua
la consistencia de toda la escala. Este ndice es la relacin positiva del nmero
de tems en la escala, donde 0.7 se considera adecuado.

Pg. 56

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Ejemplo con datos de HATCO


Prueba de la adecuacin del modelo, utilizando Minitab:
1. Stat > Basic statistics > Correlation
2. Variables X1, X2, X3, X4, X6, X7
3. Display p values
4. OK
Correlations: X1, X2, X3, X4, X6, X7
X1
-0.349
0.000

X2

X3

0.476
0.000

-0.472
0.000

X4

0.050
0.618

0.272
0.006

-0.095
0.347

X6

0.077
0.446

0.186
0.064

-0.015
0.880

0.788
0.000

X7

-0.483
0.000

0.470
0.000

-0.407
0.000

0.200
0.046

X2

X3

X4

X6

0.177
0.078

Cell Contents: Pearson correlation


P-Value

De la matriz, 7 de 15 correlaciones son significativas estadsticamente. El valor


de MSA de 0.665 cumple con con el criterio para aplicar el anlisis factorial.

Anlisis factorial con Minitab:

Las instrucciones de Minitab son las siguientes:


1

Cargar los datos de HATCO.

Stat > Multivariate > Factor Analysis.

En Variables, X1, X2, X3, X4, X6, X7

En Number of factors to extract, 2.


5

En Method of Extraction, seleccionar Principal components

En Type of Rotation, seleccionar Varimax.

Click Graphs y seleccionar Loading plot for first 2 factors y Scree Plot.

Pg. 57

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

8 Click Results y seleccionar Sort loadings. Click OK en cada uno de los


cuadros de dilogo.
Los resultados se muestran a continuacin:
Factor Analysis: X1, X2, X3, X4, X6, X7
Principal Component Factor Analysis of the Correlation Matrix
Unrotated Factor Loadings and Communalities
Variable
X1
X2
X3
X4
X6
X7

Factor1
0.618
-0.763
0.695
-0.502
-0.434
-0.761

Factor2
-0.517
0.079
-0.357
-0.793
-0.827
0.170

Communality
0.649
0.588
0.610
0.881
0.873
0.609

Variance
% Var

2.4664
0.411

1.7425
0.290

4.2089
0.701

El primer factor contiene la mayor parte de la varianza y es un factor general


con alta ponderacin en cada variable. Las ponderacins para el segundo
factor muestra tres variables que tambin tiene alta ponderacin (X1, X4 y X6).
La interpretacin es sumamente difcil y sin significado, por lo que se debe
considerar la rotacin de factores como sigue:
Rotated Factor Loadings and Communalities
Varimax Rotation
Variable
X1
X2
X3
X4
X6
X7

Factor1
-0.783
0.718
-0.781
0.097
0.020
0.758

Factor2
0.188
0.268
0.010
0.934
0.934
0.186

Communality
0.649
0.588
0.610
0.881
0.873
0.609

Variance
% Var

2.3231
0.387

1.8858
0.314

4.2089
0.701

Las variables X1, X2 y X3 ponderacinn significativamente al factor 1 y las


variables X4 y X6 ponderacinn significativamente al factor 2.

Si se considera como punto de corte las ponderacins con 0.55 o ms, el


factor 1 tiene cuatro ponderacins significativas y el factor 2 tiene 2. Para el
factor 1, se ven dos grupos de variables. Las primeras son el nivel de precios

Pg. 58

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

(X2) y la calidad del producto (X7) ambas con signos positivos y varan como
conjunto. Las otras dos, tiempo de entrega (X1) y flexibilidad de precios (X3)
tienen signos negativos tambin varan como conjunto.

En el factor 1, ambos grupos varan en sentido contrario, tal vez este factor sea
el valor bsico y representa un compromiso entre percepciones de precio o
calidad del producto y percepciones de tiempo de entrega y flexibilidad de
precios.

En el factor 2, la variable X4 (imagen de fabricacin) y X6 (imagen de la fuerza


de ventas) tal vez se pueda agrupar en imagen, ambas variables tienen el
mismo signo, actuando en la misma direccin.

La variable X5 (servicio en general) no se incluy en al anlisis.


Se tienen ahora dos factores como combinacin lineal de las variables para
efectos de realizacin de estudios:
Factor Score Coefficients
Variable
X1
X2
X3
X4
X6
X7

Factor1
-0.356
0.297
-0.343
-0.020
-0.054
0.320

Factor2
0.154
0.097
0.058
0.498
0.503
0.050

Para verificar la validez del modelo se pueden hacer dos grupos de 50


observaciones y comparar sus matrices rotadas.
Data 1 50: Rotated Factor Loadings and Communalities
Varimax Rotation
Variable
X1_1
X2_1
X3_1
X4_1

Factor1
-0.827
0.603
-0.686
0.156

Factor2
0.085
0.376
-0.177
0.919

Communality
0.691
0.506
0.502
0.869

Pg. 59

MTODOS ESTADSTICOS MULTIVARIADOS


X6_1
X7_1
Variance
% Var

0.136
0.702

0.924
0.201

0.871
0.533

2.0548
0.342

1.9178
0.320

3.9726
0.662

P. REYES / OCT. 2006

Data 51 100: Rotated Factor Loadings and Communalities


Varimax Rotation
Variable
X1_2
X2_2
X3_2
X4_2
X6_2
X7_2

Factor1
0.741
-0.785
0.815
-0.041
0.052
-0.824

Factor2
-0.313
-0.190
-0.154
-0.949
-0.923
-0.154

Communality
0.647
0.652
0.688
0.903
0.854
0.703

Variance
% Var

2.5127
0.419

1.9338
0.322

4.4466
0.741

Como se ve las dos rotaciones VARIMAX son comparables en trminos de


ponderacins y comunalidades para las seis percepciones. As se puede
asegurar que los resultados son estables dentro de la muestra.
De la grfica Scree Plot con los Eigenvalores de los factores se tiene:
Scree Plot of X1 , ..., X7
2.5

Eigenvalue

2.0

1.5

1.0

0.5

0.0
1

3
4
Fact or Number

Slo dos factores sern mantenidos si se toma como referencia el Eigenvalor


de 1 o tres si se toma como referencia el criterio Scree.
La grfica de ponderacins por variables se muestra a continuacin,
identificando tres grupos de variables:

Pg. 60

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Loading Plot of X1 , ..., X7


X6 X4

0.9
0.8

Second Fact or

0.7
0.6
0.5
0.4
0.3

X2
X1

0.2

X7

0.1
X3

0.0
-1.0

-0.5

0.0
First Fact or

0.5

En resumen se identifican dos dimensiones Valor bsico e Imagen, ahora se


pueden hacer planes alrededor de estas dos dimensiones en lugar de
considerar todas las variables separadas.

Ejemplo con datos del archivo EXH_MVAR


Se registran las siguientes caractersticas de 14 regiones censadas: poblacin
total (Pop), promedio de escolaridad (School), empleo total (Employ), empleo
en servcios de salud (Health), y valor promedio de casa (Home). Se desea
investigar que factores podran explicar la mayor parte de la variabilidad.
Como primer paso del anlisis factorial, se usa el mtodo de extraccin de
componentes principales y se examina la grfica de eigenvalores (Scree) para
apoyarnos en decidir sobre el nmero de factores.
Pop
5.935
1.523
2.599
4.009
4.687
8.044
2.766
6.538
6.451
3.314
3.777
1.53
2.768
6.585

School
14.2
13.1
12.7
15.2
14.7
15.6
13.3
17
12.9
12.2
13
13.8
13.6
14.9

Employ
2.265
0.597
1.237
1.649
2.312
3.641
1.244
2.618
3.147
1.606
2.119
0.798
1.336
2.763

Health
2.27
0.75
1.11
0.81
2.5
4.51
1.03
2.39
5.52
2.18
2.83
0.84
1.75
1.91

Las instrucciones de Minitab son las siguientes:


Pg. 61

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Abrir la worksheet EXH_MVAR.MTW.

Stat > Multivariate > Factor Analysis.

En Variables, poner Pop-Home.

Click Graphs y seleccionar Scree plot. Click OK in each dialog box.

Los resultados se muestran a continuacin:


Factor Analysis: Pop, School, Employ, Health, Home
Principal Component Factor Analysis of the Correlation Matrix
Unrotated Factor Loadings and Communalities
Variable
Pop
School
Employ
Health
Home

Factor1
-0.972
-0.545
-0.989
-0.847
0.303

Factor2
-0.149
-0.715
-0.005
0.352
-0.797

Factor3
0.006
-0.415
0.089
0.344
0.523

Factor4
0.170
-0.140
0.083
-0.200
0.005

Factor5
-0.067
0.001
0.085
-0.022
0.002

Communality
1.000
1.000
1.000
1.000
1.000

Variance
% Var

3.0289
0.606

1.2911
0.258

0.5725
0.114

0.0954
0.019

0.0121
0.002

5.0000
1.000

Factor3
0.011
-0.726
0.155
0.601
0.914

Factor4
1.782
-1.466
0.868
-2.098
0.049

Factor5
-5.511
0.060
6.988
-1.829
0.129

Factor Score Coefficients


Variable
Pop
School
Employ
Health
Home

Factor1
-0.321
-0.180
-0.327
-0.280
0.100

Factor2
-0.116
-0.553
-0.004
0.272
-0.617

Scree Plot of Pop, ..., Home


3.0

Eigenvalue

2.5
2.0
1.5
1.0
0.5
0.0
1

3
Fact or Number

Interpretacin de resultados

Pg. 62

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Cinco factores describen estos datos perfectamente, pero la meta es reducir el


nmero de factores requeridos para explicar la variabilidad de los datos.
La proporcin de la variabilidad explicada por los dos ltimos factores es
mnima (0.019 y 0.002 respectivamente) y pueden ser eliminadas sin
afectar al resultado. Los primeros dos factores juntos representan 86% de
la variabilidad mientras que tres factores representan 98% de la
variabilidad. La cuestin es si usar dos o tres factores, se requieren otras
corridas para decidir si usar dos o tres factores.
Se seleccionan dos factores como el nmero que representa los datos del
censo en base al anlisis de componentes principales. Se realiza una
extraccin de mxima verisimilitud y rotacin varimax para interpretar los
factores.
Las instrucciones de Minitab son las siguientes:
1

Abrir la worksheet EXH_MVAR.MTW.

Stat > Multivariate > Factor Analysis.

En Variables, Pop-Home.

En Number of factors to extract, 2.

En Method of Extraction, seleccionar Maximum likelihood.

En Type of Rotation, seleccionar Varimax.

Click Graphs y seleccionar Loading plot for first 2 factors.

Click Results y seleccionar Sort loadings. Click OK en cada uno de los

cuadros de dilogo.
Los resultados se muestran a continuacin:
Factor Analysis: Pop, School, Employ, Health, Home
Maximum Likelihood Factor Analysis of the Correlation Matrix
* NOTE * Heywood case
Unrotated Factor Loadings and Communalities
Variable
Pop
School

Factor1
0.971
0.494

Factor2
0.160
0.833

Communality
0.968
0.938

Pg. 63

MTODOS ESTADSTICOS MULTIVARIADOS


Employ
Health
Home

1.000
0.848
-0.249

0.000
-0.395
0.375

1.000
0.875
0.202

Variance
% Var

2.9678
0.594

1.0159
0.203

3.9837
0.797

P. REYES / OCT. 2006

Rotated Factor Loadings and Communalities


Varimax Rotation
Variable
Pop
School
Employ
Health
Home

Factor1
0.718
-0.052
0.831
0.924
-0.415

Factor2
0.673
0.967
0.556
0.143
0.173

Communality
0.968
0.938
1.000
0.875
0.202

Variance
% Var

2.2354
0.447

1.7483
0.350

3.9837
0.797

Sorted Rotated Factor Loadings and Communalities


Variable
Health
Employ
Pop
Home
School

Factor1
0.924
0.831
0.718
-0.415
-0.052

Factor2
0.143
0.556
0.673
0.173
0.967

Communality
0.875
1.000
0.968
0.202
0.938

Variance
% Var

2.2354
0.447

1.7483
0.350

3.9837
0.797

Factor Score Coefficients


Variable
Pop
School
Employ
Health
Home

Factor1
-0.165
-0.528
1.150
0.116
-0.018

Factor2
0.246
0.789
0.080
-0.173
0.027

Loading Plot of Pop, ..., Home


1.0

School

0.8
Second Fact or

Pop

0.6

Employ

0.4

0.2

Home

Health

0.0
-0.50

-0.25

0.00

0.25
First Fact or

0.50

Pg. 64

0.75

1.00

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Estos resultados indican un caso Heywood (las varianzas menores al lmite de


convergencia especificado se ponen a cero y sus comunalidades a 1).
Se tienen tres tablas de ponderaciones y comunalidades: no rotadas, rotadas,
ordenadas y rotadas. Los factores no rotados explican el 79.7 de la variabilidad
de los datos y los valores de comunalidad indican que todas las variables sin
Home estn bien representadas por esos dos factores (comunalidad son 0.202
para Home, 0.875 1.0 para otras variables). El porcentaje de la variabilidad
total representada por los factores no cambia con la rotacin, sino despus de
rotar, pero despus de rotar, estos factores son mas claramente balanceados
en el porcentaje de variabilidad que ellos representan, siendo 44.7% y 35%,
respectivamente.
El ordenamiento es realizado por la ponderacin mxima absoluta para
cualquier factor. Las variables que tienen la mayor ponderacin absoluta en el
factor 1 se muestran primero en orden. Despus las variables con la
ponderacin mayor en el factor 2 y as sucesivamente. El factor 1 tiene su
ponderacin mayor positiva en Health (0.924), Employ (0.831) y Pop (0.718), y
-0.415 en Home, mientras que la ponderacin en School es baja. El factor 2
tiene una ponderacin positiva en School de 0.967 y ponderacin de 0.556 y
0.673 en Employ y Pop respectivamente, y una ponderacin pequea en
Health y Home.
Se pueden ver las ponderaciones rotadas grficamente en la grfica de
ponderaciones (load graph). Ah se muestra para factor 1 con ponderaciones
altas en Pop, Emply, y Health y ponderacin negativa en Home. School tiene
una ponderacin alta positiva para el factor 2 y algo menor para Pop y Employ.
De los resultados se puede pensar en que el factor 1 sea un factor relacionado
con Cuidado de la salud tamao de la poblacin. El factor 2 puede ser
considerado como un factor relacionado con educacin tamao de la
poblacin.
En forma adicional Minitab muestra una tabla de coeficientes del factor.
Muestran como se calculan los factores. Minitab calcula los valores

Pg. 65

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

multiplicando los coeficientes y los datos despus de corregirlos centrndolos


al restarle sus medias.

Pg. 66

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

ANLISIS DE REGRESIN MLTIPLE


Es una tcnica estadtica que se puede usar para analizar la relacin entre una
variable

dependiente

simple

(respuesta,

criterio)

varias

variables

independientes cuyos valores son conocidos para predecir la variable


dependiente. Los pesos denotan la contribucin relativa de las variables
independientes a la prediccin general y facilitar la interpretacin de la
influencia de cada variable en la prediccin, lo que se complica si hay
correlacin de las variables independientes.
El conjunto de variables independientes con sus pesos forma el Variate de
regresin, ecuacin de regresin o modelo de regresin, que es una
combinacin lineal de las variables independientes que mejor predicen la
variable dependiente.
Los supuestos de un anlisis de regresin mltiple son los siguientes:

Linealidad del fenmeno medido

Varianza constante de los trminos de error

Independencia de los trminos de error

Normalidad de la distribucin de los trminos de error.

Pg. 67

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Ejemplo:
Familia
1
2
3
4
5
6
7
8
Total

Tarjetas
4
6
6
7
8
7
8
10

Tamano
2
2
4
4
5
5
6
6

Ingreso
14
16
14
17
18
21
17
25

Las instrucciones de Minitab para correr el ejemplo son:


1

Cargar datos en Minitab.

Stat > Regression > Regression.

En Response, seleccionar Tarjetas.

En Predictors, seleccionar Tamano e Ingreso.

Click Graphs.

En Residuals for Plots, seleccionar Standardized.

7 En Residual Plots, seleccionar Individual Plots. Seleccionar Histogram


of residuals, Normal plot of residuals, y Residuals versus fits. Click OK.
8 Click Options. en Display, seleccionar PRESS y predicted R-square.
Click OK en cada uno de los cuadros de dilogo.
Los resultados se muestran a continuacin:

Pg. 68

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Normal Probability Plot of the Residuals


(response is Tarjetas)
99

95
90
80

Percent

70
60
50
40
30
20
10
5

-3

-2

-1

0
1
St andardized Residual

Regression Analysis: Tarjetas versus Tamano, Ingreso


The regression equation is

Tarjetas = 0.48 + 0.632 Tamano + 0.216 Ingreso


Predictor
Constant
Tamano
Ingreso

Coef
0.482
0.6322
0.2158

S = 0.780990

SE Coef
1.461
0.2523
0.1080

R-Sq = 86.1%

PRESS = 8.02177

T
0.33
2.51
2.00

P
0.755
0.054
0.102

R-Sq(adj) = 80.6%

R-Sq(pred) = 63.54%

Analysis of Variance
Source
Regression
Residual Error
Total
Source
Tamano
Ingreso

DF
1
1

DF
2
5
7

SS
18.9503
3.0497
22.0000

MS
9.4751
0.6099

F
15.53

P
0.007

Seq SS
16.5143
2.4360

Interpretacin de resultados
Salida de sesin

El valor P en la tabla de ANOVA (0.000) muestra que el modelo estmado


por el procedimiento de regresin es significativo a un alfa de 0.05,
indicando que al menos un coeficiente es diferente de cero.

Pg. 69

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Los valores P de los coeficientes estimados para tamano es de 0.054


indicando que es significativo a un nivel alfa de 0.054. Sugiriendo que el
modelo de regresin simple es adecuado.

El valor de R cuadrado indica que los predoctores explican el 87.4% de


la varianza en Tarjetas. La R cuadrada ajustada es 85.9%, que
representa la contribucin del nmero de predictores en el modelo.
Ambos valores indican que el ajuste es adecuado.

El valor pronosticdo R cuadrado es 78.96%, dado que es parecido a R


cuadrado y r cuadrado ajustado, el modelo no parece estar
sobreajustado y tiene una buena habilidad de prediccin

Las observaciones 4 y 22 se identifican como no usuales dado que el


valor estandarizado de los residuos es mayor a 2. Indicando puntos
aberantes o outliers.

Salida grfica

El histograma de los residuos muestra un patrn consistente con la


distribucin normal. El histograma es ms efectivo para grupos de ms
de 50 observaciones. La grfica de probabilidad normal es ms fcil de
interpretar con pequeas muestras.

En la grfica normal tambin sobresalen los outliers 4 y 22.

La grfica de residuos contra valores de prediccin muestra que los


residuos son ms pequeos conforme conforme los valores ajustados se
incrementan, indicando que no tienen varianza constante.

Pg. 70

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Ejemplo con datos de Hatco


Hacer un estudio de correlacin entre las variables independientes:
1

Cargar datos en Minitab.

Stat > Basic statistics > Correlation

Variables X1 X7 X9 indicar Show P value

OK

Los resultados son los siguientes:


Correlations: X1, X2, X3, X4, X5, X6, X7, X9
X1
-0.349
0.000

X2

X3

0.476
0.000

-0.472
0.000

X4

0.050
0.618

0.272
0.006

-0.095
0.347

X5

0.612
0.000

0.513
0.000

0.064
0.524

0.299
0.003

X6

0.077
0.446

0.186
0.064

-0.015
0.880

0.788
0.000

0.241
0.016

X7

-0.483
0.000

0.470
0.000

-0.407
0.000

0.200
0.046

-0.055
0.586

0.177
0.078

X9

0.676
0.000

0.083
0.412

0.556
0.000

0.225
0.024

0.701
0.000

0.257
0.010

X2

X3

X4

X5

X6

X7

-0.192
0.055

Cell Contents: Pearson correlation


P-Value

La variable X5 (servicio en general) est ms correlacionado con la respuesta


X9 con r = 0.701. X1 tambin est correlacionada con la respuesta sin embargo
tiene correlacin con X5 por lo que el uso de ambas es cuestionable.
Las instrucciones de Minitab para correr el ejemplo son:
1

Cargar datos en Minitab.

Stat > Regression > Regression.

Pg. 71

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

En Response, seleccionar X9 (utilizacin del producto).

En Predictors, seleccionar X1 X7.

Click Graphs.

En Residuals for Plots, seleccionar Standardized.

7 En Residual Plots, seleccionar Individual Plots. Seleccionar Histogram


of residuals, Normal plot of residuals, y Residuals versus fits. Click OK.
Regression Analysis: X9 versus X1, X2, X3, X4, X5, X6, X7
The regression equation is
X9 = - 9.25 + 1.96 X1 + 1.28 X2 + 3.27 X3 - 0.004 X4 + 4.60 X5 + 1.23 X6
+ 0.426 X7
Predictor
Constant
X1
X2
X3
X4
X5
X6
X7

Coef
-9.255
1.956
1.280
3.2702
-0.0039
4.600
1.2305
0.4261

S = 4.45075

SE Coef
4.949
2.045
2.155
0.4059
0.6714
4.012
0.9537
0.3557

R-Sq = 77.2%

T
-1.87
0.96
0.59
8.06
-0.01
1.15
1.29
1.20

PRESS = 2144.13

P
0.065
0.341
0.554
0.000
0.995
0.255
0.200
0.234

R-Sq(adj) = 75.5%

R-Sq(pred) = 73.20%

Analysis of Variance
Source
Regression
Residual Error
Total
Source
X1
X2
X3
X4
X5
X6
X7

DF
1
1
1
1
1
1
1

DF
7
92
99

SS
6177.81
1822.44
8000.26

MS
882.54
19.81

F
44.55

P
0.000

Seq SS
3659.76
927.88
1424.10
80.48
18.20
38.97
28.43

Unusual Observations
Obs
7
11
14
22
55
100

X1
4.60
2.40
3.70
3.40
3.80
2.50

X9
46.000
32.000
38.000
35.000
39.000
33.000

Fit
58.734
41.365
47.833
34.870
33.433
43.721

SE Fit
1.379
1.014
1.098
2.711
2.712
1.049

Residual
-12.734
-9.365
-9.833
0.130
5.567
-10.721

St Resid
-3.01R
-2.16R
-2.28R
0.04 X
1.58 X
-2.48R

R denotes an observation with a large standardized residual.


X denotes an observation whose X value gives it large influence.

Pg. 72

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Normplot of Residuals for X9


Normal Probability Plot of the Residuals
(response is X9)
99.9
99
95

Percent

90
80
70
60
50
40
30
20
10
5
1
0.1

-3

-2

-1
0
1
St andardized Residual

Residuals Versus the Fitted Values


(response is X9)
2

St andardized Residual

-1

-2

-3
20

30

40
Fit t ed Value

50

Pg. 73

60

También podría gustarte