Está en la página 1de 77

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

CLCULO DEL COEFICIENTE DE CONFIABIL IDAD (FIABILIDAD) ALFA-CRONBACH


Existen tres procedimientos para determinar el coeficiente o alfa : 1. Sobre la base de la varianza de los tems , con la aplicacin de la siguiente frmula:

En donde N representa el nmero de tems de la escala, s2 (Yi) es igual a la sumatoria de las varianzas de los tems y s2x equivale a la varianza de toda la escala. 2. Sobre la base de la matriz de correlacin de los tems , el procedimiento sera: a) Se aplica la escala. b) Se obtienen los resultados. c) Se calculan los coeficientes de correlacin r de Pearson entre todos los tems (todos contra todos de par en par). d) Se elabora la matriz de correlacin con los coeficientes obtenidos. Por Pg. 1

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

ejemplo:

Los coeficientes que se mencionan como ya fue calculado, se ubican en la parte superior de las lneas horizontales (guiones). Es decir, cada coeficiente se incluye una sola vez y se excluyen los coeficientes que vinculan al tem o puntuacin consigo misma (1 con 1, 2 con 2, 3 con 3 y 4 con 4).

Pg. 2

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

3. Mediante otra frmula que se basa en la correlacin promedio

Pg. 3

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Los mtodos de anlisis multivariado Los mtodos de anlisis multivariado son aquellos en que se analiza la relacin entre diversas variables independientes y al menos una dependiente . Son mtodos ms complejos que requieren del uso de computadoras para efectuar los clculos necesarios

Entre las tcnicas ms comunes se encuentran (1) Anlisis de componentes principales y factores comunes, (2) regresin y correlacin mltiple, (3) anlisis discriminante mltiple, (4) anlisis multivariado de varianza y covarianza, (5) anlisis conjunto, (6) correlacin cannica, (7) anlisis de clusters, (8) escala multidimensional. Otras tcnicas nuevas incluyen (9) anlisis de correspondencia, (10) modelos de probabilidad lineal tales como el logit y probit, y (11) modelos de ecuacin simultaneas / estructurales. A continuacin se describen brevemente stas tcnicas.

Anlisis de componentes principales y de factores comunes


Es un mtodo estadstico que puede usarse para analizar las interrelaciones entre un gran nmero de variables y explicar esas variables en trminos de sus dimensiones subyacentes comunes. El objetivo es hallar la forma de sintetizar

Pg. 4

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

la informacin contenida en un nmero de variables originales, dentro de un conjunto ms pequeo de variates (factores) con mnima prdida de informacin.

Regresin mltiple
En un mtodo de anlisis adecuado cuando el problema de investigacin involucra una variable dependiente nica que se presume se relaciona a dos o ms variables independientes medibles. El objetivo es predecir el cambio en la variable dependiente de respuesta con cambios en las variables independientes, normalmente con el mtodo de mnimos cuadrados. Por ejemplo se pueden predecir los montos gastados en cenas a partir de ingresos de las familias (variable dependiente), su tamao, y la edad del padre (variables independientes).

Anlisis discriminante mltiple (MDA)


Se aplica cuando la variable dependiente es dicotmica (vgr. hombre mujer) o multitmica (vgr. Alto medio bajo) y por tanto no medible. Como en la regresin las variables independientes deben ser medibles. Se aplica cuando la muestra total se puede dividir en grupos con base en una variable no medible caracterizando varias clases conocidas. Su objetivo es comprender las diferencias entre grupos y predecir la probabilidad de que una entidad (objeto individual) pertenezca a una clase o grupo particular con base en varias variables independientes medibles o mtricas. Por ejemplo el anlisis discriminante se puede utilizar para distinguir entre innovadores y no innovadores de acuerdo a su perfil demogrfico y psicogrfico.

Anlisis multivariado de varianza y covarianza (MANOVA)


Es un mtodo estadstico para explorar simultneamente la relacin entre varias variables categricas independientes (referidas como tratamientos) y dos o ms variables dependientes medibles o mtricas. Es una extensin del

Pg. 5

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

ANOVA univariado. El anlisis multivariado de covarianza (MANCOVA) se puede usar en conjunto con el MANOVA para remover (despus del experimento) el efecto de cualquier variable mtrica independiente no controlada (conocida como covariada) en la variable independiente.

Anlisis conjunto
Se aplica a nuevos productos para evaluar la importancia de los atributos del nuevo producto as como los niveles de cada atributo, mientras que el consumidor evala solo unos pocos perfiles del producto como combinaciones de los niveles de producto. Por ejemplo asumir un producto con tres atributos (precio, calidad y color), cada uno en tres niveles posibles (vgr. Rojo, amarillo y azul). En vez de tener que evalur las 27 combinaciones posibles (3x3x3), se evala un subconjunto de 9 o ms combinaciones con base en su atractivo para el consumidor, de manera que el investigador no solo conozca la importancia de cada atributo, sino adems la importancia de cada nivel (atractivo del rojo vs amarillo vs azul).

Correlacin cannica
El anlisis de correlacin puede ser visto como una extensin lgica de la regresin mltiple. Donde se trata de correlacionar simultneamente varias variables dependientes medibles o mtricas y varias variables independientes medibles. El principio es establecer una combinacin lineal de cada conjunto de variables (dependientes e independientes) para maximizar la correlacin entre los dos conjuntos (obteniendo ponderacins adecuados para las variables).

Anlisis de conglomerados (Clusters)


Es una tcnica analtica para desarrollar sugrupos significativos de individuos u o objetos. Especficamente, el objetivo es clasificar una muestra de entidades (individuos u objetos) en un nmero ms pequeo de grupos ms pequeos con base en las similitudes entre entidades. A diferencia del anlisis discriminante, los grupos no estn definidos, ms bien se usa para identificarlos.

Pg. 6

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Normalmente se realiza en tres pasos. El primero es la medicin de alguna forma de similitud o asociacin entre las entidades para identificar cuantos grupos realmente existen en la muestra. El segundo paso es el proceso en s de conglomerados, donde las entidades se particionan en grupos (conglomerados o clusters). El paso final es perfilar las personas o variables para determinar su composicin. Muchas veces esto ltimo se realiza con el anlisis discriminante.

Escala multidimensional
El objetivo es transformar los juicios del consumidor de similitud o preferencias (vgr. Preferencia por tiendas o marcas) en distancias representadas en un espacio multidimensional. Si los objetos A y B se juzgan por el consumidor como similares, comparados con cualquier otro par de objetos, la tcnica posiciona los objetos A y B de manera que la distancia entre ellos en un espacio multidimensional es ms pequeo que la distancia entre cualquier otro par de objetos. Al final se muestra un mapa perceptual con la posicin relativa de los objetos. Anlisis de correspondencia Facilita tanto la reduccin dimensional de objetos en un conjunto de atributos y el mapa perceptual de objetos respecto a estos atributos. En su forma ms elemental es una tabla de contingencia o tabulacin cruzada de dos variables categricas. Transforma los datos no mtricos a un nivel medible y realiza una reduccin dimensional (similar al anlisis de factores) y un mapa perceptual (similar al anlisis multidimensional). Por ejemplo, las preferencias de marcas de los consumidores pueden ser tabuladas contra variables demogrficas (vgr. Gnero, categoras de ingresos, ocupacin) indicando cuanta gente prefiere cada una de las marcas que caen en cada categora de las variables demogrficas. Por medio del anlisis de correspondencia, la asociacin o correspondencia de marcas y las caractersticas distintivas de aquellos que prefieren las marcas se muestran en

Pg. 7

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

un mapa tridimensional o bidimensional tanto de marcas como de las caractersticas que distinguen a aquellos que prefieren cada marca.

Modelos de probabilidad lineal (Anlisis Logit)


Son una combinacin de regresin mltiple y anlisis discrimnante. Es similar al anlisis de regresin mltiple excepto que la variable dependiente es categrica no mtrica como en el anlisis discriminante.

Modelos de ecuaciones estructurales


A veces se refiere como el nombre del software LISREL, es una tcnica que permite separar las relaciones del conjunto de variables dependientes. En su forma ms sencilla proporciona el modelo ms adecuado y la tcnica de estimacin ms eficiente para una serie de ecuaciones de regresin mltiple, evaluadas simultneamente. Se caracteriza por dos componentes bsicos: (1) el modelo estructural y (2) el modelo de medicin. El modelo estructural es la va que relaciona variables dependientes e independientes. El modelo de medicin permite al investigador a usar varias variables (indicadores) para una variable dependiente e independiente.

Pg. 8

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Los datos para HATCO son los siguientes:


Variables / Tipo Percepciones / Medibles (Mtricas) X1 X2 X3 X4 X5 X6 X7 Tiempo de entrega - entrega del producto con la orden confirmada Nivel de precios - nivel de precio percibido ponderacindo por - flexibilidad para negociar precios - general - nivel necesario para mantener relaciones

proveedores Flexibilidad de precios Imagen de la empresa Servicio en general

Imagen de la fuerza de ventas - general Calidad del producto calidad percibida en desempeo o rendimiento

Resultados de compras / Medibles (Mtricas) X9 X10 Nivel de utilizacin - que porcentaje de producto es surtido por Hatco Nivel de satisfaccin que tan satisfecho esta el cliente con Hatco

Caractersticas del comprador / No Medibles (No Mtricas) X8 X11 X12 X13 X14 Tamao de la empresa - 1- Grande 0 - pequeo Especificacin de compra - 1-Evala por el valor total y 0- especificacin Estructura de abastecimiento 1- centralizado 0 - descentralizado Tipo de industria - 1- industria A 0 otras industrias Tipo de situacin de compra 1- nueva 2- modificada 0- tradicional

Pg. 9

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

ANOVA (anlisis de varianza de k direcciones ) El ANOVA es similar a la regresin en el sentido de que se utiliza para investigar y modelar la relacin entre una variable de respuesta y una o ms variables independientes. Sin embargo, el ANOVA difiere de la regresin en dos aspectos: las variables independientes son cualitativas (categricas), y no hay supuestos acerca de la naturaleza de la relacin (o sea que el modelo no incluye coeficientes para variables). En efecto el ANOVA extiende la prueba de dos muestras con prueba t para probar la igualdad de dos poblaciones a una hiptesis ms general al comparar ms de dos medias, versus que no sean iguales. Definicin: Es una prueba estadstica para evaluar el efecto de dos o ms variables independientes sobre una variable dependiente. Responde a esquemas como el que se muestra en la figura:

Constituye una extensin del anlisis de varianza unidireccional, solamente

Pg. 10

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

que incluye ms de una variable independiente. Evala los efectos por separado de cada variable independiente y los efectos conjuntos de dos o ms variables independientes. Variables: Dos o ms variables independientes y una dependiente. Nivel de medicin de las variables : La variable dependiente (criterio) debe estar medida en un nivel por intervalos o razn, y las variables independientes (factores) pueden estar en cualquier nivel de medicin, pero expresadas de manera categrica. Interpretacin y ejemplo Hi: La similitud en valores, la atraccin fsica y el grado de retroalimentacin positiva son variables que inciden en la satisfaccin sobre la relacin en parejas de novios. Contexto: Muestra de parejas de adultos jvenes (23-29 aos), pertenecientes a estratos econmicos altos (n=400). El ANOVA efectuado mediante un paquete estadstico computacional como SPSS produce los siguientes elementos bsicos: Fuente de la variacin (source of variation). Es el factor que origina variacin en la dependiente. Si una fuente no origina variacin en la dependiente, no tiene efectos. Efectos principales (main effects). Es el efecto de cada variable independiente

Pg. 11

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

por separado; no est contaminado del efecto de otras variables iindependientes ni de error. Suele proporcionarse la suma de todos los efectos principales. Interacciones de dos direcciones (2-way interactions). Representa el efecto conjunto de dos variables independientes, aislado de los dems posibles efectos de las variables independientes (individuales o en conjuntos). Suele proporcionarse la suma de los efectos de todas estas interacciones. Interacciones de tres direcciones (3-way interactions). Constituye el efecto conjunto de tres variables independientes, aislado de otros efectos. Suele proporcionarse la suma de los efectos de todas estas interacciones. Puede haber efecto de K-direcciones, esto dependie del nmero de variables independientes. En nuestro ejemplo, tenemos los resultados siguientes:

TABLA ANOVA
VARIABLE DEPENDIENTE: SATISFACCIN EN LA RELACIN Fuente variacin
Efectos principales (main effects

de Suma cuadrados

de Grados de Cuadrados libertad medios

Estadstico F
22.51

Significancia de Fc = P
.001**

SIMILITUD ATRACCI Pg. 12

31.18 21.02

0.001** 0.001**

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

N RETROALIM SIMILITUD ATRACCI N SIMILITUD RETROALIM ATRACCIO N RETROALIM SIM RETROLATRACCIO N


NOTA:

11.84
-4.32

0.004**
0.04*

2.18 1.56

0.11 0.190

8.01

0.02*

Normalmente interesa saber si las razones F resultaron o no por tanto, slo se incluyen estos valores. Se

significativas;

recomienda concentrarse en dichos valores y evitar confusiones. Desde luego, el investigador experimentado acostumbra estudiar todos los valores. ** Razn F significativa al nivel del 0.01 (p < 0.01) *Razn F significativa al nivel del 0.05 (p < 0.05) Como podemos ver en la tabla, la similitud, la atraccin y la retroalimentacin tienen un efecto significativo sobre la satisfaccin en la relacin. Respecto a los efectos de dos variables independientes conjuntas, slo la similitud y la atraccin tienen un efecto, hay un efecto conjunto de las tres variables independientes. La hiptesis de investigacin se acepta y la nula se rechaza. Asimismo, se recuerda al lector que en el captulo 5 del presente disco: Otros diseos experimentales (en el apartado sobre diseos factoriales) se explica

Pg. 13

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

la nocin de interaccin entre variables independientes. Cabe agregar que el ANOVA es un mtodo estadstico propio para los diseos experimentales factoriales.

Ejemplo:
Un experimento se realiz para probar cuanto tiempo toma usar un modelo nuevo y un modelo anterior de calculadora. Seis ingenieros trabajando en un problema estadstico y uno de ingeniera se les toma el tiempo para resolver el problema. Los ingenieros se consideran como bloques en el diseo experimental. Hay dos factores: Tipo de problema y modelo de calculadora cada uno con dos niveles, se hacen experimentos donde esos niveles de los factores se cruzan. Los datos se muestran a continuacin:
SolveTime 3.1 7.5 2.5 5.1 3.8 8.1 2.8 5.3 3 7.6 2 4.9 3.4 7.8 2.7 5.5 3.3 6.9 2.5 5.4 3.6 7.8 2.4 4.8 Engineer Jones Jones Jones Jones Williams Williams Williams Williams Adams Adams Adams Adams Dixon Dixon Dixon Dixon Erickson Erickson Erickson Erickson Maynes Maynes Maynes Maynes ProbType Stat Stat Eng Eng Stat Stat Eng Eng Stat Stat Eng Eng Stat Stat Eng Eng Stat Stat Eng Eng Stat Stat Eng Eng Calculator New Old New Old New Old New Old New Old New Old New Old New Old New Old New Old New Old New Old

Las instrucciones de Minitab son las siguientes:

Pg. 14

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

1 2 3 4 5

Abrir la worksheet EXH_AOV.MTW. Stat > ANOVA > Balanced ANOVA. Responses, poner SolveTime. Model, poner Engineer ProbType | Calculator. En Random Factors, poner Engineer.

6 Click Results. En Display means corresponding to the terms , poner ProbType | Calculator. Click OK cada cuadro de dilogo. Los resultados obtenidos son los siguientes:
ANOVA: SolveTime versus Engineer, ProbType, Calculator
Factor Engineer ProbType Calculator Type random fixed fixed Levels 6 2 2 Values Adams, Dixon, Erickson, Jones, Maynes, Williams Eng, Stat New, Old

Analysis of Variance for SolveTime Source Engineer ProbType Calculator ProbType*Calculator Error Total S = 0.259487 Means ProbType Eng Stat Calculator New Old ProbType Eng Eng Stat Stat N 12 12 N 12 12 SolveTime 3.8250 5.4917 SolveTime 2.9250 6.3917 N 6 6 6 6 SolveTime 2.4833 5.1667 3.3667 7.6167 DF 5 1 1 1 15 23 SS 1.053 16.667 72.107 3.682 1.010 94.518 MS 0.211 16.667 72.107 3.682 0.067 F 3.13 247.52 1070.89 54.68 P 0.039 0.000 0.000 0.000

R-Sq = 98.93%

R-Sq(adj) = 98.36%

Calculator New Old New Old

Interpretacin de los resultados:

Pg. 15

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Se muestran los factores (fijos y aleatorios), niveles y valores. Despus se muestra la tabla de ANOVA, donde se indica de acuerdo al valor P que hay una interaccin significativa entre el tipo de problema y el modelo de calculadora, lo que implica que la reduccin en tiempo de proceso de la calculadora depende del tipo de problema. En la lista de promedios se observa un menor tiempo entre la calculadora nueva y la anterior.

Pg. 16

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

ANLISIS (MANOVA)

MULTIVARIADO

DE

VARIANZA

Es un modelo para analizar la relacin entre una o ms variables independientes y dos o ms variables dependientes. Es decir, es til para estructuras causales del tipo:

La tcnica posee varios usos, entre los que destacan: - Evaluar diferencias entre grupos a travs de mltiples variables dependientes (medidas por intervalos o razn). La(s) variable(s) independiente(s) es(son) categrica(s) (no mtricas). Tiene el poder de evaluar no solamente las diferencias totales, sino diferencias entre las combinaciones de las dependientes. En este sentido representa una extensin del anlisis de varianza (ANOVA) para cubrir casos donde hay ms de una variable dependiente y/o cuando las

Pg. 17

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

variables dependientes simplemente no pueden ser combinadas. En otras palabras, reconoce si los cambios en la(s) variable(s) independiente(s) tienen un efecto significativo en las dependientes. Seala qu grupos difieren en una variable o en el conjunto de variables dependientes. - Identificar las interacciones entre las variables independientes y la asociacin entre las dependientes. Las tres clases principales del MANOVA son: 1) Hotelling's T. Es parecida a la prueba t (dos grupos) pero con ms dependientes: dependientes. 2) MANOVA unidireccional. Anlogo al ANOVA de una sola va, pero con ms dependientes: una variable independiente multicategrica y varias dependientes. 3) MANOVA factorial. Similar al ANOVA factorial, solamente que con dos o ms dependientes: varias independientes categricas y varias dependientes. Los modelos del MANOVA tienen en comn que forman una variable independiente dicotmica y varias

combinaciones lineales de las dependientes que discriminan mejor entre los grupos en un experimento o una situacin no experimental. Es una prueba de significancia de las diferencias en los grupos en un espacio multidimensional donde cada dimensin est definida por combinaciones lineales del conjunto de variables dependientes.

Pg. 18

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Una pregunta que suele hacer el estudiante al revisar el MANOVA es por qu no hacemos ANOVAS separados, uno para cada dependiente? La respuesta: las dependientes estn correlacionadas muy frecuentemente, por lo cual los resultados de varios ANOVA pueden ser redundantes y difciles de integrar. He aqu una sntesis de la explicacin de Wiersma (1999) sobre este tipo de anlisis: Al incluir dos o ms variables dependientes simultneamente no se consideran las diferencias entre las medias en cada variable, sino las diferencias en variables cannicas. El inters no slo es saber si los grupos definidos por las variables independientes difieren en las variables cannicas, sino conocer la naturaleza de stas. Una variable cannica es una variable artificial generada a partir de los datos. Representa constructos y se compone de variables reales, las cuales deben ser descritas en trminos de variables dependientes. Lo anterior se efecta por medio de las ponderacins de los coeficientes de correlacin entre una variable dependiente y una variable cannica. Si una ponderacin entre la variable cannica y la dependiente es positiva y elevada, significa que altos valores en la dependiente se asocian con altos valores en la cannica. Por ejemplo, si una variable dependiente consiste en puntuaciones a una prueba sobre innovacin, y dichas puntuaciones se correlacionan en forma

considerable con una variable cannica, inferimos que la variable cannica representa un constructo que involucra esencialmente a la innovacin. En los clculos que se hacen en el MANOVA, se generan variables cannicas

Pg. 19

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

hasta que se encuentra que no hay una diferencia estadstica significativa entre las categoras o los grupos de las variables independientes; o bien, hasta que se agotan los grados de libertad de las variables independientes (lo que ocurra primero). El nmero de variables cannicas no puede exceder el nmero de variables dependientes, pero es comn que el nmero de dependientes sea mayor que el de variables cannicas estadsticamente significativas o los grados de libertad. La hiptesis general de investigacin en el MANOVA postula que las medias de los grupos o las categoras de la(s) variable(s) independiente(s) difieren entre s en las variables cannicas. La hiptesis nula postula que dichas medias sern iguales. Se calculan diversas estadsticas para evaluar ambas hiptesis, entre las que destacan: F (total, toma en cuenta el modelo completo), la prueba Hotelling's TSquare, T2 (cuando hay dos grupos formados por las variables independientes), Wilks' lambda, U (cuando hay ms de dos grupos formados por las variables independientes), y Pillai-Bartlett (cuando hay coeficientes cannicos); y si resultan significativas en un nivel de confianza, se acepta la hiptesis de investigacin de diferencia de medias. Esto indica que hay, por lo menos, una variable cannica significativa (pero puede haber varias). Si diversas variables cannicas son significativas, esto muestra que se presentan diferencias en las variables cannicas en cuestin, entre los grupos o categoras de las independientes. Los paquetes estadsticos que contiene el MANOVA suelen posicionar a los grupos de las variables independientes por puntuaciones discriminantes; stas son calculadas con una funcin discriminante,

Pg. 20

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

que es una ecuacin de regresin para un compuesto de variables dependientes. discriminante A en cada cada grupo se le asigna una Las puntuacin puntuaciones variable cannica.

discriminantes de una variable independiente pueden ser cero o tener un valor positivo o negativo. Una puntuacin discriminante positiva y elevada para un grupo, indica que ste se coloca por encima de los dems en la respectiva variable cannica. Y deben considerarse las ponderacins, las cuales son positivas o negativas. Las puntuaciones discriminantes son utilizadas para interpretar las separaciones de los grupos en las variables cannicas, en tanto que las ponderacins se usan para evaluar y ligar los resultados de las variables dependientes (Wiersma, 1999). Un ejemplo de las ponderacins de los coeficientes de correlacin entre las variables dependientes y las variables cannicas as como las puntuaciones discriminantes se muestran en las tablas siguientes:

Pg. 21

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Como observamos en la ltima tabla, se obtuvieron tres constructos subyacentes en las puntuaciones recolectadas de la muestra: motivacin intrnseca, atribucin de causalidad externa y desempeo laboral. Vemos en la tabla que los grupos (niveles en la empresa) estn separados en las tres variables cannicas (los grupos difieren), particularmente en la primera variable cannica (motivacin intrnseca) y los obreros ocupan la posicin ms baja. Las variables dependientes enmarcadas en un recuadro en la primera variable cannica se ponderacinn en ella; en consecuencia, los ejecutivos tienen las puntuaciones ms altas en motivacin intrnseca medida por la escala mencionada, en atribuciones internas y en sentimientos de xito en el trabajo. As se interpretan todas las variables cannicas y dependientes. En el MANOVA se incluyen razones F y anlisis de varianza. Algunos paquetes estadsticos agregan una prueba denominada correlacin cannica, que es muy similar al MANOVA. sta es la mxima correlacin que llega a obtenerse entre los conjuntos de puntuaciones y las relaciones entre las variables independientes, entre las variables dependientes y entre los conjuntos de ambas (dependientes e independientes) (Kerlinger, 1979). Las variables en el MANOVA y la correlacin

Pg. 22

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

cannica asumen que las variables dependientes estn medidas en un nivel de intervalos o razn. Tal correlacin se interpreta como otras; pero el contexto de interpretacin vara de acuerdo con el nmero de variables involucradas.

Pg. 23

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Ejemplo con Minitab


Se realiza un estudio para determinar las condiciones ptimas para extruir pelcula plstica. Se miden tres respuestas Tear, gloss y opacity cinco veces en cada combinacin de dos factores tasa de extrusin y cantidad de aditivo cada grupo se pone en niveles bajos y altos. Se utiliza el MANOVA balanceado para probar la igualdad de las medias. DATOS
Tear 6.5 6.2 5.8 6.5 6.5 6.9 7.2 6.9 6.1 6.3 6.7 6.6 7.2 7.1 6.8 7.1 7 7.2 7.5 7.6 Gloss 9.5 9.9 9.6 9.6 9.2 9.1 10 9.9 9.5 9.4 9.1 9.3 8.3 8.4 8.5 9.2 8.8 9.7 10.1 9.2 Opacity 4.4 6.4 3 4.1 0.8 5.7 2 3.9 1.9 5.7 2.8 4.1 3.8 1.6 3.4 8.4 5.2 6.9 2.7 1.9 Extrusion 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 Additive 1 1 1 1 1 2 2 2 2 2 1 1 1 1 1 2 2 2 2 2

Instrucciones de Minitab 1 2 3 4 Abrir el archivo EXH_MVAR.MTW. Seleccionar Stat > ANOVA > Balanced MANOVA. En Responses, poner Tear Gloss Opacity. En Model, poner Extrusion | Additive.

Pg. 24

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Click Results. En Display of Results, seleccionar Matrices

(hypothesis, error, partial correlations) y Eigen analysis. 6 Click OK en cada cuadro de dilogo.

Los resultados se muestran a continuacin:


Results for: Exh_mvar.MTW ANOVA: Tear, Gloss, Opacity versus Extrusion, Additive

MANOVA for Extrusion s = 1 m = 0.5 n = 6.0 Test Criterion Wilks' Lawley-Hotelling Pillai's Roy's Statistic 0.38186 1.61877 0.61814 1.61877 F 7.554 7.554 7.554 Num 3 3 3 DF Denom 14 14 14 P 0.003 0.003 0.003

SSCP Matrix for Extrusion Tear Tear Gloss Opacity 1.740 -1.505 0.855 Gloss -1.505 1.301 -0.739 Opacity 0.8555 -0.7395 0.4205

SSCP Matrix for Error Tear Tear Gloss Opacity 1.764 0.020 -3.070 Gloss 0.0200 2.6280 -0.5520 Opacity -3.070 -0.552 64.924

Partial Correlations for the Error SSCP Matrix Tear Gloss Opacity

Pg. 25

MTODOS ESTADSTICOS MULTIVARIADOS


Tear Gloss Opacity 1.00000 0.00929 -0.28687 0.00929 1.00000 -0.04226 -0.28687 -0.04226 1.00000

P. REYES / OCT. 2006

EIGEN Analysis for Extrusion

Eigenvalue Proportion Cumulative

1.619 1.000 1.000

0.00000 0.00000 1.00000

0.00000 0.00000 1.00000

Eigenvector Tear Gloss Opacity

1 0.6541 -0.3385 0.0359

2 0.4315 0.5163 0.0302

3 0.0604 0.0012 -0.1209

MANOVA for Additive s = 1 m = 0.5 n = 6.0 Test Criterion Wilks' Lawley-Hotelling Pillai's Roy's Statistic 0.52303 0.91192 0.47697 0.91192 F 4.256 4.256 4.256 Num 3 3 3 DF Denom 14 14 14 P 0.025 0.025 0.025

SSCP Matrix for Additive Tear Tear Gloss Opacity 0.7605 0.6825 1.9305 Gloss 0.6825 0.6125 1.7325 Opacity 1.931 1.732 4.901

EIGEN Analysis for Additive

Eigenvalue Proportion Cumulative

0.9119 1.0000 1.0000

0.00000 0.00000 1.00000

0.00000 0.00000 1.00000

Pg. 26

MTODOS ESTADSTICOS MULTIVARIADOS


Eigenvector Tear Gloss Opacity 1 -0.6330 -0.3214 -0.0684 2 0.4480 -0.4992 0.0000 3 -0.1276 -0.1694 0.1102

P. REYES / OCT. 2006

MANOVA for Extrusion*Additive s = 1 m = 0.5 n = 6.0 Test Criterion Wilks' Lawley-Hotelling Pillai's Roy's Statistic 0.77711 0.28683 0.22289 0.28683 F 1.339 1.339 1.339 Num 3 3 3 DF Denom 14 14 14 P 0.302 0.302 0.302

SSCP Matrix for Extrusion*Additive Tear Tear Gloss Opacity 0.000500 0.016500 0.044500 Gloss 0.01650 0.54450 1.46850 Opacity 0.04450 1.46850 3.96050

EIGEN Analysis for Extrusion*Additive

Eigenvalue Proportion Cumulative

0.2868 1.0000 1.0000

0.00000 0.00000 1.00000

0.00000 0.00000 1.00000

Eigenvector Tear Gloss Opacity

1 -0.1364 -0.5376 -0.0683

2 0.1806 -0.3028 0.1102

3 0.7527 -0.0228 -0.0000

Por default se muestra la tabla para las cuatro pruebas multivariadas (Wliks, Lawley, Hotelling, Pillai y Roy) para cada uno de los trminos en el modelo. Los valores s, m y n se utilizan para los clculos de los estadsticos de prueba Fc, el cual es exacto si s = 1 o 2 de otra forma es aproximado. Pg. 27

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Examinando los valores P de las pruebas para Extrusin y Aditivo se observa que son significativas para un nivel de 0.05, no as la interaccin. Las matrices SSCP se usan para evaluar la contribucin a la variabilidad de manera similar a la suma de cuadrados en la ANOVA univariada. La matriz SSCP para Extrusion es la suma de cuadrados de la hiptesis y matriz de productos cruzados H para las tres respuestas con el trmino de modelo Extrusin. Los elementos diagonales de esta matriz, 1.740, 1.301 y 0.405 son las sumas de cuadrados univariados para el trmino del modelo Extrusin cuando las variables de respuesta son Tear, Gloss y Opacity respectivamente . Los elementos fuera de la diagonal son los productos cruzados. La matriz SSCP para el error es la suma de cuadrados de los errores y productos cruzados E. Los elementos diagonales de la matriz 1.764, 2.6280, y 64.924 son las sumas de cuadrados de los errores para las variables de respuesta Teat, Gloss y Opacity, respectivamente. Los elementos fuera de la diagonal de esta matriz son los productos cruzados. La matriz de correlaciones parciales para el error SSCP, se usa para evaluar que tanto se relacionan las variables de respuesta. Las correlaciones parciales entre Tear y Gloss son pequeas con 0.00929 y entre Gloss y Opacity -0.04226. Y la correlacin parcial entre Tear y Opacity es de -0.28687 tampoco es grande. Como la estructura de las correlaciones es dbil, se pueden realizar anlisis univariados de ANOVA para cada una de las respuestas. Se puede utilizar el anlisis de valores caractersticos o Eigenvalores, para evaluar como difieren los promedios de las respuestas entre los niveles de los diferentes trminos del modelo. El anlisis de Eigenvalores es E -1 H donde E es la matriz SCCP del error y H es la matriz SCCP de las variables de respuesta. Estos son los eigenvalores utilizados para calcular las cuatro pruebas de MANOVA. Poner la mayor importancia en los eigenvectores que corresponden a valores altos de eigenvalores. En el ejemplo, el segundo y tercer eigenvalores son pequeos, no signiicativos. Para ambos factores, Extrusion y Additive, los Pg. 28

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

primeros eigenvalores contienen informacin similar. Para Extrusion is 0.6541, -0.3385, 0.0359 and for Additive it is -0.6630, -0.3214, -0.0684. El mayor valor absoluto dentro de esos eigenvalores corresponde a la respuesta Tear, el segundo a Gloss y el valor para Opacity es pequeo. Esto implica que Tear tiene la mayor diferencia entre los dos niveles de los factores ya sea Extrusion o Additive, el Gloss tiene las siguientes mayores diferencias y op.citp. tiene solo pequeas diferencias. Para un anlisis ms general utilizar General MANOVA con diseos balanceados y no balanceados, incluso si se tienen covariados. 1 2 Seleccionar Stat > ANOVA > General MANOVA. En Responses, seleccionar hasta 50 columnas numricas conteniendo las

variables de respuesta. 3 En Model, introducir los trminos del modelo que se quiera ajustar.

4. Click OK.

Pg. 29

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

ANLISIS DE COVARIANZA
Definicin: Es un mtodo estadstico que analiza la relacin entre una variable dependiente y dos o ms independientes, con el que se elimina o controla el efecto de al menos una de estas independientes. Similar al ANOVA, excepto que permite controlar la influencia de una variable independiente, la cual con frecuencia es una caracterstica antecedente que puede variar entre los grupos (Mertens, 2005) o influir los resultados y afectar la claridad de las interpretaciones. Perspectivas o usos: Wildt y Ahtola (1978, pp. 8-9) destacan tres perspectivas para el anlisis de covarianza: A. Perspectiva experimental. Se aplica a aquellas situaciones en que el inters del investigador se centra en las diferencias observadas en la variable dependiente, por medio de las categoras de la variable independiente (o variables independientes). Pero el experimentador asume que hay otras variables independientes cuantitativas que contaminan la relacin y cuya influencia debe ser controlada.

Pg. 30

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Y el investigador nicamente se interesa por conocer la relacin entre las variables independientes categricas y la variable dependiente. Desea al mismo tiempo remover y controlar el efecto de las variables independientes cuantitativas no categricas (continuas). Es decir, desea tener un esquema como el de la figura

Pg. 31

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

El objetivo

es

purificar

la

relacin entre las

independientes

categricas y la dependiente, mediante el control del efecto de las independientes no categricas o continuas. Ejemplos de variables independientes categricas seran: gnero (masculino, femenino), inteligencia (alta, media, baja), ingreso (menos de un salario mnimo, dos a cuatro salarios mnimos, cinco a 10 salarios mnimos, 11 o ms salarios mnimos). Los niveles de medicin nominal y ordinal son categricos en s mismos, mientras que los niveles de intervalos y razn deben transformarse en categoras ms discretas. Estos ltimos son en s: cuantitativos, continuos y de categoras mltiples. Por ejemplo, el ingreso en su estado natural (ponderacins, dlares, euros, etc.) vara de la categora cero hasta la categora ( K)k, ya que puede haber millones de categoras. Variable categrica unas cuantas categoras o un rango medio. Variable continua muchas categoras (a veces una infinidad). A dichas variables independientes cuantitativas continuas, cuya influencia se controla, se les denomina covariables. Una covariable se incluye en el anlisis para remover su efecto sobre la variable dependiente, e incrementar el conocimiento de la relacin entre las variables independientes categricas de inters y la dependiente, lo cual aumenta la precisin del anlisis.

Pg. 32

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

En esta perspectiva, el anlisis de covarianza puede ser concebido primero como un ajuste en la variable dependiente respecto a diferencias en la covariable o de la las covariables entre y, posteriormente, las variables como una evaluacin relacin independientes

categricas y los valores ajustados de la variable dependiente (Wildt y Ahtola, 1978). En trminos de Creswell (2005): El procedimiento ajusta las puntuaciones en la dependiente para dar cuenta por la covarianza (por decirlo en trminos sencillos: hace equivalentes a los grupos en la(s) covariable(s) y controla influencias potenciales que pueden afectar a la variable dependiente). B. Perspectiva de inters por la covariable . Esta perspectiva se ejemplifica con aquellas instancias en las cuales el inters principal se centra en analizar la relacin entre la variable dependiente y la covariable (variable cuantitativa continua) o las covariables. Aqu el enfoque es distinto; la influencia que se remueve es la de las variables independientes categricas. Primero se controla el efecto (en este caso contaminante) de estas variables y despus se analiza el efecto purificado de las covariables. C. Perspectiva de regresin. En esta tercera perspectiva, tanto las variables independientes categricas como las covariables resultan de inters para el investigador, quien puede desear examinar el efecto de cada variable independiente (covariables y no covariables, todas) y despus ajustar o corregir los efectos de las dems variables independientes. En cualquier caso, el anlisis de covarianza elimina influencias no deseadas

Pg. 33

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

sobre la variable dependiente. Se puede utilizar en contextos experimentales y no experimentales. La mayora de las veces la funcin del ANCOVA es remover la varianza compartida entre una o ms covariables y la dependiente, de este modo, se valora en su justa dimensin la relacin causal entre la(s) variable(s) independiente(s) de inters y la dependiente (Creswell, 2005). Vemoslo conceptualmente pero de forma grfica con un ejemplo simple: Ejemplo: Estudio: Al investigador le interesa analizar el efecto en el aprendizaje de la computacin, por medio un nuevo mtodo para su enseanza a nios. La hiptesis es: El nuevo mtodo de enseanza de la computacin (MA-RH) provocar un mayor aprendizaje en los nios que un mtodo tradicional. Entonces, implementa el siguiente experimento: A un grupo de infantes lo expone al nuevo mtodo de enseanza de computacin (MA-RHS); a otro grupo no lo expone al nuevo mtodo, ste aprende con el mtodo tradicional; finalmente, a un tercer grupo, de control, no recibe ningn tipo de enseanza en computacin. La variable independiente es el tipo de mtodo con tres categoras o niveles (mtodo nuevo, mtodo tradicional y ausencia de mtodo), la dependiente es el aprendizaje en computacin (medida por una prueba estandarizada a nivel de

Pg. 34

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

intervalos). Se tiene un esquema como el de la figura

Con el experimento el investigador desea conocer la varianza en comn entre mtodo y aprendizaje (cuantificarla), la relacin X Y (pura). Si los nios son asignados al azar a los grupos del experimento y tiene grupos de tamao aceptable, por el diseo mismo, remueve la influencia de las covariables que pudieran afectar. Pero si no es factible hacerlo y tiene un diseo cuasiexperimental (grupos intactos), debe remover tal influencia con el anlisis de covarianza (eliminar al mnimo posible la varianza del aprendizaje no explicada), para evitar que las covariables impidan ver con claridad la relacin XY. Por ejemplo, el nivel educativo tecnolgico

Pg. 35

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

de los padres puede influir (hace variar al aprendizaje) y este efecto debe ser controlado, al introducirlo como covariable.

Lo que el investigador grficamente as:

desea

tambin

se

puede

expresar

Pg. 36

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Wildt y Ahtola (1978, p. 13) definen algunos usos del anlisis de covarianza: 1. Incrementar la precisin en experimentos con asignacin al azar. 2. Eliminar influencias extraas o contaminantes que pueden resultar cuando las pruebas o los individuos no son asignados al azar a las diferentes condiciones experimentales (grupos de un experimento). 3. Eliminar efectos de variables que confundan o distorsionen la interpretacin de resultados en estudios no experimentales. Nivel de medicin de las variables: La variable dependiente siempre est medida por intervalos o razn y las variables independientes pueden estar medidas en cualquier nivel. Interpretacin: Depende de cada caso especfico, ya que el anlisis de covarianza efectuado mediante un programa estadstico computacional, produce un cuadro de resultados muy parecido al del anlisis de varianza. Los elementos ms comunes pueden obssevarse en la tabla ANOVA. La razn F es, igual que en el anlisis de varianza, una razn de varianzas. El razonamiento estadstico es el mismo y F se interpreta igual, incluso se utiliza el mismo cuadro de la distribucin F. Solamente que las inferencias y conclusiones se hacen al considerar que las medias de la variable dependiente, a travs de las categoras de las variables independientes, se han

Pg. 37

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

ajustado, de este modo eliminan el efecto de la covariable o covariables.

Ejemplo:
Diseo de investigacin que utiliza el anlisis de covarianza Hi: Los trabajadores que reciban retroalimentacin verbal sobre el desempeo de parte de su supervisor mantendrn un nivel mayor de productividad que los trabajadores que reciban retroalimentacin sobre el desempeo por escrito, ms an que los trabajadores que no reciban ningn tipo de retroalimentacin. __ Hi: X1 __ __ > X2 > X3

(verbal) (por escrito) (ausencia)

El investigador plantea un diseo experimental para intentar probar su hiptesis. Sin embargo, no puede asignar aleatoriamente a los trabajadores a los tres grupos del experimento. El diseo sera con grupos intactos (cuasiexperimental) y se esquematizara as:

Asimismo, el investigador presupone que hay un factor que puede contaminar los resultados (actuar como fuente de invalidacin interna): la

Pg. 38

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

motivacin. Diferencias iniciales en motivacin pueden invalidar el estudio. Como la asignacin al azar est ausente, no se sabe si los resultados se ven influidos por dicho factor. Entonces, el experimentador decide eliminar o controlar el efecto de la motivacin sobre la productividad para conocer los efectos de la variable independiente: tipo de retroalimentacin. La motivacin se convierte en covariable. El esquema es el que se muestra en la figura

Cabe destacar que, para introducir una covariable en el anlisis, de preferencia debe medirse antes del inicio del experimento. El anlisis de covarianza quita a la variabilidad de la dependiente lo que se debe a la covariable. Ajusta la varianza de la variable dependiente en las categoras de la independiente , al basarse en la covariable. En el ejemplo, ajusta la varianza de la productividad debida a la motivacin, en las categoras experimentales (tratamientos o grupos). El ajuste se realiza sobre la base de la correlacin entre la covariable y la dependiente. Esto se muestra esquemticamente en la tabla.

Pg. 39

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Una vez realizado el anlisis de covarianza, se evala si F es o no significativa. Cuando F resulta significativa se acepta la hiptesis de investigacin. Si el resultado fuera: G1 = 35 G2 = 36 La correlacin entre la calificacin en motivacin y las puntuaciones en productividad es la base para el ajuste. G3 = 38 Gl entre = K 1 = 3 1 = 2 Gl intra = N K = 107 F = 1.70 Comparamos con el valor de la tabla respectiva: en el nivel de 0.05 es igual a 3.07, y nuestra razn F a 1.70 es menor a este valor. Por lo tanto, rechazamos la hiptesis de investigacin y aceptamos la hiptesis nula. Esto se contrasta y profundiza con las medias ajustadas de los grupos que proporcione el anlisis de covarianza (no las medias obtenidas en el experimento por cada grupo, sino las ajustadas con base en la covariable). Recordemos que SPSS nos proporciona automticamente la

significancia de F.

Ejemplo:

Pg. 40

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Determinar

si

hay

diferencia

en

la

resistencia

de

una

fibra

monofilamento producida por tres mquinas diferentes. El dimetro de la fibra parece tener influencia en la resistencia como se muestra abajo (covariado de Y). Datos de resistencia - Y es la respuesta, X es el covariado.
Y 36 41 39 42 49 40 48 39 45 44 35 37 42 34 32 X 20 25 24 25 32 22 28 22 30 28 21 23 26 21 15 Maq 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3

La relacin entre X y Y es significativa como se observa en la siguiente grfica: En Minitab: 1. Stat > Regresin > Fitted line plot 2. Introducir Y y X, seleccionar Linear 3. OK

Pg. 41

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Fitted Line Plot


Y = 14.14 + 1.080 X 50
S R-Sq R-Sq(adj) 1.78174 88.1% 87.2%

45

40

35

30 15.0 17.5 20.0 22.5 X 25.0 27.5 30.0 32.5

Para el ANOVA con Covariados, las instrucciones de Minitab son las siguientes: 1. Stat > ANOVA > General Linear Model 2. Introducir en Response Y, en Model X y Maquina 3. En Covariates X 4. En Results en Display Least Square Means corresponding to the terms Maq 5. En Graphs seleccionar Normal plot for residuals 6. OK Los resultados se muestran a continuacin:
General Linear Model: Y versus Maq
Factor Maq Type fixed Levels 3 Values 1, 2, 3

Analysis of Variance for Y, using Adjusted SS for Tests Source X Maq Error Total DF 1 2 11 14 Seq SS 305.13 13.28 27.99 346.40 Adj SS 178.01 13.28 27.99 Adj MS 178.01 6.64 2.54 F 69.97 2.61 P 0.000 0.118

Pg. 42

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

S = 1.59505 Term Constant X

R-Sq = 91.92% SE Coef 2.783 0.1140

R-Sq(adj) = 89.72% T 6.17 8.36 P 0.000 0.000

Coef 17.177 0.9540

Unusual Observations for Y Obs 7 Y 48.0000 Fit 45.1080 SE Fit 0.7489 Residual 2.8920 St Resid 2.05 R

R denotes an observation with a large standardized residual. Means for Covariates Covariate X Mean 24.13 StDev 4.324

Least Squares Means for Y Maq 1 2 3 Mean 40.38 41.42 38.80 SE Mean 0.7236 0.7444 0.7879

Conclusin: Se observa que no hay diferencia en las mquinas una vez que eliminamos la variabilidad introducida por el dimetro de la fibra, en caso de no haber tomado en cuenta la covarianza del dimetro en la resitencia, se hubiese concluido al revs, que si hay diferencia en las mquinas, como se muestra a continuacin: Con Minitab: 1. Stat > ANOVA > One way 2. Response Y Factor Maquina 3. OK Los resultados son los siguientes:
One-way ANOVA: Y versus Maq
Source Maq Error Total DF 2 12 14 SS 140.4 206.0 346.4 MS 70.2 17.2 F 4.09 P 0.044

S = 4.143

R-Sq = 40.53%

R-Sq(adj) = 30.62%

Pg. 43

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Level 1 2 3

N 5 5 5

Mean 41.400 43.200 36.000

StDev 4.827 3.701 3.808

Individual 95% CIs For Mean Based on Pooled StDev +---------+---------+---------+--------(---------*----------) (---------*---------) (---------*---------) +---------+---------+---------+--------32.0 36.0 40.0 44.0

Pooled StDev = 4.143

Conclusin: Como P value es menor a 0.05 aparentemente si hay diferencia entre mquinas.

Pg. 44

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

ANALISIS DISCRIMINANTE
El anlisis discriminante, se aplica cuando las variables independientes son medidas por intervalos o razn, y la dependiente es categrica. Tal anlisis sirve para predecir la pertenencia de un caso a una de las categoras de la variable dependiente, sobre la base de varias independientes (dos o ms). Se utiliza una ecuacin de regresin llamada funcin discriminante. Por ejemplo, si queremos predecir el voto obtenido por dos partidos contendientes (variable dependiente nominal con dos categoras) sobre la base de cuatro variables independientes, aplicaremos el anlisis discriminante, para resolver una ecuacin de regresin; as se obtienen las predicciones individuales. En el ejemplo, hay dos categoras (votar por A o votar por B); por tanto, los valores a predecir son 0 y 1 ( A y B, respectivamente). Si el sujeto obtiene una puntuacin ms cercana a cero, se predice que pertenece al grupo que votar por A; si logra una puntuacin ms cercana a 1, se predice que pertenece al grupo que votar por B. Adems, se consigue una medida del grado de discriminacin del modelo. Usar el Anlisis Discrimnate para clasificar observaciones en dos o ms grupos si se tiene una muestra con grupos conocidos. Se puede utilizar tambin para investigar como contribuyen las variables a la separacin de grupos. Se pueden hacer anlisis discriminantes lineales y cuadrticos. Los lineales asumen que todos los grupos tienen la misma matriz de covarianza, los cuadrticos no hacen este supuesto y no son bien comprendidos. Para el caso de clasificar las observaciones nuevas en una de dos categoras, la regresin logstica puede ser superior al anlisis discriminante.

Pg. 45

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Ejemplo:
Para regular la pesca de salmn, se desea identificar si el pescado es originario de Alaska o de Canad. Cincuenta peces de cada lugar de origen fueron capturados y pesados cuando vivan en agua dulce y cuando vivieron en agua salada. El objetivo es el de poder identificar si los nuevos pescados vienen de criaderos en Alaska o Canad. Los datos se muestran a continuacin:
SalmonOrigin Freshwater Alaska 108 Alaska 131 Alaska 105 Alaska 86 Alaska 99 Alaska 87 Alaska 94 Alaska 117 Alaska 79 Alaska 99 Alaska 114 Alaska 123 Alaska 123 Alaska 109 Alaska 112 Alaska 104 Alaska 111 Alaska 126 Alaska 105 Alaska 119 Alaska 114 Alaska 100 Alaska 84 Alaska 102 Alaska 101 Alaska 85 Alaska 109 Alaska 106 Alaska 82 Alaska 118 Alaska 105 Alaska 121 Alaska 85 Alaska 83 Alaska 53 Alaska 95 Alaska 76 Alaska 95 Alaska 87 Alaska 70 Alaska 84 Marine 368 355 469 506 402 423 440 489 432 403 428 372 372 420 394 407 422 423 434 474 396 470 399 429 469 444 397 442 431 381 388 403 451 453 427 411 442 426 402 397 511 SalmonOrigin Freshwater Canada 129 Canada 148 Canada 179 Canada 152 Canada 166 Canada 124 Canada 156 Canada 131 Canada 140 Canada 144 Canada 149 Canada 108 Canada 135 Canada 170 Canada 152 Canada 153 Canada 152 Canada 136 Canada 122 Canada 148 Canada 90 Canada 145 Canada 123 Canada 145 Canada 115 Canada 134 Canada 117 Canada 126 Canada 118 Canada 120 Canada 153 Canada 150 Canada 154 Canada 155 Canada 109 Canada 117 Canada 128 Canada 144 Canada 163 Canada 145 Canada 133 Marine 420 371 407 381 377 389 419 345 362 345 393 330 355 386 301 397 301 438 306 383 385 337 364 376 354 383 355 345 379 369 403 354 390 349 325 344 400 403 370 355 375

Pg. 46

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Alaska Alaska Alaska Alaska Alaska Alaska Alaska Alaska Alaska

91 74 101 80 95 92 99 94 87

469 451 474 398 433 404 481 491 480

Canada Canada Canada Canada Canada Canada Canada Canada Canada

128 123 144 140 150 124 125 153 108

383 349 373 388 339 341 346 352 339

Las intrucciones de Minitab son las siguientes: 1 2 3 4 Abrir la worksheet EXH_MVAR.MTW. Stat > Multivariate > Discriminant Analysis. En Groups, poner SalmonOrigin. En Predictors, poner Freshwater Marine. Click OK.

Los resultados obtenidos se muestran a continuacin:


Discriminant Analysis: SalmonOrigin versus Freshwater, Marine
Linear Method for Response: SalmonOrigin Predictors: Freshwater, Marine Group Count Alaska 50 Canada 50

Summary of classification Put into Group Alaska Canada Total N N correct Proportion N = 100 True Group Alaska Canada 44 1 6 49 50 50 44 49 0.880 0.980 N Correct = 93 Proportion Correct = 0.930

Squared Distance Between Groups Alaska Canada Alaska 0.00000 8.29187 Canada 8.29187 0.00000

Linear Discriminant Function for Groups Alaska Canada Constant -100.68 -95.14 Freshwater 0.37 0.50 Marine 0.38 0.33 Summary of Misclassified Observations Observation 1** True Group Alaska Pred Group Canada Group Alaska Squared Distance 3.544 Probability 0.428

Pg. 47

MTODOS ESTADSTICOS MULTIVARIADOS


Canada Alaska Canada Alaska Canada Alaska Canada Alaska Canada Alaska Canada Alaska Canada 2.960 8.1131 0.2729 4.7470 0.7270 4.7470 0.7270 3.230 1.429 2.271 1.985 2.045 7.849

P. REYES / OCT. 2006


0.572 0.019 0.981 0.118 0.882 0.118 0.882 0.289 0.711 0.464 0.536 0.948 0.052

2** 12** 13** 30** 32** 71**

Alaska Alaska Alaska Alaska Alaska Canada

Canada Canada Canada Canada Canada Alaska

Interpretando los resultados El Anlisis Discriminante identific correctamente 93 de los 100 peces, a pesar de que la probabilidad de clasificar correctamente un pez de Alaska fue menor (44/50 o 88%) que la probabilidad de clasificar correctamente un pez de Canad (49/50 o 98%). Para identificar el origen de un pez recientemente capturado depende de cual valor discriminante sea mayor. Se puede correr el anlisis discriminante de nuevo y predecir a que grupo pertenecen las nuevas observaciones. El resumen de las observaciones mal clasificadas muestra la distancia al cuadrado desde el punto mal clasificado a los centroides del grupo (vectores medios) y las probabilidades posteriores. Las observaciones son asignadas al grupo con la mayor probabilidad posterior. Si en Options introducimos en Predict membership for: 100 130, la clasificacin aparece como:
Prediction for Test Observations Observation 1 Pred Group Canada From Group Alaska Canada Squared Distance 78.448 55.194 Probability 0.000 1.000

Pg. 48

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

ANLISIS DE CONGLOMERADOS
Se cuenta tambin con el anlisis de conglomerados o clusters (tcnica para agrupar los casos o elementos de una muestra en grupos con base en una o ms variables). Usar Anlisis de componentes principales para ayudar a comprender la estructura de datos y/o a formar un pequeo nmero de variables no correlacionadas (por ejemplo para evitar multicolinealidad en la regresin).

Ejemplo:
Se registran las siguientes caractersticas para 14 censos: Poblacin total (Pop), mediana de aos escolares (School), empleo total (Employ),empleo en servicios de salud (Health), y valor mediano del valor de la casa (Home). Los datos se muestran a continuacin:
Pop 5.935 1.523 2.599 4.009 4.687 8.044 2.766 6.538 6.451 3.314 3.777 1.53 2.768 6.585 School 14.2 13.1 12.7 15.2 14.7 15.6 13.3 17 12.9 12.2 13 13.8 13.6 14.9 Employ 2.265 0.597 1.237 1.649 2.312 3.641 1.244 2.618 3.147 1.606 2.119 0.798 1.336 2.763 Health 2.27 0.75 1.11 0.81 2.5 4.51 1.03 2.39 5.52 2.18 2.83 0.84 1.75 1.91 Home 2.91 2.62 1.72 3.02 2.22 2.36 1.97 1.85 2.01 1.82 1.8 4.25 2.64 3.17

Se realiza un anlisis de components principales para comprender la estructura de datos subyacente. Se usa la matriz de correlacin para estandarizar las mediciones dado que no se mide con la misma escala. Las instrucciones de Minitab son las siguientes: 1 2 3 Abrir la worksheet EXH_MVAR.MTW. Stat > Multivariate > Principal Components . En Variables, Pop-Home.

Pg. 49

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

4 5 6

En Type of Matrix, seleccionar Correlation. Click Graphs y seleccionar Scree plot. Click OK en cada cuadro de dilogo.

Los resultados se muestran a continuacin:


Principal Component Analysis: Pop, School, Employ, Health, Home
Eigenanalysis of the Correlation Matrix Eigenvalue Proportion Cumulative Variable Pop School Employ Health Home 3.0289 0.606 0.606 PC1 -0.558 -0.313 -0.568 -0.487 0.174 1.2911 0.258 0.864 PC2 -0.131 -0.629 -0.004 0.310 -0.701 0.5725 0.114 0.978 PC3 0.008 -0.549 0.117 0.455 0.691 0.0954 0.019 0.998 PC4 0.551 -0.453 0.268 -0.648 0.015 0.0121 0.002 1.000 PC5 -0.606 0.007 0.769 -0.201 0.014

Scree Plot of Pop, ..., Home


3.0 2.5 2.0 1.5 1.0 0.5 0.0 1 2 3 Component N umber 4 5

Interpretando los resultados


El primer componente principal tiene varianza (eigenvalor) 3.029 y acumula el 60.6% de la varianza total. Los coeficientes para el PC1 muestran como calcular el nivel del componente principal. PC1 = .558 Pop .313 School .568 Employ .487 Health + .174 Home Notar que la interpretacin de los components principales es subjetiva, sin embargo, frecuentemente surgen patrones obvios. Por ejemplo, se podra Pg. 50

Eigenvalue

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

pensar que el primer componente represente el efecto del tamao de la poblacin total, el nivel de escolaridad, empleo y servicios de salud, dado que los coeficientes de estos trminos tienen el mismo signo y no son cercanos a cero. El segundo componente tiene varianza 1.2911 y acumula el 25.8% de la variabilidad de los datos. Se calcula de los datos originales usando los coeficientes listados en PC2. Este componente podra ser pensado como nivel de contraste de escolaridad y valor de la casa con salud y empleo de alguna manera. Juntos el primero y segundo componentes representan el 86.4% y 97%, respectivamente, de la variabilidad total. As, la mayora de la estructura de datos puede ser capturada en dos o tres dimensiones relevantes. Los componentes remanentes solo tienen una menor proporcin de probabilidad y no son importantes. La grfica Scree proporciona una visin grfica de lo anterior.

Pg. 51

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

ANLISIS FACTORIAL
El anlisis factorial es un mtodo cuyo propsito principal es definir la estructura subyacente de una matriz de datos. Atiende el problema de analizar la estructura de las interrelaciones (correlaciones) entre un gran nmero de variables (vgr. Respuestas de cuestionarios) al definir un conjunto de dimensiones subyacentes comunes, conocidas como factores. Con el anlisis factorial se identifican las dimensiones separadas de la estructura y despus se determina que tanto cada variable es explicada por cada dimensin. Una vez que se determinan las dimensiones y se explican las variables por cada dimensin, se puede hacer un resumen y reduccin de datos. El anlisis factorial es una tcnica de interdependencia en la cual todas las variables son consideradas de manera simultanea, cada una relacionada a las otras, y empleando el concepto de variate, composicin lineal de variables. De hecho las variates (factores) se forman para maximizar su explicacin de todo el conjunto de variables, no para predecir una variable dependiente(s). Una variate (factor) es una variable dependiente que es funcin del conjunto total de variables. Se usa el Anlisis factorial, de manera similar al anlisis de componentes principales, para resumir la estructura de covarianza de los datos en una pocas dimensiones de los mismos. Sin embargo, el nfasis en anlisis factorial es la identificacin de los factores subyacentes que pueden explicar las dimensiones asociadas con la gran variabilidad de los datos. Se pueden tener tres tipos de datos de entrada: Columnas de datos unitarios Una Matriz de correlaciones o covarianzas Columnas conteniendo ponderaciones de factores

Con los datos del ejemplo anterior de Componentes principales, realizar un anlisis factorial como sigue:

Pg. 52

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Nos gustara investigar que factores pueden explicar la mayor parte de la variabilidad. Como primer paso del anlisis factorial, se utiliza la extraccin de componentes principales y se examinan los eigenvalores en grfica como ayuda para decidir el nmero de factores.

PROCESO DE DECISIN DE ANLISIS FACTORIAL Paso 1. Objetivos del Anlisis factorial


El propsito es encontrar una forma de condensar (resumir) la informacin contenida en un cierto nmero de variables originales, en un grupo ms pequeo de dimensiones nuevas, compuestas o variates (factores) con un mnimo de prdida de informacin. Por ejemplo si hay datos de 100 cuestionarios en 10 caractersticas, el anlisis factorial se aplica a la matriz de correlacin de variables y se denomina Anlisis Factorial R, para identificar las dimensiones que estn latentes o no son fcilmente observables. El anlisis factorial tambin se puede aplicar a una matriz de correlacin de los cuestionarios individuales basados sus caractersticas, referido como Anlisis Factorial Q, es un mtodo de condensar o combinar un grupo grande de gente en diferentes grupos distintos dentro de una poblacin grande, para esto se utiliza el anlisis de conglomerados (clusters).

Paso 2. Diseo del anlisis factorial


Incluye tres decisiones bsicas: (1) clculo de los datos de entrada (una matiz de correlacin) para cumplir con los objetivos especificados de agrupar variables o cuestionarios; (2) el diseo del estudio en trminos del numeor de variables, propiedades de medicin de las variables, y el tipo de variables permitidas y (3) el tamao de muestra necesario (al menos 5 veces el nmro de variables analizadas), ambos en trminos absolutos y como funcin de del nmero de variables en el anlisis.

Paso 3. Supuestos del anlisis factorial


Pg. 53

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Es deseable algn grado de multicolinealidad entre variables dado que el objetivo es identificar conjuntos de variables interrelacionadas, no son tan importantes la normalidad, homoestacidad y linealidad a menos que disminuyan significativamente las correlaciones observadas. La matriz de correlacin debe indicar valores mayores a 0.3 para aplicar el anlisis de correlacin. Tambin si las correlaciones parciales entre variables (correlacin entre variables cuando el efecto de las otras variables se toma en cuenta) son pequeas dado que la variable puede explicada por los factores (variates con ponderacins para cada una de el anlisis factorial es inapropiado. La prueba de esfericidad de Bartlett mide la presencia de correlaciones entre las variables, proporciona la probabilidad de que la matriz de correlacin tenga correlaciones significativas en algunas de las variables. Otro indicador es el Measure of Sampling Adequacy (MSA), con rango de 0 a 1, donde 0.8 o ms es meritorio; 0.07 o ms es regular; 0.60 o ms es mediocre; 0.50 o ms miserable y debajo de 0.50 inaceptable. El supuesto bsico en el anlisis factorial es que existe una estructura subyacente en el conjunto de variables seleccionadas. las variables). Si las correlaciones parciales son altas, no hay factores subyacentes verdaderos y

Paso 4. Identificando factores y evaluando el ajuste del modelo


Una vez que se especifican las variables y se prepara la matriz de correlacin, se toman decisiones en relacin a (1) el mtodo de extraccin de los factores (anlisis de factores comunes versus anlisis de componentes) y (2) el nmero de factores seleccionados para representar la estructura subyacente en los datos. Anlisis de componentes El anlisis de componentes se usa cuando el objetivo es resumir la mayor parte de la informacin original (varianza) en un mnimo nmero de factores para

Pg. 54

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

propsitos de prediccin. Considera la varianza total y determina factores que contienen pequeas proporciones de varianza nica y, en algunos casos, varianza del error. Anlisis factorial En contraste el anlisis de factores comunes se utiliza para identificar los factores subyacentes o dimensiones que reflejan aquello que las variables comparten en comn. En este mtodo se tienen tres tipos de varianzas: (1) comn, (2) especfica (nica), y (3) error. La varianza comn se define como la varianza en una variable que es compartida por todas las dems variables. La varianza especfica es la varianza asociada solo con una variable especfica. La varianza del error es la varianza debida a la incertidumbre en el proceso de recoleccin de datos, errores de medicin, o componente aleatorio en el fenmeno medido. Criterios para el nmero de factores a extraer El mtodo primero extrae la combinacin de variables explicando la mayor cantidad de varianza y despus continua con combinaciones que representan menos y menos cantidades de varianza. La seleccin de factores a extraer equivale a enfocar un microscopio normalmente se hace por prueba y error contrastando los resultados. Criterio de Raz Latente: su racional es que cualquier factor individual debe contener la varianza de al menos una variable. Como cada variable contribuye con 1 al eigenvalor total o raz latente. Se seleccionan solo los factores con eigenvalores mayores a uno, cuando se tienen menos de 20 variables, los factores extrados son pocos. Criterio a Priori: en este mtodo el investigador ya tiene una idea clara de los factores a extraer y as lo indica en la computadora.

Pg. 55

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Criterio de porcentaje de varianza: Enfoque basado en lograr un porcentaje acumulado de varianza total extrado por factores sucesivos. Normalmente el proceso para al acumular 95%. Criterio Scree Test: Se usa para identificar el nmero ptimo de factores que pueden ser extrados antes de que la cantidad de varianza nica empiece a dominar la estructura de varianza comn.
Eig env alor 1

Nmero de factores

Paso 5. Interpretando los factores


Se obtiene la matriz no rotada para estimar el nmero de factores a extraer. La matriz de factores contiene ponderacins de factores para cada variable en cada factor. El primer factor puede verse como la mejor combinacin lineal incluida en los datos, con cada factor con ponderacins significativos y acumula la mayor parte de a varianza; el segundo factor es la segunda mejor combinacin lineal de variables, sujeta a que es ortogonal al primer factor, se basa en la porcin residual de la varianza una vez removido el primero, as sucesivamente. Los ponderacins de los factores representan la correlacin de cada una de las variables y el factor, entre mayores sean, mayor ser la representatividad del factor por la variable.

Pg. 56

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

La rotacin de los factores ms simple es una rotacin ortogonal, en la cual se mantienen los ejes a 90 grados. Se pueden rotar los ejes sin mantener los 90 grados entre los ejes de referencia. Cuando no hay restriccin de ortogonalidad, el procedimiento de rotacin se denomina rotacin oblicua.
+1 Factor II sin rotar V1 V2 +1 Factor II rotado

-1 V4 V3 V5 -1
Factor II

+1 Factor I sin rotar

+1 Factor I rotado

Fig. 1 Rotacin ortogonal de factores ( observar la ponderacin


II en la variable V2, es ms clara cuando se rotan los factores)

o ponderacin de factores I y

En la figura se observan dos conglomerados de variables (V1 y V2) y (V3, V4 y V5), sin embargo con los factores sin rotar no es muy obvia su ponderacin o ponderacin de los factores I y II. Despus de la rotacin de los ejes de factores, las variables 3, 4 y 5 tienen una ponderacin o ponderacin fuerte de factor I, y las variables 1 y2 tienen una ponderacin o ponderacin fuerte en el factor II. Siendo ms obvia la distincin entre conglomerados en dos grupos. Mtodos de rotacin ortogonal En la prctica el objetivo de todos los mtodos de rotacin es simplificar las filas y columnas de la matriz de factores para facilitar la interpretacin. En una matriz de factores las columnas representan factores, con cada rengln correspondiente a la ponderacin de las variables a travs de los factores. Al simplificar los renglones, se hacen tantos valores en cada fila tan cercanos a cero como sea posible (i.e. maximizando la ponderacin de una variable con un Pg. 57

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

factor nico). Simplificando las columnas, se hacen tantos valores en las columnas tan cercanos a cero como sea posible (i.e. hacer el mximo nmero de ponderacins altas como sea posible). Se han desarrollado tres mtodos para lo anterior como sigue: Quartimax: para simplificar las filas de la matriz; o sea, que Quartimax se enfoca a rotar los factores iniciales de manera que las variables tengan la mayor ponderacin posible de un factor y la mnima de los otros. Aunque este mtodo no ha sido eficiente. Varimax: se centra en simplificar las columnas de la matriz factorial. La mxima simplificacin posible se logra cuando solo hay 1s y 0s en la columna. Es decir que VARIMAX maximiza la suma de variancias de ponderacins requeridas de la matriz factorial. Este mtodo ha probado ser un mtodo analtico efectivo para obtener una rotacin ortogonal de factores. Equimax: Es un compromiso entre las anteriores. Trata de simplificar los renglones y las columnas, no se utiliza frecuentemente. Mtodos de rotacin oblicua: Estos mtodos son similares a las rotaciones ortogonales excepto que permiten factores correlacionados en vez de mantener la independencia de los factores rotados. En general no hay reglas para seleccionar uno de los mtodos anteriores. Criterios para la significancia de ponderacin de factores en las variables De manera prctica si las ponderacins son de 0.30 se considera que cumplen el nivel mnimo; ponderacins de 0.40 son importantes; 0.50 o mayores son significativas en la prctica. Como la ponderacin del factor es la correlacin de la variable y el factor, la ponderacin al cuadrado es la cantidad representada de la varianza total por el factor. De esta forma con 0.3 se tiene

Pg. 58

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

un 10% de explicacin y un 0.5 de ponderacin denota que un 25% de la varianza es representada por el factor. Evaluando la significancia estadstica Con base en un nivel de significancia de 0.05, un nivel de potencia del 80% y errores estndar asumidos se el doble de los coeficientes de correlacin convencionales, se tiene la tabla siguiente: Ponderacin del factor Tamao para 0.30 0.35 0.40 0.45 0.50 0.55 0.60 0.65 0.70 significancia 350 300 250 200 150 100 85 70 60 de tener

muestra requerida

Resumiendo las guas para la significancia de los factores son: (1) entre mayor sea el tamao de muestra, el valor de ponderacin significativo se reduce. (2) Entre ms variables sean consideradas en el anlisis, ms pequea es la ponderacin que se considera significativa. (3) Entre ms factores haya, mayor es la ponderacin en los factores adicionales para que sea considerada significativa. Cada columna de nmeros en la matriz representa un factor por separado. Las columnas de nmeros representan las ponderacins para cada una de las variables. Identificar la ms alta ponderacin para cada variable. Recordar que para tamaos de muestra similares a 100 se considera significante 0.3. La comunalidad para cada variable representa la cantidad de varianza considerada por la solucin factorial para cada variable. Evaluar la comunalidad de las variables, es decir identificar las que tengan ms del 50%, ya que las Pg. 59

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

que tengan menos no tienen suficiente explicacin. El nombre de los factores se desarrolla de manera intuitiva, con base en las variables con una mayor ponderacin se consideran ms importantes y tienen una mayor influencia para el nombre seleccionado para representar al factor.

Validacin del anlisis factorial


Se trata de evaluar el grado de generalizacin de los resultados en la poblacin y la influencia potencial de casos individuales en los resultados totales. El alfa de Cronbach es una medida del coeficiente de confiabilidad que evalua la consistencia de toda la escala. Este ndice es la relacin positiva del nmero de tems en la escala, donde 0.7 se considera adecuado.

Pg. 60

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Ejemplo con datos de HATCO


Prueba de la adecuacin del modelo, utilizando Minitab: 1. Stat > Basic statistics > Correlation 2. Variables X1, X2, X3, X4, X6, X7 3. Display p values 4. OK
Correlations: X1, X2, X3, X4, X6, X7
X2 X3 X4 X6 X7 X1 -0.349 0.000 0.476 0.000 0.050 0.618 0.077 0.446 -0.483 0.000 X2 X3 X4 X6

-0.472 0.000 0.272 0.006 0.186 0.064 0.470 0.000 -0.095 0.347 -0.015 0.880 -0.407 0.000 0.788 0.000 0.200 0.046 0.177 0.078

Cell Contents: Pearson correlation P-Value

De la matriz, 7 de 15 correlaciones son significativas estadsticamente. El valor de MSA de 0.665 cumple con con el criterio para aplicar el anlisis factorial.

Anlisis factorial con Minitab:

Las instrucciones de Minitab son las siguientes: 1 2 3 4 Cargar los datos de HATCO. Stat > Multivariate > Factor Analysis. En Variables, X1, X2, X3, X4, X6, X7 En Number of factors to extract, 2. 5 6 7 En Method of Extraction, seleccionar Principal components

En Type of Rotation, seleccionar Varimax. Click Graphs y seleccionar Loading plot for first 2 factors y Scree Plot.

Pg. 61

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

8 Click Results y seleccionar Sort loadings. Click OK en cada uno de los cuadros de dilogo. Los resultados se muestran a continuacin:
Factor Analysis: X1, X2, X3, X4, X6, X7
Principal Component Factor Analysis of the Correlation Matrix Unrotated Factor Loadings and Communalities Variable X1 X2 X3 X4 X6 X7 Variance % Var Factor1 0.618 -0.763 0.695 -0.502 -0.434 -0.761 2.4664 0.411 Factor2 -0.517 0.079 -0.357 -0.793 -0.827 0.170 1.7425 0.290 Communality 0.649 0.588 0.610 0.881 0.873 0.609 4.2089 0.701

El primer factor contiene la mayor parte de la varianza y es un factor general con alta ponderacin en cada variable. Las ponderacins para el segundo factor muestra tres variables que tambin tiene alta ponderacin (X1, X4 y X6). La interpretacin es sumamente difcil y sin significado, por lo que se debe considerar la rotacin de factores como sigue:
Rotated Factor Loadings and Communalities Varimax Rotation Variable X1 X2 X3 X4 X6 X7 Variance % Var Factor1 -0.783 0.718 -0.781 0.097 0.020 0.758 2.3231 0.387 Factor2 0.188 0.268 0.010 0.934 0.934 0.186 1.8858 0.314 Communality 0.649 0.588 0.610 0.881 0.873 0.609 4.2089 0.701

Las variables X1, X2 y X3 ponderacinn significativamente al factor 1 y las variables X4 y X6 ponderacinn significativamente al factor 2.

Si se considera como punto de corte las ponderacins con 0.55 o ms, el factor 1 tiene cuatro ponderacins significativas y el factor 2 tiene 2. Para el factor 1, se ven dos grupos de variables. Las primeras son el nivel de precios

Pg. 62

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

(X2) y la calidad del producto (X7) ambas con signos positivos y varan como conjunto. Las otras dos, tiempo de entrega (X1) y flexibilidad de precios (X3) tienen signos negativos tambin varan como conjunto.

En el factor 1, ambos grupos varan en sentido contrario, tal vez este factor sea el valor bsico y representa un compromiso entre percepciones de precio o calidad del producto y percepciones de tiempo de entrega y flexibilidad de precios.

En el factor 2, la variable X4 (imagen de fabricacin) y X6 (imagen de la fuerza de ventas) tal vez se pueda agrupar en imagen, ambas variables tienen el mismo signo, actuando en la misma direccin.

La variable X5 (servicio en general) no se incluy en al anlisis. Se tienen ahora dos factores como combinacin lineal de las variables para efectos de realizacin de estudios:
Factor Score Coefficients Variable X1 X2 X3 X4 X6 X7 Factor1 -0.356 0.297 -0.343 -0.020 -0.054 0.320 Factor2 0.154 0.097 0.058 0.498 0.503 0.050

Para verificar la validez del modelo se pueden hacer dos grupos de 50 observaciones y comparar sus matrices rotadas.
Data 1 50: Rotated Factor Loadings and Communalities Varimax Rotation Variable X1_1 X2_1 X3_1 X4_1 Factor1 -0.827 0.603 -0.686 0.156 Factor2 0.085 0.376 -0.177 0.919 Communality 0.691 0.506 0.502 0.869

Pg. 63

MTODOS ESTADSTICOS MULTIVARIADOS


X6_1 X7_1 Variance % Var 0.136 0.702 2.0548 0.342 0.924 0.201 1.9178 0.320 0.871 0.533 3.9726 0.662

P. REYES / OCT. 2006

Data 51 100: Rotated Factor Loadings and Communalities Varimax Rotation Variable X1_2 X2_2 X3_2 X4_2 X6_2 X7_2 Variance % Var Factor1 0.741 -0.785 0.815 -0.041 0.052 -0.824 2.5127 0.419 Factor2 -0.313 -0.190 -0.154 -0.949 -0.923 -0.154 1.9338 0.322 Communality 0.647 0.652 0.688 0.903 0.854 0.703 4.4466 0.741

Como se ve las dos rotaciones VARIMAX son comparables en trminos de ponderacins y comunalidades para las seis percepciones. As se puede asegurar que los resultados son estables dentro de la muestra. De la grfica Scree Plot con los Eigenvalores de los factores se tiene:
Scree Plot of X1, ..., X7
2.5

2.0

Eigenvalue

1.5

1.0

0.5

0.0 1 2 3 4 F actor N umber 5 6

Slo dos factores sern mantenidos si se toma como referencia el Eigenvalor de 1 o tres si se toma como referencia el criterio Scree. La grfica de ponderacins por variables se muestra a continuacin, identificando tres grupos de variables:

Pg. 64

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Loading Plot of X1, ..., X7


X6 X4

0.9 0.8 0.7 Second F actor 0.6 0.5 0.4 0.3 0.2 0.1 0.0 -1.0
X3 X1 X2 X7

-0.5

0.0 F irst F actor

0.5

En resumen se identifican dos dimensiones Valor bsico e Imagen, ahora se pueden hacer planes alrededor de estas dos dimensiones en lugar de considerar todas las variables separadas.

Ejemplo con datos del archivo EXH_MVAR


Se registran las siguientes caractersticas de 14 regiones censadas: poblacin total (Pop), promedio de escolaridad (School), empleo total (Employ), empleo en servcios de salud (Health), y valor promedio de casa (Home). Se desea investigar que factores podran explicar la mayor parte de la variabilidad. Como primer paso del anlisis factorial, se usa el mtodo de extraccin de componentes principales y se examina la grfica de eigenvalores (Scree) para apoyarnos en decidir sobre el nmero de factores.
Pop 5.935 1.523 2.599 4.009 4.687 8.044 2.766 6.538 6.451 3.314 3.777 1.53 2.768 6.585 School 14.2 13.1 12.7 15.2 14.7 15.6 13.3 17 12.9 12.2 13 13.8 13.6 14.9 Employ 2.265 0.597 1.237 1.649 2.312 3.641 1.244 2.618 3.147 1.606 2.119 0.798 1.336 2.763 Health 2.27 0.75 1.11 0.81 2.5 4.51 1.03 2.39 5.52 2.18 2.83 0.84 1.75 1.91

Las instrucciones de Minitab son las siguientes: Pg. 65

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

1 2 3 4

Abrir la worksheet EXH_MVAR.MTW. Stat > Multivariate > Factor Analysis. En Variables, poner Pop-Home. Click Graphs y seleccionar Scree plot. Click OK in each dialog box.

Los resultados se muestran a continuacin:


Factor Analysis: Pop, School, Employ, Health, Home
Principal Component Factor Analysis of the Correlation Matrix Unrotated Factor Loadings and Communalities Variable Pop School Employ Health Home Variance % Var Factor1 -0.972 -0.545 -0.989 -0.847 0.303 3.0289 0.606 Factor2 -0.149 -0.715 -0.005 0.352 -0.797 1.2911 0.258 Factor3 0.006 -0.415 0.089 0.344 0.523 0.5725 0.114 Factor4 0.170 -0.140 0.083 -0.200 0.005 0.0954 0.019 Factor5 -0.067 0.001 0.085 -0.022 0.002 0.0121 0.002 Communality 1.000 1.000 1.000 1.000 1.000 5.0000 1.000

Factor Score Coefficients Variable Pop School Employ Health Home Factor1 -0.321 -0.180 -0.327 -0.280 0.100 Factor2 -0.116 -0.553 -0.004 0.272 -0.617 Factor3 0.011 -0.726 0.155 0.601 0.914 Factor4 1.782 -1.466 0.868 -2.098 0.049 Factor5 -5.511 0.060 6.988 -1.829 0.129

Scree Plot of Pop, ..., Home


3.0 2.5 2.0 1.5 1.0 0.5 0.0 1 2 3 F actor N umber 4 5

Interpretacin de resultados

Eigenvalue

Pg. 66

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Cinco factores describen estos datos perfectamente, pero la meta es reducir el nmero de factores requeridos para explicar la variabilidad de los datos. La proporcin de la variabilidad explicada por los dos ltimos factores es mnima (0.019 y 0.002 respectivamente) y pueden ser eliminadas sin afectar al resultado. Los primeros dos factores juntos representan 86% de la variabilidad mientras que tres factores representan 98% de la variabilidad. La cuestin es si usar dos o tres factores, se requieren otras corridas para decidir si usar dos o tres factores. Se seleccionan dos factores como el nmero que representa los datos del censo en base al anlisis de componentes principales. Se realiza una extraccin de mxima verisimilitud y rotacin varimax para interpretar los factores. Las instrucciones de Minitab son las siguientes: 1 2 3 4 5 6 7 8 Abrir la worksheet EXH_MVAR.MTW. Stat > Multivariate > Factor Analysis. En Variables, Pop-Home. En Number of factors to extract, 2. En Method of Extraction, seleccionar Maximum likelihood. En Type of Rotation, seleccionar Varimax. Click Graphs y seleccionar Loading plot for first 2 factors. Click Results y seleccionar Sort loadings. Click OK en cada uno de los

cuadros de dilogo. Los resultados se muestran a continuacin:


Factor Analysis: Pop, School, Employ, Health, Home
Maximum Likelihood Factor Analysis of the Correlation Matrix * NOTE * Heywood case Unrotated Factor Loadings and Communalities Variable Pop School Factor1 0.971 0.494 Factor2 0.160 0.833 Communality 0.968 0.938

Pg. 67

MTODOS ESTADSTICOS MULTIVARIADOS


Employ Health Home Variance % Var 1.000 0.848 -0.249 2.9678 0.594 0.000 -0.395 0.375 1.0159 0.203 1.000 0.875 0.202 3.9837 0.797

P. REYES / OCT. 2006

Rotated Factor Loadings and Communalities Varimax Rotation Variable Pop School Employ Health Home Variance % Var Factor1 0.718 -0.052 0.831 0.924 -0.415 2.2354 0.447 Factor2 0.673 0.967 0.556 0.143 0.173 1.7483 0.350 Communality 0.968 0.938 1.000 0.875 0.202 3.9837 0.797

Sorted Rotated Factor Loadings and Communalities Variable Health Employ Pop Home School Variance % Var Factor1 0.924 0.831 0.718 -0.415 -0.052 2.2354 0.447 Factor2 0.143 0.556 0.673 0.173 0.967 1.7483 0.350 Communality 0.875 1.000 0.968 0.202 0.938 3.9837 0.797

Factor Score Coefficients Variable Pop School Employ Health Home Factor1 -0.165 -0.528 1.150 0.116 -0.018 Factor2 0.246 0.789 0.080 -0.173 0.027

Loading Plot of Pop, ..., Home


1.0
School

0.8
Pop

Second F actor

0.6

Employ

0.4

0.2

Home

Health

0.0 -0.50 -0.25 0.00 0.25 F irst F actor 0.50 0.75 1.00

Pg. 68

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Estos resultados indican un caso Heywood (las varianzas menores al lmite de convergencia especificado se ponen a cero y sus comunalidades a 1). Se tienen tres tablas de ponderaciones y comunalidades: no rotadas, rotadas, ordenadas y rotadas. Los factores no rotados explican el 79.7 de la variabilidad de los datos y los valores de comunalidad indican que todas las variables sin Home estn bien representadas por esos dos factores (comunalidad son 0.202 para Home, 0.875 1.0 para otras variables). El porcentaje de la variabilidad total representada por los factores no cambia con la rotacin, sino despus de rotar, pero despus de rotar, estos factores son mas claramente balanceados en el porcentaje de variabilidad que ellos representan, siendo 44.7% y 35%, respectivamente. El ordenamiento es realizado por la ponderacin mxima absoluta para cualquier factor. Las variables que tienen la mayor ponderacin absoluta en el factor 1 se muestran primero en orden. Despus las variables con la ponderacin mayor en el factor 2 y as sucesivamente. El factor 1 tiene su ponderacin mayor positiva en Health (0.924), Employ (0.831) y Pop (0.718), y -0.415 en Home, mientras que la ponderacin en School es baja. El factor 2 tiene una ponderacin positiva en School de 0.967 y ponderacin de 0.556 y 0.673 en Employ y Pop respectivamente, y una ponderacin pequea en Health y Home. Se pueden ver las ponderaciones rotadas grficamente en la grfica de ponderaciones (load graph). Ah se muestra para factor 1 con ponderaciones altas en Pop, Emply, y Health y ponderacin negativa en Home. School tiene una ponderacin alta positiva para el factor 2 y algo menor para Pop y Employ. De los resultados se puede pensar en que el factor 1 sea un factor relacionado con Cuidado de la salud tamao de la poblacin. El factor 2 puede ser considerado como un factor relacionado con educacin tamao de la poblacin. En forma adicional Minitab muestra una tabla de coeficientes del factor. Muestran como se calculan los factores. Minitab calcula los valores

Pg. 69

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

multiplicando los coeficientes y los datos despus de corregirlos centrndolos al restarle sus medias.

Pg. 70

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

ANLISIS DE REGRESIN MLTIPLE


Es una tcnica estadtica que se puede usar para analizar la relacin entre una variable dependiente simple (respuesta, criterio) y varias variables independientes cuyos valores son conocidos para predecir la variable dependiente. Los pesos denotan la contribucin relativa de las variables independientes a la prediccin general y facilitar la interpretacin de la influencia de cada variable en la prediccin, lo que se complica si hay correlacin de las variables independientes. El conjunto de variables independientes con sus pesos forma el Variate de regresin, ecuacin de regresin o modelo de regresin, que es una combinacin lineal de las variables independientes que mejor predicen la variable dependiente. Los supuestos de un anlisis de regresin mltiple son los siguientes: Linealidad del fenmeno medido Varianza constante de los trminos de error Independencia de los trminos de error Normalidad de la distribucin de los trminos de error.

Pg. 71

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Ejemplo: Familia 1 2 3 4 5 6 7 8 Total Tarjetas 4 6 6 7 8 7 8 10 Tamano 2 2 4 4 5 5 6 6 Ingreso 14 16 14 17 18 21 17 25

Las instrucciones de Minitab para correr el ejemplo son: 1 2 3 4 5 6 Cargar datos en Minitab. Stat > Regression > Regression. En Response, seleccionar Tarjetas. En Predictors, seleccionar Tamano e Ingreso. Click Graphs. En Residuals for Plots, seleccionar Standardized.

7 En Residual Plots, seleccionar Individual Plots. Seleccionar Histogram of residuals, Normal plot of residuals, y Residuals versus fits. Click OK. 8 Click Options. en Display, seleccionar PRESS y predicted R-square. Click OK en cada uno de los cuadros de dilogo. Los resultados se muestran a continuacin:

Pg. 72

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Normal Probability Plot of the Residuals


(response is Tarjetas)
99

95 90 80

Percent

70 60 50 40 30 20 10 5

-3

-2

-1 0 1 Standardized Residual

Regression Analysis: Tarjetas versus Tamano, Ingreso


The regression equation is

Tarjetas = 0.48 + 0.632 Tamano + 0.216 Ingreso


Predictor Constant Tamano Ingreso Coef 0.482 0.6322 0.2158 SE Coef 1.461 0.2523 0.1080 T 0.33 2.51 2.00 P 0.755 0.054 0.102

S = 0.780990 PRESS = 8.02177

R-Sq = 86.1%

R-Sq(adj) = 80.6%

R-Sq(pred) = 63.54%

Analysis of Variance Source Regression Residual Error Total Source Tamano Ingreso DF 1 1 DF 2 5 7 SS 18.9503 3.0497 22.0000 MS 9.4751 0.6099 F 15.53 P 0.007

Seq SS 16.5143 2.4360

Interpretacin de resultados
Salida de sesin El valor P en la tabla de ANOVA (0.000) muestra que el modelo estmado por el procedimiento de regresin es significativo a un alfa de 0.05, indicando que al menos un coeficiente es diferente de cero.

Pg. 73

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Los valores P de los coeficientes estimados para tamano es de 0.054 indicando que es significativo a un nivel alfa de 0.054. Sugiriendo que el modelo de regresin simple es adecuado.

El valor de R cuadrado indica que los predoctores explican el 87.4% de la varianza en Tarjetas. La R cuadrada ajustada es 85.9%, que representa la contribucin del nmero de predictores en el modelo. Ambos valores indican que el ajuste es adecuado.

El valor pronosticdo R cuadrado es 78.96%, dado que es parecido a R cuadrado y r cuadrado ajustado, el modelo no parece estar sobreajustado y tiene una buena habilidad de prediccin

Las observaciones 4 y 22 se identifican como no usuales dado que el valor estandarizado de los residuos es mayor a 2. Indicando puntos aberantes o outliers.

Salida grfica
El histograma de los residuos muestra un patrn consistente con la distribucin normal. El histograma es ms efectivo para grupos de ms de 50 observaciones. La grfica de probabilidad normal es ms fcil de interpretar con pequeas muestras. En la grfica normal tambin sobresalen los outliers 4 y 22. La grfica de residuos contra valores de prediccin muestra que los residuos son ms pequeos conforme conforme los valores ajustados se incrementan, indicando que no tienen varianza constante.

Pg. 74

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Ejemplo con datos de Hatco


Hacer un estudio de correlacin entre las variables independientes: 1 2 3 4 Cargar datos en Minitab. Stat > Basic statistics > Correlation Variables X1 X7 X9 indicar Show P value OK

Los resultados son los siguientes:


Correlations: X1, X2, X3, X4, X5, X6, X7, X9
X2 X3 X4 X5 X6 X7 X9 X1 -0.349 0.000 0.476 0.000 0.050 0.618 0.612 0.000 0.077 0.446 -0.483 0.000 0.676 0.000 X2 X3 X4 X5 X6 X7

-0.472 0.000 0.272 0.006 0.513 0.000 0.186 0.064 0.470 0.000 0.083 0.412 -0.095 0.347 0.064 0.524 -0.015 0.880 -0.407 0.000 0.556 0.000 0.299 0.003 0.788 0.000 0.200 0.046 0.225 0.024 0.241 0.016 -0.055 0.586 0.701 0.000 0.177 0.078 0.257 0.010 -0.192 0.055

Cell Contents: Pearson correlation P-Value

La variable X5 (servicio en general) est ms correlacionado con la respuesta X9 con r = 0.701. X1 tambin est correlacionada con la respuesta sin embargo tiene correlacin con X5 por lo que el uso de ambas es cuestionable. Las instrucciones de Minitab para correr el ejemplo son: 1 2 Cargar datos en Minitab. Stat > Regression > Regression.

Pg. 75

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

3 4 5 6

En Response, seleccionar X9 (utilizacin del producto). En Predictors, seleccionar X1 X7. Click Graphs. En Residuals for Plots, seleccionar Standardized.

7 En Residual Plots, seleccionar Individual Plots. Seleccionar Histogram of residuals, Normal plot of residuals, y Residuals versus fits. Click OK.
Regression Analysis: X9 versus X1, X2, X3, X4, X5, X6, X7
The regression equation is X9 = - 9.25 + 1.96 X1 + 1.28 X2 + 3.27 X3 - 0.004 X4 + 4.60 X5 + 1.23 X6 + 0.426 X7 Predictor Constant X1 X2 X3 X4 X5 X6 X7 S = 4.45075 Coef -9.255 1.956 1.280 3.2702 -0.0039 4.600 1.2305 0.4261 SE Coef 4.949 2.045 2.155 0.4059 0.6714 4.012 0.9537 0.3557 T -1.87 0.96 0.59 8.06 -0.01 1.15 1.29 1.20 P 0.065 0.341 0.554 0.000 0.995 0.255 0.200 0.234

R-Sq = 77.2%

R-Sq(adj) = 75.5%

PRESS = 2144.13

R-Sq(pred) = 73.20%

Analysis of Variance Source Regression Residual Error Total Source X1 X2 X3 X4 X5 X6 X7 DF 1 1 1 1 1 1 1 DF 7 92 99 SS 6177.81 1822.44 8000.26 MS 882.54 19.81 F 44.55 P 0.000

Seq SS 3659.76 927.88 1424.10 80.48 18.20 38.97 28.43

Unusual Observations Obs 7 11 14 22 55 100 X1 4.60 2.40 3.70 3.40 3.80 2.50 X9 46.000 32.000 38.000 35.000 39.000 33.000 Fit 58.734 41.365 47.833 34.870 33.433 43.721 SE Fit 1.379 1.014 1.098 2.711 2.712 1.049 Residual -12.734 -9.365 -9.833 0.130 5.567 -10.721 St Resid -3.01R -2.16R -2.28R 0.04 X 1.58 X -2.48R

R denotes an observation with a large standardized residual. X denotes an observation whose X value gives it large influence.

Pg. 76

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Normplot of Residuals for X9


Normal Probability Plot of the Residuals
(response is X9)
99.9 99 95 90 80 70 60 50 40 30 20 10 5 1 0.1

Percent

-3

-2

-1 0 1 Standardized Residual

Residuals Versus the Fitted Values


(response is X9) 2

Standardized Residual

-1

-2

-3 20 30 40 F itted Value 50 60

Pg. 77

También podría gustarte