Documentos de Académico
Documentos de Profesional
Documentos de Cultura
En donde N representa el nmero de tems de la escala, s2 (Yi) es igual a la sumatoria de las varianzas de los tems y s2x equivale a la varianza de toda la escala. 2. Sobre la base de la matriz de correlacin de los tems , el procedimiento sera: a) Se aplica la escala. b) Se obtienen los resultados. c) Se calculan los coeficientes de correlacin r de Pearson entre todos los tems (todos contra todos de par en par). d) Se elabora la matriz de correlacin con los coeficientes obtenidos. Por Pg. 1
ejemplo:
Los coeficientes que se mencionan como ya fue calculado, se ubican en la parte superior de las lneas horizontales (guiones). Es decir, cada coeficiente se incluye una sola vez y se excluyen los coeficientes que vinculan al tem o puntuacin consigo misma (1 con 1, 2 con 2, 3 con 3 y 4 con 4).
Pg. 2
Pg. 3
Los mtodos de anlisis multivariado Los mtodos de anlisis multivariado son aquellos en que se analiza la relacin entre diversas variables independientes y al menos una dependiente . Son mtodos ms complejos que requieren del uso de computadoras para efectuar los clculos necesarios
Entre las tcnicas ms comunes se encuentran (1) Anlisis de componentes principales y factores comunes, (2) regresin y correlacin mltiple, (3) anlisis discriminante mltiple, (4) anlisis multivariado de varianza y covarianza, (5) anlisis conjunto, (6) correlacin cannica, (7) anlisis de clusters, (8) escala multidimensional. Otras tcnicas nuevas incluyen (9) anlisis de correspondencia, (10) modelos de probabilidad lineal tales como el logit y probit, y (11) modelos de ecuacin simultaneas / estructurales. A continuacin se describen brevemente stas tcnicas.
Pg. 4
la informacin contenida en un nmero de variables originales, dentro de un conjunto ms pequeo de variates (factores) con mnima prdida de informacin.
Regresin mltiple
En un mtodo de anlisis adecuado cuando el problema de investigacin involucra una variable dependiente nica que se presume se relaciona a dos o ms variables independientes medibles. El objetivo es predecir el cambio en la variable dependiente de respuesta con cambios en las variables independientes, normalmente con el mtodo de mnimos cuadrados. Por ejemplo se pueden predecir los montos gastados en cenas a partir de ingresos de las familias (variable dependiente), su tamao, y la edad del padre (variables independientes).
Pg. 5
ANOVA univariado. El anlisis multivariado de covarianza (MANCOVA) se puede usar en conjunto con el MANOVA para remover (despus del experimento) el efecto de cualquier variable mtrica independiente no controlada (conocida como covariada) en la variable independiente.
Anlisis conjunto
Se aplica a nuevos productos para evaluar la importancia de los atributos del nuevo producto as como los niveles de cada atributo, mientras que el consumidor evala solo unos pocos perfiles del producto como combinaciones de los niveles de producto. Por ejemplo asumir un producto con tres atributos (precio, calidad y color), cada uno en tres niveles posibles (vgr. Rojo, amarillo y azul). En vez de tener que evalur las 27 combinaciones posibles (3x3x3), se evala un subconjunto de 9 o ms combinaciones con base en su atractivo para el consumidor, de manera que el investigador no solo conozca la importancia de cada atributo, sino adems la importancia de cada nivel (atractivo del rojo vs amarillo vs azul).
Correlacin cannica
El anlisis de correlacin puede ser visto como una extensin lgica de la regresin mltiple. Donde se trata de correlacionar simultneamente varias variables dependientes medibles o mtricas y varias variables independientes medibles. El principio es establecer una combinacin lineal de cada conjunto de variables (dependientes e independientes) para maximizar la correlacin entre los dos conjuntos (obteniendo ponderacins adecuados para las variables).
Pg. 6
Normalmente se realiza en tres pasos. El primero es la medicin de alguna forma de similitud o asociacin entre las entidades para identificar cuantos grupos realmente existen en la muestra. El segundo paso es el proceso en s de conglomerados, donde las entidades se particionan en grupos (conglomerados o clusters). El paso final es perfilar las personas o variables para determinar su composicin. Muchas veces esto ltimo se realiza con el anlisis discriminante.
Escala multidimensional
El objetivo es transformar los juicios del consumidor de similitud o preferencias (vgr. Preferencia por tiendas o marcas) en distancias representadas en un espacio multidimensional. Si los objetos A y B se juzgan por el consumidor como similares, comparados con cualquier otro par de objetos, la tcnica posiciona los objetos A y B de manera que la distancia entre ellos en un espacio multidimensional es ms pequeo que la distancia entre cualquier otro par de objetos. Al final se muestra un mapa perceptual con la posicin relativa de los objetos. Anlisis de correspondencia Facilita tanto la reduccin dimensional de objetos en un conjunto de atributos y el mapa perceptual de objetos respecto a estos atributos. En su forma ms elemental es una tabla de contingencia o tabulacin cruzada de dos variables categricas. Transforma los datos no mtricos a un nivel medible y realiza una reduccin dimensional (similar al anlisis de factores) y un mapa perceptual (similar al anlisis multidimensional). Por ejemplo, las preferencias de marcas de los consumidores pueden ser tabuladas contra variables demogrficas (vgr. Gnero, categoras de ingresos, ocupacin) indicando cuanta gente prefiere cada una de las marcas que caen en cada categora de las variables demogrficas. Por medio del anlisis de correspondencia, la asociacin o correspondencia de marcas y las caractersticas distintivas de aquellos que prefieren las marcas se muestran en
Pg. 7
un mapa tridimensional o bidimensional tanto de marcas como de las caractersticas que distinguen a aquellos que prefieren cada marca.
Pg. 8
Imagen de la fuerza de ventas - general Calidad del producto calidad percibida en desempeo o rendimiento
Resultados de compras / Medibles (Mtricas) X9 X10 Nivel de utilizacin - que porcentaje de producto es surtido por Hatco Nivel de satisfaccin que tan satisfecho esta el cliente con Hatco
Caractersticas del comprador / No Medibles (No Mtricas) X8 X11 X12 X13 X14 Tamao de la empresa - 1- Grande 0 - pequeo Especificacin de compra - 1-Evala por el valor total y 0- especificacin Estructura de abastecimiento 1- centralizado 0 - descentralizado Tipo de industria - 1- industria A 0 otras industrias Tipo de situacin de compra 1- nueva 2- modificada 0- tradicional
Pg. 9
ANOVA (anlisis de varianza de k direcciones ) El ANOVA es similar a la regresin en el sentido de que se utiliza para investigar y modelar la relacin entre una variable de respuesta y una o ms variables independientes. Sin embargo, el ANOVA difiere de la regresin en dos aspectos: las variables independientes son cualitativas (categricas), y no hay supuestos acerca de la naturaleza de la relacin (o sea que el modelo no incluye coeficientes para variables). En efecto el ANOVA extiende la prueba de dos muestras con prueba t para probar la igualdad de dos poblaciones a una hiptesis ms general al comparar ms de dos medias, versus que no sean iguales. Definicin: Es una prueba estadstica para evaluar el efecto de dos o ms variables independientes sobre una variable dependiente. Responde a esquemas como el que se muestra en la figura:
Pg. 10
que incluye ms de una variable independiente. Evala los efectos por separado de cada variable independiente y los efectos conjuntos de dos o ms variables independientes. Variables: Dos o ms variables independientes y una dependiente. Nivel de medicin de las variables : La variable dependiente (criterio) debe estar medida en un nivel por intervalos o razn, y las variables independientes (factores) pueden estar en cualquier nivel de medicin, pero expresadas de manera categrica. Interpretacin y ejemplo Hi: La similitud en valores, la atraccin fsica y el grado de retroalimentacin positiva son variables que inciden en la satisfaccin sobre la relacin en parejas de novios. Contexto: Muestra de parejas de adultos jvenes (23-29 aos), pertenecientes a estratos econmicos altos (n=400). El ANOVA efectuado mediante un paquete estadstico computacional como SPSS produce los siguientes elementos bsicos: Fuente de la variacin (source of variation). Es el factor que origina variacin en la dependiente. Si una fuente no origina variacin en la dependiente, no tiene efectos. Efectos principales (main effects). Es el efecto de cada variable independiente
Pg. 11
por separado; no est contaminado del efecto de otras variables iindependientes ni de error. Suele proporcionarse la suma de todos los efectos principales. Interacciones de dos direcciones (2-way interactions). Representa el efecto conjunto de dos variables independientes, aislado de los dems posibles efectos de las variables independientes (individuales o en conjuntos). Suele proporcionarse la suma de los efectos de todas estas interacciones. Interacciones de tres direcciones (3-way interactions). Constituye el efecto conjunto de tres variables independientes, aislado de otros efectos. Suele proporcionarse la suma de los efectos de todas estas interacciones. Puede haber efecto de K-direcciones, esto dependie del nmero de variables independientes. En nuestro ejemplo, tenemos los resultados siguientes:
TABLA ANOVA
VARIABLE DEPENDIENTE: SATISFACCIN EN LA RELACIN Fuente variacin
Efectos principales (main effects
de Suma cuadrados
Estadstico F
22.51
Significancia de Fc = P
.001**
31.18 21.02
0.001** 0.001**
11.84
-4.32
0.004**
0.04*
2.18 1.56
0.11 0.190
8.01
0.02*
Normalmente interesa saber si las razones F resultaron o no por tanto, slo se incluyen estos valores. Se
significativas;
recomienda concentrarse en dichos valores y evitar confusiones. Desde luego, el investigador experimentado acostumbra estudiar todos los valores. ** Razn F significativa al nivel del 0.01 (p < 0.01) *Razn F significativa al nivel del 0.05 (p < 0.05) Como podemos ver en la tabla, la similitud, la atraccin y la retroalimentacin tienen un efecto significativo sobre la satisfaccin en la relacin. Respecto a los efectos de dos variables independientes conjuntas, slo la similitud y la atraccin tienen un efecto, hay un efecto conjunto de las tres variables independientes. La hiptesis de investigacin se acepta y la nula se rechaza. Asimismo, se recuerda al lector que en el captulo 5 del presente disco: Otros diseos experimentales (en el apartado sobre diseos factoriales) se explica
Pg. 13
la nocin de interaccin entre variables independientes. Cabe agregar que el ANOVA es un mtodo estadstico propio para los diseos experimentales factoriales.
Ejemplo:
Un experimento se realiz para probar cuanto tiempo toma usar un modelo nuevo y un modelo anterior de calculadora. Seis ingenieros trabajando en un problema estadstico y uno de ingeniera se les toma el tiempo para resolver el problema. Los ingenieros se consideran como bloques en el diseo experimental. Hay dos factores: Tipo de problema y modelo de calculadora cada uno con dos niveles, se hacen experimentos donde esos niveles de los factores se cruzan. Los datos se muestran a continuacin:
SolveTime 3.1 7.5 2.5 5.1 3.8 8.1 2.8 5.3 3 7.6 2 4.9 3.4 7.8 2.7 5.5 3.3 6.9 2.5 5.4 3.6 7.8 2.4 4.8 Engineer Jones Jones Jones Jones Williams Williams Williams Williams Adams Adams Adams Adams Dixon Dixon Dixon Dixon Erickson Erickson Erickson Erickson Maynes Maynes Maynes Maynes ProbType Stat Stat Eng Eng Stat Stat Eng Eng Stat Stat Eng Eng Stat Stat Eng Eng Stat Stat Eng Eng Stat Stat Eng Eng Calculator New Old New Old New Old New Old New Old New Old New Old New Old New Old New Old New Old New Old
Pg. 14
1 2 3 4 5
Abrir la worksheet EXH_AOV.MTW. Stat > ANOVA > Balanced ANOVA. Responses, poner SolveTime. Model, poner Engineer ProbType | Calculator. En Random Factors, poner Engineer.
6 Click Results. En Display means corresponding to the terms , poner ProbType | Calculator. Click OK cada cuadro de dilogo. Los resultados obtenidos son los siguientes:
ANOVA: SolveTime versus Engineer, ProbType, Calculator
Factor Engineer ProbType Calculator Type random fixed fixed Levels 6 2 2 Values Adams, Dixon, Erickson, Jones, Maynes, Williams Eng, Stat New, Old
Analysis of Variance for SolveTime Source Engineer ProbType Calculator ProbType*Calculator Error Total S = 0.259487 Means ProbType Eng Stat Calculator New Old ProbType Eng Eng Stat Stat N 12 12 N 12 12 SolveTime 3.8250 5.4917 SolveTime 2.9250 6.3917 N 6 6 6 6 SolveTime 2.4833 5.1667 3.3667 7.6167 DF 5 1 1 1 15 23 SS 1.053 16.667 72.107 3.682 1.010 94.518 MS 0.211 16.667 72.107 3.682 0.067 F 3.13 247.52 1070.89 54.68 P 0.039 0.000 0.000 0.000
R-Sq = 98.93%
R-Sq(adj) = 98.36%
Pg. 15
Se muestran los factores (fijos y aleatorios), niveles y valores. Despus se muestra la tabla de ANOVA, donde se indica de acuerdo al valor P que hay una interaccin significativa entre el tipo de problema y el modelo de calculadora, lo que implica que la reduccin en tiempo de proceso de la calculadora depende del tipo de problema. En la lista de promedios se observa un menor tiempo entre la calculadora nueva y la anterior.
Pg. 16
ANLISIS (MANOVA)
MULTIVARIADO
DE
VARIANZA
Es un modelo para analizar la relacin entre una o ms variables independientes y dos o ms variables dependientes. Es decir, es til para estructuras causales del tipo:
La tcnica posee varios usos, entre los que destacan: - Evaluar diferencias entre grupos a travs de mltiples variables dependientes (medidas por intervalos o razn). La(s) variable(s) independiente(s) es(son) categrica(s) (no mtricas). Tiene el poder de evaluar no solamente las diferencias totales, sino diferencias entre las combinaciones de las dependientes. En este sentido representa una extensin del anlisis de varianza (ANOVA) para cubrir casos donde hay ms de una variable dependiente y/o cuando las
Pg. 17
variables dependientes simplemente no pueden ser combinadas. En otras palabras, reconoce si los cambios en la(s) variable(s) independiente(s) tienen un efecto significativo en las dependientes. Seala qu grupos difieren en una variable o en el conjunto de variables dependientes. - Identificar las interacciones entre las variables independientes y la asociacin entre las dependientes. Las tres clases principales del MANOVA son: 1) Hotelling's T. Es parecida a la prueba t (dos grupos) pero con ms dependientes: dependientes. 2) MANOVA unidireccional. Anlogo al ANOVA de una sola va, pero con ms dependientes: una variable independiente multicategrica y varias dependientes. 3) MANOVA factorial. Similar al ANOVA factorial, solamente que con dos o ms dependientes: varias independientes categricas y varias dependientes. Los modelos del MANOVA tienen en comn que forman una variable independiente dicotmica y varias
combinaciones lineales de las dependientes que discriminan mejor entre los grupos en un experimento o una situacin no experimental. Es una prueba de significancia de las diferencias en los grupos en un espacio multidimensional donde cada dimensin est definida por combinaciones lineales del conjunto de variables dependientes.
Pg. 18
Una pregunta que suele hacer el estudiante al revisar el MANOVA es por qu no hacemos ANOVAS separados, uno para cada dependiente? La respuesta: las dependientes estn correlacionadas muy frecuentemente, por lo cual los resultados de varios ANOVA pueden ser redundantes y difciles de integrar. He aqu una sntesis de la explicacin de Wiersma (1999) sobre este tipo de anlisis: Al incluir dos o ms variables dependientes simultneamente no se consideran las diferencias entre las medias en cada variable, sino las diferencias en variables cannicas. El inters no slo es saber si los grupos definidos por las variables independientes difieren en las variables cannicas, sino conocer la naturaleza de stas. Una variable cannica es una variable artificial generada a partir de los datos. Representa constructos y se compone de variables reales, las cuales deben ser descritas en trminos de variables dependientes. Lo anterior se efecta por medio de las ponderacins de los coeficientes de correlacin entre una variable dependiente y una variable cannica. Si una ponderacin entre la variable cannica y la dependiente es positiva y elevada, significa que altos valores en la dependiente se asocian con altos valores en la cannica. Por ejemplo, si una variable dependiente consiste en puntuaciones a una prueba sobre innovacin, y dichas puntuaciones se correlacionan en forma
considerable con una variable cannica, inferimos que la variable cannica representa un constructo que involucra esencialmente a la innovacin. En los clculos que se hacen en el MANOVA, se generan variables cannicas
Pg. 19
hasta que se encuentra que no hay una diferencia estadstica significativa entre las categoras o los grupos de las variables independientes; o bien, hasta que se agotan los grados de libertad de las variables independientes (lo que ocurra primero). El nmero de variables cannicas no puede exceder el nmero de variables dependientes, pero es comn que el nmero de dependientes sea mayor que el de variables cannicas estadsticamente significativas o los grados de libertad. La hiptesis general de investigacin en el MANOVA postula que las medias de los grupos o las categoras de la(s) variable(s) independiente(s) difieren entre s en las variables cannicas. La hiptesis nula postula que dichas medias sern iguales. Se calculan diversas estadsticas para evaluar ambas hiptesis, entre las que destacan: F (total, toma en cuenta el modelo completo), la prueba Hotelling's TSquare, T2 (cuando hay dos grupos formados por las variables independientes), Wilks' lambda, U (cuando hay ms de dos grupos formados por las variables independientes), y Pillai-Bartlett (cuando hay coeficientes cannicos); y si resultan significativas en un nivel de confianza, se acepta la hiptesis de investigacin de diferencia de medias. Esto indica que hay, por lo menos, una variable cannica significativa (pero puede haber varias). Si diversas variables cannicas son significativas, esto muestra que se presentan diferencias en las variables cannicas en cuestin, entre los grupos o categoras de las independientes. Los paquetes estadsticos que contiene el MANOVA suelen posicionar a los grupos de las variables independientes por puntuaciones discriminantes; stas son calculadas con una funcin discriminante,
Pg. 20
que es una ecuacin de regresin para un compuesto de variables dependientes. discriminante A en cada cada grupo se le asigna una Las puntuacin puntuaciones variable cannica.
discriminantes de una variable independiente pueden ser cero o tener un valor positivo o negativo. Una puntuacin discriminante positiva y elevada para un grupo, indica que ste se coloca por encima de los dems en la respectiva variable cannica. Y deben considerarse las ponderacins, las cuales son positivas o negativas. Las puntuaciones discriminantes son utilizadas para interpretar las separaciones de los grupos en las variables cannicas, en tanto que las ponderacins se usan para evaluar y ligar los resultados de las variables dependientes (Wiersma, 1999). Un ejemplo de las ponderacins de los coeficientes de correlacin entre las variables dependientes y las variables cannicas as como las puntuaciones discriminantes se muestran en las tablas siguientes:
Pg. 21
Como observamos en la ltima tabla, se obtuvieron tres constructos subyacentes en las puntuaciones recolectadas de la muestra: motivacin intrnseca, atribucin de causalidad externa y desempeo laboral. Vemos en la tabla que los grupos (niveles en la empresa) estn separados en las tres variables cannicas (los grupos difieren), particularmente en la primera variable cannica (motivacin intrnseca) y los obreros ocupan la posicin ms baja. Las variables dependientes enmarcadas en un recuadro en la primera variable cannica se ponderacinn en ella; en consecuencia, los ejecutivos tienen las puntuaciones ms altas en motivacin intrnseca medida por la escala mencionada, en atribuciones internas y en sentimientos de xito en el trabajo. As se interpretan todas las variables cannicas y dependientes. En el MANOVA se incluyen razones F y anlisis de varianza. Algunos paquetes estadsticos agregan una prueba denominada correlacin cannica, que es muy similar al MANOVA. sta es la mxima correlacin que llega a obtenerse entre los conjuntos de puntuaciones y las relaciones entre las variables independientes, entre las variables dependientes y entre los conjuntos de ambas (dependientes e independientes) (Kerlinger, 1979). Las variables en el MANOVA y la correlacin
Pg. 22
cannica asumen que las variables dependientes estn medidas en un nivel de intervalos o razn. Tal correlacin se interpreta como otras; pero el contexto de interpretacin vara de acuerdo con el nmero de variables involucradas.
Pg. 23
Instrucciones de Minitab 1 2 3 4 Abrir el archivo EXH_MVAR.MTW. Seleccionar Stat > ANOVA > Balanced MANOVA. En Responses, poner Tear Gloss Opacity. En Model, poner Extrusion | Additive.
Pg. 24
(hypothesis, error, partial correlations) y Eigen analysis. 6 Click OK en cada cuadro de dilogo.
MANOVA for Extrusion s = 1 m = 0.5 n = 6.0 Test Criterion Wilks' Lawley-Hotelling Pillai's Roy's Statistic 0.38186 1.61877 0.61814 1.61877 F 7.554 7.554 7.554 Num 3 3 3 DF Denom 14 14 14 P 0.003 0.003 0.003
SSCP Matrix for Extrusion Tear Tear Gloss Opacity 1.740 -1.505 0.855 Gloss -1.505 1.301 -0.739 Opacity 0.8555 -0.7395 0.4205
SSCP Matrix for Error Tear Tear Gloss Opacity 1.764 0.020 -3.070 Gloss 0.0200 2.6280 -0.5520 Opacity -3.070 -0.552 64.924
Partial Correlations for the Error SSCP Matrix Tear Gloss Opacity
Pg. 25
MANOVA for Additive s = 1 m = 0.5 n = 6.0 Test Criterion Wilks' Lawley-Hotelling Pillai's Roy's Statistic 0.52303 0.91192 0.47697 0.91192 F 4.256 4.256 4.256 Num 3 3 3 DF Denom 14 14 14 P 0.025 0.025 0.025
SSCP Matrix for Additive Tear Tear Gloss Opacity 0.7605 0.6825 1.9305 Gloss 0.6825 0.6125 1.7325 Opacity 1.931 1.732 4.901
Pg. 26
MANOVA for Extrusion*Additive s = 1 m = 0.5 n = 6.0 Test Criterion Wilks' Lawley-Hotelling Pillai's Roy's Statistic 0.77711 0.28683 0.22289 0.28683 F 1.339 1.339 1.339 Num 3 3 3 DF Denom 14 14 14 P 0.302 0.302 0.302
SSCP Matrix for Extrusion*Additive Tear Tear Gloss Opacity 0.000500 0.016500 0.044500 Gloss 0.01650 0.54450 1.46850 Opacity 0.04450 1.46850 3.96050
Por default se muestra la tabla para las cuatro pruebas multivariadas (Wliks, Lawley, Hotelling, Pillai y Roy) para cada uno de los trminos en el modelo. Los valores s, m y n se utilizan para los clculos de los estadsticos de prueba Fc, el cual es exacto si s = 1 o 2 de otra forma es aproximado. Pg. 27
Examinando los valores P de las pruebas para Extrusin y Aditivo se observa que son significativas para un nivel de 0.05, no as la interaccin. Las matrices SSCP se usan para evaluar la contribucin a la variabilidad de manera similar a la suma de cuadrados en la ANOVA univariada. La matriz SSCP para Extrusion es la suma de cuadrados de la hiptesis y matriz de productos cruzados H para las tres respuestas con el trmino de modelo Extrusin. Los elementos diagonales de esta matriz, 1.740, 1.301 y 0.405 son las sumas de cuadrados univariados para el trmino del modelo Extrusin cuando las variables de respuesta son Tear, Gloss y Opacity respectivamente . Los elementos fuera de la diagonal son los productos cruzados. La matriz SSCP para el error es la suma de cuadrados de los errores y productos cruzados E. Los elementos diagonales de la matriz 1.764, 2.6280, y 64.924 son las sumas de cuadrados de los errores para las variables de respuesta Teat, Gloss y Opacity, respectivamente. Los elementos fuera de la diagonal de esta matriz son los productos cruzados. La matriz de correlaciones parciales para el error SSCP, se usa para evaluar que tanto se relacionan las variables de respuesta. Las correlaciones parciales entre Tear y Gloss son pequeas con 0.00929 y entre Gloss y Opacity -0.04226. Y la correlacin parcial entre Tear y Opacity es de -0.28687 tampoco es grande. Como la estructura de las correlaciones es dbil, se pueden realizar anlisis univariados de ANOVA para cada una de las respuestas. Se puede utilizar el anlisis de valores caractersticos o Eigenvalores, para evaluar como difieren los promedios de las respuestas entre los niveles de los diferentes trminos del modelo. El anlisis de Eigenvalores es E -1 H donde E es la matriz SCCP del error y H es la matriz SCCP de las variables de respuesta. Estos son los eigenvalores utilizados para calcular las cuatro pruebas de MANOVA. Poner la mayor importancia en los eigenvectores que corresponden a valores altos de eigenvalores. En el ejemplo, el segundo y tercer eigenvalores son pequeos, no signiicativos. Para ambos factores, Extrusion y Additive, los Pg. 28
primeros eigenvalores contienen informacin similar. Para Extrusion is 0.6541, -0.3385, 0.0359 and for Additive it is -0.6630, -0.3214, -0.0684. El mayor valor absoluto dentro de esos eigenvalores corresponde a la respuesta Tear, el segundo a Gloss y el valor para Opacity es pequeo. Esto implica que Tear tiene la mayor diferencia entre los dos niveles de los factores ya sea Extrusion o Additive, el Gloss tiene las siguientes mayores diferencias y op.citp. tiene solo pequeas diferencias. Para un anlisis ms general utilizar General MANOVA con diseos balanceados y no balanceados, incluso si se tienen covariados. 1 2 Seleccionar Stat > ANOVA > General MANOVA. En Responses, seleccionar hasta 50 columnas numricas conteniendo las
variables de respuesta. 3 En Model, introducir los trminos del modelo que se quiera ajustar.
4. Click OK.
Pg. 29
ANLISIS DE COVARIANZA
Definicin: Es un mtodo estadstico que analiza la relacin entre una variable dependiente y dos o ms independientes, con el que se elimina o controla el efecto de al menos una de estas independientes. Similar al ANOVA, excepto que permite controlar la influencia de una variable independiente, la cual con frecuencia es una caracterstica antecedente que puede variar entre los grupos (Mertens, 2005) o influir los resultados y afectar la claridad de las interpretaciones. Perspectivas o usos: Wildt y Ahtola (1978, pp. 8-9) destacan tres perspectivas para el anlisis de covarianza: A. Perspectiva experimental. Se aplica a aquellas situaciones en que el inters del investigador se centra en las diferencias observadas en la variable dependiente, por medio de las categoras de la variable independiente (o variables independientes). Pero el experimentador asume que hay otras variables independientes cuantitativas que contaminan la relacin y cuya influencia debe ser controlada.
Pg. 30
Y el investigador nicamente se interesa por conocer la relacin entre las variables independientes categricas y la variable dependiente. Desea al mismo tiempo remover y controlar el efecto de las variables independientes cuantitativas no categricas (continuas). Es decir, desea tener un esquema como el de la figura
Pg. 31
El objetivo
es
purificar
la
independientes
categricas y la dependiente, mediante el control del efecto de las independientes no categricas o continuas. Ejemplos de variables independientes categricas seran: gnero (masculino, femenino), inteligencia (alta, media, baja), ingreso (menos de un salario mnimo, dos a cuatro salarios mnimos, cinco a 10 salarios mnimos, 11 o ms salarios mnimos). Los niveles de medicin nominal y ordinal son categricos en s mismos, mientras que los niveles de intervalos y razn deben transformarse en categoras ms discretas. Estos ltimos son en s: cuantitativos, continuos y de categoras mltiples. Por ejemplo, el ingreso en su estado natural (ponderacins, dlares, euros, etc.) vara de la categora cero hasta la categora ( K)k, ya que puede haber millones de categoras. Variable categrica unas cuantas categoras o un rango medio. Variable continua muchas categoras (a veces una infinidad). A dichas variables independientes cuantitativas continuas, cuya influencia se controla, se les denomina covariables. Una covariable se incluye en el anlisis para remover su efecto sobre la variable dependiente, e incrementar el conocimiento de la relacin entre las variables independientes categricas de inters y la dependiente, lo cual aumenta la precisin del anlisis.
Pg. 32
En esta perspectiva, el anlisis de covarianza puede ser concebido primero como un ajuste en la variable dependiente respecto a diferencias en la covariable o de la las covariables entre y, posteriormente, las variables como una evaluacin relacin independientes
categricas y los valores ajustados de la variable dependiente (Wildt y Ahtola, 1978). En trminos de Creswell (2005): El procedimiento ajusta las puntuaciones en la dependiente para dar cuenta por la covarianza (por decirlo en trminos sencillos: hace equivalentes a los grupos en la(s) covariable(s) y controla influencias potenciales que pueden afectar a la variable dependiente). B. Perspectiva de inters por la covariable . Esta perspectiva se ejemplifica con aquellas instancias en las cuales el inters principal se centra en analizar la relacin entre la variable dependiente y la covariable (variable cuantitativa continua) o las covariables. Aqu el enfoque es distinto; la influencia que se remueve es la de las variables independientes categricas. Primero se controla el efecto (en este caso contaminante) de estas variables y despus se analiza el efecto purificado de las covariables. C. Perspectiva de regresin. En esta tercera perspectiva, tanto las variables independientes categricas como las covariables resultan de inters para el investigador, quien puede desear examinar el efecto de cada variable independiente (covariables y no covariables, todas) y despus ajustar o corregir los efectos de las dems variables independientes. En cualquier caso, el anlisis de covarianza elimina influencias no deseadas
Pg. 33
sobre la variable dependiente. Se puede utilizar en contextos experimentales y no experimentales. La mayora de las veces la funcin del ANCOVA es remover la varianza compartida entre una o ms covariables y la dependiente, de este modo, se valora en su justa dimensin la relacin causal entre la(s) variable(s) independiente(s) de inters y la dependiente (Creswell, 2005). Vemoslo conceptualmente pero de forma grfica con un ejemplo simple: Ejemplo: Estudio: Al investigador le interesa analizar el efecto en el aprendizaje de la computacin, por medio un nuevo mtodo para su enseanza a nios. La hiptesis es: El nuevo mtodo de enseanza de la computacin (MA-RH) provocar un mayor aprendizaje en los nios que un mtodo tradicional. Entonces, implementa el siguiente experimento: A un grupo de infantes lo expone al nuevo mtodo de enseanza de computacin (MA-RHS); a otro grupo no lo expone al nuevo mtodo, ste aprende con el mtodo tradicional; finalmente, a un tercer grupo, de control, no recibe ningn tipo de enseanza en computacin. La variable independiente es el tipo de mtodo con tres categoras o niveles (mtodo nuevo, mtodo tradicional y ausencia de mtodo), la dependiente es el aprendizaje en computacin (medida por una prueba estandarizada a nivel de
Pg. 34
Con el experimento el investigador desea conocer la varianza en comn entre mtodo y aprendizaje (cuantificarla), la relacin X Y (pura). Si los nios son asignados al azar a los grupos del experimento y tiene grupos de tamao aceptable, por el diseo mismo, remueve la influencia de las covariables que pudieran afectar. Pero si no es factible hacerlo y tiene un diseo cuasiexperimental (grupos intactos), debe remover tal influencia con el anlisis de covarianza (eliminar al mnimo posible la varianza del aprendizaje no explicada), para evitar que las covariables impidan ver con claridad la relacin XY. Por ejemplo, el nivel educativo tecnolgico
Pg. 35
de los padres puede influir (hace variar al aprendizaje) y este efecto debe ser controlado, al introducirlo como covariable.
desea
tambin
se
puede
expresar
Pg. 36
Wildt y Ahtola (1978, p. 13) definen algunos usos del anlisis de covarianza: 1. Incrementar la precisin en experimentos con asignacin al azar. 2. Eliminar influencias extraas o contaminantes que pueden resultar cuando las pruebas o los individuos no son asignados al azar a las diferentes condiciones experimentales (grupos de un experimento). 3. Eliminar efectos de variables que confundan o distorsionen la interpretacin de resultados en estudios no experimentales. Nivel de medicin de las variables: La variable dependiente siempre est medida por intervalos o razn y las variables independientes pueden estar medidas en cualquier nivel. Interpretacin: Depende de cada caso especfico, ya que el anlisis de covarianza efectuado mediante un programa estadstico computacional, produce un cuadro de resultados muy parecido al del anlisis de varianza. Los elementos ms comunes pueden obssevarse en la tabla ANOVA. La razn F es, igual que en el anlisis de varianza, una razn de varianzas. El razonamiento estadstico es el mismo y F se interpreta igual, incluso se utiliza el mismo cuadro de la distribucin F. Solamente que las inferencias y conclusiones se hacen al considerar que las medias de la variable dependiente, a travs de las categoras de las variables independientes, se han
Pg. 37
Ejemplo:
Diseo de investigacin que utiliza el anlisis de covarianza Hi: Los trabajadores que reciban retroalimentacin verbal sobre el desempeo de parte de su supervisor mantendrn un nivel mayor de productividad que los trabajadores que reciban retroalimentacin sobre el desempeo por escrito, ms an que los trabajadores que no reciban ningn tipo de retroalimentacin. __ Hi: X1 __ __ > X2 > X3
El investigador plantea un diseo experimental para intentar probar su hiptesis. Sin embargo, no puede asignar aleatoriamente a los trabajadores a los tres grupos del experimento. El diseo sera con grupos intactos (cuasiexperimental) y se esquematizara as:
Asimismo, el investigador presupone que hay un factor que puede contaminar los resultados (actuar como fuente de invalidacin interna): la
Pg. 38
motivacin. Diferencias iniciales en motivacin pueden invalidar el estudio. Como la asignacin al azar est ausente, no se sabe si los resultados se ven influidos por dicho factor. Entonces, el experimentador decide eliminar o controlar el efecto de la motivacin sobre la productividad para conocer los efectos de la variable independiente: tipo de retroalimentacin. La motivacin se convierte en covariable. El esquema es el que se muestra en la figura
Cabe destacar que, para introducir una covariable en el anlisis, de preferencia debe medirse antes del inicio del experimento. El anlisis de covarianza quita a la variabilidad de la dependiente lo que se debe a la covariable. Ajusta la varianza de la variable dependiente en las categoras de la independiente , al basarse en la covariable. En el ejemplo, ajusta la varianza de la productividad debida a la motivacin, en las categoras experimentales (tratamientos o grupos). El ajuste se realiza sobre la base de la correlacin entre la covariable y la dependiente. Esto se muestra esquemticamente en la tabla.
Pg. 39
Una vez realizado el anlisis de covarianza, se evala si F es o no significativa. Cuando F resulta significativa se acepta la hiptesis de investigacin. Si el resultado fuera: G1 = 35 G2 = 36 La correlacin entre la calificacin en motivacin y las puntuaciones en productividad es la base para el ajuste. G3 = 38 Gl entre = K 1 = 3 1 = 2 Gl intra = N K = 107 F = 1.70 Comparamos con el valor de la tabla respectiva: en el nivel de 0.05 es igual a 3.07, y nuestra razn F a 1.70 es menor a este valor. Por lo tanto, rechazamos la hiptesis de investigacin y aceptamos la hiptesis nula. Esto se contrasta y profundiza con las medias ajustadas de los grupos que proporcione el anlisis de covarianza (no las medias obtenidas en el experimento por cada grupo, sino las ajustadas con base en la covariable). Recordemos que SPSS nos proporciona automticamente la
significancia de F.
Ejemplo:
Pg. 40
Determinar
si
hay
diferencia
en
la
resistencia
de
una
fibra
monofilamento producida por tres mquinas diferentes. El dimetro de la fibra parece tener influencia en la resistencia como se muestra abajo (covariado de Y). Datos de resistencia - Y es la respuesta, X es el covariado.
Y 36 41 39 42 49 40 48 39 45 44 35 37 42 34 32 X 20 25 24 25 32 22 28 22 30 28 21 23 26 21 15 Maq 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3
La relacin entre X y Y es significativa como se observa en la siguiente grfica: En Minitab: 1. Stat > Regresin > Fitted line plot 2. Introducir Y y X, seleccionar Linear 3. OK
Pg. 41
45
40
35
Para el ANOVA con Covariados, las instrucciones de Minitab son las siguientes: 1. Stat > ANOVA > General Linear Model 2. Introducir en Response Y, en Model X y Maquina 3. En Covariates X 4. En Results en Display Least Square Means corresponding to the terms Maq 5. En Graphs seleccionar Normal plot for residuals 6. OK Los resultados se muestran a continuacin:
General Linear Model: Y versus Maq
Factor Maq Type fixed Levels 3 Values 1, 2, 3
Analysis of Variance for Y, using Adjusted SS for Tests Source X Maq Error Total DF 1 2 11 14 Seq SS 305.13 13.28 27.99 346.40 Adj SS 178.01 13.28 27.99 Adj MS 178.01 6.64 2.54 F 69.97 2.61 P 0.000 0.118
Pg. 42
Unusual Observations for Y Obs 7 Y 48.0000 Fit 45.1080 SE Fit 0.7489 Residual 2.8920 St Resid 2.05 R
R denotes an observation with a large standardized residual. Means for Covariates Covariate X Mean 24.13 StDev 4.324
Least Squares Means for Y Maq 1 2 3 Mean 40.38 41.42 38.80 SE Mean 0.7236 0.7444 0.7879
Conclusin: Se observa que no hay diferencia en las mquinas una vez que eliminamos la variabilidad introducida por el dimetro de la fibra, en caso de no haber tomado en cuenta la covarianza del dimetro en la resitencia, se hubiese concluido al revs, que si hay diferencia en las mquinas, como se muestra a continuacin: Con Minitab: 1. Stat > ANOVA > One way 2. Response Y Factor Maquina 3. OK Los resultados son los siguientes:
One-way ANOVA: Y versus Maq
Source Maq Error Total DF 2 12 14 SS 140.4 206.0 346.4 MS 70.2 17.2 F 4.09 P 0.044
S = 4.143
R-Sq = 40.53%
R-Sq(adj) = 30.62%
Pg. 43
Level 1 2 3
N 5 5 5
Individual 95% CIs For Mean Based on Pooled StDev +---------+---------+---------+--------(---------*----------) (---------*---------) (---------*---------) +---------+---------+---------+--------32.0 36.0 40.0 44.0
Conclusin: Como P value es menor a 0.05 aparentemente si hay diferencia entre mquinas.
Pg. 44
ANALISIS DISCRIMINANTE
El anlisis discriminante, se aplica cuando las variables independientes son medidas por intervalos o razn, y la dependiente es categrica. Tal anlisis sirve para predecir la pertenencia de un caso a una de las categoras de la variable dependiente, sobre la base de varias independientes (dos o ms). Se utiliza una ecuacin de regresin llamada funcin discriminante. Por ejemplo, si queremos predecir el voto obtenido por dos partidos contendientes (variable dependiente nominal con dos categoras) sobre la base de cuatro variables independientes, aplicaremos el anlisis discriminante, para resolver una ecuacin de regresin; as se obtienen las predicciones individuales. En el ejemplo, hay dos categoras (votar por A o votar por B); por tanto, los valores a predecir son 0 y 1 ( A y B, respectivamente). Si el sujeto obtiene una puntuacin ms cercana a cero, se predice que pertenece al grupo que votar por A; si logra una puntuacin ms cercana a 1, se predice que pertenece al grupo que votar por B. Adems, se consigue una medida del grado de discriminacin del modelo. Usar el Anlisis Discrimnate para clasificar observaciones en dos o ms grupos si se tiene una muestra con grupos conocidos. Se puede utilizar tambin para investigar como contribuyen las variables a la separacin de grupos. Se pueden hacer anlisis discriminantes lineales y cuadrticos. Los lineales asumen que todos los grupos tienen la misma matriz de covarianza, los cuadrticos no hacen este supuesto y no son bien comprendidos. Para el caso de clasificar las observaciones nuevas en una de dos categoras, la regresin logstica puede ser superior al anlisis discriminante.
Pg. 45
Ejemplo:
Para regular la pesca de salmn, se desea identificar si el pescado es originario de Alaska o de Canad. Cincuenta peces de cada lugar de origen fueron capturados y pesados cuando vivan en agua dulce y cuando vivieron en agua salada. El objetivo es el de poder identificar si los nuevos pescados vienen de criaderos en Alaska o Canad. Los datos se muestran a continuacin:
SalmonOrigin Freshwater Alaska 108 Alaska 131 Alaska 105 Alaska 86 Alaska 99 Alaska 87 Alaska 94 Alaska 117 Alaska 79 Alaska 99 Alaska 114 Alaska 123 Alaska 123 Alaska 109 Alaska 112 Alaska 104 Alaska 111 Alaska 126 Alaska 105 Alaska 119 Alaska 114 Alaska 100 Alaska 84 Alaska 102 Alaska 101 Alaska 85 Alaska 109 Alaska 106 Alaska 82 Alaska 118 Alaska 105 Alaska 121 Alaska 85 Alaska 83 Alaska 53 Alaska 95 Alaska 76 Alaska 95 Alaska 87 Alaska 70 Alaska 84 Marine 368 355 469 506 402 423 440 489 432 403 428 372 372 420 394 407 422 423 434 474 396 470 399 429 469 444 397 442 431 381 388 403 451 453 427 411 442 426 402 397 511 SalmonOrigin Freshwater Canada 129 Canada 148 Canada 179 Canada 152 Canada 166 Canada 124 Canada 156 Canada 131 Canada 140 Canada 144 Canada 149 Canada 108 Canada 135 Canada 170 Canada 152 Canada 153 Canada 152 Canada 136 Canada 122 Canada 148 Canada 90 Canada 145 Canada 123 Canada 145 Canada 115 Canada 134 Canada 117 Canada 126 Canada 118 Canada 120 Canada 153 Canada 150 Canada 154 Canada 155 Canada 109 Canada 117 Canada 128 Canada 144 Canada 163 Canada 145 Canada 133 Marine 420 371 407 381 377 389 419 345 362 345 393 330 355 386 301 397 301 438 306 383 385 337 364 376 354 383 355 345 379 369 403 354 390 349 325 344 400 403 370 355 375
Pg. 46
91 74 101 80 95 92 99 94 87
Las intrucciones de Minitab son las siguientes: 1 2 3 4 Abrir la worksheet EXH_MVAR.MTW. Stat > Multivariate > Discriminant Analysis. En Groups, poner SalmonOrigin. En Predictors, poner Freshwater Marine. Click OK.
Summary of classification Put into Group Alaska Canada Total N N correct Proportion N = 100 True Group Alaska Canada 44 1 6 49 50 50 44 49 0.880 0.980 N Correct = 93 Proportion Correct = 0.930
Squared Distance Between Groups Alaska Canada Alaska 0.00000 8.29187 Canada 8.29187 0.00000
Linear Discriminant Function for Groups Alaska Canada Constant -100.68 -95.14 Freshwater 0.37 0.50 Marine 0.38 0.33 Summary of Misclassified Observations Observation 1** True Group Alaska Pred Group Canada Group Alaska Squared Distance 3.544 Probability 0.428
Pg. 47
Interpretando los resultados El Anlisis Discriminante identific correctamente 93 de los 100 peces, a pesar de que la probabilidad de clasificar correctamente un pez de Alaska fue menor (44/50 o 88%) que la probabilidad de clasificar correctamente un pez de Canad (49/50 o 98%). Para identificar el origen de un pez recientemente capturado depende de cual valor discriminante sea mayor. Se puede correr el anlisis discriminante de nuevo y predecir a que grupo pertenecen las nuevas observaciones. El resumen de las observaciones mal clasificadas muestra la distancia al cuadrado desde el punto mal clasificado a los centroides del grupo (vectores medios) y las probabilidades posteriores. Las observaciones son asignadas al grupo con la mayor probabilidad posterior. Si en Options introducimos en Predict membership for: 100 130, la clasificacin aparece como:
Prediction for Test Observations Observation 1 Pred Group Canada From Group Alaska Canada Squared Distance 78.448 55.194 Probability 0.000 1.000
Pg. 48
ANLISIS DE CONGLOMERADOS
Se cuenta tambin con el anlisis de conglomerados o clusters (tcnica para agrupar los casos o elementos de una muestra en grupos con base en una o ms variables). Usar Anlisis de componentes principales para ayudar a comprender la estructura de datos y/o a formar un pequeo nmero de variables no correlacionadas (por ejemplo para evitar multicolinealidad en la regresin).
Ejemplo:
Se registran las siguientes caractersticas para 14 censos: Poblacin total (Pop), mediana de aos escolares (School), empleo total (Employ),empleo en servicios de salud (Health), y valor mediano del valor de la casa (Home). Los datos se muestran a continuacin:
Pop 5.935 1.523 2.599 4.009 4.687 8.044 2.766 6.538 6.451 3.314 3.777 1.53 2.768 6.585 School 14.2 13.1 12.7 15.2 14.7 15.6 13.3 17 12.9 12.2 13 13.8 13.6 14.9 Employ 2.265 0.597 1.237 1.649 2.312 3.641 1.244 2.618 3.147 1.606 2.119 0.798 1.336 2.763 Health 2.27 0.75 1.11 0.81 2.5 4.51 1.03 2.39 5.52 2.18 2.83 0.84 1.75 1.91 Home 2.91 2.62 1.72 3.02 2.22 2.36 1.97 1.85 2.01 1.82 1.8 4.25 2.64 3.17
Se realiza un anlisis de components principales para comprender la estructura de datos subyacente. Se usa la matriz de correlacin para estandarizar las mediciones dado que no se mide con la misma escala. Las instrucciones de Minitab son las siguientes: 1 2 3 Abrir la worksheet EXH_MVAR.MTW. Stat > Multivariate > Principal Components . En Variables, Pop-Home.
Pg. 49
4 5 6
En Type of Matrix, seleccionar Correlation. Click Graphs y seleccionar Scree plot. Click OK en cada cuadro de dilogo.
Eigenvalue
pensar que el primer componente represente el efecto del tamao de la poblacin total, el nivel de escolaridad, empleo y servicios de salud, dado que los coeficientes de estos trminos tienen el mismo signo y no son cercanos a cero. El segundo componente tiene varianza 1.2911 y acumula el 25.8% de la variabilidad de los datos. Se calcula de los datos originales usando los coeficientes listados en PC2. Este componente podra ser pensado como nivel de contraste de escolaridad y valor de la casa con salud y empleo de alguna manera. Juntos el primero y segundo componentes representan el 86.4% y 97%, respectivamente, de la variabilidad total. As, la mayora de la estructura de datos puede ser capturada en dos o tres dimensiones relevantes. Los componentes remanentes solo tienen una menor proporcin de probabilidad y no son importantes. La grfica Scree proporciona una visin grfica de lo anterior.
Pg. 51
ANLISIS FACTORIAL
El anlisis factorial es un mtodo cuyo propsito principal es definir la estructura subyacente de una matriz de datos. Atiende el problema de analizar la estructura de las interrelaciones (correlaciones) entre un gran nmero de variables (vgr. Respuestas de cuestionarios) al definir un conjunto de dimensiones subyacentes comunes, conocidas como factores. Con el anlisis factorial se identifican las dimensiones separadas de la estructura y despus se determina que tanto cada variable es explicada por cada dimensin. Una vez que se determinan las dimensiones y se explican las variables por cada dimensin, se puede hacer un resumen y reduccin de datos. El anlisis factorial es una tcnica de interdependencia en la cual todas las variables son consideradas de manera simultanea, cada una relacionada a las otras, y empleando el concepto de variate, composicin lineal de variables. De hecho las variates (factores) se forman para maximizar su explicacin de todo el conjunto de variables, no para predecir una variable dependiente(s). Una variate (factor) es una variable dependiente que es funcin del conjunto total de variables. Se usa el Anlisis factorial, de manera similar al anlisis de componentes principales, para resumir la estructura de covarianza de los datos en una pocas dimensiones de los mismos. Sin embargo, el nfasis en anlisis factorial es la identificacin de los factores subyacentes que pueden explicar las dimensiones asociadas con la gran variabilidad de los datos. Se pueden tener tres tipos de datos de entrada: Columnas de datos unitarios Una Matriz de correlaciones o covarianzas Columnas conteniendo ponderaciones de factores
Con los datos del ejemplo anterior de Componentes principales, realizar un anlisis factorial como sigue:
Pg. 52
Nos gustara investigar que factores pueden explicar la mayor parte de la variabilidad. Como primer paso del anlisis factorial, se utiliza la extraccin de componentes principales y se examinan los eigenvalores en grfica como ayuda para decidir el nmero de factores.
Es deseable algn grado de multicolinealidad entre variables dado que el objetivo es identificar conjuntos de variables interrelacionadas, no son tan importantes la normalidad, homoestacidad y linealidad a menos que disminuyan significativamente las correlaciones observadas. La matriz de correlacin debe indicar valores mayores a 0.3 para aplicar el anlisis de correlacin. Tambin si las correlaciones parciales entre variables (correlacin entre variables cuando el efecto de las otras variables se toma en cuenta) son pequeas dado que la variable puede explicada por los factores (variates con ponderacins para cada una de el anlisis factorial es inapropiado. La prueba de esfericidad de Bartlett mide la presencia de correlaciones entre las variables, proporciona la probabilidad de que la matriz de correlacin tenga correlaciones significativas en algunas de las variables. Otro indicador es el Measure of Sampling Adequacy (MSA), con rango de 0 a 1, donde 0.8 o ms es meritorio; 0.07 o ms es regular; 0.60 o ms es mediocre; 0.50 o ms miserable y debajo de 0.50 inaceptable. El supuesto bsico en el anlisis factorial es que existe una estructura subyacente en el conjunto de variables seleccionadas. las variables). Si las correlaciones parciales son altas, no hay factores subyacentes verdaderos y
Pg. 54
propsitos de prediccin. Considera la varianza total y determina factores que contienen pequeas proporciones de varianza nica y, en algunos casos, varianza del error. Anlisis factorial En contraste el anlisis de factores comunes se utiliza para identificar los factores subyacentes o dimensiones que reflejan aquello que las variables comparten en comn. En este mtodo se tienen tres tipos de varianzas: (1) comn, (2) especfica (nica), y (3) error. La varianza comn se define como la varianza en una variable que es compartida por todas las dems variables. La varianza especfica es la varianza asociada solo con una variable especfica. La varianza del error es la varianza debida a la incertidumbre en el proceso de recoleccin de datos, errores de medicin, o componente aleatorio en el fenmeno medido. Criterios para el nmero de factores a extraer El mtodo primero extrae la combinacin de variables explicando la mayor cantidad de varianza y despus continua con combinaciones que representan menos y menos cantidades de varianza. La seleccin de factores a extraer equivale a enfocar un microscopio normalmente se hace por prueba y error contrastando los resultados. Criterio de Raz Latente: su racional es que cualquier factor individual debe contener la varianza de al menos una variable. Como cada variable contribuye con 1 al eigenvalor total o raz latente. Se seleccionan solo los factores con eigenvalores mayores a uno, cuando se tienen menos de 20 variables, los factores extrados son pocos. Criterio a Priori: en este mtodo el investigador ya tiene una idea clara de los factores a extraer y as lo indica en la computadora.
Pg. 55
Criterio de porcentaje de varianza: Enfoque basado en lograr un porcentaje acumulado de varianza total extrado por factores sucesivos. Normalmente el proceso para al acumular 95%. Criterio Scree Test: Se usa para identificar el nmero ptimo de factores que pueden ser extrados antes de que la cantidad de varianza nica empiece a dominar la estructura de varianza comn.
Eig env alor 1
Nmero de factores
Pg. 56
La rotacin de los factores ms simple es una rotacin ortogonal, en la cual se mantienen los ejes a 90 grados. Se pueden rotar los ejes sin mantener los 90 grados entre los ejes de referencia. Cuando no hay restriccin de ortogonalidad, el procedimiento de rotacin se denomina rotacin oblicua.
+1 Factor II sin rotar V1 V2 +1 Factor II rotado
-1 V4 V3 V5 -1
Factor II
+1 Factor I rotado
o ponderacin de factores I y
En la figura se observan dos conglomerados de variables (V1 y V2) y (V3, V4 y V5), sin embargo con los factores sin rotar no es muy obvia su ponderacin o ponderacin de los factores I y II. Despus de la rotacin de los ejes de factores, las variables 3, 4 y 5 tienen una ponderacin o ponderacin fuerte de factor I, y las variables 1 y2 tienen una ponderacin o ponderacin fuerte en el factor II. Siendo ms obvia la distincin entre conglomerados en dos grupos. Mtodos de rotacin ortogonal En la prctica el objetivo de todos los mtodos de rotacin es simplificar las filas y columnas de la matriz de factores para facilitar la interpretacin. En una matriz de factores las columnas representan factores, con cada rengln correspondiente a la ponderacin de las variables a travs de los factores. Al simplificar los renglones, se hacen tantos valores en cada fila tan cercanos a cero como sea posible (i.e. maximizando la ponderacin de una variable con un Pg. 57
factor nico). Simplificando las columnas, se hacen tantos valores en las columnas tan cercanos a cero como sea posible (i.e. hacer el mximo nmero de ponderacins altas como sea posible). Se han desarrollado tres mtodos para lo anterior como sigue: Quartimax: para simplificar las filas de la matriz; o sea, que Quartimax se enfoca a rotar los factores iniciales de manera que las variables tengan la mayor ponderacin posible de un factor y la mnima de los otros. Aunque este mtodo no ha sido eficiente. Varimax: se centra en simplificar las columnas de la matriz factorial. La mxima simplificacin posible se logra cuando solo hay 1s y 0s en la columna. Es decir que VARIMAX maximiza la suma de variancias de ponderacins requeridas de la matriz factorial. Este mtodo ha probado ser un mtodo analtico efectivo para obtener una rotacin ortogonal de factores. Equimax: Es un compromiso entre las anteriores. Trata de simplificar los renglones y las columnas, no se utiliza frecuentemente. Mtodos de rotacin oblicua: Estos mtodos son similares a las rotaciones ortogonales excepto que permiten factores correlacionados en vez de mantener la independencia de los factores rotados. En general no hay reglas para seleccionar uno de los mtodos anteriores. Criterios para la significancia de ponderacin de factores en las variables De manera prctica si las ponderacins son de 0.30 se considera que cumplen el nivel mnimo; ponderacins de 0.40 son importantes; 0.50 o mayores son significativas en la prctica. Como la ponderacin del factor es la correlacin de la variable y el factor, la ponderacin al cuadrado es la cantidad representada de la varianza total por el factor. De esta forma con 0.3 se tiene
Pg. 58
un 10% de explicacin y un 0.5 de ponderacin denota que un 25% de la varianza es representada por el factor. Evaluando la significancia estadstica Con base en un nivel de significancia de 0.05, un nivel de potencia del 80% y errores estndar asumidos se el doble de los coeficientes de correlacin convencionales, se tiene la tabla siguiente: Ponderacin del factor Tamao para 0.30 0.35 0.40 0.45 0.50 0.55 0.60 0.65 0.70 significancia 350 300 250 200 150 100 85 70 60 de tener
muestra requerida
Resumiendo las guas para la significancia de los factores son: (1) entre mayor sea el tamao de muestra, el valor de ponderacin significativo se reduce. (2) Entre ms variables sean consideradas en el anlisis, ms pequea es la ponderacin que se considera significativa. (3) Entre ms factores haya, mayor es la ponderacin en los factores adicionales para que sea considerada significativa. Cada columna de nmeros en la matriz representa un factor por separado. Las columnas de nmeros representan las ponderacins para cada una de las variables. Identificar la ms alta ponderacin para cada variable. Recordar que para tamaos de muestra similares a 100 se considera significante 0.3. La comunalidad para cada variable representa la cantidad de varianza considerada por la solucin factorial para cada variable. Evaluar la comunalidad de las variables, es decir identificar las que tengan ms del 50%, ya que las Pg. 59
que tengan menos no tienen suficiente explicacin. El nombre de los factores se desarrolla de manera intuitiva, con base en las variables con una mayor ponderacin se consideran ms importantes y tienen una mayor influencia para el nombre seleccionado para representar al factor.
Pg. 60
-0.472 0.000 0.272 0.006 0.186 0.064 0.470 0.000 -0.095 0.347 -0.015 0.880 -0.407 0.000 0.788 0.000 0.200 0.046 0.177 0.078
De la matriz, 7 de 15 correlaciones son significativas estadsticamente. El valor de MSA de 0.665 cumple con con el criterio para aplicar el anlisis factorial.
Las instrucciones de Minitab son las siguientes: 1 2 3 4 Cargar los datos de HATCO. Stat > Multivariate > Factor Analysis. En Variables, X1, X2, X3, X4, X6, X7 En Number of factors to extract, 2. 5 6 7 En Method of Extraction, seleccionar Principal components
En Type of Rotation, seleccionar Varimax. Click Graphs y seleccionar Loading plot for first 2 factors y Scree Plot.
Pg. 61
8 Click Results y seleccionar Sort loadings. Click OK en cada uno de los cuadros de dilogo. Los resultados se muestran a continuacin:
Factor Analysis: X1, X2, X3, X4, X6, X7
Principal Component Factor Analysis of the Correlation Matrix Unrotated Factor Loadings and Communalities Variable X1 X2 X3 X4 X6 X7 Variance % Var Factor1 0.618 -0.763 0.695 -0.502 -0.434 -0.761 2.4664 0.411 Factor2 -0.517 0.079 -0.357 -0.793 -0.827 0.170 1.7425 0.290 Communality 0.649 0.588 0.610 0.881 0.873 0.609 4.2089 0.701
El primer factor contiene la mayor parte de la varianza y es un factor general con alta ponderacin en cada variable. Las ponderacins para el segundo factor muestra tres variables que tambin tiene alta ponderacin (X1, X4 y X6). La interpretacin es sumamente difcil y sin significado, por lo que se debe considerar la rotacin de factores como sigue:
Rotated Factor Loadings and Communalities Varimax Rotation Variable X1 X2 X3 X4 X6 X7 Variance % Var Factor1 -0.783 0.718 -0.781 0.097 0.020 0.758 2.3231 0.387 Factor2 0.188 0.268 0.010 0.934 0.934 0.186 1.8858 0.314 Communality 0.649 0.588 0.610 0.881 0.873 0.609 4.2089 0.701
Las variables X1, X2 y X3 ponderacinn significativamente al factor 1 y las variables X4 y X6 ponderacinn significativamente al factor 2.
Si se considera como punto de corte las ponderacins con 0.55 o ms, el factor 1 tiene cuatro ponderacins significativas y el factor 2 tiene 2. Para el factor 1, se ven dos grupos de variables. Las primeras son el nivel de precios
Pg. 62
(X2) y la calidad del producto (X7) ambas con signos positivos y varan como conjunto. Las otras dos, tiempo de entrega (X1) y flexibilidad de precios (X3) tienen signos negativos tambin varan como conjunto.
En el factor 1, ambos grupos varan en sentido contrario, tal vez este factor sea el valor bsico y representa un compromiso entre percepciones de precio o calidad del producto y percepciones de tiempo de entrega y flexibilidad de precios.
En el factor 2, la variable X4 (imagen de fabricacin) y X6 (imagen de la fuerza de ventas) tal vez se pueda agrupar en imagen, ambas variables tienen el mismo signo, actuando en la misma direccin.
La variable X5 (servicio en general) no se incluy en al anlisis. Se tienen ahora dos factores como combinacin lineal de las variables para efectos de realizacin de estudios:
Factor Score Coefficients Variable X1 X2 X3 X4 X6 X7 Factor1 -0.356 0.297 -0.343 -0.020 -0.054 0.320 Factor2 0.154 0.097 0.058 0.498 0.503 0.050
Para verificar la validez del modelo se pueden hacer dos grupos de 50 observaciones y comparar sus matrices rotadas.
Data 1 50: Rotated Factor Loadings and Communalities Varimax Rotation Variable X1_1 X2_1 X3_1 X4_1 Factor1 -0.827 0.603 -0.686 0.156 Factor2 0.085 0.376 -0.177 0.919 Communality 0.691 0.506 0.502 0.869
Pg. 63
Data 51 100: Rotated Factor Loadings and Communalities Varimax Rotation Variable X1_2 X2_2 X3_2 X4_2 X6_2 X7_2 Variance % Var Factor1 0.741 -0.785 0.815 -0.041 0.052 -0.824 2.5127 0.419 Factor2 -0.313 -0.190 -0.154 -0.949 -0.923 -0.154 1.9338 0.322 Communality 0.647 0.652 0.688 0.903 0.854 0.703 4.4466 0.741
Como se ve las dos rotaciones VARIMAX son comparables en trminos de ponderacins y comunalidades para las seis percepciones. As se puede asegurar que los resultados son estables dentro de la muestra. De la grfica Scree Plot con los Eigenvalores de los factores se tiene:
Scree Plot of X1, ..., X7
2.5
2.0
Eigenvalue
1.5
1.0
0.5
Slo dos factores sern mantenidos si se toma como referencia el Eigenvalor de 1 o tres si se toma como referencia el criterio Scree. La grfica de ponderacins por variables se muestra a continuacin, identificando tres grupos de variables:
Pg. 64
0.9 0.8 0.7 Second F actor 0.6 0.5 0.4 0.3 0.2 0.1 0.0 -1.0
X3 X1 X2 X7
-0.5
0.5
En resumen se identifican dos dimensiones Valor bsico e Imagen, ahora se pueden hacer planes alrededor de estas dos dimensiones en lugar de considerar todas las variables separadas.
1 2 3 4
Abrir la worksheet EXH_MVAR.MTW. Stat > Multivariate > Factor Analysis. En Variables, poner Pop-Home. Click Graphs y seleccionar Scree plot. Click OK in each dialog box.
Factor Score Coefficients Variable Pop School Employ Health Home Factor1 -0.321 -0.180 -0.327 -0.280 0.100 Factor2 -0.116 -0.553 -0.004 0.272 -0.617 Factor3 0.011 -0.726 0.155 0.601 0.914 Factor4 1.782 -1.466 0.868 -2.098 0.049 Factor5 -5.511 0.060 6.988 -1.829 0.129
Interpretacin de resultados
Eigenvalue
Pg. 66
Cinco factores describen estos datos perfectamente, pero la meta es reducir el nmero de factores requeridos para explicar la variabilidad de los datos. La proporcin de la variabilidad explicada por los dos ltimos factores es mnima (0.019 y 0.002 respectivamente) y pueden ser eliminadas sin afectar al resultado. Los primeros dos factores juntos representan 86% de la variabilidad mientras que tres factores representan 98% de la variabilidad. La cuestin es si usar dos o tres factores, se requieren otras corridas para decidir si usar dos o tres factores. Se seleccionan dos factores como el nmero que representa los datos del censo en base al anlisis de componentes principales. Se realiza una extraccin de mxima verisimilitud y rotacin varimax para interpretar los factores. Las instrucciones de Minitab son las siguientes: 1 2 3 4 5 6 7 8 Abrir la worksheet EXH_MVAR.MTW. Stat > Multivariate > Factor Analysis. En Variables, Pop-Home. En Number of factors to extract, 2. En Method of Extraction, seleccionar Maximum likelihood. En Type of Rotation, seleccionar Varimax. Click Graphs y seleccionar Loading plot for first 2 factors. Click Results y seleccionar Sort loadings. Click OK en cada uno de los
Pg. 67
Rotated Factor Loadings and Communalities Varimax Rotation Variable Pop School Employ Health Home Variance % Var Factor1 0.718 -0.052 0.831 0.924 -0.415 2.2354 0.447 Factor2 0.673 0.967 0.556 0.143 0.173 1.7483 0.350 Communality 0.968 0.938 1.000 0.875 0.202 3.9837 0.797
Sorted Rotated Factor Loadings and Communalities Variable Health Employ Pop Home School Variance % Var Factor1 0.924 0.831 0.718 -0.415 -0.052 2.2354 0.447 Factor2 0.143 0.556 0.673 0.173 0.967 1.7483 0.350 Communality 0.875 1.000 0.968 0.202 0.938 3.9837 0.797
Factor Score Coefficients Variable Pop School Employ Health Home Factor1 -0.165 -0.528 1.150 0.116 -0.018 Factor2 0.246 0.789 0.080 -0.173 0.027
0.8
Pop
Second F actor
0.6
Employ
0.4
0.2
Home
Health
0.0 -0.50 -0.25 0.00 0.25 F irst F actor 0.50 0.75 1.00
Pg. 68
Estos resultados indican un caso Heywood (las varianzas menores al lmite de convergencia especificado se ponen a cero y sus comunalidades a 1). Se tienen tres tablas de ponderaciones y comunalidades: no rotadas, rotadas, ordenadas y rotadas. Los factores no rotados explican el 79.7 de la variabilidad de los datos y los valores de comunalidad indican que todas las variables sin Home estn bien representadas por esos dos factores (comunalidad son 0.202 para Home, 0.875 1.0 para otras variables). El porcentaje de la variabilidad total representada por los factores no cambia con la rotacin, sino despus de rotar, pero despus de rotar, estos factores son mas claramente balanceados en el porcentaje de variabilidad que ellos representan, siendo 44.7% y 35%, respectivamente. El ordenamiento es realizado por la ponderacin mxima absoluta para cualquier factor. Las variables que tienen la mayor ponderacin absoluta en el factor 1 se muestran primero en orden. Despus las variables con la ponderacin mayor en el factor 2 y as sucesivamente. El factor 1 tiene su ponderacin mayor positiva en Health (0.924), Employ (0.831) y Pop (0.718), y -0.415 en Home, mientras que la ponderacin en School es baja. El factor 2 tiene una ponderacin positiva en School de 0.967 y ponderacin de 0.556 y 0.673 en Employ y Pop respectivamente, y una ponderacin pequea en Health y Home. Se pueden ver las ponderaciones rotadas grficamente en la grfica de ponderaciones (load graph). Ah se muestra para factor 1 con ponderaciones altas en Pop, Emply, y Health y ponderacin negativa en Home. School tiene una ponderacin alta positiva para el factor 2 y algo menor para Pop y Employ. De los resultados se puede pensar en que el factor 1 sea un factor relacionado con Cuidado de la salud tamao de la poblacin. El factor 2 puede ser considerado como un factor relacionado con educacin tamao de la poblacin. En forma adicional Minitab muestra una tabla de coeficientes del factor. Muestran como se calculan los factores. Minitab calcula los valores
Pg. 69
multiplicando los coeficientes y los datos despus de corregirlos centrndolos al restarle sus medias.
Pg. 70
Pg. 71
Las instrucciones de Minitab para correr el ejemplo son: 1 2 3 4 5 6 Cargar datos en Minitab. Stat > Regression > Regression. En Response, seleccionar Tarjetas. En Predictors, seleccionar Tamano e Ingreso. Click Graphs. En Residuals for Plots, seleccionar Standardized.
7 En Residual Plots, seleccionar Individual Plots. Seleccionar Histogram of residuals, Normal plot of residuals, y Residuals versus fits. Click OK. 8 Click Options. en Display, seleccionar PRESS y predicted R-square. Click OK en cada uno de los cuadros de dilogo. Los resultados se muestran a continuacin:
Pg. 72
95 90 80
Percent
70 60 50 40 30 20 10 5
-3
-2
-1 0 1 Standardized Residual
R-Sq = 86.1%
R-Sq(adj) = 80.6%
R-Sq(pred) = 63.54%
Analysis of Variance Source Regression Residual Error Total Source Tamano Ingreso DF 1 1 DF 2 5 7 SS 18.9503 3.0497 22.0000 MS 9.4751 0.6099 F 15.53 P 0.007
Interpretacin de resultados
Salida de sesin El valor P en la tabla de ANOVA (0.000) muestra que el modelo estmado por el procedimiento de regresin es significativo a un alfa de 0.05, indicando que al menos un coeficiente es diferente de cero.
Pg. 73
Los valores P de los coeficientes estimados para tamano es de 0.054 indicando que es significativo a un nivel alfa de 0.054. Sugiriendo que el modelo de regresin simple es adecuado.
El valor de R cuadrado indica que los predoctores explican el 87.4% de la varianza en Tarjetas. La R cuadrada ajustada es 85.9%, que representa la contribucin del nmero de predictores en el modelo. Ambos valores indican que el ajuste es adecuado.
El valor pronosticdo R cuadrado es 78.96%, dado que es parecido a R cuadrado y r cuadrado ajustado, el modelo no parece estar sobreajustado y tiene una buena habilidad de prediccin
Las observaciones 4 y 22 se identifican como no usuales dado que el valor estandarizado de los residuos es mayor a 2. Indicando puntos aberantes o outliers.
Salida grfica
El histograma de los residuos muestra un patrn consistente con la distribucin normal. El histograma es ms efectivo para grupos de ms de 50 observaciones. La grfica de probabilidad normal es ms fcil de interpretar con pequeas muestras. En la grfica normal tambin sobresalen los outliers 4 y 22. La grfica de residuos contra valores de prediccin muestra que los residuos son ms pequeos conforme conforme los valores ajustados se incrementan, indicando que no tienen varianza constante.
Pg. 74
-0.472 0.000 0.272 0.006 0.513 0.000 0.186 0.064 0.470 0.000 0.083 0.412 -0.095 0.347 0.064 0.524 -0.015 0.880 -0.407 0.000 0.556 0.000 0.299 0.003 0.788 0.000 0.200 0.046 0.225 0.024 0.241 0.016 -0.055 0.586 0.701 0.000 0.177 0.078 0.257 0.010 -0.192 0.055
La variable X5 (servicio en general) est ms correlacionado con la respuesta X9 con r = 0.701. X1 tambin est correlacionada con la respuesta sin embargo tiene correlacin con X5 por lo que el uso de ambas es cuestionable. Las instrucciones de Minitab para correr el ejemplo son: 1 2 Cargar datos en Minitab. Stat > Regression > Regression.
Pg. 75
3 4 5 6
En Response, seleccionar X9 (utilizacin del producto). En Predictors, seleccionar X1 X7. Click Graphs. En Residuals for Plots, seleccionar Standardized.
7 En Residual Plots, seleccionar Individual Plots. Seleccionar Histogram of residuals, Normal plot of residuals, y Residuals versus fits. Click OK.
Regression Analysis: X9 versus X1, X2, X3, X4, X5, X6, X7
The regression equation is X9 = - 9.25 + 1.96 X1 + 1.28 X2 + 3.27 X3 - 0.004 X4 + 4.60 X5 + 1.23 X6 + 0.426 X7 Predictor Constant X1 X2 X3 X4 X5 X6 X7 S = 4.45075 Coef -9.255 1.956 1.280 3.2702 -0.0039 4.600 1.2305 0.4261 SE Coef 4.949 2.045 2.155 0.4059 0.6714 4.012 0.9537 0.3557 T -1.87 0.96 0.59 8.06 -0.01 1.15 1.29 1.20 P 0.065 0.341 0.554 0.000 0.995 0.255 0.200 0.234
R-Sq = 77.2%
R-Sq(adj) = 75.5%
PRESS = 2144.13
R-Sq(pred) = 73.20%
Analysis of Variance Source Regression Residual Error Total Source X1 X2 X3 X4 X5 X6 X7 DF 1 1 1 1 1 1 1 DF 7 92 99 SS 6177.81 1822.44 8000.26 MS 882.54 19.81 F 44.55 P 0.000
Unusual Observations Obs 7 11 14 22 55 100 X1 4.60 2.40 3.70 3.40 3.80 2.50 X9 46.000 32.000 38.000 35.000 39.000 33.000 Fit 58.734 41.365 47.833 34.870 33.433 43.721 SE Fit 1.379 1.014 1.098 2.711 2.712 1.049 Residual -12.734 -9.365 -9.833 0.130 5.567 -10.721 St Resid -3.01R -2.16R -2.28R 0.04 X 1.58 X -2.48R
R denotes an observation with a large standardized residual. X denotes an observation whose X value gives it large influence.
Pg. 76
Percent
-3
-2
-1 0 1 Standardized Residual
Standardized Residual
-1
-2
-3 20 30 40 F itted Value 50 60
Pg. 77