Está en la página 1de 77

MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

CÁLCULO DEL COEFICIENTE DE CONFIABIL IDAD (FIABILIDAD) ALFA-CRONBACH

Existen tres procedimientos para determinar el coeficiente o alfa :

1. Sobre la base de la varianza de los ítems, con la aplicación de la siguiente fórmula:

MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 CÁLCULO DEL COEFICIENTE DE CONFIABIL IDAD (FIABILIDAD) ALFA-CRONBACH

En donde N representa el número de ítems de la escala, “s 2 (Yi)” es igual a la sumatoria de las varianzas de los ítems y “s 2 x” equivale a la varianza de toda la escala.

2.

Sobre

la

base

de

la

matriz

de correlación de

los

ítems, el

procedimiento

 

sería:

 
  • a) Se aplica la escala.

  • b) Se obtienen los resultados.

  • c) Se calculan los coeficientes de correlación r de Pearson entre todos

los ítems (todos contra todos de par en par).

  • d) Se elabora la matriz de correlación con los coeficientes obtenidos.

Por

Pág. 1

MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

ejemplo:

MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 ejemplo: Los coeficientes que se mencionan como “ya

Los coeficientes que se mencionan como “ya fue calculado”, se ubican en la parte superior de las líneas horizontales (guiones). Es decir, cada coeficiente se incluye una sola vez y se excluyen los coeficientes que vinculan al ítem o puntuación consigo misma (1 con 1, 2 con 2, 3 con 3 y 4 con 4).

MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 ejemplo: Los coeficientes que se mencionan como “ya

Pág. 2

MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 3 . Mediante otra fórmula que se basa

3. Mediante otra fórmula que se basa en la correlación promedio

MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 3 . Mediante otra fórmula que se basa

Pág. 3

MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Los métodos de análisis multivariado

Los métodos de análisis multivariado son aquellos en que se analiza la relación entre diversas variables independientes y al menos una dependiente. Son métodos más complejos que requieren del uso de computadoras para efectuar los cálculos necesarios

MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 Los métodos de análisis multivariado Los métodos de

Entre las técnicas más comunes se encuentran (1) Análisis de componentes principales y factores comunes, (2) regresión y correlación múltiple, (3) análisis discriminante múltiple, (4) análisis multivariado de varianza y covarianza, (5) análisis conjunto, (6) correlación canónica, (7) análisis de clusters, (8) escala multidimensional. Otras técnicas nuevas incluyen (9) análisis de correspondencia, (10) modelos de probabilidad lineal tales como el logit y probit, y (11) modelos de ecuación simultaneas / estructurales. A continuación se describen brevemente éstas técnicas.

Análisis de componentes principales y de factores comunes

Es un método estadístico que puede usarse para analizar las interrelaciones entre un gran número de variables y explicar esas variables en términos de sus dimensiones subyacentes comunes. El objetivo es hallar la forma de sintetizar

Pág. 4

MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

la información contenida en un número de variables originales, dentro de un

conjunto más pequeño información.

de

variates

(factores)

con

mínima

pérdida

de

Regresión múltiple

En un método de análisis adecuado cuando el problema de investigación involucra una variable dependiente única que se presume se relaciona a dos o más variables independientes medibles. El objetivo es predecir el cambio en la variable dependiente de respuesta con cambios en las variables independientes, normalmente con el método de mínimos cuadrados.

Por ejemplo se pueden predecir los montos gastados en cenas a partir de ingresos de las familias (variable dependiente), su tamaño, y la edad del padre (variables independientes).

Análisis discriminante múltiple (MDA)

Se aplica cuando la variable dependiente es dicotómica (vgr. hombre – mujer) o multitómica (vgr. Alto – medio – bajo) y por tanto no medible. Como en la regresión las variables independientes deben ser medibles. Se aplica cuando la muestra total se puede dividir en grupos con base en una variable no medible caracterizando varias clases conocidas. Su objetivo es comprender las diferencias entre grupos y predecir la probabilidad de que una entidad (objeto individual) pertenezca a una clase o grupo particular con base en varias variables independientes medibles o métricas.

Por ejemplo el análisis discriminante se puede utilizar para distinguir entre

innovadores y no psicográfico.

innovadores

de

acuerdo

a

su

perfil

demográfico y

Análisis multivariado de varianza y covarianza (MANOVA)

Es un método estadístico para explorar simultáneamente la relación entre varias variables categóricas independientes (referidas como tratamientos) y dos o más variables dependientes medibles o métricas. Es una extensión del

Pág. 5

MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

ANOVA univariado. El análisis multivariado de covarianza (MANCOVA) se puede usar en conjunto con el MANOVA para remover (después del experimento) el efecto de cualquier variable métrica independiente no controlada (conocida como covariada) en la variable independiente.

Análisis conjunto

Se aplica a nuevos productos para evaluar la importancia de los atributos del nuevo producto así como los niveles de cada atributo, mientras que el consumidor evalúa solo unos pocos perfiles del producto como combinaciones de los niveles de producto.

Por ejemplo asumir un producto con tres atributos (precio, calidad y color), cada uno en tres niveles posibles (vgr. Rojo, amarillo y azul). En vez de tener que evalur las 27 combinaciones posibles (3x3x3), se evalúa un subconjunto de 9 o más combinaciones con base en su atractivo para el consumidor, de manera que el investigador no solo conozca la importancia de cada atributo, sino además la importancia de cada nivel (atractivo del rojo vs amarillo vs azul).

Correlación canónica

El análisis de correlación puede ser visto como una extensión lógica de la regresión múltiple. Donde se trata de correlacionar simultáneamente varias variables dependientes medibles o métricas y varias variables independientes medibles. El principio es establecer una combinación lineal de cada conjunto de variables (dependientes e independientes) para maximizar la correlación entre los dos conjuntos (obteniendo ponderacións adecuados para las variables).

Análisis de conglomerados (Clusters)

Es una técnica analítica para desarrollar sugrupos significativos de individuos u o objetos. Específicamente, el objetivo es clasificar una muestra de entidades (individuos u objetos) en un número más pequeño de grupos más pequeños con base en las similitudes entre entidades. A diferencia del análisis discriminante, los grupos no están definidos, más bien se usa para identificarlos.

Pág. 6

MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Normalmente se realiza en tres pasos. El primero es la medición de alguna forma de similitud o asociación entre las entidades para identificar cuantos grupos realmente existen en la muestra. El segundo paso es el proceso en sí de conglomerados, donde las entidades se particionan en grupos (conglomerados o clusters). El paso final es perfilar las personas o variables para determinar su composición. Muchas veces esto último se realiza con el análisis discriminante.

Escala multidimensional

El objetivo es transformar los juicios del consumidor de similitud o preferencias (vgr. Preferencia por tiendas o marcas) en distancias representadas en un espacio multidimensional. Si los objetos A y B se juzgan por el consumidor como similares, comparados con cualquier otro par de objetos, la técnica posiciona los objetos A y B de manera que la distancia entre ellos en un espacio multidimensional es más pequeño que la distancia entre cualquier otro par de objetos. Al final se muestra un mapa perceptual con la posición relativa de los objetos.

Análisis de correspondencia

Facilita tanto la reducción dimensional de objetos en un conjunto de atributos y el mapa perceptual de objetos respecto a estos atributos. En su forma más elemental es una tabla de contingencia o tabulación cruzada de dos variables categóricas. Transforma los datos no métricos a un nivel medible y realiza una reducción dimensional (similar al análisis de factores) y un mapa perceptual (similar al análisis multidimensional).

Por ejemplo, las preferencias de marcas de los consumidores pueden ser tabuladas contra variables demográficas (vgr. Género, categorías de ingresos, ocupación) indicando cuanta gente prefiere cada una de las marcas que caen en cada categoría de las variables demográficas. Por medio del análisis de correspondencia, la asociación o “correspondencia” de marcas y las características distintivas de aquellos que prefieren las marcas se muestran en

Pág. 7

MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

un mapa tridimensional o bidimensional tanto de marcas como de las características que distinguen a aquellos que prefieren cada marca.

Modelos de probabilidad lineal (Análisis Logit)

Son una combinación de regresión múltiple y análisis discrimínante. Es similar al análisis de regresión múltiple excepto que la variable dependiente es categórica no métrica como en el análisis discriminante.

Modelos de ecuaciones estructurales

A veces se refiere como el nombre del software LISREL, es una técnica que permite separar las relaciones del conjunto de variables dependientes. En su forma más sencilla proporciona el modelo más adecuado y la técnica de estimación más eficiente para una serie de ecuaciones de regresión múltiple, evaluadas simultáneamente. Se caracteriza por dos componentes básicos: (1) el modelo estructural y (2) el modelo de medición.

El modelo estructural es la “vía” que relaciona variables dependientes e independientes. El modelo de medición permite al investigador a usar varias variables (indicadores) para una variable dependiente e independiente.

Pág. 8

MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Los datos para HATCO son los siguientes:

Variables / Tipo

Percepciones / Medibles (Métricas)

X1

Tiempo de entrega - entrega del producto con la orden confirmada

X2

Nivel de precios - nivel de precio percibido ponderacióndo por

proveedores

 

X3

Flexibilidad de precios - flexibilidad para negociar precios

X4

Imagen de la empresa - general

X5

Servicio en general

- nivel necesario para mantener relaciones

X6

Imagen de la fuerza de ventas - general

X7

Calidad del producto – calidad percibida en desempeño o rendimiento

Resultados de compras / Medibles (Métricas)

X9

Nivel de utilización - que porcentaje de producto es surtido por Hatco

X10

Nivel de satisfacción – que tan satisfecho esta el cliente con Hatco

Características del comprador / No Medibles (No Métricas)

X8

Tamaño de la empresa

- 1- Grande

0 - pequeño

X11

Especificación de compra - 1-Evalúa por el valor total y 0- especificación

X12

Estructura de abastecimiento – 1- centralizado 0 - descentralizado

X13

Tipo de industria

- 1- industria A

0 – otras industrias

X14

Tipo de situación de compra – 1- nueva 2- modificada 0- tradicional

Pág. 9

MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

ANOVA (análisis de varianza de k direcciones )

El ANOVA es similar a la regresión en el sentido de que se utiliza para investigar y modelar la relación entre una variable de respuesta y una o más variables independientes. Sin embargo, el ANOVA difiere de la regresión en dos aspectos: las variables independientes son cualitativas (categóricas), y no hay supuestos acerca de la naturaleza de la relación (o sea que el modelo no incluye coeficientes para variables). En efecto el ANOVA extiende la prueba de dos muestras con prueba t para probar la igualdad de dos poblaciones a una hipótesis más general al comparar más de dos medias, versus que no sean iguales.

Definición: Es una prueba estadística para evaluar el efecto de dos o más variables independientes sobre una variable dependiente.

Responde a esquemas como el que se muestra en la figura:

MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 ANOVA (análisis de varianza de k direcciones )

Constituye una extensión del análisis de varianza unidireccional, solamente

Pág. 10

MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

que incluye más de una variable independiente. Evalúa los efectos por separado de cada variable independiente y los efectos conjuntos de dos o más variables independientes.

Variables: Dos o más variables independientes y una dependiente.

Nivel de medición de las variables: La variable dependiente (criterio) debe estar medida en un nivel por intervalos o razón, y las variables independientes (factores) pueden estar en cualquier nivel de medición, pero expresadas de manera categórica.

Interpretación y ejemplo

Hi: La similitud

en valores, la atracción física y el grado de

retroalimentación positiva son variables que inciden en la satisfacción sobre la relación en parejas de novios.

Contexto: Muestra de parejas de adultos jóvenes (23-29 años), pertenecientes a estratos económicos altos (n=400).

El ANOVA efectuado mediante un paquete estadístico computacional como SPSS produce los siguientes elementos básicos:

Fuente de la variación (source of variation). Es el factor que origina variación en la dependiente. Si una fuente no origina variación en la dependiente, no tiene efectos.

Efectos principales independiente

(main effects). Es el efecto de cada variable

Pág. 11

MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

por separado; no está contaminado del efecto de otras variables iindependientes ni de error. Suele proporcionarse la suma de todos los efectos principales.

Interacciones de dos direcciones (2-way interactions). Representa el efecto conjunto de dos variables independientes, aislado de los demás posibles efectos de las variables independientes (individuales o en conjuntos). Suele proporcionarse la suma de los efectos de todas estas interacciones.

Interacciones de tres direcciones (3-way interactions). Constituye el efecto conjunto de tres variables independientes, aislado de otros efectos. Suele proporcionarse la suma de los efectos de todas estas interacciones.

• Puede haber efecto de K-direcciones, esto dependie del número de variables independientes.

En nuestro ejemplo, tenemos los resultados siguientes:

TABLA ANOVA

VARIABLE DEPENDIENTE: SATISFACCIÓN EN LA RELACIÓN

Fuente

de

Suma

de

Grados

de

Cuadrados

Estadístico F

Significancia

variación

cuadrados

libertad

medios

de Fc = P

Efectos

     

22.51

.001**

principales

(main

effects

SIMILITUD

31.18

0.001**

ATRACCIÓ

21.02

0.001**

Pág. 12

MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

N

RETROALIM

 

11.84

0.004**

SIMILITUD

     

-4.32

0.04*

ATRACCIÓ

N

SIMILITUD

     

2.18

0.11

RETROALIM

ATRACCIO

     

1.56

0.190

N

RETROALIM

SIM

     

8.01

0.02*

RETROL-

ATRACCIO

N

NOTA: Normalmente interesa saber si las razones “F” resultaron o no significativas; por tanto, sólo se incluyen estos valores. Se recomienda concentrarse en dichos valores y evitar confusiones. Desde luego, el investigador experimentado acostumbra estudiar todos los valores.

**— Razón “F” significativa al nivel del 0.01 (p < 0.01)

*—Razón “F” significativa al nivel del 0.05 (p < 0.05)

Como podemos ver en la tabla, la similitud,

la atracción

y

la

retroalimentación tienen un efecto significativo sobre la satisfacción

en la relación.

Respecto a los efectos de dos variables independientes conjuntas,

sólo la similitud y la atracción tienen un efecto, hay un efecto

conjunto

de

las

tres

variables independientes. La hipótesis de

investigación se acepta y la nula se rechaza. Asimismo, se recuerda al lector que en el capítulo 5 del presente disco: Otros diseños experimentales (en el apartado sobre diseños factoriales) se explica

Pág. 13

MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

la noción de interacción entre variables independientes. Cabe agregar que el ANOVA es un método estadístico propio para los diseños experimentales factoriales.

Ejemplo:

Un experimento se realizó para probar cuanto tiempo toma usar un modelo nuevo y un modelo anterior de calculadora. Seis ingenieros trabajando en un problema estadístico y uno de ingeniería se les toma el tiempo para resolver el problema. Los ingenieros se consideran como bloques en el diseño experimental.

Hay dos factores: Tipo de problema y modelo de calculadora – cada uno con dos niveles, se hacen experimentos donde esos niveles de los factores se cruzan. Los datos se muestran a continuación:

SolveTime

Engineer

ProbType

Calculator

  • 3.1 Jones

Stat

New

  • 7.5 Jones

Stat

Old

  • 2.5 Jones

Eng

New

  • 5.1 Jones

Eng

Old

  • 3.8 Williams

Stat

New

  • 8.1 Williams

Stat

Old

  • 2.8 Williams

Eng

New

  • 5.3 Williams

Eng

Old

3

Adams

Stat

New

7.6

Adams

Stat

Old

2

Adams

Eng

New

  • 4.9 Adams

Eng

Old

  • 3.4 Dixon

Stat

New

  • 7.8 Dixon

Stat

Old

  • 2.7 Dixon

Eng

New

  • 5.5 Dixon

Eng

Old

  • 3.3 Erickson

Stat

New

  • 6.9 Erickson

Stat

Old

  • 2.5 Erickson

Eng

New

  • 5.4 Erickson

Eng

Old

  • 3.6 Maynes

Stat

New

  • 7.8 Maynes

Stat

Old

  • 2.4 Maynes

Eng

New

  • 4.8 Maynes

Eng

Old

Las instrucciones de Minitab son las siguientes:

Pág. 14

MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

  • 1 Abrir la worksheet EXH_AOV.MTW.

  • 2 Stat > ANOVA > Balanced ANOVA.

  • 3 Responses, poner SolveTime.

  • 4 Model, poner Engineer ProbType | Calculator.

  • 5 En Random Factors, poner Engineer.

  • 6 Click Results. En Display means corresponding to the terms, poner ProbType | Calculator. Click OK cada cuadro de diálogo.

Los resultados obtenidos son los siguientes:

ANOVA: SolveTime versus Engineer, ProbType, Calculator

Factor

Type

Levels Values

2

Engineer

random

6 Adams, Dixon, Erickson, Jones, Maynes, Williams

ProbType

fixed

2 Eng, Stat

Calculator fixed

New, Old

Analysis of Variance for SolveTime

Source

DF

SS

MS

F

P

Engineer

5

1.053

0.211

3.13

0.039

ProbType

1

16.667 16.667

247.52 0.000

Calculator

1

72.107

72.107 1070.89

0.000

ProbType*Calculator

1

3.682

3.682

54.68

0.000

Error

15

1.010

0.067

Total

23

94.518

S = 0.259487

R-Sq = 98.93%

R-Sq(adj) = 98.36%

 

Means

ProbType

N SolveTime

 

Eng

12

3.8250

Stat

12

5.4917

Calculator

N SolveTime

New

12

2.9250

Old

12

6.3917

ProbType Calculator N SolveTime

Eng

New

6

2.4833

Eng

Old

6

5.1667

Stat

New

6

3.3667

Stat

Old

6

7.6167

Interpretación de los resultados:

Pág. 15

MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Se muestran los factores (fijos y aleatorios), niveles y valores. Después se muestra la tabla de ANOVA, donde se indica de acuerdo al valor P que hay una interacción significativa entre el tipo de problema y el modelo de calculadora, lo que implica que la reducción en tiempo de proceso de la calculadora depende del tipo de problema.

En la lista de promedios se observa un menor tiempo entre la calculadora nueva y la anterior.

Pág. 16

MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

ANÁLISIS

(MANOVA)

MULTIVARIADO

DE

VARIANZA

Es un modelo para analizar la relación entre una o más variables independientes y dos o más variables dependientes. Es decir, es útil para estructuras causales del tipo:

MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 ANÁLISIS (MANOVA) MULTIVARIADO DE VARIANZA Es un modelo

La técnica posee varios usos, entre los que destacan:

- Evaluar diferencias entre grupos a través de múltiples variables dependientes (medidas por intervalos o razón). La(s) variable(s) independiente(s) es(son) categórica(s) (no métricas). Tiene el poder de evaluar no solamente las diferencias totales, sino diferencias entre las combinaciones de las dependientes.

En este sentido representa una extensión del análisis de varianza (ANOVA) para cubrir casos donde hay más de una variable dependiente y/o cuando las

Pág. 17

MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

variables dependientes simplemente no pueden ser combinadas. En otras palabras, reconoce si los cambios en la(s) variable(s) independiente(s) tienen un efecto significativo en las dependientes. Señala qué grupos difieren en una variable o en el conjunto de variables dependientes.

- Identificar las interacciones entre las variables independientes y la asociación entre las dependientes.

Las tres clases principales del MANOVA son:

1) Hotelling's T. Es parecida a la prueba t (dos grupos) pero con más dependientes: una variable independiente dicotómica y varias dependientes.

2) MANOVA unidireccional. Análogo al ANOVA de una sola vía, pero con más dependientes: una variable independiente multicategórica y varias dependientes.

3) MANOVA factorial. Similar al ANOVA factorial, solamente que con dos o más dependientes: varias independientes categóricas y varias dependientes.

Los modelos del MANOVA tienen en común que forman combinaciones lineales de las dependientes que discriminan mejor entre los grupos en un experimento o una situación no experimental. Es una prueba de significancia de las diferencias en los grupos en un espacio multidimensional donde cada dimensión está definida por combinaciones lineales del conjunto de variables dependientes.

Pág. 18

MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Una pregunta que suele hacer el estudiante al revisar el MANOVA es ¿por qué no hacemos ANOVAS separados, uno para cada dependiente? La respuesta: las dependientes están correlacionadas muy frecuentemente, por lo cual los resultados de varios ANOVA pueden ser redundantes y difíciles de integrar. He aquí una síntesis de la explicación de Wiersma (1999) sobre este tipo de análisis:

Al incluir dos o más variables dependientes simultáneamente no se consideran las diferencias entre las medias en cada variable, sino las diferencias en variables canónicas. El interés no sólo es saber si los grupos definidos por las variables independientes difieren en las variables canónicas, sino conocer la naturaleza de éstas. Una variable canónica es una variable artificial generada a partir de los datos. Representa constructos y se compone de variables reales, las cuales deben ser descritas en términos de variables dependientes. Lo anterior se efectúa por medio de las ponderacións de los coeficientes de correlación entre una variable dependiente y una variable canónica. Si una ponderación entre la variable canónica y la dependiente es positiva y elevada, significa que altos valores en la dependiente se asocian con altos valores en la canónica. Por ejemplo, si una variable dependiente consiste en puntuaciones a una prueba sobre innovación, y dichas puntuaciones se correlacionan en forma considerable con una variable canónica, inferimos que la variable canónica representa un constructo que involucra esencialmente a la innovación.

En los cálculos canónicas

que se hacen en el MANOVA, se generan variables

Pág. 19

MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

hasta que se encuentra que no hay una diferencia estadística significativa entre las categorías o los grupos de las variables independientes; o bien, hasta que se agotan los grados de libertad de las variables independientes (lo que ocurra primero). El número de variables canónicas no puede exceder el número de variables dependientes, pero es común que el número de dependientes sea mayor que el de variables canónicas estadísticamente significativas o los grados de libertad.

La hipótesis general de investigación en el MANOVA postula que las medias de los grupos o las categorías de la(s) variable(s) independiente(s) difieren entre sí en las variables canónicas. La hipótesis nula postula que dichas medias serán iguales.

Se calculan diversas estadísticas para evaluar ambas hipótesis, entre las que destacan: F (total, toma en cuenta el modelo completo), la prueba Hotelling's TSquare, T2 (cuando hay dos grupos formados por las variables independientes), Wilks' lambda, U (cuando hay más de dos grupos formados por las variables independientes), y Pillai-Bartlett (cuando hay coeficientes canónicos); y si resultan significativas en un nivel de confianza, se acepta la hipótesis de investigación de diferencia de medias. Esto indica que hay, por lo menos, una variable canónica significativa (pero puede haber varias). Si diversas variables canónicas son significativas, esto muestra que se presentan diferencias en las variables canónicas en cuestión, entre los grupos o categorías de las independientes.

Los paquetes estadísticos que contiene el MANOVA suelen posicionar a los grupos de las variables independientes por puntuaciones discriminantes; éstas son calculadas con una función discriminante,

Pág. 20

MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

que es una ecuación de regresión para un compuesto de variables dependientes. A cada grupo se le asigna una puntuación discriminante en cada variable canónica. Las puntuaciones discriminantes de una variable independiente pueden ser cero o tener un valor positivo o negativo. Una puntuación discriminante positiva y elevada para un grupo, indica que éste se coloca por encima de los demás en la respectiva variable canónica. Y deben considerarse las ponderacións, las cuales son positivas o negativas. Las puntuaciones discriminantes son utilizadas para interpretar las separaciones de los grupos en las variables canónicas, en tanto que las ponderacións se usan para evaluar y ligar los resultados de las variables dependientes (Wiersma, 1999). Un ejemplo de las ponderacións de los coeficientes de correlación entre las variables dependientes y las variables canónicas así como las puntuaciones discriminantes se muestran en las tablas siguientes:

MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 que es una ecuación de regresión para un

Pág. 21

MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 Como observamos en la última tabla, se obtuvieron

Como observamos en la última tabla, se obtuvieron tres constructos subyacentes en las puntuaciones recolectadas de la muestra:

motivación intrínseca, atribución de causalidad externa y desempeño laboral. Vemos en la tabla que los grupos (niveles en la empresa) están separados en las tres variables canónicas (los grupos difieren), particularmente en la primera variable canónica (motivación intrínseca) y los obreros ocupan la posición más baja. Las variables dependientes enmarcadas en un recuadro en la primera variable canónica se ponderaciónn en ella; en consecuencia, los ejecutivos tienen las puntuaciones más altas en motivación intrínseca medida por la escala mencionada, en atribuciones internas y en sentimientos de éxito en el trabajo. Así se interpretan todas las variables canónicas y dependientes.

En el MANOVA se incluyen razones F y análisis de varianza. Algunos paquetes estadísticos agregan una prueba denominada correlación canónica, que es muy similar al MANOVA. Ésta es la máxima correlación que llega a obtenerse entre los conjuntos de puntuaciones y las relaciones entre las variables independientes, entre las variables dependientes y entre los conjuntos de ambas (dependientes e independientes) (Kerlinger, 1979). Las variables en el MANOVA y la correlación

Pág. 22

MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

canónica asumen que las variables dependientes están medidas en un nivel de intervalos o razón. Tal correlación se interpreta como otras; pero el contexto de interpretación varía de acuerdo con el número de variables involucradas.

Pág. 23

MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Ejemplo con Minitab

Se realiza un estudio para determinar las condiciones óptimas para extruir película plástica. Se miden tres respuestas – Tear, gloss y opacity – cinco veces en cada combinación de dos factores – tasa de extrusión y cantidad de aditivo – cada grupo se pone en niveles bajos y altos. Se utiliza el MANOVA balanceado para probar la igualdad de las medias.

DATOS

Tear

Gloss

Opacity

Extrusion

Additive

6.5

9.5

4.4

1

1

6.2

9.9

6.4

1

1

5.8

9.6

3

1

1

6.5

9.6

4.1

1

1

6.5

9.2

0.8

1

1

6.9

9.1

5.7

1

2

7.2

10

2

1

2

6.9

9.9

3.9

1

2

6.1

9.5

1.9

1

2

6.3

9.4

5.7

1

2

6.7

9.1

2.8

2

1

6.6

9.3

4.1

2

1

7.2

8.3

3.8

2

1

7.1

8.4

1.6

2

1

6.8

8.5

3.4

2

1

7.1

9.2

8.4

2

2

7

8.8

5.2

2

2

7.2

9.7

6.9

2

2

7.5

10.1

2.7

2

2

7.6

9.2

1.9

2

2

Instrucciones de Minitab

  • 1 Abrir el archivo EXH_MVAR.MTW.

  • 2 Seleccionar Stat > ANOVA > Balanced MANOVA.

  • 3 En Responses, poner Tear Gloss Opacity.

  • 4 En Model, poner Extrusion | Additive.

Pág. 24

MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

  • 5 Click Results. En Display of Results, seleccionar Matrices (hypothesis, error, partial correlations) y Eigen analysis.

  • 6 Click OK en cada cuadro de diálogo.

Los resultados se muestran a continuación:

Results for: Exh_mvar.MTW ANOVA: Tear, Gloss, Opacity versus Extrusion, Additive

MANOVA for Extrusion

s

= 1

m = 0.5

n = 6.0

 

Test

DF

Criterion

 

Statistic

F

Num

Denom

P

 

Wilks'

 

0.38186 7.554

3

14

0.003

 

Lawley-Hotelling

1.61877 7.554

3

14

0.003

 

Pillai's

 

0.61814 7.554

3

14

0.003

 

Roy's

 

1.61877

 

SSCP Matrix for Extrusion

 

Tear

Gloss Opacity

Tear

1.740
1.740

-1.505

0.8555

Gloss

-1.505

1.301
1.301

-0.7395

Opacity

0.855 -0.739

0.4205
0.4205

SSCP Matrix for Error

 

Tear

Gloss Opacity

Tear

1.764
1.764

0.0200

-3.070

Gloss

0.020

2.6280
2.6280
-0.552
-0.552

Opacity -3.070 -0.5520

64.924

 
 

Tear

Gloss

Opacity

Pág. 25

MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Tear

1.00000

0.00929 -0.28687

Gloss

0.00929
0.00929
1.00000 -0.04226
1.00000
-0.04226

Opacity -0.28687 -0.04226

1.00000

EIGEN Analysis for Extrusion

Eigenvalue 1.619 Proportion 1.000 Cumulative 1.000

0.00000 0.00000 0.00000 0.00000 1.00000 1.00000

Eigenvector

 

1

2

3

Tear

0.6541 -0.3385 0.0359
0.6541
-0.3385
0.0359

0.4315

0.0604

Gloss

0.5163

0.0012

Opacity

0.0302

-0.1209

MANOVA for Additive

 

s

= 1

m = 0.5

n = 6.0

 

Test

DF

Criterion

 

Statistic

F

Num

Denom

P

 

Wilks'

 

0.52303 4.256

3

14

0.025

 

Lawley-Hotelling

 

0.91192 4.256

3

14

0.025

 

Pillai's

 

0.47697 4.256

3

14

0.025

 

Roy's

 

0.91192

 

SSCP Matrix for Additive

 

Tear

Gloss Opacity

Tear

0.7605 0.6825

1.931

Gloss

0.6825 0.6125

1.732

Opacity

1.9305 1.7325

4.901

EIGEN Analysis for Additive

Eigenvalue 0.9119 0.00000 0.00000 Proportion 1.0000 0.00000 0.00000 Cumulative 1.0000 1.00000 1.00000

Pág. 26

MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Eigenvector

1

2

3

Tear

  • 0.4480 -0.1276

Gloss

  • -0.4992 -0.1694

Opacity

  • 0.0000

0.1102

MANOVA for Extrusion*Additive

s

= 1

m = 0.5

n = 6.0

 
 

Test

DF

Criterion

 

Statistic

F

Num

Denom

P

 

Wilks'

 

0.77711 1.339

3

14

0.302

 

Lawley-Hotelling

0.28683 1.339

3

14

0.302

 

Pillai's

 

0.22289 1.339

3

14

0.302

 

Roy's

 

0.28683

 

SSCP Matrix for Extrusion*Additive

Tear

Tear

Gloss Opacity

0.000500 0.01650 0.04450

Gloss

0.016500 0.54450 1.46850

Opacity 0.044500

1.46850 3.96050

EIGEN Analysis for Extrusion*Additive

Eigenvalue 0.2868 0.00000 0.00000 Proportion 1.0000 0.00000 0.00000 Cumulative 1.0000 1.00000 1.00000

Eigenvector

1

2

3

Tear

-0.1364

0.1806

0.7527

Gloss

-0.5376 -0.3028 -0.0228

Opacity

-0.0683

0.1102 -0.0000

Por default se muestra la tabla para las cuatro pruebas multivariadas (Wliks, Lawley, Hotelling, Pillai y Roy) para cada uno de los términos en el modelo.

Los valores s, m y n se utilizan para los cálculos de los estadísticos de prueba

Fc, el cual es exacto si

s = 1 o 2 de otra forma es aproximado.

Pág. 27

MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Examinando los valores P de las pruebas para Extrusión y Aditivo se observa que son significativas para un nivel de 0.05, no así la interacción.

Las matrices SSCP se usan para evaluar la contribución a la variabilidad de

manera similar a la suma de cuadrados en la ANOVA univariada. La matriz SSCP para Extrusion es la suma de cuadrados de la hipótesis y matriz de productos cruzados H para las tres respuestas con el término de modelo

Extrusión.

Los elementos diagonales de esta matriz, 1.740, 1.301 y 0.405 son

las sumas de cuadrados univariados para el término del modelo Extrusión

cuando las variables de respuesta son Tear, Gloss y Opacity respectivamente

.

Los elementos fuera de la diagonal son los productos cruzados.

La matriz SSCP para el error es la suma de cuadrados de los errores y

productos cruzados E

. Los elementos diagonales de la matriz 1.764, 2.6280, y

64.924 son las sumas de cuadrados de los errores para las variables de
64.924
son
las sumas
de
cuadrados de
los errores para
las variables de

respuesta Teat, Gloss y Opacity

, respectivamente. Los elementos fuera de la

diagonal de esta matriz son los productos cruzados.

La matriz de correlaciones parciales para el error SSCP, se usa para evaluar

que tanto se relacionan las variables de respuesta.

Las correlaciones parciales

entre

Tear

y

Gloss son

pequeñas con

0.00929

y

entre

Gloss y Opacity

 

-0.04226. Y la correlación parcial entre Tear y Opacity es de -0.28687 tampoco

 

es grande.

Como la estructura de las correlaciones es débil, se pueden realizar

análisis univariados de ANOVA para cada una de las respuestas.

Se puede utilizar el análisis de valores característicos o Eigenvalores, para evaluar como difieren los promedios de las respuestas entre los niveles de los diferentes términos del modelo. El análisis de Eigenvalores es E -1 H donde E es la matriz SCCP del error y H es la matriz SCCP de las variables de respuesta. Estos son los eigenvalores utilizados para calcular las cuatro pruebas de MANOVA.

Poner la mayor importancia en los eigenvectores que corresponden a valores altos de eigenvalores. En el ejemplo, el segundo y tercer eigenvalores son pequeños, no signiicativos. Para ambos factores, Extrusion y Additive, los

Pág. 28

MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

primeros eigenvalores contienen información similar. Para Extrusion is 0.6541, -0.3385, 0.0359 and for Additive it is -0.6630, -0.3214, -0.0684. El mayor valor absoluto dentro de esos eigenvalores corresponde a la respuesta Tear, el segundo a Gloss y el valor para Opacity es pequeño. Esto implica que Tear tiene la mayor diferencia entre los dos niveles de los factores ya sea Extrusion o Additive, el Gloss tiene las siguientes mayores diferencias y op.citp. tiene solo pequeñas diferencias.

Para un análisis más general utilizar General MANOVA con diseños balanceados y no balanceados, incluso si se tienen covariados.

  • 1 Seleccionar Stat > ANOVA > General MANOVA.

  • 2 En Responses, seleccionar hasta 50 columnas numéricas conteniendo las variables de respuesta.

  • 3 En Model, introducir los términos del modelo que se quiera ajustar.

    • 4. Click OK.

Pág. 29

MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

ANÁLISIS DE COVARIANZA

Definición: Es un método estadístico que analiza la relación entre una variable dependiente y dos o más independientes, con el que se elimina o controla el efecto de al menos una de estas independientes. Similar al ANOVA, excepto que permite controlar la influencia de una variable independiente, la cual con frecuencia es una característica antecedente que puede variar entre los grupos (Mertens, 2005) o influir los resultados y afectar la claridad de las interpretaciones.

Perspectivas o usos: Wildt y Ahtola (1978, pp. 8-9) destacan tres perspectivas para el análisis de covarianza:

A. Perspectiva experimental. Se aplica a aquellas situaciones en que el interés del investigador se centra en las diferencias observadas en la variable dependiente, por medio de las categorías de la variable independiente (o variables independientes). Pero el experimentador asume que hay otras variables independientes cuantitativas que contaminan la relación y cuya influencia debe ser controlada.

Pág. 30

MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 Y el investigador únicamente se interesa por conocer

Y el investigador únicamente se interesa por conocer la relación entre las variables independientes categóricas y la variable dependiente. Desea al mismo tiempo remover y controlar el efecto de las variables independientes cuantitativas no categóricas (continuas). Es decir, desea tener un esquema como el de la figura

MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 Y el investigador únicamente se interesa por conocer

Pág. 31

MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

El objetivo es “purificar la relación entre las independientes categóricas y la dependiente, mediante el control del efecto de las independientes no categóricas o continuas”.

Ejemplos de variables independientes categóricas serían: género (masculino, femenino), inteligencia (alta, media, baja), ingreso (menos de un salario mínimo, dos a cuatro salarios mínimos, cinco a 10 salarios mínimos, 11 o más salarios mínimos).

Los niveles de medición nominal y ordinal son categóricos en sí mismos, mientras que los niveles de intervalos y razón deben transformarse en categorías más discretas. Estos últimos son en sí:

cuantitativos, continuos y de categorías múltiples. Por ejemplo, el ingreso en su “estado natural” (ponderacións, dólares, euros, etc.) varía de la categoría cero hasta la categoría (K)k, ya que puede haber millones de categorías.

Variable categórica — unas cuantas categorías o un rango medio.

Variable continua — muchas categorías (a veces una infinidad).

A dichas variables independientes cuantitativas continuas, cuya influencia se

controla, se les denomina “covariables”. Una covariable se incluye en el análisis para remover su efecto sobre la variable dependiente, e incrementar el conocimiento de la relación entre las variables independientes categóricas de interés y la dependiente, lo cual aumenta la precisión del análisis.

Pág. 32

MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

En esta perspectiva, el análisis de covarianza puede ser concebido primero como un ajuste en la variable dependiente respecto a diferencias en la covariable o las covariables y, posteriormente, como una evaluación de la relación entre las variables independientes categóricas y los valores ajustados de la variable dependiente (Wildt y Ahtola, 1978). En términos de Creswell (2005):

El procedimiento “ajusta” las puntuaciones en la dependiente para dar cuenta por la covarianza (por decirlo en términos sencillos: “hace equivalentes a los grupos en la(s) covariable(s)” y controla influencias potenciales que pueden afectar a la variable dependiente).

B. Perspectiva de interés por la covariable. Esta perspectiva se ejemplifica con aquellas instancias en las cuales el interés principal se centra en analizar la relación entre la variable dependiente y la covariable (variable cuantitativa continua) o las covariables. Aquí el enfoque es distinto; la influencia que se remueve es la de las variables independientes categóricas. Primero se controla el efecto (en este caso contaminante) de estas variables y después se analiza el efecto “purificado” de las covariables.

C. Perspectiva de regresión. En esta tercera perspectiva, tanto las variables independientes categóricas como las covariables resultan de interés para el investigador, quien puede desear examinar el efecto de cada variable independiente (covariables y no covariables, todas) y después ajustar o corregir los efectos de las demás variables independientes.

En cualquier caso, el análisis de covarianza elimina influencias no deseadas

Pág. 33

MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

sobre la variable dependiente. Se puede utilizar en contextos experimentales y no experimentales. La mayoría de las veces la función del ANCOVA es “remover” la varianza compartida entre una o más covariables y la dependiente, de este modo, se valora en su justa dimensión la relación causal entre la(s) variable(s) independiente(s) de interés y la dependiente (Creswell, 2005).

Veámoslo conceptualmente pero de forma gráfica con un ejemplo simple:

Ejemplo:

Estudio: Al investigador le interesa analizar el efecto en el aprendizaje de la computación, por medio un nuevo método para su enseñanza a niños. La hipótesis es: El nuevo método de enseñanza de la computación (MA-RH) provocará un mayor aprendizaje en los niños que un método tradicional.

Entonces, implementa el siguiente experimento: A un grupo de infantes lo expone al nuevo método de enseñanza de computación (MA-RHS); a otro grupo no lo expone al nuevo método, éste aprende con el método tradicional; finalmente, a un tercer grupo, de control, no recibe ningún tipo de enseñanza en computación.

La variable independiente es el tipo de método con tres categorías o niveles (método nuevo, método tradicional y ausencia de método), la dependiente es el aprendizaje en computación (medida por una prueba estandarizada a nivel de

Pág. 34

MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

intervalos). Se tiene un esquema como el de la figura

MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 intervalos). Se tiene un esquema como el de

Con el experimento el investigador desea conocer la varianza en común entre método y aprendizaje (cuantificarla), la relación XY (pura). Si los niños son asignados al azar a los grupos del experimento y tiene grupos de tamaño aceptable, por el diseño mismo, remueve la influencia de las covariables que pudieran afectar. Pero si no es factible hacerlo y tiene un diseño cuasiexperimental (grupos intactos), debe remover tal influencia con el análisis de covarianza (eliminar al mínimo posible la varianza del aprendizaje no explicada), para evitar que las covariables impidan ver con claridad la relación XY. Por ejemplo, el nivel educativo tecnológico

Pág. 35

MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

de los padres puede influir (hace variar al aprendizaje) y este efecto debe ser controlado, al introducirlo como covariable.

Lo que el investigador desea también se puede expresar
Lo
que
el
investigador
desea
también
se
puede
expresar

gráficamente así:

MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 de los padres puede influir (hace variar al

Pág. 36

MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Wildt y Ahtola (1978, covarianza:

p.

13)

definen algunos usos del análisis de

  • 1. Incrementar la precisión en experimentos con asignación al azar.

  • 2. Eliminar influencias extrañas o contaminantes que pueden resultar

cuando las pruebas o los individuos no son asignados al azar a las diferentes condiciones experimentales (grupos de un experimento).

  • 3. Eliminar efectos de variables que confundan o distorsionen la

interpretación de resultados en estudios no experimentales.

Nivel de medición de las variables: La variable dependiente siempre está medida por intervalos o razón y las variables independientes pueden estar medidas en cualquier nivel.

Interpretación: Depende de cada caso específico, ya que el análisis de covarianza efectuado mediante un programa estadístico computacional, produce un cuadro de resultados muy parecido al del análisis de varianza. Los elementos más comunes pueden obssevarse en la tabla ANOVA.

La

razón F

es, igual que en el análisis de varianza, una razón de

varianzas. El razonamiento estadístico es el mismo y F se interpreta igual, incluso se utiliza el mismo cuadro de la distribución F. Solamente que las inferencias y conclusiones se hacen al considerar que las medias de la variable dependiente, a través de las categorías de las variables independientes, se han

Pág. 37

MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

ajustado,

de

este

modo

eliminan

el

efecto

de

la

covariable

o

covariables.

 

Ejemplo:

Diseño de investigación que utiliza el análisis de covarianza

Hi: Los trabajadores que reciban retroalimentación verbal sobre el desempeño de parte de su supervisor mantendrán un nivel mayor de productividad que los trabajadores que reciban retroalimentación sobre el desempeño por

escrito, más aún que los trabajadores que no reciban ningún tipo de retroalimentación. __

__

__

Hi: X1

>

X2

>

X3

(verbal) (por escrito) (ausencia)

El investigador plantea un diseño experimental para intentar probar su hipótesis. Sin embargo, no puede asignar aleatoriamente a los trabajadores a los tres grupos del experimento. El diseño sería con grupos intactos (cuasiexperimental) y se esquematizaría así:

MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 ajustado, de este modo eliminan el efecto de

Asimismo, el investigador presupone que hay un factor que puede contaminar los resultados (actuar como fuente de invalidación interna): la

Pág. 38

MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

motivación. Diferencias iniciales en motivación pueden invalidar el estudio.

Como la asignación al azar está ausente, no se sabe si los resultados se ven influidos por dicho factor. Entonces, el experimentador decide eliminar o controlar el efecto de la motivación sobre la productividad para conocer los efectos de la variable independiente: tipo de retroalimentación. La motivación se convierte en covariable.

El esquema es el que se muestra en la figura

MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 motivación. Diferencias iniciales en motivación pueden invalidar el

Cabe destacar que, para introducir una covariable en el análisis, de preferencia debe medirse antes del inicio del experimento.

El análisis de covarianza “quita” a la variabilidad de la dependiente lo que se debe a la covariable. Ajusta la varianza de la variable dependiente en las categorías de la independiente, al basarse en la covariable. En el ejemplo, ajusta la varianza de la productividad debida a la motivación, en las categorías experimentales (tratamientos o grupos). El ajuste se realiza sobre la base de la correlación entre la covariable y la dependiente. Esto se muestra esquemáticamente en la tabla.

Pág. 39

MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Una vez realizado el análisis de covarianza, se evalúa si F es o no significativa. Cuando F resulta significativa se acepta la hipótesis de investigación.

Si el resultado fuera:

G1 = 35 G2 = 36

La correlación entre la calificación en motivación y las puntuaciones en productividad es la base para el ajuste.

G3 = 38 Gl entre = K – 1 = 3 – 1 = 2 Gl intra = N K = 107 F = 1.70

Comparamos con el valor de la tabla respectiva: en el nivel de 0.05 es igual a 3.07, y nuestra razón F a 1.70 es menor a este valor. Por lo tanto, rechazamos la hipótesis de investigación y aceptamos la hipótesis nula. Esto se contrasta y profundiza con las medias ajustadas de los grupos que proporcione el análisis de covarianza (no las medias obtenidas en el experimento por cada grupo, sino las ajustadas con base en la covariable).

Recordemos que SPSS nos proporciona automáticamente la significancia de F.

Ejemplo:

Pág. 40

MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Determinar si hay diferencia en la resistencia de una fibra monofilamento producida por tres máquinas diferentes. El diámetro de la fibra parece tener influencia en la resistencia como se muestra abajo (covariado de Y).

Datos de resistencia - Y es la respuesta, X es el covariado.

Y X Maq 36 20 1 41 25 1 39 24 1 42 25 1 49
Y
X
Maq
36
20
1
41
25
1
39
24
1
42
25
1
49
32
1
40
22
2
48
28
2
39
22
2
45
30
2
44
28
2
35
21
3
37
23
3
42
26
3
34
21
3
32
15
3
La relación entre
siguiente gráfica:
X
y
Y
es significativa
como
se observa
en
la

En Minitab:

1. Stat > Regresión > Fitted line plot

  • 2. Introducir Y y X, seleccionar Linear

  • 3. OK

Pág. 41

MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Fitted Line Plot

Y = 14.14 + 1.080 X

Y

50 45 40 35 30 25.0 30.0 20.0 22.5 27.5 15.0 32.5 17.5
50
45
40
35
30
25.0
30.0
20.0
22.5
27.5
15.0
32.5
17.5

X

S 1.78174 R-Sq 88.1% R-Sq(adj) 87.2%
S
1.78174
R-Sq
88.1%
R-Sq(adj)
87.2%

Para el ANOVA con Covariados, las instrucciones de Minitab son las siguientes:

  • 1. Stat > ANOVA > General Linear Model

  • 2. Introducir en Response Y, en Model X y Maquina

  • 3. En Covariates X

  • 4. En Results en Display Least Square Means corresponding to the

terms Maq

  • 5. En Graphs seleccionar Normal plot for residuals

  • 6. OK

Los resultados se muestran a continuación:

General Linear Model: Y versus Maq

Factor Type

Levels Values

3

Maq

fixed

1, 2, 3

Analysis of Variance for Y, using Adjusted SS for Tests

Source

DF

Seq SS

Adj SS

Adj MS

F

P

X

1

305.13

178.01

178.01

69.97

0.000

Maq

2

13.28

13.28

6.64

2.61

0.118

Error

11

27.99

27.99

2.54

Total

14

346.40

Pág. 42

MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

S = 1.59505

R-Sq = 91.92%

R-Sq(adj) = 89.72%

Term

Coef

SE Coef

T

P

Constant 17.177

2.783

6.17

0.000

X

0.9540

0.1140

8.36

0.000

Unusual Observations for Y

Obs

Y

Fit

SE Fit

Residual St Resid

7

48.0000

45.1080 0.7489

2.8920

2.05 R

R denotes an observation with a large standardized residual.

Means for Covariates

 

Covariate

Mean

StDev

X

24.13

4.324

Least Squares Means for Y

Maq

Mean

SE Mean

  • 1 40.38

0.7236

  • 2 41.42

0.7444

  • 3 38.80

0.7879

Conclusión:

Se observa que no hay diferencia en las máquinas una vez que eliminamos la

variabilidad introducida por el diámetro de la fibra, en caso de no haber tomado

en cuenta la covarianza del diámetro en la resitencia, se hubiese concluido al

revés, que si hay diferencia en las máquinas, como se muestra a continuación:

Con Minitab:

  • 1. Stat > ANOVA > One way

  • 2. Response Y Factor Maquina

  • 3. OK

Los resultados son los siguientes:

One-way ANOVA: Y versus Maq

Source

DF

SS

MS

F

P

Maq

2

140.4

70.2

4.09

0.044
0.044

Error

12

206.0

17.2

Total

14

346.4

S = 4.143

R-Sq = 40.53%

R-Sq(adj) = 30.62%

Pág. 43

MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Level

N

Mean

StDev

Individual 95% CIs For Mean Based on Pooled StDev +---------+---------+---------+---------

  • 1 41.400 4.827

5

(---------*----------)

  • 2 43.200 3.701

5

(---------*---------)

  • 3 (---------*---------)

5

36.000 3.808

+---------+---------+---------+---------

32.0

Pooled StDev = 4.143

36.0

40.0

44.0

Conclusión: Como P value es menor a 0.05 aparentemente si hay diferencia

entre máquinas.

Pág. 44

MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

ANALISIS DISCRIMINANTE

El análisis discriminante, se aplica cuando las variables independientes son medidas por intervalos o razón, y la dependiente es categórica. Tal análisis sirve para predecir la pertenencia de un caso a una de las categorías de la variable dependiente, sobre la base de varias independientes (dos o más). Se utiliza una ecuación de regresión llamada función discriminante. Por ejemplo, si queremos predecir el voto obtenido por dos partidos contendientes (variable dependiente nominal con dos categorías) sobre la base de cuatro variables independientes, aplicaremos el análisis discriminante, para resolver una ecuación de regresión; así se obtienen las predicciones individuales. En el ejemplo, hay dos categorías (votar por A o votar por B); por tanto, los valores a predecir son 0 y 1 (A y B, respectivamente). Si el sujeto obtiene una puntuación más cercana a cero, se predice que pertenece al grupo que votará por A; si logra una puntuación más cercana a 1, se predice que pertenece al grupo que votará por B. Además, se consigue una medida del grado de discriminación del modelo.

Usar el Análisis Discrimínate para clasificar observaciones en dos o más grupos si se tiene una muestra con grupos conocidos. Se puede utilizar también para investigar como contribuyen las variables a la separación de grupos.

Se pueden hacer análisis discriminantes lineales y cuadráticos. Los lineales asumen que todos los grupos tienen la misma matriz de covarianza, los cuadráticos no hacen este supuesto y no son bien comprendidos. Para el caso de clasificar las observaciones nuevas en una de dos categorías, la regresión logística puede ser superior al análisis discriminante.

Pág. 45

MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Ejemplo:

Para regular la pesca de salmón, se desea identificar si el pescado es originario de Alaska o de Canadá. Cincuenta peces de cada lugar de origen fueron capturados y pesados cuando vivían en agua dulce y cuando vivieron en agua salada. El objetivo es el de poder identificar si los nuevos pescados vienen de criaderos en Alaska o Canadá. Los datos se muestran a continuación:

SalmonOrigin

Freshwater

Marine

SalmonOrigin

Freshwater

Marine

Alaska

108

368

Canada

129

420

Alaska

131

355

Canada

148

371

Alaska

105

469

Canada

179

407

Alaska

86

506

Canada

152

381

Alaska

99

402

Canada

166

377

Alaska

87

423

Canada

124

389

Alaska

94

440

Canada

156

419

Alaska

117

489

Canada

131

345

Alaska

79

432

Canada

140

362

Alaska

99

403

Canada

144

345

Alaska

114

428

Canada

149

393

Alaska

123

372

Canada

108

330

Alaska

123

372

Canada

135

355

Alaska

109

420

Canada

170

386

Alaska

112

394

Canada

152

301

Alaska

104

407

Canada

153

397

Alaska

111

422

Canada

152

301

Alaska

126

423

Canada

136

438

Alaska

105

434

Canada

122

306

Alaska

119

474

Canada

148

383

Alaska

114

396

Canada

90

385

Alaska

100

470

Canada

145

337

Alaska

84

399

Canada

123

364

Alaska

102

429

Canada

145

376

Alaska

101

469

Canada

115

354

Alaska

85

444

Canada

134

383

Alaska

109

397

Canada

117

355

Alaska

106

442

Canada

126

345

Alaska

82

431

Canada

118

379

Alaska

118

381

Canada

120

369

Alaska

105

388

Canada

153

403

Alaska

121

403

Canada

150

354

Alaska

85

451

Canada

154

390

Alaska

83

453

Canada

155

349

Alaska

53

427

Canada

109

325

Alaska

95

411

Canada

117

344

Alaska

76

442

Canada

128

400

Alaska

95

426

Canada

144

403

Alaska

87

402

Canada

163

370

Alaska

70

397

Canada

145

355

Alaska

84

511

Canada

133

375

Pág. 46

MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

Alaska

91

469

Canada

128

383

Alaska

74

451

Canada

123

349

Alaska

101

474

Canada

144

373

Alaska

80

398

Canada

140

388

Alaska

95

433

Canada

150

339

Alaska

92

404

Canada

124

341

Alaska

99

481

Canada

125

346

Alaska

94

491

Canada

153

352

Alaska

87

480

Canada

108

339

Las intrucciones de Minitab son las siguientes:

  • 1 Abrir la worksheet EXH_MVAR.MTW.

  • 2 Stat > Multivariate > Discriminant Analysis.

  • 3 En Groups, poner SalmonOrigin.

  • 4 En Predictors, poner Freshwater Marine. Click OK.

Los resultados obtenidos se muestran a continuación:

Discriminant Analysis: SalmonOrigin versus Freshwater, Marine

Linear Method for Response: SalmonOrigin

Predictors: Freshwater, Marine

Group

Alaska

Canada

Count

50

50

Summary of classification

 

True Group

 

Put into Group

Alaska Canada

Alaska

44

1

Canada

6

49

Total N

50

50

N correct

44

49

Proportion

0.880

0.980

N = 100

N Correct = 93

Proportion Correct = 0.930

Squared Distance Between Groups

Alaska

Canada

Alaska 0.00000 8.29187 Canada 8.29187 0.00000

Linear Discriminant Function for Groups Alaska Canada

Constant

-100.68 -95.14

Freshwater

0.37

0.50

Marine

0.38

0.33

Summary of Misclassified Observations

 

Squared

Observation

True Group

Pred Group

Group Distance Probability

1**

Alaska

Canada Alaska

3.544

0.428

Pág. 47

MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

 

Canada

2.960

0.572

2**

Alaska

Canada Alaska

8.1131

0.019

 

Canada

0.2729

0.981

12**

Alaska

Canada Alaska

4.7470

0.118

 

Canada

0.7270

0.882

13**

Alaska

Canada Alaska

4.7470

0.118

 

Canada

0.7270

0.882

30**

Alaska

Canada Alaska

3.230

0.289

 

Canada

1.429

0.711

32**

Alaska

Canada Alaska

2.271

0.464

 

Canada

1.985

0.536

71**

Canada

Alaska Alaska

2.045

0.948

 

Canada

7.849

0.052

Interpretando los resultados

El Análisis Discriminante identificó correctamente 93 de los 100 peces, a pesar de que la probabilidad de clasificar correctamente un pez de Alaska fue menor (44/50 o 88%) que la probabilidad de clasificar correctamente un pez de Canadá (49/50 o 98%). Para identificar el origen de un pez recientemente capturado depende de cual valor discriminante sea mayor. Se puede correr el análisis discriminante de nuevo y predecir a que grupo pertenecen las nuevas observaciones.

El resumen de las observaciones mal clasificadas muestra la distancia al cuadrado desde el punto mal clasificado a los centroides del grupo (vectores medios) y las probabilidades posteriores. Las observaciones son asignadas al grupo con la mayor probabilidad posterior.

Si en Options introducimos en Predict membership for: 100 130, la clasificación aparece como:

Prediction for Test Observations

 

Squared

Observation Pred Group From Group Distance Probability

1

Canada

 

Alaska

78.448

0.000

Canada

55.194

1.000

Pág. 48

MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

ANÁLISIS DE CONGLOMERADOS

Se cuenta también con el análisis de conglomerados o clusters (técnica para agrupar los casos o elementos de una muestra en grupos con base en una o más variables).

Usar Análisis de componentes principales para ayudar a comprender la estructura de datos y/o a formar un pequeño número de variables no correlacionadas (por ejemplo para evitar multicolinealidad en la regresión).

Ejemplo:

Se registran las siguientes características para 14 censos: Población total (Pop), mediana de años escolares (School), empleo total (Employ),empleo en servicios de salud (Health), y valor mediano del valor de la casa (Home). Los datos se muestran a continuación:

Pop

School

Employ

Health

Home

5.935

14.2

2.265

2.27

2.91

1.523

13.1

0.597

0.75

2.62

2.599

12.7

1.237

1.11

1.72

4.009

15.2

1.649

0.81

3.02

4.687

14.7

2.312

2.5

2.22

8.044

15.6

3.641

4.51

2.36

2.766

13.3

1.244

1.03

1.97

6.538

17

2.618

2.39

1.85

6.451

12.9

3.147

5.52

2.01

3.314

12.2

1.606

2.18

1.82

3.777

13

2.119

2.83

1.8

1.53

13.8

0.798

0.84

4.25

2.768

13.6

1.336

1.75

2.64

6.585

14.9

2.763

1.91

3.17

Se realiza un análisis de components principales para comprender la estructura de datos subyacente. Se usa la matriz de correlación para estandarizar las mediciones dado que no se mide con la misma escala.

Las instrucciones de Minitab son las siguientes:

  • 1 Abrir la worksheet EXH_MVAR.MTW.

  • 2 Stat > Multivariate > Principal Components.

  • 3 En Variables, Pop-Home.

Pág. 49

MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / OCT. 2006

  • 4 En Type of Matrix, seleccionar Correlation.

  • 5 Click Graphs y seleccionar Scree plot.

  • 6 Click OK en cada cuadro de diálogo.

Los resultados se muestran a continuación:

Principal Component Analysis: Pop, School, Employ, Health, Home

Eigenanalysis of the Correlation Matrix

Eigenvalue

3.0289

1.2911

0.5725

0.0954 0.0121

Proportion

0.606

0.258

0.114

0.019

0.002

Cumulative

0.606

0.864

0.978

0.998

1.000

Variable

PC1

PC2

PC3

PC4

PC5

Pop

-0.558 -0.131

0.008

0.551 -0.606

School

-0.313

-0.629

-0.549 -0.453

0.007