Está en la página 1de 13

5.1 Anlisis de la Varianza con un slo factor.

Esta es una prueba generalizada del contraste de medias para muestras con
datos independiente. Se comparan tres o ms muestras independientes cuya
clasificacin viene dada por la variable llamada Factor. La base de este
procedimiento consiste en estudiar si el Factor influye sobre la Variable
Respuesta, y la forma de hacerlo es analizando como varan los datos dentro
de cada uno de los grupos en que clasifica el Factor a la observaciones de
la Variable Respuesta.
Ejemplo 5.1. Supongamos que estamos interesados en conocer si existen
diferencias significativas entre el tiempo diario de dedicacin a la
investigacin de los profesores, en funcin de la categora que tienen. Para
ello, elegiremos las siguientes opciones desde el men principal:

y con esto se abre un cuadro de dilogo con los siguientes campos:


Dependientes: en este campo se introduce la variable respuesta a
analizar. En el Ejemplo 5.1 sera Tinvest (tiempo diario para la
investigacin).
Factor: aqu se introduce la variable de clasificacin, que ha de ser
categrica. Para el ejemplo, se considera la Categora de los profesores.
Adems de los campos anteriores existen tres botones cuya utilidad es la
siguiente:
CONTRASTES. Con este botn se trata de averiguar si los valores
promedios de la variable dependiente para cada nivel del factor, siguen
o no alguna tendencia determinada, lineal, cuadrtica, cbica, de grado
4 5. Adems de poder realizar cualquier tipo de comparacin a priori,
entre las medias de la variable respuesta para los niveles del factor que

se elijan. Permite realizar hasta 10 contrastes diferentes, con 50


coeficientes en cada uno de ellos. Para excluir algn grupo se le asigna
el coeficiente 0.
POST HOC. Este tiene como finalidad averiguar cul o cules de los
diferentes grupos o niveles del factor son los que difieren entre s, a
travs de una serie de pruebas diferentes (Contrastes a posteriori).
OPCIONES. Este botn permite mostrar una serie de estadsticos
descriptivos para cada grupo de la muestra o nivel del factor, el test de
Levene para comprobar la homogeneidad de varianzas entre los
distintos grupos, un grfico de las medias de cada grupo y la forma de
tratar los valores perdidos.
Ejecutamos el procedimiento con las variables indicadas anteriormente y
elegimos dentro de OPCIONES la prueba de homogeneidad de varianzas,
obtenindose los siguientes resultados.

Tabla 5: Anlisis de la Varianza con 1 Factor

ANOVA de un factor

Prueba de homogeneidad de varianzas


Tiempo diario para la investigacin
Estadstico
de Levene gl1 gl2
1,713

Sig.

74 0,142

ANOVA
Tiempo diario para la investigacin
Suma de
cuadrados

Media
gl cuadrtica

Sig.

Inter-grupos 190239,152 5 38047,830 47,177 ,000


Intra-grupos 59680,480 74
Total

806,493

249919,632 79

En la Tabla 5 aparecen los resultados sobre la homogeneidad de varianzas y el


Anova. Como se puede apreciar en la homogeneidad de varianzas, el p-valor

es de 0.142 que es mayor que 0.05, luego podemos aceptar la igualdad de


varianzas entre los grupos. Mientras que en el Anova, podemos ver que el
estadstico es bastante grande 47.177 y el p-valor vale 0, lo que nos conduce a
rechazar el que los tiempos medios dedicados a la investigacin sean iguales
segn la categora que tiene el profesor.
Example 5.2. Puesto que el anlisis ha dado significativo, veamos cules de
los niveles del factor difieren entre s. Para ello, volvemos a entrar en el
procedimientoAnova de un factor, y con las mismas variables seleccionadas
pulsamos en el botn POST HOC. Se muestra a continuacin otro cuadro
donde aparece una serie de posibles constrastes a posteriori. Supuestas las
varianzas iguales, estn el de Bonferroni, Scheffe, Tuckey, Duncan, etc., y
entre los que se asume varianzas distintas el T2 de Tamnhane, el T3 de
Dunnett, etc. Elegimos el test de Tuckey y pulsamos CONTINUAR y
ACEPTAR.
Los resultados obtenidos indican que los tiempos medios dedicados a la
investigacin para los catedrticos de escuela, los titulares de universidad y
los titulares de escuela se pueden considerar iguales, y por otro lado, tambin
ocurre lo mismo con los de los profesores asociados y los de los ayudantes.

5.2 Anlisis de la Varianza Multifactorial


El procedimiento Modelo Lineal General Univariante proporciona un Anlisis
de Regresin y un Anlisis de la Varianza para una variable dependiente
(respuesta) con uno o ms factores, o covariables. Los factores dividen la
poblacin en grupos. Con este procedimiento se pueden investigar las
interacciones entre los factores, as como los efectos de los factores
individuales, algunos de los cuales pueden ser aleatorios. Adems se pueden
incluir los efectos de las covariables y las interacciones de las covariables con
los factores. Para el Anlisis de Regresin, las variables independientes
(predictoras) se especifican como covariables.
Se consideran tanto los modelos balanceados como los que no. Esto es, un
diseo es balanceado si cada casilla del modelo contiene el mismo nmero de
casos. Adems de contrastar las hiptesis el procedimiento MLGU genera las
estimaciones de los parmetros.
Tambin estn disponibles en esta opcin los contrastes a priori de uso ms
habitual. Por otra parte, si en el anlisis de la varianza global la F ha mostrado

cierta significacin, se pueden emplear las pruebas Post Hoc para evaluar las
diferencias entre las medias especificadas. Las medias marginales estimadas
ofrecen estimaciones de los valores de las medias pronosticadas para las
casillas del modelo; los Grficos de Perfil de estas medias (grficos de
interacciones) permiten observar fcilmente algunas de las relaciones entre los
factores.
Calcula los residuos, valores pronosticados, distancia de Cook, y valores de
influencia como variables nuevas para comprobar los supuestos, informacin
toda ella que permite guardar en un archivo de datos.
Para seleccionar este procedimiento elegimos de forma seguida las siguientes
opciones desde el men principal:

Entonces se abre un cuadro de dilogo con una serie de campos y botones.


Entre los campos nos encontramos con:
Dependientes: se recoge aqu la variable respuesta que se desea
analizar.
Factores Fijos: se introducen aquellos factores cuyos efectos de los
niveles se quieren estudiar de manera precisa.
Factores Aleatorios: en este campo se colocan aquellos factores donde
se selecciona de forma aleatoria los niveles a estudiar, y luego se
extrapolan los resultados al resto.
Covariables: se introducen las covariables, esto es, aquellas otras
variables que guardan relacin con la variable respuesta y estn
medidas como la misma, en escala de intervalo o de razn.
Ponderacin MCP: permite especificar una variable para ponderar las
observaciones de forma diferente en un anlisis de mnimos cuadrados

ponderados (MCP). Esto se suele hacer para compensar la distinta


precisin de las medidas.
En cuanto a los botones, se tienen los siguientes:
a) MODELO. Este botn esconde un cuadro con las siguientes opciones:
Especificar modelo. Por defecto est activa la opcin Factorial Completo, la
cual considera los efectos principales de todos los factores, los efectos
principales de todas las covariables y todas las interacciones entre los factores.
No contempla las interacciones entre las covariables, ni de los factores con las
covariables. Para especificar un determinado conjunto de interacciones se ha
de seleccionar el campo Personalizado. En este caso se activan los campos:
Factores y Covariables: muestra una lista de los factores y las covariables,
etiquetando con F a los factores fijos, con C a las covariables y con R a los
factores aleatorios.
Modelo: depende de la naturaleza de los datos. Aqu mediante el
campo Construir trmino, se pueden elegir los efectos principales y las
interacciones que sean de inters en el anlisis, y que se quieren contemplar en
el modelo.
Suma de Cuadrados. Aqu se indica el mtodo para calcular las sumas de
cuadrados, que por defecto es el Tipo III. Los otros tipos de sumas de
cuadrados se utilizan segn sea un modelo balanceado o no, anidado o no, con
o sin categoras o combinacin de categoras vacas. As por ejemplo, si para
alguna combinacin de niveles el grupo est vaco se recomienda utilizar la
suma de cuadrados Tipo IV.
Incluir la interseccin en el modelo. La interseccin se incluye normalmente
en el modelo. Si se supone que los datos pasan por el origen se puede excluir
sta.
b) CONTRASTES. Este botn se usa para contrastar las diferencias entre los
niveles de un factor. A los contrastes de este tipo se les denomina Contrastes
Planificados o a Priori. Se puede especificar un contraste para cada factor en

el modelo. Los contrastes representan las combinaciones lineales de los


parmetros.

El contraste de hiptesis se basa en la hiptesis nula


, donde es
la matriz de coeficientes del contraste y es el vector de parmetros. Cuando
se especifica un contraste, el SPSS crea una matriz en la que las columnas
correspondientes al factor coinciden con el contraste. El resto de las columnas
se corrigen para que la matriz sea estimable.
Los contrastes disponibles son:
Desviacin. Compara las medias de los distintos niveles del factor,
excepto la media de la categora de referencia, con la media global de la
variable dependiente de todos los niveles.
Simples. Compara la media de cada nivel, excepto la del nivel de
referencia con la media del nivel de referencia.
Diferencia. Compara la media de cada nivel (excepto la del primero)
con la media de todos los niveles que le preceden.
Helmet. Compara la media de cada nivel (excepto la del ltimo) con la
media del resto de los niveles que le siguen.
Repetida. Se compara la media de cada nivel del factor con la media del
nivel que le precede.
Polinomial. Cada fator es contrastado a travs de un polinomio lineal,
cuadrtico, cbico, etc.
En los contrastes de desviacin y contrastes simples, se puede determinar la
categora de referencia pudiendo ser la primera o la ltima.
c) GRFICOS DE PERFIL. Son grficos de lneas en el que cada punto indica
la media marginal estimada de una variable dependiente (corregida respecto a
las covariables) en un nivel de un factor. Los niveles de un segundo factor se
pueden utilizar para generar lneas diferentes, mientras que cada nivel de un
tercer factor se utilizara para crear grficos distintos. Permiten visualizar la
posible interaccin entre factores. Si las lneas en el grfico se cruzan existe
interaccin, si por el contrario, las lneas son paralelas no la hay. Tambin con
ellos, se puede observar la tendencia de los valores promedios de la variable
dependiente para los distintos niveles de cada factor.
Una vez se ha elegido los factores a representar, se debe pulsar el botn

AADIR para incluirlos en la lista de grficos. En caso contrario, el sistema


muestra un aviso.
d) POST HOC. Tras saber que existen diferencias entre las medias, las pruebas
de rango Post Hoc y las comparaciones mltiples por parejas permiten
determinar las medias que difieren. Las comparaciones se realizan sobre
valores sin corregir, y slo se utilizan tales pruebas para factores de efectos
fijos.
e) GUARDAR. Este botn nos abre un cuadro que nos permite guardar los
valores pronosticados por el modelo, los residuos y las medidas relacionadas
como variables nuevas en el editor de datos. Muchas veces, estas variables se
pueden utilizar para examinar supuestos sobre los datos. Dentro de este cuadro
se tiene:
Valores pronosticados: nos referimos a los pronosticados no tipificados y los
errores tipificados de los valores pronosticados. Si ha seleccionado una
variable de ponderacin MCP, dispondr as mismo de los valores
pronosticados no tipificados ponderados.
Diagnsticos: son medidas para identificar casos con combinaciones pocos
usuales de valores para las variables independientes, y casos que puedan tener
un gran impacto en el modelo. Las opciones disponibles incluyen la distancia
de Cook y los valores de influencia no centrados.
Residuos: un residuo no tipificado es el valor real de la variable dependiente
menos el valor pronosticado por el modelo. Tambin se encuentran
disponibles residuos eliminados, estudentizados y tipificados. Si ha
seleccionado una variable de ponderacin MCP, contar adems con residuos
no tipificados ponderados.
Guardar en archivo nuevo: las estimaciones del modelo. Para cada variable
dependiente habr una fila de las estimaciones de los parmetros, una fila de
valores de significacin para los estadsticos t de Student correspondientes a
las estimaciones de los parmetros, y una fila de grados de libertad.
f) OPCIONES. El cuadro de dilogo que se abre al pulsar este botn contiene

estadsticos opcionales. Tales estadsticos se calculan utilizando un modelo de


efectos fijos.
- Medias marginales estimadas. Se trata de las medias marginales para cada
grupo. Estas medias se corrigen respecto a las covariables, si las hay.
Comparar los efectos principales: lleva a cabo comparaciones por parejas
no corregidas, entre las medias marginales estimadas para cualquier efecto
principal del modelo, tanto para los factores entre sujetos como para los de
dentro de los sujetos. Este elemento slo se encuentra disponible si los efectos
principales estn seleccionados en la lista de Mostrar las medias para.
Ajuste del Intervalo de Confianza: nos permite seleccionar un ajuste de
menor diferencia significativa (DMS), Bonferroni o Sidak para los intervalos
de confianza y la significacin. Este elemento slo estar disponible si se
selecciona Comparar los efectos principales.
- Mostrar. Dentro de este cuadro se recogen las siguientes opciones:
Estadsticos Descriptivos: entre los que se encuentran medias muestrales,
desviaciones tpicas y frecuencias para cada variable dependiente en todos los
grupos.
Estimaciones del tamao del efecto: ofrece un valor parcial de eta-cuadrado
para cada efecto y cada estimacin de los parmetros. El estadstico etacuadrado describe la proporcin de variabilidad total atribuible a un factor.
Potencia observada: produce la potencia de la prueba cuando la hiptesis
alternativa se ha establecido basndose en el valor observado.
Estimaciones de los parmetros: genera las estimaciones de los parmetros,
los errores tpicos, las pruebas t de Student donde se contrastan los parmetros
con el valor 0, los intervalos de confianza y la potencia observada de la
prueba.
Matriz de coeficientes de contraste: con ella se obtiene la matriz

Las pruebas de homogeneidad: realiza el test de Levene para contrastar la


igualdad de varianzas para cada variable dependiente en todas las
combinaciones de niveles de los factores entre sujetos.
Diagramas de dispersin por nivel y Grfico de los residuos: son tiles para
comprobar los supuestos sobre los datos. Estos elementos no estn activos si
no hay factores.
Grficos de los residuos: produce un grfico de los residuos observados
respecto a los pronosticados, y respecto a los tipificados para cada variable
dependiente. Estos grficos son tiles para investigar el supuesto de varianzas
iguales.
Falta de ajuste: para comprobar si el modelo puede describir de forma
adecuada la relacin entre la variable dependiente y las variables
independientes.
Funcin estimable general: permite construir pruebas de hiptesis personales
basadas en la funcin estimable general. Las filas en las matrices de
coeficientes de contraste son combinaciones lineales de la funcin estimable
general.
- Nivel de significacin. Para indicar el nivel de significacin usado en las
pruebas Post Hoc y el nivel de confianza empleado para construir intervalos
de confianza. El valor especificado tambin se utiliza para calcular la potencia
observada para la prueba. Si especifica un nivel de significacin, el cuadro de
dilogo mostrar el nivel asociado de los intervalos de confianza.
Ejemplo 5.3. Veamos la influencia sobre el tiempo dedicado a la docencia
(variable respuesta) de los factores Categora y Nmero de Asignaturas que
imparte el profesor. Para ello seleccionamos:

Entonces se abre el cuadro de dilogo en el que se introduce la variable


Tiemdoc como Variable Dependiente, y las variables Categora y Numasig
como Factores de Efectos Fijos.
A continuacin seleccionamos el botn GRFICOS y elegimos las variables
Categora para el Eje horizontal y Numasig para Lneas distintas.
Presionamos AADIRy CONTINUAR para volver al cuadro principal. Con esto
podemos ver si existe o no interaccin.
Pulsamos tambin el botn OPCIONES y elegimos la Prueba de
Homogeneidad y el Grfico de los Residuos.
Volviendo al cuadro principal, pulsamos el botn de ACEPTAR para ejecutar el
procedimiento. Con ello se obtienen tres tablas:
- En la primera se muestra un simple resumen del nmero de profesores de
cada categora y del nmero de profesores segn el nmero de asignaturas que
imparte.
- La segunda tabla se refiere al constraste de Levene sobre la igualdad de
varianzas, cuyo resultado aparece en la Tabla 6. Como se puede ver, el p-valor
0.003 es menor que 0.05, luego se rechaza que las varianzas sean iguales.

Tabla 6: Contraste de Homogeneidad de Varianzas


Contraste de Levene sobre la igualdad de las varianzas error
Variable dependiente: Tiempo diario para la docencia

gl1 gl2 Significacin.

2,737 15 64

0,003

Contrasta la hiptesis nula de que la varianza error de la variable dependiente es igual a


lo largo de todos los grupos.
a.Diseo: Intercept + Categora + Numasig + Categora*Numasig

- La ltima tabla que muestra 7 recoge el Anova. En ella, los p-valores son
todos menores que 0.05, salvo el de la interaccin que es de 0.685. Esto quiere
decir, que tanto la categora del profesor como el nmero de asignaturas que
imparte influyen en el tiempo que dedica a la docencia, pero la interaccin no.
El sistema tambin muestra el R cuadrado que vale en este caso, 0.789, lo que
indica que el 78.9% del tiempo dedicado a la docencia por los profesores es
explicado por el modelo.

Tabla 7: Anlisis de la Varianza con Dos Factores


Pruebas de los efectos inter-sujetos
Variable dependiente: Tiempo diario para la docencia

Suma de
cuadrados
Fuente

tipo III

Modelo corregido

Media
gl cuadrtica
15

Intercept

1305242,259

Categora

8670,273

Significacin

16,890

,000

1 1305242,26 2542,707

,000

21788,020

4357,604

8,489

,000

Numasig

8343,455

2085,864

4,063

,005

Categora *

2022,901

337,150

,657

,685

32852,977

64

513,328

Numasig
Error
Total

3785312,102 80

Total Corregida

162907,072

79

. R cuadrado =,789 (R cuadrado corregida = ,751)

Dentro de los resultados tambin se encuentran los siguientes grficos. El


Grfico de los Residuos que muestra la Figura 7 y el Grfico de Perfil que
recoge la Figura8. A partir del Grfico de los Residuos se puede concluir que
el modelo es relativamente bueno, ya que el grfico de observados frente a
pronosticados tiene una tendencia a estar sobre una recta creciente. Mientras
que en los grficos de los residuos frente a observados, y residuos frente a
pronosticados, los puntos estn al azar sin haber un patrn definido. Tal vez un
poco menos en el grfico de residuos frente a observados.
En el Grfico de Perfil, se puede apreciar que existe cierta interaccin entre
los factores, ya que las rectas no son paralelas, y algunas se intersectan.
Ya que el Anova nos da que los tiempos medios difieren, podemos saber que
grupos tienen medias iguales o distintas. Para ello, entramos de nuevo en el
procedimiento MLGU y con las mismas variables seleccionadas, pulsamos el
botn POST HOC. Entonces elegimos la variable Categora y el Test de
Duncan. Tras esto, el sistema mostrar dos tablas: en la primera de ellas se
muestra las diferencias de medias, el error tpico de tal diferencia, el p-valor
para el contraste de cada par de medias y el intervalo de confianza. Mientras
que en la segunda se recogen los subconjuntos homogneos.
Las conclusiones que se obtienen es que hay dos grupos homogneos, en
cuanto al tiempo medio dedicado a la docencia, el de profesores ayudante y
asociados; y el de titulares de universidad, de escuela y catedrticos de
escuela.

Figura 7: Grfico de los Residuos


Figura 8: Grfico de Perfil