Está en la página 1de 24

Comprobacin de supuestos para estadstica

multivariada en SPSS
Felipe Ruiz
Carolina Garca
Ayudanta Estadstica IV 2015.

Aspectos previos:
Trabajaremos con el archivo Ejemplo Supuestos (SPSS) en formato .SAV,
disponible para descargar desde U-Cursos. Es una base de datos que contiene
seis variables especialmente preparada para la sesin de ayudanta.

Normalidad Univariante:
Para comprobar normalidad univariante podemos observar, en primer lugar, el
histograma de nuestras variables para ver de forma grfica como se comporta
la variable. Para eso vamos a ir a Analizar, Estadsticos Descriptivos,
Frecuencias e ingresar los tres ndices que utlizaremos para el anlisis.

Vamos a Grficos y le pedimos Histogramas


histograma.

y mostrar curva normal en el

Obtendremos los siguientes grficos:

Tenemos una primera evidencia de la no normalidad de nuestras variables.


Adems, existen dos tests estadstico para corroborar normalidad univariada y
cuyo uso es limitado segn el tamao muestral:

Shapiro-Wilks: para tamaos muestrales que van entre 0 y 50 casos.

Kolmogorov-Smirnov: para tamaos muestrales que oscilan entre 50 y


1000 casos.

Estos test nos dicen que si el la significacin estadstica (el valor p) es mayor
o igual a 0,05 (si estamos trabajando con tal lmite), la distribucin muestral
de la curva terica y la distribucin muestral de los datos observados se
asemejan con una significacin estadstica que se encuentra dentro de los
mrgenes de error aceptables (ergo, la distribucin de datos observada, puede
ser considerada como normal segn un margen de confianza).
Como tenemos 200 casos empleamos el test K-S:

En el siguiente cuadro de dilogo ingresamos todas nuestras variables en


anlisis en el cuadro Lista Contrastar variables; en Distribucin de contraste
nos aseguramos de que est marcada la opcin Normal:

En los resultados nos interesa el grfico titulado Prueba de Kolmorov-Smirnov


para una muestra; nos muestra el valor del estadstico y su significacin,
mediante la cual podemos determinar si la variable se distribuye o no de

acuerdo a una distribucin normal. En este caso, la significacin estadsitica del


test, para cada variable, es menor a 0,05, por lo que podemos asumir que
ninguna se distribuye normalmente.
Prueba de Kolmogorov-Smirnov para una muestra
SAT
N

CLAB

CONFLIC

200

200

200

Media

3,121

2,9221

2,9480

Desviacin tpica

,7185

1,00565

1,03213

Absoluta

,203

,140

,141

Positiva

,117

,140

,141

Negativa

-,203

-,070

-,070

2,877

1,977

2,001

,000

,001

,001

Parmetros normalesa,b

Diferencias ms extremas

Z de Kolmogorov-Smirnov
Sig. asintt. (bilateral)

Aunque no es el caso, debido a nuestro tamao muestral, explicaremos como


obtener el estadstico de Shapiro-Wilks, que utilizaremos con muestras
pequeas (50 o menos casos) y cmo obtener los valores de simetra y curtosis
que nos servirn para el caso de muestras grandes (ms de 1.000 casos). Esta
opcin nos entrega tanto los valores de simetra y curtosis, los valores de la
prueba Kolmogorov-Smirnov como los valores de Shapiro-Wilks.

En este caso, ingresaremos slo una de nuestras variables de inters.

En la opcin Estadsticos, marcamos la opcin Descriptivos y podemos tambin


establecer el intervalo de confianza deseado:

En la opcin Grficos, marcamos la opcin Grficos con pruebas de normalidad


(ojo que aqu no estamos solicitando los histogramas con la curva normal, sino
los test K-S Y S-W), des seleccionamos lo que est marcado en Descriptivos y
dejamos el resto por defecto:

En los resultados nos interesan dos tablas:

En primer lugar aquella titulada Descriptivos, que nos indica los valores de
simetra y curtosis.
Descriptivos
Estadstico
Media

3,121
Lmite inferior

3,020

Lmite superior

3,221

Error tp.
,0508

Intervalo de confianza para la media al 95%

SAT

Media recortada al 5%

3,140

Mediana

3,100

Varianza

,516

Desv. tp.

,7185

Mnimo

1,0

Mximo

5,0

Rango

4,0

Amplitud intercuartil

,5

Asimetra

-,506

,172

Curtosis

1,561

,342

En este caso, el valor de la simetra es 0,56. Empleando la siguiente frmula


podemos calcular el valor del Z de simetra y determinar si respecto a tal valor
la variable distribuye o no normalmente. La idea es que si nos da entre el
intervalo de confianza especificado ( +- 1,96), la variable distribuye
normalmente:

Zsimetra=

Simetra

6
n

3,233=

0,56

6
200

Tambin es posible calcular el Z de curtosis empleando la siguiente ecuacin:

Zcurtosis=

Curtosis
24
n

En segundo lugar, nos interesa la tabla Pruebas de normalidad, donde


podemos acceder a los valores del test Kolmogorov-Smirnov y Shapiro-Wilks (la
forma para interpretarlos est explicada ms arriba):
Pruebas de normalidad
Kolmogorov-Smirnova
Estadstico
SAT

gl
,203

Shapiro-Wilk
Sig.

200

,000

Estadstico

gl
,926

Sig.
200

,000

Colinealidad
Para evaluar la colinealidad en su dimensin bivariada, podemos hacer en
primer lugar una inspeccin grfica de la relacin entre dos variables. Para ello
podemos pedir una matriz grfica que nos entregue todas las correlaciones
posible y que puede indicarnos de modo preliminar si existee colinealidad entre
nuestras variables.

Una vez marcada la opcin dispersion/Puntos, nos va a abrir un cuadro de


dilogo y vamos a pedir una Dispersin Matricial.
Una vez abierta la ventana de la dispersin matricial, ingresamos los ndices
como variables de la matriz, vamos a Opciones y seleccionamos excluir casos
variables por variable.

Continuamos y obtenemos la sifuiente matriz:

Esta matriz de colinealidad permite evidenciar ya cierta linealidad en la


relacin entre las variables; siendo muy alta para el caso de la relacin etre
condiciones laborales y conflictividad.
Tambin podemos pedir una matriz de correlacin, empleando la correlacin de
Pearson, para evaluar que tan fuerte es la correlacin entre las variables.
Recordar que Pearson es un coeficiente paramtrico, por lo que requiere que
estemos trabajando con variables de numricas y con distribucin normal. De
no cumplir con estos requisitos, esto debe ser evidenciado a la hora de
interpretar el estadstico.
Para obtener el estadstico vamos a Analizar, Correlaciones, Bivariadas.

En el cuadro de dilogo se ingresan todas las variables a analizar; se marca la


opcin Pearson en el apartado Coeficientes de correlacin. El resto se deja por
defecto.

En la matriz de correlaciones obtenida, como era esperable dada la grfica


observada, podemos observar coeficientes que nos indican la presencia de un
alto grado de correlacin entre las variables (coeficientes mayores al valor
absoluto 0,5).
Correlaciones
SAT
SAT

Correlacin de Pearson
Sig. (bilateral)

CLAB
1

CONFLIC

-,839**

-,805**

,000

,000

N
Correlacin de Pearson
CLAB

Sig. (bilateral)
N
Correlacin de Pearson

CONFLIC

Sig. (bilateral)
N

200

200

200

-,839**

,893**

,000

,000

200

200

200

-,805**

,893**

,000

,000

200

200

200

Multicolinealidad
Para evaluar la multicolinealidad, es decir, para evaluar la relacin lineal entre
las variables en su dimensin multivariante, ocuparemos una regresin lineal.

En el cuadro de dilogo ingresamos las variables. Si no tenemos una variable


independiente, podemos ingresar cualquier otra numrica (aunque no forme
parte de nuestro anlisis) con la condicin de que sea independiente de
nuestro objeto de estudio (la variable folio incluida en la mayor parte de los
estudios sirve para ello). Todas las variables de inters las ingresamos como
dependientes.

.
En la opcin estadsticos, pedimos los diagnsticos de colinealidad, para
comprobar la independencia de las variables dependientes.

Nos interesa la ltima tabla de los resultados, titulada Diagnsticos de


Colinealidad. Interesa el ndice de condicin en la ltima fila del modelo.
Diagnsticos de colinealidada
Modelo

Dimensin

Autovalores

ndice de condicin

Proporciones de la varianza
(Constante)

SAT

CLAB

CONFLIC

3,788

1,000

,00

,00

,00

,00

,196

4,392

,00

,04

,02

,02

,012

18,076

,00

,01

,68

,94

,004

31,614

,99

,96

,30

,04

De 0 a 10 las variables multicolineada es baja.


Entre 10 y 30 tenemos una multicolineadad moderada.
Sobre 30 tenemos una multicolinealidad alta.

En tal medida, los valores del ndice de condicin, para el grupo de tres
variables estudiadas, indica que existe una relacin lineal alta entre las
variables en su dimensin multivariante.

Homocedasticidad
La homocedasticidad es un suepuesto de la estadstica paramtrica y refiere a
la homogeneidad de varianzas en las poblaciones estudiadas. Para su anlisis,
se require establecer relaciones de dependencia y trabajar con variables
normales. Como vimos anteriormente, nuestras variables no cumplen el
supuesto de normalidad, pero haremos igual el ejercicio para aprender como
funciona.
Para ver la relacin de las varianzas de dos variables mtricas podemos ocupar
test grficos de igual dispersin de varianzas. La aplicacin de esta forma de
evaluacin se produce en la regresin mltiple, en relacin con la dispersin de
la variable dependiente a lo largo de las variables independientes mtricas.

Seleccionamos regresin lineal e ingresamos nuestras variables. La variable


satisfaccin entrara como la dependiente, y las condiciones laborales y la
conflictividad como las independientes, de acuerdo a los antescedentes de la
investigacin.

Vamos a la opcin Grficos y le pedimos generar todos los grficos parciales.

Nos arrojar los siguientes grficos:

distribuciones esperadas de para


heterocedastica son las siguientes:

una

distribucin

Las
homocedastica

Podemos concluir preeliminarmente que no hay homocedasticidad en la


dispersin de nuestra variable dependiente a los largo de nuestras variables
independientes, lo que puede explicarse en parte por la no normalidad de
nuestras variables.
El test estadstico para ver la dispersin de la varianza de una variables en
distintos grupos es el test de Levene. Este suele utilizarse para ver si las
varianzas de las variables mtricas son iguales o varin a lo largo de cualquier
cantidad de grupos.
Para ello vamos a Analizar, Comparar medias, Anova de una factor e
ingresaremos nuestros ndices como variables dependientes y la variable
Tramos de Edad como factor (independiente). Esta variable generar los
grupos que sevirn para ver como se comporta la varianza de cada una de
nuestras variables en los distintos grupos tareos; es decir, verificar si, en
relacin a los tramos de edad, los grupos poseen homocedasticidad (igualdad
de varianza) o heterocedasticidad (la varianza no es constante a lo lago de los
grupos).

En Opciones marcarmos Pruebas de homogeneidad de varianzas.

Y obtenemos como resultado la siguiente tabla:

Dado que nuestra hiptesis nula es que las varianzas de los grupos son iguales,
si buscamos homocedasticidad, requerimos una valor de significacin mayor a
0,05, a un nivel de confianza del 95%. En este caso, de acuerdo a los
resultados obtenidos, slo el Indice de Conflictividad generara grupos con
varianzas homogeneas. Sin embargo, estos resultados no son vlidos porque
nuestras variables no poseen normalidad univariante.
Si queremos evaluar la homocedasticidad multivariable de nuestras variables
mtricas utilizamos el estadsitico M de Box. En SPSS, la nica forma de
solicitar esta prueba es a travs del modelo de discriminante, el que ser
revisado en detalle ms adelante.

Deteccin multivariante de casos atpicos


Haremos un mtodo de deteccin de casos atpicos utilizando la D2 (distancia)
de Mahalanobis; a tales valores se les aplica una prueba de significacin
estadstica: si la significacin estadstica es menor a 0,001 lo consideraremos
como un caso atpico.1
Para obtener la distancia de Mahalanobis debemos realizar una regresin
lineal. Para
el modelo necesitamos agregar una variable dependiente. Se
agrega la variable FOLIO (no nos interesa la regresin por s misma, sino por la
D2 de Mahalanobis). Utilizaremos esta variable para ejemplificar en este caso,
ya que Mahalanobis no requiere relaciones de dependencia.

1 Recordar que en clase fue revisado el mtodo de anlisis de Residuos


estandarizados para la deteccin de casos atpicos.

En la opcin guardar, le pedimos solamente la distancia de Mahalanobis, todo


lo dems queda sin marcar.

Respecto a esta operacin, no nos interesan las salidas; slo interesa que cre
una variable con la medicin mtrica de las distancias por variable.

A tal variable nueva, debemos aplicar una prueba de significacin estadstica.


Vamos a calcular variable y aplicamos una significacin estadstica chi
cuadrado, con 3 grados de libertad 2.

En Grupo de Funciones pulsamos Significacin, en Funciones y variables


especiales hacemos doble clic sobre Sig.Chisq, lo que pone tal comando como
primer elemento en la Expresin Numrica. Luego hacemos doble clic sobre la
variable Mahalanobis Distance, y la ingresamos al parntesis de la funcin;
inmediatamente luego de la variable dentro del parntesis, agregamos una
coma y un 3 (el nmero de grados de libertad). En Variable de destino
2 Los grados de libertad corresponden al nmero de variables independientes con el
que se calcul la distancia de Mahalanobis, en este caso eran tres variables.

tipeamos SignificacinMalaha que ser el nombre de la nueva variable creada.


Pulsamos aceptar/pegar.
Nuevamente no nos interesan los resultados del anlisis, sino que se cre una
nueva variable con la significacin estadstica para cada distancia de
Mahalanobis.

Ordenamos los casos de la variable recin creada de modo ascendente, para


evaluar cules y cuantos casos quedan fuera.

Recordemos que si la significacin estadstica es menor a 0,001 el caso ser


considerado como un caso atpico. En este ejemplo, podemos observar que
solamente los tres primeros casos presentan una significacin menor a 0,001,
por lo que solamente tres casos podran ser considerados atpicos en la
dimensin multivariante.

Para eliminarlos de la base, basta con mantener seleccionados los tres casos,
presionar el botn derecho y oprimir borrar.

Marzo 2015.