Clase 4 - Supuestos Del Am

ANÁLISIS EXPLORATORIO
Y TRATAMIENTO PREVIO
DE DATOS (3)
1
COMPROBACIÓN DE SUPUESTOS (1)
Cada técnica multivariante exige en mayor o menor grado el cumplimiento

de supuestos estadísticos. En cada caso se verán los supuestos implicados;
sin embargo, dada su importancia, en esta presentación se analizarán de
manera general cuatro de los supuestos más importantes en el Análisis
Multivariante:
1) Normalidad uni y multivariante

2) Homocedasticidad
3) Linealidad
4) Independencia de las observaciones
2
COMPROBACIÓN DE SUPUESTOS:
NORMALIDAD ( 2 )
El supuesto de normalidad se justifica en muchas técnicas ya que

está detrás de la confianza que podamos tener en los resultados de
test o pruebas de hipótesis estadísticas. Varios autores han
reconocido que, si bien el incumplimiento del supuesto de
normalidad no afecta demasiado al error tipo I, si que tiene un
importante efecto sobre el error tipo II.
Por lo general las técnicas multivariantes requieren la existencia de
normalidad multivariante, aunque es recomendable primero
indagar la existencia de normalidad univariante, por varias razones,
entre ellas:
3
COMPROBACIÓN DE SUPUESTOS:
NORMALIDAD ( 3 )
1) Para entender los contrastes multivariantes es mejor entender

primero los contrastes univariantes de normalidad
2) Resulta muy poco probable que, siendo todas las variables
univariantemente normales, no lo sean multivariantemente
3) Si la distribución no es multivariante normal, debemos
determinar que variables generan el problema mediante
contrastes de normalidad univariantes.
4
COMPROBACIÓN DE SUPUESTOS: NORMALIDAD ( 4 )
•
ANÁLISIS UNIVARIANTE DE NORMALIDAD
Primero se analiza la asimetría y la
curtosis: en una distribución normal
tipificada, los valores de asimetría y
curtosis son 0 (la curtosis es 3, pero los
paquetes suelen restar este valor). Para
contrastar si el coeficiente de asimetría (A)
o el de curtosis (C) es o no
estadísticamente diferente de cero, se
calcula la probabilidad de que sus valores
estandarizados y , que se distribuyen
según una , difieran de la normal según un
nivel se significancia preestablecido.
5
•
Es decir, se calcula
Donde y son las desviaciones estándar de los coeficientes de asimetría y

curtosis. Se rechaza la hipótesis nula de normalidad si los valores estandarizados
en valor absoluto , al 5% de significancia, o si usamos un 1%.
Un problema que se puede dar con este procedimiento es que resulta muy
sensible para detectar desviaciones de la normalidad cuando se tiene una muestra
grande (200 o más). En estos casos siempre es bueno analizar la gráfica de la
distribución
6
COMPROBACIÓN DE SUPUESTOS: NORMALIDAD (6)
•
Un test muy utilizado para analizar la normalidad de las perturbaciones de un
modelo de regresión es el test de Jarque-Bera, cuyo estadístico de prueba es el
siguiente
El estadístico JB sigue asintóticamente una distribución con 2 grados de

libertad. Los coeficientes de asimetría y curtosis se calculan de la siguiente
forma
y
Donde y son las estimaciones del tercer y cuarto momento centrales, es la
desviación estándar estimada y es el tamaño de la muestra
7
•ANÁLISIS
UNIVARIANTE DE NORMALIDAD
Una alternativa para analizar la normalidad de una distribución es el gráfico de
simetría. La idea es que mientras los puntos se aproximen más a una recta de
referencia, definida como , la distribución se ajustará más a una distribución
simétrica, como lo es la normal. La lógica de la gráfica es la siguiente: la variable
tendrá una distribución simétrica si
Donde indica el valor de correspondiente a la i-ésima posición. Se grafica

contra . Los puntos por arriba de la línea de referencia indican que
8
En el gráfico de la izquierda, los puntos por arriba de la línea de referencia indican que la variable tiene una
distribución con sesgo a la derecha, mientras que en el gráfico de la derecha se observa una gran simetría en la
distribución.
precio_miles variable simétr

1500
4
rriba de la mediana
rriba de la midiana
3
1000
2
•ANÁLISIS
Otros gráficos para detectar la normalidad de una distribución, son los
siguientes:
1. El gráfico de probabilidad normal. Este presenta en el eje de las abscisas los
valores de la variable , y en el eje de las ordenadas las frecuencias relativas
acumuladas de dichos valores . La normalidad de los datos será perfecta
cuando el gráfico de los puntos coincida con una línea recta que representa el
modelo normal perfecto.
2. El gráfico q-q, muy recomendado por algunos expertos, grafica contra ,
donde , es la función de distribución normal estándar, . Los términos son la
desviación estándar y la media de los datos, respectivamente.
10
En esta diapositiva hemos puesto las gráficas q-q para las mismas variables que antes. Nuevamente, la gráfica de la
izquierda, muestra una distribución que difiere de a normal, ya que los puntos distan mucho de caer en la la línea de
referencia.
1500
4
1000
2
ariable normal
precio_miles
500
0
11
•ANÁLISIS
Dada cierta subjetividad en el análisis gráfico, es recomendable complementar el
análisis con pruebas estadísticas de normalidad. Estas pruebas están construidas
para detectar el ajuste que pueda tener una distribución empírica con una
distribución teórica de interés (en este caso la normal), siendo los contrastes más
habituales:
• para la bondad de ajuste
• Kolmogorov – Smirnov
• Shapiro – Wilks
Veremos la aplicación de este último en el taller de STATA, quedando los otros dos
como ejercicio.
12
•ANÁLISIS
Dada cierta subjetividad en el análisis gráfico, es recomendable complementar el
análisis con pruebas estadísticas de normalidad. Estas pruebas están construidas
para detectar el ajuste que pueda tener una distribución empírica con una
distribución teórica de interés (en este caso la normal), siendo los contrastes más
habituales:
• para la bondad de ajuste
• Kolmogorov – Smirnov
• Shapiro – Wilks
Veremos la aplicación de este último en el taller de STATA, quedando los otros dos
como ejercicio.
13
•ANÁLISIS
MULTIVARIANTE DE NORMALIDAD
Existen muy pocos contrastes de normalidad multivariante, siendo uno de los
más utilizados el método gráfico de , que es muy similar al gráfico q-q en su
construcción. Otros contrastes, como el de Doornik-Hansen los veremos en el
taller de STATA.
El proceso de construcción del gráfico tiene el siguiente proceso:
a. Se calculan las distancias de Mahalanobis para todas las variables cuya
normalidad multivariante se quiera contrastar, y se ordenan las distancias
Mahalanobis al cuadrado , de menor a mayor.
14
COMPROBACIÓN DE SUPUESTOS: NORMALIDAD ( 1 3 )
•ANÁLISIS
MULTIVARIANTE DE NORMALIDAD
b. Para cada distancia se calcula el percentil donde es el número de casos.
Algunos autores calculan el percentil como (este cálculo alternativo también
se puede aplicar en la construcción del gráfico q-q)
c. Se calculan los valores de los percentiles de una distribución con grados de
libertad, donde es el número de variables implicadas.
d. Se genera un gráfico de dispersión entre y los valores de . La relación debe
ser lineal (a aproximadamente lineal) si existe normalidad multivariante.
15
En la ilustración a la derecha se
muestra un ejemplo del gráfico
en referencia, realizado en SPSS,
aplicado a una muestra de 10
observaciones y 5 variables. De
acuerdo a este, los puntos caen
aproximadamente en una línea
recta. Una forma de formalizar
este resultado es calcular el
coeficiente de correlación entre
las variables relacionadas en la
figura y testear su significancia.
16
TRANSFORMACIONES PARA OBTENER NORMALIDAD

Si no se confirma la normalidad univariante o multivariante la solución
propuesta consiste en transformar los valores originales. El tipo de
transformación depende de la asimetría o curtosis que cause la no
normalidad.
Sin embargo, como ya se mencionó previamente, se debe tener precaución de
que la variable transformada pueda ser interpretable.
Las transformaciones más comunes se presentan en la siguiente tabla:
17
FORMA DE LA DISTRIBUCIÓN TRANSFORMACIÓN RECOMENDADA

SESGO POSITIVO MODERADO TRANSX =
SESGO
SESGO NEGATIVO
NEGATIVO MODERADO
MODERADO TRANSX =
SESGO
SESGO POSITIVO
POSITIVO SUSTANCIAL,
SUSTANCIAL, SIN
SIN CERO
CERO TRANSX =
SESGO
SESGO POSITIVO
POSITIVO SUSTANCIAL,
SUSTANCIAL, CON
CON CERO
CERO TRANSX =
SESGO
SESGO NEGATIVO
NEGATIVO SUSTANCIAL
SUSTANCIAL TRANSX =
SESGO
SESGO POSITIVO
POSITIVO EXTREMO
EXTREMO (FORMA
(FORMA DE
DE L)
L) TRANSX =
SESGO POSITIVO EXTREMO, CON CERO TRANSX =

SESGO POSITIVO EXTREMO, CON CERO
SESGO NEGATIVO EXTREMO (FORMA DE J) TRANSX =
DISTRIBUCIÓN
SESGO FORMA DE
NEGATIVO EXTREMO DOMODE J)
(FORMA TRANSX =
DISTRIBUCIÓN FORMA DE DOMO

18
COMPROBACIÓN DE SUPUESTOS: HOMOCEDASTICIDAD ( 1 7 )
La homocedasticidad debe definirse de manera distinta según estemos

trabajando con datos no agrupados (caso regresión lineal) o de datos
agrupados (caso ANOVA de un factor). En el primer caso, aplicada a una
regresión simple, la hipótesis de homocedasticidad se entiende como la
asunción de que la variabilidad de los valores de la variable dependiente (o lo
que es lo mismo, de la perturbación) se mantiene más o menos constante para
todos los valores de la variable explicativa. En el caso de datos agrupados, la
homocedasticidad implica que la varianza de la variable continua es más o
menos la misma en todos los grupos que forman la variable no métrica que
delimita los grupos.
19
Centrándonos en el segundo caso, el contraste puede ser univariante (se contrasta si

la varianza es la misma) o multivariante (se contrasta si las matrices de varianza -
covarianza son iguales).
La prueba de Levene es el contraste de homocedasticidad univariante más común,

que parte de la siguientes hipótesis
para al menos un par

Donde representa el número de grupos.
El estadístico de Levene , se calcula como:
20
COMPROBACIÓN DE SUPUESTOS: HOMOCEDASTICIDAD (19)
•
Donde:
; es la media del subgrupo ; son la medias de los distintos subgrupos de , y es la
media de para el conjunto de la muestra sin distinguir grupos. Si bien esta es la forma
estándar de calcular el estadístico , otros autores han demostrado que se mejora la
robustez usando la media recortada al 10% o la mediana en lugar de
Se rechaza la hipótesis nula si
21
•Por
supuesto existen otros test,
como el clásico test F para Summary of precio_miles
comparar varianzas de dos =1 if yes Mean Std. Dev. Freq.
poblaciones y su contraparte para
0 147.55379 107.06983 994
poblaciones, conocido como el test 1 239.34603 223.61827 86
de Bartlett, que se pueden usar para
este fin. Para terminar con la Total 154.86318 122.91281 1,080
homocedasticidad, mostramos la W0 = 43.069582 df(1, 1078) Pr > F = 0.00000000
salida de STATA para el test de
Levane, cuya hipótesis nula es que W50 = 24.613978 df(1, 1078) Pr > F = 0.00000081
las varianzas de la variable precio W10 = 29.218951 df(1, 1078) Pr > F = 0.00000008
de las viviendas (en miles) son
iguales entre las viviendas con
piscina y las que no tienen piscina. 22
COMPROBACIÓN DE SUPUESTOS: LINEALIDAD ( 2 1 )
En análisis más complejos se realizarán pruebas específicas de

linealidad de acuerdo a la técnica a usarse (Una de esas técnicas
se basa en la transformación de Box-Cox, vista previamente).
Por ahora vale mencionar que un análisis exploratorio de la
posible relación lineal entre pares de variables se basa en los
gráficos de dispersión bivariantes entre las variables de estudio,
junto a la matriz de correlaciones.
23
C O M P R O B A C I Ó N D E S U P U E S TO S : I N D E P E N D E N C I A D E L A S
O B S E RVA C I O N E S ( 2 2 )
Dos observaciones son independientes cuando los valores que toman las
variables de un primer caso, no se ven influidos por los valores que hayan
tomado en el otro caso. Su incumplmiento puede tener severas
consecuencias en los resultados que obtengamos de las técnicas
multivariantes en particular, y estadísticas en general.
El problema es que su origen suele estar en un mal diseño o control de la
investigación, por lo que la única solución efectiva para preservar el supuesto
de independencia pasa por generar un buen diseño de investigación
científica.
24

Clase 4 - Supuestos Del Am

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Clase 4 - Supuestos Del Am

Cargado por

Copyright:

Formatos disponibles

ANÁLISIS EXPLORATORIO

Cada técnica multivariante exige en mayor o menor grado el cumplimiento

1) Normalidad uni y multivariante

El supuesto de normalidad se justifica en muchas técnicas ya que

1) Para entender los contrastes multivariantes es mejor entender

Donde y son las desviaciones estándar de los coeficientes de asimetría y

El estadístico JB sigue asintóticamente una distribución con 2 grados de

Donde indica el valor de correspondiente a la i-ésima posición. Se grafica

precio_miles variable simétr

TRANSFORMACIONES PARA OBTENER NORMALIDAD

FORMA DE LA DISTRIBUCIÓN TRANSFORMACIÓN RECOMENDADA

SESGO POSITIVO EXTREMO, CON CERO TRANSX =

DISTRIBUCIÓN FORMA DE DOMO

La homocedasticidad debe definirse de manera distinta según estemos

Centrándonos en el segundo caso, el contraste puede ser univariante (se contrasta si

La prueba de Levene es el contraste de homocedasticidad univariante más común,

para al menos un par

En análisis más complejos se realizarán pruebas específicas de

También podría gustarte