Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Y TRATAMIENTO PREVIO
DE DATOS (3)
1
COMPROBACIÓN DE SUPUESTOS (1)
2
COMPROBACIÓN DE SUPUESTOS:
NORMALIDAD ( 2 )
3
COMPROBACIÓN DE SUPUESTOS:
NORMALIDAD ( 3 )
4
COMPROBACIÓN DE SUPUESTOS: NORMALIDAD ( 4 )
•
ANÁLISIS UNIVARIANTE DE NORMALIDAD
Primero se analiza la asimetría y la
curtosis: en una distribución normal
tipificada, los valores de asimetría y
curtosis son 0 (la curtosis es 3, pero los
paquetes suelen restar este valor). Para
contrastar si el coeficiente de asimetría (A)
o el de curtosis (C) es o no
estadísticamente diferente de cero, se
calcula la probabilidad de que sus valores
estandarizados y , que se distribuyen
según una , difieran de la normal según un
nivel se significancia preestablecido.
5
COMPROBACIÓN DE SUPUESTOS: NORMALIDAD ( 5 )
•
ANÁLISIS UNIVARIANTE DE NORMALIDAD
Es decir, se calcula
6
COMPROBACIÓN DE SUPUESTOS: NORMALIDAD (6)
•
ANÁLISIS UNIVARIANTE DE NORMALIDAD
Un test muy utilizado para analizar la normalidad de las perturbaciones de un
modelo de regresión es el test de Jarque-Bera, cuyo estadístico de prueba es el
siguiente
7
COMPROBACIÓN DE SUPUESTOS: NORMALIDAD (7)
•ANÁLISIS
UNIVARIANTE DE NORMALIDAD
Una alternativa para analizar la normalidad de una distribución es el gráfico de
simetría. La idea es que mientras los puntos se aproximen más a una recta de
referencia, definida como , la distribución se ajustará más a una distribución
simétrica, como lo es la normal. La lógica de la gráfica es la siguiente: la variable
tendrá una distribución simétrica si
En el gráfico de la izquierda, los puntos por arriba de la línea de referencia indican que la variable tiene una
distribución con sesgo a la derecha, mientras que en el gráfico de la derecha se observa una gran simetría en la
distribución.
4
rriba de la mediana
rriba de la midiana
3
1000
2
COMPROBACIÓN DE SUPUESTOS: NORMALIDAD (9)
•ANÁLISIS
UNIVARIANTE DE NORMALIDAD
Otros gráficos para detectar la normalidad de una distribución, son los
siguientes:
1. El gráfico de probabilidad normal. Este presenta en el eje de las abscisas los
valores de la variable , y en el eje de las ordenadas las frecuencias relativas
acumuladas de dichos valores . La normalidad de los datos será perfecta
cuando el gráfico de los puntos coincida con una línea recta que representa el
modelo normal perfecto.
2. El gráfico q-q, muy recomendado por algunos expertos, grafica contra ,
donde , es la función de distribución normal estándar, . Los términos son la
desviación estándar y la media de los datos, respectivamente.
10
COMPROBACIÓN DE SUPUESTOS: NORMALIDAD (10)
En esta diapositiva hemos puesto las gráficas q-q para las mismas variables que antes. Nuevamente, la gráfica de la
izquierda, muestra una distribución que difiere de a normal, ya que los puntos distan mucho de caer en la la línea de
referencia.
1500
4
1000
2
ariable normal
precio_miles
500
0
11
COMPROBACIÓN DE SUPUESTOS: NORMALIDAD (11)
•ANÁLISIS
UNIVARIANTE DE NORMALIDAD
Dada cierta subjetividad en el análisis gráfico, es recomendable complementar el
análisis con pruebas estadísticas de normalidad. Estas pruebas están construidas
para detectar el ajuste que pueda tener una distribución empírica con una
distribución teórica de interés (en este caso la normal), siendo los contrastes más
habituales:
• para la bondad de ajuste
• Kolmogorov – Smirnov
• Shapiro – Wilks
Veremos la aplicación de este último en el taller de STATA, quedando los otros dos
como ejercicio.
12
COMPROBACIÓN DE SUPUESTOS: NORMALIDAD (11)
•ANÁLISIS
UNIVARIANTE DE NORMALIDAD
Dada cierta subjetividad en el análisis gráfico, es recomendable complementar el
análisis con pruebas estadísticas de normalidad. Estas pruebas están construidas
para detectar el ajuste que pueda tener una distribución empírica con una
distribución teórica de interés (en este caso la normal), siendo los contrastes más
habituales:
• para la bondad de ajuste
• Kolmogorov – Smirnov
• Shapiro – Wilks
Veremos la aplicación de este último en el taller de STATA, quedando los otros dos
como ejercicio.
13
COMPROBACIÓN DE SUPUESTOS: NORMALIDAD (12)
•ANÁLISIS
MULTIVARIANTE DE NORMALIDAD
Existen muy pocos contrastes de normalidad multivariante, siendo uno de los
más utilizados el método gráfico de , que es muy similar al gráfico q-q en su
construcción. Otros contrastes, como el de Doornik-Hansen los veremos en el
taller de STATA.
El proceso de construcción del gráfico tiene el siguiente proceso:
a. Se calculan las distancias de Mahalanobis para todas las variables cuya
normalidad multivariante se quiera contrastar, y se ordenan las distancias
Mahalanobis al cuadrado , de menor a mayor.
14
COMPROBACIÓN DE SUPUESTOS: NORMALIDAD ( 1 3 )
•ANÁLISIS
MULTIVARIANTE DE NORMALIDAD
b. Para cada distancia se calcula el percentil donde es el número de casos.
Algunos autores calculan el percentil como (este cálculo alternativo también
se puede aplicar en la construcción del gráfico q-q)
c. Se calculan los valores de los percentiles de una distribución con grados de
libertad, donde es el número de variables implicadas.
d. Se genera un gráfico de dispersión entre y los valores de . La relación debe
ser lineal (a aproximadamente lineal) si existe normalidad multivariante.
15
COMPROBACIÓN DE SUPUESTOS: NORMALIDAD (14)
En la ilustración a la derecha se
muestra un ejemplo del gráfico
en referencia, realizado en SPSS,
aplicado a una muestra de 10
observaciones y 5 variables. De
acuerdo a este, los puntos caen
aproximadamente en una línea
recta. Una forma de formalizar
este resultado es calcular el
coeficiente de correlación entre
las variables relacionadas en la
figura y testear su significancia.
16
COMPROBACIÓN DE SUPUESTOS: NORMALIDAD ( 1 5 )
17
COMPROBACIÓN DE SUPUESTOS: NORMALIDAD ( 1 6 )
19
COMPROBACIÓN DE SUPUESTOS: HOMOCEDASTICIDAD ( 1 8 )
20
COMPROBACIÓN DE SUPUESTOS: HOMOCEDASTICIDAD (19)
•
Donde:
; es la media del subgrupo ; son la medias de los distintos subgrupos de , y es la
media de para el conjunto de la muestra sin distinguir grupos. Si bien esta es la forma
estándar de calcular el estadístico , otros autores han demostrado que se mejora la
robustez usando la media recortada al 10% o la mediana en lugar de
Se rechaza la hipótesis nula si
21
COMPROBACIÓN DE SUPUESTOS: HOMOCEDASTICIDAD ( 2 0 )
•Por
supuesto existen otros test,
como el clásico test F para Summary of precio_miles
comparar varianzas de dos =1 if yes Mean Std. Dev. Freq.
poblaciones y su contraparte para
0 147.55379 107.06983 994
poblaciones, conocido como el test 1 239.34603 223.61827 86
de Bartlett, que se pueden usar para
este fin. Para terminar con la Total 154.86318 122.91281 1,080
homocedasticidad, mostramos la W0 = 43.069582 df(1, 1078) Pr > F = 0.00000000
salida de STATA para el test de
Levane, cuya hipótesis nula es que W50 = 24.613978 df(1, 1078) Pr > F = 0.00000081
las varianzas de la variable precio W10 = 29.218951 df(1, 1078) Pr > F = 0.00000008
de las viviendas (en miles) son
iguales entre las viviendas con
piscina y las que no tienen piscina. 22
COMPROBACIÓN DE SUPUESTOS: LINEALIDAD ( 2 1 )
23
C O M P R O B A C I Ó N D E S U P U E S TO S : I N D E P E N D E N C I A D E L A S
O B S E RVA C I O N E S ( 2 2 )
Dos observaciones son independientes cuando los valores que toman las
variables de un primer caso, no se ven influidos por los valores que hayan
tomado en el otro caso. Su incumplmiento puede tener severas
consecuencias en los resultados que obtengamos de las técnicas
multivariantes en particular, y estadísticas en general.
El problema es que su origen suele estar en un mal diseño o control de la
investigación, por lo que la única solución efectiva para preservar el supuesto
de independencia pasa por generar un buen diseño de investigación
científica.
24