Está en la página 1de 24

ANÁLISIS EXPLORATORIO

Y TRATAMIENTO PREVIO
DE DATOS (3)

1
COMPROBACIÓN DE SUPUESTOS (1)

Cada técnica multivariante exige en mayor o menor grado el cumplimiento


de supuestos estadísticos. En cada caso se verán los supuestos implicados;
sin embargo, dada su importancia, en esta presentación se analizarán de
manera general cuatro de los supuestos más importantes en el Análisis
Multivariante:

1) Normalidad uni y multivariante


2) Homocedasticidad
3) Linealidad
4) Independencia de las observaciones

2
COMPROBACIÓN DE SUPUESTOS:
NORMALIDAD ( 2 )

El supuesto de normalidad se justifica en muchas técnicas ya que


está detrás de la confianza que podamos tener en los resultados de
test o pruebas de hipótesis estadísticas. Varios autores han
reconocido que, si bien el incumplimiento del supuesto de
normalidad no afecta demasiado al error tipo I, si que tiene un
importante efecto sobre el error tipo II.
Por lo general las técnicas multivariantes requieren la existencia de
normalidad multivariante, aunque es recomendable primero
indagar la existencia de normalidad univariante, por varias razones,
entre ellas:

3
COMPROBACIÓN DE SUPUESTOS:
NORMALIDAD ( 3 )

1) Para entender los contrastes multivariantes es mejor entender


primero los contrastes univariantes de normalidad
2) Resulta muy poco probable que, siendo todas las variables
univariantemente normales, no lo sean multivariantemente
3) Si la distribución no es multivariante normal, debemos
determinar que variables generan el problema mediante
contrastes de normalidad univariantes.

4
COMPROBACIÓN DE SUPUESTOS: NORMALIDAD ( 4 )

•  
ANÁLISIS UNIVARIANTE DE NORMALIDAD
Primero se analiza la asimetría y la
curtosis: en una distribución normal
tipificada, los valores de asimetría y
curtosis son 0 (la curtosis es 3, pero los
paquetes suelen restar este valor). Para
contrastar si el coeficiente de asimetría (A)
o el de curtosis (C) es o no
estadísticamente diferente de cero, se
calcula la probabilidad de que sus valores
estandarizados y , que se distribuyen
según una , difieran de la normal según un
nivel se significancia preestablecido.

5
COMPROBACIÓN DE SUPUESTOS: NORMALIDAD ( 5 )

•  
ANÁLISIS UNIVARIANTE DE NORMALIDAD
Es decir, se calcula

Donde y son las desviaciones estándar de los coeficientes de asimetría y


curtosis. Se rechaza la hipótesis nula de normalidad si los valores estandarizados
en valor absoluto , al 5% de significancia, o si usamos un 1%.
Un problema que se puede dar con este procedimiento es que resulta muy
sensible para detectar desviaciones de la normalidad cuando se tiene una muestra
grande (200 o más). En estos casos siempre es bueno analizar la gráfica de la
distribución

6
COMPROBACIÓN DE SUPUESTOS: NORMALIDAD (6)

•  
ANÁLISIS UNIVARIANTE DE NORMALIDAD
Un test muy utilizado para analizar la normalidad de las perturbaciones de un
modelo de regresión es el test de Jarque-Bera, cuyo estadístico de prueba es el
siguiente

El estadístico JB sigue asintóticamente una distribución con 2 grados de


libertad. Los coeficientes de asimetría y curtosis se calculan de la siguiente
forma
y
Donde y son las estimaciones del tercer y cuarto momento centrales, es la
desviación estándar estimada y es el tamaño de la muestra

7
COMPROBACIÓN DE SUPUESTOS: NORMALIDAD (7)

•ANÁLISIS
  UNIVARIANTE DE NORMALIDAD
Una alternativa para analizar la normalidad de una distribución es el gráfico de
simetría. La idea es que mientras los puntos se aproximen más a una recta de
referencia, definida como , la distribución se ajustará más a una distribución
simétrica, como lo es la normal. La lógica de la gráfica es la siguiente: la variable
tendrá una distribución simétrica si

Donde indica el valor de correspondiente a la i-ésima posición. Se grafica


contra . Los puntos por arriba de la línea de referencia indican que
8
COMPROBACIÓN DE SUPUESTOS: NORMALIDAD ( 8 )

En el gráfico de la izquierda, los puntos por arriba de la línea de referencia indican que la variable tiene una
distribución con sesgo a la derecha, mientras que en el gráfico de la derecha se observa una gran simetría en la
distribución.

precio_miles variable simétr


1500

4
rriba de la mediana

rriba de la midiana
3
1000

2
COMPROBACIÓN DE SUPUESTOS: NORMALIDAD (9)

•ANÁLISIS
  UNIVARIANTE DE NORMALIDAD
Otros gráficos para detectar la normalidad de una distribución, son los
siguientes:
1. El gráfico de probabilidad normal. Este presenta en el eje de las abscisas los
valores de la variable , y en el eje de las ordenadas las frecuencias relativas
acumuladas de dichos valores . La normalidad de los datos será perfecta
cuando el gráfico de los puntos coincida con una línea recta que representa el
modelo normal perfecto.
2. El gráfico q-q, muy recomendado por algunos expertos, grafica contra ,
donde , es la función de distribución normal estándar, . Los términos son la
desviación estándar y la media de los datos, respectivamente.

10
COMPROBACIÓN DE SUPUESTOS: NORMALIDAD (10)

En esta diapositiva hemos puesto las gráficas q-q para las mismas variables que antes. Nuevamente, la gráfica de la
izquierda, muestra una distribución que difiere de a normal, ya que los puntos distan mucho de caer en la la línea de
referencia.
1500

4
1000

2
ariable normal
precio_miles
500

0
11
COMPROBACIÓN DE SUPUESTOS: NORMALIDAD (11)

•ANÁLISIS
  UNIVARIANTE DE NORMALIDAD
Dada cierta subjetividad en el análisis gráfico, es recomendable complementar el
análisis con pruebas estadísticas de normalidad. Estas pruebas están construidas
para detectar el ajuste que pueda tener una distribución empírica con una
distribución teórica de interés (en este caso la normal), siendo los contrastes más
habituales:
• para la bondad de ajuste
• Kolmogorov – Smirnov
• Shapiro – Wilks
Veremos la aplicación de este último en el taller de STATA, quedando los otros dos
como ejercicio.

12
COMPROBACIÓN DE SUPUESTOS: NORMALIDAD (11)

•ANÁLISIS
  UNIVARIANTE DE NORMALIDAD
Dada cierta subjetividad en el análisis gráfico, es recomendable complementar el
análisis con pruebas estadísticas de normalidad. Estas pruebas están construidas
para detectar el ajuste que pueda tener una distribución empírica con una
distribución teórica de interés (en este caso la normal), siendo los contrastes más
habituales:
• para la bondad de ajuste
• Kolmogorov – Smirnov
• Shapiro – Wilks
Veremos la aplicación de este último en el taller de STATA, quedando los otros dos
como ejercicio.

13
COMPROBACIÓN DE SUPUESTOS: NORMALIDAD (12)

•ANÁLISIS
  MULTIVARIANTE DE NORMALIDAD
Existen muy pocos contrastes de normalidad multivariante, siendo uno de los
más utilizados el método gráfico de , que es muy similar al gráfico q-q en su
construcción. Otros contrastes, como el de Doornik-Hansen los veremos en el
taller de STATA.
El proceso de construcción del gráfico tiene el siguiente proceso:
a. Se calculan las distancias de Mahalanobis para todas las variables cuya
normalidad multivariante se quiera contrastar, y se ordenan las distancias
Mahalanobis al cuadrado , de menor a mayor.

14
COMPROBACIÓN DE SUPUESTOS: NORMALIDAD ( 1 3 )

•ANÁLISIS
  MULTIVARIANTE DE NORMALIDAD
b. Para cada distancia se calcula el percentil donde es el número de casos.
Algunos autores calculan el percentil como (este cálculo alternativo también
se puede aplicar en la construcción del gráfico q-q)
c. Se calculan los valores de los percentiles de una distribución con grados de
libertad, donde es el número de variables implicadas.
d. Se genera un gráfico de dispersión entre y los valores de . La relación debe
ser lineal (a aproximadamente lineal) si existe normalidad multivariante.

15
COMPROBACIÓN DE SUPUESTOS: NORMALIDAD (14)

En la ilustración a la derecha se
muestra un ejemplo del gráfico
en referencia, realizado en SPSS,
aplicado a una muestra de 10
observaciones y 5 variables. De
acuerdo a este, los puntos caen
aproximadamente en una línea
recta. Una forma de formalizar
este resultado es calcular el
coeficiente de correlación entre
las variables relacionadas en la
figura y testear su significancia.
16
COMPROBACIÓN DE SUPUESTOS: NORMALIDAD ( 1 5 )

TRANSFORMACIONES PARA OBTENER NORMALIDAD


Si no se confirma la normalidad univariante o multivariante la solución
propuesta consiste en transformar los valores originales. El tipo de
transformación depende de la asimetría o curtosis que cause la no
normalidad.
Sin embargo, como ya se mencionó previamente, se debe tener precaución de
que la variable transformada pueda ser interpretable.
Las transformaciones más comunes se presentan en la siguiente tabla:

17
COMPROBACIÓN DE SUPUESTOS: NORMALIDAD ( 1 6 )

FORMA DE LA DISTRIBUCIÓN TRANSFORMACIÓN RECOMENDADA


SESGO POSITIVO MODERADO TRANSX =
SESGO
SESGO NEGATIVO
NEGATIVO MODERADO
MODERADO TRANSX =
SESGO
SESGO POSITIVO
POSITIVO SUSTANCIAL,
SUSTANCIAL, SIN
SIN CERO
CERO TRANSX =
SESGO
SESGO POSITIVO
POSITIVO SUSTANCIAL,
SUSTANCIAL, CON
CON CERO
CERO TRANSX =
SESGO
SESGO NEGATIVO
NEGATIVO SUSTANCIAL
SUSTANCIAL TRANSX =
SESGO
SESGO POSITIVO
POSITIVO EXTREMO
EXTREMO (FORMA
(FORMA DE
DE L)
L) TRANSX =

SESGO POSITIVO EXTREMO, CON CERO TRANSX =


SESGO POSITIVO EXTREMO, CON CERO
SESGO NEGATIVO EXTREMO (FORMA DE J) TRANSX =
DISTRIBUCIÓN
SESGO FORMA DE
NEGATIVO EXTREMO DOMODE J)
(FORMA TRANSX =

DISTRIBUCIÓN FORMA DE DOMO


18
COMPROBACIÓN DE SUPUESTOS: HOMOCEDASTICIDAD ( 1 7 )

La homocedasticidad debe definirse de manera distinta según estemos


trabajando con datos no agrupados (caso regresión lineal) o de datos
agrupados (caso ANOVA de un factor). En el primer caso, aplicada a una
regresión simple, la hipótesis de homocedasticidad se entiende como la
asunción de que la variabilidad de los valores de la variable dependiente (o lo
que es lo mismo, de la perturbación) se mantiene más o menos constante para
todos los valores de la variable explicativa. En el caso de datos agrupados, la
homocedasticidad implica que la varianza de la variable continua es más o
menos la misma en todos los grupos que forman la variable no métrica que
delimita los grupos.

19
COMPROBACIÓN DE SUPUESTOS: HOMOCEDASTICIDAD ( 1 8 )

 Centrándonos en el segundo caso, el contraste puede ser univariante (se contrasta si


la varianza es la misma) o multivariante (se contrasta si las matrices de varianza -
covarianza son iguales).

La prueba de Levene es el contraste de homocedasticidad univariante más común,


que parte de la siguientes hipótesis

para al menos un par


Donde representa el número de grupos.
El estadístico de Levene , se calcula como:

20
COMPROBACIÓN DE SUPUESTOS: HOMOCEDASTICIDAD (19)

•  

Donde:
; es la media del subgrupo ; son la medias de los distintos subgrupos de , y es la
media de para el conjunto de la muestra sin distinguir grupos. Si bien esta es la forma
estándar de calcular el estadístico , otros autores han demostrado que se mejora la
robustez usando la media recortada al 10% o la mediana en lugar de
Se rechaza la hipótesis nula si

21
COMPROBACIÓN DE SUPUESTOS: HOMOCEDASTICIDAD ( 2 0 )

•Por
  supuesto existen otros test,
como el clásico test F para Summary of precio_miles
comparar varianzas de dos =1 if yes Mean Std. Dev. Freq.
poblaciones y su contraparte para
0 147.55379 107.06983 994
poblaciones, conocido como el test 1 239.34603 223.61827 86
de Bartlett, que se pueden usar para
este fin. Para terminar con la Total 154.86318 122.91281 1,080
homocedasticidad, mostramos la W0 = 43.069582 df(1, 1078) Pr > F = 0.00000000
salida de STATA para el test de
Levane, cuya hipótesis nula es que W50 = 24.613978 df(1, 1078) Pr > F = 0.00000081
las varianzas de la variable precio W10 = 29.218951 df(1, 1078) Pr > F = 0.00000008
de las viviendas (en miles) son
iguales entre las viviendas con
piscina y las que no tienen piscina. 22
COMPROBACIÓN DE SUPUESTOS: LINEALIDAD ( 2 1 )

En análisis más complejos se realizarán pruebas específicas de


linealidad de acuerdo a la técnica a usarse (Una de esas técnicas
se basa en la transformación de Box-Cox, vista previamente).
Por ahora vale mencionar que un análisis exploratorio de la
posible relación lineal entre pares de variables se basa en los
gráficos de dispersión bivariantes entre las variables de estudio,
junto a la matriz de correlaciones.

23
C O M P R O B A C I Ó N D E S U P U E S TO S : I N D E P E N D E N C I A D E L A S
O B S E RVA C I O N E S ( 2 2 )

Dos observaciones son independientes cuando los valores que toman las
variables de un primer caso, no se ven influidos por los valores que hayan
tomado en el otro caso. Su incumplmiento puede tener severas
consecuencias en los resultados que obtengamos de las técnicas
multivariantes en particular, y estadísticas en general.
El problema es que su origen suele estar en un mal diseño o control de la
investigación, por lo que la única solución efectiva para preservar el supuesto
de independencia pasa por generar un buen diseño de investigación
científica.

24

También podría gustarte