Está en la página 1de 55

ESTADISTICA

APLICADA III
HOMOCEDASTICIDAD Y
NORMALIDAD
MACHICAO BEJAR NILTON
ANÁLISIS DE REGRESIÓN MÚLTIPLE

El análisis de regresión consiste en emplear métodos que nos permitan


determinar la relación funcional entre las variables en estudio; de forma tal
que nos permita predecir el valor de una variable utilizando los valores que
correspondan a las otras variables.
REGRESIÓN LINEAL MÚLTIPLE
El análisis de regresión se usa por explicar o modelar la relación funcional
entre una variable Y , llamada respuesta, rendimiento o variable dependiente,
y una o más variables predictoras, o independientes o explicativas

x1, x2 , … xk.
La respuesta debe ser una variable continua pero las variables explicativas
pueden ser continuas, discretas o categóricas aunque se deja el manejo de
variables explicativas categóricas para otro curso.
REGRESIÓN LINEAL MÚLTIPLE

Los análisis de la regresión tienen varios posibles objetivos los cuales


incluyen:

1. La predicción de observaciones futuras.


2. La valoración del efecto de, o relación entre, variables explicativas y la
respuesta.
3. Una descripción general de estructura de los datos.
MODELO DE REGRESIÓN LINEAL MÚLTIPLE

El modelo de regresión lineal múltiple con k variables predoctoras


x1, x2 , … xk , es de la siguiente forma:

Donde:
x1, x2 , … xk , son variables independientes, fijadas y medidas sin error.
β0 , β1 , β2 , . . . βk son parámetros desconocidos. A β0 se le conoce con el
nombre de intercepto, y a los β1 , β2 , . . . βk se les llaman coeficientes de
regresión poblacional.
“ε” es una variable aleatoria no correlacionada y no observable tal que:

• β0 es la media de “y” cuando x1= x2 = . . . = xk = 0

• βj , para j = 1, 2, . . . , k indica el cambio promedio en la variable


dependiente “y” por unidad de cambio de “xj” , cuando las demás
variables independientes permanecen constantes.
ESTIMACIÓN DE LOS PARÁMETROS βJ
Para encontrar los estimadores de los coeficientes de regresión se aplica el
método de los mínimos cuadrados a partir de una muestra aleatoria de tamaño n.

ECUACIÓN DE LA LINEA DE REGRESIÓN MÚLTIPLE MUESTRAL

𝑦 = 𝑏0 + 𝑏1 𝑥1 + 𝑏2 𝑥2 + 𝑏3 𝑥3 + ⋯ + 𝑏𝑘 𝑥𝑘 + 𝑒
Donde:
A b0 se le conoce con el nombre de intercepto muestral, y a los b1,b2, b3 , ... bk
se les llaman coeficientes de regresión muestral y e es el término del error o
perturbación aleatoria.
TEOREMA
Las estimaciones de mínimos cuadrados de los coeficientes de regresión
múltiple están dadas por:

Donde XT es la transpuesta de X y (XTX)-1 es la inversa de XTX

Además:
𝑏0
𝑏1
𝐵=

𝑏𝑘
EJERCICIO 1

Los siguientes datos Nº de Nº de Baños Precio (y)


muestran el número de Habitaciones (x1) (x2) (en dólares)

habitaciones, el número de 3 2 78 800


baños y los precios a los que 2 1 74 300
se vendieron hace poco 8 4 3 83 800
casas de una muestra 2 1 74 200
aleatoria de un distrito de 3 2 79 700
Lima: 2 2 74 900
5 3 88 400
4 2 82 900

Estime la ecuación de regresión lineal múltiple y prediga el precio de venta de


una casa de tres habitaciones con dos baños.
SOLUCIÓN

Sustituyendo
y n=8 en la matriz XTX, se obtiene:

Después, la inversa de esta matriz puede obtenerse a través de cualquiera de las


diferentes técnicas; aplicando una basada en el método de la adjunta, tenemos
que:
Donde 84 es el valor de 𝑋 𝑇 𝑋 , el determinante de XTX.

Al sustituir

en XTX, se obtiene:
y por último, reemplazando en:

B = (XTX)-1XTY

Entonces la ecuación de regresión lineal múltiple estimada es:


Reemplazando:

Esta ecuación nos permite predecir el precio de venta de una casa de tres
habitaciones (x1) con dos baño (x2).

Es decir una casa con 3 habitaciones y dos baños tienen un precio de 79 100
dólares aproximadamente.
EJERCICIO 2

Los siguientes datos constan del nivel de ventas que obtuvo la empresa “MACHI
SAC” durante cuatro meses del presente año; los gastos de publicidad por
televisión; y los gastos por publicidad en periódicos (todo en miles de dólares):

GASTOS PUBL.-TV GASTOS PUBL.-RADIO VENTAS


4 1 7
7 2 12
9 5 17
12 8 20

Determine la ecuación de regresión lineal múltiple estimada y prediga el nivel de


ventas de un mes en el cual se piensa invertir 15 y 10 mil dólares en publicidad
de televisión y radio respectivamente.
EJERCICIO 3

Los datos siguientes se refieren a las utilidades semanales (en miles de soles)
de 5 restaurantes, sus aforos (en decenas) y el tránsito diario en promedio (en
miles de automóviles) que pasan por sus ubicaciones:
TRANSITO UTILIDAD NETA
AFORO
DIARIO SEMANAL
2 1 3
3 2 4
1 1 2
4 3 5
4 2 2

Analice la información y calcule la línea de regresión múltiple estimada.


COEFICIENTE DE DETERMINACION: 𝑹𝟐
Mide la proporción de la variación total que es explicada por un modelo de
regresión. El coeficiente de determinación se usa como un indicador del grado de
bondad de ajuste, de un modelo de regresión, es decir si el modelo estimado
proporciona una buena explicación del comportamiento de la variable en estudio o
variable dependiente.
Este coeficiente es calculado del siguiente modo:

Donde:
SCR = suma de cuadrados de regresión
SCT = suma de cuadrados total
Donde:
ESTIMACION DE  POR MAXIMA VEROSIMILITUD
Además se cumple que:

;
Hallar al coeficiente de determinación y la desviación estándar del ejemplo 1

50907080000 − 50906394166
𝜎= = 292.8
8
PRUEBAS DE HIPÓTESIS
Estas pruebas acerca de parámetros se realizan para medir la adecuación del
modelo. Tal como se vio anteriormente, una prueba de hipótesis requiere que
los términos del error ei del modelo de regresión tengan una distribución normal
e independiente con media cero y variancia 2.

PRUEBA PARA LA SIGNIFICACION DE UNA REGRESION


La prueba de la significación de una regresión sirve para determinar si existe
una relación lineal entre la variable dependiente “y” y un conjunto de variables
independientes x1 , x2 , x3 , . . . , xk .

H0 : b1 = b2 = . . . = bk = 0
Ha : Al memos una de las bj es diferente de cero
Rechazar H0 implica que al menos una de las variables independientes
contribuye de manera significativa al modelo.
El estadístico para probar esta hipótesis es el “ F” definido por:

Se rechazara H0 si el valor calculado de F es mayor que el Ftabular = F(a, k, n-k-1)


CUADRO DE ANALISIS DE VARIANCIA (ANVA)

 Cuando se rechaza H0 se tiene que realizar pruebas individuales para los


bj , estas pruebas se realizan con el estadístico “t” de Student.
TEOREMA
Con las suposiciones del análisis de regresión lineal múltiple:

Son valores de variables aleatorias que tienen la distribución


“t” de Student con n - k -1 grados de libertad.
MULTICOLINEALIDAD

Relación lineal entre las variables explicativas del modelo


Una o varias variables explicativas son una combinación lineal de otra(s)

¿CÓMO DETECTARLO?
Los programas “se quejarán” de que no podemos invertir matriz (X’X)
En Eviews aparece el mensaje “near singular matrix”

¿CÓMO CORREGIRLO?
Se deben a errores del investigador al introducir las explicativas.
Al aparecer mensaje de error, corregiremos las explicativas
¿QUÉ PROBLEMAS GENERA EN LA ESTIMACIÓN?
Cuanta mayor relación lineal entre X y el resto mayor varianza de los betas.
Estimación imprecisa e intervalos de confianza muy grandes

SOLUCIONES A LA MULTICOLINEALIDAD
Añadir información extra-muestral
Usar estimadores alternativos a MCO
Eliminar la variable no significativa
1.- INTRODUCCIÓN

En el Modelo de Regresión Lineal Clásico

Matricialmente
Uno de los supuestos del modelo es X → matriz de rango completo

Esto significa:
• Dos o más columnas de la matriz X informativa son linealmente
independientes.
• No existe relación lineal exacta entre dos o más variables explicativas
(variables ortogonales entre si).
• Las variables explicativas no están altamente correlacionadas.

Cuando el supuesto no se cumple, se tiene un problema llamado de


multicolinealidad.
1.1.- MULTICOLINEALIDAD

La Multicolinealidad es el no cumplimiento de cualquiera del anterior supuesto. Es


decir, hay presencia de Multicolinealidad cuando existe relación lineal entre las
variables explicativas.
Geométricamente hablando, “colineal” significa que, todos los valores de la
variable (X,Y) por ejemplo, (x1,y1) , (x2,y2), ….. (xk,yk) se encuentran en un
misma recta. Multicolineal será entonces lo mismo para pares de variables (X,Y),
(X,Z) o (Y,Z)
En la práctica, que las correlaciones entre las variables explicativas sean ceros,
es muy difícil. Casi siempre existe un pequeño grado de asociación entre las
variables explicativas que no ocasionará mucha perdida de precisión del modelo.
El problema llamado de Multicolinealidad en Econometría, se estudia cuando la
asociación lineal entre las variables explicativas es muy alta (variables altamente
correlacionadas unas a otras).
1.2.- MULTICOLINEALIDAD PERFECTA O EXACTA

Cuando existe una relación lineal exacta entre dos o más variables
explicativas del modelo, es decir , como consecuencia
y no existe.
EJEMPLO

Si en el modelo

Y X1 X2 X3 rango( X ) = 2 (Rango incompleto)


4 1 5 10
5 3 15 13 Entonces
7 2 10 12
y no existe
2 5 25 11
1 0.5 2.5 14
3 2.5 12.5 15
Otros casos de multicolinealidad perfecta podrían ser:
X1 = 2 + 3X 3 ; X2 = 5 - 4X1 ; etc.

En Multicolinealidad perfecta, la solución inmediata es retirar una o alguna


de las variables explicativas cuya relación lineal con otras variables es
exacta.

En multicolinealidad perfecta, una variable explicativa aporta la misma


información que una combinación lineal de la misma, considerada
como otra variable explicativa. Es rara la ocurrencia de este tipo de
multicolinealidad.
2.- CONSECUENCIAS DE LA MULTICOLINEALIDAD

1. Estimadores de los coeficientes tendrán altas varianzas. Grandes valores para


porque para , tiene valores grandes.
Recordar que la varianza del estimador de un parámetro es

Se puede expresar:

es el coeficiente de determinación de la regresión de


frente a las demás variables explicativas
2.- CONSECUENCIAS DE LA MULTICOLINEALIDAD

2. Intervalos de confianza muy extensos, en consecuencia, falta de precisión en los


estimadores. Esto se debe a que los valores de son grandes donde
es el j-ésimo elemento diagonal de la matriz

3. Sensitividad del modelo a pequeños cambios en la especificación. Debido a la


multicolinealidad, agregando o extrayendo variables explicativas del modelo,
puede conducir a grandes cambios en los coeficientes o significancias de las otras
variables. El modelo se tornaría inestable.
2.- CONSECUENCIAS DE LA MULTICOLINEALIDAD

4. La pruebas de significancia global siempre rechazarán la hipótesis nula,


aunque sea incorrecto, porque el estadístico F calculado será alto. Los
contrastes de hipótesis pueden resultar en conclusiones no apropiadas y en
consecuencia inferencias poco confiables.

5. Imposibilidad en observar la contribución individual de una variable


explicativa al modelo ajustado. Los coeficientes de regresión b se interpretan
como el cambio que se produce en la variable explicada al variar una
variable explicativa en una unidad, manteniendo el resto de las variables
constantes. Cuando existe multicolinealidad aproximada es imposible
suponer que el resto de las variables permanecen constantes al existir altas
correlaciones lineales entre las mismas. Por este motivo, los parámetros
pierden este significado, asimismo sus estimaciones.
3.- MÉTODOS DE DETECTAR LA MULTICOLINEALIDAD

Para detectar presencia de multicolinealidad imperfecta en el modelo:

1. Calcular la matriz de correlaciones entre las variables explicativas y


observar el grado de correlación lineal entre cada par de variables
explicativas. Si alguno de los coeficientes de correlación es elevado
(próximo a ±1), será indicativo de existencia de multicolinealidad
aproximada.

2. Calcular el determinante de la matriz de correlaciones. Si los


coeficientes de correlación lineal no son muy grandes aun así, puede existir
una fuerte multicolinealidad, como consecuencia de la relación entre más de
dos variables. De allí que el determinante aporta información sobre dicha
correlación.
3.- MÉTODOS DE DETECTAR LA MULTICOLINEALIDAD
3. Ajustar el modelo y analizar la significación individual y conjunta. El
cálculo de la matriz de correlaciones se debe hacer antes de la estimación del
modelo. Si existe multicolinealidad aproximada, hay altas posibilidades de
hallar variables explicativas individualmente no significativas, pero con una
capacidad explicativa conjunta alta. La multicolinealidad aproximada influye en
la significación individual pero no en su significación conjunta.
4. Examinar si no existe significancia de las variables explicativas. Aunque
R2 sea alto.
5. Verificar si algunos de los estimadores presentan signo equivocado. Aun
cuando R2 es alto.
6. Investigar si los parámetros estimados se vuelven inestables al añadir o
eliminar observaciones de la muestra. Ajustando el modelo una y otra vez cuando
se modifique la muestra.
4.- SOLUCIONES A LA MULTICOLINEALIDAD

Antes de proponer una solución a la multicolinealidad imperfecta, ésta debe


pensarse con cuidado. Algunas de las soluciones propuestas:

(1) Excluir una o más variables explicativas. La solución más utilizada es


la eliminación de una de las variables causantes de la multicolinealidad. Esta
solución puede incurrir en un error de especificación porque información a
priori puede establecer que esa o esas variables a ser excluidas son
bastante relevantes para el modelo. Al remover esas variables se presentará
el caso de omisión de variables en el modelo. Cuanto mayor el grado de
multicolinealidad, menor el riesgo de error de especificación por omisión al
eliminar esa variable que genera la multicolinealidad. Si fuera el caso de
tener que eliminar una variable, tendría que comparar varios modelos para
asegurarse que no se incurre en error de especificación.
4.- SOLUCIONES A LA MULTICOLINEALIDAD

(2) Aumentar el tamaño de la muestra. Si el tamaño de la muestra es


pequeña, ocasionará grandes errores estándar. Un aumento en la
muestra, ocasionará un incremento en la precisión de la estimación de los
coeficientes y consecuentemente una reducción en los errores estándar
de los estimadores de los coeficientes.

(3) Transformación de las variables incluidas en el modelo. Para


intentar lograr que las variables transformadas presenten correlaciones
lineales más bajas. Las transformaciones más comúnmente utilizadas
son incrementos de las variables o división entre una variable común.
4.- SOLUCIONES A LA MULTICOLINEALIDAD
(4) En la literatura se han propuesto algunas técnicas de estimación, válidas en
presencia de multicolinealidad. Por ejemplo: estimación cresta o aplicar
componentes principales. La mayoría de los investigadores no suelen utilizar
éstos métodos porque además de su complejidad, sus propiedades son menos
comprendidas que con MCO.

(5) Ignorar la multicolinealidad. Si el propósito de la construcción del modelo


es la predicción, se puede ignorar la presencia de multicolinealidad (imperfecta)
donde 𝑅2 resulta alto, siempre y cuando no exista quiebre estructural del
modelo. La multicolinealidad no incumple ninguno de los supuestos del MRLC y
sin ningún otro de los supuestos se incumple, las propiedades MELI de los
estimadores no son afectadas. Si el fin es realizar un análisis estructural del
modelo, donde se quiere detectar y cuantificar la influencia de sus factores no se
puede ignorar el problema.
HOMOCEDASTICIDAD
Se asume que los errores del modelo presentan una varianza constante a lo largo
de la muestra

Se refiere al supuesto de que las variables dependientes exhiban iguales niveles de


varianza a lo largo del rango de los valores de las variables independientes.

Heterocedasticidad se define como un patrón sistemático que presentan los errores


donde su varianza no es constante.
IMPLICACIONES DEL PROBLEMA DE HETEROCEDASTICIDAD

El supuesto del modelo econométrico es que la varianza es constante en el tiempo


o a lo largo de la muestra

La matriz de varianzas y covarianzas del termino de error se define como:


Se utiliza un estimador de la varianza de los errores

Donde k es el número de
variables explicativas

• La principal consecuencia de la heteroscedasticidad es que los estimadores de


MCO pierden eficiencia.
• La construcción de los intervalos de confianza de los estimadores utiliza el
error estándar de los errores, en consecuencia no son apropiados.
• La prueba t-Student pierde potencia por que también utiliza el error estándar
del estimador.
EJEMPLO
Los que siguen son datos a cerca de la efectividad porcentual de un analgésico y
las cantidades de tres medicamentos distintos (en miligramos) presentes en cada
cápsula:

Analice si existe multicolinealidad y heterocedasticidad.


NORMALIDAD
Representación matricial del modelo de regresión múltiple

El modelo de regresión múltiple asume diverso supuestos estadísticos que


determinan la validez de los resultados econométricos así como la inferencia
estadística
Normalidad. El término de error se distribuye
como una función de densidad de probabilidad
normal con media cero y varianza constante
a) Importancia del supuesto de normalidad

En el contexto del modelo de regresión múltiple, los estimadores de MCO se


distribuyen como una función de densidad de probabilidad central.

Esta propiedad permite realizar inferencia estadística sobre el modelo a través


de probar diferentes hipótesis en los valores de los estimadores.

t-Student’s
F-estadística
𝑥 2 ji-cuadrada
• El rechazo de normalidad en los errores afecta el valor de los estadísticos de
las pruebas de hipótesis como el t-Student y F. Los valores de los estadísticos
son sensibles a la distribución normal.

• El valor del estadístico ji-cuadrada también se ve afectado. Bajo condiciones


de No-normalidad el valor critico del ji-cuadrado se modifica.

• Los estimadores siguen siendo insesgados, pero cuando no se cumple el


supuesto de normalidad se pierde eficiencia
Hipótesis nula
Se distribuye
como una normal

Hipótesis alternativa

NO se distribuye
como una normal

El estadístico se denomina Jarque-Bera (JB)


Bajo la hipótesis nula el estadístico JB se distribuye como una ji-cuadrada con
dos grados de libertad, ya que es la suma de dos variables aleatorias
normalizadas.

A un nivel de significancia del


5% el estadístico JB tiene
como valor critico el 5.991
H0:
NORMALIDAD

ZONA DE
RECHAZO DE H0

5.991
Tercer momento de la distribución: Sesgo o Simetría

Se construye el coeficiente de Sesgo o Simetría (SK)


Cuarto momento de la distribución (Curtosis)

Se construye el coeficiente de Curtosis (KC)


EJEMPLO
Considerando la información sobre ventas y publicidad de una
empresa determinada, verifique si los residuales resultantes
del modelo siguen aproximadamente una distribución normal.
Aplique la prueba Jarque-Bera.

También podría gustarte