Ensayo Técnicas ENI Corregido Parte 1 PDF

ENSAYO APLICACIÓN
EMPÍRICA
OPTATIVA-TÉCNICAS DE ENI
ANGELICA CATERINA ZILLANTE
TOURIA ZOUINE
ANDRIY ODYNAK MOTOVYLCHYK

ENSAYO APLICACIÓN EMPÍRICA |TÉCNICAS ENI
CO NTE NIDO
PRIMERA PARTE......................................................................................................... 3
INTRODUCCIÓN ........................................................................................................ 3
METODOLOGÍA ......................................................................................................... 4
RESULTADOS ............................................................................................................. 5
Análisis descriptivo.................................................................................................... 5
Gráficos de dispersión................................................................................................ 8
Estimación e interpretación económica del modelo ................................................ 12
Contraste de Hipótesis ............................................................................................. 14
Comparativa de varios modelos ............................................................................... 15
Multicolinealidad ..................................................................................................... 17
Heterocedasticidad ................................................................................................... 20
Test de White y Koenker de heterocedasticidad ...................................................... 22
Matriz de varianzas y covarianzas de White............................................................ 23
CONCLUSIONES ...................................................................................................... 24
SEGUNDA PARTE ...................................................................................................... 25
RESULTADOS ........................................................................................................... 25
Estimación del modelo e interpretación de coeficientes .......................................... 25
Estudio de la existencia o no de autocorrelación ..................................................... 26
Corrección del problema .......................................................................................... 28
Valoración final: contrastes de hipótesis y coeficiente de determinación ............... 29
CONCLUSIONES ...................................................................................................... 30
1
Í NDICE DE ILUSTRA CIONES
Ilustración 1: Histogramas de las variables analizadas................................................................................. 7

Ilustración 2: gráfico de dispersión de vivienda y autonomía ...................................................................... 9
Ilustración 3: gráfico de dispersión de vivienda y edad.............................................................................. 10
Ilustración 4: gráfico de dispersión de vivienda y miembros del hogar ..................................................... 10
Ilustración 5: gráfico de dispersión de vivienda y actividad ....................................................................... 10
Ilustración 6: gráfico de dispersión de vivienda y nivel de estudios .......................................................... 11
Ilustración 7: gráfico de dispersión de vivienda y renta del hogar ............................................................. 11
Ilustración 8: gráficos de dispersión de residuos vs variables analizadas .................................................. 20
Ilustración 9: test de Breusch-Pagan de heterocedasticidad ..................................................................... 21
Ilustración 10: test de Breusch-Pagan de heterocedasticidad ................................................................... 22
Í NDICE DE TABLA S
Tabla 1: análisis descriptivo de las variables................................................................................................. 5

Tabla 2: tabla de frecuencias de la variable "Actividad" .............................................................................. 6
Tabla 3: regresión múltiple de las variables analizadas.............................................................................. 12
Tabla 4: regresión de todas las variables (Modelo A)................................................................................. 15
Tabla 5: regresión restringida (Modelo B) .................................................................................................. 15
Tabla 6: regresión restringida (Modelo C) .................................................................................................. 15
Tabla 7: prueba de razón de verosimilitud (Modelos A y B)....................................................................... 16
Tabla 8: prueba de razón de verosimilitud (Modelos A y C)....................................................................... 16
Tabla 9: correlación de las variables analizadas ......................................................................................... 17
Tabla 10: regresión de todas las variables analizadas ................................................................................ 17
Tabla 11: distintos modelos de regresión eliminando una variable ........................................................... 19
Tabla 12: test de White para detectar heterocedasticidad ........................................................................ 22
2
PRI MERA PA RTE:
INT RODU CCIÓN
En la actualidad, el gasto en vivienda es una de las principales preocupaciones de los

hogares, y su análisis se ha convertido en una herramienta esencial para comprender la
dinámica del mercado inmobiliario y el comportamiento de los consumidores.
En el contexto actual, la comprensión de los factores que influyen en los gastos en

vivienda es crucial para entender la dinámica socioeconómica de los hogares y para
desarrollar políticas públicas eficaces en materia de vivienda.
En este sentido, el objetivo de este ensayo es analizar la relación entre el gasto en vivienda
y seis variables socioeconómicas específicas, mediante la aplicación de un modelo de
regresión múltiple.
Las variables seleccionadas para el análisis son: la autonomía, la edad del principal
perceptor de renta, el número de miembros en el hogar, el sector de actividad del principal
perceptor de renta, la renta del hogar y el nivel de estudios completado. La variable de
gasto en vivienda se refiere al monto gastado por un hogar en el alquiler o la compra de
una vivienda.
El análisis de estas variables permitirá determinar cuál o cuáles son las más significativas
en la explicación del modelo de regresión múltiple, y en qué medida influyen en el gasto
en vivienda. Asimismo, se busca identificar posibles patrones y relaciones entre estas
variables, y su impacto en el gasto en vivienda.
Para el desarrollo del ensayo, se utilizará la base de datos de la Encuesta de Presupuestos

Familiares (EPF) proporcionada a través del aula virtual, en la cual se encuentra
información sobre el gasto en vivienda y las características socioeconómicas de una
muestra representativa de hogares españoles. Se aplicarán diversas técnicas estadísticas,
como análisis descriptivos, gráficos de dispersión, contrastes de hipótesis y la matriz de
varianzas y covarianzas de White, entre otros, para evaluar la relación entre las variables
seleccionadas y el gasto en vivienda.
En conclusión, este ensayo se centrará en el análisis de la relación entre el gasto en

vivienda y awia variables socioeconómicas, con el objetivo de determinar cuáles son las
más relevantes en la explicación del modelo de regresión múltiple y su influencia en el
gasto en vivienda.
Este análisis permitirá una mejor comprensión de la dinámica económica y social de los
hogares españoles en lo que respecta a la vivienda, y servirá como base para la
formulación de políticas públicas efectivas en materia de vivienda y bienestar social.
Además, el análisis permitirá una mejor comprensión de los factores que influyen en el
gasto en vivienda en España.
3
MET ODOLOG ÍA
Comenzaremos realizando un análisis descriptivo de la variable dependiente. Esto

incluirá la distribución de frecuencias y estadísticos descriptivos, como la media, la
mediana, la desviación estándar y gráficos de histogramas. Este análisis nos dará una idea
de la variabilidad y la forma de la distribución de la variable dependiente.
A continuación, realizaremos gráficos de dispersión de la variable dependiente con cada

una de las variables explicativas. Esto nos permitirá visualizar las relaciones lineales entre
la variable dependiente y cada una de las variables explicativas y evaluar si existe alguna
relación no lineal.
Luego, procederemos a estimar el modelo de regresión múltiple y a interpretar los

coeficientes de cada variable explicativa. También se deben incluir medidas de bondad
de ajuste, como el coeficiente de determinación (R cuadrado) y la significación global del
modelo.
Después, realizaremos contrastes de hipótesis para evaluar la significación individual y

conjunta de cada variable explicativa. Esto nos permitirá responder a la pregunta "¿es la
variable X significativa en la explicación del modelo?".
A continuación, compararemos varios modelos en cuanto a la selección de variables

explicativas. Esto puede incluir la eliminación de variables no significativas o la inclusión
de nuevas variables que podrían mejorar la significación global del modelo.
También es importante estudiar la existencia o no de multicolinealidad, que es una

condición en la que dos o más variables explicativas están altamente correlacionadas entre
sí. Esto puede sesgar los coeficientes estimados y hacer que la interpretación económica
sea difícil. Se pueden utilizar diversas medidas, como el VIF (factor de inflación de la
varianza) para evaluar la presencia de multicolinealidad.
Otro aspecto por estudiar es la presencia o no de heterocedasticidad, que es una violación

de la suposición clásica de homocedasticidad. Esto se refiere a una situación en la que la
varianza de los errores no es constante en todo el rango de los valores de las variables
explicativas. Se pueden utilizar diversos métodos, como los gráficos de dispersión y los
test de Breusch-Pagan y White, para evaluar la presencia de heterocedasticidad.
Si se encuentra evidencia de heterocedasticidad, se puede utilizar la matriz de varianzas

y covarianzas de White para corregir el sesgo en la estimación de los errores estándar de
los coeficientes.
Por último, realizaremos una valoración final del modelo, incluyendo contrastes de
hipótesis y el coeficiente de determinación ajustado, para evaluar la significación global
del modelo y su capacidad para explicar la variabilidad de la variable dependiente.
También es importante discutir las limitaciones del modelo y posibles mejoras o
expansiones futuras.
4
R ESU LTA DOS
AN ÁLISIS DE SCR IPTIVO

Tabla 1: análisis descriptivo de las variables
Fuente: elaboración propia utilizando Stata
La tabla de análisis descriptivo presenta los resultados obtenidos de la muestra de 968

hogares analizados. Los resultados proporcionan información valiosa sobre las variables
utilizadas en el modelo de regresión múltiple.
La variable "Vivienda" muestra que, de la muestra de 968 hogares, el gasto promedio en

vivienda es de 460.504,9 unidades monetarias, con una desviación estándar de 421.452,5.
El valor mínimo de gasto en vivienda es 0, lo que podría deberse a que algunas personas
no pagan por su vivienda. El valor máximo de gasto en vivienda es de 4.128.060 unidades
monetarias, lo que indica que algunas personas están dispuestas a pagar grandes sumas
de dinero por viviendas de alta calidad.
La variable “Autonomía” muestra que el valor promedio es de 7.72314, con una

desviación estándar de 4.782314. El valor mínimo es 1 y el máximo es 17. La media de
este valor es de 7.72, lo que indica que la mayoría de los hogares encuestados se encuentra
en las comunidades autónomas con números bajos (Andalucía, Aragón, Asturias, Illes
Balears, Canarias, Cantabria, Castilla y León y Castilla-La Mancha), aunque también hay
una presencia significativa de hogares en las comunidades autónomas con números más
altos (Cataluña, Madrid, País Vasco, etc).
La variable "Edad" muestra que la media de edad de la persona principal que percibe
ingresos en el hogar es de 52.21 años, con una desviación estándar de 15.37 años. Esto
indica que la mayoría de las personas principales en los hogares encuestados tienen entre
37 y 67 años. La edad mínima es de 17 años y la máxima de 91 años.Esto indica que la
muestra abarca a personas de diversas edades, lo que podría tener implicaciones en la
capacidad de las personas para pagar su vivienda.
La variable "Miembros" muestra que la media de miembros por hogar es de 3.44, con una
desviación estándar de 1.58. Esto indica que la mayoría de los hogares encuestados tienen
entre 2 y 5 miembros. El número mínimo de miembros en un hogar es de 1, mientras que
el máximo es de 11. Esto indica que hay una variabilidad en el tamaño de los hogares, lo
que podría tener implicaciones en la cantidad de espacio y la calidad de vida que las
personas tienen en su vivienda.
5
En el caso de la variable "Actividad", al analizar los resultados se observa que la media

es de 1.707645 y su desviación típica es 0,9343. Por otro lado, el valor mínimo es 1 y el
valor máximo es 3. Es importante destacar que esta información nos permite inferir que
la mayoría de los encuestados tienen trabajos que no son necesariamente especializados
y que están enfocados en actividades de producción de materias primas, como la
agricultura, la pesca o la minería, lo que puede indicar que esta población reside en zonas
rurales o semirrurales. Por otro lado, la presencia de encuestados que trabajan en el sector
servicios puede sugerir que también hay una cantidad significativa de personas que viven
en zonas urbanas.
Tabla 2: tabla de frecuencias de la variable "Actividad"
ACTIVIDAD
En resumen, la variable "Actividad" nos brinda información valiosa sobre los trabajos y
la distribución geográfica de los encuestados, lo que puede ayudarnos a entender mejor
la relación entre el gasto en vivienda y las condiciones económicas y sociales de la
población encuestada.
La variable "RentaHogar" se refiere a la renta del hogar en el que vive el encuestado y

está expresada en euros. De acuerdo con los resultados del análisis descriptivo, la media
de esta variable es de 1,824,038 euros, lo que indica que en promedio los hogares de los
encuestados tienen una renta relativamente alta. El valor mínimo registrado es de 110,000
euros, lo que significa que también hay hogares con rentas más bajas en la muestra. En
cambio, el valor máximo es de 11,100,000 euros, lo que indica que algunos hogares en la
muestra tienen una renta muy alta. La desviación estándar de la variable es de 1,169,644
euros, lo que indica una gran variabilidad en las rentas de los hogares en la muestra. En
general, estos resultados sugieren que hay una amplia gama de niveles de ingresos
representados en la muestra, con algunos hogares que tienen rentas muy altas y otros con
rentas más bajas.
La variable "Nivest" muestra que la media del nivel de estudios completado por la persona
principal que percibe ingresos en el hogar es de 2.81, con una desviación estándar de 2.33.
Esto indica que la mayoría ha completado al menos la educación primaria, pero que
también hay una amplia variedad de niveles educativos representados en la muestra, desde
personas que no han completado ningún nivel educativo hasta aquellas que han obtenido
títulos universitarios o de postgrado. Esto indica que hay una variabilidad en el nivel
educativo de las personas, lo que podría tener implicaciones en su capacidad para acceder
a empleos bien remunerados y, por lo tanto, en su capacidad para pagar su vivienda.
6
En general, estos resultados del análisis descriptivo nos proporcionan una visión general
de la distribución de las variables seleccionadas y su posible influencia en el gasto en
vivienda. Ahora, es importante continuar con el análisis y aplicar técnicas de modelado
para evaluar la relación entre estas variables y el gasto en vivienda.
Estos resultados nos permitirán en el siguiente paso, realizar una exploración más
profunda de las variables y su relación entre ellas.
Ilustración 1: Histogramas de las variables analizadas
7
1. Histograma de la variable "Autonomía": Este histograma nos muestra la

distribución de la variable Autonomía, que representa la comunidad autónoma de
residencia. En este caso, se puede observar que la comunidad autónoma con
mayor frecuencia es la número 1, que corresponde a Andalucía, seguida por la
número 7, que corresponde a Castilla y León. Por otro lado, las comunidades
autónomas con menor frecuencia son la número 17 (La Rioja) y la número 3
(Asturias).
2. Histograma de la variable "Edad": Este histograma muestra la distribución de

la variable Edad. Se puede observar que la distribución es aproximadamente
normal, con un ligero sesgo hacia la izquierda. La mayoría de los encuestados se
encuentran en el rango de edad de los 40 a los 60 años.
3. Histograma de la variable "Miembros": Este histograma nos muestra la

distribución de la variable Miembros, que representa el número de miembros que
componen el hogar. La mayoría de los hogares encuestados tienen entre 2 y 4
miembros.
4. Histograma de la variable "Actividad": Este histograma nos muestra la

distribución de la variable Actividad, que representa el sector en el que trabaja la
persona encuestada. Se puede observar que la mayoría de los encuestados trabaja
en el sector primario (valor 1), seguido por el sector servicios (valor 3) y el sector
industrial (valor 2).
5. Histograma de la variable "NIVEST": Este histograma muestra la distribución

de la variable Nivel de Estudios, que representa el nivel de estudios alcanzado por
la persona encuestada. Se puede observar que la mayoría de los encuestados tienen
estudios primarios (valor 2) o de Educación General Básica (valor 3), mientras
que un número significativo no tiene estudios (valor 1).
6. Histograma de la variable "VIVIENDA": Este histograma muestra la

distribución de la variable VIVIENDA, que representa el precio de la vivienda.
Se puede observar que la distribución es asimétrica hacia la derecha, lo que indica
que hay algunos hogares con un precio de vivienda muy alto que desplazan la
media hacia arriba. La mayoría de las viviendas se encuentran en el rango de
precios de 0 a 500.000 euros.
7. Histograma de la variable "RENTAHOGAR": Este histograma muestra la

distribución de la variable RENTAHOGAR, que representa la renta anual del
hogar. Se puede observar que la distribución es asimétrica hacia la derecha, lo que
indica que hay algunos hogares con una renta muy alta que desplazan la media
hacia arriba. La mayoría de los hogares tienen una renta anual en el rango de 0 a
2.000.000 de euros.
GR ÁFIC OS DE DISPER SIÓN
8
Los gráficos de dispersión son particularmente útiles en el análisis de regresión, ya que

pueden proporcionar una indicación visual de la relación entre la variable independiente
y la variable dependiente, lo que puede ayudar a determinar si una relación lineal o no
lineal es apropiada para el modelo. También pueden ayudar a identificar patrones en los
residuos, lo que puede indicar si los supuestos del modelo se cumplen o no.
Son una herramienta común en la exploración de datos y permiten visualizar la relación

entre dos variables. En un gráfico de dispersión, cada punto representa una observación
de ambas variables y se ubica en el espacio bidimensional con un valor en el eje x y otro
en el eje y. La interpretación de un gráfico de dispersión depende del objetivo del análisis.
En general, se busca identificar si existe una relación entre las dos variables y, en caso
afirmativo, determinar el tipo y la fuerza de la relación.
Si los puntos se agrupan en torno a una línea recta que sube o baja, se dice que existe una
relación lineal positiva o negativa, respectivamente. Una relación lineal positiva significa
que a medida que aumenta el valor de la variable en el eje x, también lo hace el valor en
el eje y. Por otro lado, una relación lineal negativa indica que a medida que aumenta el
valor de la variable en el eje x, disminuye el valor en el eje y. Si los puntos no se agrupan
en torno a una línea recta, se dice que existe una relación no lineal. En este caso, puede
ser útil realizar transformaciones de las variables para obtener una relación lineal.
Además, los gráficos de dispersión también permiten identificar valores atípicos o puntos
que se alejan del patrón general de los datos. Estos valores pueden tener un impacto
significativo en los resultados del análisis y pueden requerir una evaluación adicional.
Ilustración 2: gráfico de dispersión de vivienda y autonomía
En este gráfico podemos observar que la mayoría de los puntos están concentrados en la
parte inferior izquierda del gráfico, lo que indica que hay una gran cantidad de hogares
que tienen un gasto en vivienda bajo independientemente de la comunidad autónoma en
la que residen. Sin embargo, también se puede ver que a medida que aumenta el gasto en
vivienda, hay una mayor dispersión de puntos, lo que indica que hay ciertas comunidades
autónomas donde el gasto en vivienda es significativamente más alto que en otras.
9
Ilustración 3: gráfico de dispersión de vivienda y edad
En el gráfico de dispersión de "Edad vs. Vivienda", también podemos ver que no hay una
relación clara entre estas dos variables. Los puntos están bastante dispersos y no se
observa una tendencia clara. Aun así, se puede observar una correlación negativa débil
entre ambas variables.
Ilustración 4: gráfico de dispersión de vivienda y miembros del hogar
En el gráfico de dispersión de "Miembros vs. Vivienda", podemos ver una tendencia

clara: a medida que aumenta el valor de la variable "Vivienda", también aumenta el valor
de la variable "Miembros". Esto indica que, en general, los hogares con una vivienda más
costosa tienden a tener más miembros.
Ilustración 5: gráfico de dispersión de vivienda y actividad
10
En el gráfico de dispersión de "Actividad vs. Vivienda", podemos ver que, en general, los
hogares con una vivienda más grande tienden a estar más concentrados en el sector
primario. Sin embargo, también hay una buena cantidad de hogares en los otros dos
sectores (primario e industrial) con viviendas de diferentes tamaños. Se muestra una
correlación débil negativa.
Ilustración 6: gráfico de dispersión de vivienda y nivel de estudios
En el gráfico de dispersión de "NIVEST vs. Vivienda", podemos ver que los hogares con
viviendas más costosas tienden a tener un nivel de estudios más alto (mayor valor en la
variable "NIVEST"). Sin embargo, también hay hogares con viviendas menos costosas
que tienen un nivel de estudios alto, y algunos hogares con viviendas más costosas que
tienen un nivel de estudios bajo. Se observa una tendencia positiva entre estas dos
variables.
Ilustración 7: gráfico de dispersión de vivienda y renta del hogar
En el gráfico de dispersión de "RentaHogar vs. Vivienda", podemos ver una tendencia

clara: a medida que aumenta el valor de la variable "Vivienda", también aumenta el valor
de la variable "RentaHogar". Esto indica que, en general, los hogares con viviendas más
grandes tienden a tener una renta más alta. Se observa una clara tendencia positiva, en
resumen.
11
E ST IMA CIÓN E INTER PRETAC IÓN EC ONÓM ICA DE L MODE LO

Tabla 3: regresión múltiple de las variables analizadas
La variable "Autonomía" tiene un coeficiente de 4799.644 con un error estándar de

2671.599 y un valor de t de 1.80 con un p-valor de 0.073. Esto indica que no hay una
relación significativa entre la variable "Autonomía" y la variable dependiente "Vivienda"
al nivel de significancia del 0.05. Sin embargo, dado que el p-valor está cerca del nivel
de significancia, podría haber una relación débil entre estas dos variables.
La variable "Edad" tiene un coeficiente de 1418.319 con un error estándar de 1230.558 y

un valor de t de 1.15 con un p-valor de 0.249. Esto indica que no hay una relación
significativa entre la variable "Edad" y la variable dependiente "Vivienda" al nivel de
significancia del 0.05.
Por otro lado, la variable "Miembros" tiene un coeficiente de 4079.11 con un error
estándar de 9647.082 y un valor de t de 0.42 con un p-valor de 0.673. Esto indica que no
hay una relación significativa entre la variable "Miembros" y la variable dependiente
"Vivienda" al nivel de significancia del 0.05.
En cuanto a "Actividad", esta tiene un coeficiente de -21431.9 con un error estándar de

20652.14 y un valor de t de -1.04 con un p-valor de 0.300. Esto indica que no hay una
relación significativa entre la variable "Actividad" y la variable dependiente "Vivienda"
al nivel de significancia del 0.05.
Continuando con la interpretación de los resultados de la regresión, se puede observar

que la variable "NIVEST" (nivel educativo) tiene un coeficiente positivo de 40,653.85 y
un valor p de 0.000, lo que indica que hay una relación positiva significativa entre el nivel
educativo y el precio de la vivienda. Es decir, a medida que aumenta el nivel educativo
de los habitantes de una vivienda, también aumenta el precio de la vivienda.
Por otro lado, la variable "RENTAHOGAR" también tiene un coeficiente positivo de

0.0656845 y un valor p de 0.000, lo que indica que hay una relación positiva significativa
12
entre la renta del hogar y el precio de la vivienda. Es decir, a medida que aumenta la renta
del hogar, también aumenta el precio de la vivienda.
El valor del intercepto es de 137724.9 con un error estándar de 74430.71 y un valor de t

de 1.85 con un p-valor de 0.065. Esto indica que el valor de "Vivienda" cuando todas las
demás variables independientes son cero es 137724.9. Sin embargo, dado que el p-valor
está cerca del nivel de significancia, esto sugiere que puede haber una falta de ajuste del
modelo.
En resumen, los resultados de la regresión indican que el nivel educativo y la renta del
hogar son factores significativos que influyen en el precio de la vivienda, mientras que la
actividad económica, el grado de autonomía en la vivienda, la edad y el número de
miembros en el hogar no tienen una influencia significativa en el precio de la vivienda.
Es importante tener en cuenta que estos resultados son específicos para el conjunto de
datos proporcionado y pueden variar en diferentes contextos.
El valor de R en la tabla indica que existe una correlación débil entre las variables
independientes y la variable dependiente (vivienda). El valor de R cuadrado es de 0.1309,
lo que significa que el modelo explica el 13.09% de la varianza en la variable dependiente.
El modelo en conjunto es significativo, lo que significa que al menos una de las variables
independientes está relacionada con la variable dependiente. El F estadístico indica que
el modelo en su conjunto es significativo, con un valor de p significativamente menor que
0.05, lo que sugiere que el modelo es una buena descripción de la relación entre las
variables. Sin embargo, el R cuadrado indica que el modelo no es una buena explicación
de la varianza en la variable dependiente, ya que solo explica el 13.09% de la varianza.
Al evaluar los coeficientes de regresión individuales, podemos observar que solo hay dos
variables independientes que están significativamente relacionadas con la variable
dependiente: NIVEST y RENTAHOGAR.
NIVEST tiene un coeficiente positivo de 40653.85, lo que indica que cuanto mayor sea
el nivel educativo, mayor será el valor de la vivienda.
Por otro lado, RENTAHOGAR tiene un coeficiente positivo de 0.0656845, lo que sugiere
que a medida que aumenta la renta del hogar, también aumenta el valor de la vivienda.
Los otros coeficientes no son significativos, lo que sugiere que no están relacionados
significativamente con la variable dependiente.
En resumen, el modelo en su conjunto es significativo, pero solo explica una pequeña

proporción de la varianza en la variable dependiente. Los dos factores que están
significativamente relacionados con la variable dependiente son el nivel educativo y la
renta del hogar.
13
C ON TRA STE DE H IPÓTE SIS
Los contrastes de hipótesis son una técnica estadística utilizada para evaluar si una
hipótesis es compatible con los datos observados o no. En econometría y economía
aplicada, es común utilizar dos tipos de contrastes de hipótesis: los contrastes de
significación individual y los contrastes de significación conjunta o global.
Los contrastes de significación individual se utilizan para evaluar la significación

estadística de un único coeficiente o parámetro en un modelo econométrico. En este caso,
se quiere evaluar si la variable dependiente, que es el gasto en vivienda de los hogares, se
ve afectado por la autonomía de residencia, la edad del principal perceptor de renta, el
número de miembros en el hogar, el sector de actividad del principal perceptor de renta,
la renta del hogar y el nivel de estudios completado. Por tanto, se plantea la siguiente
hipótesis:
• Hipótesis nula (H0): Ninguna de las variables explicativas (autonomía, edad,

miembros, actividad, nivel educativo y renta del hogar) tiene un efecto
significativo sobre el gasto en vivienda.
Para evaluar estas hipótesis, se utiliza un estadístico de contraste, que es una medida de
la discrepancia entre los datos observados y la hipótesis nula. Este estadístico se compara
con una distribución conocida de probabilidad (por ejemplo, la distribución normal o t de
Student), y se calcula un valor p que representa la probabilidad de obtener un resultado al
menos tan extremo como el observado si la hipótesis nula es cierta. Si este valor p es
menor que un nivel de significancia predeterminado (por ejemplo, 0,05), se rechaza la
hipótesis nula y se acepta la hipótesis alternativa. En este caso, se rechaza la hipótesis
nula ya que dos valores tienen una probabilidad inferior al 0,05. Por tanto, la variable
dependiente es significativa en el modelo.
Por otro lado, los contrastes de significación conjunta o global se utilizan para evaluar la
significación conjunta de varios coeficientes o parámetros en un modelo econométrico.
Entonces, se puede utilizar un contraste de significación conjunta o global para evaluar si
la renta, el nivel de estudios y los otros predictores juntos tienen un efecto significativo
sobre el gasto de los hogares.
La hipótesis nula en este caso sería que los predictores juntos no tienen un efecto
significativo sobre el gasto de los hogares. La hipótesis alternativa sería que al menos uno
de los coeficientes de los predictores es diferente de cero, lo que indica que al menos uno
de los predictores tiene un efecto significativo sobre el gasto de los hogares. Para realizar
el contraste de significación conjunta, se puede utilizar el estadístico F, que mide la
varianza explicada por el modelo en relación con la varianza residual.
En este caso, el valor del estadístico F obtenido del modelo de regresión es de 24.13, con
un valor p de 0.0000, lo que indica que al menos una de las variables explicativas tiene
un efecto significativo sobre el gasto en vivienda. Por lo tanto, se rechaza la hipótesis
nula y se acepta la hipótesis alternativa, lo que indica que al menos una de las variables
explicativas es significativa para explicar el gasto en vivienda.
14
C OMPA RAT IVA DE VARIOS MODE LO S

Tabla 4: regresión de todas las variables (Modelo A)
Tabla 5: regresión restringida (Modelo B)
Tabla 6: regresión restringida (Modelo C)
El LR test (prueba de razón de verosimilitud, por sus siglas en inglés) se utiliza para
comparar dos modelos. En primer lugar, compararemos el modelo A y el modelo B. La
hipótesis nula es que el modelo B está anidado (incluido) dentro del modelo A, lo que
significa que el modelo A es un modelo más amplio que incluye todos los términos en el
modelo B y, además, incluye al menos un término adicional.
15
Tabla 7: prueba de razón de verosimilitud (Modelos A y B)
El resultado del LR test es una prueba estadística que nos indica si el modelo A, que tiene
más parámetros libres que el modelo B, es significativamente mejor que el modelo B en
términos de ajuste al modelo verdadero que generó los datos. Si el valor de p obtenido es
menor a un nivel de significancia determinado, generalmente 0.05, se rechaza la hipótesis
nula de que ambos modelos tienen la misma bondad de ajuste y se concluye que el modelo
A es significativamente mejor que el modelo B. Si el valor de p obtenido es mayor al
nivel de significancia, se acepta la hipótesis nula y se concluye que ambos modelos tienen
una bondad de ajuste similar.
En este caso, el valor de p obtenido es de 0.2475, lo que indica que no hay suficiente
evidencia estadística para rechazar la hipótesis nula de que ambos modelos tienen la
misma bondad de ajuste. Por lo tanto, no podemos concluir que el modelo A es
significativamente mejor que el modelo B en términos de ajuste al modelo verdadero que
generó los datos.
Tabla 8: prueba de razón de verosimilitud (Modelos A y C)
En cuanto a la comparación del modelo A y C, el estadístico de prueba es chi-cuadrado

con 4 grados de libertad y un valor de 4.74. La probabilidad asociada con el valor de chi-
cuadrado es 0.3148, lo que significa que no hay suficiente evidencia para rechazar la
hipótesis nula a un nivel de significancia del 5% o incluso del 10%. Por lo tanto, no hay
suficiente evidencia para decir que el modelo A es mejor que el modelo C. En otras
palabras, el modelo C es suficiente para explicar los datos y no hay necesidad de agregar
variables adicionales del modelo A.
Si ninguno de los dos modelos rechaza la hipótesis nula, significa que no hay suficiente
evidencia estadística para afirmar que uno de los modelos es significativamente mejor
que el otro. En otras palabras, ambos modelos son igualmente buenos para explicar la
varianza en la variable dependiente. La conclusión general es que no hay razón para
preferir uno de los modelos sobre el otro, y que se puede elegir cualquiera de los dos en
función de las necesidades específicas del análisis.
16
MU LT IC OLIN EA LIDA D
La multicolinealidad es un problema común en la regresión múltiple y puede distorsionar

la precisión de los coeficientes estimados y la interpretación de los resultados. La
multicolinealidad ocurre cuando dos o más variables independientes están altamente
correlacionadas entre sí, lo que puede dificultar la identificación de la verdadera
contribución de cada variable a la variable dependiente.
Una forma común de medir la multicolinealidad es a través del factor de inflación de la

varianza (VIF). El VIF mide cuánto aumenta la varianza de un coeficiente estimado
debido a la multicolinealidad. Los valores de VIF más altos que 10 indican que hay una
alta multicolinealidad y pueden requerir acciones correctivas, como la eliminación de una
o más variables independientes del modelo.
También existen otras medidas de multicolinealidad, como la matriz de correlación o la

matriz de covarianza, que pueden ayudar a identificar variables altamente correlacionadas
y su impacto en los resultados del modelo.
Tabla 10: regresión de todas las variables analizadas Tabla 9: correlación de las variables analizadas
La matriz de correlación muestra la relación lineal entre los regresores. Una correlación
cercana a 1 indica una relación positiva fuerte, mientras que una correlación cercana a -1
indica una relación negativa fuerte. Si la correlación es cercana a 0, indica que no hay una
relación lineal fuerte entre los regresores.
Comencemos por la variable VIVIENDA. Como era de esperar, la correlación de esta

variable consigo misma es 1, ya que es la misma variable. Esto es lo que se conoce como
correlación perfecta. No es necesario hacer un análisis adicional sobre esta variable.
La siguiente variable es AUTONOMIA. Se puede ver que su correlación con VIVIENDA

es baja, con un valor de 0.0867. Esto sugiere que no hay una relación muy fuerte entre la
autonomía y el gasto en vivienda. Sin embargo, aún es posible que haya una relación
débil.
La variable EDAD tiene una correlación negativa débil con VIVIENDA, con un valor de
-0.1068. Esto sugiere que, en promedio, las personas mayores tienden a gastar menos en
17
vivienda que las personas más jóvenes. No obstante, la correlación no es lo

suficientemente fuerte como para hacer una afirmación definitiva sobre esta relación.
La variable MIEMBROS tiene una correlación positiva débil con VIVIENDA, con un
valor de 0.1159. Esto sugiere que, en promedio, a medida que aumenta el número de
miembros en una familia, también lo hace el gasto en vivienda. Sin embargo, al igual que
con la variable EDAD, la correlación no es lo suficientemente fuerte como para hacer una
afirmación definitiva.
La variable ACTIVIDAD tiene una correlación negativa moderada con VIVIENDA, con
un valor de -0.1472. Esto sugiere que, en promedio, a medida que aumenta la actividad
laboral de una persona, disminuye su gasto en vivienda. Sin embargo, la correlación
tampoco es lo suficientemente fuerte como para hacer una afirmación definitiva sobre
esta relación.
La variable NIVEST tiene una correlación positiva moderada con VIVIENDA, con un
valor de 0.3087. Esto sugiere que, en promedio, a medida que aumenta el nivel de estudios
de una persona, también lo hace su gasto en vivienda. Esta correlación es más fuerte que
las correlaciones anteriores, lo que sugiere que puede haber una relación más significativa
entre estas dos variables.
Finalmente, la variable RENTAHOGAR tiene una correlación positiva moderada con

VIVIENDA, con un valor de 0.2938. Esto sugiere que, en promedio, a medida que
aumenta la renta del hogar, también lo hace el gasto en vivienda. Esta correlación es
similar en magnitud a la correlación de la variable NIVEST, lo que sugiere que también
puede haber una relación significativa entre estas dos variables.
En general, se puede concluir que hay algunas variables que tienen una correlación
moderada con la variable VIVIENDA, como NIVEST y RENTAHOGAR, mientras que
otras variables tienen una correlación débil con VIVIENDA, como AUTONOMIA,
EDAD y MIEMBROS. Es importante tener en cuenta que la correlación no implica
causalidad y que se necesitaría un análisis más detallado para determinar si estas
correlaciones son significativas
El determinante es una medida de la "cantidad de cambio" que ocurre en un conjunto de

variables al mismo tiempo. Es una forma de evaluar si las variables están correlacionadas
entre sí, lo que significa que, si una variable cambia, las otras variables también pueden
cambiar en cierta medida. En este caso, el determinante del resultado de la matriz de
correlación es 0.18683226.
El valor del determinante puede oscilar entre 0 y 1, siendo 0 indicativo de que las variables
están altamente correlacionadas y no pueden ofrecer información única, mientras que 1
indica que las variables están completamente descorrelacionadas y no hay redundancia
en la información. En este caso, el valor del determinante está más cerca de 0, lo que
indica que hay una cierta cantidad de correlación entre las variables.
18
Es importante tener en cuenta que un determinante cercano a cero no necesariamente

significa que las variables estén altamente correlacionadas. El resultado debe evaluarse
en conjunto con los coeficientes de correlación individuales y las características
específicas del conjunto de datos en cuestión.
En general, un determinante pequeño sugiere que hay algunas variables en el conjunto de

datos que están correlacionadas entre sí. Si este es el caso, puede ser útil examinar las
relaciones específicas entre las variables para identificar qué variables están
correlacionadas y en qué medida.
Este valor indica que hay multicolinealidad en los datos, lo que significa que hay una alta
correlación entre los regresores y puede dificultar la interpretación de los coeficientes de
regresión.
En resumen, la matriz de correlación muestra una correlación débil o moderada entre los
regresores, mientras que el valor del determinante indica una alta multicolinealidad en los
datos. Por tanto, si hay problemas de multicolinealidad.
Para solucionarlo, creamos distintas regresiones eliminando variables y elegimos el mejor

en base a su R2 Ajustado.
Tabla 11: distintos modelos de regresión eliminando una variable
El mejor modelo para corregir la multicolinealidad sería aquel que tenga el valor de R
cuadrado ajustado más alto, ya que esto indica que este modelo explica una mayor
proporción de la varianza en la variable dependiente con el menor número posible de
variables independientes.
En este caso, el modelo con el R cuadrado ajustado más alto es el tercer modelo con un
valor de 0,1263. Este modelo es ligeramente superior a los otros modelos, y aunque la
mejora en el R cuadrado ajustado no es muy grande, puede ser significativa en términos
de la reducción de la multicolinealidad.
19
HET ER OCE DA ST ICIDA D
La heterocedasticidad es un problema común en la econometría que se refiere a la

presencia de varianza desigual en los errores de un modelo de regresión. Es decir, los
errores del modelo no tienen la misma magnitud en todas las observaciones y pueden
variar en función de los valores de las variables independientes.
Este problema puede distorsionar la precisión de los coeficientes estimados, provocar

sesgos en las pruebas de hipótesis y hacer que los intervalos de confianza sean más
amplios de lo necesario.
Por lo tanto, es importante detectar y corregir la heterocedasticidad antes de interpretar

los resultados del modelo. Existen diversas técnicas para manejar la heterocedasticidad,
como la transformación de variables, la estimación de modelos robustos o la utilización
de técnicas de corrección de errores. En general, la elección de la técnica adecuada
dependerá del origen de la heterocedasticidad y de la naturaleza de los datos utilizados.
Ilustración 8: gráficos de dispersión de residuos vs variables analizadas
20
• Gráfico de dispersión de los residuos estandarizados vs. actividad: podemos

observar que la dispersión de los residuos es relativamente constante a lo largo de
los diferentes niveles de la variable actividad, lo cual sugiere que no hay presencia
de heterocedasticidad en esta variable.
• Gráfico de dispersión de los residuos estandarizados vs. autonomía: podemos
notar que la dispersión de los residuos aumenta a medida que aumenta el valor de
la variable autonomía, lo cual sugiere la presencia de heterocedasticidad.
• Gráfico de dispersión de los residuos estandarizados vs. edad: podemos
observar que la dispersión de los residuos es relativamente constante a lo largo de
los diferentes niveles de la variable edad, lo cual sugiere que no hay presencia de
heterocedasticidad en esta variable.
• Gráfico de dispersión de los residuos estandarizados vs. miembros: podemos
la variable MIEMBROS, lo cual sugiere la presencia de heterocedasticidad.
• Gráfico de dispersión de los residuos estandarizados vs. nivel estudios:
podemos observar que la dispersión de los residuos es relativamente constante a
lo largo de los diferentes niveles de la variable NIVEST, lo cual sugiere que no
hay presencia de heterocedasticidad en esta variable
• Gráfico de dispersión de los residuos estandarizados vs. rentahogar: podemos
la variable rentahogar, lo cual sugiere la presencia de heterocedasticidad.
En base a los gráficos de dispersión de residuos vs las variables independientes, se puede

observar que en las variables AUTONOMIA, MIEMBROS y RENTAHOGAR los
residuos no se distribuyen de manera homogénea a lo largo del eje x, lo que sugiere una
posible presencia de heterocedasticidad. Por otro lado, en las variables ACTIVIDAD,
EDAD y NIVEST los residuos sí parecen distribuirse de manera homogénea a lo largo
del eje x, lo que sugiere una ausencia de heterocedasticidad en estos casos.
Ilustración 9: test de Breusch-Pagan de heterocedasticidad
Con el test de Breusch-Pagan que se realiza, se puede confirmar que hay presencia de
heterocedasticidad en los residuos del modelo. El valor de chi-cuadrado obtenido (52.68)
con un p-valor muy bajo (0.0000) indica que se rechaza la hipótesis nula de igualdad de
varianzas para los residuos del modelo. En otras palabras, se puede concluir que la
varianza de los errores no es constante y, por lo tanto, hay heterocedasticidad en el
modelo. Es importante tener en cuenta que el test de Breusch-Pagan/Cook-Weisberg es
un método común para detectar heterocedasticidad en modelos de regresión.
21
T EST DE WHITE Y KOEN KER DE HE TER OCE DA ST ICIDA D

Tabla 12: test de White para detectar heterocedasticidad
El test de White es utilizado para verificar si existen errores heterocedásticos en los datos.
La hipótesis nula (H0) es que no existe heterocedasticidad, lo que significa que los errores
tienen una varianza constante en todo el rango de valores de las variables independientes.
La hipótesis alternativa (Ha) es que existe heterocedasticidad, lo que significa que la
varianza de los errores no es constante en todo el rango de valores de las variables
independientes.
En el resultado, el valor de chi-cuadrado es de 23.72 con 27 grados de libertad y un valor

p de 0.6458, lo que indica que no hay suficiente evidencia para rechazar la hipótesis nula
de homocedasticidad. Además, la descomposición de**ameron y Trivedi del test IM
muestra que la fuente principal de la no homocedasticidad es la asimetría, con un valor
de chi-cuadrado muy alto y un valor p muy bajo. La kurtosis no contribuye
significativamente a la no homocedasticidad. En resumen, los resultados del test de White
indican que no hay evidencia suficiente para rechazar la hipótesis nula de
homocedasticidad en el modelo de regresión.
Ilustración 10: test de Breusch-Pagan de heterocedasticidad
El test de Koenker, también conocido como Breusch-Pagan/Cook-Weisberg test, se

utiliza para evaluar la homocedasticidad en los modelos de regresión lineal. La hipótesis
nula de este test es que la varianza de los errores es constante para todos los valores de
las variables independientes (es decir, homocedasticidad). Si el valor p es menor que el
nivel de significancia establecido (generalmente 0,05), se rechaza la hipótesis nula y se
concluye que hay heterocedasticidad en los errores. En este caso, el valor de chi-cuadrado
obtenido (52.68) con un p-valor muy bajo (0.0000) indica que se rechaza la hipótesis nula
de igualdad de varianzas para los residuos del modelo. Por tanto, hay heterocedasticidad
en el modelo.
22
MATR IZ DE VAR IAN ZA S Y C OVAR IAN ZA S DE WH ITE
La matriz de varianzas y covarianzas de White es una herramienta importante para ajustar

los modelos de regresión cuando se presenta heterocedasticidad. Esta se construye a partir
de los residuos del modelo y se utiliza para corregir la heterocedasticidad en el modelo
de regresión.
Se puede observar que se han utilizado errores estándar robustos, que son corregidos para
la heterocedasticidad.
Los coeficientes de la regresión indican el efecto de cada variable independiente en la

variable dependiente, asumiendo que los demás regresores son constantes.
Los resultados indican que sólo las variable NIVEST y RENTAHOGAR son
significativas al nivel de confianza del 95% (p-valor<0.05). La variable NIVEST en la
predicción de la variable dependiente VIVIENDA es significativa, ya que su intervalo
dep valor es menor que 0,05.
El coeficiente de RentaHogar también resulta significativo al nivel de confianza del 95%,

lo que sugiere que a medida que aumenta el ingreso del hogar, la vivienda tiende a ser
más costosa.
Los otros predictores, AUTONOMIA, EDAD, MIEMBROS y ACTIVIDAD no son

significativos al nivel de confianza del 95%.
En resumen, la corrección de White para la heterocedasticidad ha permitido obtener

errores estándar robustos que ajustan los coeficientes de la regresión. Además, los
resultados indican que hay una relación significativa entre la variable dependiente
VIVIENDA y las variables NIVEST y RENTAHOGAR.
Por otro lado, las variables AUTONOMIA, EDAD, MIEMBROS y ACTIVIDAD no

presentan una relación significativa con VIVIENDA al nivel de confianza del 95%. Estos
hallazgos pueden ser útiles para entender la dinámica del mercado de vivienda y para la
toma de decisiones en políticas públicas relacionadas con el acceso a la vivienda.
Es importante destacar que, aunque se han realizado pruebas para identificar y corregir la
heterocedasticidad, existen otras limitaciones que podrían afectar la validez de los
resultados, como la presencia de multicolinealidad o la omisión de variables relevantes.
23
C ONC LUSIONE S
En general, el modelo de regresión lineal utilizado parece ser adecuado para predecir la
variable dependiente VIVIENDA. Sin embargo, antes de hacer una valoración final del
modelo, es importante examinar detalladamente todos los resultados obtenidos en el
análisis descriptivo, gráficos, pruebas de multicolinealidad y heterocedasticidad.
En cuanto al análisis descriptivo, se puede observar que las variables tienen una media y
una mediana similares, lo que sugiere una distribución más o menos simétrica. Además,
los valores mínimos y máximos son bastante amplios, lo que indica una gran variabilidad
en los datos.
En cuanto a los gráficos, el diagrama de dispersión de VIVIENDA versus NIVEST

muestra una relación lineal positiva entre las dos variables, lo que sugiere que NIVEST
es un predictor importante de VIVIENDA. El gráfico de residuos versus valores ajustados
no muestra una relación clara entre los residuos y los valores ajustados, lo que sugiere
que no hay problemas obvios de no linealidad. Sin embargo, el gráfico de residuos versus
NIVEST muestra una relación clara, lo que sugiere que NIVEST está influyendo en la
heterocedasticidad de los residuos. En cuanto a la multicolinealidad, el VIF no supera el
umbral de 10 para ninguna de las variables, lo que sugiere que no hay problemas graves
de multicolinealidad.
En cuanto a la heterocedasticidad, el test de Breusch-Pagan indica que hay evidencia de

heterocedasticidad. Además, el test de White también indica evidencia de
heterocedasticidad. La corrección de White para la heterocedasticidad ha permitido
obtener errores estándar robustos que ajustan los coeficientes de la regresión.
En cuanto a los resultados de la regresión, los coeficientes de la regresión indican el efecto

de cada variable independiente en la variable dependiente, asumiendo que los demás
regresores son constantes. Los resultados indican que solo las variables NIVEST y
RENTAHOGAR son significativas al nivel de confianza del 95%. El coeficiente de
NIVEST en la predicción de la variable dependiente VIVIENDA es significativo, ya que
su intervalo de valor es menor que 0,05. El coeficiente de RENTAHOGAR también
resulta significativo al nivel de confianza del 95%, lo que sugiere que a medida que
aumenta el ingreso del hogar, la vivienda tiende a ser más costosa. Los otros predictores,
AUTONOMIA, EDAD, MIEMBROS y ACTIVIDAD no son significativos al nivel de
confianza del 95%.
Teniendo en cuenta todos estos resultados, podemos concluir que el modelo de regresión
lineal utilizado es adecuado para predecir la variable dependiente VIVIENDA. Sin
embargo, se debe tener en cuenta la evidencia de heterocedasticidad encontrada y
considerar la corrección de White para obtener estimaciones más precisas de los
coeficientes de regresión. Además, se debe tener en cuenta que solo dos de las variables
predictoras, NIVEST y RENTAHOGAR, son significativas en la predicción de
VIVIENDA, lo que sugiere que otras variables podrían ser necesarias para mejorar la
capacidad predictiva del modelo.
24
SEGUNDA PA RTE :
R ESU LTA DOS
El ensayo se enfoca en analizar la autocorrelación en un conjunto de datos sobre el índice

de ocupación turística y el número de pernoctaciones y viajeros en diferentes
comunidades autónomas. Cada grupo de la clase trabajará con una comunidad autónoma
diferente y deberá llevar a cabo los siguientes análisis:
E ST IMA CIÓN DE L MODE LO E INTER PRETAC IÓN DE C OE FICIENT ES
En este apartado se realiza una estimación del modelo de regresión lineal múltiple, donde
la variable dependiente es el índice de ocupación hotelera (OC) y la variable
independiente es el número de viajeros y pernoctaciones (V). Así mismo, se realiza una
interpretación de los coeficientes del modelo, indicando la relación que tiene cada
variable independiente con la variable dependiente.
En la Tabla se presenta un Modelo de Estimación para el estudio de las autocorrelaciones,

entre el comportamiento del índice de ocupación hotelera y el número de viajeros.
Observamos que el nivel de significación es de 0.465, es decir que la variable “month”

tiene un gran efecto en la ocupación de Hoteles, es decir, es cercana a 0.5, por ello se
puede concluir que existe una relación significativa entre la variable independiente y la
variable dependiente.
Los coeficientes indican el cambio en la variable dependiente asociado con un cambio

unitario en la variable independiente correspondiente. Una desviación estándar cercana a
0 indica que los datos tienden a estar más cerca a la media como por el ejemplo
0,0196543.
25
E ST UDIO DE LA E XIST ENC IA O N O DE AU TOC ORRE LAC IÓN
Método de Durbin-Watson: se calcula el estadístico de Durbin-Watson y se compara con

los valores críticos correspondientes para determinar si hay presencia de autocorrelación
positiva o negativa.
La autocorrelación significa que los errores de las observaciones adyacentes están

correlacionados. Si los errores están correlacionados, entonces la regresión de los
mínimos cuadrados puede subestimar el error estándar de los coeficientes.
(Estadístico de Durbin-Watson)
Limite Inferior 1.503

Limite Superior 1.585
El valor de d siempre está entre 0 y 4. Si el estadístico de Durbin-Watson es

sustancialmente menor que 2, hay evidencia de correlación serial positiva. Como regla
general, si el estadístico de Durbin-Watson es inferior a 1, puede ser causa de alarma.
Tiene autocorrelación positiva el valor es cercano a 0 y no se encuentra en las zonas de

indecisión. (agrupamiento de los residuos con el mismo signo)
26
Con un error menor del 5% se rechaza la Hipótesis Ho.
Método de Breusch-Godfrey: se realiza una prueba de hipótesis para determinar si hay

autocorrelación en los residuos del modelo.
Si se concluye que δ1=δ2=0 δ 1 = δ 2 = 0 , significa que los residuales no son función

de las covariables del modelo. El estadístico en esta prueba está dado por n×R2 n × R 2
y bajo la hipótesis nula verdadera, el estadístico tiene distribución χ2k χ k 2 .
El error es 0.000% < 0.5 %: Rechaza la Hipótesis Ho
Análisis gráfico de los residuos: se realizan gráficos de los residuos del modelo para
detectar patrones de autocorrelación.
27
El correlograma muestra la función de autocorrelación (ACF) de los residuos del modelo.

La ACF muestra la correlación entre un valor y su rezago, es decir, la correlación entre el
residuo en un momento dado y el residuo en un momento anterior.
En el eje horizontal del correlograma se encuentra el número de rezagos, es decir, cuántos

períodos atrás se está evaluando la correlación. En el eje vertical se encuentra el valor de
la correlación, que varía entre -1 y 1.
En el correlograma, se puede observar que la mayoría de los coeficientes de

autocorrelación están dentro de los intervalos de confianza (los sombreados en azul y
rojo), lo que sugiere que no hay una autocorrelación significativa en los residuos. El único
coeficiente que está fuera del intervalo de confianza superior es el de rezago 5, pero su
valor es muy cercano a cero, lo que sugiere que no es muy relevante.
En general, no parece haber una autocorrelación significativa en los residuos del modelo.
C OR RECC IÓN DE L PR OB LE MA
Si se detecta autocorrelación positiva, se puede utilizar la corrección de Cochrane-Orcutt

o la corrección de Hildreth-Lu para solucionar el problema. Si se detecta autocorrelación
negativa, se puede utilizar la corrección de Prais-Winsten o la corrección de Collineau-
Mégie para solucionar el problema. Parece razonable utilizar este estimador como
aproximación ́ muestral al coeficiente de autocorrelación de orden uno poblacional entre
las perturbaciones ρ. Ahora bien, siempre y cuando los residuos sean función de un
estimador de β en el modelo de interés que sea consistente.
28
La estimación obtenida asume innovaciones homoscedásticas. En el caso de

heterocedasticidad, se debe modificar en el estimador inicial el elemento A 1: A1 = W W
− diag W W . En la segunda etapa, que realiza una estimación eficiente de ρ usando los
residuos GS2SLS, se modifica el elemento r, s de Ψ ρρ: La regresión transformada, y el
DW del modelo original y el DW del modelo corregido. Se puede concluir, con el nuevo
DW=1.87, que ya no existe autocorrelación, pues dicho valor se encuentra muy cerca de
2.
VA LORAC IÓN FINAL: CONTRA ST ES DE H IPÓTE SIS Y C OE FICIENTE DE DETE RMINAC IÓN
El coeficiente de determinación (R-squared) mide la proporción de la varianza en la

variable dependiente que se explica por el modelo. Un valor de R-squared cercano a 1
indica que el modelo explica una gran proporción de la varianza en la variable
dependiente, mientras que un valor cercano a 0 indica que el modelo no explica mucha
variabilidad. Para valorar finalmente un modelo, se debe asegurar la ausencia de
autocorrelación en los errores y la realizac-ión de pruebas de hipótesis sobre los
coeficientes del modelo para determinar su significancia estadística. Es importante tener
en cuenta que la significancia estadística no implica necesariamente importancia clínica
o práctica. Una diferencia puede ser estadísticamente significativa, pero tener poca
importancia clínica o práctica, por lo que es importante considerar tanto la significancia
estadística como la importancia clínica al interpretar los resultados de un estudio. En este
modelo la diferencia no es significativa.
El cálculo del coeficiente de determinación R² para evaluar el ajuste del modelo a los
datos en términos generales, cuanto mayor sea el valor de R², mejor será el ajuste del
modelo a los datos. Sin embargo, es importante tener en cuenta que el valor de R² también
puede depender del número de variables explicativas que se incluyan en el modelo y de
29
la complejidad del modelo en sí. Por lo tanto, siempre es recomendable utilizar múltiples
criterios para evaluar la calidad del ajuste del modelo a los datos. La suma de los
cuadrados del modelo es 0.0175. El valor varía entre 0 y 1, cuanto más cercano a 0 indica
que el modelo no explica ninguna variación de datos.
C ONC LUSIONE S
En conclusión, se puede observar que se corrige el problema de autocorrelación positiva

y que el modelo explica perfectamente el problema planteado. Además, al no haber
autocorrelación significativa en los residuos se explica perfectamente el caso planteado
sin interferencias.
30

Ensayo Técnicas ENI Corregido Parte 1 PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Ensayo Técnicas ENI Corregido Parte 1 PDF

Cargado por

Copyright:

Formatos disponibles

ENSAYO APLICACIÓN

ANGELICA CATERINA ZILLANTE

ANDRIY ODYNAK MOTOVYLCHYK

Í NDICE DE ILUSTRA CIONES

Ilustración 1: Histogramas de las variables analizadas................................................................................. 7

Tabla 1: análisis descriptivo de las variables................................................................................................. 5

PRI MERA PA RTE:

INT RODU CCIÓN

En la actualidad, el gasto en vivienda es una de las principales preocupaciones de los

En el contexto actual, la comprensión de los factores que influyen en los gastos en

Para el desarrollo del ensayo, se utilizará la base de datos de la Encuesta de Presupuestos

En conclusión, este ensayo se centrará en el análisis de la relación entre el gasto en

Comenzaremos realizando un análisis descriptivo de la variable dependiente. Esto

A continuación, realizaremos gráficos de dispersión de la variable dependiente con cada

Luego, procederemos a estimar el modelo de regresión múltiple y a interpretar los

Después, realizaremos contrastes de hipótesis para evaluar la significación individual y

A continuación, compararemos varios modelos en cuanto a la selección de variables

También es importante estudiar la existencia o no de multicolinealidad, que es una

Otro aspecto por estudiar es la presencia o no de heterocedasticidad, que es una violación

Si se encuentra evidencia de heterocedasticidad, se puede utilizar la matriz de varianzas

R ESU LTA DOS

AN ÁLISIS DE SCR IPTIVO

Fuente: elaboración propia utilizando Stata

La tabla de análisis descriptivo presenta los resultados obtenidos de la muestra de 968

La variable "Vivienda" muestra que, de la muestra de 968 hogares, el gasto promedio en

La variable “Autonomía” muestra que el valor promedio es de 7.72314, con una

En el caso de la variable "Actividad", al analizar los resultados se observa que la media

Fuente: elaboración propia utilizando Stata

La variable "RentaHogar" se refiere a la renta del hogar en el que vive el encuestado y

Fuente: elaboración propia utilizando Stata

1. Histograma de la variable "Autonomía": Este histograma nos muestra la

2. Histograma de la variable "Edad": Este histograma muestra la distribución de

3. Histograma de la variable "Miembros": Este histograma nos muestra la

4. Histograma de la variable "Actividad": Este histograma nos muestra la

5. Histograma de la variable "NIVEST": Este histograma muestra la distribución

6. Histograma de la variable "VIVIENDA": Este histograma muestra la

7. Histograma de la variable "RENTAHOGAR": Este histograma muestra la

GR ÁFIC OS DE DISPER SIÓN

Los gráficos de dispersión son particularmente útiles en el análisis de regresión, ya que

Son una herramienta común en la exploración de datos y permiten visualizar la relación

Fuente: elaboración propia utilizando Stata

Ilustración 3: gráfico de dispersión de vivienda y edad

Fuente: elaboración propia utilizando Stata

Fuente: elaboración propia utilizando Stata

En el gráfico de dispersión de "Miembros vs. Vivienda", podemos ver una tendencia

Fuente: elaboración propia utilizando Stata

Fuente: elaboración propia utilizando Stata

Fuente: elaboración propia utilizando Stata

En el gráfico de dispersión de "RentaHogar vs. Vivienda", podemos ver una tendencia

E ST IMA CIÓN E INTER PRETAC IÓN EC ONÓM ICA DE L MODE LO

Fuente: elaboración propia utilizando Stata

La variable "Autonomía" tiene un coeficiente de 4799.644 con un error estándar de

La variable "Edad" tiene un coeficiente de 1418.319 con un error estándar de 1230.558 y

En cuanto a "Actividad", esta tiene un coeficiente de -21431.9 con un error estándar de

Continuando con la interpretación de los resultados de la regresión, se puede observar

Por otro lado, la variable "RENTAHOGAR" también tiene un coeficiente positivo de

El valor del intercepto es de 137724.9 con un error estándar de 74430.71 y un valor de t

En resumen, el modelo en su conjunto es significativo, pero solo explica una pequeña

C ON TRA STE DE H IPÓTE SIS

Los contrastes de significación individual se utilizan para evaluar la significación

• Hipótesis nula (H0): Ninguna de las variables explicativas (autonomía, edad,

C OMPA RAT IVA DE VARIOS MODE LO S

Fuente: elaboración propia utilizando Stata