Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ECONOMETRÍA
viu Universidad
Internacional
de Valencia
viu Este material es de uso exclusivo para los
.es
alumnos de la VIU. No está permitida la
reproducción total o parcial de su contenido
ni su tratamiento por cualquier método por
aquellas personas que no acrediten su
relación con la VIU, sin autorización expresa
de la misma.
Edita
Universidad Internacional de Valencia
Grado en
Administración y Dirección
de Empresas
Econometría
Módulo de Formación Obligatoria
6ECTS
Índice
TEMA 1. INTRODUCCIÓN A LA ECONOMETRIA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1. ¿Qué es la econometría?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2. Modelos económicos y modelos econométricos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3. Etapas en la elaboración de un modelo econométrico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4. Datos económicos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
5
Econometría I viu
6ECTS .es
5.4. Estimación de los parámetros en una regresión múltiple con variable dependiente binaria utilizando
RCommander. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
GLOSARIO. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
ENLACES DE INTERÉS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
BIBLIOGRAFÍA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
Leyenda
Glosario
Términos cuya definición correspondiente está en el apartado “Glosario”.
6
viu Grado en Administración y Dirección de Empresas
.es Módulo de Formación Básica
Tema 1.
Introducción a la econometría
En este primer tema se introducirá al alumno en el campo de la econometría, definiendo qué es y qué
objetivos persigue. Además, se estudian las diferencias entre un modelo econométrico y un modelo
económico y qué relación tienen ambos. Finalmente, se describen las etapas de elaboración de un
modelo econométrico y qué tipología de datos necesitan dichos modelos.
7
Econometría I viu
6ECTS .es
Por tanto, la econometría se puede definir como una disciplina científica que se basa,
fundamentalmente, en la utilización de métodos estadísticos y matemáticos para estimar, a partir de
un conjunto de datos, la forma según la cual se pueden relacionar diferentes variables basadas en
teorías económicas.
Para especificar que la cantidad demandada de un bien depende del precio de éste en un momento
del tiempo, se puede formular una función matemática entre la cantidad demandada (Dt) y el precio
(Pt), siendo t el año considerado. Así, si la relación es lineal, la función de demanda será: Dt = b1 + b2 Pt,
donde b1 es el intercepto del modelo.
4. Obtención de datos.
8
viu Grado en Administración y Dirección de Empresas
.es Módulo de Formación Básica
6. Prueba de hipótesis.
7. Pronóstico o predicción.
A continuación, se detalla cada una de estas etapas siguiendo un ejemplo conocido: Teoría Keynesiana
de consumo.
Keynes plantea: “La ley psicológica fundamental consiste en que los hombres y las mujeres como
regla general y en promedio, están dispuestos a incrementar su consumo a medida que su ingreso
aumenta, pero no en la misma cuantía o cantidad del aumento en su ingreso. Aquí se ha planteado la
teoría que establece una relación positiva entre el ingreso y el consumo.
Se tiene una relación positiva entre la renta (ingreso) y el consumo (gasto), pero no una relación
funcional entre los dos. Se denotará la renta por x (variable independiente o explicativa) y al consumo
por y (variable dependiente o explicada). Matemáticamente se obtiene la siguiente relación funcional:
, con (1)
El modelo planteado en la ecuación (1) es de un interés limitado para el económetra ya que supone
una relación exacta entre el consumo y la renta. Las relaciones entre las variables económicas son en
general inexactas, debido a que además la renta, existen otras variables que afectan al consumo
como es el tamaño de la familia, edades de sus miembros,… que de alguna forma ejercerán alguna
influencia sobre el consumo.
Por todas estas razones el modelo propuesto anteriormente se podría escribir de la siguiente forma
para así, poder considerar estas relaciones inexactas entre las variables económicas:
(2)
Siendo u el término de perturbación o error aleatorio. Esta variable aleatoria representará todos
aquellos factores que afectan al consumo pero no son considerados de forma explícita.
Esta última ecuación propuesta es un claro ejemplo de modelo econométrico, más específicamente,
un ejemplo de modelo de regresión lineal, en donde la función econométrica de consumo plantea
como hipótesis que la variable dependiente (consumo) está relacionada linealmente con la variable
independiente (renta) pero que la relación entre ellas dos no es del todo exacta.
9
Econometría I viu
6ECTS .es
4. Obtención de datos.
La información de la que se dispone en el modelo anterior es únicamente los pares de datos (x, y),
pero se desconocen los valores de los parámetros que lógicamente serán unas constantes. Así
pues, el objetivo en ese modelo será calcular los valores de esos dos parámetros.
Con la información de los pares de valores (x, y) se quiere estimar los valores de para la función
de consumo. Para ello, se utilizará el análisis de regresión donde se calculan como:
(3)
(4)
(5)
6. Prueba de hipótesis.
Suponiendo que el modelo que hemos obtenido es adecuado, se tendrán que desarrollar criterios
apropiados para encontrar si los valores estimados obtenidos concuerdan con las expectativas de la
teoría, es decir, con los datos reales, ya que una teoría que no es verificable por la evidencia empírica
no podrá ser admisible. En otras palabras, ¿ es estadísticamente menor que uno y mayor que cero?
Para comprobarlo se verá en la parte de Inferencia Estadística.
7. Pronóstico o predicción.
Imaginemos que se espera en el año 2020 una renta media de 2.000 € en España, ¿cuál será el consumo
medio que se esperará en 2020 para España?
€.
10
viu Grado en Administración y Dirección de Empresas
.es Módulo de Formación Básica
Un modelo estimado puede ser utilizado para fines de control o de política. Siguiendo con el ejemplo,
supóngase que el Gobierno considera que un nivel medio de consumo en 2016 de 1.000 €, mantendrá
la tasa de desempleo. Entonces, ¿qué nivel de renta garantiza la cantidad de gasto de consumo fijado
como meta? Así, si la función de consumo es aceptable, entonces sustituyendo en la ecuación (5) se
tiene que:
y así .
Así, mediante una mezcla apropiada de política fiscal y monetaria, el gobierno puede manejar la
variable control (x) para producir el nivel deseado de la variable objetivo (y).
•• Series temporales: son observaciones de una variable, para una unidad económica a lo largo
del tiempo. Por ejemplo, datos del paro nacional a lo largo del tiempo, ventas de una empresa
durante un periodo de tiempo…, etc.
•• Datos de corte transversal o atemporales: son observaciones de una variable, para distintas
unidades económicas en un momento de tiempo dado. Por ejemplo: Encuesta de Población
Activa (INE) en el año 2016 en la que se ha entrevistado a más de 20.000 familias.
•• Datos de panel: son observaciones de una variable para distintas unidades económicas a lo
largo del tiempo, es decir, es la combinación de datos temporales y de corte transversal. Por
ejemplo Encuesta de Población Activa (INE) a lo largo del tiempo en la que se ha entrevistado
a más de 10.000 familias.
11
Econometría I viu
6ECTS .es
12
viu Grado en Administración y Dirección de Empresas
.es Módulo de Formación Básica
Tema 2.
Modelo de regresión simple: definición, estimación y
propiedades
En este segundo tema se recuerda al alumno conceptos vistos en Estadística I relacionados con el
análisis de regresión. El tema empieza definiendo qué es un modelo de regresión, en concreto, un
modelo de regresión simple, y a continuación se muestra el método más utilizado para estimar los
parámetros desconocidos junto con sus propiedades. Además, se analiza la diferencia entre regresión
y correlación y se muestra una medida de bondad de ajuste del modelo. El tema finaliza con la
realización de un modelo de regresión simple en RCommander.
Francis Galton (1822-1911) fue quien utilizó por primera vez el término regresión para predecir la
estatura promedio de los hijos (variable dependiente) conociendo la estatura de sus padres (variable
explicativa).
13
Econometría I viu
6ECTS .es
En primer lugar, en el modelo hay tres tipos de variables: y, x, u. En este modelo el único un factor
explícito para explicar y es x, siendo ambas variables de tipo cuantitativo. El resto de los factores que
afectan a y están recogidos en el error o perturbación aleatoria (u). La perturbación es una variable no
observable y es independiente y normalmente distribuida con media 0 y desviación estándar
s: . Los parámetros fijos a estimar son .
my (6)
La ecuación (6) se denomina recta poblacional o función de regresión poblacional (FRP). Así pues,
como puede apreciarse en la figura 1, my es una función lineal de x con término independiente y
pendiente .
Y
Y
my = b1 + b2X
D
Departamento
epartamento
dde
e
MMetodología
etodología
ee
I
nnovación
Innovación
C/
Gorgos,
nº
5
(46021)
VValencia
C/
G orgos,
n º
5
( 46021)
alencia
Tel.
96
192
449
9
773
3
Tel.
9 6
1 92
La ecuación
La ecuación (6)(6) se
se denomina
denomina recta
recta poblacional
poblacional oo función
función de de regresión
regresión poblacional
poblacional
(FRP). Así
(FRP). Así pues,
pues, como
como puede
puede apreciarse
apreciarse en
en lala figura
figura 1,
1, µµ yes
es una
una función
función lineal
lineal de
de xx
y
contérmino
con independienteββ1yypendiente
términoindependiente pendienteββ 2 . .
1 2
[Insertarfigura
[Insertar figura1]
1]
X
Figura1.
1.Recta
Rectapoblacional.
poblacional.Elaboración X
Elaboraciónpropia
propia
Figura
Figura 1. Recta poblacional. Fuente: elaboración propia.
La linealidad significa que un aumento de una unidad en x implica que el valor esperado de y
La linealidad
linealidad significa que que unun aumento
aumento de de una
una unidad unidad en
en xx implica
implica que
que elel valor
valor
( La
my = E(y)
esperadode
esperado
)
varíe en significa
unidades.
(( ))
deyy µµ y ==EE((yy)) varíe
y
varíeen unidades.
.
en ββ1 unidades
1
Se dispone
dispone de
Se
Se dispone de unademuestra
una muestra
una muestra aleatoria
aleatoria de
aleatoria de tamaño
de tamaño tamaño n,
n, {(yi,n,x{(y
):{(yii,i,=xxi):1,
i): i i == 1,
...,n},1,la
...,n}, lala cual
cual secual
...,n}, se ha
ha se ha
extraído de la
extraído de
extraído de lala población
población de
de estudio.
estudio. ElEl modelo
modelo i de regresión simple para cada
de regresión simple para cada
población de estudio.
observación delaEl modelo
lamuestra de
muestrase regresión
seexpresa simple para cada observación de la muestra se expresa
expresacomo:
como:
observación de
como:
yyi i ==ββ11++ββ22xxi i ++uui i ii==11,2,2....,
....,nn (7)
(7)(7)
ooo
yyi i ==µµyiyi ++uui i ii==11,2,2....,
....,nn (8)
(8)(8)
Laestimación
La estimacióndel
delmodelo
modelode
deregresión
regresiónsimple
simpleviene
vienedada
dadapor:
por:
^^ ^^ ^ ^
(10)
^
ui
Y
^Y * *
*
^^ ^^ ^
^
Yi YI = b1 + b2 Xi
*
YiYi *
^^
^
uuii
^^ * *
*
YiYi X
**
**
X
X
Figura 2. Residuos en el modelo de regresión simple. Fuente: elaboración propia.
2.2.
Obtención de las estimaciones
Dpor Mínimos Cuadrados
epartamento
de
Metodología
e
Innovación
C/
Gorgos,
nº
5
(46021)
Valencia
Ordinarios (MCO) Tel.
9 6
1 92
49
73
Existenpropiedades estadísticas
varios métodos que lo han
para estimar convertido en
los parámetros uno de los métodos
desconocidos más eficaces
en el modelo y
de regresión. A
populares del análisis de regresión. Este método se debe a Carl Friedrich Gauss
continuación mostramos el método más utilizado denominado Mínimos Cuadrados Ordinarios un
(MCO)matemático
debido a quealemán. Los estimadores obtenidos se conocen como estimadores
los estimadores obtenidos gozan de ciertas propiedades estadísticas que lo han
mínimos cuadrados ya que se derivan del principio de mínimos cuadrados.
convertido en uno de los métodos más eficaces y populares del análisis de regresión. Este método se
debe a Carl Friedrich Gauss un matemático alemán. Los estimadores obtenidos se conocen como
estimadores mínimos cuadrados ya que se derivan del principio de mínimos cuadrados.
El MCO consiste
El MCOen minimizar
consiste la suma de
en minimizar la los
sumacuadrados de los residuos,
de los cuadrados es decir, es decir,
de los residuos,
^ n ^
2
β MCO → min S CR = min ∑u i (11)(11)
i =1
A continuación se muestra
A continuación el proceso
se muestra de obtención
el proceso de los estimadores
de obtención de mínimos
de los estimadores cuadrados:
de mínimos
cuadrados:
El objetivo es obtener estimadores de los parámetros .
El objetivo es obtener estimadores de los parámetros β1 , β2
El método utilizado es el de Mínimos Cuadrados Ordinarios.
El método utilizado es el de Mínimos Cuadrados Ordinarios.
- La función objetivo a minimizar es:
•• La función objetivo a minimizar es:
n ^ n ^ ^
2
min S CR = min ∑u i = min ∑ ( yi − β 1 − β 2 xi ) 2 (12)(12)
i =1 i =1
}
•• Las condiciones de mínimo son:
- Las condiciones de mínimo son:
1ª condición:
∂SCR
^
=0 1ª condición:
∂β (13)
1
2ª condición: (13)
∂SCR
2ª condición:^
=0
∂ β2
•• Derivando parcialmente e igualando a cero para encontrar un mínimo tenemos las ecuaciones
}
(14):
- Derivando parcialmente e igualando a cero para encontrar un mínimo tenemos
las ecuaciones (14):
∂SCR n ^ ^
= 2∑ ( yi − β 1 − β 2 xi )(−1) = 0
^
i =1
(14)
∂ β1
(14)
∂SCR n ^ ^
^
= 2∑ ( yi − β 1 − β 2 xi )(− xi ) = 0
i =1
∂ β2
De las ecuaciones (14) se deducen las ecuaciones normales (15), como resultado de igualar a
}
0 las derivadas anteriores:
- 9-
(15)
Después de operar con las ecuaciones normales (si se desea ver su desarrollo ver Manual Estadística I),
se obtienen los parámetros:
(16)
(17)
Una vez calculado en la ecuación (17), se puede obtener sustituyendo la ecuación (16).
16
viu Grado en Administración y Dirección de Empresas
.es Módulo de Formación Básica
2. Son estimadores puntuales, es decir, dada la muestra cada estimador proporcionará un solo
valor puntual del parámetro poblacional.
3. Una vez obtenidos los estimadores de MCO, la línea de regresión muestral se obtiene
fácilmente y cumple las siguientes propiedades:
3.4. La suma del producto entre los residuos y los valores predichos de y, para cada observación,
es igual a 0.
3.5. La suma del producto entre los residuos y los valores de x, para cada observación, es igual
a 0.
Estas propiedades estadísticas de los MCO están basadas en los supuestos del Modelo Clásico de
Regresión Lineal (MCRL) y están protegidas por el famoso teorema de Gauss-Markov. Éste proporciona
justificación teórica para los MCO.
Modelo de Regresión Lineal. El modelo de regresión es lineal en los parámetros, tal y como se
demuestra en la figura 1.
Los valores de X son fijos en muestreo repetido. Los valores que toma la variable explicativa X son
considerados fijos, tomando el mismo valor, para diferentes muestras. Más técnicamente, los datos se
obtienen mediante observación, no mediante experimentación. El análisis de regresión es un análisis
de regresión condicional, es decir, el valor de la variable dependiente, está condicionado a los valores
dados de la variable independiente.
El valor medio de la perturbación aleatoria es igual a cero. Es decir, dado el valor de x, la media o
valor esperado del término aleatorio de perturbación es cero.
17
Econometría I viu
6ECTS .es
No autocorrelación entre las perturbaciones. Dados dos valores cualesquiera de x las perturbaciones
aleatorias, la correlación entre ellos correspondientes es cero. Es decir, las perturbaciones
correspondientes a diferentes individuos o a diferentes momentos de tiempo, no están correlacionadas
entre sí.
Las perturbaciones se distribuyen normalmente. Este supuesto radica en que si las perturbaciones
aleatorias distribuyen normalmente, también lo harán la variable dependiente y los parámetros
estimados de la regresión. Esto es fundamental para la realización de contrastes de hipótesis y para la
construcción de intervalos de confianza.
Este supuesto, se cumple debido a que la x no es aleatoria o estocástica. En otro caso sería difícil
separar la influencia de x entre x y u, pues seguro que a medida que aumentara x lo haría u y viceversa.
El número de observaciones debe de ser mayor que el nº de parámetros por estimar. El número
de observaciones (n) debe ser mayor que el número de variables explicativas.
Variabilidad en los valores de X. Lógicamente no todos los valores de X en una muestra dada deben
ser iguales. La varianza de X debe ser un número positivo.
Todas estas preguntas son bastante importantes, ya que la omisión de variables importantes del
modelo o la elección de una forma funcional errónea provocarán que el modelo de regresión no sea
el adecuado.
18
viu Grado en Administración y Dirección de Empresas
.es Módulo de Formación Básica
No hay multicolinealidad perfecta. Es decir, no hay relaciones perfectamente lineales entre las
variables explicativas.
2.5.
Propiedades de los estimadores de mínimos cuadrados:
teorema de Gauss-Markov
Como ya se mencionó en el apartado 2.2, bajo los supuestos del modelo clásico de regresión lineal,
los valores estimados mediante el método de MCO poseen algunas propiedades estadísticas
deseables. Estas propiedades están contenidas en el conocido teorema Gauss-Markov. Dicho
teorema enuncia lo siguiente:
Dados los supuestos del modelo clásico de regresión lineal, los estimadores MCO presentan una varianza
mínima, dentro de la clase de estimadores lineales insesgados (MELI).
2) Es insesgado, es decir, que tiene varianza mínima dentro de la clase de todos los estimadores
lineales insesgados. Que tenga varianza mínima, significa que presentan menor error
cuadrático comparado con otros estimadores.
Luego, ante dos estimadores que son lineales e insesgados, el estimador óptimo será aquel que tenga
la menor varianza, todo ello con el objetivo de que la función de regresión muestral sea lo más similar
posible a la función de regresión problacional.
El coeficiente de correlación (r) mide la intensidad de relación lineal o grado de asociación entre dos
variables. Ejemplo: calificaciones obtenida en estadística I y las obtenidas en estadística II; hábito de
consumir alcohol y el cáncer de páncreas o de estómago. Como ya vimos en Estadística I, la expresión
del coeficiente de correlación es:
(18)
en donde si la covarianza (Sxy) vale 0 el coeficiente también valdrá 0. Este coeficiente toma valores que
pertenecen al intervalo cerrado [-1,1], y su interpretación es la siguiente:
19
Si -1 < r< 0, la relación lineal será imperfecta y negativa.
Si 0<r<1, la relación será imperfecta y positiva.
Si 0<r<1, la relación será imperfecta y positiva.
Si r= 0, la correlación lineal es nula será nula y diremos que hay incorrelación.
Econometría I viu
Si r= 0, la correlación lineal es nula será nula y diremos que hay incorrelación.
El objetivo del análisis de regresión es predecir el valor promedio de una variable a 6ECTS .es
partir deEl valores
objetivo de
delotras variables.
análisis En el ejemplo
de regresión de antes,
es predecir el valorsepromedio
podría predecir el
de una variable a
promedio de las calificaciones en un examen de estadística II conociendo las
Si -1 <partir
r< 0, lade
calificaciones
valoreslineal
relación
obtenidas
de otras variables. yEn
será imperfecta el ejemplo de antes, se podría predecir el
negativa.
promedio de lasencalificaciones
la asignatura deenestadística
un examenI. de estadística II conociendo las
calificaciones
Si 0<r<1, obtenidas en la yasignatura de estadística I.
Por tanto, la
enrelación será
el análisis imperfecta
de correlación positiva.
no hay distinción en la variable dependiente y
las independientes,
Por tanto, ensuponiendo que
el análisis de las variables
correlación son distinción
no hay aleatorias.enMientras quedependiente
la variable en la y
Si r= 0,
regresión la correlación
la variable lineal es nula
dependiente será
es nula y diremos
aleatoria o que hay
estocástica,incorrelación.
es decir, tiene una
las independientes, suponiendo que las variables son aleatorias. Mientras que en la
distribución de probabilidad,
regresión la variablemientras que las
dependiente esvariables
aleatoriaexplicativas tienenes
o estocástica, valores
decir,fijos
tiene una
El objetivo
o conocidos. del análisis de regresión es predecir el valor promedio de una variable a partir de valores
distribución de probabilidad, mientras que las variables explicativas tienen valores fijos
de otras variables. En el ejemplo de antes, se podría predecir el promedio de las calificaciones en un
o conocidos.
examen de estadística II conociendo las calificaciones obtenidas en la asignatura de estadística I.
Por tanto, en el análisis de correlación no hay distinción en la variable dependiente y las independientes,
2.7 Medida
suponiendo quede bondad
las variables sonde ajusteMientras que en la regresión la variable dependiente es
aleatorias.
aleatoria o estocástica, es decir, tiene una distribución de probabilidad, mientras que las variables
2.7 Medida de bondad de ajuste
explicativas tienen valores fijos o conocidos.
La medida de bondad de ajuste más conocida y utilizada es el coeficiente de
2.7. Medida
determinación (R2).de
La medida R2 bondad
de mide la de
bondad
de ajuste
proporción o el porcentaje
ajuste más conocida ydeutilizada
la variación
es eltotal en y
coeficiente de
explicada por el modelo de
2 regresión.
2 Por definición:
determinación (R ). R mide la proporción o el porcentaje de la variación total en y
La medida de bondad
explicada de ajustedemás
por el modelo conocida
regresión. y utilizada
Por definición: es el coeficiente de determinación (R2). R2
∧ ∧
mide la proporción o el porcentaje
yi = de
yi +lauivariación total
y explicada por el modelo de regresión. Por
(19)en
definición: ∧ ∧
yi = yi + ui
(19)
∧2
∑ [y − y] = ∑ ( y − y) +∑ u
se obtiene: 2 ∧ ∧
2
i i i (22) (22)
se obtiene: - 14-
La ecuación (22) en palabras es: - 14-
La ecuación (22) se define como:
Suma de cuadrados totales (SCT) =Suma de cuadrados explicados (SCE)+Suma de
Suma de loscuadrados
cuadrados totales
de los(SCT) =Suma
residuos de cuadrados explicados (SCE)+Suma de los cuadrados de
(SCR).
los residuos (SCR).
SCT se puede definir como la variación total de los valores reales de y con respecto a
SCT se puedesu media muestral.
definir como la variación total de los valores reales de y con respecto a su media muestral.
2.
A continuación, vamos a ver qué relación
20
tienen la SCT, SCE, SCR con el R El R 2 se
define como:
N ^ ^ N N ^
SCT se puede definir como la variación total de los valores reales de y con respecto a
Suma de cuadrados
su media muestral.totales (SCT) =Suma de cuadrados explicados (SCE)+Suma de
los cuadradosSCT deselospuede definir
residuos como la variación total de los valores reales de y con respecto a
(SCR).
su media muestral.
viu SCE se en
Grado puede definir como
Administración variación
y Dirección de los valores y estimados alrededor de su
de Empresas
.es
SCT se puede
media o
Módulo
su media
definir de
variación
de Formación
SCE
muestral.
como
se puede
los la variación
valores
Básica y total de los
explicada por valores
la rectareales de y con respecto a
de regresión.
definir como variación de los valores y estimados alrededor de su
media o variación de los valores y explicada por la recta de regresión.
SCR se puede definir como la variación residual o no explicada de los valores de y
SCE se puede definir como variación de los valores y estimados alrededor de su
alrededor de la recta de regresión.
SCE se puede
media definirse
SCR
o variación puede
como
de definir
los variación
valores y decomo la variación
los valores
explicada por la rectaresidual
y estimados o no explicada
alrededor
de regresión. de su media de los valores de
o variación de y
alrededorpor
los valores y explicada de la
larecta
rectadederegresión.
regresión.
SCR se puede definir como la variación residual o no explicada de los valores 2.de y 2
A continuación,
alrededor de la rectavamos a ver qué relación tienen la SCT, SCE, SCR con el R El R se
de regresión.
SCR se puede
define definir como la variación residual o no explicada de los valores de y alrededor de2.la recta2
como:
A continuación, vamos a ver qué relación tienen la SCT, SCE, SCR con el R El R se
de regresión. define como:
2.N N
A continuación, vamos a ver qué relación tienen la SCT, SCE,NSCR ^ ^
con el
2 R El R 2 se 2 ^
define como: ( y ∑
− y ) ( y ∑− y ) − (u )2 N ∑
A continuación, vamosen
var ianza a estudiar
y por qué
la relación
recta detienen la SCT, SCE, SCR iconNel R^2. El R^ 2 se define
regresión I =1
N como:i I =1
^
R2 = = IN=1 ∑
i
( y=i − y ) 2 N ∑ ( y − y ) − ∑
2
= (u i ) 2
var ianza total de los datos y
var ianza en y por la recta de regresión
R2 =
N
∑
^
( y^ i =2− IyN=)1 N2 ∑ i^ 2
2= ( y i − y ) 2
I =1N I =1
=
var ianza total de los datos ∑y ( yI i=1
− y ) ∑ ( y − y ) − ∑ (u N
i )
var ianza en enyy por
varianza porlalarecta
recta de regresión I =1
de regresión ∑ I(=1y −
i i y)
2 I =1
I =1 ∑ ( y − y )
2
R2 = = N = =i
var ianza total
varianza totaldede los datos y y 2
I = 1 N
2
I =1
N ^
∑ ( y i − y) I =1
∑ ( yi − y)
I =1
2
∑ (u )
I =1
i N Suma de cuadrados residuales
^ ( SCR )
=1− ∑=(u1 −) 2
N ^
N
Suma Suma
i
de cuadrados totalesresiduales
de cuadrados ( SCT ) ( SCR )
∑ ( y1)i 2−− yN)I2=1
=
u = 1 −
∑ (
I =1
i
Suma2Suma
de de Suma
cuadradosde residuales
cuadrados cuadrados(SCR)(totales
SCR ) ( SCT )
= 1 − N I =1 ∑ = (1y−i − y )
I =1 SumaSuma de decuadrados
cuadrados totales (SCT)
( SCT )
∑ ( yi − y) 2
I =1
2
La relación
La relación entre entre y el r es:
el R 2 yelelRr es:
La relación entre el R 2 y el r es:
2
La relación entre el R 2 y el r es: S xy
2 S 2Sxy 2 xy
R 2 S=2 xyS 2 x = 22 2 = 2r 2 (24)
S 2y SS xX S= y S xy = r 2
2 R =S 2
R 2 = S 2 x = 2 S y2 = Sr 2 X S (24)
xy
2 2 2 (24)
y
S y S XS y
2.8. Estimación de parámetros en el modelo lineal simple mediante
RCommander
- 15-
Siguiendo con el ejemplo de la Teoría Keynesiana de consumo visto en el tema 1, a continuación
se
muestra un ejemplo de la estimación de parámetros. - 15-
- 15-
la función de consumo Keynesiana ecuación (2):
Dada
21
Econometría I viu
6ECTS .es
familia
xi yi n xi*n yi*n (xi–x) (yi–y) (xi–x) (yi–y)*n (xi–x)2 n (yi–y)2 n
(i)
1 1.600 1.200 1 1.600 1.200 288,33 188,33 54.302,78 83.136,111 35.469,444
2 1.200 900 1 1.200 900 –111,67 –111,67 12.469,44 12.469,444 12.469,444
3 1.500 1.300 1 1.500 1.300 188,33 288,33 54.302,78 35.409,444 83.136,111
4 1.350 1.000 1 1.350 1.000 38,33 –11,67 –447,22 1.469,4444 136,11111
5 1.220 920 1 1.220 920 –91,67 –91,67 8.402,78 8.402,7778 8.402,7778
6 1.000 750 1 1.000 750 –311,67 –261,67 81.552,78 97.136,111 68.469,444
6 7.870 6.070 0,00 0,00 210.583,33 238.083,33 208.083,33
X = 1.311,67 y = 1.011,67 S2x = 39.680,56 S2y = 34.680,56
Una vez introducidos los datos en el software, para obtener el modelo, basta con seleccionar
Estadísticos/ Ajuste de modelos/Regresión lineal y seleccionar cual es la variable dependiente y la
independiente. Los resultados se muestran en la figura 4.
Figura 4. Estimación de parámetros en la función de consumo Keynesiana mediante RCommander. Fuente: elaboración propia.
22
viu Grado en Administración y Dirección de Empresas
.es Módulo de Formación Básica
Tema 3.
Regresión lineal múltiple: definición, estimación y
propiedades
Este tercer tema se centra en definir el modelo de regresión lineal múltiple, cómo se estiman sus
parámetros y cómo se valida dicho modelo. Igual que en el tema anterior, todo lo visto en teoría se
ilustra de forma práctica mediante el software RCommander.
Por tanto, la diferencia entre ambas regresiones es que en la regresión lineal simple sólo hay una
variable explicativa, mientras que en la regresión múltiple hay más de una variable explicativa.
El modelo poblacional de regresión lineal múltiple viene dado por la siguiente expresión:
(25)
23
Econometría I viu
6ECTS .es
x2, x3,..., xk son las variables independientes (llamadas también exógenas o explicativas).
u es el error o perturbación aleatoria la cual es, independiente y normalmente distribuida con media
0 y desviación estándar s.
my (26)
De la misma forma en que se vio en la figura 1, my = E(y) es una función lineal de las de las variables
explicativas con parámetros .
2.500
2.000
Coste total
1.500
1.000
2.000
500 1.500
l
ta
1.000 l to
0 ria
0 a la
500 e s
250 st
Otro
s co 500 0 Co
stes 750
24
Figura 5. Ejemplo de plano poblacional. Lorenzo, J.M.M. (2007).
Figura 5. Ejemplo de plano poblacional. Lorenzo, J.M.M. (2007).
AAcontinuación
continuación el
el modelo
modelo (30)se
(30) seexpresa
expresa de⎤de 1 forma
⎡formax21 matricial:
x31 ....
matricial: xk1 ⎤
A continuación el modelo⎡ ^(30) ⎡ ^expresa
⎤ se de forma matricial:
A continuación el modelo y (30) β
se expresa
⎢ de forma matricial:
⎥
⎢ ⎥ ⎢ ⎥
1 1
1 x22 .... x32 x.... xk 2 ⎥
⎡ ^ ⎤ ⎢ y⎡^ ⎥^ ⎤ ⎡⎢1β ^ ⎥x⎢21⎡1 x31
^ ^
1 ⎤
y 2 β ⎤ x. 21 . x.31 . k.... ⎥ . xxk⎥1 ⎤ ⎤
⎢ ^ ⎥ ⎢ ⎢⎡y⎥^^ =⎤⎥ ⎢1 ⎡β ⎥^x22⎤⎢ ⎡1x32x21.... x31xk 2.....
1 ⎡ 1 ⎢ ⎡ 2 ⎢ ⎤ .
k 1⎥
(32)
⎢ ⎢ . y
1
⎥ ⎥ ⎢
⎢ ⎢. β 1
⎥ ⎢
⎥ 1
⎢ y ⎥ ⎢⎢^β 1 ⎥⎥ ⎢^ 1 ⎥⎢ ⎢. .22 . .32 . . . k 2 ⎥ ⎥ x x ⎥
.... x ⎥
⎢ 2 ⎥ ⎢ ⎢.⎢⎢y⎥^2 ⎥2 ⎥⎥ ⎢⎢ ⎢.β .^⎥ ⎢⎥. ⎢1. .x22. .x32. .... ⎥ x⎥k 2 ⎥ (32)
= ⎢ 2 ⎢ ⎥ ⎢ . . . . . . . ⎥ (32)
⎢ . ⎥ ⎢ ⎢^ ⎢⎢ y⎥.⎥2 ⎥⎥=⎢ ⎢^ ⎢.β⎥ ⎥2.⎥⎢ ⎢.. ... ... ... ... ..⎥ .. . ⎥ ⎥ ⎥
⎢ (32)
⎢ . ⎥ ⎢ ⎢ . ⎢
⎥
⎢ ⎥ ⎢⎣ y⎢⎢n ⎥⎦. ⎥⎥ ⎢⎣=β⎢k ⎥⎦.⎢1⎥⎢ ⎢ x. . x. . .... . ⎥. . ⎥ ⎥
x ⎥
⎢ ^. ⎥ ⎢⎢⎢.^ ⎥ ⎥⎥ ⎢ ⎢ ⎢.. ⎣⎥.⎥⎢ ⎢ . 2..n .. 3..n .. . ⎥ . kn. ⎦⎥ ⎥ ⎥
⎢⎣ y n ⎥⎦ ⎢⎢⎣⎢^β.⎥k ⎥⎥⎦ ⎢1⎢ ⎢^ x. ⎥ ⎥⎢ ⎢ x. . . . .... . . . ⎥. . ⎥
. .xkn. ⎦⎥ . . ⎥
⎢⎣ y ^n ⎥⎦ ⎢⎣ ⎢⎣ β ^k ⎥⎦2 n 1⎢ x3n x ⎥ ⎥(32)
⎢⎣ y n ⎥⎦ ⎢⎣ β k ⎥⎦⎣⎢ 1 x2 n xx3n .... .... xknkn⎦ ⎦⎥
⎢
⎣
La estimación del modelo de regresión múltiple se expresa de la siguiente forma: 2 n 3 n
La estimación del modelo de regresión múltiple se expresa de la siguiente forma:
La estimación del modelo de regresión múltiple ^ ^ se expresa
Dde la siguiente
epartamento
forma: e
Innovación
La estimación del modelo de regresión y = X múltiple
β se expresa
(33)
D
ladde
de (33)
epartamento
Metodología
siguiente
e
M etodología
forma:
e
Innovación
La estimación del modelo de regresión múltiple se expresa de C/
la siguiente
Gorgos,
forma:
nº
5
(46021)
Valencia
donde: donde: ^ ^ C/
Gorgos,
nº
5Tel.
(46021)
9 6
1 Valencia
92
49
73
^ y=Xβ ^ ^ (33) Tel.
9 6
1 92
49
73
^
y es un vector estimado de y ^= nx1.
dimensión X β^ (33)
donde:
y es
un vector estimado de dimensión n x 1. y = X β (33)
^ ^donde:
donde:
y es βun^ ^es vector estimado
un vector de dimensión
estimado k x1. nx1.
es un y vector
es un vector
estimado estimado
k x 1. de dimensión nx1.
^ X yesesunaun matriz x k.
vector nestimado de dimensión nx1.
β es un ^ vector estimado k x1.
X es β ^ es
una un vector
matriz nnx xk.k.estimado k x1.
X es una matriz
es un vector estimado k x1.
3.2Xβ Obtención
es una matriz n de x k. las estimaciones por Mínimos Cuadrados
3.2X Obtención
es una matriz nde x k. las estimaciones por Mínimos Cuadrados
Ordinarios
3.2. Obtención (MCO)
de las ee estimaciones
interpretaciónporde Mínimos
los parámetros
Cuadrados
Ordinarios (MCO) interpretación de los parámetros
obtenidos.
Ordinarios (MCO) e interpretación
- 19- de los parámetros obtenidos
obtenidos.
- 19-
El método
El método consiste
consiste en minimizar
en minimizar la sumalade
suma de- 19-
los cuadrados
los cuadrados de los es
de los residuos, residuos,
decir: es decir:
El método consiste en minimizar
^ la suma de-los 19- cuadrados
n ^ de los residuos, es decir:
2
β MCO
^ → min S CR = min n u^i (34) ∑
β MCO → min S CR = min i =1 u i 2 (34)
(34) ∑ i =1
.es Módulo
2
min = min ∑ u =Básica
de Formación min ∑ ( y − β − β x − .... − β x )
i i 1 2 2i k ki (35)
- - Las
Lascondiciones
condicionesde
deimínimo
=mínimo
1 son:i =1
son:
•• - Derivando parcialmente
Derivando parcialmentee igualando
e ^ a ceroa^para
^ igualando ceroencontrar ^ un mínimo
para encontrar un tenemos las ecuaciones
mínimo tenemos
∂SCR n
las
(37): ecuaciones
^
= 2 (
(37): y i − β 1 − β x
2 2i − β x ∑
3 3i − .... − β x
k ki )(−1) = 0
i =1
∂ β1
∂SCR n ^ ^ ^ ^
= 2∑ ( yi −n β 1 − β ^2 x2i −^ β 3 x3i −^ .... − β k xki )(^ −1) = 0
^
∂SCR
∂ β1 ^
i =1
= 2∑ ( yi − β 1 − β 2 x2i − β 3 x3i − .... − β k xki )(− x2i ) = 0
i =1
∂ β2
∂SCR ∂SCR
n n ^ ^^ ^ ^ ^ ^ ^
^
= 2∑ = (2y∑ i −( y −xβ2i 2−xβ2i 3−xβ3i 3−x....
βi 1−−ββ1-2-20-
20- −− β
....k−x βki )(− x2i −
k x ki )(
)=
x30
i) = 0
(37)
^
i =1
3i
∂ β2 ∂ β3 i =1
- 20- ^
∂SCR ……… n ^
………… ^
………… ……… ^
……… …… ………
= 2 ∑ ( y − β − β x − β x − .... − β k x ki )(− x3i ) = 0
(37)
^ ……… i =1
i
………… 1 2 2i
………… 3 3i
……… ……… …… ………
∂ β 3 ……… ………… ………… ……… ……… …… ………
………∂SCR………… n ………… ^ ^ ………^ ……… …… ^ ………
……… …………
^
= 2 ( y
…………
i − β 1 − β x
………
2 2 i − β x
∑
………
3 3i − .... −
…… β k x ki )(− x ki ) = 0
………
……… ∂ β…………
k
i =1 ………… ……… ……… …… ………
∂SCR n ^ ^ ^ ^
^
= 2∑ ( yi − β 1 − β 2 x2i − β 3 x3i − .... − β k xki )(− xki ) = 0 (37)
i =1
β k ecuaciones
De∂las (37) se deducen las ecuaciones normales del hiperplano (38), como
resultado de igualar a 0 las derivadas anteriores:
De las ecuaciones (37) se deducen las ecuaciones normales del hiperplano (38), como resultado de
De las
igualar a 0ecuaciones (37)
las derivadas se deducen las ecuaciones normales del hiperplano (38), como
anteriores:
resultado de igualar a 0 las derivadas anteriores:
n ^ ^ ^ ^
∑ ( yi − β 1 − β 2 x2i − β 3 x3i − .... − β k xki ) = 0
i =1
n ^ ^ ^ ^
∑ ( yi −n β 1 − β ^2 x2i −
^ β 3 x3i −
^ .... − β k x ki )^ = 0
i =1 ∑ ( yi − β 1 − β 2 x2i − β 3 x3i − .... − β k xki ) x21 = 0
i =1
n n ^ ^^ ^ ^ ^ ^ ^
− β( 1y−
∑ ( yi ∑ i −ββ2 1x− β x − β x i −β....
2 i − 2β 32 ix3i − 3.... 3−
− β xki )0x31 = 0
k x ki ) xk21 =
(38)
i =1 i =1
n ……….
^
^
……….
^
……….
……….
^
……….
……….
∑ ( yi −n β 1 − β ^2 x2i −^ β 3 x3i −^ .... − β k xki )^x31 = 0
(38)
i =1 ∑ ( yi − β 1 − β 2 x2i − β 3 x3i − .... − β k xki ) xk1 = 0
(38)
……….
i
=
1
……….
……….
……….
……….
……….
n
^ ^ ^ ^
∑ ( yi − β 1 − β 2 x2i − β 3 x3i − .... − β k 27 xki ) xk1 = 0
El sistema de ecuaciones anterior, puede expresarse matricialmente como:
i =1
^
……….
……….
……….
……….
……….
……….
Departamento
de
Metodología
e
Innovación
n ^ ^ ^ ^ C/
Gorgos,
nº
5
(46021)
Valencia
∑ ( yi − β 1 − β 2 x2i − β 3 x3i − .... − β k xki ) xk1
=Departamento
0
Econometría
de
Metodología
eTel.
96
viu
I 192
Innovación
49
73
i =1
6ECTS
C/
Gorgos,
nº
5
(46021)
Valencia
.es
Tel.
9 6
Departamento
de
Metodología
e
Innovación
1 92
49
73
^
Elvector sistema de deparámetros
ecuaciones estimados
anterior, puede β simplemente expresarse haymatricialmente
queC/
despejar 5dicho
(46021)
vector
Gorgos,
nº
como: Valencia
de
la
El sistema de ecuaciones
siguiente forma: anterior, puede ^
expresarse matricialmente como: Tel.
9 6
1
Departamento
de
Metodología
e
Innovación
92
4 9
7 3
vector
de parámetros estimados β simplemente ^
D hay que
epartamento
despejar
d e
M dicho
etodología
e
Ivector
nnovación
de
C/
Gorgos,
nº
5
(46021)
Valencia
la
siguiente forma: (^ X ' y ) = ( X ' X ) β (39) C/
(39)
Gorgos,
nº
5
(46021)
VTel.
alencia
96
1
92
49
73
vector
de parámetros estimados β simplemente −1 hay que−1despejar ^ dicho vector de73
la
Tel.
9 6
1 92
4 9
donde donde es Xla 'matriz
X 'forma: transpuesta
es la matriz de X.
transpuesta ( X ' Xde) X.X ' y = ( X ' X ) X ' X β (40)
siguiente ^
^
vector de parámetros estimados ^ β simplemente −hay que despejar dicho vector de la
vector En elde Ensistema el sistema
parámetros de ecuaciones
estimados
de ecuaciones (38) hayβ( Xsimplemente
'(38) ) −1hay
kX^ecuacionesX ' yk=ecuaciones
(1yXk' incógnitas
hay Xque ) 1X 'yXkβ
despejar incógnitas (40) vector
dicho
correspondientes correspondientes adelos la parámetros. a
siguiente forma: β = ( X ' X ) −
X ' y (41)
siguiente los
Este
sistema parámetros. Este sistema se puede
forma:se puede resolver con álgebra matricial. Para obtener resolver con álgebra
^ matricial.
el vector de parámetros estimadosPara obtener el
( X '^ X ) −1 X ' y =−1 ( X ' X ) −1 X ' X β (40)
simplemente hay que despejarβdicho = ( Xvector
' X ) de X ' -yla21-
siguiente (41) forma:
Como el rango de la matriz X 'X −1es k, ambos miembros −1
^
de la ecuación (40) se han
^
−1 −1
( X ' X ) −1
X ' y = (
−1
X ' X ) ^ X'X β (40)
multiplicado por ( X '(X X)β' X.=) ( XX' 'Xy )= (XX' 'yX ) X (41) 'X β (40)(40)
Como el rango de la matriz X ^' X es k, ambos miembros de la ecuación (40) se han
multiplicado Finalmente porlos ' X ) −1^.
( Xparámetros = −(1X ' X )quedarían
βa estimar −1
X'y (41)
de la(41) siguiente manera:
β = ( X ' X )
Como el rango de la matriz X ' X es k, ambos miembros de la ecuación (40) se han X ' y (41)
Como
Finalmente
multiplicado el rango por de( la
los X 'matriz
X ) −1. X ' X
parámetros es k, ambos
a estimar quedaríanmiembros de de la ecuación
la siguiente (40) se han multiplicado por
manera:
^
Como
(X ' X ) . �1
el rango de la matriz X ' X es
⎡ k,⎤ ambos
β 1 ⎥ miembros de la ecuación miembros de la ecuación (40) se han
Como el rango de la matriz X−1' X es k, ambos ⎢ (40) se han
Finalmente multiplicado por −(1X ' X )a estimar
los parámetros . quedarían
^ de la siguiente manera:
multiplicado
Finalmente por X ' X ) . a estimar quedarían
los(parámetros
^ ⎢ ⎥
⎡ ⎤β 2 de la siguiente manera:
⎢ β^ 1 ⎢⎥ ⎥ = [ X ' X ]−1 X ' y (42)
Finalmente los parámetros a estimar ⎢ quedarían
. ⎥ de la siguiente manera:
Finalmente los parámetros a estimar⎡ quedarían ^ ⎢ β ⎥
⎤ 2 ⎢ ⎥ de la siguiente manera:
β
⎢ ⎢1 ⎥ ⎥ =. [ X ' X ]−1 X ' y (42)
. ⎢ ^ ⎥
⎢ β ⎢⎢ ⎥⎡ ^⎢⎥⎥β⎤ ⎥
^
.es Δy =Básica
β Δx + β Δx + .... + β Δx ^ ^ ^ ^
(45)
Δy = β 22 Δ^x22 +^β 33 Δx33 + ^.... + β kk Δxkk ^ (45)
Módulo de Formación
^ Δy = β^ del
2 Δx2^+ β 3 Δx3 + .... + β k Δxk
Sabemos que^ la estimación modelo de ^ regresión múltiple,(45)
para la observación i-
y = βpor
ésima, vieneΔdada 2 Δ x
la 2 + β Δ
siguientex
3 ^ ^3 + .... +
expresión β k Δ x
(30).k
(45)
La expresión (45) recoge los la
cambios en y debido a de
losregresión
cambiosmúltiple,
producidos en
en todas
La Imaginemos
La expresión
expresión (45)recoge
(45) ahora
recoge los estimación
loscambios
cambios enen y debido
del
y debidomodelo ^ a cambios
a los los cambios producidos
producidos pero
en en
todas este
todas caso
las variables
las variables explicativas.
para la Claramente,
observación j-ésima: se observa que:
La expresión (45) recoge los cambios en y debido a los cambios producidos en todas
^
las variablesClaramente,
explicativas. explicativas. seClaramente,
observa que: se observa que:
La expresión (45) recoge los cambios en y debido a los cambios producidos en todas
las variables explicativas. ^ ^ ^ Claramente,
^ ^ se observa ^ que:
las variables explicativas. Claramente,
y j = β 1β^+ha xse +observa x que:
.... x
-• La constante constantedel delmodelo
modelo β
hadesaparecido. β
desaparecido.
2j 3 3j + + β k kj (44)
- La constante del modelo β 11 ha2 desaparecido. ^
^ ^ ^
--• La Δ^y constante=En - y^ −Lay^ constante del modelo ^ β 1queha desaparecido.
la expresión
del modelo(44) seβ observa han cambiado tanto los valores de la variable
- Δy =dependiente y i − ^y j ^ como
i j
^ 1 ha desaparecido.
los de las variables independientes.
- Δ^x2 =- ^x2iΔ−^y x=2 jy i − y j
--• Δ Δyx2==yxi 2−i −y jx2 j
- ........ Si - restamos Δx2 = xlas expresiones (30) y (44) se obtiene la siguiente expresión:
2i − x2 j
--- ........ Δ x =
Δxk2 =- xki2........ x −
i − x2 jx
-• ..........
Δxk = xki − xkjkj
- ........
- Δxk = xki − xkj
Imaginemos -• Δxk =que xki −sólo xkj cambia la variable x , en concreto se incrementa una unidad. Si
Imaginemos que sólo cambia la variable x33 , en concreto - 22- se incrementa una unidad. Si
nos fijamos Imaginemos en la expresión
que sólo (45) tendremos
cambia lax variableque: x3 , en concreto seuna incrementa una unidad. Si
nos Imaginemos fijamos
enque lasóloexpresión
cambia (45)
la tendremos
variable , en que:
concreto se incrementa unidad. Si nos fijamos en
Imaginemos que sólo cambia la variable x3 , en concreto se incrementa una unidad. Si 3
la expresión nos (45) fijamos en la^ expresión (45) tendremos que:
latendremos que: ^
nos fijamos en expresión
Δ^y =(45) β^ 3 Δtendremos
x3 que: (46)
Δy = β 3 Δ^x3 ^ (46)
^ ^
^^ ^^ Δy = β Δx (46) (46)
Δ y=β β para 3Δx 3 = 1 (47)
Δyy =
Δ = β 333 Δpara ^
x 3 ^ Δ x 3
3 = 1 (46)
(47)
^ ^ Δy = β para Δx3 = 1 (47) (47)
3
De las expresiones anteriores
De las expresiones anteriores (46) y (47) se desprende que:
Δ y = β (46)
3 para y (47) Δ xse3 = 1
desprende que:(47)
^
De las expresiones
^ mide
β 3 mide De el las cambio anteriores
expresiones en la variable (46) y (47)
anteriores se(46)
dependiente desprende
y (47) se yque: cuando x3 que:
desprende cambia en 1 unidad,
De β 3 las expresiones ^el cambio anteriores en la variable (46) ydependiente
(47) se desprende y cuando que: x3 cambia en 1 unidad,
manteniendo constantes el resto en lade variablesdependiente explicativas. cuando x cambia en 1 unidad,
^
manteniendo mideβelel mide el cambio
constantes lael variable
resto variables explicativas.xy3 cambia
devariable
β 3 mide 3 cambio
cambio en en la variable dependientey cuando
dependiente y cuando x3 cambia en 13 unidad, en 1 unidad, manteniendo
manteniendo
constantes el resto de variables explicativas. constantes el resto de variables explicativas. ^
manteniendo constantes el resto de variables explicativas.
Así pues, los demás parámetros se interpretan de la misma manera (excepto β^ 1 ):
Así pues, los demás parámetros se interpretan de la misma manera (excepto β 1 ): ^
Así pues,Así los pues, demáslos parámetros
demás parámetros se interpretan se de la misma de
interpretan manera (excepto
la misma manera ): (excepto ^ β 1 ):
^ ^ ^
Así β^ 2 ,pues, β^ βlos
^ demás el parámetros
cambio enselainterpretan de la misma manera y cuando (exceptox cambia β 1 ): en 1
k miden variable dependiente
β 2 , β 33,...., ,...., ^β kmiden ^miden ^ elelcambio
cambioen enlalavariable dependiente y y cuando
variabledependiente cuando xx cambia cambiaen en11unidad,
unidad,
^ ^ manteniendo
β ^ ,β β constantes
miden el el restoendelavariables
cambio variable explicativas.
dependiente y cuando x cambia en 1
unidad,
βmanteniendo manteniendo2 constantes
3,...., k constantes
el resto deelvariables resto deexplicativas. variables explicativas.
2 , β 3,...., β k miden el cambio en la variable dependiente y cuando x cambia en 1
unidad, manteniendo constantes el resto de variables explicativas.
unidad,
Cuando interpretamos manteniendo constantesindependiente, el resto de variables explicativas.
Cuando interpretamoseleltérmino término independiente, el razonamiento
el razonamiento anterior
anterior no seno debe se de debe aplicar.
Cuando interpretamos el término independiente, el razonamiento anterior no se debe
de aplicar.
de Deaplicar.
esta forma, Cuando ^interpretamos es el parámetroelasociado términoalindependiente, término constante, el razonamiento
el cual recoge anterior el valor esperado no se debe de
Cuando de interpretamos
aplicar. ^ el término independiente, el razonamiento anterior no se debe
De esta forma,
la variable dependiente β 1 es elcuando parámetro el resto asociado de variables al término
explicativasconstante,
tomaneeel
l
cvalor
ual
recoge
cero, es el
decir,
valor
de
De aplicar.
esta forma, β 1 es el ^parámetro asociado al término
constante,
l
cual
recoge
el
valor
cuando
esperado
el resto de De de
variables la
esta variable
^forma, dependiente
explicativas permanecen cuando
el
resto
constantes. de
variables
explicativas
toman
el
el
valor
esperado
de
la
variable
1 es el parámetro
βdependiente
cuando
asociado al término
el
resto
de
variables
constante,
explicativas
el
cual
toman
recoge
el
valor
De esta cero,
forma, es
decir,
β 1
ces
uando
el
resto
de
el parámetro asociadovariables
alexplicativas
permanecen
término
constante,
constantes.
el
cual
recoge
el
valor
valor
cero,
e s
d ecir,
c uando
e l
r esto
d e
v ariables
e xplicativas
p ermanecen
esperado
de
la
variable
dependiente
cuando
el
resto
de
variables
explicativas
toman
el
c onstantes.
esperado
3.3. Supuestos de
la
valor
cero,
es
ddetrás
variable
dependiente
ecir,
cuando
deldee
l
método
rcuando
esto
de
el
de MCO
resto
variables
de
variables
explicativas
explicativas
permanecen
toman
constantes.
el
valor
cero,
e s
d ecir,
c uando
e l
r esto
v ariables
e xplicativas
p ermanecen
c onstantes.
3.3
Supuestos detrás del método de
de MCO.
3.3 Supuestos detrás delsupuestos método MCO.
A continuación,
se estudian algunos estadísticos del MCRL en regresión lineal múltiple.
Estos supuestos 3.3 Supuestos son sencillos, ydetrás los estimadores del método MCO obtenidos de MCO.
tienen, bajo de
Mestos supuestos, muy
3.3
Abuenas continuación,
Supuestos se estudian
detrás del
algunos
método de MCO.
Departamento
etodología
e
Innovación
propiedades. La justificación desupuestos estas propiedades estadísticos es similar del MCRL
a la delen
C/
G caso
orgos,
n regresión
º
5
del modelo de
( 46021)
V alencia
A continuación, se estudian algunos supuestos estadísticos del MCRL en regresión Tel.
9 6
1 92
4 9
7 3
lineal
regresión múltiple. lineal Estos supuestos son sencillos, y los estimadores MCO obtenidos
simple.
lineal
A
múltiple. continuación, Estos se
supuestos estudian son algunos
sencillos, supuestos
y los estadísticos
estimadores del
MCO MCRL obtenidos en regresión
A continuación,
tienen, bajo estos se estudian
supuestos, algunos
muy buenas supuestos estadísticosLadeljustificación
propiedades. MCRL en regresión de estas
tienen, bajo lineal estos múltiple. Estos supuestos
supuestos, muy buenas son propiedades.
sencillos, y los estimadores de
La justificación MCO estas obtenidos
Modelo
lineal
propiedades Modelo de
múltiple. regresión
de esRegresión
similar lineal.
Estos asupuestos del casoson
laLineal. del sencillos,
modelo deyregresión los estimadores lineal simple. MCO obtenidos
propiedades tienen, bajo estos
es similar a la del supuestos,
caso del modelo muy buenas propiedades.
de regresión La justificación de estas
lineal simple.
tienen, bajo estos supuestos, muy buenas propiedades. La justificación de estas
El modelo El modelo propiedades
de es desimilar
regresión esessimilar
regresión es en
lineal a la
lineallosdelen
parámetros:caso
los del modelo de regresión lineal simple.
parámetros:
propiedades a la del caso del modelo de regresión lineal simple.
- 23-
y = β1 + β 2 x 2- + β 3 x3 + .... + β k x k + u
23-
- 23-
- 23-
Los
valores de x son fijos en muestreo repetido o la matriz x es fija en repetidas
muestras. El análisis de regresión es un análisis de regresión condicional, es decir, el
valor de la variable dependiente, está 29 condicionado a los valores dados de las
variables independientes.
Econometría I viu
6ECTS .es
Los valores de x son fijos en muestreo repetido o la matriz x es fija en repetidas muestras. El
análisis de regresión es un análisis de regresión condicional, es decir, el valor de la variable dependiente,
está condicionado a los valores dados de las variables independientes.
No autocorrelación entre las perturbaciones. Dados dos valores cualesquiera de las perturbaciones
aleatorias, la correlación entre ellos correspondientes es cero. Por ejemplo, dentro de la matriz de
varianzas y covarianzas los términos que no se encuentran en la diagonal principal son ceros.
El número de observaciones debe de ser mayor que el número de parámetros por estimar. El
número de observaciones (n) debe ser mayor que el número de variables explicativas.
Variabilidad en los valores de X. Lógicamente no todos los valores de x en una muestra dada deben
ser iguales. La varianza de x debe ser un número positivo y tiene un límite finito cuando n tiende a
infinito.
No hay multicolinealidad perfecta. Es decir, no hay relaciones perfectamente lineales entre las
variables explicativas. Si un regresor es una combinación lineal exacta de otros regresores, entonces
se dice que hay multicolinealidad perfecta, y el modelo no puede estimarse.
30
Las estimaciones MCO no permiten evaluar la calidad del modelo que hemos
viu Grado Las estimaciones
enobtenido.
MCO no permiten
A continuación
Administración y Dirección dese
evaluar
muestran
Empresas
la calidad
medidas del modelo
de bondad que que
de ajuste hemos
podrían
.es Módulo de
obtenido. A
utilizarsecontinuación
para
Formación se muestran medidas de bondad de ajuste que podrían
seleccionar, si estamos ante varios modelos alternativos, el modelo que
Básica
utilizarse para seleccionar,
mejor se ajusta a nuestros si estamos
datos. ante varios modelos alternativos, el modelo que
mejor se ajusta a nuestros datos.
2
R2
R múltiple2o Coeficiente de determinación
R
A partir (23)
A partir de la ecuación de la ecuación
estudiada en(23) estudiada
el tema 2: en el Tema 2:
A partir de la ecuación (23) estudiada en el Tema 2:
N ^
2
N ^
∑ (u )
(u ) 2 i
Suma decuadrados
Suma de cuadrados residuales
residuales (SCR) ( SCR)
R 2
= ∑
1 −
I =1 N
iI =1
= 1
Suma− de cuadrados residuales ( SCR
= ) =
Suma decuadrados
cuadrados
totalestotales ( SCT
2
R =1− N = 1 2− Suma de (SCT) =)
∑ ( yi − y) Suma de cuadrados totales (SCT )
∑ ( yiI =−1 y) 2
I =1
Suma
Suma dede
cuadrados explicada
cuadrados exppor la regresión
licada por la (SCE)regresión ( SCE )
= de cuadrados exp licada por la regresión ( SCE )
Suma
= Suma
Suma de cuadrados
de cuadrados totales
totales (SCT) ( SCT )
Suma de cuadrados totales ( SCT )
2
Sabemos Sabemos Sabemos
que cuando 2que cuando el R es 1 el modelo se ajusta perfectamente a los datos, debido
el Rcuando
es 1 el elmodelo
2 se ajusta perfectamente a los datos, debido a que la SCR o
que R
a que la SCR o varianza residual es 1 el modelo se ajusta
es cero y porperfectamente
tanto, no existirá a los datos,
ningún debido
error. Por el
varianza residual laesSCR
cero yo por
a quecontrario, tanto, no existiráes ningún yerror.
por Por el contrario, si el R es 0 error.
2
el modelo el
si2varianza
el R2 es residual
0 el modelocero no ajusta tanto,
bien ano losexistirá
datos, ningún
debido a quePor la SCE es
no ajusta contrario,
bien cero.
a los datos, es 0 aelque
siEvidentemente
el Rdebido modelo SCEnoesajusta
estalamedida cero.
estará bien a los comprendida
Evidentemente
siempre datos,
estadebido
medida aestará
entreque0 yla1.SCE es
siempre
comprendidacero.entre
Evidentemente
0 y 1. esta medida estará siempre comprendida entre 0 y 1.
Una de las limitaciones de esta medida es que cuando se añaden nuevas variables
Una de las Una de las limitaciones
explicativas
limitaciones de estaal modelo,de esta
medida es medida
que cuando es se
independientemente que cuando
añadende nuevasse añaden
éstas variablesnuevas
tengan variables
oexplicativas
no relación al con la
explicativas
variable al modelo,
dependiente, independientemente
el coeficiente de de éstas
determinación tengan
aumenta o nosu relación
valor. con la
modelo, independientemente de éstas tengan o no relación con la variable dependiente, el coeficiente
variable dependiente, el coeficiente de determinación aumenta su valor.
de determinación2 aumenta su valor.
R ajustado o corregido
R2 ajustado o corregido
R2 ajustado o corregido
Se utiliza para la selección de un modelo entre varios que explican una misma
Se utiliza
variable.paraEnlaestos selección
casos2de el Run2
nomodelo
serviríaentre
para varios que explican
la comparación, debidounaa misma
que existen
variable.
Se utiliza para En estos
ladiferentes
selección de uncasos
modeloel R no
entre serviría
varios que para la
explican comparación,
una misma debido
variable.
números de observaciones, de variables…El coeficiente de determinación Ena que
estos existen
casos
diferentes
el R2 múltiple números
ajustado,
no serviría comoparadeindica
laobservaciones,
su nombre,
comparación, de se
variables…El
debido “ajusta” coeficiente
teniendo
a que existen en de
diferentes determinación
cuanta
númerosel número
de de
ajustado, como
variables que indica
se su nombre,
incluyen en else “ajusta”
modelo. En teniendo
otras en cuanta
palabras,
observaciones, de variables…El coeficiente de determinación ajustado, como indica su nombre, se el
penaliza número
al de
añadir más
variables que se
variables incluyen en el
independientes a unmodelo.
modelo, En reflejándose
otras palabras, lapenaliza alcual
añadir más o se
“ajusta” teniendo
variables en independientes
cuanta el númeroa de unvariables
modelo,que se incluyenen
reflejándose elen
en la modelo.SCR la
SCR la En otras
cual
decrece
palabras,
decrece o se
queda con el mismo valor.
penaliza alqueda
añadircon máselvariables
mismo valor. independientes a un modelo, reflejándose en la SCR la cual decrece
o se queda con el mismo valor.
Su expresión es la siguiente:
Su expresión
Su expresión es la siguiente:es la siguiente:
SCR
SCR
R =n1−−k n−−1 k − 1
2
2 (48)
R =1− SCT (48)
SCT
n −1
n −1 (48)
Departamento
de
Metodología
e
Innovación
C/
Gorgos,
nº
5
(46021)
Valencia
La diferencia entre la ecuación
La diferencia (23) la
entre y la ecuación(23)
ecuación (48)yeslaque en la última
ecuación se que
(48) es divide numerador
enTel.
la96
última y
divide
192
49
7se
3
La
denominador por diferencia
numerador entre
los gradosy de la ecuación
denominador (23) y la ecuación (48) es que
por los grados de libertad correspondientes.
libertad correspondientes. en la última se divide
numerador y denominador por los grados de libertad correspondientes.
2 2 2
La relación R y RR
entre entre es laRsiguiente:
es la siguiente: - 25-
2 y
La relación
- 25-
2 n −1
R = 1 − (1 − R 2 )
(49)
n − k −1 (49)
Otros estadísticos utilizados para comparar modelo, los cuales penalizan la introducción de nuevas
variables independientes, son el Akaike information criterion (AIC) y el Bayesian information criterion
(BIC). Ambos criterios, incurren en el valor de la función de verosimilitud, el número de parámetros y
la cantidad de información, por tanto, penalizan el modelo con mayor número de parámetros. El
mejor modelo para explicar los datos con el mínimo número de parámetros es aquel que presenta el
menor valor de ambos criterios:
AIC = D + 2 p (50)
La diferencia entre ambos criterios podría resumirse en que el criterio BIC tiende a seleccionar modelos
más simples que los que seleccionaría AIC.
3.5.
Estimación de los parámetros en una regresión múltiple
mediante RCommander
A continuación se muestra un ejemplo de la estimación de parámetros mínimos cuadrados en una
regresión múltiple utilizando RCommander.
Una empresa dedicada a distribuir comida preparada a domicilio desea conocer el grado de
satisfacción de sus clientes. Para ello, dicha empresa ha recogido información correspondiente las
siguientes variables: Número pedidos al día, distancia medida en Kilómetros y tiempo de entrega del
pedido, medido en minutos. La variable dependiente, será el tiempo de entrega del pedido, ya que, a
menor tiempo de entrega, mayor satisfacción tendrá el cliente. La siguiente tabla, muestra las variables
mencionadas recogidas en un determinado día:
32
viu Grado en Administración y Dirección de Empresas
.es Módulo de Formación Básica
Antes de estimar el modelo, vamos a estudiar la relación entre la variable dependiente y las
independientes. Para ello, una vez cargados los datos, seleccionamos en RCommander la siguiente
ruta: Gráficas/Diagrama de dispersión seleccionando las variables correspondientes. Obtenemos los
siguientes gráficos bidimensionales:
33
Econometría I viu
6ECTS .es
Figura 6. Gráfico bidimensional del tiempo de espera respecto al número de pedidos. Fuente: elaboración propia.
En la figura 6 y la figura 7, se puede observar que la variable dependiente tiempo entrega tiene una
relación lineal positiva con el número de pedidos y con la distancia, por lo que a medida las dos
covariables aumentan, el tiempo de entrega también lo hará. Esta relación lineal, es más marcada
entre las variables tiempo entrega y número de pedidos (figura 6). Se detecta mayor variabilidad o
dispersión entre las variables tiempo entrega y distancia (figura 7). Esta variabilidad se traduce en la
intensidad de la relación lineal entre las variables, por lo que a mayor dispersión, menor será la
intensidad de la relación lineal entre las variables.
34
viu Grado en Administración y Dirección de Empresas
.es Módulo de Formación Básica
[Insertar figura 6]
[Insertar figura 7]
tiempo de tiempo
espera
de=espera 2 número número
β1 + β= de pedidos + β 3 dis
de pérdidas cia + u+ u
+ tandistancia
⎡48⎤ ⎡ ^ ⎤ ⎡1 20 60 ⎤
β ⎢1
⎢54 ⎥ ⎢ ⎥1
⎢ 30 50 ⎥⎥
⎢ ⎥ ^ ⎢ ^ ⎥
y = ⎢ . ⎥ β = ⎢ β 2 ⎥ X = ⎢. . . ⎥
⎢ ⎥ ⎢ ^ ⎥ ⎢ ⎥
⎢ . ⎥ ⎢ β ⎥ ⎢. . . ⎥
⎢⎣80 ⎥⎦ ⎣ 3 ⎦ ⎢⎣1 48 66 ⎥⎦
Para calcular el vector de parámetros estimados, utilizamos las ecuaciones (39) y (41)
de la siguiente forma:
^
( X ' y) = ( X ' X ) β ⎛ ^ ⎞
β
35 ⎛ 926 ⎞ ⎛15 540 864 ⎞⎜⎜ 1 ⎟⎟
⎜ ⎟ ⎜ ⎟ ^
⎜ 34716 ⎟ = ⎜ 540 21456 31108⎟⎜ β 2 ⎟
⎜ 53034 ⎟ ⎜ 864 31108 51416 ⎟⎜ ^ ⎟
⎝ ⎠ ⎝ ⎠⎜ ⎟
⎢ ⎥
⎢1 30 50 ⎥
⎢ ⎥
⎢54 ⎥ ^ ⎢ ^ ⎥ ⎢ ⎥ ⎢ ^ ⎥ ⎢ ⎥
y = ⎢ . ⎥ β = ⎢ β 2 ⎥ X = ⎢. . . ⎥ ⎢ . ⎥ ⎢ β ⎥ ⎢. . . ⎥
⎢ ⎥ ⎢ ⎥ ⎢⎣80 ⎥⎦ ⎣ 3 ⎦ ⎢⎣1 48 66 ⎥⎦
⎢ . ⎥
⎢ ^ ⎥
⎢. . . ⎥ Econometría I viu
.es
⎢ β ⎥
⎢⎣80 ⎥⎦ ⎣ ⎦3 ⎢⎣1 48 66 ⎥⎦ 6ECTS
Para calcular el vector de parámetros estimados, utilizamos las ecuaciones (39) y (41)
de la siguiente forma:
alcular el vectorPara calcular el vector
de parámetros de parámetros
estimados, estimados,
utilizamos las utilizamos
ecuaciones las ecuaciones (39) y (41) de la siguiente
(39) y (41)
iguiente forma: forma:
Departamento
de
Metodología
e
Innovación
^
C/
Gorgos,
nº
5
(46021)
Valencia
⎛ ^ ⎞
( X ' y) = ( X ' X ) β β
^ ⎛ 926 ⎞ ⎛15 540 864 ⎞⎜⎜ 1 ⎟⎟ Tel.
96
192
49
73
^ ⎜ ⎟ ⎜ ⎟
( X ' y
) = ( X ' X ) β ⎛ ⎞
⎜ β 1⎜ 34716
⎟
^
= ⎜ 540 21456 31108⎟⎜ β 2 ⎟
⎛ 926 ⎞ ⎛15 540 864 ⎞⎜ ⎟ ⎟
⎜ ⎟ ⎜ ⎟ ^ ⎜ 53034 ⎟ ⎜ 864 31108 51416 ⎟⎜ ^ ⎟
⎜ 34716 =
⎟ ⎜ 540 21456 31108 ⎟⎜ β ⎝2 ⎟ ⎠ ⎝ ⎠⎜ β ⎟
⎜ 3 ⎟
⎜ 53034 ⎟ ⎜ 864 31108 51416 ⎟⎜ ^ ⎟ ⎝ ⎠
⎝ ⎠ ⎝ ⎠⎜ β ⎟
⎜ 3 ⎟
- 28- ⎝ ⎠
- 28-
la siguiente forma:
Para obtener los betas los despejamos de la ecuación anterior de
Para obtener los betas los despejamos de la ecuación anterior de la siguiente forma:
^
β = ( X ' X ) −1 X ' y
⎛ ^ ⎞
⎜ β 1 ⎟ 2,72 − 0,02 − 0,03 926
⎜ ^ ⎟ ⎛⎜ ⎞⎛
⎟⎜
⎞
⎟
⎜ β 2 ⎟ = ⎜ − 0,02 0,00 0 ,00 ⎟⎜ 34716 ⎟
⎜ ^ ⎟ ⎜ ⎟⎜ ⎟
⎜⎜ β ⎟⎟ ⎝ − 0,03 0,00 0,00 ⎠⎝ 53034 ⎠
3
⎝ ⎠
⎛ ^ ⎞
⎜ β 1 ⎟
⎜ ^ ⎟ ⎛⎜ 6,97 ⎞⎟
⎜ β 2 ⎟ = ⎜ 0,68 ⎟
⎜ ^ ⎟ ⎜ ⎟
⎜⎜ β ⎟⎟ ⎝ 0,52 ⎠
3
⎝ ⎠
La recta de La
regresión
recta dequedaría
regresióndequedaría
la siguiente
de lamanera:
siguiente manera:
tiempotiempo
de de entrega
espera = 6,=
976,97
+ 0,+
680,68 número
número dede pedidos
pedidos ++00,52 distancia
,52dis tan cia
Para ello,laseguimos
Para ello, seguimos siguiente la siguiente
ruta: ruta: Estadísticos/Ajuste
Estadísticos/Ajuste de modelos/Regresión
de modelos/Regresión lineal las
lineal seleccionando
seleccionando las variables correspondientes. El modelo obtenido con RCommander
variables correspondientes. El modelo obtenido con RCommander da la siguiente salida (figura 8).
da la siguiente salida:
La interpretación
Indica que depedidos
si el número de los parámetros
aumentaquedaría
en una de la siguiente
unidad, manera:
el tiempo promedio de entrega de la
mercancía aumentará en 0,68 minutos cuando la distancia se mantiene constante.
^
Indica que
β 1 siRepresenta
la distanciael
aumenta entiempo
valor del un kilómetro, el tiempo
de entrega de la promedio
mercancíade entrega
cuando el de la mercancía
número de
aumentará pedidos
en 0,52 minutos cuandose
y la distancia el número de pedidos
mantienen se mantiene
constantes, es decir,constante.
cuando el número de
pedidos y la distancia valen cero.
- 29-
36
viu Grado en Administración y Dirección de Empresas
.es Módulo de Formación Básica
Figura 8. Modelo de regresión lineal obtenido con RCommander. Fuente: elaboración propia.
Como ya mencionamos, existen varios supuestos para validar si un modelo de regresión lineal es
bueno, a continuación comprobamos algunos de ellos:
Linealidad.
Para obtener el gráfico que nos ayudará a detectar la homocedasticidad, seguimos la siguiente ruta:
Modelos / Gráficas / Gráficas básicas de diagnóstico. El primer gráfico obtenido es el siguiente:
Residuals vs Fitted
10 –
4
5–
Residuals
0–
-5 –
8
-10 –
-15 – 5
–
50 55 60 65 70 75 80 85
Fitted values
Figura 9. Gráfico de los residuos frente los residuos ajustados. Fuente: elaboración propia.
37
Econometría I viu
6ECTS .es
Este supuesto asume que los residuos en las predicciones son constantes en cada predicción (es decir,
varianza constante). Se observa que los residuos son contantes con el promedio indicando
homocedasticidad.
Este supuesto asume que los residuos deben seguir una distribución normal, debido a que la falta de
ésta supone poca precisión en los intervalos de confianza creados por el modelo.
Normal Q-Q
2– 4
Standardized residuals
1– 15
0–
-1 –
-2 –
-3 –
–
-1 0 –1
Theoretical Quantiles
Figura 10. Gráfica de probabilidad normal de los residuos. Fuente: elaboración propia.
Como las observaciones se encuentras situadas sobre la diagonal principal, se confirma la normalidad
de los residuos.
Este supuesto asume que los residuos no están autocorrelacionados, por lo cual son independientes.
Para validar la independencia de los residuos vamos a usar el test Durbin Watson (DW), donde si el
valor del estadístico DW está próximo a 2 entonces los residuos no están autocorrelacionados.
library (lmtest)
residuosdw<-dwtest(Tiempo_entrega ~ Distancia + Número_pedidos, data = Dataset)
residuosdw$statistic
DW
2.751758
38
viu Grado en Administración y Dirección de Empresas
.es Módulo de Formación Básica
Tema 4.
Contraste de hipótesis en el modelo de regresión múltiple
El objetivo de este tema es saber realizar contraste de hipótesis en el modelo de regresión lineal
múltiple para saber la significatividad de cada parámetro cuando las variables explicativas son
cuantitativas. Además, se estudia cómo realizar predicciones con dicho modelo y que efecto tiene
añadir a éste una variable de tipo cualitativo. El tema finaliza implementando un modelo de regresión
múltiple con variables cuantitativas y cualitativas en RCommander.
Contrastar una hipótesis es un procedimiento mediante el cual se acepta o rechaza una hipótesis
que se emite acerca de un parámetro u otra característica de la población, en otras palabras, se
contrasta si la información sobre un parámetro poblacional desconocido está o no respaldada por la
información de la muestra.
Cuando se formula un contraste se formulan dos hipótesis: la nula y la alternativa. La hipótesis nula es
la hipótesis de interés para el investigador, la cuestión que se examina y se representa por H0. La
hipótesis alternativa es la negación de la H0 y se representa por H1.
39
Econometría I viu
6ECTS .es
En líneas generales, para realizar un contraste de hipótesis estadístico, se siguen los siguientes pasos:
1) Establecer la hipótesis nula (H0) y la hipótesis alternativa (H1) relativas a los parámetros
desconocidos de la población.
Este contraste
Este contraste de significación
de significación se denomina
se denomina positivo, positivo,
porque laporque la H1 esde
H1 es unilateral unilateral
una colade una
derecha.
cola derecha.
¿Qué significa la H0 de este contraste? Significa que la variable x j no influye sobre sobre la variable
¿Qué significa la H o de este contraste? Significa que la variable x j no influye sobre
dependiente.
sobre la variable dependiente.
41
4.2.2 Contraste de hipótesis utilizando el estadístico F
En el apartado anterior, estudiamos contrastar la significación individual de un
Econometría
parámetro. Habitualmente, es necesario contrastar la significación conjunta viu
deI los
parámetros, es decir: 6ECTS .es
H o : β 2 = β 3 = β 4 = β 5 = .... = β k = 0
H 1 : H o no
no esesverdadera
verdadera
Así pues,
Así pues, H o node
H0 no estima estima
formade forma individual,
individual, estimaconjunta.
estima de forma de forma conjunta.
Para Paracontraste
realizar este realizar de
este contraste
significación de se
conjunta, significación conjunta,F se
utiliza el estadístico utiliza el estadístico F de Snedecor:
de Snedecor:
R2
(k − 1)
F0 = ~ Fk −1,n−k (53)
(1 − R 2 )
(n − k ) (53)
donde:
donde:
k es keles el número
número de parámetros
de parámetros a estimar
a estimar en el modelo.
en el modelo.
n es el número de observaciones.
n es el número de observaciones.
En este contraste, la regla de decisión es la siguiente:
En este contraste, la regla de decisión es la siguiente:
Si F0 ≥ Fk −1,n−k , el estadístico de contraste cae fuera de la región de aceptación, por lo
Si , el estadístico de contraste cae fuera de la región de aceptación, por lo que se rechaza
que se rechaza la H oes. Por
la H0 . Por tanto, el modelo tanto, el significativo.
globalmente modelo es globalmente significativo.
Si Si F < F , el estadístico de contraste cae dentro de la región de aceptación, por lo que se acepta
0 k −1,n−k , el estadístico de contraste cae dentro de la región de aceptación, por
la H0 . Por tanto, el modelo no es globalmente significativo.
lo que se acepta la H o . Por tanto, el modelo no es globalmente significativo.
La significación
Cabe distinguirestadística
entre de unatipos
dos determinada variable xj sela
de significación: determina completamente
significación poryel valor
económica la
del estadístico tj . estadística.
significación
La significación económica de una determinada variable se determina por el valor y signo del
La significación
parámetro estimado .estadística de una determinada variable x j se determina
completamente por el valor del estadístico t j .
Si sólo nos centráramos en la significación estadística podríamos llegar a una conclusión errónea.
Aunque una la variableeconómica
La significación sea estadísticamente significativa, es
de una determinada necesario
variable se analizar el valor
determina pordel
el coeficiente
valor y
estimado para ver si se corresponde con la práctica o economía.
^
signo del parámetro estimado β j .
Por tanto, es necesario, es importante tener en cuenta ambas significatividades.
4.3. Predicción
- 35-
En este apartado, estudiaremos dos tipos de predicción: predicción puntual y predicción por
intervalos.
42
4.3 Predicción
4.3 Predicción 4.3 Predicción
4.3 Predicción
Supongamos que queremos predecir el valor de una variable dependiente
viu
en Administración
Gradocuando
de Empresas
tenemos yinformación
Dirección relativa a la observación n+j. A partir de la
.es En este
En este apartado,
Módulo
apartado,
En este apartado,
estudiaremos
de Formación
ecuación
predicción por intervalos. (30)
estudiaremos
dos
Básica que:
tenemos
predicción predicción
por intervalos.
En tiposeste
por intervalos.
estudiaremos
de apartado,
dos tipos dos
predicción:
predicción por intervalos.
estudiaremos
de tipos
predicción:
de puntual
predicción dos
predicción:
predicción
tipos
y de predicción
puntual
predicción:
y puntual
predicción
y pu
^ ^ ^ ^ ^
4.3.1
4.3.1 Predicción Predicción
4.3.1 Predicción
y n+puntual puntual
4.3.1puntual
Predicción puntual
j = β 1 + β 2 x2 ,n + h + β 3 x3,n + h + .... + β k xk ,n + h i = 1,2...., n
4.3.1. Predicción puntual
(54)
Supongamos
Supongamos Supongamos
que Supongamos
queremos
que queremos que queremos
predecir
predecir que
elSupongamos
el valor queremos
predecir
valor
de de
unauna el
que
predecir
valor
queremos
variable
variable de
eldependiente
una
valor
predecir
dependiente variable
de cuando
unaeldependiente
variable
valor de dependiente
tenemosuna variable depe
cuando tenemos cuando tenemos
cuando
información información
tenemos
relativa acuando
lainformación
relativa
tenemos
observacióna relativa
lan+j.
información
observación
Aa partir
la observación
relativa
n+j.la Aa partir
de lan+j.
observación
de
A la
partir de
n+j.la A part
información relativa
ecuación aecuación
la observación
(30) tenemos (30) n+j.(30)
ecuación
que: tenemos A partir
que:
tenemosde laque:
ecuación ecuación
(30) tenemos(30) que:
tenemos que:
Por tanto, una vez obtenidos las estimaciones de todos los parámetros del
modelo,
^ y ^seleccionados
^ ^ ^^ los^ ^valores ^ que
^^ toman
^ ^^todas ^ las variables ^^ cuando la^
y n+ j = β 1 +sea
observación xy2,n+ se
β 2 n+j hj =
+ β x
+y
sustituirán
β x=
+ ....
β en
31 3,n +2hj 2 ,n + h1 + la
β x y
ecuación
3,nn++hj
k23 k2 +
= i
....
β x
1,
(54)
= + β2....,x
para
+n .... i
obtener
31 3,n +k2h k2 ,n + h + β x
1, 2 ....,+n....
i =+1de
k3 k3,n + h valor
= el
(54) ,β k xkn,n + h
2...., i = 1,2...., n
^
y n+ j . (54) (54) (54) (54)
Por tanto, una vez obtenidos las estimaciones de todos los parámetros del modelo, y seleccionados
los valores que toman
4.3.2 todas las
Predicción^
variables cuando la observación sea n + j se sustituirán en la ecuación
por intervalo
Por tanto, una Por
vez tanto, Por
una
obtenidos
(54) para obtener el valor de y n + j . tanto,
vez
las obtenidos
una Por
vez tanto,
estimacionesobtenidos
lasde
estimaciones
una vez
laslos
todos estimaciones
obtenidos
de todos
laslos
parámetros deestimaciones
todos
delparámetros
los parámetros
de
deltodos los
delparáme
modelo,
de y predicción
modelo,Ely seleccionados
intervalo modelo,
seleccionados
los y seleccionados
valores quemodelo,
es los valores
toman
un y los
seleccionados
que
todas
intervalo valores
detoman
las que
todas
variableslos
garantías toman
valores
las
de variables
cuando todas
laquelastoman
contener cuando
variables
una todas
la cuando
las variables
la cu
observación seaobservación
n+j se observación
sea n+j
sustituirán
predicción correcta. ensesea
sustituirán
la observación
n+j se
ecuación sustituirán
en la
(54)seaecuación
para n+j
ensela
sustituirán
obtener(54)
ecuación
elpara
valorobtener
en
(54)
de lapara
ecuación
el obtener
valor (54)
de elpara
valorobtener
de el
4.3.2.^ Predicción^por intervalo
^ ^
Departamento
de
Metodología
e
Innovación
y n+ j . y n+ j . y n+ j . y n+ j . C/
Gorgos,
nº
5
(46021)
Valencia
Para obtener el intervalo de predicción del valor observado de
Tel.
96
192
la
49
7variable
3
intervalo de predicción es un intervalo de garantías de contener una predicción correcta.
El
dependiente y j en la observación n+j con un nivelde
de
Departamento
significación
Metodología
α,
e
Innovación
4.3.2por
4.3.2 Predicción Predicción
4.3.2 Predicción
intervalopor 4.3.2
intervalo
por
Predicción
intervalopor intervalo C/
Gorgos,
nº
5
(46021)
Valencia
El intervalo debemos
obtenerde de de
elpredicción utilizar la siguiente
Ypredicción expresión:
Para intervalo de n + j sería eldel
siguiente:
valor observado de la variable dependiente Tel.
96
192
49
73
en la
El intervalo deEl predicción
intervaloEl de intervalo
es predicción
deEl predicción
un intervalo es
intervalo
deun garantías
intervalo
de
es predicción
un de
de
intervalo
garantías
contener es deununa garantías
de
intervalo
contener de
de una contener
garantías una
de conten
observación
n + j con un nivelcorrecta.
de significación
predicción predicción
predicción correcta. correcta.
, debemos de utilizar la siguiente expresión:
predicción correcta.
^ ^1 1 1
El intervalo⎧de predicción de−1Yn + j sería
Departamento
d^ e
Metodología
⎫ e
Innovación
Yˆn+ j −Para
t n−k ,α Pr σ
/Probob
obtener
2 u [
1 +Y X
⎨ elPara − ⋅Yˆ
( X '
+ j obtener
n +njintervalo
X<)
n + j Parat
de ⋅
n −el
Xobtener⋅] [
k predicción
,α n2+ j σ2
/intervalou
≤ el siguiente:
1Y
el+
Para X
de ≤ Yˆ
intervalo
n +del valor⋅ (
j n +predicción
obtener
j n+ j X+'tX
de )
n −el
−1
observado ⋅ X
σ
k ,predicción
αdel []
/intervalo
C/
u 1
nvalor
+2 Xobservado
del
de
+ j denº
2 Gorgos,
la = 1
⋅ (−X α
predicción' X
valorValencia
jvariable
⎬5n
+(46021)
) −1
]
(55) ⋅
(55)del
observado
de X 2
la n+variable
jvalor
de observado
la variable de la
⎩
dependiente ydependiente en la y
dependiente
observación en la y
n+jobservación
en
dependiente
con la
un nively
observación
n+j con
en
de la
un
n+j ⎭
observación
nivel
significacióncon Tel.
9de
un
6
1α significación
nivel
,
92
4n+j
9
73
de
con significación
un α nivel
, de αsignificac
,
j j j j
donde
es el valor
^ de las tablas de una t Student
1 con n-k grados de ^ libertad. 1
debemos
Yˆn+ j − t n−kde utilizar
[
debemos de
debemos
la siguiente utilizar −1 la
desiguiente
expresión:
,α / 2 σ u 1 + X n + j ⋅ ( X ' X ) ⋅ X n + j ]
utilizar
debemos
2 ≤Y
laexpresión:
siguiente
de ˆutilizarexpresión:
[
la siguiente expresión: −1
n + j ≤ Yn + j + t n − k ,α / 2 σ u 1 + X n + j ⋅ ( X ' X ) ⋅ X n + j ] 2
El intervalo
donde de predicción
tdesea
k ,α / 2 es
de
el valor Y de sería el siguiente:
+ j las tablas de una t Student con n-k grados de libertad.
El intervaloSi sede n −predicción
obtener deelYnintervalo
n+ j sería de el siguiente:
predicción del valor esperado de la variable
dependiente
⎧ E ( y⎧j ) en la^ˆ⎧observación n+j
^ ⎧ con un^ nivel 1 ^ 1 ⎫
⎫ de−1 significación α , 1 ⎫ −1 1
⎫
Pr ob ⎨ Yn^+ j − YˆPr
debemos de n+ job
< t Y
⎨ n −la
utilizar
Pr
k ,nα+/j2 ob
−
⋅ Y
σ
siguiente
u 1[
Y<
+ t
X −
⎨n + j nexpresión: Y
+ jn −n1k+,α
ˆPr
⋅ ( Xob
⋅ σ
<'
2 j - ⎨
j n/ + u
X[
t
36-
1
) −1
Y+ ⋅XX −][
⋅ σYˆ u
⋅ (21X +<' X
X
t
= )1 −
n − k ,nα+/j2 nn++j jn + j ⎬ ^n −n k+,α⋅ α
⋅X(][
X
⋅ σ
j / 2 n+ j' Xu2)
1
(55) −1
+ ⋅XX
=] 1 −
⎬ nn++j j α
⋅ (2X ' (55)
X= 1 − ⋅ X
α ]
⎬ 1 n + j 2 ⎬ = 1 − α
) (55) (5
Yˆn+ j − t n−k⎩,α / 2Si [ X n+ ⎩j obtener
σ use1 +desea ⋅ ( X ' X ) −el 1⎩
]
X n+ j 2 ≤ de
⋅ intervalo ⎩ ˆ
Yn+ predicción
j ≤ Yn + j + t ndel [
⎭
/ 2 σ u esperado
− k ,α valor 1 + X n+ j ⋅ (de ⎭X ' la −1
X )variable ]
⋅ X⎭n+ j 2
(56) ⎭
dependiente E ( y j ) en la observación n+j con un nivel de significación α ,
Si se desea
t n −k ,⎧α /obtener elt intervalo elt nde
la predicción t ndel valor elesperado de lalibertad.
variable dependiente de E(y
n-kj) grados de libert
1
debemos
donde de utilizar siguiente expresión: ⎫t tablas
donde
⎪2 es el valor k donde
n −de 2 establas
,α /las valor
− k ,α /de ^donde
2⎡ es
de el
lasvalor
una t tablas−de
Studentk ,α /de
las
2 es
una
tablas
con valor
t Student
n-k dede
⎤una
grados2 las
con
de Student
⎪ n-k grados
decon
unan-k
de
t Student
grados
libertad.conlibertad.
ob ⎨ E (Yn + j )n−+Yˆjn +con
en laProbservación un nivel de2 significación −,1 debemos
j < t n − k ,α / 2 ⋅ ⎢σ u ⋅ X n + j ⋅ ( X ' X ) ⋅ X n + j ⎥ de 1 − α la siguiente expresión:
⎬ =utilizar
Si⎪se desea obtener el intervalo ⎣ de predicción del valor esperado ⎦ ⎪ de la variable
⎩ n+j con un nivel de⎭ significación
- 36- - 36- - 36- 1 - 36-
dependiente ⎧ E ( y j ) en la observación ^ ⎫ α
,
⎪ ˆ ⎡ (57)
2 1 ⎤ 2 ⎪
Pr ob ⎨ de
Prob
debemos
E (utilizar
Yn + j ) − la
Yn +siguiente
j < t n − k ,α expresión:
/ 2 ⋅ ⎢σ u ⋅ X n + j ⋅ ( X ' X )
−
⋅ X n + j ⎥ ⎬ = 1 − α (57)
⎪ ⎣ ⎦ ⎪
⎩ ⎭
El intervalo de predicción de E ( y n+ j ) sería el siguiente:
(57) 1
El intervalo ⎧ de predicción de E ( y n + j ⎡) ^sería el siguiente: ⎫
⎪
ˆ 2 −1 ⎤ 2 ⎪
Pr ob ⎨ E
(Yn + j ) − Yn + j < t n − k ,α / 2 ⋅ ⎢σ u1⋅ X n + j ⋅ ( X ' X ) ⋅ X n + j ⎥ ⎬ = 1 − α 1
⎪ ^ ⎣
El intervalo de predicción de E ( y ) sería el siguiente:
⎡ ⎤ 2 ⎦ ⎪⎡ ^
⎤ 2
Yˆn + j − t n −k⎩,α / 2 ⎢σ 2 u ⋅ X n+ j ⋅ ( X ' X ) −1 ⋅ X n +n +j ⎥j ≤ E ( y n + j ) ≤ Yˆn+ j + t n−k ,α / 2⎭⎢σ 2 u ⋅ X n+ j ⋅ ( X ' X ) −1 ⋅ X n+ j ⎥
⎣ ⎦ (57) ⎣ ⎦
1 1
^ ^
⎡ ⎤ 2
(58) ⎡ ⎤ 2
Yˆn + j − t n −k ,α / 2 ⎢σ u ⋅ X n+ j ⋅ ( X ' X ) ⋅ X n +(58)
2 −1 ˆ 2
j ⎥ ≤ E ( y n + j ) ≤ Yn + j + t n − k ,α / 2 ⎢σ u ⋅ X n + j ⋅ ( X ' X )
−1
⋅ X n+ j ⎥
El intervalo de predicción ⎣ de E ( y n + j ) sería el siguiente:
⎦ ⎣ ⎦
4.4. Contraste de hipótesis1 en una (58)
regresión múltiple utilizando 1
RCommander
Yˆ − t
⎡ ^
σ 2 u ⋅ X ⋅ ( X ' X ) −1 ⋅ X
⎤ 2
≤ E ( y ) ≤ Yˆ + t
⎡ ^
σ 2 u ⋅ X ⋅ ( X ' X ) −1 ⋅ X
⎤ 2
4.4
n+ j Contraste
n − k ,α / 2 ⎢
⎣
n +de
j hipótesis
n + j ⎥
⎦
en n+una
j n + jregresión
n − k ,α / 2 ⎢
⎣
múltiple
n+ j n + j ⎥
⎦
utilizando
A partir del ejemplo RCommander.
del tema 3 en el cual estimábamos los parámetros de una regresión múltiple
donde4.4la variable dependiente es elhipótesis
tiempo de (58)
entrega
Contraste de en deluna
pedido y las variables independientes
regresión múltiple son
utilizando
A partir del ejemploRCommander.
del tema 3 en el cual estimábamos los parámetros de una
regresión múltiple donde la variable dependiente es el tiempo de entrega del pedido y
las variables independientes son el número de pedidos y distancia, vamos a estudiar
4.4
cómo A Contraste
partir contraste
realizar de
del ejemplo hipótesis
del temade3forma
de hipótesis en
en el cualuna regresión
estimábamos
individual y conjunta. múltiple
los parámetros de una
regresiónRCommander. 43
múltiple donde la variable dependiente es el tiempo de entrega del pedido y
utilizando
A partir
lasdevariables
la figura independientes
8, el vector de parámetros estimados
son el número (6,97;0,68vamos
fue βy =distancia,
de pedidos ;0,52) .aLos
estudiar
cómo realizar contraste de hipótesis de forma individual y conjunta.
signos de éstos son positivos y, por tanto, coherentes. Debido a que cuanto mayor es
Econometría I viu
6ECTS .es
el número de pedidos y distancia, vamos a estudiar cómo realizar contraste de hipótesis de forma
individual y conjunta.
Departamento
de
Metodología
e
Innovación
A partir de la figura 8, el vector de parámetros estimados fue . Los
C/
Gorgos,
nº
5
(signos
46021)
Vde éstos
alencia
son positivos y, por tanto, coherentes. Debido a que cuanto mayor es el número de pedidos, mayor Tel.
9 6
1 92
4 9
7 3
será también el tiempo de entrega de éstos. Si la distancia para entregar el pedido es elevada, también
Departamento
de
Metodología
e
Innovación
Empezaremos
aumentará el tiempo a de
contrastar la significación
entrega de los pedidos. individual de la variable número de pedidos.
C/
Gorgos,
nº
5
(46021)
Valencia
Para ello establecemos el siguiente contraste de significación:
Tel.
96
192
49
73
Una
vez estimado el modelo, vamos a estudiar la significatividad estadística que hemos visto en este
tema. Ho : β2 = 0
Empezaremos a contrastar la significación individual de la variable número de pedidos.
Para ello establecemos el siguiente contraste
H1 : β 2 ≠ 0
de significación:
Empezaremos a contrastar la significación individual de la variable número de pedidos. Para ello
establecemos
Para realizar el siguiente contraste
este contraste de significación:
utilizamos Helo :estadístico
β2 = 0 tStudent definido en la expresión
(52). Como se puede observar en la figura 8, este estadístico t 2 vale 5, 301. Este valor
H1 : β 2 ≠ 0
se obtiene de la siguiente manera:
Para realizar este contraste utilizamos el estadístico tStudent definido en la expresión
Para(52).
realizar estese
contraste utilizamos el la 0,6835 tStudent definido en la expresión (52). Como se
estadístico
Como t 2 = en
puede observar figura = 5,301 t 2 vale 5, 301. Este valor
8, este estadístico
(5,789) 2 ⋅ 0,00049603
puede observar en la figura 8, este estadístico t 2 vale 5,301. Este valor se obtiene de la siguiente
se obtiene de la siguiente manera:
manera:
Si usamos un α = 0,05 , cuando buscamos 0,6835 en la tabla tStudent con un nivel de
t2 = = 5,301
α (5, 789) 2
0,00049603
significación de y 12 grados de libertad t12, 0.025 = 2,18 . Como el t 2 es superior al
⋅
2
t12, 0usamos
Si un α = 0,05 , cuando buscamos en la tabla tStudent con un nivel de
.025 rechazamos la H o y por tanto, con un nivel de significación del 5% se puede
Si usamos un , cuando buscamos en la tabla tStudent con un nivel de significación de y 12
α
afirmar que la variable número de pedidos es significativa y por tanto, ayuda a predecir
significación de y 12 grados det libertad t12, 0.025 = 2,18 . Como el t 2 es superior al
grados de libertad . Como el 2 es superior al
2 de éstos.
el tiempo de entrega rechazamos la H0 y por tanto, con un
nivelt12de
, 0.025 rechazamos
5% H
significación del la seopuede
y por afirmar que la
tanto, con unvariable
nivel denúmero de pedidos
significación deles5%
significativa
se puede y por
Continuamos con el contraste de la significación individual de la variable distancia.
afirmar
Igual
tanto, ayuda que
que la variable
aantes,
predecir número
establecemos
el tiempo desiguiente
el pedidos
de entrega es significativa
contraste
de éstos. y por tanto, ayuda a predecir
de significación:
el tiempo de entrega de éstos.
Continuamos con el contraste de la significación individual de la variable distancia. Igual que antes,
Continuamos
establecemos con el contraste
el siguiente contraste de la H o : β3 = 0
designificación:
significación individual de la variable distancia.
Igual que antes, establecemos el siguiente contraste de significación:
H1 : β3 ≠ 0
H o : β3 = 0
Como se puede observar en la figura 8, este estadístico t 3 vale 3,673. Este valor se
H 1estadístico
Como se puede observar en la figura 8, este : β 3 ≠ 0 t 3 vale 3,673. Este valor se obtiene de la
obtiene de la siguiente manera:
siguiente manera:
0,5236
Como se puede observar ten = 3,673
3 = la figura 8, este estadístico t 3 vale 3,673. Este valor se
(5,789) 2 ⋅ 0,00060621
obtiene de la siguiente manera:
Si usamos un α = 0,05 , cuando buscamos 0,5236 en la tabla tStudent con un nivel de
Si usamos un t3 =
, cuando buscamos en la tabla tStudent =con 3,673
un nivel de significación de y 12
α (5, 789 ) 2
⋅ 0,00060621
significación
grados de libertadde y 12 .grados
Como eldet libertad
es superior t12al
, 0.025 = 2,rechazamos
18 . Como ella Ht 3 yespor
superior al un
tanto, con
2 3 0
t12de
Si
nivel usamos un αdel
significación 0,05se, puede
= 5% cuando buscamos
afirmar en la tabla
que la variable tStudent
distancia ayuda con un anivel
también
, 0.025 rechazamos la H o y por tanto, con un nivel de significación del 5% se puede
de el
predecir
tiempo de entrega
afirmar que la de α
los pedidos.
variable distancia ayuda también a predecir el tiempo de entrega de los
significación de y 12 grados de libertad t12, 0.025 = 2,18 . Como el t 3 es superior al
pedidos. 2
t12, 0.025 rechazamos la H o y por tanto, con un nivel de significación del 5% se puede
44
afirmar que la variable distancia ayuda también a predecir el tiempo de entrega de los
pedidos.
Departamento
de
Metodología
e
Innovación
C/
Gorgos,
nº
5
(46021)
Valencia
Finalmente, realizamos el contraste de la significación individual de la constante Tel.
96
192
del
49
73
modelo.
viu
Grado en Administración y Dirección de Empresas
Como se Como
puedese observar
puede observar en la 8,
en la figura figura 8,
este6,9708
estadístico t1 valet10,731.
este estadístico vale 0,731. Estese
Este valor valor se de la
obtiene
obtiene t =
de la siguiente manera:
1 = 0 ,731
siguiente manera: (5,789) 2 ⋅ 2,71579954 5
6,9708
Si usamos un α = 0,05t,1 cuando
= buscamos en la tabla = 0,731
tStudent con un nivel de
(5,789) 2 ⋅ 2,71579954 5
α
significación de y 12 grados de libertad t12, 0.025 = 2,18 . Como el t1 es inferior al
Si usamos un α2= 0,05 , cuando buscamos en la tabla tStudent con un nivel de
Si usamos un , cuando buscamos en la tabla tStudent con un nivel de significación de y 12
t12, 0.025 aceptamosαla H o y por tanto, con un nivel de significación del 5% se puede
significación
grados de libertad de y 12. Como t1 libertad
gradoselde t12,al
es inferior 0.025 = 2,18 . Como ellat1H es
aceptamos inferior
y por al con un
tanto,
afirmar que la constante2 del modelo no parece ser relevante para predecir el tiempo de
0
nivel deentrega
significación
de los del 5% se puede afirmar que la constante del modelo no parece ser relevante
pedidos.
t12, 0.025 aceptamos la H o y por tanto, con un nivel de significación del 5% se puede
para predecir el tiempo de entrega de los pedidos.
afirmar
Una vezque la constante
hemos analizadodel la
modelo no parece individual
significatividad ser relevante paravariables
de las predecir explicativas,
el tiempo de
entrega
hemos ade
Una vezvamos los pedidos.
estudiar
analizado lalasignificatividad
significatividadindividual
conjunta de dellasmodelo. Para
variables ello, utilizamos
explicativas, vamos aelestudiar
estadístico
la significatividad FSnedecor
conjunta definido
del modelo. en la expresión (53).
Para ello, utilizamos Como
el de se puede
estadístico observar
FSnedecor en la en la
definido
Una vez hemos analizado la significatividad individual las variables explicativas,
figura 8, este estadístico F0 tiene un valor de 20,84. Este valor se obtiene de la
expresión (53). Como
vamos se puede
a estudiar observar en laconjunta
la significatividad figura 8,delestemodelo. ParaF0ello,
estadístico tiene un valor el
utilizamos de 20,84.
siguiente
estadístico
Este valor manera:
se obtiene FSnedecor definido
de la siguiente en la expresión (53). Como se puede observar en la
manera:
figura 8, este estadístico F0 tiene un valor de 20,84. Este valor se obtiene de la
0,7765
siguiente manera: 3 −1
F0 = ≈ 20,84
(1 − 0,7765)
0,7765
(15 − 3)
F0 = 3 −1 ≈ 20,84
(1 − 0,7765)
Si usamos un α = 0,05 , cuando buscamos en la tabla FSnedecor con un nivel de
Si usamos un , cuando buscamos en(15la−tabla 3) FSnedecor con un nivel de significación de
significación de α = 0,05 , 12 grados de libertad y número de parámetros 3, el valor de
, 12 grados de libertad y número de parámetros 3, el valor de la F2,12 = 3,89. Como el valor de
la
Si Fusamos
F0 es superior2 ,12 =3,89.
al valor α = 0el
unComo ,05valor
tabulado de F
,encuando
tablas F0 es
buscamos superior
en la al
rechazamos Hvalor
tabla
la tabulado
FSnedecor
, por en tablas
lo que el con un nivel
modelo F2de
es globalmente
,12
2,12 0
significación de α = 0,05 , 12 grados de libertad y número
rechazamos la H o ,
por lo que el modelo es globalmente significativo.
significativo. de parámetros 3, el valor de
la F2 ,12 =3,89. Como el valor de F0 es superior al valor tabulado en tablas F2 ,12
A partirAdel
partir del modelo
modelo estimado, estimado, pasamos
pasamos a realizar
a realizar la predicción
la predicción porintervalos
por intervalos tanto
tanto del
del valor
rechazamos
valor esperadola H o ,
pordel
como lo que el modelo
valor es globalmente
observado de la significativo.
variable tiempo de entrega de los para la
esperado como del valor observado de la variable tiempo de entrega de los pedidos
pedidos para la observación 16. Para ello, primero debemos de cargar la librería
observación
A partir16.del
Para ello, primero
modelo estimado, debemos
pasamosdea cargar
realizarlalalibrería RcmdrPlugin.HH
predicción por intervalosdesde la ventana
tanto del
RcmdrPlugin.HH desde la ventana principal de R. Al cargarlo podemos pensar que
principaltodos
de R.esperado
valor Al cargarlocomo podemos pensar
del valor que todos
observado de lalosvariable
datos de
los datos de R Commander se han borrado, pero si vamos a Modelos /
R Commander
tiempo de entregasede hanlosborrado,
pedidos
pero si Seleccionar para
vamos a Modelos la observación
/ Seleccionar 16. Para ello, primero
modelo seleccionar
activo podremos debemos de
seleccionarcargar la librería
el modelo calculado.
modelo activo podremos el modelo calculado. Ahora,
RcmdrPlugin.HH
Ahora, debemos desde la ventana principal de R. Al cargarlo podemos pensar que
library (RcmdrPlugin.HH)
debemos dede cargar
cargar el paquete previamente
el paquete instalado instalado
previamente escribiendoescribiendo library y
todos los datos de R Commander se han borrado, pero si vamos a Modelos /
ejecutándolo. Ahora, se puede
(RcmdrPlugin.HH) observar queAhora,
y ejecutándolo. ha aparecido
se puede unaobservar
nueva opción
que ha dentro del menú
aparecido unaModelos
Seleccionar modelo activo podremos seleccionar el modelo calculado. Ahora,
Prediction Intervals...
llamadodebemos HH tal y como se observa en la figura 11.
de cargar el paquete previamente instalado escribiendo library
(RcmdrPlugin.HH) y ejecutándolo. Ahora,- 39-
se puede observar que ha aparecido una
- 39-
45
Econometría I viu
6ECTS .es
Figura 11. Ruta a seguir para obtener la predicción en RCommander. Fuente: elaboración propia.
Seleccionamos esta opción y aparecerá una nueva ventana como la que aparece en la figura 12. Para
obtener el intervalo de confianza de la predicción de la variable tiempo de entrega de los pedidos en
la observación 16, para ello se dispone de la siguiente información: Número pedidos al día es 33 y la
distancia medida en Kilómetros es 67, especificando el 95% nivel de confianza. Por último, marcamos
las opciones “point estimate only”, “confidence interval for mean”, “prediction interval for individual” y
“Standard error” para mostrar el ajuste de predicción, la desviación típica de predicción, los intervalos
de confianza y los intervalos de predicción:
Figura 12. Selección de opciones para obtener la predicción en RCommander. Fuente: elaboración propia.
46
viu Grado en Administración y Dirección de Empresas
.es Módulo de Formación Básica
El intervalo de predicción del valor esperado de la variable tiempo de entrega de los pedidos es
{60,14937; 69,05933} .
El intervalo de predicción sobre el valor observado de la variable tiempo de entrega de los pedidos es
{51,22815; 77,98055} .
El intervalo de predicción del valor observado de la variable dependiente es más grande que el
intervalo de predicción para el valor esperado de la variable dependiente.
47
Econometría I viu
6ECTS .es
Por ejemplo, las categorías de la variable sexo, se pueden definir de la siguiente manera:
{
Masculino Si la persona es hombre se le asigna un 0
Sexo
Para analizar cómo se puede incorporar una variable dicotómica en los modelos de regresión, vamos
a continuar con el modelo de regresión múltiple que hemos utilizado en los temas 3 y 4. Recordamos
que en el ejemplo estimamos los parámetros de un modelo de regresión múltiple donde la variable
dependiente es el tiempo de entrega del pedido y las variables independientes son el número de
pedidos y distancia. Como se observa, ambas variables independientes son de tipo cuantitativo. El
modelo que obtuvimos fue el siguiente:
Ahora, deseamos medir el tiempo de espera en función también del sexo de la persona que recibe el
pedido. El atributo o variable sexo tiene dos categorías: masculino y femenino. La categoría femenino
se ha sido incluido en el modelo; mientras que la categoría masculino, que ha sido omitida, es la
categoría de referencia*. Así pues, el nuevo modelo de regresión múltiple que queremos estimar
queda de la siguiente manera:
* RCommander toma como referencia la categoría con menor valor, es decir, la categoría de referencia con la
que se comparan las demás categorías. Es importante identificar qué categoría es la categoría de referencia
para poder interpretar de forma correcta los coeficientes asociados a las variables ficticias.
48
viu Grado en Administración y Dirección de Empresas
.es Módulo de Formación Básica
Introducimos sólo una variable ficticia para el sexo femenino, y no otra más para el sexo masculino,
debido a que incluir una variable ficticia para cada categoría de la variable habría sido repetitivo. Con
la introducción de la variable ficticia femenino obtendremos un término independiente para cada
sexo. La introducción de dos variables ficticias provocaría multicolinealidad perfecta, debido que la
suma de ambas categorías es igual a 1.
Para poder visualizar y entender la inclusión de la variable sexo en el modelo, procedemos a introducir
en RCommander los siguientes datos:
A continuación recodificamos la variable sexo para que tome los valores 0 y 1. Para ello, seguimos la
ruta de RCommander: Datos / Modificar variables del conjunto de activo / Recodificar variables.
Seleccionamos la variable sexo y escribimos el código que aparece en la figura 14:
49
Econometría I viu
6ECTS .es
Figura 15. Creación del Modelo de Regresión lineal múltiple en RCommander. Fuente: elaboración propia.
50
viu Grado en Administración y Dirección de Empresas
.es Módulo de Formación Básica
Figura 16. Resultado del Modelo de Regresión lineal múltiple en RCommander cuando la categoría de referencia
de la variable sexo es masculino. Fuente: elaboración propia.
mide la diferencia entre el tiempo de entrega esperado de las mujeres y de los hombres, cuando la
distancia y el número de pedidos se mantienen constantes. Otra definición sería el incremento o
disminución que se produce en el tiempo de entrega al cambiar el valor de la variable sexo de 0 a 1 (si
se toma 0 como valor de referencia), es decir, al pasar de sexo masculino a femenino.
Con los datos obtenidos, en este caso es positivo, lo cual indica que, manteniéndose constantes
las variables distancia y el número de pedidos, el tiempo de entrega en el sexo femenino (categoría 1)
es mayor que en el sexo masculino (categoría de referencia) en promedio. Pasar de sexo masculino a
femenino produce un aumento del valor del tiempo de entrega de 10,5051. Esto puede ser debido a
que para las mujeres, normalmente, el número de pedidos es mayor que en los hombres y, por tanto,
aumenta el tiempo de entrega en recibir los pedidos.
Lo que ha cambiado será la interpretación del y el valor de la constante del modelo cambiará.
Para obtenerlo en RCommander hemos de recodificar la variable otra vez, debido a que como ya
mencionamos antes, RCommander toma como referencia la categoría con menor valor. Ahora
queremos que tome como categoría de referencia femenino, por lo que esta categoría ha de valer
ahora 0, mientras que la categoría masculino ha de valer 1.
51
Econometría I viu
6ECTS .es
La figura 17 muestra los resultados del modelo de regresión cuando la categoría de referencia de la
variable sexo es femenino:
Figura 17. Resultado del Modelo de Regresión lineal múltiple en RCommander cuando la categoría de referencia
de la variable sexo es femenino. Fuente: elaboración propia.
en este caso es negativo, lo cual indica que, manteniéndose constantes las variables distancia y el
número de pedidos, el tiempo de entrega en el sexo masculino (categoría 1) es menor que en el sexo
femenino (categoría de referencia) en promedio. Pasar de sexo femenino a masculino produce una
disminución del valor del tiempo de entrega de 10,5051. Esto puede ser debido a que para los
hombres, normalmente, el número de pedidos es menor que para las mujeres y, por tanto, disminuye
el tiempo de entrega en recibir los pedidos.
La H0 indica que no hay diferencias en el tiempo de espera de los pedidos entre hombres y mujeres,
mientras que la H1 indica la existencia de diferencias en el tiempo de entrega de los pedidos entre
hombres y mujeres.
En, en este caso, aplicamos un contraste t bilateral, como ya vimos en el tema anterior.
Dado que el estadístico t 3,141 (cuando la categoría de referencia es sexo masculino) es superior al
valor en tablas de t11,00.5 = 1,7959 rechazamos la H0 para nivel de significación igual a 0,05. Es decir, hay
evidencia empírica de que el tiempo entrega en los pedidos es mayor en las mujeres que en los
hombres.
52
viu Grado en Administración y Dirección de Empresas
.es Módulo de Formación Básica
TemaTEMA
5. 5: ANÁLISIS DE REGRESIÓN MÚLTIPLE
Análisis
CONde regresiónDEPENDIENTE
VARIABLE múltiple con variable dependiente
CUALITATIVA.
cualitativa
Hasta ahora, la variable dependiente que hemos estudiado en el modelo de regresión
múltiple tenía un carácter cuantitativo. En este tema vamos a estudiar el caso en el
que la variable dependiente en el modelo de regresión es categórica o cualitativa. Si
utilizamos el modelo lineal estudiado en el tema 3 para predecir el comportamiento de
una variable binaria tendremos ciertos problemas. Para solucionarlo, debemos de
Hasta ahora, la variable dependiente que hemos estudiado en el modelo de regresión múltiple tenía
utilizar modelos de regresión no lineales. Estos modelos se utilizan cuando la variable
un carácter cuantitativo. En este tema vamos a estudiar el caso en el que la variable dependiente en
respuesta es categórica o cualitativa. En concreto, el modelo de regresión no lineal
el modelo de regresión es categórica o cualitativa. Si utilizamos el modelo lineal estudiado en el tema
que vamos a estudiar en este tema es el Logit y veremos cómo implementarlo en
3 para predecir el comportamiento de una variable binaria tendremos ciertos problemas. Para
RCommander.
solucionarlo, debemos de utilizar modelos de regresión no lineales. Estos modelos se utilizan cuando
la variable respuesta es categórica o cualitativa. En concreto, el modelo de regresión no lineal que
vamos a estudiar en este tema es el Logit y veremos cómo implementarlo en RCommander.
5.1 Modelo de regresión con variable dependiente
5.1.
Mcategórica
odelo de regresión con variable dependiente categórica o
o cualitativa
cualitativa
Tal y como vimos en la expresión (25), el modelo poblacional de regresión lineal
Tal y como vimos
múltiple en la
tiene la expresión
forma: (25), el modelo poblacional de regresión lineal múltiple tiene la
forma:
y = β1 + β 2 x2 + β 3 x3 + .... + β k xk + u
en ladonde
en donde la dependiente
variable variable dependiente y cuantitativo
y es de tipo es de tipo cuantitativo
y β1 ....β k losfijos
losyparámetros parámetros
a estimar
fijos a estimar mediante
mediante el método de MCO. el método de MCO.
Puede pasar, que la variable dependiente y sea de tipo cualitativa o categórico. En estos casos, se he
de utilizar la llamada regresión logística, y no hacer uso de la regresión lineal. A diferencia de la
regresión lineal, regresión logística para estimar los parámetros de interés utiliza el método de
Máxima Verosimilitud, el cual q consiste en maximizar la función de verosimilitud de la muestra.
•• Variables categóricas ordinales: pueden tomar múltiples categorías, las cuales se pueden
ordenar: (Primero, Segundo, Tercero…).
•• Variables categóricas binarias: pueden tomar sólo dos categorías (0-1, Sí-No...).
En este tema, sólo vamos a tratar con el tipo de Variables categóricas binarias.
5.2.
Problemas de aplicar el modelo de regresión lineal para
predecir una variable dependiente cualitativa
A continuación, se muestran los principales inconvenientes de aplicar un modelo de regresión lineal
cuando la variable a predecir es de tipo cualitativo.
1. El error o perturbación aleatoria ya no son homocedásticos. Por lo que los estimadores MCO
no serán eficientes.
2. El error o perturbación aleatoria será una variable aleatoria discreta. Por tanto el error o
perturbación aleatoria no se distribuirá normalmente.
3. Como la variable dependiente Y sólo puede tomar los valores 0 y 1, cuando los representamos
en una gráfica, se observa que los puntos se sitúan sobre dos rectas: y = 0 e y = 1. Si ajustamos
un modelo de regresión lineal, estamos ajustando una recta a las observaciones. Cuando se
realiza la predicción de futuras observaciones, no obtendremos resultados correctos, debido
a que la probabilidad obtenida puede dar valores superiores a 1 e inferiores a 0.
4. El modelo asume que las variaciones en la variable dependiente producidas por cambios en
alguna de las variables independientes son constantes, algo poco realista.
54
viu Grado en Administración y Dirección de Empresas
.es Módulo de Formación Básica
P(Y=1)
2 4 6 10 11 12 13 14 Xi
Figura 18. Ajuste de un Modelo de Regresión lineal cuando la variable respuesta es cualitativa binaria.
Fuente: elaboración propia.
El objetivo de la regresión logística, es ajustar una función a las observaciones. Dicha función debe de
estar acotada entre 0 y 1 y deberá de ser diferente a la función identidad. Tenemos que intentar ajustar
una función como la de la figura 19.
P(Y=1)
2 4 6 10 11 12 13 14 Xi
Figura 19. Ajuste de un Modelo de Regresión logístico cuando la variable respuesta es cualitativa binaria.
Fuente: elaboración propia.
Una de las funciones más utilizadas con una forma similar a la que se observa en la figura 19 es la
función logit.
55
5.3.1
Modelo logit.
Departamento
de
Metodología
e
Innovación
5.3.1 Modelo logit. C/
Gorgos,
neº
5
(46021)
Valencia
La solución a los inconvenientes que presenta
Departamento
de
Metodología
el modelo lineal cuando viu
Econometría
Innovación
disponemos
C/
Gorgos,
nº
5
(46021)
Tel.
I96
192
4de
9
73
lineal.es
Valencia
una variable respuesta de tipo cualitativo, es sustituir la especificación 6ECTS
Tel.
96
192
49
73
(no
acotada entre el 0-1) por una función que tome valores estrictamente entre 0-1.
La solución a los inconvenientes que presenta el modelo lineal cuando disponemos de
El5.3.1 unaModelo
modelo logit. dees:tipo cualitativo, es sustituir la especificación lineal (no
lineal de probabilidad
variable respuesta
5.3.1. 5.3.1
Modelo Modelo logitlogit.
acotada entre el 0-1) por una función que tome valores estrictamente entre 0-1.
El modelo lineal de probabilidad es:
La solución La solución P( ypresenta
a los inconvenientes
a los inconvenientes que = 1 | Xque 0 + β1 Xlineal
) =elpresenta
βmodelo + β k Xlineal
... cuando
1el+modelo (59) disponemos de
cuando
k disponemos de una variable
La una
solución variable
a los respuesta
inconvenientes de tipo
que cualitativo,
presenta el es
modelo sustituir
lineal la
cuandoespecificación
disponemos lineal
de (no
respuesta de tipoentre
acotada cualitativo,
el 0-1) es
por sustituir
una la especificación
función que tome lineal (no
valores acotada entre
estrictamente el 0-1)
entre 0-1. por una
una variable
función El
Donde los
que
β reflejan
respuesta
tome valores
de latipo
variación
estrictamente y en
cualitativo,
Pentre
( es: 1la
| Xprobabilidad
= 0-1. es β 0 + β1 Xde
) = sustituir la+un
... +cambio
β k X k unitario
especificación lineal en (no
(59) X.
modelo lineal de probabilidad
acotada entre el 0-1) por una función que tome valores estrictamente entre 0-1.
1
El modelo P P(lineal
no y = 1 |deX ) = β 0 + β1 X 1 + ... + β k X k (59)(59)
Donde los β reflejan X ) =probabilidad:
f [βen
( y =la1 |variación k ] un cambio unitario
X 1 + ... + β k Xde
β1probabilidad
0 +la (60) en X.
Dondeloslos β
Donde reflejan
reflejan la variación
la variación en laen la probabilidad
probabilidad de unde un cambio
cambio unitariounitario
en X. en X.
P( y = 1 | X ) = f [β 0 + β1 X 1 + ... + β k X k ] (60)
El modelo no lineal de probabilidad:
El modelo no lineal
ajusta una de probabilidad:
función f a las observaciones, la cual, debe de estar acotada entre 0 y 1 y
El modelo no lineal de probabilidad:
debe de ser diferente( y =a1 |laX
ajusta unaPfunción
función[β 0identidad.
= f observaciones,
f a) las k X k ] debe(60)
+ β1 X 1 + ... +laβcual, (60)
de estar acotada entre 0 y 1 y
P( y = 1 | X ) = f [β 0 + β1 X 1 + ... + β k X k ] (60)
ajusta una
Para debe
función
el fde
modelo ser
a las diferente
observaciones,
logit, la función a laffunción
laescual, identidad.
debe de estar acotada entre 0 y 1 y debe de ser
la siguiente:
diferente a la función identidad.
ajusta una función f a las observaciones, la cual, debe de estar acotada entre 0 y 1 y
ajusta Para elf modelo
una función afunción logit, la exp(
las observaciones, función es ladebe
z )la fcual, siguiente:
de estar acotada entre 0 y 1 y
Para el modelo
debe delogit,
ser la
diferente f (af zes
) =lafunción
la siguiente:
identidad.
(61)
[1 + exp( z )]
debe de ser diferente a la función identidad.
exp( z )
f ( z ) =f es la siguiente:
Para el modelo logit, la función
(61)
[1 + exp( z )] (61)
Para el modelo logit, la función f es la siguiente:
Por lo que se obtiene:
Por lo que se obtiene: exp( z )
f ( z) =
(61)
Departamento
de
Metodología
e
Innovación
exp([1z )+ exp( z )]
Por lo que
f ( zse
) =obtiene:
E (Y ) = P( y = X ) =z )]
exp( β1 + β 2 X 2 + .... + β K X(61) C/
Gorgos,
nº
5
(46021)
Valencia
[11+| exp( K
Departamento
de
Metodología
(62)
1 + exp( β1 + β 2 X 2 + .... + β K X K C/
Gorgos,
(62)
Tel.
96
192
49
73
e
Innovación
nº
5
(46021)
Valencia
exp( β1 + β 2 X 2 + .... + β K X K
lo que1.se“Odds”
Por E (Y )es
obtiene:=P ( y medida
una = 1 | X ) que
= se define para cuantificar el riesgo. SeTel.
96
192
define (62)
como 49
73
En los
modelos de Regresión Logística se pretende estudiar
1 + exp( + .... + β K X K de éxito P( y = 1) de
β1 + βsi2 Xla2 probabilidad
Porvariable
una lo que binaria,
se obtiene:
depende o no,
el cociente de de otra u otras variables.
probabilidades entre presentar una característica respecto no
1. “Odds” es una medida que se define para cuantificar el riesgo. Se define como
exp( β + β X + .... + β X
E (Ypresentarla:
En interpretar
Para poder los modelos )losP( y,Regresión
= de = 1 | Xlos
nacen ) =conceptos
Logística 1
se 2odds
de 2
pretende y odds K
estudiar
ratio: K
si la probabilidad(62) de éxito
exp(1β+1 +exp(2X ....2 X X Kuna
el cociente de probabilidades βentre
β12 +presentar
β + 2β+K .... XK
+ β Kcaracterística respecto no
E (Y ) = P( y = 1 | X ) = (62)
P( yes=En
1. “Odds”
1) de
una medida
una que se1binaria,
variable +
los modelos de Regresión
exp(
define βpara+ β
depende X
cuantificar
P(YLogística
= 1)
+
o ....
no, + el
deβ
se pretende
X
riesgo.
otra u Se
otras define como el cociente de
variables.
+.... + β K X K )estudiar si la probabilidad de éxito
1 2 2 K K
presentarla:
probabilidades entre presentarOdds una =característica =respectoe ( β1 + β 2 X 2no (63)
1 − P(Y = 1)
presentarla:
P( y = 1) de una variable binaria, depende o no, de otra u otras variables.
P(Y = 1) ( β1 + β 2 X 2 +.... + β K X K )
En lospoder
Para modelos deOdds
Regresión
interpretar =los β , Logística
nacen =losese pretendede
conceptos estudiar
odds y(63)
siodds
la probabilidad
ratio: de éxito
Teniendo en 1 − P(Y = 1)
cuenta que el modelo de regresión logística
(63)
puede ser escrito
En los modelos de Regresión Logística se pretende estudiar si la probabilidad de éxito
P( y = 1) como:
de poder
una variable binaria,
Teniendo en cuenta
Para que el modelo
interpretar βdepende
de regresión
los olos
no,conceptos
depuede
, nacenlogística otra user
otras
de variables.
escrito
odds ycomo:
odds ratio:
P( y = 1) deTeniendo
una variable binaria, depende o no, de otra u otras variables.
en cuenta que el modelo de regresión logística puede ser escrito
- 48-
ln P(Y = 1) − ln(1 − P(Y = 1)) = (β1 + β 2 X 2 + .... + β K X K )
(64)
(64)
como:
Para poder interpretar los β , nacen los conceptos de odds y odds ratio:
Tomamos logaritmos por comodidad y para trabajar con- 48- toda la recta real debido a que el Odds
Para poder interpretar
está acotado: los
Tomamos β , nacen los
logaritmos conceptos
por comodidadde odds
y paray odds ratio:
trabajar con toda la recta real
ln P(Y = 1) − ln(1 − P(Y = 1)) = (β1 + β 2 X 2 + .... + β K X K )
(64)
debido a que el Odds está acotado:
- 48-
Tomamos logaritmos por comodidad - 48- y para trabajar con toda la recta real
⎛ P(Y = 1) ⎞
ln⎜⎜ ⎟⎟ = ( β 1 + β 2 X56
2 + .... + βK X K ) (65)
⎝ 1 −elPOdds
debido a que (Y = 1)está
⎠ acotado:
1 2 2 K K
viu Tomamos
Grado en Administración logaritmos
y Dirección por comodidad y para trabajar con toda la recta real
de Empresas
.es Módulo de Formación Básica
⎛ P(Y = 1) ⎞
debido
ln⎜⎜ a que el Odds
⎟⎟ =está
( β 1 +acotado:
β 2 X 2 + .... + β K X K ) (65)
⎝ 1 − P(Y = 1) ⎠
⎛ P(Y = 1) ⎞
ln⎜⎜ ⎟ = ( β 1 + β 2 X 2 + .... + β K X K ) (65)
⎝ 1 − P(Y = 1) ⎠⎟ (65)
Se observa en la ecuación (65) que los β muestran el incremento de la probabilidad
Se observa en la de que ocurra
ecuación el los
(65) que suceso en escala
muestran logarítmica.
el incremento deSi el β 2 es negativo
la probabilidad de queindica
ocurraque a media
el suceso en escala logarítmica. Si el 2 es negativo indica que a media que la variable X2 aumenta, disminuirá
que la variable X aumenta, el logaritmo del cociente de probabilidades
Se observa en laconstantesecuación (65) que de β muestran
losvariables el incremento de la probabilidad
el logaritmo del(suponiendo
cociente de probabilidades el resto
disminuirá explicativas).
(suponiendo Por el
constantes resto de si el β 2 es
el contrario,
de que
positivo
variables explicativas). ocurra
Por elcontrario,
indica
el suceso
que aen escala
media
si el eslogarítmica.
que la variable
positivo SiXel
indica β a2 es
2 aumenta,
que negativo
media el
que laindica
logaritmo que
delX acociente
variable media de
probabilidades aumentará (suponiendo constantes el resto de variables explicativas).
2
aumenta, el que
logaritmo la variable X2 aumenta,
del cociente el logaritmo
de probabilidades del cociente
aumentará (suponiendo de probabilidades
constantes el resto disminuirá
(suponiendo
de variables explicativas). constantes el resto de variables explicativas). Por el contrario, si el β 2 es
positivo indica que a media que la variable X2 aumenta, el logaritmo del cociente de
Si tomamos exponenciales en la ecuación (65) obtenemos:
Si tomamosprobabilidades
exponenciales en aumentará
la ecuación (suponiendo
(65) obtenemos: constantes el resto de variables explicativas).
P(Y = 1)
Si tomamos exponenciales = (eenβ1 laβecuación
* e 2 X 2 * ....* e(65) β K X K obtenemos:
) (66)
1 − P(Y = 1)
D epartamento
de
(66)
Metodología
e
Innovación
C/
Gorgos,
nº
5
(46021)
Valencia
Tel.
96
192
49
73
P(Y =por
En este caso, los indican 1) cuántoβ1 se multiplica
β2 X 2 elβOdds.
K XK
= (βe indican
En este caso, los *e *por e
....*cuánto )se multiplica el Odds. (66)
1 − P(Y = 1)
2.
“2.Odds Ratio”
“Odds es el es
Ratio” cociente de los odds
el cociente de losde odds
los dosdegrupos y constituye
los dos grupos yotra forma deotra
constituye cuantificar
forma deentre
la asociación cuantificar la asociación
dos variables binarias.entre dos variables binarias.
En este caso, los β indican por cuánto se multiplica el Odds.
Odds 2
Odds Ratio = = e ( βi ) (67)
Odds 1 (67)
En En este caso,
este caso,cuando
cuando se seobtiene
obtieneunun
OddsOdds Ratio
Ratio cercano
cercano a 1 indicará
a 1 indicará que producidos
que cambios cambios en la
- 49-
producidos en la variable explicativa X no influirán sobre
variable explicativa Xi no influirán sobre la variable dependiente.
i la variable dependiente.
e ( β i ) representa
representa el elvalor
valordel
delOdds
Odds Ratio cuandolas
Ratio cuando lasvariable
variable explicativa
explicativa Xi aumenta
Xi aumenta una
una unidad.
unidad. - 49-
es el valor
del Odds cuando la/s variables explicativas valen 0.
( β1 )
e es el valor del Odds cuando la/s variables explicativas valen 0.
5.4. Estimación de los parámetros en una regresión múltiple con
variable dependiente
5.4 Estimación binaria utilizando
de los parámetros en una RCommander
regresión múltiple
con variable
A continuación dependiente
se muestra binaria
un ejemplo de utilizando
la estimación RCommander.
de parámetros en una regresión múltiple con
variable dependiente binaria utilizando RCommander.
Se desea relacionar el éxito o fracaso de los vuelos de una determinada compañía aérea (siendo el
A continuación se muestra un ejemplo de la estimación de parámetros en una
éxito que elmúltiple
regresión vuelo no havariable
con sufrido ningún accidente)
dependiente en función
binaria de las
utilizando siguientes variables:
RCommander.
• Temperatura
Se •desea relacionardelelavión
éxitoeno elfracaso
despegue,
de medida en grados
los vuelos de unacentígrados.
determinada compañía
aérea en función de las siguientes variables:
•• Presión del avión en el momento del despegue medida en bar.
- Temperatura del avión en el despegue, medida en grados centígrados.
- Presión del avión en el momento del despegue medida en bar.
57
Econometría I viu
6ECTS .es
Antes de estimar el modelo, vamos a ver la relación entre la variable dependiente y las independientes.
Para ello, una vez cargados los datos, escribimos y ejecutamos el siguiente comando:
plot (Dataset$Temperatura,Dataset$Respuesta,xlab=”Temp”,ylab=”Respuesta”)
58
viu Grado en Administración y Dirección de Empresas
.es Módulo de Formación Básica
Figura 20. Relación entre la variable respuesta y la variable Temperatura con RCommander. Fuente: elaboración propia.
Como deseamos estudiarla probabilidad de que un vuelo sufra un accidente recodificamos la variable
respuesta de la siguiente manera (figura 21).
Para estudiar las relaciones entre la variable dependiente y las independientes, se plantea un modelo
de regresión logística donde la variable respuesta será Respuesta y las explicativas Temperatura y
Presión.
59
Econometría I viu
6ECTS .es
Figura 22. Modelo Lineal Generalizado (MLG) en RCommander. Fuente: elaboración propia.
60
viu Grado en Administración y Dirección de Empresas
.es Módulo de Formación Básica
Figura 23. Resultados del Modelo Lineal Generalizado en RCommander. Fuente: elaboración propia.
Para obtener los intervalos de confianza para las estimaciones seleccionamos la siguiente ruta:
Figura 24. Opciones a seguir para obtener los Intervalos de confianza del MLG en RCommander. Fuente: elaboración propia.
61
Econometría I viu
6ECTS .es
Figura 25. Intervalos de confianza del MLG en RCommander. Fuente: elaboración propia.
Variable Temperatura.
eb2 = exp(0,263404)=1,3013. Este valor sería el Odds Ratio por cada grado centígrado de temperatura
que aumenta. Es decir, un avión que tiene una temperatura (T+1) tiene 1,30 veces más probabilidad
de sufrir una accidente que un avión que tiene una temperatura (T). Además, esta relación es
significativa, lo que indica el p-valor menor que 0,05. Concretamente, el intervalo de confianza al 95%
para este Odds Ratio es: [1,064797 1,80951531] el cual se obtiene de la siguiente manera: (exp(0,0627),
exp(0,5930)), por lo que, un avión que tiene una temperatura (T+1) tiene entre 1,064797 y 1,80951531
veces más probabilidad de tener un accidente que un avión que tiene una temperatura (T) con un
95% de confianza.
Variable Presión.
eb3 = exp(-0,005177602)=0,9948. Este valor sería el Odds Ratio por cada bar de presión que aumenta.
Es decir, un avión que tiene una presión (P+1) tiene 0,9948 veces menos de probabilidad de sufrir una
accidente que un avión que tiene una presión (P). Concretamente, el intervalo de confianza al 95%
para este Odds Ratio es: [0,9741117 1,01182693], por lo que, un avión que tiene una presión (P+1)
tiene entre 0,9741117 y 1,01182693 veces menos probabilidad de sufrir un accidente que un avión
que tiene una presión (P) con un 95% de confianza. En este caso, esta relación no es significativa, lo
que indica el p-valor es mayor a 0,05.
Como la variable Presión en el modelo no es significativa, realizamos el mismo modelo pero sin ella. El
resultado es el siguiente:
62
viu Grado en Administración y Dirección de Empresas
.es Módulo de Formación Básica
Figura 26. MLG eliminado la variable Presión en RCommander. Fuente: elaboración propia.
Se observa que los parámetros estimados tienen los mismos signos y continúan siendo significativos.
Como medida para comparar modelos se utiliza el AIC definido en el tema 3. Como ya se vio el mejor
modelo para explicar los datos con el mínimo número de parámetros es aquel que presenta el menor
valor de AIC.
Por tanto, seleccionamos el modelo 2 como mejor modelo para predecir el fracaso de los vuelos de
una determinada compañía.
63
Econometría I viu
6ECTS .es
64
viu Grado en Administración y Dirección de Empresas
.es Módulo de Formación Básica
Glosario
Análisis de regresión
Trata del estudio de la variable dependiente (llamada también endógena o explicada) en función de
una o más variables independientes (llamadas también exógenas o explicativas) con el objetivo de
estimar o predecir la media de la variable dependiente en términos de los valores conocidos o fijos en
muestras repetidas de las variables explicativas.
Contraste de significación
Es aquel en que la H1 es bilateral.
65
Econometría I viu
6ECTS .es
Datos de panel
Son observaciones de una variable para distintas unidades económicas a lo largo del tiempo, es decir,
es la combinación de datos temporales y de corte transversal.
Econometría
Es una disciplina científica que se basa, fundamentalmente, en la utilización de métodos estadísticos
y matemáticos para estimar a partir de un conjunto de datos la forma según la cual se pueden
relacionar diferentes variables basadas en teorías económicas.
Estimador insesgado
Es el estimador que tiene varianza mínima dentro de la clase de todos los estimadores lineales
insesgados. Que tenga varianza mínima, significa que presentan menor error cuadrático comparado
con otros estimadores.
Estimador lineal
Es aquel estimador que es función lineal de la dependiente.
Hipótesis estadística
Es una afirmación o suposición sobre la población principalmente acerca del valor de un parámetro
desconocido.
66
viu Grado en Administración y Dirección de Empresas
.es Módulo de Formación Básica
Modelo econométrico
Es un modelo económico con las especificaciones necesarias para su tratamiento empírico.
Modelo económico
Es la expresión matemática simplificada de un fenómeno económico.
Modelo multiecuacional
Es aquel modelo econométrico que contiene más de una ecuación.
Modelo uniecuacional
Es aquel modelo econométrico que sólo contiene una ecuación.
Odds
Es una medida que se define para cuantificar el riesgo. Se define como el cociente de probabilidades
entre presentar una característica respecto no presentarla.
Odds Ratio
Es el cociente de los odds de los dos grupos y constituye otra forma de cuantificar la asociación entre
dos variables binarias.
P-valor
Se define como el nivel más bajo de significación al que puede ser rechazada la hipótesis nula.
R2 ajustado o corregido
Se utiliza para la selección de un modelo entre varios que explican una misma variable. Éste se “ajusta”
teniendo en cuanta el número de variables que se incluyen en el modelo, de forma que, penaliza el
modelo al añadir más variables independientes.
Regresión logística
Modelo de regresión que se utiliza cunado la variable a predecir es cualitativa.
67
Econometría I viu
6ECTS .es
Significación económica
De una determinada variable se determina por el valor y signo del parámetro estimado bj.
Significación estadística
De una determinada variable x j se determina completamente por el valor del estadístico t j .
Variable binaria
Es una variable categórica o cualitativa que sólo puede adquirir dos posibles categorías o valores.
Variables ficticias
En econometría, las variables binarias que se utilizan como variables independientes son comúnmente
llamadas variables ficticias.
68
viu Grado en Administración y Dirección de Empresas
.es Módulo de Formación Básica
Enlaces de interés
Para encontrar enlaces de páginas en Internet sobre econometría (vídeos, libros, revistas, datos,
congresos…) entrar en:
econometriclinks.com
Sociedad Internacional para el Avance de la teoría económica en su relación con las estadísticas y
matemáticas.
https://www.econometricsociety.org/
69
Econometría I viu
6ECTS .es
70
viu Grado en Administración y Dirección de Empresas
.es Módulo de Formación Básica
Bibliografía
Referencias bibliográficas
Johnston, J. (2001). Métodos de econometría. Ed. Vicens Vives. Barcelona. ISBN 84-316-6116-X.
Pampel, F. C. (2000). Logistic regression: A primer (Vol. 132). SAGE Publications. ISBN-13: 978-0761920106.
Peña D. (2000). Estadística. Modelos y Métodos (Vol. 2). Alianza Editorial. Madrid.
Uriel, E. (1990). Econometría: el modelo lineal. Ed. AC. Madrid. ISBN 84-7288-150-4.
Bibliografía recomendada
Aldrich, J. H., & Nelson, F. D. (1985). Linear probability, logit, and probit models (Vol. 45). SAGE Publications.
ISBN-13: 978-0803921337.
McCullagh, P., & Nelder, J. A. (1989). Generalized linear models (Vol. 37). Chapman and Hall/CRC
Monographs on Statistics & Applied Probability. ISBN 13: 978-0412317606.
71
Agradecimientos
Autores
D.ª Patricia Carracedo Garnateo
viu
Reservados todos los derechos VIU - 2018 ©. .es