Está en la página 1de 72

GRADO EN ADMINISTRACIÓN Y DIRECCIÓN DE EMPRESAS

Módulo de Formación Obligatoria

ECONOMETRÍA

D.ª Patricia Carracedo Garnateo

viu Universidad
Internacional
de Valencia
viu Este material es de uso exclusivo para los

.es
alumnos de la VIU. No está permitida la
reproducción total o parcial de su contenido
ni su tratamiento por cualquier método por
aquellas personas que no acrediten su
relación con la VIU, sin autorización expresa
de la misma.

Edita
Universidad Internacional de Valencia
Grado en
Administración y Dirección
de Empresas
Econometría
Módulo de Formación Obligatoria
6ECTS

D.ª Patricia Carrecedo Garnateo


viu Grado en Administración y Dirección de Empresas
.es Módulo de Formación Básica

Índice
TEMA 1. INTRODUCCIÓN A LA ECONOMETRIA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1. ¿Qué es la econometría?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2. Modelos económicos y modelos econométricos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3. Etapas en la elaboración de un modelo econométrico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4. Datos económicos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

TEMA 2. MODELO DE REGRESIÓN SIMPLE: DEFINICIÓN, ESTIMACIÓN Y PROPIEDADES. . . . . . . . . . . . . . . . . . . 13


2.1. Modelo de regresión simple. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2. Obtención de las estimaciones por Mínimos Cuadrados Ordinarios (MCO). . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3. Algunas propiedades de los estimadores MCO. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4. Supuestos detrás del método de MCO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.5. Propiedades de los estimadores de mínimos cuadrados: teorema de Gauss-Markov . . . . . . . . . . . . . 19
2.6. Regresión y correlación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.7. Medida de bondad de ajuste. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.8. Estimación de parámetros en el modelo lineal simple mediante RCommander. . . . . . . . . . . . . . . . . . . . 21

TEMA 3. REGRESIÓN LINEAL MÚLTIPLE: DEFINICIÓN, ESTIMACIÓN Y PROPIEDADES. . . . . . . . . . . . . . . . . . . . . . 23


3.1. Definiciones del modelo de regresión múltiple. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2. Obtención de las estimaciones por Mínimos Cuadrados Ordinarios (MCO) e interpretación de los
parámetros obtenidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.3. Supuestos detrás del método de MCO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.4. Medidas de bondad de ajuste. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.5. Estimación de los parámetros en una regresión múltiple mediante RCommander. . . . . . . . . . . . . . . . . 32

TEMA 4. CONTRASTE DE HIPÓTESIS EN EL MODELO DE REGRESIÓN MÚLTIPLE. . . . . . . . . . . . . . . . . . . . . . . . . . . . 39


4.1. Revisión contraste de hipótesis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.2. Significación de los parámetros del modelo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.2.1. Contraste de hipótesis utilizando el estadístico t. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.2.2. Contraste de hipótesis utilizando el estadístico F. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2.3. Importancia económica versus significación estadística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.3. Predicción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.3.1. Predicción puntual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.3.2. Predicción por intervalo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.4. Contraste de hipótesis en una regresión múltiple utilizando RCommander . . . . . . . . . . . . . . . . . . . . . . . . 43
4.5. Inclusión de una variable cualitativa en el Modelo de regresión simple. Ejemplo en RCommander. . 48

TEMA 5. ANÁLISIS DE REGRESIÓN MÚLTIPLE CON VARIABLE DEPENDIENTE CUALITATIVA. . . . . . . . . . . . . . . 53


5.1. Modelo de regresión con variable dependiente categórica o cualitativa. . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.2. Problemas de aplicar el modelo de regresión lineal para predecir una variable dependiente
cualitativa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.3. Modelo de regresión logística. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.3.1. Modelo logit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

5
Econometría I viu
6ECTS .es

5.4. Estimación de los parámetros en una regresión múltiple con variable dependiente binaria utilizando
RCommander. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

GLOSARIO. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
ENLACES DE INTERÉS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
BIBLIOGRAFÍA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

Leyenda
Glosario
Términos cuya definición correspondiente está en el apartado “Glosario”.

6
viu Grado en Administración y Dirección de Empresas
.es Módulo de Formación Básica

Tema 1.
Introducción a la econometría

En este primer tema se introducirá al alumno en el campo de la econometría, definiendo qué es y qué
objetivos persigue. Además, se estudian las diferencias entre un modelo econométrico y un modelo
económico y qué relación tienen ambos. Finalmente, se describen las etapas de elaboración de un
modelo econométrico y qué tipología de datos necesitan dichos modelos.

1.1. ¿Qué es la econometría?


En líneas generales, econometría significa medición económica. A lo largo de los años, han surgido
diversas definiciones del concepto de econometría. Se cree que la primera definición fue elaborada
por Ragnar Frischel, el cual, fue Premio Nobel de economía en 1969 junto con economista Jan
Tinbergen, donde se definía la econometría como la ciencia que combina las matemáticas, la estadística
y la Teoría económica con el objeto de medir los fenómenos económicos.

Actualmente, alguna definición reciente sería la de Maddala en donde la econometría consiste en


la aplicación de los métodos estadísticos y matemáticos a los datos económicos. Otra definición
sería la de Intriligator el cual define la econometría como la rama de la economía que se ocupa de la
estimación empírica de las relaciones económicas. Los modelos junto con los datos son los ingredientes
básicos de cualquier estudio econométrico.

7
Econometría I viu
6ECTS .es

Por tanto, la econometría se puede definir como una disciplina científica que se basa,
fundamentalmente, en la utilización de métodos estadísticos y matemáticos para estimar, a partir de
un conjunto de datos, la forma según la cual se pueden relacionar diferentes variables basadas en
teorías económicas.

Podemos considerar tres objetivos de la econometría:

1) Explicar el comportamiento de una o de varias variables económicas en función de otras


mediante modelos econométricos.

2) Predecir el comportamiento de las variables económicas. Se realizan predicciones con el


objetivo de reducir la incertidumbre sobre el futuro de la economía.

3) Contrastar hipótesis de interés económico.

1.2. Modelos económicos y modelos econométricos


Un modelo económico es la expresión matemática simplificada de un fenómeno económico, por
ejemplo:

Para especificar que la cantidad demandada de un bien depende del precio de éste en un momento
del tiempo, se puede formular una función matemática entre la cantidad demandada (Dt) y el precio
(Pt), siendo t el año considerado. Así, si la relación es lineal, la función de demanda será: Dt = b1 + b2 Pt,
donde b1 es el intercepto del modelo.

Un modelo econométrico es un modelo económico con las especificaciones necesarias para su


tratamiento empírico. Así, en el ejemplo de la función de demanda el modelo econométrico sería
Dt = b1 + b2 Pt + ut, donde ut es una variable aleatoria denominada perturbación o error aleatorio. Esta
variable da al modelo un mayor realismo, con ella, se tiene en cuenta la incertidumbre existente en
cualquier comportamiento social. En nuestro ejemplo, recoge el efecto conjunto de otras variables
que también afectan a la demanda, pero que no figuran en el modelo.

1.3. Etapas en la elaboración de un modelo econométrico


A continuación, se muestran las etapas que sigue un económetra para elaborar un modelo
econométrico.

1. Planteamiento de la teoría o hipótesis.

2. Especificación del modelo matemático de la teoría.

3. Especificación del modelo econométrico de la teoría.

4. Obtención de datos.

5. Estimación de los parámetros del modelo econométrico.

8
viu Grado en Administración y Dirección de Empresas
.es Módulo de Formación Básica

6. Prueba de hipótesis.

7. Pronóstico o predicción.

8. Utilización del modelo para fines de control o de política.

A continuación, se detalla cada una de estas etapas siguiendo un ejemplo conocido: Teoría Keynesiana
de consumo.

1. Planteamiento de la teoría o hipótesis.

Keynes plantea: “La ley psicológica fundamental consiste en que los hombres y las mujeres como
regla general y en promedio, están dispuestos a incrementar su consumo a medida que su ingreso
aumenta, pero no en la misma cuantía o cantidad del aumento en su ingreso. Aquí se ha planteado la
teoría que establece una relación positiva entre el ingreso y el consumo.

2. Especificación del modelo matemático de la teoría.

Se tiene una relación positiva entre la renta (ingreso) y el consumo (gasto), pero no una relación
funcional entre los dos. Se denotará la renta por x (variable independiente o explicativa) y al consumo
por y (variable dependiente o explicada). Matemáticamente se obtiene la siguiente relación funcional:

, con (1)

donde b1 b2 son parámetros del modelo denominados intercepto y pendiente respectivamente. La


relación es lineal y como se tiene únicamente una ecuación matemática estamos ante un modelo
uniecuacional. Si tuviera más de una ecuación se tendría un modelo multiecuacional.

3. Especificación del modelo econométrico de la teoría.

El modelo planteado en la ecuación (1) es de un interés limitado para el económetra ya que supone
una relación exacta entre el consumo y la renta. Las relaciones entre las variables económicas son en
general inexactas, debido a que además la renta, existen otras variables que afectan al consumo
como es el tamaño de la familia, edades de sus miembros,… que de alguna forma ejercerán alguna
influencia sobre el consumo.

Por todas estas razones el modelo propuesto anteriormente se podría escribir de la siguiente forma
para así, poder considerar estas relaciones inexactas entre las variables económicas:

(2)

Siendo u el término de perturbación o error aleatorio. Esta variable aleatoria representará todos
aquellos factores que afectan al consumo pero no son considerados de forma explícita.

Esta última ecuación propuesta es un claro ejemplo de modelo econométrico, más específicamente,
un ejemplo de modelo de regresión lineal, en donde la función econométrica de consumo plantea
como hipótesis que la variable dependiente (consumo) está relacionada linealmente con la variable
independiente (renta) pero que la relación entre ellas dos no es del todo exacta.

9
Econometría I viu
6ECTS .es

4. Obtención de datos.

La información de la que se dispone en el modelo anterior es únicamente los pares de datos (x, y),
pero se desconocen los valores de los parámetros que lógicamente serán unas constantes. Así
pues, el objetivo en ese modelo será calcular los valores de esos dos parámetros.

5. Estimación de los parámetros del modelo econométrico.

Con la información de los pares de valores (x, y) se quiere estimar los valores de para la función
de consumo. Para ello, se utilizará el análisis de regresión donde se calculan como:

(3)

(4)

donde la función estimada quedará de la siguiente manera:

(5)

6. Prueba de hipótesis.

Suponiendo que el modelo que hemos obtenido es adecuado, se tendrán que desarrollar criterios
apropiados para encontrar si los valores estimados obtenidos concuerdan con las expectativas de la
teoría, es decir, con los datos reales, ya que una teoría que no es verificable por la evidencia empírica
no podrá ser admisible. En otras palabras, ¿ es estadísticamente menor que uno y mayor que cero?
Para comprobarlo se verá en la parte de Inferencia Estadística.

7. Pronóstico o predicción.

Si el modelo propuesto confirma la hipótesis propuesta en el apartado anterior, entonces se podrá


utilizar para predecir valores futuros de la variable dependiente (y) a partir del valor conocido o
esperado de la variable explicativa (x).

Imaginemos que se espera en el año 2020 una renta media de 2.000 € en España, ¿cuál será el consumo
medio que se esperará en 2020 para España?

Estimados los parámetros, imaginemos que se obtiene que:

Sustituyendo los obtenidos en la ecuación (5) obtenemos la predicción:

€.

10
viu Grado en Administración y Dirección de Empresas
.es Módulo de Formación Básica

8. Utilización del modelo para fines de control o de política.

Un modelo estimado puede ser utilizado para fines de control o de política. Siguiendo con el ejemplo,
supóngase que el Gobierno considera que un nivel medio de consumo en 2016 de 1.000 €, mantendrá
la tasa de desempleo. Entonces, ¿qué nivel de renta garantiza la cantidad de gasto de consumo fijado
como meta? Así, si la función de consumo es aceptable, entonces sustituyendo en la ecuación (5) se
tiene que:

y así .

Así, mediante una mezcla apropiada de política fiscal y monetaria, el gobierno puede manejar la
variable control (x) para producir el nivel deseado de la variable objetivo (y).

1.4. Datos económicos


Para que el modelo econométrico pueda funcionar, necesitamos disponer de un conjunto de datos
sobre las variables y conocer los valores numéricos de sus parámetros. A continuación, vamos a
estudiar tres tipos de datos que se pueden utilizar en la estimación de un modelo econométrico:
series temporales, datos de corte transversal y datos panel.

•• Series temporales: son observaciones de una variable, para una unidad económica a lo largo
del tiempo. Por ejemplo, datos del paro nacional a lo largo del tiempo, ventas de una empresa
durante un periodo de tiempo…, etc.

•• Datos de corte transversal o atemporales: son observaciones de una variable, para distintas
unidades económicas en un momento de tiempo dado. Por ejemplo: Encuesta de Población
Activa (INE) en el año 2016 en la que se ha entrevistado a más de 20.000 familias.

•• Datos de panel: son observaciones de una variable para distintas unidades económicas a lo
largo del tiempo, es decir, es la combinación de datos temporales y de corte transversal. Por
ejemplo Encuesta de Población Activa (INE) a lo largo del tiempo en la que se ha entrevistado
a más de 10.000 familias.

11
Econometría I viu
6ECTS .es

12
viu Grado en Administración y Dirección de Empresas
.es Módulo de Formación Básica

Tema 2.
Modelo de regresión simple: definición, estimación y
propiedades

En este segundo tema se recuerda al alumno conceptos vistos en Estadística I relacionados con el
análisis de regresión. El tema empieza definiendo qué es un modelo de regresión, en concreto, un
modelo de regresión simple, y a continuación se muestra el método más utilizado para estimar los
parámetros desconocidos junto con sus propiedades. Además, se analiza la diferencia entre regresión
y correlación y se muestra una medida de bondad de ajuste del modelo. El tema finaliza con la
realización de un modelo de regresión simple en RCommander.

2.1. Modelo de regresión simple


El análisis de regresión (lineal o no lineal) trata del estudio de la variable dependiente (llamada
también endógena o explicada) en función de una o más variables independientes (llamadas también
exógenas o explicativas) con el objetivo de estimar o predecir la media de la variable dependiente en
términos de los valores conocidos o fijos en muestras repetidas de la/s variable/s explicativa/s.

Francis Galton (1822-1911) fue quien utilizó por primera vez el término regresión para predecir la
estatura promedio de los hijos (variable dependiente) conociendo la estatura de sus padres (variable
explicativa).

13
Econometría I viu
6ECTS .es

El modelo de regresión simple es aquel en el que el comportamiento de una variable dependiente


(y), se puede explicar a través de una variable independiente (x) ecuación (2):

En primer lugar, en el modelo hay tres tipos de variables: y, x, u. En este modelo el único un factor
explícito para explicar y es x, siendo ambas variables de tipo cuantitativo. El resto de los factores que
afectan a y están recogidos en el error o perturbación aleatoria (u). La perturbación es una variable no
observable y es independiente y normalmente distribuida con media 0 y desviación estándar
s: . Los parámetros fijos a estimar son .

Así pues en (2) se pueden distinguir dos componentes: un componente sistemático y la


perturbación aleatoria m. Llamando my al componente sistemático:

my (6)

La ecuación (6) se denomina recta poblacional o función de regresión poblacional (FRP). Así pues,
como puede apreciarse en la figura 1, my es una función lineal de x con término independiente y
pendiente .

Y
Y

my = b1 + b2X
 D  Departamento  
epartamento  dde  e  MMetodología  
etodología  ee  I  nnovación  
Innovación  
C/  Gorgos,  nº  5  (46021)  VValencia  
C/   G orgos,   n º   5   ( 46021)   alencia      
Tel.  96  192  449  9  773  3      
Tel.   9 6   1 92  
   
La ecuación
La ecuación (6)(6) se
se denomina
denomina recta
recta poblacional
poblacional oo función
función de de regresión
regresión poblacional
poblacional
(FRP). Así
(FRP). Así pues,
pues, como
como puede
puede apreciarse
apreciarse en
en lala figura
figura 1,
1, µµ yes
es una
una función
función lineal
lineal de
de xx
y
contérmino
con independienteββ1yypendiente
términoindependiente pendienteββ 2 . .
1 2

[Insertarfigura
[Insertar figura1]
1]
X
Figura1.
1.Recta
Rectapoblacional.
poblacional.Elaboración X
Elaboraciónpropia
propia
Figura
Figura 1. Recta poblacional. Fuente: elaboración propia.

La linealidad significa que un aumento de una unidad en x implica que el valor esperado de y
La linealidad
linealidad significa que que unun aumento
aumento de de una
una unidad unidad en
en xx implica
implica que
que elel valor
valor
( La
my = E(y)
esperadode
esperado
)
varíe en significa
unidades.
(( ))
deyy µµ y ==EE((yy)) varíe
y
varíeen unidades.  .  
en ββ1 unidades
1
Se dispone
dispone de
Se
Se dispone de unademuestra
una muestra
una muestra aleatoria
aleatoria de
aleatoria de tamaño
de tamaño tamaño n,
n, {(yi,n,x{(y
):{(yii,i,=xxi):1,
i): i i == 1,
...,n},1,la
...,n}, lala cual
cual secual
...,n}, se ha
ha se ha
extraído de la
extraído de
extraído de lala población
población de
de estudio.
estudio. ElEl modelo
modelo i de regresión simple para cada
de regresión simple para cada
población de estudio.
observación delaEl modelo
lamuestra de
muestrase regresión
seexpresa simple para cada observación de la muestra se expresa
expresacomo:
como:
observación de
como:
yyi i ==ββ11++ββ22xxi i ++uui i ii==11,2,2....,
....,nn (7)
(7)(7)
ooo
yyi i ==µµyiyi ++uui i ii==11,2,2....,
....,nn (8)
(8)(8)

Laestimación
La estimacióndel
delmodelo
modelode
deregresión
regresiónsimple
simpleviene
vienedada
dadapor:
por:

^^ ^^ ^ ^

yyi i ==ββ11++ββ22xxi i 14ii==11,2,2....,


....,nn(9)
(9)
^^
Paracada
Para cadaxixitenemos
tenemosun
unvalor observadoyyi iyyun
valorobservado unvalor ajustado yy i . .La
valorajustado Ladiferencia
diferencia
i
^ ^
viu Grado en Administración y Dirección de Empresas
.es Módulo de Formación Básica

La estimación del modelo de regresión simple viene dada por:


Y
(9)

Para cada xi tenemos un valor observado yi y un valor ajustado . La diferencia entre yi y se le


Yi
denomina residuo , según puede verse en la figura 2:

(10)
^
ui
Y
^Y * *
*
^^ ^^ ^
^
Yi YI = b1 + b2 Xi
*
YiYi *

^^
^
uuii
^^ * *
*
YiYi X
**
**

X
X
Figura 2. Residuos en el modelo de regresión simple. Fuente: elaboración propia.

2.2. 
Obtención de las estimaciones  Dpor Mínimos Cuadrados
epartamento  de  Metodología  e  Innovación  
C/  Gorgos,  nº  5  (46021)   Valencia    
Ordinarios (MCO) Tel.   9 6   1 92   49  73    
 

Existenpropiedades estadísticas
varios métodos que lo han
para estimar convertido en
los parámetros uno de los métodos
desconocidos más eficaces
en el modelo y
de regresión. A
populares del análisis de regresión. Este método se debe a Carl Friedrich Gauss
continuación mostramos el método más utilizado denominado Mínimos Cuadrados Ordinarios un
(MCO)matemático
debido a quealemán. Los estimadores obtenidos se conocen como estimadores
los estimadores obtenidos gozan de ciertas propiedades estadísticas que lo han
mínimos cuadrados ya que se derivan del principio de mínimos cuadrados.
convertido en uno de los métodos más eficaces y populares del análisis de regresión. Este método se
debe a Carl Friedrich Gauss un matemático alemán. Los estimadores obtenidos se conocen como
estimadores mínimos cuadrados ya que se derivan del principio de mínimos cuadrados.

El MCO consiste
El MCOen minimizar
consiste la suma de
en minimizar la los
sumacuadrados de los residuos,
de los cuadrados es decir, es decir,
de los residuos,
^ n ^
2
β MCO → min S CR = min ∑u i (11)(11)
i =1

Los residuos se elevan


Los residuos se al cuadrado
elevan para evitar
al cuadrado parala evitar
compensación de los residuos
la compensación positivos con los
de los residuos
negativos y paracon
positivos penalizar más a losy residuos
los negativos grandes
para penalizar másfrente a los
a los pequeños.
residuos Además
grandes con
frente a este
los criterio,
pequeños. Además con este criterio, los estimadores
los estimadores de mínimos cuadrados son sencillos de obtener. de mínimos cuadrados son
sencillos de obtener.

A continuación se muestra el proceso de obtención de los estimadores de mínimos


cuadrados:

El objetivo es obtener estimadores de los parámetros


15 β1 , β2

El método utilizado es el de Mínimos Cuadrados Ordinarios.


- La función objetivo a minimizar es:
β MCO → min S CR = min ∑u i (11)
i =1

Los residuos se elevan al cuadrado para evitar la compensación de los residuos I


Econometría viu
positivos con los negativos y para penalizar más a los residuos grandes frente a los
pequeños. Además con este criterio, los estimadores de mínimos cuadrados son
6ECTS .es
sencillos de obtener.

A continuación se muestra
A continuación el proceso
se muestra de obtención
el proceso de los estimadores
de obtención de mínimos
de los estimadores cuadrados:
de mínimos
cuadrados:
El objetivo es obtener estimadores de los parámetros .
El objetivo es obtener estimadores de los parámetros β1 , β2
El método utilizado es el de Mínimos Cuadrados Ordinarios.
El método utilizado es el de Mínimos Cuadrados Ordinarios.
- La función objetivo a minimizar es:
•• La función objetivo a minimizar es:
n ^ n ^ ^
2
min S CR = min ∑u i = min ∑ ( yi − β 1 − β 2 xi ) 2 (12)(12)
i =1 i =1

}
•• Las condiciones de mínimo son:
- Las condiciones de mínimo son:
1ª condición:
∂SCR
^
=0 1ª condición:

∂β (13)
1

2ª condición: (13)
∂SCR
2ª condición:^
=0
∂ β2
•• Derivando parcialmente e igualando a cero para encontrar un mínimo tenemos las ecuaciones

}
(14):
- Derivando parcialmente e igualando a cero para encontrar un mínimo tenemos
las ecuaciones (14):

∂SCR n ^ ^
= 2∑ ( yi − β 1 − β 2 xi )(−1) = 0
^
i =1
(14)
∂ β1
(14)
∂SCR n ^ ^

^
= 2∑ ( yi − β 1 − β 2 xi )(− xi ) = 0
i =1
∂ β2
De las ecuaciones (14) se deducen las ecuaciones normales (15), como resultado de igualar a

}
0 las derivadas anteriores:
- 9-
 
 
(15)


Después de operar con las ecuaciones normales (si se desea ver su desarrollo ver Manual Estadística I),
se obtienen los parámetros:

(16)

(17)

Una vez calculado en la ecuación (17), se puede obtener sustituyendo la ecuación (16).

16
viu Grado en Administración y Dirección de Empresas
.es Módulo de Formación Básica

2.3. Algunas propiedades de los estimadores MCO


Bajo ciertos supuestos, el MCO tiene algunas propiedades estadísticas muy atractivas que lo han
convertido en uno de los más eficaces y populares del análisis de regresión. A continuación, se
muestran una serie de propiedades numéricas de los estimadores MCO.

1. Los estimadores MCO se expresan en función de las cantidades x e y de la muestra aleatoria.

2. Son estimadores puntuales, es decir, dada la muestra cada estimador proporcionará un solo
valor puntual del parámetro poblacional.

3. Una vez obtenidos los estimadores de MCO, la línea de regresión muestral se obtiene
fácilmente y cumple las siguientes propiedades:

3.1. La recta de regresión MCO pasa a través de las medias muestrales de x e y.

3.2. El valor medio de y es igual al valor medio del valor estimado de y.

3.3. La suma de los residuos es igual a cero.

3.4. La suma del producto entre los residuos y los valores predichos de y, para cada observación,
es igual a 0.

3.5. La suma del producto entre los residuos y los valores de x, para cada observación, es igual
a 0.

Estas propiedades estadísticas de los MCO están basadas en los supuestos del Modelo Clásico de
Regresión Lineal (MCRL) y están protegidas por el famoso teorema de Gauss-Markov. Éste proporciona
justificación teórica para los MCO.

2.4. Supuestos detrás del método de MCO


El modelo de Gauss o MCRL, es la base de la mayor parte de la teoría econométrica, plantea varios
supuestos. Estos supuestos son sencillos, y los estimadores MCO obtenidos tienen, bajo estos
supuestos, muy buenas propiedades.

Modelo de Regresión Lineal. El modelo de regresión es lineal en los parámetros, tal y como se
demuestra en la figura 1.

Los valores de X son fijos en muestreo repetido. Los valores que toma la variable explicativa X son
considerados fijos, tomando el mismo valor, para diferentes muestras. Más técnicamente, los datos se
obtienen mediante observación, no mediante experimentación. El análisis de regresión es un análisis
de regresión condicional, es decir, el valor de la variable dependiente, está condicionado a los valores
dados de la variable independiente.

El valor medio de la perturbación aleatoria es igual a cero. Es decir, dado el valor de x, la media o
valor esperado del término aleatorio de perturbación es cero.

17
Econometría I viu
6ECTS .es

Homoscedasticidad o igualdad de varianza de la perturbación aleatoria. Dado el valor de x, la


varianza de la perturbación aleatoria es la misma para todas las observaciones.

Recordar que heteroscedasticidad es justo lo contrario a la homoscedasticidad, significa dispersión


desigual o varianza desigual.

No autocorrelación entre las perturbaciones. Dados dos valores cualesquiera de x las perturbaciones
aleatorias, la correlación entre ellos correspondientes es cero. Es decir, las perturbaciones
correspondientes a diferentes individuos o a diferentes momentos de tiempo, no están correlacionadas
entre sí.

Las perturbaciones se distribuyen normalmente. Este supuesto radica en que si las perturbaciones
aleatorias distribuyen normalmente, también lo harán la variable dependiente y los parámetros
estimados de la regresión. Esto es fundamental para la realización de contrastes de hipótesis y para la
construcción de intervalos de confianza.

La covarianza entre la perturbación aleatoria y la variable explicativa es cero. Este supuesto


establece que la perturbación y la variable explicativa no están correlacionadas.

Este supuesto, se cumple debido a que la x no es aleatoria o estocástica. En otro caso sería difícil
separar la influencia de x entre x y u, pues seguro que a medida que aumentara x lo haría u y viceversa.

El número de observaciones debe de ser mayor que el nº de parámetros por estimar. El número
de observaciones (n) debe ser mayor que el número de variables explicativas.

Variabilidad en los valores de X. Lógicamente no todos los valores de X en una muestra dada deben
ser iguales. La varianza de X debe ser un número positivo.

Los parámetros a estimar, son constantes.

Suponemos que el regresor x no contiene errores de medición.

El modelo de regresión está correctamente especificado. En este supuesto debemos de


plantearnos cuestiones como: ¿Qué variables deben incluirse en el modelo? ¿Cuál es la forma
funcional del modelo? ¿Es el modelo lineal en los parámetros, en las variables, o en ambos? ¿Cuáles
son los supuestos probabilísticos considerados sobre la inclusión en el modelo?

Todas estas preguntas son bastante importantes, ya que la omisión de variables importantes del
modelo o la elección de una forma funcional errónea provocarán que el modelo de regresión no sea
el adecuado.

18
viu Grado en Administración y Dirección de Empresas
.es Módulo de Formación Básica

No hay multicolinealidad perfecta. Es decir, no hay relaciones perfectamente lineales entre las
variables explicativas.

2.5. 
Propiedades de los estimadores de mínimos cuadrados:
teorema de Gauss-Markov
Como ya se mencionó en el apartado 2.2, bajo los supuestos del modelo clásico de regresión lineal,
los valores estimados mediante el método de MCO poseen algunas propiedades estadísticas
deseables. Estas propiedades están contenidas en el conocido teorema Gauss-Markov. Dicho
teorema enuncia lo siguiente:

Dados los supuestos del modelo clásico de regresión lineal, los estimadores MCO presentan una varianza
mínima, dentro de la clase de estimadores lineales insesgados (MELI).

Así pues, un estimador MCO es el mejor estimador lineal si se cumple que:

1) Es lineal, es decir, que es función lineal de la dependiente.

2) Es insesgado, es decir, que tiene varianza mínima dentro de la clase de todos los estimadores
lineales insesgados. Que tenga varianza mínima, significa que presentan menor error
cuadrático comparado con otros estimadores.

Luego, ante dos estimadores que son lineales e insesgados, el estimador óptimo será aquel que tenga
la menor varianza, todo ello con el objetivo de que la función de regresión muestral sea lo más similar
posible a la función de regresión problacional.

2.6. Regresión y correlación


El análisis de regresión está estrechamente relacionado con el de correlación, aunque conceptualmente
son muy diferentes.

El coeficiente de correlación (r) mide la intensidad de relación lineal o grado de asociación entre dos
variables. Ejemplo: calificaciones obtenida en estadística I y las obtenidas en estadística II; hábito de
consumir alcohol y el cáncer de páncreas o de estómago. Como ya vimos en Estadística I, la expresión
del coeficiente de correlación es:

(18)

en donde si la covarianza (Sxy) vale 0 el coeficiente también valdrá 0. Este coeficiente toma valores que
pertenecen al intervalo cerrado [-1,1], y su interpretación es la siguiente:

Si r= -1 la correlación lineal es perfecta negativa.

Si r= 1 la relación lineal será perfecta y positiva.

19
Si -1 < r< 0, la relación lineal será imperfecta y negativa.
Si 0<r<1, la relación será imperfecta y positiva.
Si 0<r<1, la relación será imperfecta y positiva.
Si r= 0, la correlación lineal es nula será nula y diremos que hay incorrelación.
Econometría I viu
Si r= 0, la correlación lineal es nula será nula y diremos que hay incorrelación.
El objetivo del análisis de regresión es predecir el valor promedio de una variable a 6ECTS .es
partir deEl valores
objetivo de
delotras variables.
análisis En el ejemplo
de regresión de antes,
es predecir el valorsepromedio
podría predecir el
de una variable a
promedio de las calificaciones en un examen de estadística II conociendo las
Si -1 <partir
r< 0, lade
calificaciones
valoreslineal
relación
obtenidas
de otras variables. yEn
será imperfecta el ejemplo de antes, se podría predecir el
negativa.
promedio de lasencalificaciones
la asignatura deenestadística
un examenI. de estadística II conociendo las
calificaciones
Si 0<r<1, obtenidas en la yasignatura de estadística I.
Por tanto, la
enrelación será
el análisis imperfecta
de correlación positiva.
no hay distinción en la variable dependiente y
las independientes,
Por tanto, ensuponiendo que
el análisis de las variables
correlación son distinción
no hay aleatorias.enMientras quedependiente
la variable en la y
Si r= 0,
regresión la correlación
la variable lineal es nula
dependiente será
es nula y diremos
aleatoria o que hay
estocástica,incorrelación.
es decir, tiene una
las independientes, suponiendo que las variables son aleatorias. Mientras que en la
distribución de probabilidad,
regresión la variablemientras que las
dependiente esvariables
aleatoriaexplicativas tienenes
o estocástica, valores
decir,fijos
tiene una
El objetivo
o conocidos. del análisis de regresión es predecir el valor promedio de una variable a partir de valores
distribución de probabilidad, mientras que las variables explicativas tienen valores fijos
de otras variables. En el ejemplo de antes, se podría predecir el promedio de las calificaciones en un
o conocidos.
examen de estadística II conociendo las calificaciones obtenidas en la asignatura de estadística I.

Por tanto, en el análisis de correlación no hay distinción en la variable dependiente y las independientes,
2.7 Medida
suponiendo quede bondad
las variables sonde ajusteMientras que en la regresión la variable dependiente es
aleatorias.
aleatoria o estocástica, es decir, tiene una distribución de probabilidad, mientras que las variables
2.7 Medida de bondad de ajuste
explicativas tienen valores fijos o conocidos.
La medida de bondad de ajuste más conocida y utilizada es el coeficiente de
2.7. Medida
determinación (R2).de
La medida R2 bondad
de mide la de
bondad
de ajuste
proporción o el porcentaje
ajuste más conocida ydeutilizada
la variación
es eltotal en y
coeficiente de
explicada por el modelo de
2 regresión.
2 Por definición:
determinación (R ). R mide la proporción o el porcentaje de la variación total en y
La medida de bondad
explicada de ajustedemás
por el modelo conocida
regresión. y utilizada
Por definición: es el coeficiente de determinación (R2). R2
∧ ∧
mide la proporción o el porcentaje
yi = de
yi +lauivariación total   y explicada por el modelo de regresión. Por
(19)en
definición: ∧ ∧
yi = yi + ui
(19)  

Restando la media de y y elevando la expresión (19) al cuadrado en ambos lados y


(19)
sumando sobre la muestra, se obtiene:
Restando
Restando la de
la media media de y y elevando
y y elevando la expresión
la expresión (19) al en
(19) al cuadrado cuadrado en ambos
ambos lados lados sobre
y sumando y la
sumando sobre la muestra, se obtiene:
muestra, se obtiene: ⎛ ⎞ ∧2
∑ [y − y] = ∑ ( y − y) +∑ u + 2 u ⎜⎜ y − y ⎛⎟⎟ (20)⎞  
2 ∧ ∧ ∧ ∧ ∧
2
i i i i i i
∧2
∑ [y − y] = ∑ ( y − y) +∑ u⎝ + 2 u ⎜⎜⎠ y − y ⎟⎟
2 ∧ ∧ ∧ ∧ ∧
2
i i i i i i
(20)  
(20)
⎝ ⎠
Teniendo
Teniendoen
encuenta
cuentalas
laspropiedades
propiedades3.3
3.3yy 3.4
3.4 del
del apartado
apartado 2.3:
2.3:
Teniendo en cuenta las propiedades 3.3 y 3.4 del apartado  D2.3:
epartamento  de  Metodología  e  Innovación  
∧ ∧ ∧ ∧ ∧ ∧ ∧
∑ u ( y − y) = ∑ u y − y∑ u = 0 (21)(21)
i i
∧ ∧
  C/  Gorgos,  nº  5  (46021)  Valencia    

i i
∧ ∧
i
∧ ∧
Tel.  96  192  49  73    
se obtiene:
 
∑ u ( y − y) = ∑ u y − y∑ u = 0 (21)  
i i i i i

∧2
∑ [y − y] = ∑ ( y − y) +∑ u
se obtiene: 2 ∧ ∧
2
i i i (22) (22)  
se obtiene: - 14-
 
  La ecuación (22) en palabras es: - 14-
La ecuación (22) se define como:  
  Suma de cuadrados totales (SCT) =Suma de cuadrados explicados (SCE)+Suma de
Suma de loscuadrados
cuadrados totales
de los(SCT) =Suma
residuos de cuadrados explicados (SCE)+Suma de los cuadrados de
(SCR).
los residuos (SCR).
SCT se puede definir como la variación total de los valores reales de y con respecto a
SCT se puedesu media muestral.
definir como la variación total de los valores reales de y con respecto a su media muestral.

SCE se puede definir como variación de los valores y estimados alrededor de su


media o variación de los valores y explicada por la recta de regresión.

SCR se puede definir como la variación residual o no explicada de los valores de y


alrededor de la recta de regresión.

2.
A continuación, vamos a ver qué relación
20
tienen la SCT, SCE, SCR con el R El R 2 se
define como:

N ^ ^ N N ^
SCT se puede definir como la variación total de los valores reales de y con respecto a
Suma de cuadrados
su media muestral.totales (SCT) =Suma de cuadrados explicados (SCE)+Suma de
los cuadradosSCT deselospuede definir
residuos como la variación total de los valores reales de y con respecto a
(SCR).
su media muestral.
viu SCE se en
Grado puede definir como
Administración variación
y Dirección de los valores y estimados alrededor de su
de Empresas
.es
SCT se puede
media o
Módulo
su media
definir de
variación
de Formación
SCE
muestral.
como
se puede
los la variación
valores
Básica y total de los
explicada por valores
la rectareales de y con respecto a
de regresión.
definir como variación de los valores y estimados alrededor de su
media o variación de los valores y explicada por la recta de regresión.
SCR se puede definir como la variación residual o no explicada de los valores de y
SCE se puede definir como variación de los valores y estimados alrededor de su
alrededor de la recta de regresión.
SCE se puede
media definirse
SCR
o variación puede
como
de definir
los variación
valores y decomo la variación
los valores
explicada por la rectaresidual
y estimados o no explicada
alrededor
de regresión. de su media de los valores de
o variación de y
alrededorpor
los valores y explicada de la
larecta
rectadederegresión.
regresión.
SCR se puede definir como la variación residual o no explicada de los valores 2.de y 2
A continuación,
alrededor de la rectavamos a ver qué relación tienen la SCT, SCE, SCR con el R El R se
de regresión.
SCR se puede
define definir como la variación residual o no explicada de los valores de y alrededor de2.la recta2
como:
A continuación, vamos a ver qué relación tienen la SCT, SCE, SCR con el R El R se
de regresión. define como:
2.N N
A continuación, vamos a ver qué relación tienen la SCT, SCE,NSCR ^ ^
con el
2 R El R 2 se 2 ^

define como: ( y ∑
− y ) ( y ∑− y ) − (u )2 N ∑
A continuación, vamosen
var ianza a estudiar
y por qué
la relación
recta detienen la SCT, SCE, SCR iconNel R^2. El R^ 2 se define
regresión I =1
N como:i I =1
^
R2 = = IN=1 ∑
i
( y=i − y ) 2 N ∑ ( y − y ) − ∑
2
= (u i ) 2
var ianza total de los datos y
var ianza en y por la recta de regresión
R2 =
N

^
( y^ i =2− IyN=)1 N2 ∑ i^ 2
2= ( y i − y ) 2
I =1N I =1
=
var ianza total de los datos ∑y ( yI i=1
− y ) ∑ ( y − y ) − ∑ (u N
i )
var ianza en enyy por
varianza porlalarecta
recta de regresión I =1
de regresión ∑ I(=1y −
i i y)
2 I =1
I =1 ∑ ( y − y )
2
R2 = = N = =i
var ianza total
varianza totaldede los datos y y 2
I = 1 N
2
I =1

N ^
∑ ( y i − y) I =1
∑ ( yi − y)
I =1
2
∑ (u )
I =1
i N Suma de cuadrados residuales
^ ( SCR )
=1− ∑=(u1 −) 2
N ^
N
Suma Suma
i
de cuadrados totalesresiduales
de cuadrados ( SCT ) ( SCR )
∑ ( y1)i 2−− yN)I2=1
=
u = 1 −
∑ (
I =1
i
Suma2Suma
de de Suma
cuadradosde residuales
cuadrados cuadrados(SCR)(totales
SCR ) ( SCT )
= 1 − N I =1 ∑ = (1y−i − y )
I =1 SumaSuma de decuadrados
cuadrados totales (SCT)
( SCT )
∑ ( yi − y) 2
I =1

Suma de cuadrados exp licada por la regresión ( SCE )


=   (23)
Sumade decuadrados
Suma cuadradosexptotales
licada por( SCTla) regresión ( SCE )
=   (23)
Suma de Suma
cuadrados Suma deporpor
exp licada
de cuadrados cuadrados totales ( SCE
la regresión
la regresión (SCE) ( SCT
) )
= (23)
  (23)
SumaSuma
de de
cuadrados
cuadrados totales ( SCT )
totales (SCT)

2
La relación
La relación entre entre y el r es:
el R 2 yelelRr es:
La relación entre el R 2 y el r es:
2
La relación entre el R 2 y el r es: S xy
2 S 2Sxy 2 xy
R 2 S=2 xyS 2 x = 22 2 = 2r 2 (24)
S 2y SS xX S= y S xy = r 2
2 R =S 2
R 2 = S 2 x = 2 S y2 = Sr 2 X S (24)
xy
2 2 2 (24)
y
S y S XS y
2.8. Estimación de parámetros en el modelo lineal simple mediante
RCommander
- 15-
Siguiendo con el ejemplo de la Teoría Keynesiana de consumo visto en el tema 1, a continuación
  se
 
muestra un ejemplo de la estimación de parámetros. - 15-
- 15-  
   
  la función de consumo Keynesiana ecuación (2):
Dada

Donde y es el consumo (variable dependiente) y x la renta (variable independiente). A continuación,


procedemos a estimar dicha función en 6 familias españolas. Los resultados se muestran en la figura 3.

21
Econometría I viu
6ECTS .es

familia
xi yi n xi*n yi*n (xi–x) (yi–y) (xi–x) (yi–y)*n (xi–x)2 n (yi–y)2 n
(i)
1 1.600 1.200 1 1.600 1.200 288,33 188,33 54.302,78 83.136,111 35.469,444
2 1.200 900 1 1.200 900 –111,67 –111,67 12.469,44 12.469,444 12.469,444
3 1.500 1.300 1 1.500 1.300 188,33 288,33 54.302,78 35.409,444 83.136,111
4 1.350 1.000 1 1.350 1.000 38,33 –11,67 –447,22 1.469,4444 136,11111
5 1.220 920 1 1.220 920 –91,67 –91,67 8.402,78 8.402,7778 8.402,7778
6 1.000 750 1 1.000 750 –311,67 –261,67 81.552,78 97.136,111 68.469,444
6 7.870 6.070 0,00 0,00 210.583,33 238.083,33 208.083,33
X = 1.311,67 y = 1.011,67 S2x = 39.680,56 S2y = 34.680,56

Sxy = 35.097,222 Sx = 199,20 Sy = 186,23 r = 0,9461083


^ ^
b 1 = –148,4949 b 2 = 0,8844942 y = –148,49+0,88x R2 = 0,8951209

Figura 3. Estimación de parámetros en la función de consumo Keynesiana. Fuente: elaboración propia.

A continuación, procedemos a resolver el ejercicio mediante el software RCommander.

Una vez introducidos los datos en el software, para obtener el modelo, basta con seleccionar
Estadísticos/ Ajuste de modelos/Regresión lineal y seleccionar cual es la variable dependiente y la
independiente. Los resultados se muestran en la figura 4.

Figura 4. Estimación de parámetros en la función de consumo Keynesiana mediante RCommander. Fuente: elaboración propia.

22
viu Grado en Administración y Dirección de Empresas
.es Módulo de Formación Básica

Tema 3.
Regresión lineal múltiple: definición, estimación y
propiedades

Este tercer tema se centra en definir el modelo de regresión lineal múltiple, cómo se estiman sus
parámetros y cómo se valida dicho modelo. Igual que en el tema anterior, todo lo visto en teoría se
ilustra de forma práctica mediante el software RCommander.

3.1. Definiciones del modelo de regresión múltiple


La regresión lineal simple o también llamada con dos variables estudia la dependencia entre una
variable explicada (y) y una única variable explicativa (x). Sin embargo, la regresión lineal múltiple
estudia la dependencia de una variable explicada (y) y más de una variable explicativa (x).

Por tanto, la diferencia entre ambas regresiones es que en la regresión lineal simple sólo hay una
variable explicativa, mientras que en la regresión múltiple hay más de una variable explicativa.

El modelo poblacional de regresión lineal múltiple viene dado por la siguiente expresión:

(25)

23
Econometría I viu
6ECTS .es

Igual que en la regresión lineal simple:

y es la variable dependiente (llamada también endógena o explicada) es cuantitativa.

x2, x3,..., xk son las variables independientes (llamadas también exógenas o explicativas).

u es el error o perturbación aleatoria la cual es, independiente y normalmente distribuida con media
0 y desviación estándar s.

los parámetros fijos a estimar.

En la ecuación (25) se pueden distinguir dos componentes: un componente sistemático


y la perturbación aleatoria u. Se define my al componente sistemático:

my (26)

De la misma forma en que se vio en la figura 1, my = E(y) es una función lineal de las de las variables
explicativas con parámetros .

La ecuación (26) se denomina hiperplano poblacional o función de regresión poblacional (FRP).


Dependiendo del valor que tome k, la FRP es diferente:

•• Cuando se dispone de 1 variable explicativa y 1 respuesta, la FRP sería una recta.

•• Cuando se dispone de 2 variables explicativas y 1 respuesta, la FRP sería un plano.

•• Cuando se dispone de más de 2 variables explicativas y 1 respuesta, la FRP es un hiperplano.

2.500

2.000
Coste total

1.500

1.000
2.000
500 1.500
l
ta
1.000 l to
0 ria
0 a la
500 e s
250 st
Otro
s co 500 0 Co
stes 750

Figura 5. Ejemplo de plano poblacional. Fuente: Lorenzo, J.M.M. (2007).

24
Figura 5. Ejemplo de plano poblacional. Lorenzo, J.M.M. (2007).
Figura 5. Ejemplo de plano poblacional. Lorenzo, J.M.M. (2007).

viu Grado en Administración y Dirección de Empresas


La.esfiguraMódulo
5, muestra comoBásica
de Formación las observaciones de las variables Coste total (variable
respuesta),
La Otros costes
figura 5, muestra como ylasCoste salarial (variables
observaciones explicativas),
de las variables Coste se totalencuentran
(variable
contenidas en
respuesta), el plano
Otros costesde regresión.
y Coste salarial (variables explicativas), se encuentran
La figura 5, muestra como
contenidas en el plano de regresión.las observaciones de las variables Coste total (variable respuesta), Otros
Elcostes
modeloy Coste salarial (variablesmúltiple
de regresión lineal no sesepuede
explicativas), tratarcontenidas
encuentran de la misma en elmanera
plano deque el
regresión.
modelo de regresión lineal simple. A continuación, se muestra el
El modelo de regresión lineal múltiple no se puede tratar de la misma manera que el modelo de regresión
múltiple
modelo
El modelodeutilizando
regresión álgebra
lineal
de regresión matricial,
simple.
lineal A acontinuación,
múltiple diferencia
no se puede del
semodelode lalineal
muestra
tratar simple
el modelo
misma manera en regresión
de el
que que se
el modelo de
utilizó
múltiple el álgebra
utilizando ordinaria.
álgebra matricial, a diferencia del modelo lineal simple en el
regresión lineal simple. A continuación, se muestra el modelo de regresión múltiple utilizando álgebraque se
utilizó el álgebra ordinaria.
matricial, a diferencia
Imaginemos del modelo
que se dispone linealmuestra
de una simple en el que se
aleatoria deutilizó
tamaño el álgebra
n, {y , ordinaria.
x x x ): i = i 2i, 3i,…., 4i
1,...,n}, la cual
Imaginemos que se
se ha extraído
dispone de muestra
de una la población de estudio.
aleatoria El modelo
de tamaño n, {yi, x2i,de regresión
x3i,…., x4i): i =
Imaginemos
múltiple para que se
cada dispone de una
observación muestra
de la aleatoria
muestra de
se tamaño
expresan, {y
de , x
la
1,...,n}, la cual se ha extraído de la población de estudio. El modelo de regresión
i 2i,
x x
siguiente
3i,…., 4i
): i = 1,...,n},
formala cual se
ha extraído
matricial: de la población de estudio. El modelo de regresión múltiple
múltiple para cada observación de la muestra se expresa de la siguiente forma para cada observación de la
matricial:
muestra se expresa de la siguiente forma matricial:
⎡1 x21 x31 .... xk1 ⎤
⎡ y1 ⎤ ⎡⎢1 x xx31 .... xxk1 ⎤⎥ ⎡ β1 ⎤ ⎡ u1 ⎤
1 x2122 ....
⎡⎢yy12⎤⎥ ⎢⎢ 32 k 2 ⎥ ⎢β ⎥
⎡ ⎤ ⎡⎢u ⎤⎥
⎢⎢y ⎥⎥ ⎢⎢1 .x22. x
. 32. ....
. . x.k 2 ⎥⎥⎥⎢⎢ β12⎥⎥ ⎢⎢u12⎥⎥
⎢⎢ 2. ⎥⎥ =⎢⎢ . . ⎢β 2 ⎥ ⎢u 2 ⎥
.. .. .. .. .. ⎥⎥⎢⎢ . ⎥⎥ +⎢⎢ . ⎥⎥
⎢⎢ .. ⎥⎥= ⎢⎢ . . ⎥⎥⎢ . ⎥ + ⎢ . ⎥ (27)
⎢⎢ ⎥⎥ ⎢⎢ .. .. .. .. .. .. .. ⎥⎥⎢⎢ . ⎥⎥ ⎢⎢ . ⎥⎥ (27)
⎢⎢⎣ y. n⎥⎥⎦ ⎢⎢ . . . x. . ....
.
⎢ . ⎥ ⎢ . ⎥
. x ⎥⎥⎥⎢⎣ β k⎥⎦ ⎢⎣u n⎥⎦
⎢⎣ y n ⎥⎦ ⎢⎣⎢1 x2 n 3n kn⎥⎦⎢ β ⎥ ⎢u n ⎥
xkn ⎦⎥ ⎣ ⎦ ⎣ ⎦
k
⎢⎣1 x2 n x3 n ....
(27)
Para
Paracada observación,elelmodelo
cada observación, modelo(27)
(27) desprende
desprende el siguiente
el siguiente sistema
sistema de ecuaciones:
de ecuaciones:
Para cada observación, el modelo (27) desprende el siguiente sistema de ecuaciones:
y1 = β1 + β 2 x21 + β 3 x31 + .... + β k xk1 + u1 i = 1
yy1 ==ββ1 ++ββ2 xx21 ++ββ3 xx31 ++.... + β k xk1 + u1  Departamento  
ii ==12 de  Metodología  e  Innovación  
2 1 2 22 3 32 .... + β k xk 2 + u 2
C/  Gorgos,  nº  5  (46021)  Valencia    
yy2 ==ββ1 ++ββ2 xx22 ++ββ3 xx32 ++.... + β k xk 2 + uu2 ii == 23de  M
3 1 2 23 3 33 .... + β k xk 3  D+epartamento  
3 (28) e  ITel.  
etodología   nnovación  
96  192  49  73    
  y3 … = β1 + β…2 x23 + …β 3 x33 +… xk 3 + u3 i =C/  3…Gorgos,  n(28)
.... + β k … º  5  (46021)  Valencia    
… … … … … … Tel.  96  192  49  73    
… … … … … …
 
… y
… n … = β
…1 + β x
…2 n
2… + β x
3…3n
… + ....
… + β
… k kn x + u n …… i = n
y… …
β 2 x2n +…βde3 x3regresión
n = β1el+ modelo
Por todo lo anterior,
… …
i =…npuede expresarse
xkn + umúltiple
n + .... + β k lineal n (28) de la
- 18-
siguiente forma:  
Por Portodo
todo lo
lo anterior,elel
anterior, modelo
modelo de de regresión
regresión 18- lineal
- lineal múltiple múltiple
puede puede expresarse
expresarse de la siguiente de la forma:
   
siguiente forma:
 
y = Xβ + u (29) (29)
donde:
donde:
n es el número de observaciones. y = Xβ + u (29)
donde:k es el número de parámetros en el modelo.
n nes
esel
yeles
número
número de observaciones.
de
un vector observaciones.
de dimensión nx1.
k es elX es una matriz n x k. en el modelo.
número de parámetros
yk es el número de de parámetros
dimensión en el modelo.
βunesvector
un vector k x1.
nx1.
X es una matriz n x k.
esuun
βy es
es un vector
un vector
vectorde
nx1.
dimensión
k x1. n x 1.
u esLa un estimación
vector nx1. del modelo de regresión múltiple, para la observación i-ésima, viene
X es una matriz n x k.
dada por la siguiente expresión:
La estimación del modelo de regresión múltiple, para la observación i-ésima, viene
b espor
dada un vector k x^1. expresión:
la siguiente ^ ^ ^ ^
y i = β 1 + β 2 x2i + β 3 x3i + .... + β k xki i = 1,2...., n (30)
u es un vector ^ n x 1.^ ^ ^ ^ ^ ^
y i = βentre
La diferencia 1+ βy2ixy2iy+i βse3 xle3i denomina
+ .... + β k xresiduo
ki i = 1,u2i...., n es:
. Esto (30)
^ ^
La diferencia entre yi y^ y i se le^ denomina
^
residuo
^
u i . Esto es:
u i = yi − y i = yi − β 1 + β 2 xi i = 1,2...., n (31)
^ ^ ^ ^ 25
u i = yi − y i = yi − β 1 + β 2 xi i = 1,2...., n (31)
A continuación el modelo (30) se expresa de forma matricial:
k es elXnúmero de parámetrosk. en el modelo.
y es β knes
un
esel
es elnúmero
una
vector
número
matriz
de
ndexparámetros
de
dimensión
observaciones.
nx1. en el modelo.
k es
esun
el vector
número de parámetros en el modelo.
y es un vectorkde x1.dimensión nx1.
X es una y esmatriz
un n x k. de dimensión nx1.
vector
uXes un una
es
β es unXvector
vector nx1.n x k.
matriz
k x1. Econometría I viu
6ECTS .es
es una matriz n x k.
β es un vector k x1.
u es un
La βvector
es unnx1.
estimación vector x1.
delkmodelo de regresión múltiple, para la observación i-ésima, viene
u es un vector nx1.
dadau espor
unlavector
siguiente
nx1.expresión:
La estimación del modelo de regresión múltiple, para la observación i-ésima, viene
La estimación
dada La la
por del ^modelo
estimación
siguiente del de regresión
modelo
expresión: múltiple,múltiple,
de^ regresión para la observación i-ésima, viene
para la observación dadaviene
i-ésima, por la
La estimación
dada por la del
^
siguiente modelo
^ de regresión^ múltiple, para la observación i-ésima, viene
expresión:
dada por laysiguiente 2 x2i + β 3 x3i + .... + β k xki i = 1,2...., n
siguiente expresión: i = β 1 + β expresión:
(30)
^ ^ ^ ^ ^ ^ ^
y i = βentre
La diferencia ^ β y
1+ 2 x
^ y +^ βsexle + ^ .... + β x residuo
i^ 2i y i^ 3 3i denomina
^ i = 1,2...., n es:
u i . Esto (30)
^
y i =^β 1 + β 2 x2i + β 3 x3i + .... + β ^k xki i = 1,2...., n
^ k ki ^
(30)(30)
y i = β 1 + β^ 2 x2i + β 3 x3i + .... + β k xki i = 1,2...., n (30)
La diferencia entre yi y^ y i se le^^denomina^ residuo ^ u i . Esto^ es:
La diferencia entre y y y se le denomina residuo u ^ . Esto es:
u^i = yi
La diferencia entre yi y− yiyii se
i
= ylei −denomina
β 1 + β 2^ xiresiduo
i = 1,2ui...., n es: (31)
i . Esto
La diferencia entre
^ yi
y y se
i ^ le denomina^ residuo
^ u i . Esto es:
u i = yi^−^ y i = yi^ −^ β 1 + β 2^ x^ i i^ ^= 1,2...., n (31)
u i = yi − y i = yi − β 1 + β 2 xi i = 1,2...., n (31)
A continuación el modelou i = yi (30)
− y i se
= yexpresa
i − β 1 + de xi i =matricial:
β 2 forma 1,2...., n (31)
(31)

AAcontinuación
continuación el
el modelo
modelo (30)se
(30) seexpresa
expresa de⎤de 1 forma
⎡formax21 matricial:
x31 ....
matricial: xk1 ⎤
A continuación el modelo⎡ ^(30) ⎡ ^expresa
⎤ se de forma matricial:
A continuación el modelo y (30) β
se expresa
⎢ de forma matricial:
⎥
⎢ ⎥ ⎢ ⎥
1 1
1 x22 .... x32 x.... xk 2 ⎥
⎡ ^ ⎤ ⎢ y⎡^ ⎥^ ⎤ ⎡⎢1β ^ ⎥x⎢21⎡1 x31
^ ^
1 ⎤
y 2 β ⎤ x. 21 . x.31 . k.... ⎥ . xxk⎥1 ⎤ ⎤
⎢ ^ ⎥ ⎢ ⎢⎡y⎥^^ =⎤⎥ ⎢1 ⎡β ⎥^x22⎤⎢ ⎡1x32x21.... x31xk 2.....
1 ⎡ 1 ⎢ ⎡ 2 ⎢ ⎤ .
k 1⎥
(32)
⎢ ⎢ . y
1
⎥ ⎥ ⎢
⎢ ⎢. β 1
⎥ ⎢
⎥ 1
⎢ y ⎥ ⎢⎢^β 1 ⎥⎥ ⎢^ 1 ⎥⎢ ⎢. .22 . .32 . . . k 2 ⎥ ⎥ x x ⎥
.... x ⎥
⎢ 2 ⎥ ⎢ ⎢.⎢⎢y⎥^2 ⎥2 ⎥⎥ ⎢⎢ ⎢.β .^⎥ ⎢⎥. ⎢1. .x22. .x32. .... ⎥ x⎥k 2 ⎥ (32)
= ⎢ 2 ⎢ ⎥ ⎢ . . . . . . . ⎥ (32)
⎢ . ⎥ ⎢ ⎢^ ⎢⎢ y⎥.⎥2 ⎥⎥=⎢ ⎢^ ⎢.β⎥ ⎥2.⎥⎢ ⎢.. ... ... ... ... ..⎥ .. . ⎥ ⎥ ⎥
⎢ (32)
⎢ . ⎥ ⎢ ⎢ . ⎢
⎥
⎢ ⎥ ⎢⎣ y⎢⎢n ⎥⎦. ⎥⎥ ⎢⎣=β⎢k ⎥⎦.⎢1⎥⎢ ⎢ x. . x. . .... . ⎥. . ⎥ ⎥
x ⎥
⎢ ^. ⎥ ⎢⎢⎢.^ ⎥ ⎥⎥ ⎢ ⎢ ⎢.. ⎣⎥.⎥⎢ ⎢ . 2..n .. 3..n .. . ⎥ . kn. ⎦⎥ ⎥ ⎥
⎢⎣ y n ⎥⎦ ⎢⎢⎣⎢^β.⎥k ⎥⎥⎦ ⎢1⎢ ⎢^ x. ⎥ ⎥⎢ ⎢ x. . . . .... . . . ⎥. . ⎥
. .xkn. ⎦⎥ . . ⎥
⎢⎣ y ^n ⎥⎦ ⎢⎣ ⎢⎣ β ^k ⎥⎦2 n 1⎢ x3n x ⎥ ⎥(32)
⎢⎣ y n ⎥⎦ ⎢⎣ β k ⎥⎦⎣⎢ 1 x2 n xx3n .... .... xknkn⎦ ⎦⎥
⎢
⎣
La estimación del modelo de regresión múltiple se expresa de la siguiente forma: 2 n 3 n
La estimación del modelo de regresión múltiple se expresa de la siguiente forma:
La estimación del modelo de regresión múltiple ^ ^ se expresa  Dde la siguiente
epartamento   forma: e  Innovación  
La estimación del modelo de regresión y = X múltiple
β se expresa
(33)   D
ladde  
de (33)
epartamento  
Metodología  
siguiente
e   M etodología  
forma:
e  Innovación  
La estimación del modelo de regresión múltiple se expresa de C/  la siguiente
Gorgos,   forma:
nº  5  (46021)   Valencia    
donde: donde: ^ ^ C/  Gorgos,  nº  5Tel.  
 (46021)  
9 6   1 Valencia  
92   49  73      
^ y=Xβ ^ ^ (33) Tel.   9 6   1 92   49  73    
^  
y es un vector estimado de y ^= nx1.
dimensión X β^ (33)
donde:
y es   un vector estimado de dimensión n x 1. y = X β (33)
^ ^donde:
donde:
y es βun^ ^es vector estimado
un vector de dimensión
estimado k x1. nx1.
es un y vector
es un vector
estimado estimado
k x 1. de dimensión nx1.
^ X yesesunaun matriz x k.
vector nestimado de dimensión nx1.
β es un ^ vector estimado k x1.
X es β ^ es
una un vector
matriz nnx xk.k.estimado k x1.
X es una matriz
es un vector estimado k x1.
3.2Xβ Obtención
es una matriz n de x k. las estimaciones por Mínimos Cuadrados
3.2X Obtención
es una matriz nde x k. las estimaciones por Mínimos Cuadrados
Ordinarios
3.2. Obtención (MCO)
 de las ee estimaciones
interpretaciónporde Mínimos
los parámetros
Cuadrados
Ordinarios (MCO) interpretación de los parámetros
obtenidos.
Ordinarios (MCO) e interpretación
- 19- de los parámetros obtenidos
obtenidos.  
  - 19-
El método
El método consiste
consiste en minimizar
en minimizar la sumalade
suma de- 19-
los cuadrados
los cuadrados de los es
de los residuos, residuos,
decir: es decir:
 
El método consiste en minimizar
^ la suma de-los 19- cuadrados
n ^ de los residuos, es decir:  
  2  
  β MCO
^ → min S CR = min n u^i (34) ∑
  β MCO → min S CR = min i =1 u i 2 (34)
(34) ∑ i =1

A continuación se muestra el proceso de obtención de los estimadores de mínimos


A continuación
A continuación
cuadrados: se muestra el proceso
se muestra de obtención
el proceso de los estimadores
de obtención de mínimos cuadrados:
de los estimadores de mínimos
cuadrados:
El objetivo es obtener
El objetivo estimadores
es obtener de losdeparámetros
estimadores los parámetros β1 , β 2 ....β k .
El objetivo es obtener estimadores de los parámetros β1 , β 2 ....β k .
El método utilizado es el de Mínimos Cuadrados Ordinarios.
El método utilizado es el de Mínimos Cuadrados Ordinarios.
El método utilizadoobjetivo
- La función es el dea Mínimos
minimizarCuadrados
es: Ordinarios.
•• -La función objetivo
La función a minimizar
objetivo es: es:
a minimizar
n ^ n ^ ^ ^
2
min S CR = min n ( y − β^ − β^ x − .... − β^ x ) 2
min S CR = min
∑ uu == min
n ^i
2 ∑ i 1 2 2i k ki 2
i =1 ( y i − β 1 − β 2 x 2 i − .... − β k x ki )
(35)
(35)

i =1
i =1
imin ∑
i =1
(35)

- Las condiciones de mínimo son:


- Las condiciones de mínimo son: 26
- La función objetivo nan ^minimizar
^
2
nes:
n ^^ ^^ ^^
2 22
min SSCR
min CR==min
min ∑∑uu ==minmin∑ ∑((yy −−ββ −−ββ xx −−........−−ββ xx ))
ii ii 11 2 2 2 i2 i k k kiki (35)
(35)
viuS CR i =i1n=1 ^
Grado en Administración y Dirección de Empresas
2
i =i1n=1 ^ ^ ^

.es Módulo
2
min = min ∑ u =Básica
de Formación min ∑ ( y − β − β x − .... − β x )
i i 1 2 2i k ki (35)
- - Las
Lascondiciones
condicionesde
deimínimo
=mínimo
1 son:i =1
son:

- Las condiciones de mínimo son:


•• Las condiciones de mínimo son:
SCR
∂∂SCR
1ªcondición:

1ª condición:
condición: ^^
==00
ββ1 1
∂∂SCR
1ª condición: =0
^ (36)
(36)
∂ β1
SCR
∂∂SCR
2ªcondición:
condición:
2ª condición:
2ª ^^
==00 (36)
ββ2 2
∂∂SCR  Departamento  de  Metodología  e  Innovación  
2ª condición: =0 C/  Gorgos,  nº  5  (46021)  Valencia    
…… …… ………
…… ……………… ………
………
^ (36)
β2 Tel.  96  192  49  73    
…… ………
…… ……… ∂……… ………
   Departamento  de  Metodología  e  Innovación  
…… ……
…… ……… ………
……… ……… ………
………
C/  Gorgos,  nº  5  (46021)  Valencia    
…… ……… ………
Tel.  96  192  49  73    
…… ………∂∂SCR ………
SCR

  ……
kªkª ……… ………
condición:
condición: ==00
^^
kk ∂∂SCR
ββ

kª condición: =0
- Derivando ^ parcialmente e igualando a cero para encontrar un mínimo tenemos
∂ βk
las ecuaciones (37):

•• - Derivando parcialmente
Derivando parcialmentee igualando
e ^ a ceroa^para
^ igualando ceroencontrar ^ un mínimo
para encontrar un tenemos las ecuaciones
mínimo tenemos
∂SCR n
las
(37): ecuaciones
^
= 2 (
(37): y i − β 1 − β x
2 2i − β x ∑
3 3i − .... − β x
k ki )(−1) = 0
i =1
∂ β1
∂SCR n ^ ^ ^ ^
= 2∑ ( yi −n β 1 − β ^2 x2i −^ β 3 x3i −^ .... − β k xki )(^ −1) = 0
^
∂SCR
∂ β1 ^
i =1
= 2∑ ( yi − β 1 − β 2 x2i − β 3 x3i − .... − β k xki )(− x2i ) = 0
i =1
∂ β2
∂SCR ∂SCR
n n ^ ^^ ^ ^ ^ ^ ^
^
= 2∑ = (2y∑ i −( y −xβ2i 2−xβ2i 3−xβ3i 3−x....
βi 1−−ββ1-2-20-
20- −− β
....k−x βki )(− x2i −
k x ki )(
)=
x30
i) = 0
(37)
^
i =1
3i    
∂ β2 ∂ β3 i =1
    - 20- ^
∂SCR ……… n ^
………… ^
………… ……… ^
……… …… ………  
= 2 ∑ ( y − β − β x − β x − .... − β k x ki )(− x3i ) = 0
(37)
  ^ ……… i =1
i
………… 1 2 2i
………… 3 3i
……… ……… …… ………
∂ β 3 ……… ………… ………… ……… ……… …… ………
………∂SCR………… n ………… ^ ^ ………^ ……… …… ^ ………
……… …………
^
= 2 ( y
…………
i − β 1 − β x
………
2 2 i − β x

………
3 3i − .... −
…… β k x ki )(− x ki ) = 0
………
……… ∂ β…………
k
i =1 ………… ……… ……… …… ………

∂SCR n ^ ^ ^ ^

^
= 2∑ ( yi − β 1 − β 2 x2i − β 3 x3i − .... − β k xki )(− xki ) = 0 (37)
i =1
β k ecuaciones
De∂las (37) se deducen las ecuaciones normales del hiperplano (38), como

resultado de igualar a 0 las derivadas anteriores:
De las ecuaciones (37) se deducen las ecuaciones normales del hiperplano (38), como resultado de
De las
igualar a 0ecuaciones (37)
las derivadas se deducen las ecuaciones normales del hiperplano (38), como
anteriores:
resultado de igualar a 0 las derivadas anteriores:
n ^ ^ ^ ^
∑ ( yi − β 1 − β 2 x2i − β 3 x3i − .... − β k xki ) = 0
i =1
n ^ ^ ^ ^
∑ ( yi −n β 1 − β ^2 x2i −
^ β 3 x3i −
^ .... − β k x ki )^ = 0
i =1 ∑ ( yi − β 1 − β 2 x2i − β 3 x3i − .... − β k xki ) x21 = 0
i =1
n n ^ ^^ ^ ^ ^ ^ ^
− β( 1y−
∑ ( yi ∑ i −ββ2 1x− β x − β x i −β....
2 i − 2β 32 ix3i − 3.... 3−
− β xki )0x31 = 0  
k x ki ) xk21 =
  (38)
i =1 i =1
n ……….  
^        ^    ……….        ^  ……….            ……….  
^                ……….          ……….  
∑ ( yi −n β 1 − β ^2 x2i −^ β 3 x3i −^ .... − β k xki )^x31 = 0     (38)
i =1 ∑ ( yi − β 1 − β 2 x2i − β 3 x3i − .... − β k xki ) xk1 = 0   (38)
……….        i  =  1  ……….          ……….            ……….                  ……….          ……….  
n   ^ ^ ^ ^
∑ ( yi − β 1 − β 2 x2i − β 3 x3i − .... − β k 27 xki ) xk1 = 0  
El sistema de ecuaciones anterior, puede expresarse matricialmente como:
i =1
 
^
……….              ……….          ……….            ……….                  ……….          ……….    Departamento  de  Metodología  e  Innovación  
n ^ ^ ^ ^ C/  Gorgos,  nº  5  (46021)  Valencia    
∑ ( yi − β 1 − β 2 x2i − β 3 x3i − .... − β k xki ) xk1  =Departamento  
0   Econometría
de  Metodología   eTel.   96   viu
I 192  
 Innovación   49  73    
 
 
i =1
6ECTS
C/  Gorgos,  nº  5  (46021)   Valencia     .es
Tel.   9 6  
 Departamento  de  Metodología  e  Innovación   1 92   49  73    
^
 
Elvector sistema de deparámetros
ecuaciones estimados
anterior, puede β simplemente expresarse haymatricialmente
queC/  despejar 5dicho
 (46021)  vector
Gorgos,  nº  como: Valencia  de   la
El sistema de ecuaciones
siguiente forma: anterior, puede ^
expresarse matricialmente como: Tel.   9 6   1
 Departamento  de  Metodología  e  Innovación   92   4 9   7 3    
  vector   de parámetros estimados β simplemente ^   D hay que
epartamento   despejar
d e   M dicho
etodología   e   Ivector
nnovación   de
C/  Gorgos,  nº  5  (46021)  Valencia    la
siguiente forma: (^ X ' y ) = ( X ' X ) β (39) C/  (39)
Gorgos,  nº  5  (46021)  VTel.   alencia  
96  1  92  49  73    
vector     de parámetros estimados β simplemente −1 hay que−1despejar ^ dicho vector de73  la  
Tel.   9 6   1 92   4 9  
  donde donde es Xla 'matriz
X 'forma: transpuesta
es la matriz de X.
transpuesta ( X ' Xde) X.X ' y = ( X ' X ) X ' X β (40)
siguiente ^
^
  vector de parámetros estimados ^ β simplemente −hay que despejar dicho vector de la
vector En elde Ensistema el sistema
parámetros de ecuaciones
estimados
de ecuaciones (38) hayβ( Xsimplemente
'(38) ) −1hay
kX^ecuacionesX ' yk=ecuaciones
(1yXk' incógnitas
hay Xque ) 1X 'yXkβ
despejar incógnitas (40) vector
dicho
correspondientes correspondientes adelos la parámetros. a
siguiente forma: β = ( X ' X ) −
X ' y (41)
siguiente los
Este  sistema parámetros. Este sistema se puede
forma:se puede resolver con álgebra matricial. Para obtener resolver con álgebra
^ matricial.
el vector de parámetros estimadosPara obtener el
  ( X '^ X ) −1 X ' y =−1 ( X ' X ) −1 X ' X β (40)
simplemente hay que despejarβdicho = ( Xvector
' X ) de X ' -yla21-
siguiente (41) forma:
Como el rango de la matriz X 'X −1es k, ambos miembros −1
^
de la ecuación (40) se han  
  ^
−1 −1
( X ' X ) −1
X ' y = (
−1
X ' X ) ^ X'X β (40)
multiplicado por ( X '(X X)β' X.=) ( XX' 'Xy )= (XX' 'yX ) X (41) 'X β (40)(40)
Como el rango de la matriz X ^' X es k, ambos miembros de la ecuación (40) se han
multiplicado Finalmente porlos ' X ) −1^.
( Xparámetros = −(1X ' X )quedarían
βa estimar −1
X'y (41)
de la(41) siguiente manera:
β = ( X ' X )
Como el rango de la matriz X ' X es k, ambos miembros de la ecuación (40) se han X ' y (41)
Como
Finalmente
multiplicado el rango por de( la
los X 'matriz
X ) −1. X ' X
parámetros es k, ambos
a estimar quedaríanmiembros de de la ecuación
la siguiente (40) se han multiplicado por
manera:
^
Como
(X ' X ) . �1
el rango de la matriz X ' X es
⎡ k,⎤ ambos
β 1 ⎥ miembros de la ecuación miembros de la ecuación (40) se han
Como el rango de la matriz X−1' X es k, ambos ⎢ (40) se han
Finalmente multiplicado por −(1X ' X )a estimar
los parámetros . quedarían
^ de la siguiente manera:
multiplicado
Finalmente por X ' X ) . a estimar quedarían
los(parámetros
^ ⎢ ⎥
⎡ ⎤β 2 de la siguiente manera:
⎢ β^ 1 ⎢⎥ ⎥ = [ X ' X ]−1 X ' y (42)
Finalmente los parámetros a estimar ⎢ quedarían
. ⎥ de la siguiente manera:
Finalmente los parámetros a estimar⎡ quedarían ^ ⎢ β ⎥
⎤ 2 ⎢ ⎥ de la siguiente manera:
β
⎢ ⎢1 ⎥ ⎥ =. [ X ' X ]−1 X ' y (42)
. ⎢ ^ ⎥
⎢ β ⎢⎢ ⎥⎡ ^⎢⎥⎥β⎤ ⎥
^

⎡ ^ ⎢ ⎤ ⎢2 ⎥^⎢.β=⎣⎥1[⎥X '⎦X ]−1 X ' y


k
(42)
β . ^
⎢ ^ 1⎢ ⎥ ⎢ β⎥⎢ ⎥ ⎥
⎢ β ⎢ ⎥ .⎣ ⎥⎢ βk ⎦2 ⎥ −1 (42)
⎢ ⎢2 ⎥^ =⎥⎢[ X. ' ⎥X=]−[1 XX''Xy ] X ' y (42)
Una vez conocidos los parámetros, ⎥ k ⎥⎦⎢ ⎥ a partir de la ecuación
⎢ . ⎢⎣ β (10), se pueden calcular los
residuos de la siguiente⎢manera: . (42)
⎥ ⎢ ^ ⎥
⎢ ^. ⎥ ⎢ βa partir
Una vez conocidos los parámetros, ⎥⎦ de la ecuación (10), se pueden calcular los
Una vez conocidos los parámetros, a
⎢⎣ β k ⎥⎦
^ ⎣
partir ^
k de la ecuación (10), se pueden calcular los residuos de la
residuos de la siguiente manera:
siguiente manera: u = y − y = y − X ( X ' X ) −1 X ' y (43)
Una vez conocidos los parámetros, a partir de la ecuación (10), se pueden calcular los
^ ^
residuos de la siguiente manera:
u = y − y = y − X ( X ' X ) −1 X ' y (43)(43)
Una vez conocidos los parámetros, a partir de la ecuación (10), se pueden calcular los
Una vez conocidos
residuos lossiguiente
de la parámetros,
^ ^ a partir de la ecuación (10), se pueden calcular los
manera:
El siguiente
El siguiente espaso ues
= interpretar
= y los parámetros.
y −losy parámetros.
−X ( X ' X ) −1 X ' y
residuos de la paso
siguienteinterpretar
manera: (43)
^ ^
El siguiente
Sabemos que lapaso estimaciónes
^ interpretar
del = y −los
u^ modelo y de parámetros.
y − X −(1Xmúltiple,
=regresión ' X ) −1 Xpara ' y la (43)
observación i-ésima, viene dada
Sabemos queula= estimación y − y = y del
− X modelo
( X ' X ) deX regresión
' y (43) múltiple, para la observación i-
por la siguiente expresión (30).
El siguiente ésima,paso viene esdada por la siguiente
interpretar los parámetros. expresión (30).
Sabemos Imaginemos que la ahora estimación la estimacióndel modelo del modelode regresión de regresión múltiple,múltiple,
para la pero observación en este i-caso
Imaginemos para laahora
observaciónla estimación del modelo de regresión múltiple, pero en este caso para la
ésima, viene dada por laj-ésima: siguiente expresión (30).
observación El siguiente j-ésima:paso es interpretar los parámetros.
SabemosImaginemos
El siguiente paso
que es ahora
la la estimación
interpretar
estimación los
delparámetros.
modelo del modelo de regresión de regresión múltiple, múltiple,
para lapero en este caso
observación i-
para la
ésima, viene dada por la observación j-ésima:
^ ^
siguiente
^
expresión
^
(30).
^
y j = β 1 + β 2 x2 j + β 3 x3 j + .... + β k xkj (44) (44)
Imaginemos Sabemosahora que la la estimación
estimación del modelo de regresión múltiple, pero para en este caso i-
la observación
^ ^ ^ ^ ^
Sabemos
paraésima, que
la observaciónla estimación
viene dada j-ésima:
por del modelo
la βsiguiente de regresión
expresión (30). múltiple, para la observación i-
En la
ésima, Imaginemos expresión
En la
viene dada por (44)
expresión y
se = β
observa
(44)
la siguiente
j 1 + seque
2 x han
observa+
expresión
2 j β 3 x
cambiado
que
3 + ....
han +
tanto
(30). de regresión
j β x
los
cambiado
k kj valores de
tanto lalos (44)
variable
valores dependientede la variable como
ahora la estimación del modelo múltiple,
 Departamento   pero en eeste
de  Metodología   caso
 Innovación  
Imaginemos
los de paradependiente
las la ahora
variables la como
estimación
^ independientes.
observación los
^ j-ésima:^ de las
del modelo
^variables independientes.
de regresión ^ múltiple, pero en este
C/  Gorgos,   caso Valencia    
nº  5  (46021)  
para la Enobservación
la expresión yj-ésima:
j =(44)β 1 +seβ 2observax2 j + β 3que x3 j +han β k xkj
.... +cambiado tanto los (44)valores deTel.   la 9variable
6  192  49  73    
Si restamos
dependiente
Si  restamos como las^los
las expresiones expresiones
de ^ las
(30) (44)(30)
y^ variables ^y independientes.
se obtiene (44) la sesiguiente
obtiene^ la siguiente expresión:
expresión:
^ y ^= β + β ^ x + β x ^+ .... + β x
En la expresión ^
(44) se
j observa
1 2 que 2j han3 3 cambiado
j k tanto
kj los valores(44) de la variable
Si restamos
dependiente como
y las
j = β +
los deΔlas
1 β
expresiones 2
^x +
2 j β
^ (30)
variables3 x y
3 j + ^ ....se
(44) +
independientes.
β x
obtiene
k kj
^la siguiente(44) expresión:
y = β 2 Δx2 + β 3 Δx3 + .... + β k Δxk (45)(45)
En la expresión (44) se observa que han cambiado tanto los valores de la variable
En Silarestamos expresión
dependiente las(44) comose observa
expresiones los de(30) las que hansecambiado
yvariables
(44) obtiene
independientes.
- 22-latanto
siguiente los valores
expresión: de la variable
dependiente como los de las variables independientes. ^  
La expresión   (45) recoge los cambios en y debido a los cambios producidos en todas
Si restamos las expresiones (30) y (44) se - 22-obtiene la siguiente expresión:
las variables
Si restamos explicativas.
las expresiones (30) Claramente,
y (44) se obtiene se observa 28la siguienteque: expresión:  
 
^ - 22-
- La constante del modelo β ha desaparecido.  
 Departamento  de  Metodología  e  Innovación  
 Departamento  de  Metodología   Tel.  e9  6   192  49  73    
Innovación  
Tel.  96  
C/  Gorgos,   n1º  92  
5  (446021)  
9  73     Valencia    
  C/  Gorgos,  nº  5  (46021)  Valencia  
  Tel.  96    192  49  73    
viu  
Grado
El siguiente paso
^ es
en Administración^ yinterpretar
^ de
Dirección
los parámetros.
Empresas^
Tel.  96  192  49  73    

.es Δy =Básica
β Δx + β Δx + .... + β Δx ^ ^ ^ ^
  (45)
Δy = β 22 Δ^x22 +^β 33 Δx33 + ^.... + β kk Δxkk ^ (45)
Módulo de Formación
^ Δy = β^ del
2 Δx2^+ β 3 Δx3 + .... + β k Δxk
Sabemos que^ la estimación modelo de ^ regresión múltiple,(45)
para la observación i-
y = βpor
ésima, vieneΔdada 2 Δ x
la 2 + β Δ
siguientex
3 ^ ^3 + .... +
expresión β k Δ x
(30).k
(45)
La expresión (45) recoge los la
cambios en y debido a de
losregresión
cambiosmúltiple,
producidos en
en todas
La Imaginemos
La expresión
expresión (45)recoge
(45) ahora
recoge los estimación
loscambios
cambios enen y debido
del
y debidomodelo ^ a cambios
a los los cambios producidos
producidos pero
en en
todas este
todas caso
las variables
las variables explicativas.
para la Claramente,
observación j-ésima: se observa que:
La expresión (45) recoge los cambios en y debido a los cambios producidos en todas
^
las variablesClaramente,
explicativas. explicativas. seClaramente,
observa que: se observa que:
La expresión (45) recoge los cambios en y debido a los cambios producidos en todas
las variables explicativas. ^ ^ ^ Claramente,
^ ^ se observa ^ que:
las variables explicativas. Claramente,
y j = β 1β^+ha xse +observa x que:
.... x
-• La constante constantedel delmodelo
modelo β
hadesaparecido. β
desaparecido.
2j 3 3j + + β k kj (44)
- La constante del modelo β 11 ha2 desaparecido. ^
^ ^ ^
--• La Δ^y constante=En - y^ −Lay^ constante del modelo ^ β 1queha desaparecido.
la expresión
del modelo(44) seβ observa han cambiado tanto los valores de la variable
- Δy =dependiente y i − ^y j ^ como
i j
^ 1 ha desaparecido.
los de las variables independientes.
- Δ^x2 =- ^x2iΔ−^y x=2 jy i − y j
--• Δ Δyx2==yxi 2−i −y jx2 j
- ........ Si - restamos Δx2 = xlas expresiones (30) y (44) se obtiene la siguiente expresión:
2i − x2 j
--- ........ Δ x =
Δxk2 =- xki2........ x −
i − x2 jx
-• ..........
Δxk = xki − xkjkj
- ........
- Δxk = xki − xkj
Imaginemos -• Δxk =que xki −sólo xkj cambia la variable x , en concreto se incrementa una unidad. Si
Imaginemos que sólo cambia la variable x33 , en concreto - 22- se incrementa una unidad. Si  
nos fijamos Imaginemos en la expresión
que sólo (45) tendremos
cambia lax variableque: x3 , en concreto seuna incrementa una unidad. Si
nos Imaginemos fijamos   enque lasóloexpresión
cambia (45)
la tendremos
variable , en que:
concreto se incrementa unidad. Si nos fijamos en
Imaginemos que sólo cambia la variable x3 , en concreto se incrementa una unidad. Si 3
la expresión nos (45) fijamos en la^ expresión (45) tendremos que:
latendremos que: ^
nos fijamos en expresión
Δ^y =(45) β^ 3 Δtendremos
x3 que: (46)
Δy = β 3 Δ^x3 ^ (46)
^ ^
^^ ^^ Δy = β Δx (46) (46)
Δ y=β β para 3Δx 3 = 1 (47)
Δyy =
Δ = β 333 Δpara ^
x 3 ^ Δ x 3
3 = 1 (46)
(47)
^ ^ Δy = β para Δx3 = 1 (47) (47)
3
De las expresiones anteriores
De las expresiones anteriores (46) y (47) se desprende que:
Δ y = β (46)
3 para y (47) Δ xse3 = 1
desprende que:(47)
^
De las expresiones
^ mide
β 3 mide De el las cambio anteriores
expresiones en la variable (46) y (47)
anteriores se(46)
dependiente desprende
y (47) se yque: cuando x3 que:
desprende cambia en 1 unidad,
De β 3 las expresiones ^el cambio anteriores en la variable (46) ydependiente
(47) se desprende y cuando que: x3 cambia en 1 unidad,
manteniendo constantes el resto en lade variablesdependiente explicativas. cuando x cambia en 1 unidad,
^
manteniendo mideβelel mide el cambio
constantes lael variable
resto variables explicativas.xy3 cambia
devariable
β 3 mide 3 cambio
cambio en en la variable dependientey cuando
dependiente y cuando x3 cambia en 13 unidad, en 1 unidad, manteniendo
manteniendo
constantes el resto de variables explicativas. constantes el resto de variables explicativas. ^
manteniendo constantes el resto de variables explicativas.
Así pues, los demás parámetros se interpretan de la misma manera (excepto β^ 1 ):
Así pues, los demás parámetros se interpretan de la misma manera (excepto β 1 ): ^
Así pues,Así los pues, demáslos parámetros
demás parámetros se interpretan se de la misma de
interpretan manera (excepto
la misma manera ): (excepto ^ β 1 ):
^ ^ ^
Así β^ 2 ,pues, β^ βlos
^ demás el parámetros
cambio enselainterpretan de la misma manera y cuando (exceptox cambia β 1 ): en 1
k miden variable dependiente
β 2 , β 33,...., ,...., ^β kmiden ^miden ^ elelcambio
cambioen enlalavariable dependiente y y cuando
variabledependiente cuando xx cambia cambiaen en11unidad,
unidad,
^ ^ manteniendo
β ^ ,β β constantes
miden el el restoendelavariables
cambio variable explicativas.
dependiente y cuando x cambia en 1
unidad,
βmanteniendo manteniendo2 constantes
3,...., k constantes
el resto deelvariables resto deexplicativas. variables explicativas.
2 , β 3,...., β k miden el cambio en la variable dependiente y cuando x cambia en 1
unidad, manteniendo constantes el resto de variables explicativas.
unidad,
Cuando interpretamos manteniendo constantesindependiente, el resto de variables explicativas.
Cuando interpretamoseleltérmino término independiente, el razonamiento
el razonamiento anterior
anterior no seno debe se de debe aplicar.
Cuando interpretamos el término independiente, el razonamiento anterior no se debe
de aplicar.
de Deaplicar.
esta forma, Cuando ^interpretamos es el parámetroelasociado términoalindependiente, término constante, el razonamiento
el cual recoge anterior el valor esperado no se debe de
Cuando de interpretamos
aplicar. ^ el término independiente, el razonamiento anterior no se debe
De esta forma,
la variable dependiente β 1 es elcuando parámetro el resto asociado de variables al término  
explicativasconstante,  
tomaneeel
l  cvalor
ual  recoge  
cero, es el  decir,
valor  
de
De aplicar.
esta forma, β 1 es el ^parámetro asociado al término   constante,   l  cual  recoge   el  valor  cuando
esperado  
el resto de De de  
variables la  
esta variable  
^forma, dependiente  
explicativas permanecen cuando   el   resto  
constantes. de   variables   explicativas   toman   el   el  valor  
esperado   de   la   variable   1 es el parámetro
βdependiente   cuando   asociado al término  
el   resto   de   variables   constante,  
explicativas   el  cual  
toman   recoge   el  
valor  
De esta cero,  
forma, es  decir,   β 1
ces
uando   el  resto  de  
el parámetro asociadovariables   alexplicativas   permanecen  
término  constante,   constantes.  
el  cual   recoge  el  valor  
valor  cero,   e s   d ecir,   c uando   e l   r esto   d e   v ariables   e xplicativas   p ermanecen  
esperado   de   la   variable   dependiente   cuando   el   resto   de   variables   explicativas   toman   el   c onstantes.  
 esperado  
 3.3. Supuestos de   la  
valor   cero,   es  ddetrás
variable   dependiente  
ecir,   cuando   deldee  l  método
rcuando  
esto  de  el   de MCO
resto  
variables   de   variables   explicativas  
explicativas   permanecen  toman   constantes.   el  
 valor  cero,   e s   d ecir,   c uando   e l   r esto   v ariables   e xplicativas   p ermanecen   c onstantes.  
   
3.3
  Supuestos detrás del método de
de MCO.
 3.3 Supuestos detrás delsupuestos método MCO.
A continuación,   se estudian algunos estadísticos del MCRL en regresión lineal múltiple.
Estos supuestos 3.3 Supuestos son sencillos, ydetrás los estimadores del método MCO obtenidos de MCO.
tienen, bajo de  Mestos supuestos, muy
3.3
Abuenas continuación,
Supuestos se estudian
detrás del
algunos
método de MCO.  Departamento   etodología   e  Innovación  
propiedades. La justificación desupuestos estas propiedades estadísticos es similar del MCRL
a la delen
C/   G caso
orgos,   n regresión
º   5   del modelo de
( 46021)   V alencia    
A continuación, se estudian algunos supuestos estadísticos del MCRL en regresión Tel.   9 6   1 92   4 9   7 3    
lineal
regresión múltiple. lineal Estos supuestos son sencillos, y los estimadores MCO obtenidos
simple.
lineal   A
múltiple. continuación, Estos se
supuestos estudian son algunos
sencillos, supuestos
y los estadísticos
estimadores del
MCO MCRL obtenidos en regresión
A continuación,
tienen, bajo estos se estudian
supuestos, algunos
muy buenas supuestos estadísticosLadeljustificación
propiedades. MCRL en regresión de estas
tienen, bajo lineal estos múltiple. Estos supuestos
supuestos, muy buenas son propiedades.
sencillos, y los estimadores de
La justificación MCO estas obtenidos
Modelo
lineal
propiedades Modelo de
múltiple. regresión
de esRegresión
similar lineal.
Estos asupuestos del casoson
laLineal. del sencillos,
modelo deyregresión los estimadores lineal simple. MCO obtenidos
propiedades tienen, bajo estos
es similar a la del supuestos,
caso del modelo muy buenas propiedades.
de regresión La justificación de estas
lineal simple.
tienen, bajo estos supuestos, muy buenas propiedades. La justificación de estas
El modelo El modelo propiedades
de es desimilar
regresión esessimilar
regresión es en
lineal a la
lineallosdelen
parámetros:caso
los del modelo de regresión lineal simple.
parámetros:
propiedades a la del caso del modelo de regresión lineal simple.
- 23-
y = β1 + β 2 x 2- + β 3 x3 + .... + β k x k + u
23-  
 
  - 23-
  - 23-  
Los  valores de x son fijos en muestreo repetido o la matriz x es fija en repetidas
 
  muestras. El análisis de regresión es un análisis de regresión condicional, es decir, el
valor de la variable dependiente, está 29 condicionado a los valores dados de las
variables independientes.
Econometría I viu
6ECTS .es

Los valores de x son fijos en muestreo repetido o la matriz x es fija en repetidas muestras. El
análisis de regresión es un análisis de regresión condicional, es decir, el valor de la variable dependiente,
está condicionado a los valores dados de las variables independientes.

El valor medio de la perturbación aleatoria es igual a cero.

Homoscedasticidad o igualdad de varianza de la perturbación aleatoria. De esta forma, en la


matriz de varianzas y covarianzas, todos los términos de la diagonal principal de serán iguales.

No autocorrelación entre las perturbaciones. Dados dos valores cualesquiera de las perturbaciones
aleatorias, la correlación entre ellos correspondientes es cero. Por ejemplo, dentro de la matriz de
varianzas y covarianzas los términos que no se encuentran en la diagonal principal son ceros.

Las perturbaciones se distribuyen normalmente. Si u se distribuye normalmente, también lo harán


y los parámetros estimados de la regresión.

La covarianza entre la perturbación aleatoria y la variable explicativa es cero. Este supuesto


establece que la perturbación y la variable explicativa no están correlacionadas. La matriz X
se distribuye de forma independiente del vector de perturbaciones aleatorias, lo que implica que
E(X’u) = 0.

El número de observaciones debe de ser mayor que el número de parámetros por estimar. El
número de observaciones (n) debe ser mayor que el número de variables explicativas.

Suponemos que la matriz de regresores, no contiene errores de medición.

Variabilidad en los valores de X. Lógicamente no todos los valores de x en una muestra dada deben
ser iguales. La varianza de x debe ser un número positivo y tiene un límite finito cuando n tiende a
infinito.

El modelo de regresión está correctamente especificado.

Los parámetros a estimar, son constantes.

No hay multicolinealidad perfecta. Es decir, no hay relaciones perfectamente lineales entre las
variables explicativas. Si un regresor es una combinación lineal exacta de otros regresores, entonces
se dice que hay multicolinealidad perfecta, y el modelo no puede estimarse.

3.4. Medidas de bondad de ajuste


Las estimaciones MCO no permiten evaluar la calidad del modelo que hemos obtenido. A continuación
se muestran medidas de bondad de ajuste que podrían utilizarse para seleccionar, si estamos ante
varios modelos alternativos, el modelo que mejor se ajusta a nuestros datos.

30
Las estimaciones MCO no permiten evaluar la calidad del modelo que hemos
viu Grado Las estimaciones
enobtenido.
MCO no permiten
A continuación
Administración y Dirección dese
evaluar
muestran
Empresas
la calidad
medidas del modelo
de bondad que que
de ajuste hemos
podrían
.es Módulo de
obtenido. A
utilizarsecontinuación
para
Formación se muestran medidas de bondad de ajuste que podrían
seleccionar, si estamos ante varios modelos alternativos, el modelo que
Básica
utilizarse para seleccionar,
mejor se ajusta a nuestros si estamos
datos. ante varios modelos alternativos, el modelo que
mejor se ajusta a nuestros datos.
2
R2
R múltiple2o Coeficiente de determinación
R
A partir (23)
A partir de la ecuación de la ecuación
estudiada en(23) estudiada
el tema 2: en el Tema 2:
A partir de la ecuación (23) estudiada en el Tema 2:
N ^
2
N ^
∑ (u )
(u ) 2 i
Suma decuadrados
Suma de cuadrados residuales
residuales (SCR) ( SCR)
R 2
= ∑
1 −
I =1 N
iI =1
= 1
Suma− de cuadrados residuales ( SCR
= ) =
Suma decuadrados
cuadrados
totalestotales ( SCT
2
R =1− N = 1 2− Suma de (SCT) =)
∑ ( yi − y) Suma de cuadrados totales (SCT )
∑ ( yiI =−1 y) 2
I =1
Suma
Suma dede
cuadrados explicada
cuadrados exppor la regresión
licada por la (SCE)regresión ( SCE )
= de cuadrados exp licada por la regresión ( SCE )
Suma
= Suma
Suma de cuadrados
de cuadrados totales
totales (SCT) ( SCT )
Suma de cuadrados totales ( SCT )
2
Sabemos Sabemos Sabemos
que cuando 2que cuando el R es 1 el modelo se ajusta perfectamente a los datos, debido
el Rcuando
es 1 el elmodelo
2 se ajusta perfectamente a los datos, debido a que la SCR o
que R
a que la SCR o varianza residual es 1 el modelo se ajusta
es cero y porperfectamente
tanto, no existirá a los datos,
ningún debido
error. Por el
varianza residual laesSCR
cero yo por
a quecontrario, tanto, no existiráes ningún yerror.
por Por el contrario, si el R es 0 error.
2
el modelo el
si2varianza
el R2 es residual
0 el modelocero no ajusta tanto,
bien ano losexistirá
datos, ningún
debido a quePor la SCE es
no ajusta contrario,
bien cero.
a los datos, es 0 aelque
siEvidentemente
el Rdebido modelo SCEnoesajusta
estalamedida cero.
estará bien a los comprendida
Evidentemente
siempre datos,
estadebido
medida aestará
entreque0 yla1.SCE es
siempre
comprendidacero.entre
Evidentemente
0 y 1. esta medida estará siempre comprendida entre 0 y 1.
Una de las limitaciones de esta medida es que cuando se añaden nuevas variables
Una de las Una de las limitaciones
explicativas
limitaciones de estaal modelo,de esta
medida es medida
que cuando es se
independientemente que cuando
añadende nuevasse añaden
éstas variablesnuevas
tengan variables
oexplicativas
no relación al con la
explicativas
variable al modelo,
dependiente, independientemente
el coeficiente de de éstas
determinación tengan
aumenta o nosu relación
valor. con la
modelo, independientemente de éstas tengan o no relación con la variable dependiente, el coeficiente
variable dependiente, el coeficiente de determinación aumenta su valor.
de determinación2 aumenta su valor.
R ajustado o corregido
R2 ajustado o corregido
R2 ajustado o corregido
Se utiliza para la selección de un modelo entre varios que explican una misma
Se utiliza
variable.paraEnlaestos selección
casos2de el Run2
nomodelo
serviríaentre
para varios que explican
la comparación, debidounaa misma
que existen
variable.
Se utiliza para En estos
ladiferentes
selección de uncasos
modeloel R no
entre serviría
varios que para la
explican comparación,
una misma debido
variable.
números de observaciones, de variables…El coeficiente de determinación Ena que
estos existen
casos
diferentes
el R2 múltiple números
ajustado,
no serviría comoparadeindica
laobservaciones,
su nombre,
comparación, de se
variables…El
debido “ajusta” coeficiente
teniendo
a que existen en de
diferentes determinación
cuanta
númerosel número
de de
ajustado, como
variables que indica
se su nombre,
incluyen en else “ajusta”
modelo. En teniendo
otras en cuanta
palabras,
observaciones, de variables…El coeficiente de determinación ajustado, como indica su nombre, se el
penaliza número
al de
añadir más
variables que se
variables incluyen en el
independientes a unmodelo.
modelo, En reflejándose
otras palabras, lapenaliza alcual
añadir más o se
“ajusta” teniendo
variables en independientes
cuanta el númeroa de unvariables
modelo,que se incluyenen
reflejándose elen
en la modelo.SCR la
SCR la En otras
cual
decrece
palabras,
decrece o se
queda con el mismo valor.
penaliza alqueda
añadircon máselvariables
mismo valor. independientes a un modelo, reflejándose en la SCR la cual decrece
o se queda con el mismo valor.
Su expresión es la siguiente:
Su expresión
Su expresión es la siguiente:es la siguiente:
SCR
SCR
R =n1−−k n−−1 k − 1
2
2 (48)
R =1− SCT (48)
SCT
n −1
n −1 (48)
 Departamento  de  Metodología  e  Innovación  
C/  Gorgos,  nº  5  (46021)  Valencia    
La diferencia entre la ecuación
La diferencia (23) la
entre y la ecuación(23)
ecuación (48)yeslaque en la última
ecuación se que
(48) es divide numerador
enTel.  
la96  última y   divide
192  49  7se
3  
  La
denominador por diferencia
numerador entre
los gradosy de la ecuación
denominador (23) y la ecuación (48) es que
por los grados de libertad correspondientes.
libertad correspondientes. en la última se divide
numerador y denominador por los grados de libertad correspondientes.
2 2 2
La relación R y RR
entre entre es laRsiguiente:
es la siguiente: - 25-
2 y  
La relación  
- 25-
   
  2 n −1
R = 1 − (1 − R 2 )       (49)
n − k −1 (49)

Criterio de información de Akaike (AIC) y Bayesian Information Criterion (BIC)


 
 
Otros estadísticos utilizados para comparar modelo, los cuales penalizan la
31
introducción de nuevas variables independientes, son el Akaike information criterion
(AIC) y el Bayesian information criterion (BIC). Ambos criterios, incurren en el valor de
la función de verosimilitud, el número de parámetros y la cantidad de información, por
Econometría I viu
6ECTS .es

Criterio de información de Akaike (AIC) y Bayesian Information Criterion (BIC)

Otros estadísticos utilizados para comparar modelo, los cuales penalizan la introducción de nuevas
variables independientes, son el Akaike information criterion (AIC) y el Bayesian information criterion
(BIC). Ambos criterios, incurren en el valor de la función de verosimilitud, el número de parámetros y
la cantidad de información, por tanto, penalizan el modelo con mayor número de parámetros. El
mejor modelo para explicar los datos con el mínimo número de parámetros es aquel que presenta el
menor valor de ambos criterios:

AIC = D + 2 p (50)

en donde D es la Deviance (D = -2 log L, siendo L la función de verosimilitud) y p es número de


parámetros estimados en el modelo. El primer parámetro, la Deviance, representa la medida del ajuste
cuando se utilizan los estimadores máximoverosimiles de los parámetros, mientras que 2p indica la
penalización debida a la complejidad del modelo.

BIC = D + ln(n) * p (51)

siendo D es la Deviance, p el número de parámetros estimados en el modelo y n que es el tamaño de


la muestra. En este criterio la penalización en el número de parámetros, es directamente impactada
por el tamaño de la muestra.

La diferencia entre ambos criterios podría resumirse en que el criterio BIC tiende a seleccionar modelos
más simples que los que seleccionaría AIC.

3.5. 
Estimación de los parámetros en una regresión múltiple
mediante RCommander
A continuación se muestra un ejemplo de la estimación de parámetros mínimos cuadrados en una
regresión múltiple utilizando RCommander.

Una empresa dedicada a distribuir comida preparada a domicilio desea conocer el grado de
satisfacción de sus clientes. Para ello, dicha empresa ha recogido información correspondiente las
siguientes variables: Número pedidos al día, distancia medida en Kilómetros y tiempo de entrega del
pedido, medido en minutos. La variable dependiente, será el tiempo de entrega del pedido, ya que, a
menor tiempo de entrega, mayor satisfacción tendrá el cliente. La siguiente tabla, muestra las variables
mencionadas recogidas en un determinado día:

32
viu Grado en Administración y Dirección de Empresas
.es Módulo de Formación Básica

Tiempo entrega Número pedidos Distancia


48 20 60
54 30 50
58 20 70
62 40 36
50 50 44
66 36 62
52 24 52
56 28 68
62 32 58
78 44 74
66 48 50
60 34 50
50 26 54
84 60 70
80 48 66

Antes de estimar el modelo, vamos a estudiar la relación entre la variable dependiente y las
independientes. Para ello, una vez cargados los datos, seleccionamos en RCommander la siguiente
ruta: Gráficas/Diagrama de dispersión seleccionando las variables correspondientes. Obtenemos los
siguientes gráficos bidimensionales:

33
Econometría I viu
6ECTS .es

Figura 6. Gráfico bidimensional del tiempo de espera respecto al número de pedidos. Fuente: elaboración propia.

En la figura 6 y la figura 7, se puede observar que la variable dependiente tiempo entrega tiene una
relación lineal positiva con el número de pedidos y con la distancia, por lo que a medida las dos
covariables aumentan, el tiempo de entrega también lo hará. Esta relación lineal, es más marcada
entre las variables tiempo entrega y número de pedidos (figura 6). Se detecta mayor variabilidad o
dispersión entre las variables tiempo entrega y distancia (figura 7). Esta variabilidad se traduce en la
intensidad de la relación lineal entre las variables, por lo que a mayor dispersión, menor será la
intensidad de la relación lineal entre las variables.

34
viu Grado en Administración y Dirección de Empresas
.es Módulo de Formación Básica

 Departamento  de  Metodología  e  Innovación  


C/  Gorgos,  nº  5  (46021)  Valencia    
Tel.  96  192  49  73    
 

 
 

[Insertar figura 6]

Figura 6. Gráfico bidimensional del tiempo de espera respecto al número de pedidos.


Elaboración propia.

[Insertar figura 7]

Figura 7. Gráfico bidimensional del tiempo de espera respecto a la distancia.


Elaboración propia.

En la figura 6 y figura 7, se puede observar que la variable dependiente tiempo entrega


tiene una relación lineal positiva con el número de pedidos y con la distancia, por lo
que a medida las dos covariables aumentan, el tiempo de entrega también lo hará.
Esta relación lineal, es más marcada entre las variables tiempo entrega y número de
pedidos figura 6. Se detecta mayor variabilidad o dispersión entre las variables tiempo
entrega y distancia figura 7. Esta variabilidad se traduce en la intensidad de la relación
lineal entre las variables, por lo que a mayor dispersión, menor será la intensidad de la
relación lineal entre las variables.
Figura 7. Gráfico bidimensional del tiempo de espera respecto a la distancia. Fuente: elaboración propia.
Una vez detectada la relación lineal, vamos a ajustar el siguiente modelo de regresión
Una vezlineal
detectada la relación lineal, vamos a ajustar el siguiente modelo de regresión lineal múltiple:
múltiple:

tiempo de tiempo
espera
de=espera 2 número número
β1 + β= de pedidos + β 3 dis
de pérdidas cia + u+ u
+ tandistancia

Como yaComo ya mencionamos,


mencionamos, el modelo
el modelo de regresión
de regresión múltiple
múltiple se calcula
se calcula utilizando
utilizando álgebra
álgebra matricial. Los
matricial. Los datos, se disponen de la siguiente manera:
datos, se disponen de la siguiente manera:

⎡48⎤ ⎡ ^ ⎤ ⎡1 20 60 ⎤
β ⎢1
⎢54 ⎥ ⎢ ⎥1
⎢ 30 50 ⎥⎥
⎢ ⎥ ^ ⎢ ^ ⎥
y = ⎢ . ⎥ β = ⎢ β 2 ⎥ X = ⎢. . . ⎥
⎢ ⎥ ⎢ ^ ⎥ ⎢ ⎥
⎢ . ⎥ ⎢ β ⎥ ⎢. . . ⎥
⎢⎣80 ⎥⎦ ⎣ 3 ⎦ ⎢⎣1 48 66 ⎥⎦

Para calcular el vector de parámetros estimados, utilizamos las ecuaciones (39) y (41)
de la siguiente forma:

^
( X ' y) = ( X ' X ) β ⎛ ^ ⎞
β
35 ⎛ 926 ⎞ ⎛15 540 864 ⎞⎜⎜ 1 ⎟⎟
⎜ ⎟ ⎜ ⎟ ^
⎜ 34716 ⎟ = ⎜ 540 21456 31108⎟⎜ β 2 ⎟
⎜ 53034 ⎟ ⎜ 864 31108 51416 ⎟⎜ ^ ⎟
⎝ ⎠ ⎝ ⎠⎜ ⎟
⎢ ⎥
⎢1 30 50 ⎥
⎢ ⎥
⎢54 ⎥ ^ ⎢ ^ ⎥ ⎢ ⎥ ⎢ ^ ⎥ ⎢ ⎥
y = ⎢ . ⎥ β = ⎢ β 2 ⎥ X = ⎢. . . ⎥ ⎢ . ⎥ ⎢ β ⎥ ⎢. . . ⎥
⎢ ⎥ ⎢ ⎥ ⎢⎣80 ⎥⎦ ⎣ 3 ⎦ ⎢⎣1 48 66 ⎥⎦
⎢ . ⎥
⎢ ^ ⎥
⎢. . . ⎥ Econometría I viu
.es
⎢ β ⎥
⎢⎣80 ⎥⎦ ⎣ ⎦3 ⎢⎣1 48 66 ⎥⎦ 6ECTS
Para calcular el vector de parámetros estimados, utilizamos las ecuaciones (39) y (41)
de la siguiente forma:
alcular el vectorPara calcular el vector
de parámetros de parámetros
estimados, estimados,
utilizamos las utilizamos
ecuaciones las ecuaciones (39) y (41) de la siguiente
(39) y (41)
iguiente forma: forma:  Departamento  de  Metodología  e  Innovación  
^
C/  Gorgos,  nº  5  (46021)  Valencia    
⎛ ^ ⎞
( X ' y) = ( X ' X ) β β
^ ⎛ 926 ⎞ ⎛15 540 864 ⎞⎜⎜ 1 ⎟⎟ Tel.  96  192  49  73    
^ ⎜ ⎟ ⎜ ⎟
( X ' y   ) = ( X ' X ) β ⎛ ⎞
⎜ β 1⎜ 34716
⎟
^
= ⎜ 540 21456 31108⎟⎜ β 2 ⎟
⎛ 926 ⎞ ⎛15 540 864 ⎞⎜ ⎟ ⎟
⎜ ⎟ ⎜ ⎟ ^ ⎜ 53034 ⎟ ⎜ 864 31108 51416 ⎟⎜ ^ ⎟
⎜ 34716 =
⎟ ⎜ 540 21456 31108 ⎟⎜ β ⎝2 ⎟ ⎠ ⎝ ⎠⎜ β ⎟
⎜ 3 ⎟
⎜ 53034 ⎟ ⎜ 864 31108 51416 ⎟⎜ ^ ⎟ ⎝ ⎠
⎝ ⎠ ⎝ ⎠⎜ β ⎟
⎜ 3 ⎟
- 28- ⎝ ⎠
 
  - 28-
  la siguiente forma:
Para obtener los betas los despejamos de la ecuación anterior de
Para obtener los betas los despejamos de la ecuación anterior de la siguiente forma:
^
β = ( X ' X ) −1 X ' y

⎛ ^ ⎞
⎜ β 1 ⎟ 2,72 − 0,02 − 0,03 926
⎜ ^ ⎟ ⎛⎜ ⎞⎛
⎟⎜
⎞
⎟
⎜ β 2 ⎟ = ⎜ − 0,02 0,00 0 ,00 ⎟⎜ 34716 ⎟
⎜ ^ ⎟ ⎜ ⎟⎜ ⎟
⎜⎜ β ⎟⎟ ⎝ − 0,03 0,00 0,00 ⎠⎝ 53034 ⎠
3
⎝ ⎠

⎛ ^ ⎞
⎜ β 1 ⎟
⎜ ^ ⎟ ⎛⎜ 6,97 ⎞⎟
⎜ β 2 ⎟ = ⎜ 0,68 ⎟
⎜ ^ ⎟ ⎜ ⎟
⎜⎜ β ⎟⎟ ⎝ 0,52 ⎠
3
⎝ ⎠

La recta de La
regresión
recta dequedaría
regresióndequedaría
la siguiente
de lamanera:
siguiente manera:

tiempotiempo
de de entrega
espera = 6,=
976,97
+ 0,+
680,68 número
número dede pedidos
pedidos ++00,52 distancia
,52dis tan cia

Vamos a comprobar estos resultados


Vamos a comprobar estos en R:
resultados en R:

Para ello,laseguimos
Para ello, seguimos siguiente la siguiente
ruta: ruta: Estadísticos/Ajuste
Estadísticos/Ajuste de modelos/Regresión
de modelos/Regresión lineal las
lineal seleccionando
seleccionando las variables correspondientes. El modelo obtenido con RCommander
variables correspondientes. El modelo obtenido con RCommander da la siguiente salida (figura 8).
da la siguiente salida:

La interpretación de los parámetros quedaría de la siguiente manera:


[Insertar figura 8]
Representa el valor del tiempo de entrega de la mercancía cuando el número de pedidos y la
Figura 8. Modelo de regresión lineal obtenido con RCommander. Elaboración propia.
distancia se mantienen constantes, es decir, cuando el número de pedidos y la distancia valen cero.

La interpretación
Indica que depedidos
si el número de los parámetros
aumentaquedaría
en una de la siguiente
unidad, manera:
el tiempo promedio de entrega de la
mercancía aumentará en 0,68 minutos cuando la distancia se mantiene constante.
 
^
Indica que
β 1 siRepresenta
la distanciael
aumenta entiempo
valor del un kilómetro, el tiempo
de entrega de la promedio
mercancíade entrega
cuando el de la mercancía
número de
aumentará pedidos
en 0,52 minutos cuandose
y la distancia el número de pedidos
mantienen se mantiene
constantes, es decir,constante.
cuando el número de
pedidos y la distancia valen cero.

- 29-
36  
 
viu Grado en Administración y Dirección de Empresas
.es Módulo de Formación Básica

Figura 8. Modelo de regresión lineal obtenido con RCommander. Fuente: elaboración propia.

Como ya mencionamos, existen varios supuestos para validar si un modelo de regresión lineal es
bueno, a continuación comprobamos algunos de ellos:

Linealidad.

Se observa que el valor de coeficiente de determinación es 0,7765, es decir, el 77,65 % de la variabilidad


del tiempo de entrega se explica por el número de pedidos y la distancia recorrida a través del modelo
lineal, el resto de la variabilidad (22,35 %) se debe a otras variables que el modelo no considera. Cuando
el R2 es igual o superior a 0,7 indica linealidad entre las variables independientes y la dependiente.

Homoscedasticidad o igualdad de varianza de la perturbación aleatoria.

Para obtener el gráfico que nos ayudará a detectar la homocedasticidad, seguimos la siguiente ruta:
Modelos / Gráficas / Gráficas básicas de diagnóstico. El primer gráfico obtenido es el siguiente:

Residuals vs Fitted
10 –
4

5–
Residuals

0–

-5 –
8

-10 –

-15 – 5

50 55 60 65 70 75 80 85
Fitted values

Figura 9. Gráfico de los residuos frente los residuos ajustados. Fuente: elaboración propia.

37
Econometría I viu
6ECTS .es

Este supuesto asume que los residuos en las predicciones son constantes en cada predicción (es decir,
varianza constante). Se observa que los residuos son contantes con el promedio indicando
homocedasticidad.

Las perturbaciones se distribuyen normalmente.

Este supuesto asume que los residuos deben seguir una distribución normal, debido a que la falta de
ésta supone poca precisión en los intervalos de confianza creados por el modelo.

Siguiendo la ruta indicada en el supuesto anterior: Modelos/Gráficas/Gráficas básicas de diagnóstico. El


segundo gráfico obtenido es el siguiente:

Normal Q-Q
2– 4
Standardized residuals

1– 15

0–

-1 –

-2 –

-3 –

-1 0 –1
Theoretical Quantiles

Figura 10. Gráfica de probabilidad normal de los residuos. Fuente: elaboración propia.

Como las observaciones se encuentras situadas sobre la diagonal principal, se confirma la normalidad
de los residuos.

No autocorrelación entre las perturbaciones.

Este supuesto asume que los residuos no están autocorrelacionados, por lo cual son independientes.

Para validar la independencia de los residuos vamos a usar el test Durbin Watson (DW), donde si el
valor del estadístico DW está próximo a 2 entonces los residuos no están autocorrelacionados.

Para ello debemos escribir y ejecutar el siguiente código:

library (lmtest)
residuosdw<-dwtest(Tiempo_entrega ~ Distancia + Número_pedidos, data = Dataset)
residuosdw$statistic

y obtenemos el siguiente resultado:

DW
2.751758

Se confirma la independencia entre las perturbaciones aleatorias.

38
viu Grado en Administración y Dirección de Empresas
.es Módulo de Formación Básica

Tema 4.
Contraste de hipótesis en el modelo de regresión múltiple

El objetivo de este tema es saber realizar contraste de hipótesis en el modelo de regresión lineal
múltiple para saber la significatividad de cada parámetro cuando las variables explicativas son
cuantitativas. Además, se estudia cómo realizar predicciones con dicho modelo y que efecto tiene
añadir a éste una variable de tipo cualitativo. El tema finaliza implementando un modelo de regresión
múltiple con variables cuantitativas y cualitativas en RCommander.

4.1. Revisión contraste de hipótesis


Como ya vimos en la asignatura Estadística II, una hipótesis estadística es una afirmación o suposición
sobre la población principalmente acerca del valor de un parámetro desconocido.

Contrastar una hipótesis es un procedimiento mediante el cual se acepta o rechaza una hipótesis
que se emite acerca de un parámetro u otra característica de la población, en otras palabras, se
contrasta si la información sobre un parámetro poblacional desconocido está o no respaldada por la
información de la muestra.

Cuando se formula un contraste se formulan dos hipótesis: la nula y la alternativa. La hipótesis nula es
la hipótesis de interés para el investigador, la cuestión que se examina y se representa por H0. La
hipótesis alternativa es la negación de la H0 y se representa por H1.

39
Econometría I viu
6ECTS .es

En líneas generales, para realizar un contraste de hipótesis estadístico, se siguen los siguientes pasos:

1) Establecer la hipótesis nula (H0) y la hipótesis alternativa (H1) relativas a los parámetros
desconocidos de la población.

2) Seleccionar un estadístico para contrastar las hipótesis formuladas.


 Departamento  de  Metodología  e  Innovación  
3) Establecer una regla de decisión para determinar si la H0 se debe aceptar o rechazar,
C/  Gorgos,   rechazada
nº  5  (46021)   Valencia    
en función del valor que tome el estadístico construido. Tel.  96  192  49  73    
 
Cada uno de estos pasos se encuentran detallados en el manual de la asignatura Estadística II.
4.2 Significación de los parámetros del modelo
4.2. Significación de los parámetros del modelo
El curso pasado, estudiamos la significatividad de un estadístico de contraste
utilizando el p-valor. El p-valor se define como el nivel más bajo de significación al que
El curso pasado, estudiamos la significatividad de un estadístico de contraste utilizando el p-valor. El
puede ser rechazada la H o . Vimos como si el valor del p-valor era superior al nivel de
p-valor se define como el nivel más bajo de significación al que puede ser rechazada la H0 . Vimos
significación se aceptaba la H , en caso contrario, si el valor del p-valor era inferior o
como si el valor del p-valor era superioro al nivel de significación se aceptaba la H0 , en caso contrario,
igual
si el valor delalp-valor
nivel de
erasignificación se rechazada
inferior o igual la H o .
al nivel de significación se rechazada la H0 .
En las siguientes subsecciones estudiaremos como se usa el p-valor en contrastes de
En las hipótesis
siguientesutilizando los estadísticos
subsecciones estudiaremostStudent
comoy se
FSnedecor.
usa el p-valor en contrastes de hipótesis
utilizando los estadísticos tStudent y FSnedecor.
4.2.1 Contraste de hipótesis utilizando el estadístico t
4.2.1. Contraste de hipótesis utilizando el estadístico t
Bajo los supuestos del MRLC, se obtiene una distribución t-Student:
Bajo los supuestos del MRLC, se obtiene una distribución t-Student:
^
βj
tj = ~ t n−k (52)
σ 2 u ⋅ c jj (52)
donde:
donde:
k es el número de parámetros a estimar en el modelo.
k es el número de parámetros a estimar en el modelo.
n es el número de observaciones.
^
σ 2u es de
n es el número el error estándar estimado de β j .
observaciones.
c es el j-ésimo elemento de la diagonal principal de la matriz ( X ' X ) −1 .
s2 u es eljj error estándar estimado de .
Imaginemos que tenemos el siguiente contraste de significación positivo:
cjj es el j-ésimo elemento de la diagonal principal de la matriz ( X ' X ) �1 .
 
Imaginemos que tenemos el siguiente contraste de significación positivo:
Ho : β j = 0
H1 : β j > 0

Este contraste
Este contraste de significación
de significación se denomina
se denomina positivo, positivo,
porque laporque la H1 esde
H1 es unilateral unilateral
una colade una
derecha.
cola derecha.
¿Qué significa la H0 de este contraste? Significa que la variable x j no influye sobre sobre la variable
¿Qué significa la H o de este contraste? Significa que la variable x j no influye sobre
dependiente.
sobre la variable dependiente.

La regla de decisión en este contraste es la siguiente:


40
Si t j ≥ tn−k ,α , el estadístico de contraste cae fuera de la región de aceptación, por lo
que se rechaza la H . Por tanto, el parámetro es significativamente distinto a cero.
viu Grado en Administración y Dirección de Empresas
.es Módulo de Formación Básica

La regla de decisión en este contraste es la siguiente:

Si , el estadístico de contraste cae fuera de la región de aceptación, por lo que se rechaza


la H0. Por tanto, el parámetro es significativamente distinto a cero.

Si , el estadístico de contraste cae dentro de la región de aceptación, por lo que se acepta


la H0. Por tanto, el parámetro no es significativo.

Si el contraste de significación es negativo, la H1 es unilateral de una cola izquierda:

Este contraste de significación se le denomina negativo, porque la H1 es unilateral de una cola


izquierda.

En este contraste, la regla de decisión es la siguiente:

Si , el estadístico de contraste cae fuera de la región de aceptación, por lo que se rechaza


la H0. Por tanto, el parámetro es significativamente distinto a cero.

Si , el estadístico de contraste cae dentro de la región de aceptación, por lo que se acepta


la H0. Por tanto, el parámetro no es significativo.

Imaginemos ahora que tenemos el siguiente contraste de significación:

Observando la H1 se detecta que es un contraste bilateral.

Siguiendo el mismo planteamiento que en los contrastes de significación anteriores, la H0 de este


contraste significa que la variable x j no es estadísticamente significativa, ya que, no influye sobre
sobre la variable dependiente.

En este contraste, la regla de decisión es la siguiente:

Si , el estadístico de contraste cae fuera de la región de aceptación, por lo que se rechaza

la H0. Por tanto, el parámetro es significativamente distinto a cero.

Si , el estadístico de contraste cae dentro de la región de aceptación, por lo que se acepta

la H0. Por tanto, el parámetro no es significativo.

4.2.2. Contraste de hipótesis utilizando el estadístico F

En el apartado anterior, estudiamos contrastar la significación individual de un parámetro.


Habitualmente, es necesario contrastar la significación conjunta de los parámetros, es decir:

41
4.2.2 Contraste de hipótesis utilizando el estadístico F
En el apartado anterior, estudiamos contrastar la significación individual de un
Econometría
parámetro. Habitualmente, es necesario contrastar la significación conjunta viu
deI los
parámetros, es decir: 6ECTS .es

H o : β 2 = β 3 = β 4 = β 5 = .... = β k = 0
H 1 : H o no
no esesverdadera
verdadera

Así pues,
Así pues, H o node
H0 no estima estima
formade forma individual,
individual, estimaconjunta.
estima de forma de forma conjunta.
Para Paracontraste
realizar este realizar de
este contraste
significación de se
conjunta, significación conjunta,F se
utiliza el estadístico utiliza el estadístico F de Snedecor:
de Snedecor:

R2
(k − 1)
F0 = ~ Fk −1,n−k (53)
(1 − R 2 )
(n − k ) (53)
donde:
donde:
k es keles el número
número de parámetros
de parámetros a estimar
a estimar en el modelo.
en el modelo.
n es el número de observaciones.
n es el número de observaciones.
En este contraste, la regla de decisión es la siguiente:
En este contraste, la regla de decisión es la siguiente:
Si F0 ≥ Fk −1,n−k , el estadístico de contraste cae fuera de la región de aceptación, por lo
Si , el estadístico de contraste cae fuera de la región de aceptación, por lo que se rechaza
que se rechaza la H oes. Por
la H0 . Por tanto, el modelo tanto, el significativo.
globalmente modelo es globalmente significativo.

Si Si F < F , el estadístico de contraste cae dentro de la región de aceptación, por lo que se acepta
0 k −1,n−k , el estadístico de contraste cae dentro de la región de aceptación, por
la H0 . Por tanto, el modelo no es globalmente significativo.
lo que se acepta la H o . Por tanto, el modelo no es globalmente significativo.

4.2.3. Importancia económica versus significación estadística


4.2.3 Importancia económica versus significación estadística
Cabe distinguir entre dos tipos de significación: la significación económica y la significación estadística.

La significación
Cabe distinguirestadística
entre de unatipos
dos determinada variable xj sela
de significación: determina completamente
significación poryel valor
económica la
del estadístico tj . estadística.
significación

La significación económica de una determinada variable se determina por el valor y signo del
La significación
parámetro estimado .estadística de una determinada variable x j se determina
completamente por el valor del estadístico t j .
Si sólo nos centráramos en la significación estadística podríamos llegar a una conclusión errónea.
Aunque una la variableeconómica
La significación sea estadísticamente significativa, es
de una determinada necesario
variable se analizar el valor
determina pordel
el coeficiente
valor y
estimado para ver si se corresponde con la práctica o economía.
^
signo del parámetro estimado β j .
Por tanto, es necesario, es importante tener en cuenta ambas significatividades.

4.3. Predicción
- 35-
 
En este apartado, estudiaremos dos tipos de predicción: predicción puntual y predicción por
 
intervalos.

42
4.3 Predicción
4.3 Predicción 4.3 Predicción
4.3 Predicción
Supongamos que queremos predecir el valor de una variable dependiente
  viu  en Administración
Gradocuando     de Empresas
tenemos yinformación
Dirección relativa a la observación n+j. A partir de la
.es En este
En este apartado,
Módulo
apartado,
En este apartado,
estudiaremos
de Formación
ecuación
predicción por intervalos. (30)
estudiaremos
dos
Básica que:
tenemos
predicción predicción
por intervalos.
En tiposeste
por intervalos.
estudiaremos
de apartado,
dos tipos dos
predicción:
predicción por intervalos.
estudiaremos
de tipos
predicción:
de puntual
predicción dos
predicción:
predicción
tipos
y de predicción
puntual
predicción:
y puntual
predicción
y pu

^ ^ ^ ^ ^
4.3.1
4.3.1 Predicción Predicción
4.3.1 Predicción
y n+puntual puntual
4.3.1puntual
Predicción puntual
j = β 1 + β 2 x2 ,n + h + β 3 x3,n + h + .... + β k xk ,n + h i = 1,2...., n
4.3.1. Predicción puntual
(54)
Supongamos
Supongamos Supongamos
que Supongamos
queremos
que queremos que queremos
predecir
predecir que
elSupongamos
el valor queremos
predecir
valor
de de
unauna el
que
predecir
valor
queremos
variable
variable de
eldependiente
una
valor
predecir
dependiente variable
de cuando
unaeldependiente
variable
valor de dependiente
tenemosuna variable depe
cuando tenemos cuando tenemos
cuando
información información
tenemos
relativa acuando
lainformación
relativa
tenemos
observacióna relativa
lan+j.
información
observación
Aa partir
la observación
relativa
n+j.la Aa partir
de lan+j.
observación
de
A la
partir de
n+j.la A part
información relativa
ecuación aecuación
la observación
(30) tenemos (30) n+j.(30)
ecuación
que: tenemos A partir
que:
tenemosde laque:
ecuación ecuación
(30) tenemos(30) que:
tenemos que:
Por tanto, una vez obtenidos las estimaciones de todos los parámetros del
modelo,
^ y ^seleccionados
^ ^ ^^ los^ ^valores ^ que
^^ toman
^ ^^todas ^ las variables ^^ cuando la^
y n+ j = β 1 +sea
observación xy2,n+ se
β 2 n+j hj =
+ β x
+y
sustituirán
β x=
+ ....
β en
31 3,n +2hj 2 ,n + h1 + la
β x y
ecuación
3,nn++hj
k23 k2 +
= i
....
β x
1,
(54)
= + β2....,x
para
+n .... i
obtener
31 3,n +k2h k2 ,n + h + β x
1, 2 ....,+n....
i =+1de
k3 k3,n + h valor
= el
(54) ,β k xkn,n + h
2...., i = 1,2...., n
^
y n+ j . (54) (54) (54) (54)
Por tanto, una vez obtenidos las estimaciones de todos los parámetros del modelo, y seleccionados
los valores que toman
4.3.2 todas las
Predicción^
variables cuando la observación sea n + j se sustituirán en la ecuación
por intervalo
Por tanto, una Por
vez tanto, Por
una
obtenidos
(54) para obtener el valor de y n + j . tanto,
vez
las obtenidos
una Por
vez tanto,
estimacionesobtenidos
lasde
estimaciones
una vez
laslos
todos estimaciones
obtenidos
de todos
laslos
parámetros deestimaciones
todos
delparámetros
los parámetros
de
deltodos los
delparáme
modelo,
de y predicción
modelo,Ely seleccionados
intervalo modelo,
seleccionados
los y seleccionados
valores quemodelo,
es los valores
toman
un y los
seleccionados
que
todas
intervalo valores
detoman
las que
todas
variableslos
garantías toman
valores
las
de variables
cuando todas
laquelastoman
contener cuando
variables
una todas
la cuando
las variables
la cu
observación seaobservación
n+j se observación
sea n+j
sustituirán
predicción correcta. ensesea
sustituirán
la observación
n+j se
ecuación sustituirán
en la
(54)seaecuación
para n+j
ensela
sustituirán
obtener(54)
ecuación
elpara
valorobtener
en
(54)
de lapara
ecuación
el obtener
valor (54)
de elpara
valorobtener
de el
4.3.2.^ Predicción^por intervalo
^ ^
 Departamento  de  Metodología  e  Innovación  
y n+ j . y n+ j . y n+ j . y n+ j . C/  Gorgos,  nº  5  (46021)  Valencia    
Para obtener el intervalo de predicción del valor observado de
Tel.  96   192  la
49  7variable
3    
  intervalo de predicción es un intervalo de garantías de contener una predicción correcta.
El
dependiente y j en la observación n+j con un nivelde  de
 Departamento   significación
Metodología   α,
e  Innovación  
4.3.2por
4.3.2 Predicción Predicción
4.3.2 Predicción
intervalopor 4.3.2
intervalo
por
Predicción
intervalopor intervalo C/  Gorgos,  nº  5  (46021)  Valencia    
El intervalo debemos
obtenerde de de
elpredicción utilizar la siguiente
Ypredicción expresión:
Para intervalo de n + j sería eldel
siguiente:
valor observado de la variable dependiente Tel.  96  192  49  73     en la
El intervalo deEl predicción
intervaloEl de intervalo
es predicción
deEl predicción
un intervalo es
intervalo
deun garantías
intervalo
de
es predicción
un de
de
intervalo
garantías
contener es deununa garantías
de
intervalo
contener de
de una contener
garantías una
de conten
observación
  n + j con un nivelcorrecta.
de significación
predicción predicción
predicción correcta. correcta.
, debemos de utilizar la siguiente expresión:
predicción correcta.
^ ^1 1 1
El intervalo⎧de predicción de−1Yn + j sería  Departamento   d^ e  Metodología  
⎫ e  Innovación  
Yˆn+ j −Para
t n−k ,α Pr σ
/Probob
obtener
2 u [
1 +Y X
⎨ elPara − ⋅Yˆ
( X '
+ j obtener
n +njintervalo
X<)
n + j Parat
de ⋅
n −el
Xobtener⋅] [
k predicción
,α n2+ j σ2
/intervalou
≤ el siguiente:
1Y
el+
Para X
de ≤ Yˆ
intervalo
n +del valor⋅ (
j n +predicción
obtener
j n+ j X+'tX
de )
n −el
−1
observado ⋅ X
σ
k ,predicción
αdel []
/intervalo
C/   u 1
nvalor
+2 Xobservado
del
de
+ j denº  
2 Gorgos,   la = 1
⋅ (−X α
predicción' X
valorValencia  
jvariable
⎬5n  +(46021)   ) −1
]
(55) ⋅
(55)del
observado
de X 2
 la n+variable
jvalor
de observado
la variable de la
⎩
dependiente ydependiente en la y
dependiente
observación en la y
n+jobservación
en
dependiente
con la
un nively
observación
n+j con
en
de la
un
n+j ⎭
observación
nivel
significacióncon Tel.  9de
un
6  1α significación
nivel
,
92   4n+j
9  73     de
con significación
un α nivel
, de αsignificac
,
j j j j
donde
  es el valor
^ de las tablas de una t Student
1 con n-k grados de ^ libertad. 1
debemos
Yˆn+ j − t n−kde utilizar
[
debemos de
debemos
la siguiente utilizar −1 la
desiguiente
expresión:
,α / 2 σ u 1 + X n + j ⋅ ( X ' X ) ⋅ X n + j ]
utilizar
debemos
2 ≤Y
laexpresión:
siguiente
de ˆutilizarexpresión:
[
la siguiente expresión: −1
n + j ≤ Yn + j + t n − k ,α / 2 σ u 1 + X n + j ⋅ ( X ' X ) ⋅ X n + j ] 2
El intervalo
donde de predicción
tdesea
k ,α / 2 es
de
el valor Y de sería el siguiente:
+ j las tablas de una t Student con n-k grados de libertad.
El intervaloSi sede n −predicción
obtener deelYnintervalo
n+ j sería de el siguiente:
predicción del valor esperado de la variable
dependiente
⎧ E ( y⎧j ) en la^ˆ⎧observación n+j
^ ⎧ con un^ nivel 1 ^ 1 ⎫
⎫ de−1 significación α , 1 ⎫ −1 1
⎫
Pr ob ⎨ Yn^+ j − YˆPr
debemos de n+ job
< t Y
⎨ n −la
utilizar
Pr
k ,nα+/j2 ob

⋅ Y
σ
siguiente
u 1[
Y<
+ t
X −
⎨n + j nexpresión: Y
+ jn −n1k+,α
ˆPr
⋅ ( Xob
⋅ σ
<'
2 j - ⎨
j n/ + u
X[
t
36-
1
) −1
Y+ ⋅XX −][
⋅ σYˆ u
⋅ (21X +<' X
X
t
= )1 −
n − k ,nα+/j2 nn++j jn + j ⎬ ^n −n k+,α⋅ α
⋅X(][
X
⋅ σ
j / 2 n+ j' Xu2)
1
(55) −1
+ ⋅XX
=] 1 −
⎬ nn++j j α
⋅ (2X ' (55)
X= 1 − ⋅ X
α ]
⎬ 1 n + j 2 ⎬ = 1 − α
) (55) (5
Yˆn+ j − t n−k⎩,α / 2Si [ X n+ ⎩j obtener
σ use1 +desea ⋅ ( X ' X ) −el 1⎩
]
X n+ j 2 ≤ de
⋅ intervalo ⎩ ˆ
Yn+ predicción
j ≤ Yn + j + t ndel [
⎭
/ 2 σ u esperado
− k ,α valor 1 + X n+ j ⋅ (de ⎭X ' la −1
X )variable ]
⋅ X⎭n+ j 2   (56) ⎭
  dependiente E ( y j ) en la observación n+j con un nivel de significación α ,
Si se desea
t n −k ,⎧α /obtener elt intervalo elt nde
la predicción t ndel valor elesperado de lalibertad.
variable dependiente de E(y
n-kj) grados de libert
1
debemos
donde de utilizar siguiente expresión: ⎫t tablas
donde
⎪2 es el valor k donde
n −de 2 establas
,α /las valor
− k ,α /de ^donde
2⎡ es
de el
lasvalor
una t tablas−de
Studentk ,α /de
las
2 es
una
tablas
con valor
t Student
n-k dede
⎤una
grados2 las
con
de Student
⎪ n-k grados
decon
unan-k
de
t Student
grados
libertad.conlibertad.
ob ⎨ E (Yn + j )n−+Yˆjn +con
en laProbservación un nivel de2 significación −,1 debemos
j < t n − k ,α / 2 ⋅ ⎢σ u ⋅ X n + j ⋅ ( X ' X ) ⋅ X n + j ⎥ de 1 − α la siguiente expresión:
⎬ =utilizar
Si⎪se desea obtener el intervalo ⎣ de predicción del valor esperado ⎦ ⎪ de la variable
⎩ n+j con un nivel de⎭ significación
- 36- - 36- - 36- 1 - 36-
dependiente ⎧ E ( y j ) en la observación ^ ⎫ α   ,    
⎪ ˆ ⎡ (57)
2 1 ⎤ 2 ⎪
  Pr ob ⎨ de
  Prob
debemos   E (utilizar
Yn + j ) − la
  Yn +siguiente
j < t n − k ,α expresión:
/ 2 ⋅ ⎢σ u ⋅ X n + j ⋅ ( X ' X )
  −
⋅ X n + j ⎥ ⎬ = 1 − α (57)
⎪ ⎣ ⎦ ⎪
  ⎩ ⎭
El intervalo de predicción de E ( y n+ j ) sería el siguiente:
(57) 1
El intervalo ⎧ de predicción de E ( y n + j ⎡) ^sería el siguiente: ⎫
⎪   ˆ 2 −1 ⎤ 2 ⎪
Pr ob ⎨ E   (Yn + j ) − Yn + j < t n − k ,α / 2 ⋅ ⎢σ u1⋅ X n + j ⋅ ( X ' X ) ⋅ X n + j ⎥ ⎬ = 1 − α 1
⎪ ^ ⎣
El intervalo de predicción de E ( y ) sería el siguiente:
⎡ ⎤ 2 ⎦ ⎪⎡ ^
⎤ 2
Yˆn + j − t n −k⎩,α / 2 ⎢σ 2 u ⋅ X n+ j ⋅ ( X ' X ) −1 ⋅ X n +n +j ⎥j ≤ E ( y n + j ) ≤ Yˆn+ j + t n−k ,α / 2⎭⎢σ 2 u ⋅ X n+ j ⋅ ( X ' X ) −1 ⋅ X n+ j ⎥
⎣ ⎦ (57) ⎣ ⎦
  1 1
^ ^
  ⎡ ⎤ 2
(58) ⎡ ⎤ 2
Yˆn + j − t n −k ,α / 2 ⎢σ u ⋅ X n+ j ⋅ ( X ' X ) ⋅ X n +(58)
2 −1 ˆ 2
j ⎥ ≤ E ( y n + j ) ≤ Yn + j + t n − k ,α / 2 ⎢σ u ⋅ X n + j ⋅ ( X ' X )
−1
⋅ X n+ j ⎥
El intervalo de predicción ⎣ de E ( y n + j ) sería el siguiente:
⎦ ⎣ ⎦
4.4. Contraste de hipótesis1 en una (58)
regresión múltiple utilizando 1
RCommander
Yˆ − t
⎡ ^
σ 2 u ⋅ X ⋅ ( X ' X ) −1 ⋅ X
⎤ 2
≤ E ( y ) ≤ Yˆ + t
⎡ ^
σ 2 u ⋅ X ⋅ ( X ' X ) −1 ⋅ X
⎤ 2

4.4
n+ j Contraste
n − k ,α / 2 ⎢
⎣
n +de
j hipótesis
n + j ⎥
⎦
en n+una
j n + jregresión
n − k ,α / 2 ⎢
⎣
múltiple
n+ j n + j ⎥
⎦
utilizando
A partir del ejemplo RCommander.
del tema 3 en el cual estimábamos los parámetros de una regresión múltiple
donde4.4la variable dependiente es elhipótesis
tiempo de (58)
entrega
Contraste de en deluna
pedido y las variables independientes
regresión múltiple son

utilizando
A partir del ejemploRCommander.
del tema 3 en el cual estimábamos los parámetros de una
regresión múltiple donde la variable dependiente es el tiempo de entrega del pedido y
las variables independientes son el número de pedidos y distancia, vamos a estudiar
4.4
cómo A Contraste
partir contraste
realizar de
del ejemplo hipótesis
del temade3forma
de hipótesis en
en el cualuna regresión
estimábamos
individual y conjunta. múltiple
los parámetros de una
regresiónRCommander. 43
múltiple donde la variable dependiente es el tiempo de entrega del pedido y
utilizando
A partir
lasdevariables
la figura independientes
8, el vector de parámetros estimados
son el número (6,97;0,68vamos
fue βy =distancia,
de pedidos ;0,52) .aLos
estudiar
cómo realizar contraste de hipótesis de forma individual y conjunta.
signos de éstos son positivos y, por tanto, coherentes. Debido a que cuanto mayor es
Econometría I viu
6ECTS .es

el número de pedidos y distancia, vamos a estudiar cómo realizar contraste de hipótesis de forma
individual y conjunta.
 Departamento  de  Metodología  e  Innovación  
A partir de la figura 8, el vector de parámetros estimados fue . Los
C/  Gorgos,   nº  5  (signos
46021)  Vde éstos
alencia    
son positivos y, por tanto, coherentes. Debido a que cuanto mayor es el número de pedidos, mayor Tel.   9 6   1 92   4 9   7 3    
 
será también el tiempo de entrega de éstos. Si la distancia para entregar el pedido es elevada, también
 Departamento  de  Metodología  e  Innovación  
Empezaremos
aumentará el tiempo a de
contrastar la significación
entrega de los pedidos. individual de la variable número de pedidos.
C/  Gorgos,  nº  5  (46021)  Valencia    
Para ello establecemos el siguiente contraste de significación:
Tel.  96  192  49  73    
Una     vez estimado el modelo, vamos a estudiar la significatividad estadística que hemos visto en este
tema. Ho : β2 = 0
Empezaremos a contrastar la significación individual de la variable número de pedidos.
Para ello establecemos el siguiente contraste
H1 : β 2 ≠ 0
de significación:
Empezaremos a contrastar la significación individual de la variable número de pedidos. Para ello
 
establecemos
Para realizar el siguiente contraste
este contraste de significación:
utilizamos Helo :estadístico
β2 = 0 tStudent definido en la expresión
(52). Como se puede observar en la figura 8, este estadístico t 2 vale 5, 301. Este valor
H1 : β 2 ≠ 0
se obtiene de la siguiente manera:
Para realizar este contraste utilizamos el estadístico tStudent definido en la expresión
Para(52).
realizar estese
contraste utilizamos el la 0,6835 tStudent definido en la expresión (52). Como se
estadístico
Como t 2 = en
puede observar figura = 5,301 t 2 vale 5, 301. Este valor
8, este estadístico
(5,789) 2 ⋅ 0,00049603
puede observar en la figura 8, este estadístico t 2 vale 5,301. Este valor se obtiene de la siguiente
se obtiene de la siguiente manera:
manera:
Si usamos un α = 0,05 , cuando buscamos 0,6835 en la tabla tStudent con un nivel de
t2 = = 5,301
α (5, 789) 2
0,00049603
significación de y 12 grados de libertad t12, 0.025 = 2,18 . Como el t 2 es superior al

2
t12, 0usamos
Si un α = 0,05 , cuando buscamos en la tabla tStudent con un nivel de
.025 rechazamos la H o y por tanto, con un nivel de significación del 5% se puede
Si usamos un , cuando buscamos en la tabla tStudent con un nivel de significación de y 12
α
afirmar que la variable número de pedidos es significativa y por tanto, ayuda a predecir
significación de y 12 grados det libertad t12, 0.025 = 2,18 . Como el t 2 es superior al
grados de libertad . Como el 2 es superior al
2 de éstos.
el tiempo de entrega rechazamos la H0 y por tanto, con un
nivelt12de
, 0.025 rechazamos
5% H
significación del la seopuede
y por afirmar que la
tanto, con unvariable
nivel denúmero de pedidos
significación deles5%
significativa
se puede y por
Continuamos con el contraste de la significación individual de la variable distancia.
afirmar
Igual
tanto, ayuda que
que la variable
aantes,
predecir número
establecemos
el tiempo desiguiente
el pedidos
de entrega es significativa
contraste
de éstos. y por tanto, ayuda a predecir
de significación:
el tiempo de entrega de éstos.
Continuamos con el contraste de la significación individual de la variable distancia. Igual que antes,
Continuamos
establecemos con el contraste
el siguiente contraste de la H o : β3 = 0
designificación:
significación individual de la variable distancia.
Igual que antes, establecemos el siguiente contraste de significación:
H1 : β3 ≠ 0

H o : β3 = 0
Como se puede observar en la figura 8, este estadístico t 3 vale 3,673. Este valor se
H 1estadístico
Como se puede observar en la figura 8, este : β 3 ≠ 0 t 3 vale 3,673. Este valor se obtiene de la
obtiene de la siguiente manera:
siguiente manera:
0,5236
Como se puede observar ten = 3,673
3 = la figura 8, este estadístico t 3 vale 3,673. Este valor se
(5,789) 2 ⋅ 0,00060621
obtiene de la siguiente manera:
Si usamos un α = 0,05 , cuando buscamos 0,5236 en la tabla tStudent con un nivel de
Si usamos un t3 =
, cuando buscamos en la tabla tStudent =con 3,673
un nivel de significación de y 12
α (5, 789 ) 2
⋅ 0,00060621
significación
grados de libertadde y 12 .grados
Como eldet libertad
es superior t12al
, 0.025 = 2,rechazamos
18 . Como ella Ht 3 yespor
superior al un
tanto, con
2 3 0

t12de
Si
nivel usamos un αdel
significación 0,05se, puede
= 5% cuando buscamos
afirmar en la tabla
que la variable tStudent
distancia ayuda con un anivel
también
, 0.025 rechazamos la H o y por tanto, con un nivel de significación del 5% se puede
de el
predecir
tiempo de entrega
afirmar que la de α
los pedidos.
variable distancia ayuda también a predecir el tiempo de entrega de los
significación de y 12 grados de libertad t12, 0.025 = 2,18 . Como el t 3 es superior al
pedidos. 2
t12, 0.025 rechazamos la H o y por tanto, con un nivel de significación del 5% se puede
44
afirmar que la variable distancia ayuda también a predecir el tiempo de entrega de los
pedidos.
   Departamento  de  Metodología  e  Innovación  
C/  Gorgos,  nº  5  (46021)  Valencia    
Finalmente, realizamos el contraste de la significación individual de la constante Tel.  96  192  del
49  73    
modelo.
viu  Grado en Administración y Dirección de Empresas

.es Módulo de Formación


Finalmente, Básica
realizamos el contraste de la significación individual de la constante del
modelo. H o : β1 = 0
H 1 : β1 ≠ 0
Finalmente, realizamos el contraste de la significación individual de la constante del modelo.
H o : β1 = 0
Como se puede observar en la figuraH8,1 :este 0
β 1 ≠estadístico t1 vale 0,731. Este valor se
obtiene de la siguiente manera:

Como se Como
puedese observar
puede observar en la 8,
en la figura figura 8,
este6,9708
estadístico t1 valet10,731.
este estadístico vale 0,731. Estese
Este valor valor se de la
obtiene
obtiene t =
de la siguiente manera:
1 = 0 ,731
siguiente manera: (5,789) 2 ⋅ 2,71579954 5
6,9708
Si usamos un α = 0,05t,1 cuando
= buscamos en la tabla = 0,731
tStudent con un nivel de
(5,789) 2 ⋅ 2,71579954 5
α
significación de y 12 grados de libertad t12, 0.025 = 2,18 . Como el t1 es inferior al
Si usamos un α2= 0,05 , cuando buscamos en la tabla tStudent con un nivel de
Si usamos un , cuando buscamos en la tabla tStudent con un nivel de significación de y 12
t12, 0.025 aceptamosαla H o y por tanto, con un nivel de significación del 5% se puede
significación
grados de libertad de y 12. Como t1 libertad
gradoselde t12,al
es inferior 0.025 = 2,18 . Como ellat1H es
aceptamos inferior
y por al con un
tanto,
afirmar que la constante2 del modelo no parece ser relevante para predecir el tiempo de
0
nivel deentrega
significación
de los del 5% se puede afirmar que la constante del modelo no parece ser relevante
pedidos.
t12, 0.025 aceptamos la H o y por tanto, con un nivel de significación del 5% se puede
para predecir el tiempo de entrega de los pedidos.
afirmar
Una vezque la constante
hemos analizadodel la
modelo no parece individual
significatividad ser relevante paravariables
de las predecir explicativas,
el tiempo de
entrega
hemos ade
Una vezvamos los pedidos.
estudiar
analizado lalasignificatividad
significatividadindividual
conjunta de dellasmodelo. Para
variables ello, utilizamos
explicativas, vamos aelestudiar
estadístico
la significatividad FSnedecor
conjunta definido
del modelo. en la expresión (53).
Para ello, utilizamos Como
el de se puede
estadístico observar
FSnedecor en la en la
definido
Una vez hemos analizado la significatividad individual las variables explicativas,
figura 8, este estadístico F0 tiene un valor de 20,84. Este valor se obtiene de la
expresión (53). Como
vamos se puede
a estudiar observar en laconjunta
la significatividad figura 8,delestemodelo. ParaF0ello,
estadístico tiene un valor el
utilizamos de 20,84.
siguiente
estadístico
Este valor manera:
se obtiene FSnedecor definido
de la siguiente en la expresión (53). Como se puede observar en la
manera:
figura 8, este estadístico F0 tiene un valor de 20,84. Este valor se obtiene de la
0,7765
siguiente manera: 3 −1
F0 = ≈ 20,84
(1 − 0,7765)
0,7765
(15 − 3)
F0 = 3 −1 ≈ 20,84
(1 − 0,7765)
Si usamos un α = 0,05 , cuando buscamos en la tabla FSnedecor con un nivel de
Si usamos un , cuando buscamos en(15la−tabla 3) FSnedecor con un nivel de significación de
significación de α = 0,05 , 12 grados de libertad y número de parámetros 3, el valor de
, 12 grados de libertad y número de parámetros 3, el valor de la F2,12 = 3,89. Como el valor de
la
Si Fusamos
F0 es superior2 ,12 =3,89.
al valor α = 0el
unComo ,05valor
tabulado de F
,encuando
tablas F0 es
buscamos superior
en la al
rechazamos Hvalor
tabla
la tabulado
FSnedecor
, por en tablas
lo que el con un nivel
modelo F2de
es globalmente
,12
2,12 0
significación de α = 0,05 , 12 grados de libertad y número
rechazamos la H o ,  por lo que el modelo es globalmente significativo.
significativo. de parámetros 3, el valor de
la F2 ,12 =3,89. Como el valor de F0 es superior al valor tabulado en tablas F2 ,12
A partirAdel
partir del modelo
modelo estimado, estimado, pasamos
pasamos a realizar
a realizar la predicción
la predicción porintervalos
por intervalos tanto
tanto del
del valor
rechazamos
valor esperadola H o ,  pordel
como lo que el modelo
valor es globalmente
observado de la significativo.
variable tiempo de entrega de los para la
esperado como del valor observado de la variable tiempo de entrega de los pedidos
pedidos para la observación 16. Para ello, primero debemos de cargar la librería
observación
A partir16.del
Para ello, primero
modelo estimado, debemos
pasamosdea cargar
realizarlalalibrería RcmdrPlugin.HH
predicción por intervalosdesde la ventana
tanto del
RcmdrPlugin.HH desde la ventana principal de R. Al cargarlo podemos pensar que
principaltodos
de R.esperado
valor Al cargarlocomo podemos pensar
del valor que todos
observado de lalosvariable
datos de
los datos de R Commander se han borrado, pero si vamos a Modelos /
R Commander
tiempo de entregasede hanlosborrado,
pedidos
pero si Seleccionar para
vamos a Modelos la observación
/ Seleccionar 16. Para ello, primero
modelo seleccionar
activo podremos debemos de
seleccionarcargar la librería
el modelo calculado.
modelo activo podremos el modelo calculado. Ahora,
RcmdrPlugin.HH
Ahora, debemos desde la ventana principal de R. Al cargarlo podemos pensar que
library (RcmdrPlugin.HH)
debemos dede cargar
cargar el paquete previamente
el paquete instalado instalado
previamente escribiendoescribiendo library y
todos los datos de R Commander se han borrado, pero si vamos a Modelos /
ejecutándolo. Ahora, se puede
(RcmdrPlugin.HH) observar queAhora,
y ejecutándolo. ha aparecido
se puede unaobservar
nueva opción
que ha dentro del menú
aparecido unaModelos
Seleccionar modelo activo podremos seleccionar el modelo calculado. Ahora,
Prediction Intervals...
llamadodebemos HH tal y como se observa en la figura 11.
de cargar el paquete previamente instalado escribiendo library
(RcmdrPlugin.HH) y ejecutándolo. Ahora,- 39-
se puede observar que ha aparecido una
 
 
- 39-
 
 

45
Econometría I viu
6ECTS .es

Figura 11. Ruta a seguir para obtener la predicción en RCommander. Fuente: elaboración propia.

Seleccionamos esta opción y aparecerá una nueva ventana como la que aparece en la figura 12. Para
obtener el intervalo de confianza de la predicción de la variable tiempo de entrega de los pedidos en
la observación 16, para ello se dispone de la siguiente información: Número pedidos al día es 33 y la
distancia medida en Kilómetros es 67, especificando el 95% nivel de confianza. Por último, marcamos
las opciones “point estimate only”, “confidence interval for mean”, “prediction interval for individual” y
“Standard error” para mostrar el ajuste de predicción, la desviación típica de predicción, los intervalos
de confianza y los intervalos de predicción:

Figura 12. Selección de opciones para obtener la predicción en RCommander. Fuente: elaboración propia.

46
viu Grado en Administración y Dirección de Empresas
.es Módulo de Formación Básica

Pulsando Aceptar, el resultado aparecerá en la ventana de resultados de RCommander.

Figura 13. Resultado de la predicción en RCommander. Fuente: elaboración propia.

El intervalo de predicción del valor esperado de la variable tiempo de entrega de los pedidos es
{60,14937; 69,05933} .

El intervalo de predicción sobre el valor observado de la variable tiempo de entrega de los pedidos es
{51,22815; 77,98055} .

El intervalo de predicción del valor observado de la variable dependiente es más grande que el
intervalo de predicción para el valor esperado de la variable dependiente.

La predicción puntual del tiempo de entrega de los pedidos en la observación 16 es 64,6067.


Numéricamente quedaría así:

tiempo de espera16 = 6,97 + 0,68*33 + 0,52*67 = 64,6067

47
Econometría I viu
6ECTS .es

4.5. Inclusión de una variable cualitativa en el modelo de regresión


simple. Ejemplo en RCommander
Hasta ahora las variables que hemos utilizado para explicar el comportamiento de la variable
dependiente eran de tipo cuantitativo. Como es de esperar, existen variables de tipo cualitativo
que pueden ser importantes para determinar el comportamiento de la variable respuesta. Algunos
ejemplos de estas variables podrían ser el sexo, nacionalidad, provincia, etc… Cuando la variable
categórica o cualitativa sólo puede adquirir dos posibles valores (Sí-No, 0-1, Masculino-Femenino,
etc.) se denomina variable binaria. En econometría, las variables binarias que se utilizan como
variables independientes son comúnmente llamadas variables ficticias. En la definición de una
variable dicotómica, se debe de determinar a qué categoría se le asigna el valor 0 y a cual el valor
de 1.

Por ejemplo, las categorías de la variable sexo, se pueden definir de la siguiente manera:

{
Masculino Si la persona es hombre se le asigna un 0

Sexo

Femenino Si la persona es mujer se le asigna un 1

La decisión de poner es 0 o 1 es aleatoria; es importante tener en cuenta el valor asignado a cada


categoría para su interpretación.

Para analizar cómo se puede incorporar una variable dicotómica en los modelos de regresión, vamos
a continuar con el modelo de regresión múltiple que hemos utilizado en los temas 3 y 4. Recordamos
que en el ejemplo estimamos los parámetros de un modelo de regresión múltiple donde la variable
dependiente es el tiempo de entrega del pedido y las variables independientes son el número de
pedidos y distancia. Como se observa, ambas variables independientes son de tipo cuantitativo. El
modelo que obtuvimos fue el siguiente:

tiempo de espera = 6,97 + 0,68 número de pedidos + 0,52 distancia

Ahora, deseamos medir el tiempo de espera en función también del sexo de la persona que recibe el
pedido. El atributo o variable sexo tiene dos categorías: masculino y femenino. La categoría femenino
se ha sido incluido en el modelo; mientras que la categoría masculino, que ha sido omitida, es la
categoría de referencia*. Así pues, el nuevo modelo de regresión múltiple que queremos estimar
queda de la siguiente manera:

tiempo de espera = b1 + b2 número de pedidos + b3 distancia + b4 femenino + u

* RCommander toma como referencia la categoría con menor valor, es decir, la categoría de referencia con la
que se comparan las demás categorías. Es importante identificar qué categoría es la categoría de referencia
para poder interpretar de forma correcta los coeficientes asociados a las variables ficticias.

48
viu Grado en Administración y Dirección de Empresas
.es Módulo de Formación Básica

Introducimos sólo una variable ficticia para el sexo femenino, y no otra más para el sexo masculino,
debido a que incluir una variable ficticia para cada categoría de la variable habría sido repetitivo. Con
la introducción de la variable ficticia femenino obtendremos un término independiente para cada
sexo. La introducción de dos variables ficticias provocaría multicolinealidad perfecta, debido que la
suma de ambas categorías es igual a 1.

Para poder visualizar y entender la inclusión de la variable sexo en el modelo, procedemos a introducir
en RCommander los siguientes datos:

Tiempo entrega Número pedidos Distancia Sexo


48 20 60 Masculino
54 30 50 Masculino
58 20 70 Masculino
62 40 36 Femenino
50 50 44 Masculino
66 36 62 Femenino
52 24 52 Masculino
56 28 68 Masculino
62 32 58 Masculino
78 44 74 Femenino
66 48 50 Femenino
60 34 50 Masculino
50 26 54 Masculino
84 60 70 Femenino
80 48 66 Femenino

A continuación recodificamos la variable sexo para que tome los valores 0 y 1. Para ello, seguimos la
ruta de RCommander: Datos / Modificar variables del conjunto de activo / Recodificar variables.
Seleccionamos la variable sexo y escribimos el código que aparece en la figura 14:

49
Econometría I viu
6ECTS .es

Figura 14. Recodificación de la variable sexo en RCommander. Fuente: elaboración propia.

Para obtener el modelo de regresión múltiple, seguimos la siguiente ruta: Estadísticos/Ajuste de


modelos/Modelo lineal/ seleccionando las variables correspondientes, tal y como muestra la figura 15:

Figura 15. Creación del Modelo de Regresión lineal múltiple en RCommander. Fuente: elaboración propia.

50
viu Grado en Administración y Dirección de Empresas
.es Módulo de Formación Básica

Los resultados del modelo anterior en RCommander se muestran en la figura 16:

Figura 16. Resultado del Modelo de Regresión lineal múltiple en RCommander cuando la categoría de referencia
de la variable sexo es masculino. Fuente: elaboración propia.

mide la diferencia entre el tiempo de entrega esperado de las mujeres y de los hombres, cuando la
distancia y el número de pedidos se mantienen constantes. Otra definición sería el incremento o
disminución que se produce en el tiempo de entrega al cambiar el valor de la variable sexo de 0 a 1 (si
se toma 0 como valor de referencia), es decir, al pasar de sexo masculino a femenino.

Con los datos obtenidos, en este caso es positivo, lo cual indica que, manteniéndose constantes
las variables distancia y el número de pedidos, el tiempo de entrega en el sexo femenino (categoría 1)
es mayor que en el sexo masculino (categoría de referencia) en promedio. Pasar de sexo masculino a
femenino produce un aumento del valor del tiempo de entrega de 10,5051. Esto puede ser debido a
que para las mujeres, normalmente, el número de pedidos es mayor que en los hombres y, por tanto,
aumenta el tiempo de entrega en recibir los pedidos.

Si usamos sexo masculino, el modelo de regresión sería el siguiente:

tiempo de espera = b1 + b2 número de pedidos + b3 distancia + b4 masculino + u

Lo que ha cambiado será la interpretación del y el valor de la constante del modelo cambiará.

Para obtenerlo en RCommander hemos de recodificar la variable otra vez, debido a que como ya
mencionamos antes, RCommander toma como referencia la categoría con menor valor. Ahora
queremos que tome como categoría de referencia femenino, por lo que esta categoría ha de valer
ahora 0, mientras que la categoría masculino ha de valer 1.

51
Econometría I viu
6ECTS .es

La figura 17 muestra los resultados del modelo de regresión cuando la categoría de referencia de la
variable sexo es femenino:

Figura 17. Resultado del Modelo de Regresión lineal múltiple en RCommander cuando la categoría de referencia
de la variable sexo es femenino. Fuente: elaboración propia.

en este caso es negativo, lo cual indica que, manteniéndose constantes las variables distancia y el
número de pedidos, el tiempo de entrega en el sexo masculino (categoría 1) es menor que en el sexo
femenino (categoría de referencia) en promedio. Pasar de sexo femenino a masculino produce una
disminución del valor del tiempo de entrega de 10,5051. Esto puede ser debido a que para los
hombres, normalmente, el número de pedidos es menor que para las mujeres y, por tanto, disminuye
el tiempo de entrega en recibir los pedidos.

El contraste de la significación individual se realiza de forma similar a como lo hicimos en el tema


anterior. En el modelo donde la categoría de referencia de la variable sexo es femenino se realiza el
siguiente contraste de hipótesis:

La H0 indica que no hay diferencias en el tiempo de espera de los pedidos entre hombres y mujeres,
mientras que la H1 indica la existencia de diferencias en el tiempo de entrega de los pedidos entre
hombres y mujeres.

En, en este caso, aplicamos un contraste t bilateral, como ya vimos en el tema anterior.

Dado que el estadístico t 3,141 (cuando la categoría de referencia es sexo masculino) es superior al
valor en tablas de t11,00.5 = 1,7959 rechazamos la H0 para nivel de significación igual a 0,05. Es decir, hay
evidencia empírica de que el tiempo entrega en los pedidos es mayor en las mujeres que en los
hombres.

52
viu Grado en Administración y Dirección de Empresas
.es Módulo de Formación Básica

 Departamento  de  Metodología  e  Innovación  


C/  Gorgos,  nº  5  (46021)  Valencia    
Tel.  96  192  49  73    
 

TemaTEMA
5. 5: ANÁLISIS DE REGRESIÓN MÚLTIPLE
Análisis
CONde regresiónDEPENDIENTE
VARIABLE múltiple con variable dependiente
CUALITATIVA.
cualitativa
Hasta ahora, la variable dependiente que hemos estudiado en el modelo de regresión
múltiple tenía un carácter cuantitativo. En este tema vamos a estudiar el caso en el
que la variable dependiente en el modelo de regresión es categórica o cualitativa. Si
utilizamos el modelo lineal estudiado en el tema 3 para predecir el comportamiento de
una variable binaria tendremos ciertos problemas. Para solucionarlo, debemos de
Hasta ahora, la variable dependiente que hemos estudiado en el modelo de regresión múltiple tenía
utilizar modelos de regresión no lineales. Estos modelos se utilizan cuando la variable
un carácter cuantitativo. En este tema vamos a estudiar el caso en el que la variable dependiente en
respuesta es categórica o cualitativa. En concreto, el modelo de regresión no lineal
el modelo de regresión es categórica o cualitativa. Si utilizamos el modelo lineal estudiado en el tema
que vamos a estudiar en este tema es el Logit y veremos cómo implementarlo en
3 para predecir el comportamiento de una variable binaria tendremos ciertos problemas. Para
RCommander.
solucionarlo, debemos de utilizar modelos de regresión no lineales. Estos modelos se utilizan cuando
la variable respuesta es categórica o cualitativa. En concreto, el modelo de regresión no lineal que
vamos a estudiar en este tema es el Logit y veremos cómo implementarlo en RCommander.
5.1 Modelo de regresión con variable dependiente
5.1. 
Mcategórica
odelo de regresión con variable dependiente categórica o
o cualitativa
cualitativa
Tal y como vimos en la expresión (25), el modelo poblacional de regresión lineal
Tal y como vimos
múltiple en la
tiene la expresión
forma: (25), el modelo poblacional de regresión lineal múltiple tiene la
forma:
y = β1 + β 2 x2 + β 3 x3 + .... + β k xk + u

en ladonde
en donde la dependiente
variable variable dependiente y cuantitativo
y es de tipo es de tipo cuantitativo
y β1 ....β k losfijos
losyparámetros parámetros
a estimar
fijos a estimar mediante
mediante el método de MCO. el método de MCO.

Puede pasar, que la variable dependiente y sea de tipo cualitativa o categórico. En


estos casos, se he de utilizar la llamada53 regresión logística, y no hacer uso de la
regresión lineal. A diferencia de la regresión lineal, regresión logística para estimar los
parámetros de interés utiliza el método de Máxima Verosimilitud, el cual q consiste en
maximizar la función de verosimilitud de la muestra.
Econometría I viu
6ECTS .es

Puede pasar, que la variable dependiente y sea de tipo cualitativa o categórico. En estos casos, se he
de utilizar la llamada regresión logística, y no hacer uso de la regresión lineal. A diferencia de la
regresión lineal, regresión logística para estimar los parámetros de interés utiliza el método de
Máxima Verosimilitud, el cual q consiste en maximizar la función de verosimilitud de la muestra.

Las variables categóricas, pueden ser de varios tipos:

•• Variables categóricas nominales: pueden tomar múltiples categorías, las cuales no se


pueden ordenar: Alfredo, Silvia, Ana, Javier…

•• Variables categóricas ordinales: pueden tomar múltiples categorías, las cuales se pueden
ordenar: (Primero, Segundo, Tercero…).

•• Variables categóricas binarias: pueden tomar sólo dos categorías (0-1, Sí-No...).

En este tema, sólo vamos a tratar con el tipo de Variables categóricas binarias.

5.2. 
Problemas de aplicar el modelo de regresión lineal para
predecir una variable dependiente cualitativa
A continuación, se muestran los principales inconvenientes de aplicar un modelo de regresión lineal
cuando la variable a predecir es de tipo cualitativo.

1. El error o perturbación aleatoria ya no son homocedásticos. Por lo que los estimadores MCO
no serán eficientes.

2. El error o perturbación aleatoria será una variable aleatoria discreta. Por tanto el error o
perturbación aleatoria no se distribuirá normalmente.

3. Como la variable dependiente Y sólo puede tomar los valores 0 y 1, cuando los representamos
en una gráfica, se observa que los puntos se sitúan sobre dos rectas: y = 0 e y = 1. Si ajustamos
un modelo de regresión lineal, estamos ajustando una recta a las observaciones. Cuando se
realiza la predicción de futuras observaciones, no obtendremos resultados correctos, debido
a que la probabilidad obtenida puede dar valores superiores a 1 e inferiores a 0.

4. El modelo asume que las variaciones en la variable dependiente producidas por cambios en
alguna de las variables independientes son constantes, algo poco realista.

5.3. Modelo de regresión logística


Como ya hemos mencionado, cuando la variable respuesta es binaria, el modelo de regresión logístico
(modelo no lineal) es el adecuado, ya que, el modelo de regresión lineal presenta una serie de
inconvenientes.

54
viu Grado en Administración y Dirección de Empresas
.es Módulo de Formación Básica

P(Y=1)

2 4 6 10 11 12 13 14 Xi

Figura 18. Ajuste de un Modelo de Regresión lineal cuando la variable respuesta es cualitativa binaria.
Fuente: elaboración propia.

El objetivo de la regresión logística, es ajustar una función a las observaciones. Dicha función debe de
estar acotada entre 0 y 1 y deberá de ser diferente a la función identidad. Tenemos que intentar ajustar
una función como la de la figura 19.

P(Y=1)

2 4 6 10 11 12 13 14 Xi

Figura 19. Ajuste de un Modelo de Regresión logístico cuando la variable respuesta es cualitativa binaria.
Fuente: elaboración propia.

Una de las funciones más utilizadas con una forma similar a la que se observa en la figura 19 es la
función logit.

55
5.3.1
 
Modelo logit.
 Departamento  de  Metodología  e  Innovación  
5.3.1 Modelo logit. C/  Gorgos,  neº   5  (46021)  Valencia    
La solución a los inconvenientes que presenta
 Departamento  de  Metodología  
el modelo lineal cuando viu
Econometría
 Innovación  
disponemos
C/  Gorgos,  nº  5  (46021)  Tel.  
I96  192  4de
  9  73    
lineal.es
Valencia  
 una variable respuesta de tipo cualitativo, es sustituir la especificación 6ECTS
Tel.  96  192  49  73    
(no
acotada entre el 0-1) por una función que tome valores estrictamente entre 0-1.
  La solución a los inconvenientes que presenta el modelo lineal cuando disponemos de
El5.3.1 unaModelo
modelo logit. dees:tipo cualitativo, es sustituir la especificación lineal (no
lineal de probabilidad
variable respuesta
5.3.1. 5.3.1
Modelo Modelo logitlogit.
acotada entre el 0-1) por una función que tome valores estrictamente entre 0-1.
El modelo lineal de probabilidad es:
La solución La solución P( ypresenta
a los inconvenientes
a los inconvenientes que = 1 | Xque 0 + β1 Xlineal
) =elpresenta
βmodelo + β k Xlineal
... cuando
1el+modelo (59) disponemos de
cuando
k disponemos de una variable
La una
solución variable
a los respuesta
inconvenientes de tipo
que cualitativo,
presenta el es
modelo sustituir
lineal la
cuandoespecificación
disponemos lineal
de (no
respuesta de tipoentre
acotada cualitativo,
el 0-1) es
por sustituir
una la especificación
función que tome lineal (no
valores acotada entre
estrictamente el 0-1)
entre 0-1. por una
una variable
función El
Donde los
que
β reflejan
respuesta
tome valores
de latipo
variación
estrictamente y en
cualitativo,
Pentre
( es: 1la
| Xprobabilidad
= 0-1. es β 0 + β1 Xde
) = sustituir la+un
... +cambio
β k X k unitario
especificación lineal en (no
(59) X.
modelo lineal de probabilidad
acotada entre el 0-1) por una función que tome valores estrictamente entre 0-1.
1

El modelo lineal de probabilidad es:


El modelo Donde los β reflejanes: la variación en la probabilidad de un cambio unitario en X.
El lineal
modelode no
probabilidad
lineal de probabilidad:
P( y = 1 | X ) = β 0 + β1 X 1 + ... + β k X k (59)

El modelo P P(lineal
no y = 1 |deX ) = β 0 + β1 X 1 + ... + β k X k (59)(59)
Donde los β reflejan X ) =probabilidad:
f [βen
( y =la1 |variación k ] un cambio unitario
X 1 + ... + β k Xde
β1probabilidad
0 +la (60) en X.
Dondeloslos β
Donde reflejan
reflejan la variación
la variación en laen la probabilidad
probabilidad de unde un cambio
cambio unitariounitario
en X. en X.
P( y = 1 | X ) = f [β 0 + β1 X 1 + ... + β k X k ] (60)
El modelo no lineal de probabilidad:
El modelo no lineal
ajusta una de probabilidad:
función f a las observaciones, la cual, debe de estar acotada entre 0 y 1 y
El modelo no lineal de probabilidad:
debe de ser diferente( y =a1 |laX
ajusta unaPfunción
función[β 0identidad.
= f observaciones,
f a) las k X k ] debe(60)
+ β1 X 1 + ... +laβcual, (60)
de estar acotada entre 0 y 1 y
P( y = 1 | X ) = f [β 0 + β1 X 1 + ... + β k X k ] (60)
ajusta una
Para debe
función
el fde
modelo ser
a las diferente
observaciones,
logit, la función a laffunción
laescual, identidad.
debe de estar acotada entre 0 y 1 y debe de ser
la siguiente:
diferente a la función identidad.
ajusta una función f a las observaciones, la cual, debe de estar acotada entre 0 y 1 y
ajusta Para elf modelo
una función afunción logit, la exp(
las observaciones, función es ladebe
z )la fcual, siguiente:
de estar acotada entre 0 y 1 y
Para el modelo
debe delogit,
ser la
diferente f (af zes
) =lafunción
la siguiente:
identidad.     (61)
[1 + exp( z )]
debe de ser diferente a la función identidad.
exp( z )
f ( z ) =f es la siguiente:
Para el modelo logit, la función     (61)
[1 + exp( z )] (61)
Para el modelo logit, la función f es la siguiente:
Por lo que se obtiene:
Por lo que se obtiene: exp( z )
f ( z) =     (61)
 Departamento   de  Metodología  e  Innovación  
exp([1z )+ exp( z )]
Por lo que
f ( zse
) =obtiene:
E (Y ) = P( y = X ) =z )]
   
exp( β1 + β 2 X 2 + .... + β K X(61) C/  Gorgos,  nº  5  (46021)  Valencia    
[11+| exp( K
 Departamento  de  Metodología  (62)
1 + exp( β1 + β 2 X 2 + .... + β K X K C/  Gorgos,  
(62)
Tel.   96  192  49  73    
e  Innovación  
  nº  5  (46021)  Valencia    
exp( β1 + β 2 X 2 + .... + β K X K
  lo que1.se“Odds”
Por E (Y )es
obtiene:=P ( y medida
una = 1 | X ) que
= se define para cuantificar el riesgo. SeTel.   96  192  
define (62)
como 49  73    
En los
  modelos de Regresión Logística se pretende estudiar
1 + exp( + .... + β K X K de éxito P( y = 1) de
β1 + βsi2 Xla2 probabilidad
Porvariable
una lo que binaria,
se obtiene:
depende o no,
el cociente de de otra u otras variables.
probabilidades entre presentar una característica respecto no
 
1. “Odds” es una medida que se define para cuantificar el riesgo. Se define como
exp( β + β X + .... + β X
E (Ypresentarla:
En interpretar
Para poder los modelos )losP( y,Regresión
= de = 1 | Xlos
nacen ) =conceptos
Logística 1
se 2odds
de 2
pretende y odds K
estudiar
ratio: K
si la probabilidad(62) de éxito
exp(1β+1 +exp(2X ....2 X X Kuna
el cociente de probabilidades βentre
β12 +presentar
β + 2β+K .... XK
+ β Kcaracterística respecto no
E (Y ) = P( y = 1 | X ) = (62)
P( yes=En
1. “Odds”  1) de
una medida
una que se1binaria,
variable +
los modelos de Regresión
exp(
define βpara+ β
depende X
cuantificar
P(YLogística
= 1)
+
o ....
no, + el
deβ
se pretende
X
riesgo.
otra u Se
otras define como el cociente de
variables.
+.... + β K X K )estudiar si la probabilidad de éxito
1 2 2 K K
presentarla:
probabilidades entre presentarOdds una =característica =respectoe ( β1 + β 2 X 2no (63)
  1 − P(Y = 1)
presentarla:
P( y = 1) de una variable binaria, depende o no, de otra u otras variables.
P(Y = 1) ( β1 + β 2 X 2 +.... + β K X K )
En lospoder
Para modelos deOdds
Regresión
interpretar =los β , Logística
nacen =losese pretendede
conceptos estudiar
odds y(63)
siodds
la probabilidad
ratio: de éxito
Teniendo en 1 − P(Y = 1)
cuenta que el modelo de regresión logística
(63)
puede ser escrito
En los modelos de Regresión Logística se pretende estudiar si la probabilidad de éxito
P( y = 1) como:
de poder
una variable binaria,
Teniendo en cuenta
Para que el modelo
interpretar βdepende
de regresión
los olos
no,conceptos
depuede
, nacenlogística otra user
otras
de variables.
escrito
odds ycomo:
odds ratio:
P( y = 1) deTeniendo
una variable binaria, depende o no, de otra u otras variables.
en cuenta que el modelo de regresión logística puede ser escrito
- 48-
ln P(Y = 1) − ln(1 − P(Y = 1)) = (β1 + β 2 X 2 + .... + β K X K )
(64)
(64)  
  como:
Para poder interpretar los β , nacen los conceptos de odds y odds ratio:
Tomamos logaritmos por comodidad y para trabajar con- 48- toda la recta real debido a que el Odds
Para poder interpretar
está acotado: los
Tomamos β , nacen los
logaritmos conceptos
por comodidadde odds
y paray odds ratio:
trabajar con toda la recta real  
ln P(Y = 1) − ln(1 − P(Y = 1)) = (β1 + β 2 X 2 + .... + β K X K )
  (64)
debido a que el Odds está acotado:
- 48-
 
  Tomamos logaritmos por comodidad - 48- y para trabajar con toda la recta real
⎛ P(Y = 1) ⎞  
ln⎜⎜ ⎟⎟ = ( β 1 + β 2 X56
2 + .... + βK X K ) (65)
  ⎝ 1 −elPOdds
debido a que (Y = 1)está
⎠ acotado:
1 2 2 K K

debido a que el Odds está acotado:

viu Tomamos
Grado en Administración logaritmos
y Dirección por comodidad y para trabajar con toda la recta real
de Empresas
.es Módulo de Formación Básica
⎛ P(Y = 1) ⎞
debido
ln⎜⎜ a que el Odds
⎟⎟ =está
( β 1 +acotado:
β 2 X 2 + .... + β K X K ) (65)
⎝ 1 − P(Y = 1) ⎠

⎛ P(Y = 1) ⎞
ln⎜⎜ ⎟ = ( β 1 + β 2 X 2 + .... + β K X K ) (65)
⎝ 1 − P(Y = 1) ⎠⎟ (65)
Se observa en la ecuación (65) que los β muestran el incremento de la probabilidad
Se observa en la de que ocurra
ecuación el los
(65) que suceso en escala
muestran logarítmica.
el incremento deSi el β 2 es negativo
la probabilidad de queindica
ocurraque a media
el suceso en escala logarítmica. Si el 2 es negativo indica que a media que la variable X2 aumenta, disminuirá
que la variable X aumenta, el logaritmo del cociente de probabilidades
Se observa en laconstantesecuación (65) que de β muestran
losvariables el incremento de la probabilidad
el logaritmo del(suponiendo
cociente de probabilidades el resto
disminuirá explicativas).
(suponiendo Por el
constantes resto de si el β 2 es
el contrario,
de que
positivo
variables explicativas). ocurra
Por elcontrario,
indica
el suceso
que aen escala
media
si el eslogarítmica.
que la variable
positivo SiXel
indica β a2 es
2 aumenta,
que negativo
media el
que laindica
logaritmo que
delX acociente
variable media de
probabilidades aumentará (suponiendo constantes el resto de variables explicativas).
2
aumenta, el que
logaritmo la variable X2 aumenta,
del cociente el logaritmo
de probabilidades del cociente
aumentará (suponiendo de probabilidades
constantes el resto disminuirá
(suponiendo
de variables explicativas). constantes el resto de variables explicativas). Por el contrario, si el β 2 es
positivo indica que a media que la variable X2 aumenta, el logaritmo del cociente de
Si tomamos exponenciales en la ecuación (65) obtenemos:
Si tomamosprobabilidades
exponenciales en aumentará
la ecuación (suponiendo
(65) obtenemos: constantes el resto de variables explicativas).
 
P(Y = 1)
Si tomamos exponenciales = (eenβ1 laβecuación
* e 2 X 2 * ....* e(65) β K X K obtenemos:
) (66)
1 − P(Y = 1)   D epartamento   de  (66)
Metodología  e  Innovación  
  C/  Gorgos,  nº  5  (46021)  Valencia    
Tel.  96  192  49  73    
P(Y =por
En este caso, los indican 1) cuántoβ1 se multiplica
β2 X 2 elβOdds.
K XK
  = (βe indican
En este caso, los *e *por e
....*cuánto )se multiplica el Odds. (66)
1 − P(Y = 1)
2. 
“2.Odds Ratio”
“Odds es el es
Ratio” cociente de los odds
el cociente de losde odds
los dosdegrupos y constituye
los dos grupos yotra forma deotra
constituye cuantificar
forma deentre
la asociación cuantificar la asociación
dos variables binarias.entre dos variables binarias.
En este caso, los β indican por cuánto se multiplica el Odds.
Odds 2
Odds Ratio = = e ( βi ) (67)
Odds 1 (67)

En En este caso,
este caso,cuando
cuando se seobtiene
obtieneunun
OddsOdds Ratio
Ratio cercano
cercano a 1 indicará
a 1 indicará que producidos
que cambios cambios en la
- 49-
producidos en la variable explicativa X no influirán sobre
variable explicativa Xi no influirán sobre la variable dependiente.
i la variable dependiente.  
   
e ( β i ) representa
representa el elvalor
valordel
delOdds
Odds Ratio cuandolas
Ratio cuando lasvariable
variable explicativa
explicativa Xi aumenta
Xi aumenta una
una unidad.
unidad. - 49-
 
es el valor
  del Odds cuando la/s variables explicativas valen 0.
( β1 )
e es el valor del Odds cuando la/s variables explicativas valen 0.
5.4. Estimación de los parámetros en una regresión múltiple con
variable dependiente
5.4 Estimación binaria utilizando
de los parámetros en una RCommander
regresión múltiple
con variable
A continuación dependiente
se muestra binaria
un ejemplo de utilizando
la estimación RCommander.
de parámetros en una regresión múltiple con
variable dependiente binaria utilizando RCommander.

Se desea relacionar el éxito o fracaso de los vuelos de una determinada compañía aérea (siendo el
A continuación se muestra un ejemplo de la estimación de parámetros en una
éxito que elmúltiple
regresión vuelo no havariable
con sufrido ningún accidente)
dependiente en función
binaria de las
utilizando siguientes variables:
RCommander.

• Temperatura
Se •desea relacionardelelavión
éxitoeno elfracaso
despegue,
de medida en grados
los vuelos de unacentígrados.
determinada compañía
aérea en función de las siguientes variables:
•• Presión del avión en el momento del despegue medida en bar.
- Temperatura del avión en el despegue, medida en grados centígrados.
- Presión del avión en el momento del despegue medida en bar.

La siguiente tabla, muestra las variables mencionadas recogidas en un determinado


día:

57
Econometría I viu
6ECTS .es

La siguiente tabla, muestra las variables mencionadas recogidas en un determinado día:

Núm. vuelo Respuesta Temperatura Presión


14 Fracaso 53 50
9 Fracaso 57 50
23 Fracaso 58 200
10 Fracaso 63 50
1 Éxito 66 200
5 Éxito 67 50
13 Éxito 67 200
15 Éxito 67 50
4 Éxito 68 200
3 Éxito 69 200
8 Éxito 70 50
17 Éxito 70 200
2 Fracaso 70 200
11 Fracaso 70 200
6 Éxito 72 200
7 Éxito 73 200
16 Éxito 75 100
21 Fracaso 75 200
19 Éxito 76 200
22 Éxito 76 200
12 Éxito 78 200
20 Éxito 79 200
18 Éxito 81 200

Antes de estimar el modelo, vamos a ver la relación entre la variable dependiente y las independientes.
Para ello, una vez cargados los datos, escribimos y ejecutamos el siguiente comando:

plot (Dataset$Temperatura,Dataset$Respuesta,xlab=”Temp”,ylab=”Respuesta”)

58
viu Grado en Administración y Dirección de Empresas
.es Módulo de Formación Básica

Figura 20. Relación entre la variable respuesta y la variable Temperatura con RCommander. Fuente: elaboración propia.

Como deseamos estudiarla probabilidad de que un vuelo sufra un accidente recodificamos la variable
respuesta de la siguiente manera (figura 21).

Para estudiar las relaciones entre la variable dependiente y las independientes, se plantea un modelo
de regresión logística donde la variable respuesta será Respuesta y las explicativas Temperatura y
Presión.

Para ello, seleccionamos la siguiente ruta de Rcommander:

Estadísticos / Ajuste de Modelos / Modelo Lineal Generalizado seleccionando la familia Binomial y la


función de enlace logit tal y como se muestra en la figura 22.

59
Econometría I viu
6ECTS .es

Figura 21. Recodificación variable respuesta RCommander. Fuente: elaboración propia.

Figura 22. Modelo Lineal Generalizado (MLG) en RCommander. Fuente: elaboración propia.

60
viu Grado en Administración y Dirección de Empresas
.es Módulo de Formación Básica

A continuación se muestran los resultados del Modelo Lineal Generalizado:

Figura 23. Resultados del Modelo Lineal Generalizado en RCommander. Fuente: elaboración propia.

Para obtener los intervalos de confianza para las estimaciones seleccionamos la siguiente ruta:

Modelos / Intervalos de confianza seleccionando las opciones de la figura 24:

Figura 24. Opciones a seguir para obtener los Intervalos de confianza del MLG en RCommander. Fuente: elaboración propia.

61
Econometría I viu
6ECTS .es

A continuación se muestran los intervalos del Modelo Lineal Generalizado:

Figura 25. Intervalos de confianza del MLG en RCommander. Fuente: elaboración propia.

A continuación, se procede a interpretar los parámetros del modelo:

eb1 = exp(-16,385319)=0,00000007655 No se suele interpretar debido a que su interpretación no tiene


mucho sentido, pero es necesario incluirla en el modelo. Su interpretación sería la siguiente:
0,00000007655 es el valor del Odds de tener un accidente cuando la Temperatura y la Presión valen 0.

Variable Temperatura.

eb2 = exp(0,263404)=1,3013. Este valor sería el Odds Ratio por cada grado centígrado de temperatura
que aumenta. Es decir, un avión que tiene una temperatura (T+1) tiene 1,30 veces más probabilidad
de sufrir una accidente que un avión que tiene una temperatura (T). Además, esta relación es
significativa, lo que indica el p-valor menor que 0,05. Concretamente, el intervalo de confianza al 95%
para este Odds Ratio es: [1,064797 1,80951531] el cual se obtiene de la siguiente manera: (exp(0,0627),
exp(0,5930)), por lo que, un avión que tiene una temperatura (T+1) tiene entre 1,064797 y 1,80951531
veces más probabilidad de tener un accidente que un avión que tiene una temperatura (T) con un
95% de confianza.

Variable Presión.

eb3 = exp(-0,005177602)=0,9948. Este valor sería el Odds Ratio por cada bar de presión que aumenta.
Es decir, un avión que tiene una presión (P+1) tiene 0,9948 veces menos de probabilidad de sufrir una
accidente que un avión que tiene una presión (P). Concretamente, el intervalo de confianza al 95%
para este Odds Ratio es: [0,9741117 1,01182693], por lo que, un avión que tiene una presión (P+1)
tiene entre 0,9741117 y 1,01182693 veces menos probabilidad de sufrir un accidente que un avión
que tiene una presión (P) con un 95% de confianza. En este caso, esta relación no es significativa, lo
que indica el p-valor es mayor a 0,05.

Como la variable Presión en el modelo no es significativa, realizamos el mismo modelo pero sin ella. El
resultado es el siguiente:

62
viu Grado en Administración y Dirección de Empresas
.es Módulo de Formación Básica

Figura 26. MLG eliminado la variable Presión en RCommander. Fuente: elaboración propia.

Se observa que los parámetros estimados tienen los mismos signos y continúan siendo significativos.
Como medida para comparar modelos se utiliza el AIC definido en el tema 3. Como ya se vio el mejor
modelo para explicar los datos con el mínimo número de parámetros es aquel que presenta el menor
valor de AIC.

•• Modelo 1 (Reco_respuesta ~ Presión + Temperatura) tiene un AIC= 25,984

•• Modelo 2 (Reco_respuesta ~ Temperatura) tiene un AIC= 24,315

Por tanto, seleccionamos el modelo 2 como mejor modelo para predecir el fracaso de los vuelos de
una determinada compañía.

63
Econometría I viu
6ECTS .es

64
viu Grado en Administración y Dirección de Empresas
.es Módulo de Formación Básica

Glosario

Análisis de regresión
Trata del estudio de la variable dependiente (llamada también endógena o explicada) en función de
una o más variables independientes (llamadas también exógenas o explicativas) con el objetivo de
estimar o predecir la media de la variable dependiente en términos de los valores conocidos o fijos en
muestras repetidas de las variables explicativas.

Coeficiente de correlación (r)


Mide la intensidad de relación lineal o grado de asociación entre dos variables.

Coeficiente de determinación (R2)


Es una medida de bondad de ajuste del modelo de regresión, la cual estudia en qué medida la recta
de regresión obtenida se ajusta a los datos.

Contraste de significación
Es aquel en que la H1 es bilateral.

Contraste de significación negativo


Es aquel en que la H1 es unilateral de una cola izquierda.

Contraste de significación positivo


Es aquel en que la H1 es unilateral de una cola derecha.

Contrastar una hipótesis


Es un procedimiento mediante el cual se acepta o rechaza una hipótesis que se emite acerca de un
parámetro u otra característica de la población.

Criterio de información de Akaike (AIC) y Bayesian Information Criterion (BIC)


Son otros estadísticos utilizados para comparar modelo, los cuales penalizan la introducción de nuevas
variables independientes. La diferencia entre ambos criterios podría resumirse en que el criterio BIC
tiende a seleccionar modelos más simples que los que seleccionaría AIC.

65
Econometría I viu
6ECTS .es

Datos de corte transversal o atemporales


Son observaciones de una variable, para distintas unidades económicas en un momento de tiempo
dado.

Datos de panel
Son observaciones de una variable para distintas unidades económicas a lo largo del tiempo, es decir,
es la combinación de datos temporales y de corte transversal.

Econometría
Es una disciplina científica que se basa, fundamentalmente, en la utilización de métodos estadísticos
y matemáticos para estimar a partir de un conjunto de datos la forma según la cual se pueden
relacionar diferentes variables basadas en teorías económicas.

Estimador insesgado
Es el estimador que tiene varianza mínima dentro de la clase de todos los estimadores lineales
insesgados. Que tenga varianza mínima, significa que presentan menor error cuadrático comparado
con otros estimadores.

Estimador lineal
Es aquel estimador que es función lineal de la dependiente.

Hipótesis estadística
Es una afirmación o suposición sobre la población principalmente acerca del valor de un parámetro
desconocido.

Método de Máxima Verosimilitud


El cual q consiste en maximizar la función de verosimilitud de la muestra.

Mínimos Cuadrados Ordinarios (MCO)


Es el método más utilizado denominado para estimar los parámetros desconocidos en el modelo de
regresión debido a que los estimadores obtenidos gozan de ciertas propiedades estadísticas que lo
han convertido en uno de los métodos más eficaces y populares del análisis de regresión.

Modelo de regresión simple


Es aquel en el que el comportamiento de una variable dependiente (y), se puede explicar a través de
una variable independiente (x).

66
viu Grado en Administración y Dirección de Empresas
.es Módulo de Formación Básica

Modelo econométrico
Es un modelo económico con las especificaciones necesarias para su tratamiento empírico.

Modelo económico
Es la expresión matemática simplificada de un fenómeno económico.

Modelo multiecuacional
Es aquel modelo econométrico que contiene más de una ecuación.

Modelo uniecuacional
Es aquel modelo econométrico que sólo contiene una ecuación.

Odds
Es una medida que se define para cuantificar el riesgo. Se define como el cociente de probabilidades
entre presentar una característica respecto no presentarla.

Odds Ratio
Es el cociente de los odds de los dos grupos y constituye otra forma de cuantificar la asociación entre
dos variables binarias.

P-valor
Se define como el nivel más bajo de significación al que puede ser rechazada la hipótesis nula.

R2 ajustado o corregido
Se utiliza para la selección de un modelo entre varios que explican una misma variable. Éste se “ajusta”
teniendo en cuanta el número de variables que se incluyen en el modelo, de forma que, penaliza el
modelo al añadir más variables independientes.

Regresión lineal múltiple


Estudia la dependencia de una variable explicada (y) y más de una variable explicativa (x).

Regresión logística
Modelo de regresión que se utiliza cunado la variable a predecir es cualitativa.

67
Econometría I viu
6ECTS .es

Series temporales o Datos temporales


Son observaciones de una variable, para una unidad económica a lo largo del tiempo.

Significación económica
De una determinada variable se determina por el valor y signo del parámetro estimado bj.

Significación estadística
De una determinada variable x j se determina completamente por el valor del estadístico t j .

Variable binaria
Es una variable categórica o cualitativa que sólo puede adquirir dos posibles categorías o valores.

Variables categóricas nominales


Pueden tomar múltiples categorías, las cuales no se pueden ordenar.

Variables categóricas ordinales


Pueden tomar múltiples categorías, las cuales se pueden ordenar.

Variables ficticias
En econometría, las variables binarias que se utilizan como variables independientes son comúnmente
llamadas variables ficticias.

68
viu Grado en Administración y Dirección de Empresas
.es Módulo de Formación Básica

Enlaces de interés

Recursos en línea para los estudiantes de econometría:


http://www.oswego.edu/~kane/econometrics/stud_resources.htm

Para encontrar enlaces de páginas en Internet sobre econometría (vídeos, libros, revistas, datos,
congresos…) entrar en:
econometriclinks.com

Sociedad Internacional para el Avance de la teoría económica en su relación con las estadísticas y
matemáticas.
https://www.econometricsociety.org/

Para saber cómo ajustar modelos lineales en r entrar en:


https://stat.ethz.ch/R-manual/R-devel/library/stats/html/lm.html

Librería para ajustar modelos lineales generalizados en R:


https://cran.r-project.org/web/packages/glm2/glm2.pdf

69
Econometría I viu
6ECTS .es

70
viu Grado en Administración y Dirección de Empresas
.es Módulo de Formación Básica

Bibliografía

Referencias bibliográficas

Gujarati, D. N., & Porter, D. C. (2010). Econometría. 5º edición. MCGRAW-HILL. ISBN: 978-607-15-0294-0.

Johnston, J. (2001). Métodos de econometría. Ed. Vicens Vives. Barcelona. ISBN 84-316-6116-X.

Pampel, F. C. (2000). Logistic regression: A primer (Vol. 132). SAGE Publications. ISBN-13: 978-0761920106.

Peña D. (2000). Estadística. Modelos y Métodos (Vol. 2). Alianza Editorial. Madrid.

Uriel, E. (1990). Econometría: el modelo lineal. Ed. AC. Madrid. ISBN 84-7288-150-4.

Bibliografía recomendada

Aldrich, J. H., & Nelson, F. D. (1985). Linear probability, logit, and probit models (Vol. 45). SAGE Publications.
ISBN-13: 978-0803921337.

McCullagh, P., & Nelder, J. A. (1989).  Generalized linear models  (Vol. 37). Chapman and Hall/CRC
Monographs on Statistics & Applied Probability. ISBN 13: 978-0412317606.

Novales, A. (1996). Estadística y Econometría. McGraw-Hill, Madrid. ISBN: 9788448107987.

71
Agradecimientos

Autores
D.ª Patricia Carracedo Garnateo

Departamento de Recursos para el Aprendizaje


D.ª Carmina Gabarda López
D.ª Cristina Ruiz Jiménez
D.ª Sara Segovia Martínez

viu
Reservados todos los derechos VIU - 2018 ©. .es

También podría gustarte