Está en la página 1de 38

Tema 6

Estadística II

El caso particular de la
inferencia en el modelo
de regresión lineal
Índice
Esquema 3

Ideas clave 4
6.1. Introducción y objetivos 4
6.2. El modelo de regresión lineal simple 5
6.3. Estimación puntual: el método de los mínimos
cuadrados ordinario 10
6.4. Intervalo de confianza para la pendiente de la
recta de regresión poblacional 19
6.5. Contraste de hipótesis para la pendiente de la
© Universidad Internacional de La Rioja (UNIR)

recta de regresión poblacional 21


6.6. Predicciones 25
6.7. El modelo de regresión múltiple 26
6.8. Aplicación de las TIC 29

A fondo 34

Test 36
© Universidad Internacional de La Rioja (UNIR)

A N Á L I S I S D E R E G R E S I Ó N L I N E A L S I MP L E

HIPÓTESIS BÁSICAS
DEL MODELO

Estimación de los
parámetros

Coeficiente de Pendiente poblacional Predicciones


determinación
Intervalo de confianza. • Predicción de un valor
Contraste de hipótesis: concreto de Y.
• Estadístico t • Predicción para el
• Estadístico F promedio de Y.

Tema 6. Esquema
Estadística II
Esquema

3
Ideas clave

6.1. Introducción y objetivos

Hasta ahora hemos aplicado todas herramientas de inferencia estadística aprendidas


(estimación puntual, intervalos de confianza y contrastes de hipótesis) al análisis de
los parámetros de una población: media, varianza y proporción poblacional.

Vamos a estudiar en este tema un caso particular de aplicación de estas herramientas


sobre el modelo de regresión lineal el cual ya aprendiste a utilizar en Estadística I.
Como recordarás este modelo nos permite relacionar dos variables aleatorias y a
partir de la información muestral de ambas, y con la ayuda de inferencia estadística,
podremos hacer predicciones de los valores de estas variables.

Recordaremos en primer lugar este modelo y veremos cómo se va a realizar


inferencia estadística sobre este y, todavía más importante, cuál va a ser su utilidad.

Veamos un ejemplo. Supongamos que para cada trabajador disponemos de su


registro de productividad por hora y el salario por hora percibido. El interés último
del estudio de la relación entre estas dos variables será el de poder estimar el salario
que deberá percibir un trabajador en base a la productividad alcanzada por este,
siendo así sencilla y justa la asignación de retribuciones en base al resto de
trabajadores de la organización y sus diferentes niveles de productividad. Podrán ser
identificados además los trabajadores que para un mismo nivel de productividad
están percibiendo un salario mayor, pudiendo identificar cuales no están siendo
© Universidad Internacional de La Rioja (UNIR)

rentables para la empresa. Este tipo de análisis se realizan mediante el modelo de


regresión, sobre el cual vamos a aplicar la inferencia aprendida en temas anteriores
para calcular sus parámetros los cuales cuantifican la relación entre las variables X e
Y.

Estadística II
4
Tema 6. Ideas clave
Los objetivos de este tema son:
 Mostrar al alumno una aplicación concreta de las herramientas de inferencia
estadística aprendidas.
 Introducir al alumno en el cálculo e interpretación del análisis de regresión.
 Mostrar la posibilidad de realizar predicción de valores a partir del análisis de
regresión.
 Utilizar ejemplos cercanos para el alumno, del ámbito empresarial, que permitan
mostrar la aplicabilidad de la relación entre variables a partir de datos que puedan
resultar de su interés.

6.2. El modelo de regresión lineal simple

Definición del modelo de regresión lineal simple

En este apartado vamos a construir un modelo de regresión simple. Este modelo


establece una relación de dependencia lineal entre dos variables X e Y, de forma que
se analiza el comportamiento medio de la variable Y en función de los valores
conocidos de la variable X.

La variable Y recibe así el nombre de variable dependiente o explicada, y la variable


X recibe el nombre de variable independiente o explicativa (también se le puede
llamar variable regresora). Fíjate que estos nombres obedecen a que es la variable Y
la que siendo dependiente de X va a ser explicada en función de los valores que tome
X. De este modo en función de X podremos entender mejor el comportamiento de Y.
© Universidad Internacional de La Rioja (UNIR)

Veamos un ejemplo. Piensa que dispones del registro salarial de los trabajadores de
una empresa y que observas que hay diferencias entre estas retribuciones, ¿a qué
son debidas, nos podríamos preguntar? Conocidos los factores de los que depende
el salario (que serán la variable X) podré explicar el comportamiento de Y. De esta
manera si X son los años de educación, podremos decir que las diferencias salariales

Estadística II
5
Tema 6. Ideas clave
se deben a diferencias en la educación y podremos incluso estimando el modelo que
las relacionan cuantificar dicha relación, pudiendo indicar cuanto supone en términos
salariales un año más de educación.

El modelo lineal se escribe del siguiente modo:


𝑌𝑌 = 𝛽𝛽0 + 𝛽𝛽1 · 𝑋𝑋 + 𝜀𝜀

En esta ecuación vemos que la relación entre X e Y viene dada por dos valores los
cuales son desconocidos y sobre los cuales vamos a aplicar las técnicas de inferencia
estadística aprendidas. Estos coeficientes reciben el nombre de parámetros del
modelo de regresión lineal y son denotados como 𝛽𝛽0 y 𝛽𝛽1 . Fíjate que estamos
utilizando la ecuación de la recta por tanto el parámetro 𝛽𝛽0 está dando el punto de
corte y el parámetro 𝛽𝛽1 la pendiente de la ecuación de la recta (modelo de regresión
lineal).

Por otro lado, vemos en dicha ecuación que el modelo de regresión puede dividirse
en dos partes:
 Determinista: una parte lineal explicada por la variable X, es decir: 𝛽𝛽0 + 𝛽𝛽1 𝑋𝑋.

 Aleatoria: una parte no explicada linealmente por X, es decir: 𝜀𝜀 .

Te será fácil aprender esta metodología si recuerdas que se trata de un concepto ya


aprendiste en asignaturas anteriores, tales como Estadística I, donde este concepto
de regresión lineal fue visto como parte de análisis descriptivo de dos variables (o
análisis bidimensional) a partir de la recta de regresión del diagrama de dispersión.
No obstante, el término aleatorio no fue introducido en estadística descriptiva, lo
introducimos ahora para indicar que hay más factores que afectan al
comportamiento de Y, y que algunos factores se asumen aleatorios por no poder ser
© Universidad Internacional de La Rioja (UNIR)

observados.

Dicha recta se construye a partir de la nube de punto o diagrama de dispersión que


representa los valores conjuntos de(𝑥𝑥𝑖𝑖 , 𝑦𝑦𝑖𝑖 ), tal y como muestra la figura 1 del

Estadística II
6
Tema 6. Ideas clave
siguiente ejemplo para las variables importe de la cifra de negocio y precio de venta
del producto.

Ejemplo

Efecto de los precios sobre el importe neto de la cifra de negocios.

Se quiere analizar cuál es el efecto que el precio (en euros) de un


determinado producto genera sobre el importe neto de la cifra de
negocios (millones de euros) de la empresa que lo produce. Dicha
relación se fundamenta en que cabe esperar para bienes normales que
un aumento del precio de un determinado bien reduzca las ventas del
mismo, provocando así una caída del importe de las cifras de negocio.

El modelo que deberá especificarse para cuantificar dicha relación es el


siguiente:

𝑖𝑖𝑖𝑖𝑝𝑝𝑖𝑖 = 𝛽𝛽0 + 𝛽𝛽1 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑜𝑜𝑖𝑖 + ui

Con el objetivo de cuantificar la relación, se toma una muestra de N


empresas, por ello, el subíndice 𝑖𝑖 tomará valores desde 1 hasta N.

Los datos presentados a continuación permiten representar dicha


información por medio de un diagrama de dispersión o también llamado
nube de puntos donde tendremos representados cada par de elementos
de la muestra (precio, importe):

Tabla simple (Y, X)


Importe de la Precio
cifra de negocio
7 17
9 15
10 13
© Universidad Internacional de La Rioja (UNIR)

11 11
14 9
13,5 6
18 5

Estadística II
7
Tema 6. Ideas clave
Cuya representación bidimensional es la siguiente:

20
18
Importe de la cira de negocio (Y) 16
14
12
10
8
6
4
2
0
0 5 10 15 20
Precio (X)

Figura 1. Gráfico de dispersión o nube de puntos. (Elaboración propia).

Dada la representación de la información para las 7 empresas dadas, se


observa que un aumento del precio del bien provoque una caída en la
cifra de negocio de dicho producto. Así, cabe esperar que el coeficiente
que acompaña a la variable precio sea negativo, por tanto, decimos que
la relación entre estas dos variables es inversa.

Supuestos de partida para la construcción y estimación del modelo de


regresión lineal simple

Suelen realizarse los siguientes supuestos:

 Linealidad: la relación existente entre X e Y es lineal. Es preciso que tengan un

aspecto razonablemente recto para realizar el ajuste. La hipótesis de linealidad es


fundamental para realizar el ajuste a un modelo lineal.
© Universidad Internacional de La Rioja (UNIR)

 Homogeneidad: los términos de error 𝜀𝜀𝑖𝑖 son variables aleatorias con media cero,

𝐸𝐸(𝜀𝜀𝑖𝑖 ) = 0 para i= 1, 2,…, n. Que el valor promedio de los errores sea cero, implica
que el ajuste que se va a realizar está centrado respecto de los datos, luego cabe
esperar que la recta de regresión esté centrada en la nube de puntos de los datos.

Estadística II
8
Tema 6. Ideas clave
 Homoscedasticidad: las variables aleatorias 𝜀𝜀𝑖𝑖 es constante; tienen todas la misma

varianza, 𝑉𝑉(𝜀𝜀𝑖𝑖 ) = 𝜎𝜎𝜀𝜀2 para i= 1, 2,…, n.

 Independencia: las variables aleatorias 𝜀𝜀𝑖𝑖 no están correladas, E �𝜀𝜀𝑖𝑖 𝜀𝜀𝑗𝑗 � = 0 para

todo i ≠ j

 Normalidad: las variables aleatorias 𝜀𝜀𝑖𝑖 se distribuyen normalmente, 𝑁𝑁(0, 𝜎𝜎𝜀𝜀2 ).

Vemos visualmente en los gráficos presentados a continuación, que significa que


nuestros datos presenten homoscedasticidad frente a un caso de
heteroscedasticidad.

En la figura 2 se observa que, en el gráfico de la izquierda, la variabilidad existente en


lo datos es constante a lo largo de todo el gráfico. Sin embargo, en la figura de la
derecha vemos como esta crece a medida que crece el valor de las observaciones de
X, esto se conoce con el nombre de heteroscedasticidad.
(X 1 ,E6)
1 20 1

1 00 0 ,75
Pesos (kg)

Gastos

80 0,5 0

60 0,25

40 0
155 170 1 85 2 00 0 3 6 9
Alturas (cm) Ingresos (x 1 00000)

Figura 2. Homocedasticidad y Heterocedasticidad. (Elaboración propia).


© Universidad Internacional de La Rioja (UNIR)

Por tanto, y a modo resumen, diremos que la varianza de los errores constante
implica que la nube de puntos de los datos tiene una anchura semejante a lo largo de
la recta de regresión. Si su variabilidad no fuese constante se denomina
heteroscedasticidad. La hipótesis de independencia implica que una observación no
ofrece información sobre los valores de la siguiente.

Estadística II
9
Tema 6. Ideas clave
En este tema asumiremos que se verifican estos supuestos. La asignatura de
Econometría será el lugar para estudiarlos más a fondo y tratar diferentes tipos de
datos para los cuales no se puede mantener estos supuestos.

6.3. Estimación puntual: el método de los mínimos


cuadrados ordinario

Definido este modelo vamos a ver a continuación cómo aplicar las herramientas de
inferencia estadísticas aprendidas en temas anteriores sobre los parámetros del
modelo de regresión, 𝛽𝛽0 y 𝛽𝛽1 :

Veremos, por tanto:

 Cómo obtener estimaciones puntuales de estos parámetros en base a una

muestra.

 Cómo construir intervalos de confianza para los parámetros del modelo de

regresión lineal, con todo lo que ya sabemos que añade la construcción de estos
intervalos al cálculo de los estimadores puntuales.

 Cómo realizar contrastes de hipótesis asumiendo bajo la hipótesis nula

determinados valores para los parámetros del modelo de regresión lineal.


© Universidad Internacional de La Rioja (UNIR)

Estadística II
10
Tema 6. Ideas clave
El método de los mínimos cuadrados ordinario

El método de búsqueda del estimador puntual para los parámetros a estimar,


coeficientes de la recta de regresión, es el conocido como Método de Mínimos
Cuadrados Ordinarios (MCO) 1.

El estimador MCO es un procedimiento para determinar las fórmulas que dada una
muestra nos van a permitir aproximarnos a los valores reales de 𝛽𝛽0 y 𝛽𝛽1 .

Ejemplo

Efecto de los precios sobre el importe neto de la cifra de negocios


(continuación)

Sobre el ejemplo anterior puede ser estimada la recta de regresión sobre


la nube de puntos mostrada (Figura 3)

20
18
Importe de la cira de negocio (Y)

16
14
12
10
8
6
4
2
0
0 5 10 15 20
Precio (X)

Figura 3. Gráfico de dispersión o nube de puntos y recta de regresión. (Elaboración propia).

La recta punteada representa la recta de regresión realizada mediante la


© Universidad Internacional de La Rioja (UNIR)

metodología del ajuste Mínimos Cuadrados Ordinarios.

1
Ten en cuenta que las fórmulas utilizadas para los estimadores puntuales salen de determinados métodos de estimación. Uno
de ellos es el Método de los Mínimos Cuadrados Ordinarios. Otros métodos, simplemente para que te suenen, son el de Máxima
Verosimilitud (MV) y el de Método de los Momentos. No obstante, en temas anteriores hemos tomado las fórmulas de los
estimadores puntuales como dadas, simplemente comprobando que son adecuadas porque cumplen las propiedades deseables
de insesgadez y eficiencia y sin atender al método que permite obtenerlas.

Estadística II
11
Tema 6. Ideas clave
El procedimiento de los Mínimos Cuadrados Ordinarios asigna un valor a los
coeficientes 𝛽𝛽0 y 𝛽𝛽1 de forma que se minimizan las distancias entre los puntos, pares
de observaciones (𝑥𝑥𝑖𝑖 , 𝑦𝑦𝑖𝑖 ), y la recta de regresión. De manera que de todas las rectas
posibles que siguen la ecuación lineal 𝑦𝑦 = 𝑎𝑎 + 𝑏𝑏 · 𝑋𝑋, selecciona aquella recta que
hace mínimas las distancias de los datos a la recta. No es por tanto aleatoria la
ubicación de la recta de regresión en la nube de puntos, si no que obedece a este
criterio de minimización.

Dichas distancias de cada punto a la recta se conocen como errores de estimación y


la suma al cuadrado de todos ellos es lo que estamos minimizando. Esta suma recibe
el nombre de SCR (Suma Cuadrática Residual) y se define como sigue:
𝑛𝑛 𝑛𝑛

𝑆𝑆𝑆𝑆𝑆𝑆 = � 𝑒𝑒𝑖𝑖2 = �(𝑦𝑦𝑖𝑖 − 𝑦𝑦�𝑖𝑖 )2


𝑖𝑖=1 𝑖𝑖=1

donde𝑦𝑦�𝑖𝑖 serían los valores de 𝑦𝑦𝑖𝑖 sobre la recta de regresión (se denominan valores
ajustados).

Derivando la expresión anterior (puedes encontrar esto desarrollado en el recurso 1


de la sección «A fondo»), se obtienen los estimadores puntuales:

𝑆𝑆𝑥𝑥𝑥𝑥
� =
𝛽𝛽 1 𝑆𝑆𝑥𝑥2

𝛽𝛽̂0 = 𝑦𝑦� − 𝑏𝑏𝑥𝑥�

Ya aprendimos que el símbolo “^” sobre los parámetros significa que se trata de
estimadores puntuales. Es la forma de identificar que ya no consideramos el
parámetro si no el estimador puntual el cual es una variable aleatoria.
© Universidad Internacional de La Rioja (UNIR)

El concepto de la varianza residual

Dado que los errores son variables aleatorias, pues las distancias de cada punto 𝑦𝑦𝑖𝑖 a
la recta varían en función de la muestra, una medida interesante a conocer será la
varianza de los residuos la cual mostrará la dispersión que existe entre dichas

Estadística II
12
Tema 6. Ideas clave
distancias o errores (𝑒𝑒𝑖𝑖 ). Dicha varianza será estimada haciendo uso de la fórmula de
la varianza muestral con denominador 𝑛𝑛 − 2 ya que utilizar el denominador n dará
como resultado un estimador sesgado.

Un estimador insesgado de la varianza de los errores es la varianza residual:

∑𝑛𝑛𝑖𝑖=1 𝑒𝑒i2 ∑𝑛𝑛𝑖𝑖=1(𝑦𝑦𝑖𝑖 − 𝑦𝑦�𝑖𝑖 )2


𝑉𝑉𝑉𝑉𝑉𝑉(𝑒𝑒𝑖𝑖 ) = =
𝑛𝑛 − 2 𝑛𝑛 − 2

Vemos que dicha varianza estimada coincide con el cociente entre la SCR y n-2:
𝑆𝑆𝑆𝑆𝑆𝑆
𝑆𝑆𝑒𝑒2 =
𝑛𝑛 − 2

Otra posible fórmula para la estimación de la varianza del error es:


𝑛𝑛 · (𝑆𝑆𝑦𝑦2 − 𝑏𝑏 2 𝑆𝑆𝑥𝑥2 )
𝑆𝑆𝑒𝑒2 =
𝑛𝑛 − 2
Ejemplo

Efecto de los precios sobre el importe neto de la cifra de negocios


(continuación).

Vamos en este ejemplo a obtener los valores de los coeficientes


estimados que serán los que definan la recta puntuada mostrada en la
figura 2.

Realizamos una serie de cálculos previos antes de pasar a aplicar las


fórmulas de los estimadores puntuales:
© Universidad Internacional de La Rioja (UNIR)

Estadística II
13
Tema 6. Ideas clave
Importe de
Observaciones la cifra de Precio (X) Y^2 X^2 XY
negocio (Y)
1 7 17 49 289 119
2 9 15 81 225 135
3 10 13 100 169 130
4 11 11 121 121 121
5 14 9 196 81 126
6 13,5 6 182,25 36 81
7 18 5 324 25 90
Sumatorios 82,5 76 1053,25 946 802
Medias 11,7857 10,8571 150,4642 135,1428 114,5714
Varianzas 11,5612 17,2653
Covarianza -13,3877

Ahora aplicamos las fórmulas de los estimadores:


𝑠𝑠𝑥𝑥𝑥𝑥 13,3877
𝛽𝛽̂1 = =− = −0,7754
𝑠𝑠2𝑥𝑥 17,2653

𝛽𝛽̂0 = 𝑌𝑌� − 𝛽𝛽1 · 𝑋𝑋


� = 20,2047

Por tanto, el modelo de regresión lineal:𝑦𝑦�𝑖𝑖 = 20,2047 + (−0,7754) · 𝑥𝑥𝑖𝑖

20
18
16
14
12 y = -0,7754x + 20,204

10
8
6
4
2
0
0 5 10 15 20

Figura 3. Ecuación de la recta de regresión calculada con Excel. (Elaboración propia).


© Universidad Internacional de La Rioja (UNIR)

¿Cómo se interpreta?

Si la variable x=0, la cifra de negocios tendría un valor esperado de -


20,2047 milones de euros.

Estadística II
14
Tema 6. Ideas clave
El aumento en el precio en 10 euros, x=10, cabría esperar una caída de la
cifra de negocios de 7,754 millones de euros.

Se podría calcular la varianza residual calculando los residuos y después


aplicando la fórmula:

Importe de valores
errores al
Observaciones Precio (X) la cifra de ajustados errores
cuadrado
negocio (Y) de Y
1 17 7 7,022 -0,022 0,001
2 15 9 8,573 0,427 0,182
3 13 10 10,124 -0,124 0,015
4 11 11 11,675 -0,675 0,456
5 9 14 13,226 0,774 0,599
6 6 13,5 15,552 -2,052 4,211
7 5 18 16,327 1,673 2,798
Sumatorios 76 82,5 82,500 0,000 8,261

La varianza residual dado que hemos calculado que SCR=8,2612 será:

8,2612
𝑆𝑆𝑒𝑒2 = = 1,6527
7−2

Podríamos aplicar la fórmula corta:


𝑛𝑛 · (𝑆𝑆𝑦𝑦2 − 𝑏𝑏 2 · 𝑆𝑆𝑥𝑥2 ) 7 · (11,5612 − (−0,7754)2 · 17,2653)
𝑆𝑆𝑒𝑒2 = = = 1,6527
𝑛𝑛 − 2 7−2

Estos cálculos ya aprendiste a hacerlos en Estadística I, lo único nuevo que


hemos hecho aquí es llamar a estas fórmulas que ya conocías Estimadores
puntuales de los parámetros (coeficientes) del modelo de regresión.

En el recurso 2 de la sección A fondo puedes consultar un estudio con datos reales


en el cual se construye un modelo de regresión simple para explicar los factores
© Universidad Internacional de La Rioja (UNIR)

determinantes en el gasto en el servicio de residuos sólidos urbanos en España.

Estadística II
15
Tema 6. Ideas clave
Capacidad explicativa de la regresión lineal. Bondad de ajuste

La medida de la bondad de ajuste que vamos a utilizar se deriva de las propiedades


del ajuste MCO.

Introduzcamos primero algunas definiciones:

 Suma Cuadrática Total (SCT):


𝑁𝑁

𝑆𝑆𝑆𝑆𝑆𝑆 = �(𝑦𝑦𝑖𝑖 − 𝑦𝑦�)2


𝑖𝑖=1

 Suma Cuadrática Explicada (SCE):


𝑁𝑁

𝑆𝑆𝑆𝑆𝑆𝑆 = �(𝑦𝑦�𝑖𝑖 − 𝑦𝑦�)2


𝑖𝑖=1

 Suma Cuadrática Residual (SCR):


𝑁𝑁

𝑆𝑆𝑆𝑆𝑆𝑆 = � e2i
𝑖𝑖=1

La SCT mide la variabilidad en la muestra de la variable dependiente 𝑦𝑦, la SCE mide la


variabilidad de los valores estimados 𝑦𝑦�, y la SCR mide la variabilidad de los residuos
(𝑒𝑒). Fíjate que coinciden con el numerador de la varianza de cada caso.

Estos tres valores son siempre no negativos y están relaciones entre sí mediante la
expresión:
𝑆𝑆𝑆𝑆𝑆𝑆 = 𝑆𝑆𝑆𝑆𝑆𝑆 + 𝑆𝑆𝑆𝑆𝑆𝑆
© Universidad Internacional de La Rioja (UNIR)

 Medida de bondad de ajuste

La medida de la bondad de ajuste viene dada por cuán próximo sea la variabilidad de
los valores estimados a la variabilidad de los valores observados de la variable

Estadística II
16
Tema 6. Ideas clave
dependiente. Cuanto más próximo sea SCE a SCT mejor será el ajuste y mejor diremos
que explicará la variable X la variabilidad o comportamiento de la variable Y.

Para proporcionar un valor numérico que nos indique el grado de ajuste, siempre que
SCT sea distinta de cero, que es equivalente a que los valores observados de la
variable dependiente no son todos iguales, hacemos la siguiente transformación:

𝑆𝑆𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆
1= +
𝑆𝑆𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆

𝑆𝑆𝑆𝑆𝑆𝑆
Como cometamos anteriormente, cuanto más próximo a 1 sea el ratio mejor será
𝑆𝑆𝑆𝑆𝑆𝑆

el grado de ajuste. Por lo tanto, nuestra medida de la bondad de ajuste, que


denotamos como 𝑅𝑅2 y denominamos coeficiente de determinación vendrá dado por:

𝑆𝑆𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆
𝑅𝑅2 = =1−
𝑆𝑆𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆

El coeficiente de determinación también puede ser calculado como el coeficiente de


correlación entre X e Y al cuadrado:

2
𝑆𝑆𝑋𝑋𝑋𝑋 2
𝑅𝑅 = � �
𝑆𝑆𝑋𝑋 · 𝑆𝑆𝑌𝑌
© Universidad Internacional de La Rioja (UNIR)

Estadística II
17
Tema 6. Ideas clave
Ejemplo

Efecto de los precios sobre el importe neto de la cifra de negocios


(continuación)

Utilizamos los cálculos anteriores:

Importe de
Observaciones la cifra de Precio (X) Y^2 X^2 XY
negocio (Y)
1 7 17 49 289 119
2 9 15 81 225 135
3 10 13 100 169 130
4 11 11 121 121 121
5 14 9 196 81 126
6 13,5 6 182,25 36 81
7 18 5 324 25 90
Sumatorios 82,5 76 1053,25 946 802
Medias 11,7857143 10,8571429 150,464286 135,142857 114,571429
Varianzas 11,5612245 17,2653061
Desviaciones
3,40018007 4,15515416
típicas
Covarianza -13,3877551

Ahora aplicamos las fórmulas de los estimadores:

2
−13,387 2
𝑅𝑅 = � � = 0,898
3,4 · 4,15
Interpretación: Lo que nos está indicando que el modelo definido por la
relación lineal entre las variables explica un 89,8 % de la variabilidad
registrada por la variable dependiente. Esto es, los cambios percibidos
por la variable dependiente vienen explicados por la variable
independiente en un 89,8 % sobre 100 %.
© Universidad Internacional de La Rioja (UNIR)

Estadística II
18
Tema 6. Ideas clave
6.4. Intervalo de confianza para la pendiente de la
recta de regresión poblacional

Hemos visto hasta ahora estimaciones puntuales de los coeficientes de regresión.


Vamos ahora a calcular intervalos de confianza para obtener una medida de la
precisión de dichas estimaciones que complemente a la estimación puntual de 𝛽𝛽0 y
𝛽𝛽1 anteriormente definida.

Varianza de la estimación de la pendiente de la regresión

Necesitamos en primer lugar definir el error de estimación el cual se definirá a partir


de la varianza del coeficiente estimado:

Puede definirse fácilmente (no veremos demostración) cuál es la varianza de la


pendiente de la regresión, la cual será necesaria para poder hacer inferencias sobre
los parámetros de la recta de regresión.

En concreto definimos un estimador para su desviación típica o también denominada


error estándar (se) de 𝛽𝛽1 :

2
�̂ ) = � 𝑆𝑆𝑒𝑒
𝑠𝑠𝑠𝑠�𝛽𝛽̂1 � = �𝑉𝑉𝑉𝑉𝑉𝑉(𝛽𝛽1
𝑛𝑛 · 𝑆𝑆𝑥𝑥2

Nota: Ten en cuenta que la fórmula que te habíamos proporcionado con


denominador (n-1) debía contener el estimador insesgado de la varianza, 𝑆𝑆̂𝑥𝑥2 , y
© Universidad Internacional de La Rioja (UNIR)

nosotros en ningún punto de este tema hemos utilizado los estimadores insesgados
de la varianza porque es así como Gretl lo calcula y para que nos coincida con sus
resultados. Esto puede hacerse porque en Econometría se trabaja con muestras muy
grandes, y por tanto no tiene relevancia con ese tamaño muestral el uso de una u

Estadística II
19
Tema 6. Ideas clave
otra. Sin embargo, si en el formulario de examen te aparece con (n-1) no tiene
relevancia, y lo tenemos en cuenta.

Construcción del intervalo de confianza para 𝛽𝛽1

Sea (𝑥𝑥1 , 𝑦𝑦1 ), (𝑥𝑥2 , 𝑦𝑦2 ),…, (𝑥𝑥𝑛𝑛 , 𝑦𝑦𝑛𝑛 ) una muestra de n pares de observaciones de un
proceso cuya recta de regresión poblacional es 𝑌𝑌𝑖𝑖 = 𝛽𝛽0 + 𝛽𝛽1 · 𝑋𝑋𝑖𝑖 + 𝜀𝜀𝑖𝑖

Si los errores de la regresión 𝜀𝜀𝑖𝑖 tienen distribución normal y se verifican los supuestos
de linealidad, homogeneidad, homocedasticidad e independencia, entonces un
intervalo de confianza del 100(1-α) % para la pendiente b de la recta de regresión
poblacional es:

�𝛽𝛽̂1 ∓ 𝑡𝑡𝑛𝑛−2;𝛼𝛼 · 𝑠𝑠𝑠𝑠�𝛽𝛽̂1 ��


2

Dado que el modelo de distribución de la pendiente del modelo de regresión es una


t-student con n-2 grados de libertad.

Ejemplo

Efecto de los precios sobre el importe neto de la cifra de negocios


(continuación).

Vamos ahora a calcular un intervalo de confianza para la pendiente


poblacional a un nivel de confianza de 95 %.

Retomamos los siguientes cálculos obtenidos:

𝑦𝑦�𝑖𝑖 = 20,204 − 0,775 · 𝑥𝑥𝑖𝑖 ; 𝑠𝑠𝑒𝑒2 = 1,652


© Universidad Internacional de La Rioja (UNIR)

𝑛𝑛

� 𝑥𝑥12 = 946; 𝑋𝑋� = 10,86


𝑖𝑖=1

Estadística II
20
Tema 6. Ideas clave
𝑠𝑠𝑒𝑒2 1,652 1,652
𝑠𝑠𝑠𝑠�𝛽𝛽̂1 � = � =� =�
(𝑛𝑛 − 1) · 𝑆𝑆̂𝑥𝑥
2 (7 − 1) · 20,14286 120,8571
= 0,1169
𝑡𝑡𝛼𝛼,𝑛𝑛−2 = 𝑡𝑡0,025; ,5 = 2,5706
2

Intervalo de confianza para la pendiente:

�𝛽𝛽̂1 ∓ 𝑡𝑡𝑛𝑛−2;𝛼𝛼 · 𝑠𝑠𝑠𝑠�𝛽𝛽̂1 �� = (−0,775 ∓ 2,5706 · 0,1169) =


2

= (−0,775 ∓ 0,3005) = (−1,0755; −0,4745)

Vemos en el ejemplo anterior como hemos obtenido un intervalo de valores para la


estimación de la pendiente del modelo de regresión, coeficiente 𝛽𝛽1 .

Adicionalmente podríamos obtener el IC para el punto de corte, coeficiente 𝛽𝛽0 ,


teniendo en cuenta que:
2 2
�̂ ) = 𝑠𝑠𝑒𝑒 · 𝑥𝑥̅
𝑉𝑉𝑎𝑎𝑎𝑎(𝛽𝛽0
𝑛𝑛 · 𝑆𝑆𝑥𝑥2
∑𝑛𝑛 2
𝑖𝑖=1 𝑥𝑥𝑖𝑖
�2 =
Donde 𝑥𝑥 .
𝑛𝑛

Nota: igual que antes hemos cambiado el denominador para poder utilizar la varianza
muestral, poniendo n en sustituición de (n-1) como estaba anteriormente.

6.5. Contraste de hipótesis para la pendiente de la


recta de regresión poblacional
© Universidad Internacional de La Rioja (UNIR)

Vamos ahora como último paso de la inferencia sobre el modelo de regresión a


realizar contrastes de hipótesis sobre sus parámetros. Recuerda que los contrastes
de hipótesis utilizaban la información muestral para validar determinadas hipótesis o
afirmaciones realizadas directamente sobre los parámetros, en este caso los
coeficientes del modelo de regresión.

Estadística II
21
Tema 6. Ideas clave
Para realizarlos necesitamos suponer que existe normalidad en los errores del
modelo (término de error de la recta de regresión, parte aleatoria). De este modo,
siendo considerados los estimadores puntuales como variables aleatorias, estos
también tendrán una distribución normal con media y varianza calculadas en el punto
anterior, y que pasamos a recordar:

 Media de los coeficientes:

𝐸𝐸�𝛽𝛽̂𝑗𝑗 � = 𝛽𝛽𝑗𝑗 ; 𝑗𝑗 = 0, 1

 Varianza de los coeficientes del modelo:

2
�̂ ) = � 𝑆𝑆𝑒𝑒
𝑠𝑠𝑠𝑠𝑠𝑠�𝛽𝛽̂1 � = �𝑉𝑉𝑉𝑉𝑉𝑉(𝛽𝛽1
𝑛𝑛 · 𝑆𝑆𝑥𝑥2

𝑆𝑆𝑒𝑒2 · 𝑥𝑥̅ 2
𝑠𝑠𝑠𝑠�𝛽𝛽̂0 � = �
𝑛𝑛 · 𝑆𝑆𝑥𝑥2

Entonces, si los errores de la recta de regresión cumplen el supuesto de distribución


normal y se verifican todos los supuestos del modelo, definidos en el apartado 6.2
(linealidad, homogeneidad, homoscedasticidad e independencia), entonces los
siguientes contrastes tienen un nivel de confianza (1 − 𝛼𝛼) · 100 % y serán realizados
tal y como pasamos a especificar:

1. Hipótesis:

CONTRASTE BILATERAL CONTRASTE UNILATERAL


Cola derecha Cola izquierda
𝐻𝐻0 : 𝛽𝛽 = 𝛽𝛽0 𝐻𝐻0 : 𝛽𝛽 ≤ 𝛽𝛽0 𝐻𝐻0 : 𝛽𝛽 ≥ 𝛽𝛽0
© Universidad Internacional de La Rioja (UNIR)

𝐻𝐻1 : 𝛽𝛽 ≠ 𝛽𝛽0 𝐻𝐻1 : 𝛽𝛽 > 𝛽𝛽0 𝐻𝐻1 : 𝛽𝛽 < 𝛽𝛽0

Estadística II
22
Tema 6. Ideas clave
2. Supuestos:

Se trata de una muestra aleatoria simple de observaciones independientes. La


población se distribuye normalmente.

3. Estadístico de contraste:

𝛽𝛽̂ − 𝛽𝛽0
𝑡𝑡 =
𝑠𝑠𝑠𝑠(𝛽𝛽̂)
El estadístico de contraste se distribuye como una t-student con n-2 grados de
libertad.

4. Criterio de decisión: Dada la distribución del estadístico de contraste se tiene las


siguientes zonas de rechazo:
Opción 1: se rechazará la hipótesis nula si:
C.B.: |𝑡𝑡| > 𝑡𝑡𝑛𝑛−2;𝛼𝛼
2

C.U.D.: 𝑡𝑡 > 𝑡𝑡𝑛𝑛−2; 𝛼𝛼


C.U.I.: 𝑡𝑡 < −𝑡𝑡𝑛𝑛−2; 𝛼𝛼

Opción 2: se rechaza la hipótesis nula si p-valor <α, donde:


C.B.: 𝑝𝑝 − 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣 = 2 · 𝑃𝑃(𝑡𝑡𝑛𝑛−2 > |𝑡𝑡|)
C.U.D.: 𝑝𝑝 − 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣 = 𝑃𝑃(𝑡𝑡𝑛𝑛−2 > 𝑡𝑡)
C.U.I.: 𝑝𝑝 − 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣 = 𝑃𝑃(𝑡𝑡𝑛𝑛−2 < 𝑡𝑡)

5. Interpretación de los resultados:

A partir de la decisión tomada en el apartado anterior, interpretar a un nivel de


confianza de 100(1 − 𝛼𝛼) %.
© Universidad Internacional de La Rioja (UNIR)

Contraste de significatividad de la pendiente

Un caso especial de interés práctico sobre la pendiente es cuando el valor postulado


en la hipótesis nula es cero, es decir, contrastar la hipótesis nula de que la pendiente

Estadística II
23
Tema 6. Ideas clave
es cero llegando en caso de que sea cierta a afirmar que la variable X no es
significativa, o bien, la alternativa pendiente distinta de cero y así la variable X si es
significativa.

𝐻𝐻 : 𝛽𝛽 = 0
Hipótesis: � 0 1
𝐻𝐻1 : 𝛽𝛽1 ≠ 0

Ejemplo

Efecto de los precios sobre el importe neto de la cifra de negocios


(continuación).

Utilizando el ejemplo anterior y los resultados obtenidos, vamos a


contrastar si el precio tiene efecto sobre la cifra de negocios. Este tipo de
contraste recibe el nombre de contraste de significatividad y el parámetro
que acompaña a la variable será enfrentado en las hipótesis al valor 0.

Hipótesis:
𝐻𝐻0 : 𝛽𝛽1 = 0
𝐻𝐻1 : 𝛽𝛽1 ≠ 0

Estadístico de contraste:
𝛽𝛽̂1 − 𝛽𝛽0 −0,775
𝑡𝑡 = = = −6,6296
𝑠𝑠𝑠𝑠(𝛽𝛽̂1 ) 0,1169

Criterio de decisión:

Se obtiene un valor muy grande de t, lo que da indicios de que el valor de


𝛽𝛽̂ según la muestra dada está alejado de cero. Aun así, aplicamos el
criterio de decisión el cual nos dice que para una t-student con 5 grados
de libertad al 5% de significatividad 2 toma un valor de 2,5706 ( 𝑡𝑡𝛼𝛼,𝑛𝑛−2 =
2
𝑡𝑡0,025; ,5 = 2,5706).
© Universidad Internacional de La Rioja (UNIR)

Conclusión del contraste:

2
Ten en cuenta que al tratarse de un contraste bilateral tomaremos 2,5% en cada cola.

Estadística II
24
Tema 6. Ideas clave
Vemos por tanto que nuestro estadístico cae en la región de rechazo (cola
izquierda, −6,6296 < −2,5706), por lo que se Rechaza la hipótesis nula
concluyendo que la variable precio sí tiene efecto sobre la cifra de
negocio al ser su coeficiente distinto de cero.

Contraste de significatividad de la regresión

En los casos que aquí están siendo analizados, al tener el modelo un único regresor
(variable explicativa) lo que denominamos el contraste de significatividad de la
regresión coincide con el contraste de significatividad de la pendiente (siendo la
variable a la que acompaña la única variable del modelo).

Estos modelos con un único regresor o variable explicativa se conocen como modelos
de regresión lineal simple.

En el tema 7 vamos a analizar el caso de modelos de regresión múltiples, donde


aparece más de un regresor o variable explicativa y vamos a analizar cómo se lleva a
cabo el contraste de significatividad de la regresión donde habrá que analizar si
conjuntamente las variables explicativas del modelo son significativas.

𝐻𝐻0 : 𝛽𝛽1 = 𝛽𝛽2 = ⋯ = 𝛽𝛽𝑘𝑘 = 0


Hipótesis: �
𝐻𝐻1 : 𝛽𝛽𝑗𝑗 ≠ 0 para algún j = 1, … k

6.6. Predicciones

Hablamos de predicciones en el contexto del modelo de regresión para referirnos a


© Universidad Internacional de La Rioja (UNIR)

los valores estimados de y cuando es conocido un valor de X. De este modo podremos


dar valores a la X y estimar (predecir) cual es el valor de Y que, según nuestro modelo
estimado, se corresponde con el valor conocido del regresor X.

Estadística II
25
Tema 6. Ideas clave
Ejemplo

Efecto de los precios sobre el importe neto de la cifra de negocios


(continuación)

Dada la recta de regresión calculada para este ejemplo:


𝑦𝑦�𝑖𝑖 = 20,204 − 0,775 · 𝑥𝑥𝑖𝑖

¿Cuál es el importe de la cifra de negocio si el precio del producto es de


20 euros?
𝑦𝑦�𝑖𝑖 = 20,2047 − 0,7754 · 20 = 4,6967 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑𝑑𝑑 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒

Si nuestra empresa fija un precio de 20 euros la cifra de negocio que se


estima tendrá es de 4,6967 millones de euros.

Además de estos valores puntuales de las estimaciones dado un valor de X, es posible


conocido el error de la predicción construir intervalos de confianza para tales
predicciones, simplemente haciendo uso de la estimación y su error estándar y
siguiendo la metodología de intervalos de confianza. No obstante, este tema, al igual
que otros de mayor calado sobre los modelos de regresión, serán materia de la
asignatura de Econometría.

6.7. El modelo de regresión múltiple

Definición y construcción de un modelo de regresión múltiple

Nos referimos a un modelo de regresión múltiple cuando nuestro modelo de


regresión lineal incorpora más de un regresor o variable explicativa. Estos modelos
© Universidad Internacional de La Rioja (UNIR)

son más realistas que los definidos en el tema anterior, donde se introdujo el modelo
de regresión lineal simple, ya que es de esperar que la variable Y venga explicada y
por tanto su comportamiento dependa de más de una variable explicativa.

Estadística II
26
Tema 6. Ideas clave
Ejemplo

Ejemplos de modelos múltiples de regresión

La cifra de negocios de una empresa es mucho más realista estudiarla en


función de varios represores tales como el precio, el precio de la
competencia, el sector en el que opera, la cifra de negocios del año
anterior, ….

Otro ejemplo de la necesidad del análisis de regresión múltiple seria


explicar la remuneración de los puestos directivos en las empresas en
función de las características del individuo que lo ocupa, edad, titulación,
años de experiencia, etc., del puesto analizado, nº de personas que
dependen del puesto, nivel jerárquico, etc. y de la empresa, sector,
tamaño beneficios, etc.

Supongamos que estamos interesados en analizar la relación lineal que existe entre
una variable dependiente Y y k variables independientes 𝑋𝑋1 , 𝑋𝑋2 ,..., 𝑋𝑋𝑘𝑘 . Si las variables
independientes toman valores 𝑥𝑥1 , 𝑥𝑥2 ,..., 𝑥𝑥𝑘𝑘 en una muestra determinada entonces,
la regresión múltiple expresa puede escribirse como:
𝑌𝑌𝑖𝑖 = 𝛼𝛼 + 𝛽𝛽1 𝑥𝑥1𝑖𝑖 + 𝛽𝛽2 𝑥𝑥2𝑖𝑖 + ⋯ + 𝛽𝛽𝑘𝑘 𝑥𝑥𝑘𝑘𝑘𝑘 + 𝜀𝜀𝑖𝑖

donde:

 𝑌𝑌𝑖𝑖 es el valor de la variable dependiente en individuo i-ésimo. También se le llama

variable explicada o valor respuesta.

 𝑋𝑋𝑖𝑖𝑖𝑖 es el valor de la variable independiente j-ésima para el individuo i-ésimo donde

j=1, ... k, siendo k el número de variables independientes que se introducen en el


modelo. También se les llama regresores del modelo o variables explicativas.
© Universidad Internacional de La Rioja (UNIR)

 𝛽𝛽𝑗𝑗 son los coeficientes de modelo para la j-ésima variable explicativa donde j=1, ...

k, siendo k el número de variables explicativas.

Estadística II
27
Tema 6. Ideas clave
 𝜀𝜀𝑖𝑖 mide el efecto que producen sobre la respuesta las variables que no están

incluidas en el modelo. Es el término de error o perturbación.

Las variables dependiente e independiente son observadas; los coeficientes


son parámetros que van a ser estimados; los errores son no observables y por
lo tanto constituyen un componente aleatorio sobre el que formulamos una
serie de supuestos.

Interpretación de los coeficientes del modelo

𝛽𝛽0 es la ordenada en el origen o constante de regresión y se interpreta como el valor


promedio de la variable dependiente (Y) debido al efecto de las variables que no han
sido consideradas en el modelo. Como en regresión simple, no siempre tiene sentido
su interpretación.

𝛽𝛽𝑗𝑗 para j=1, 2, ..., k, son los coeficientes de regresión parcial y miden la variación de
la variable dependiente Y por cada cambio unitario en Xi, manteniendo constantes
las demás variables independientes. Mide el efecto marginal que produce un
aumento unitario en 𝑋𝑋𝑗𝑗 cuando el resto de regresores permanecen constantes.

Ejemplo

Una entidad bancaria desea realizar previsiones sobre los recursos ajenos
o pasivo de clientes que captan sus distintas oficinas y en un estudio
previo se considera que el pasivo (en miles de euros) de una sucursal
depende del número de personas que residen en el área de influencia de
la oficina (en miles) y del número de oficinas próximas de otros bancos.
© Universidad Internacional de La Rioja (UNIR)

El modelo estimado presenta el siguiente valor para los coeficientes:

𝑦𝑦� = −20,95 + 1,22𝑥𝑥1 + 1,13𝑥𝑥2

Interpretación:

Estadística II
28
Tema 6. Ideas clave
Si la población y los bancos toman el valor cero, el pasivo sería de -20.950
euros, lo cual no tiene sentido su interpretación.

Si se incrementa la población en 1.000 personas, manteniendo la variable


bancos constante, el incremento por término medio del pasivo es de
1.220 euros.

Si se incrementa los bancos en 10, manteniendo la población constante,


el pasivo se incrementa por término medio, en 11.300 euros.

La estimación del modelo de regresión múltiple es materia de la asignatura de


Econometría, por tanto, será en ella donde aprenderás a estimar los coeficientes de
este modo (estimación puntual sobre el modelo de regresión múltiple) así como
también verás intervalos de confianza y contrastes de hipótesis en el modelo
múltiple. También estudiarás los supuestos en los que se basa tanto la construcción
de los modelos de regresión múltiple y la inferencia sobre él, y verás cuáles serán los
efectos del incumplimiento de dichos supuestos.

6.8. Aplicación de las TIC

Análisis de regresión con Excel

Los gráficos mostrados a lo largo de este tema (figura 1 a 3) han sido creados con
Excel, el cual además de representar la nube de puntos (diagrama de dispersión) nos
permite introducir en el gráfico la recta de regresión, así como la ecuación de la
misma, proporcionándonos así la estimación MCO.
© Universidad Internacional de La Rioja (UNIR)

Para ello debemos introducir los datos en Excel indicando en una primera columna
los valores de X y en una segunda columna los de Y. De este modo al insertar un
Gráfico “diagrama de dispersión” Excel tomará los puntos (x, y) representando los
valores de X en el eje de abscisas y de Y en el eje de ordenadas, tal y como mostramos
en la figura 1 del apartado 6.2.

Estadística II
29
Tema 6. Ideas clave
Una vez construido el diagrama de dispersión, debemos pedirle a Gretl que nos dibuje
la recta de regresión y en las opciones de esta que nos indique la ecuación y el
coeficiente de determinación.

Uso de Gretl para la estimación del modelo de regresión

Introducción de la base de datos en el software

Lo primero que debemos hacer para trabajar en Gretl es aprender a cargar el


conjunto de datos con el que vamos a trabajar. Para ello debes acceder a «Archivo
en Gretl» y seleccionar una de las tres opciones siguientes:

 Crear nuevo conjunto de datos introduciendo los datos de forma manual:

«Archivo»  «Nuevo conjunto de datos» (completar la información


solicitada)

 Cargar un fichero previamente preparado en Excel:

«Archivo»  «Abrir archivo de datos»  «Archivo de usuario»

 Utilizar una base de datos previamente creada de las que el programa nos facilita

(es esta opción la que vamos a utilizar para trabajar en este taller y tener así
diferentes bases de datos listas con las que trabajar).
«Archivo»  «Abrir archivo de prueba»

Estimación MCO del modelo de regresión

Cargar datos y hacer regresiones con Gretl es muy sencillo, ya que solo debes pulsar
© Universidad Internacional de La Rioja (UNIR)

los botones apropiados para poder hacerlo.

Para llevar a cabo la regresión MCO accederemos al menú principal a las opciones:
«Modelo»  «Mínimos cuadrados ordinarios»

Estadística II
30
Tema 6. Ideas clave
Deberán a continuación definirse las variables X e Y.

Podemos utilizar las opciones que aparecen en el nuevo menú principal de la tabla
del modelo:

 Archivo:

• Guardar la sesión como icono.

 Editar:

• Modificar el modelo.
• Valores estimados.

 Gráficos:

• Gráficos de residuos.
• Gráficos de la variable estimada y observada.

 Análisis:

• Mostrar variable observada, estimada, residuos.


• Matriz de covarianzas de los. Coeficientes.

 Guardar:

• Residuos.
• Valores estimados.

En el recurso 4 de la sección A fondo dispones de un interesante recurso para


empezar a practicar con Gretl al tiempo que repasas los conceptos aquí aprendidos.
Este manual te será muy útil para cursos futuros así que no lo pierdas de vista.
© Universidad Internacional de La Rioja (UNIR)

Te recordamos que al igual que ocurría con otros cálculos en Gretl, los output de
resultados que ahora vas a obtener contienen todos los valores expresados bajo el

Estadística II
31
Tema 6. Ideas clave
criterio anglosajón de fijación de decimales, esto es, se indican los decimales
mediante un punto y no se utiliza separador de miles.

Vemos a continuación los resultados en Gretl del ejemplo que hemos ido
desarrollando a lo largo del tema.

Ejemplo

Efecto de los precios sobre el importe neto de la cifra de negocios


(continuación)

Recordamos el modelo que venimos utilizando:

𝑖𝑖𝑖𝑖𝑝𝑝𝑖𝑖 = 𝛽𝛽0 + 𝛽𝛽1 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑜𝑜𝑖𝑖 + ui

Con el objetivo de cuantificar la relación, se toma una muestra de N


empresas, por ello, el subíndice 𝑖𝑖 tomará valores desde 1 hasta N.

Los datos presentados a continuación y estos deben ser pasados a Gretl


manualmente con la opción:

Archivo  Nuevo conjunto de datos

Tabla Simple (X; Y)


Precio Importe de la cifra de negocio
17 7
15 9
13 10
11 11
9 14
6 13,5
© Universidad Internacional de La Rioja (UNIR)

5 18

La tabla output que nos da Gretl con todos los resultados calculados en el
ejemplo a lo largo de este tema es la siguiente:

Estadística II
32
Tema 6. Ideas clave
© Universidad Internacional de La Rioja (UNIR)

Tema 6. Ideas clave


Estadística II
33
A fondo
Formulario para el modelo de regresión

En este recurso podrás encontrar en formato PDF un formulario para el modelo de


regresión.

El documento está disponible en el aula virtual

Gasto Municipal por el servicio de residuos sólidos urbanos

Bel, G. (2006). Gasto Municipal por el servicio de residuos sólidos urbanos. Revista de
economía aplicada, 41 (vol. XIV), 5-32.

Este artículo presenta de forma simplificada un modelo de regresión lineal simple


para explicar los factores determinantes en el gasto en el servicio de residuos sólidos
urbanos en España. Presta especial atención a la descripción de la variable
dependiente y las variables explicativas, el modelo estimado y la tabla 5 con los
resultados de la estimación.

Accede al documento a través del aula virtual o desde la siguiente dirección web:
http://www.revecap.com/revista/numeros/41/pdf/bel.pdf
© Universidad Internacional de La Rioja (UNIR)

Estadística II
34
Tema 6. A fondo
Econometría básica aplicada a Gretl

Esteban, M. V. et al. (2009). Econometría básica aplicada con Gretl. EHU/UPV: Sarriko-on

Se trata de un interesante manual el cual te permitirá familiarizarte con Gretl al


tiempo que estudias los conceptos de este tema. Está redactado de modo sencillo
con ejemplos reales que te van guiando paso a paso por la teoría y por el uso del
software Gretl. Puedes consultar los capítulos 2 y 3.

Accede al documento a través del aula virtual o desde la siguiente dirección web:
http://www.et.bs.ehu.es/~etpesgov/VirtualCompleto.pdf
© Universidad Internacional de La Rioja (UNIR)

Estadística II
35
Tema 6. A fondo
Test
1. En el modelo de regresión 𝑌𝑌 = 𝛽𝛽0 + 𝛽𝛽1 · 𝑋𝑋 + 𝜀𝜀:
A. Si el modelo es no significativo entonces 𝛽𝛽1 = 0.
B. Si el modelo es significativo entonces 𝛽𝛽1 = 0.
C. Si el modelo es no significativo entonces 𝛽𝛽0 = 0 y 𝛽𝛽1 = 0.
D. Si el modelo es significativo entonces 𝛽𝛽0 = 0.

2. Supongamos que el coeficiente de determinación vale cero, entonces:


A. La recta de regresión es vertical.
B. La recta de regresión es horizontal.
C. La recta de regresión podría ser oblicua.
D. El ajuste de la recta de regresión es perfecto.

3. Si el modelo de regresión 𝑌𝑌 = 𝛽𝛽0 + 𝛽𝛽1 · 𝑋𝑋 + 𝜀𝜀 resulta ser significativo, entonces:


A. El coeficiente 𝛽𝛽0 representa el incremento de X por cada unidad que se
incrementa Y.
B. El coeficiente 𝛽𝛽0 representa el incremento de Y por cada unidad que se
incrementa X.
C. El coeficiente 𝛽𝛽1 representa el incremento de X por cada unidad que se
incrementa Y.
D. El coeficiente 𝛽𝛽1 representa el incremento de Y por cada unidad que se
incrementa X.

4. Si 𝛽𝛽𝛽𝛽 (−1,25 ; 2,03) a un nivel de confianza del 95 %, entonces, si formulamos las


𝐻𝐻0 : 𝛽𝛽 = 2
hipótesis � :
© Universidad Internacional de La Rioja (UNIR)

𝐻𝐻1 : 𝛽𝛽 ≠ 2
A. Rechazamos la hipótesis nula a un nivel de confianza del 95 %.
B. No rechazamos la hipótesis nula a un nivel de confianza del 95 %.
C. No podemos tomar una decisión si realizar el contraste.
D. No guardan relación el intervalo de confianza y el contraste de hipótesis.

Estadística II
36
Tema 6. Test
5. (1-R2) % expresa:
A. El porcentaje de variabilidad de la variable X que es explicado por la variable Y.
B. El porcentaje de variabilidad de la variable X que no es explicado por la variable
Y.
C. El porcentaje de variabilidad de la variable Y que es explicado por la variable X.
D. El porcentaje de variabilidad de la variable Y que no es explicado por la variable
X.

6. Si 𝑅𝑅2 = 1, entonces:
A. Todos los puntos están sobre la recta de regresión.
B. Ningún punto está sobre la recta de regresión.
C. La pendiente es la unidad.
D. La recta pasa por el origen de coordenadas.

7. Al realizar la regresión lineal por el método de estimación por mínimos cuadrados


se garantiza que:
A. Las predicciones sean exactas, es decir, máxima exactitud.
B. Los coeficientes estimados tomen valores muy pequeños tendiendo a cero.
C. Los errores de predicción sean mínimos.
D. Ninguna de las anteriores.

8. En el contraste de significatividad de la pendiente se obtuvo un p-valor=0,001.


Podemos afirmar a un nivel de confianza del 99 % que:
A. Existe una relación lineal entre las variables X e Y.
B. No existe relación lineal entre las variables X e Y.
C. Existe relación no necesariamente lineal entre las variables X e Y.
© Universidad Internacional de La Rioja (UNIR)

D. Ninguna de las anteriores.

Estadística II
37
Tema 6. Test
9. Si en el contraste de significatividad de la pendiente se rechaza la hipótesis nula a
cierto nivel de confianza, entonces, a ese nivel podemos afirmar que:
A. Los coeficientes α y β son nulos.
B. Los coeficientes α y β son nulos.
C. El intervalo de confianza para la pendiente contendrá el cero.
D. El intervalo de confianza para la pendiente no contendrá el cero.

10. Considera el modelo de regresión lineal 𝑦𝑦𝑖𝑖 = 𝛽𝛽0 + 𝛽𝛽1 𝑥𝑥1𝑖𝑖 + 𝑢𝑢𝑖𝑖 . Se obtiene la
siguiente muestra de 4 elementos:

𝑥𝑥1𝑖𝑖 3 2 4 2

𝑦𝑦𝑖𝑖 -2 1 -1 0

A. La estimación mediante MCO de 𝛽𝛽0 y 𝛽𝛽1 es 𝛽𝛽̂0 = −0,9𝛽𝛽̂1 = 2


B. La estimación mediante MCO de 𝛽𝛽0 y 𝛽𝛽1 es 𝛽𝛽̂0 = 2𝛽𝛽̂1 = −0,9
C. La estimación mediante MCO de 𝛽𝛽0 y 𝛽𝛽1 es 𝛽𝛽̂0 = 2,5𝛽𝛽̂1 = −0,5
D. La estimación mediante MCO de 𝛽𝛽0 y 𝛽𝛽1 es 𝛽𝛽̂0 = −0,5𝛽𝛽̂1 = 2,5
© Universidad Internacional de La Rioja (UNIR)

Estadística II
38
Tema 6. Test

También podría gustarte