Tema6 El Caso Particular de La Inferencia en El Modelo de Regresion Lineal

Tema 6
Estadística II
El caso particular de la
inferencia en el modelo
de regresión lineal
Índice
Esquema 3
Ideas clave 4
6.1. Introducción y objetivos 4
6.2. El modelo de regresión lineal simple 5
6.3. Estimación puntual: el método de los mínimos
cuadrados ordinario 10
6.4. Intervalo de confianza para la pendiente de la
recta de regresión poblacional 19
6.5. Contraste de hipótesis para la pendiente de la
© Universidad Internacional de La Rioja (UNIR)
recta de regresión poblacional 21

6.6. Predicciones 25
6.7. El modelo de regresión múltiple 26
6.8. Aplicación de las TIC 29
A fondo 34
Test 36
A N Á L I S I S D E R E G R E S I Ó N L I N E A L S I MP L E
HIPÓTESIS BÁSICAS
DEL MODELO
Estimación de los
parámetros
Coeficiente de Pendiente poblacional Predicciones

determinación
Intervalo de confianza. • Predicción de un valor
Contraste de hipótesis: concreto de Y.
• Estadístico t • Predicción para el
• Estadístico F promedio de Y.
Tema 6. Esquema
Estadística II
Esquema
3
Ideas clave
6.1. Introducción y objetivos
Hasta ahora hemos aplicado todas herramientas de inferencia estadística aprendidas

(estimación puntual, intervalos de confianza y contrastes de hipótesis) al análisis de
los parámetros de una población: media, varianza y proporción poblacional.
Vamos a estudiar en este tema un caso particular de aplicación de estas herramientas

sobre el modelo de regresión lineal el cual ya aprendiste a utilizar en Estadística I.
Como recordarás este modelo nos permite relacionar dos variables aleatorias y a
partir de la información muestral de ambas, y con la ayuda de inferencia estadística,
podremos hacer predicciones de los valores de estas variables.
Recordaremos en primer lugar este modelo y veremos cómo se va a realizar

inferencia estadística sobre este y, todavía más importante, cuál va a ser su utilidad.
Veamos un ejemplo. Supongamos que para cada trabajador disponemos de su

registro de productividad por hora y el salario por hora percibido. El interés último
del estudio de la relación entre estas dos variables será el de poder estimar el salario
que deberá percibir un trabajador en base a la productividad alcanzada por este,
siendo así sencilla y justa la asignación de retribuciones en base al resto de
trabajadores de la organización y sus diferentes niveles de productividad. Podrán ser
identificados además los trabajadores que para un mismo nivel de productividad
están percibiendo un salario mayor, pudiendo identificar cuales no están siendo
rentables para la empresa. Este tipo de análisis se realizan mediante el modelo de

regresión, sobre el cual vamos a aplicar la inferencia aprendida en temas anteriores
para calcular sus parámetros los cuales cuantifican la relación entre las variables X e
Y.
Estadística II
4
Tema 6. Ideas clave
Los objetivos de este tema son:
 Mostrar al alumno una aplicación concreta de las herramientas de inferencia
estadística aprendidas.
 Introducir al alumno en el cálculo e interpretación del análisis de regresión.
 Mostrar la posibilidad de realizar predicción de valores a partir del análisis de
regresión.
 Utilizar ejemplos cercanos para el alumno, del ámbito empresarial, que permitan
mostrar la aplicabilidad de la relación entre variables a partir de datos que puedan
resultar de su interés.
6.2. El modelo de regresión lineal simple
Definición del modelo de regresión lineal simple
En este apartado vamos a construir un modelo de regresión simple. Este modelo

establece una relación de dependencia lineal entre dos variables X e Y, de forma que
se analiza el comportamiento medio de la variable Y en función de los valores
conocidos de la variable X.
La variable Y recibe así el nombre de variable dependiente o explicada, y la variable

X recibe el nombre de variable independiente o explicativa (también se le puede
llamar variable regresora). Fíjate que estos nombres obedecen a que es la variable Y
la que siendo dependiente de X va a ser explicada en función de los valores que tome
X. De este modo en función de X podremos entender mejor el comportamiento de Y.
Veamos un ejemplo. Piensa que dispones del registro salarial de los trabajadores de
una empresa y que observas que hay diferencias entre estas retribuciones, ¿a qué
son debidas, nos podríamos preguntar? Conocidos los factores de los que depende
el salario (que serán la variable X) podré explicar el comportamiento de Y. De esta
manera si X son los años de educación, podremos decir que las diferencias salariales
Estadística II
5
Tema 6. Ideas clave
se deben a diferencias en la educación y podremos incluso estimando el modelo que
las relacionan cuantificar dicha relación, pudiendo indicar cuanto supone en términos
salariales un año más de educación.
El modelo lineal se escribe del siguiente modo:

𝑌𝑌 = 𝛽𝛽0 + 𝛽𝛽1 · 𝑋𝑋 + 𝜀𝜀
En esta ecuación vemos que la relación entre X e Y viene dada por dos valores los
cuales son desconocidos y sobre los cuales vamos a aplicar las técnicas de inferencia
estadística aprendidas. Estos coeficientes reciben el nombre de parámetros del
modelo de regresión lineal y son denotados como 𝛽𝛽0 y 𝛽𝛽1 . Fíjate que estamos
utilizando la ecuación de la recta por tanto el parámetro 𝛽𝛽0 está dando el punto de
corte y el parámetro 𝛽𝛽1 la pendiente de la ecuación de la recta (modelo de regresión
lineal).
Por otro lado, vemos en dicha ecuación que el modelo de regresión puede dividirse
en dos partes:
 Determinista: una parte lineal explicada por la variable X, es decir: 𝛽𝛽0 + 𝛽𝛽1 𝑋𝑋.
 Aleatoria: una parte no explicada linealmente por X, es decir: 𝜀𝜀 .
Te será fácil aprender esta metodología si recuerdas que se trata de un concepto ya

aprendiste en asignaturas anteriores, tales como Estadística I, donde este concepto
de regresión lineal fue visto como parte de análisis descriptivo de dos variables (o
análisis bidimensional) a partir de la recta de regresión del diagrama de dispersión.
No obstante, el término aleatorio no fue introducido en estadística descriptiva, lo
introducimos ahora para indicar que hay más factores que afectan al
comportamiento de Y, y que algunos factores se asumen aleatorios por no poder ser
observados.
Dicha recta se construye a partir de la nube de punto o diagrama de dispersión que

representa los valores conjuntos de(𝑥𝑥𝑖𝑖 , 𝑦𝑦𝑖𝑖 ), tal y como muestra la figura 1 del
Estadística II
6
Tema 6. Ideas clave
siguiente ejemplo para las variables importe de la cifra de negocio y precio de venta
del producto.
Ejemplo
Efecto de los precios sobre el importe neto de la cifra de negocios.
Se quiere analizar cuál es el efecto que el precio (en euros) de un

determinado producto genera sobre el importe neto de la cifra de
negocios (millones de euros) de la empresa que lo produce. Dicha
relación se fundamenta en que cabe esperar para bienes normales que
un aumento del precio de un determinado bien reduzca las ventas del
mismo, provocando así una caída del importe de las cifras de negocio.
El modelo que deberá especificarse para cuantificar dicha relación es el

siguiente:
𝑖𝑖𝑖𝑖𝑝𝑝𝑖𝑖 = 𝛽𝛽0 + 𝛽𝛽1 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑜𝑜𝑖𝑖 + ui
Con el objetivo de cuantificar la relación, se toma una muestra de N

empresas, por ello, el subíndice 𝑖𝑖 tomará valores desde 1 hasta N.
Los datos presentados a continuación permiten representar dicha

información por medio de un diagrama de dispersión o también llamado
nube de puntos donde tendremos representados cada par de elementos
de la muestra (precio, importe):
Tabla simple (Y, X)

Importe de la Precio
cifra de negocio
7 17
9 15
10 13
11 11
14 9
13,5 6
18 5
Estadística II
7
Tema 6. Ideas clave
Cuya representación bidimensional es la siguiente:
20
18
Importe de la cira de negocio (Y) 16
14
12
10
8
6
4
2
0
0 5 10 15 20
Precio (X)
Figura 1. Gráfico de dispersión o nube de puntos. (Elaboración propia).
Dada la representación de la información para las 7 empresas dadas, se

observa que un aumento del precio del bien provoque una caída en la
cifra de negocio de dicho producto. Así, cabe esperar que el coeficiente
que acompaña a la variable precio sea negativo, por tanto, decimos que
la relación entre estas dos variables es inversa.
Supuestos de partida para la construcción y estimación del modelo de

regresión lineal simple
Suelen realizarse los siguientes supuestos:
 Linealidad: la relación existente entre X e Y es lineal. Es preciso que tengan un
aspecto razonablemente recto para realizar el ajuste. La hipótesis de linealidad es

fundamental para realizar el ajuste a un modelo lineal.
 Homogeneidad: los términos de error 𝜀𝜀𝑖𝑖 son variables aleatorias con media cero,
𝐸𝐸(𝜀𝜀𝑖𝑖 ) = 0 para i= 1, 2,…, n. Que el valor promedio de los errores sea cero, implica
que el ajuste que se va a realizar está centrado respecto de los datos, luego cabe
esperar que la recta de regresión esté centrada en la nube de puntos de los datos.
Estadística II
8
Tema 6. Ideas clave
 Homoscedasticidad: las variables aleatorias 𝜀𝜀𝑖𝑖 es constante; tienen todas la misma
varianza, 𝑉𝑉(𝜀𝜀𝑖𝑖 ) = 𝜎𝜎𝜀𝜀2 para i= 1, 2,…, n.
 Independencia: las variables aleatorias 𝜀𝜀𝑖𝑖 no están correladas, E �𝜀𝜀𝑖𝑖 𝜀𝜀𝑗𝑗 � = 0 para
todo i ≠ j
 Normalidad: las variables aleatorias 𝜀𝜀𝑖𝑖 se distribuyen normalmente, 𝑁𝑁(0, 𝜎𝜎𝜀𝜀2 ).
Vemos visualmente en los gráficos presentados a continuación, que significa que

nuestros datos presenten homoscedasticidad frente a un caso de
heteroscedasticidad.
En la figura 2 se observa que, en el gráfico de la izquierda, la variabilidad existente en

lo datos es constante a lo largo de todo el gráfico. Sin embargo, en la figura de la
derecha vemos como esta crece a medida que crece el valor de las observaciones de
X, esto se conoce con el nombre de heteroscedasticidad.
(X 1 ,E6)
1 20 1
1 00 0 ,75
Pesos (kg)
Gastos
80 0,5 0
60 0,25
40 0
155 170 1 85 2 00 0 3 6 9
Alturas (cm) Ingresos (x 1 00000)
Figura 2. Homocedasticidad y Heterocedasticidad. (Elaboración propia).

Por tanto, y a modo resumen, diremos que la varianza de los errores constante
implica que la nube de puntos de los datos tiene una anchura semejante a lo largo de
la recta de regresión. Si su variabilidad no fuese constante se denomina
heteroscedasticidad. La hipótesis de independencia implica que una observación no
ofrece información sobre los valores de la siguiente.
Estadística II
9
Tema 6. Ideas clave
En este tema asumiremos que se verifican estos supuestos. La asignatura de
Econometría será el lugar para estudiarlos más a fondo y tratar diferentes tipos de
datos para los cuales no se puede mantener estos supuestos.
6.3. Estimación puntual: el método de los mínimos

cuadrados ordinario
Definido este modelo vamos a ver a continuación cómo aplicar las herramientas de
inferencia estadísticas aprendidas en temas anteriores sobre los parámetros del
modelo de regresión, 𝛽𝛽0 y 𝛽𝛽1 :
Veremos, por tanto:
 Cómo obtener estimaciones puntuales de estos parámetros en base a una
muestra.
 Cómo construir intervalos de confianza para los parámetros del modelo de
regresión lineal, con todo lo que ya sabemos que añade la construcción de estos
intervalos al cálculo de los estimadores puntuales.
 Cómo realizar contrastes de hipótesis asumiendo bajo la hipótesis nula
determinados valores para los parámetros del modelo de regresión lineal.

Estadística II
10
Tema 6. Ideas clave
El método de los mínimos cuadrados ordinario
El método de búsqueda del estimador puntual para los parámetros a estimar,

coeficientes de la recta de regresión, es el conocido como Método de Mínimos
Cuadrados Ordinarios (MCO) 1.
El estimador MCO es un procedimiento para determinar las fórmulas que dada una
muestra nos van a permitir aproximarnos a los valores reales de 𝛽𝛽0 y 𝛽𝛽1 .
Ejemplo
Efecto de los precios sobre el importe neto de la cifra de negocios

(continuación)
Sobre el ejemplo anterior puede ser estimada la recta de regresión sobre

la nube de puntos mostrada (Figura 3)
20
18
Importe de la cira de negocio (Y)
16
14
12
10
8
6
4
2
0
0 5 10 15 20
Precio (X)
Figura 3. Gráfico de dispersión o nube de puntos y recta de regresión. (Elaboración propia).
La recta punteada representa la recta de regresión realizada mediante la

metodología del ajuste Mínimos Cuadrados Ordinarios.
1
Ten en cuenta que las fórmulas utilizadas para los estimadores puntuales salen de determinados métodos de estimación. Uno
de ellos es el Método de los Mínimos Cuadrados Ordinarios. Otros métodos, simplemente para que te suenen, son el de Máxima
Verosimilitud (MV) y el de Método de los Momentos. No obstante, en temas anteriores hemos tomado las fórmulas de los
estimadores puntuales como dadas, simplemente comprobando que son adecuadas porque cumplen las propiedades deseables
de insesgadez y eficiencia y sin atender al método que permite obtenerlas.
Estadística II
11
Tema 6. Ideas clave
El procedimiento de los Mínimos Cuadrados Ordinarios asigna un valor a los
coeficientes 𝛽𝛽0 y 𝛽𝛽1 de forma que se minimizan las distancias entre los puntos, pares
de observaciones (𝑥𝑥𝑖𝑖 , 𝑦𝑦𝑖𝑖 ), y la recta de regresión. De manera que de todas las rectas
posibles que siguen la ecuación lineal 𝑦𝑦 = 𝑎𝑎 + 𝑏𝑏 · 𝑋𝑋, selecciona aquella recta que
hace mínimas las distancias de los datos a la recta. No es por tanto aleatoria la
ubicación de la recta de regresión en la nube de puntos, si no que obedece a este
criterio de minimización.
Dichas distancias de cada punto a la recta se conocen como errores de estimación y

la suma al cuadrado de todos ellos es lo que estamos minimizando. Esta suma recibe
el nombre de SCR (Suma Cuadrática Residual) y se define como sigue:
𝑛𝑛 𝑛𝑛
𝑆𝑆𝑆𝑆𝑆𝑆 = � 𝑒𝑒𝑖𝑖2 = �(𝑦𝑦𝑖𝑖 − 𝑦𝑦�𝑖𝑖 )2

𝑖𝑖=1 𝑖𝑖=1
donde𝑦𝑦�𝑖𝑖 serían los valores de 𝑦𝑦𝑖𝑖 sobre la recta de regresión (se denominan valores
ajustados).
Derivando la expresión anterior (puedes encontrar esto desarrollado en el recurso 1

de la sección «A fondo»), se obtienen los estimadores puntuales:
𝑆𝑆𝑥𝑥𝑥𝑥
� =
𝛽𝛽 1 𝑆𝑆𝑥𝑥2
𝛽𝛽̂0 = 𝑦𝑦� − 𝑏𝑏𝑥𝑥�
Ya aprendimos que el símbolo “^” sobre los parámetros significa que se trata de
estimadores puntuales. Es la forma de identificar que ya no consideramos el
parámetro si no el estimador puntual el cual es una variable aleatoria.
El concepto de la varianza residual
Dado que los errores son variables aleatorias, pues las distancias de cada punto 𝑦𝑦𝑖𝑖 a
la recta varían en función de la muestra, una medida interesante a conocer será la
varianza de los residuos la cual mostrará la dispersión que existe entre dichas
Estadística II
12
Tema 6. Ideas clave
distancias o errores (𝑒𝑒𝑖𝑖 ). Dicha varianza será estimada haciendo uso de la fórmula de
la varianza muestral con denominador 𝑛𝑛 − 2 ya que utilizar el denominador n dará
como resultado un estimador sesgado.
Un estimador insesgado de la varianza de los errores es la varianza residual:
∑𝑛𝑛𝑖𝑖=1 𝑒𝑒i2 ∑𝑛𝑛𝑖𝑖=1(𝑦𝑦𝑖𝑖 − 𝑦𝑦�𝑖𝑖 )2

𝑉𝑉𝑉𝑉𝑉𝑉(𝑒𝑒𝑖𝑖 ) = =
𝑛𝑛 − 2 𝑛𝑛 − 2
Vemos que dicha varianza estimada coincide con el cociente entre la SCR y n-2:
𝑆𝑆𝑆𝑆𝑆𝑆
𝑆𝑆𝑒𝑒2 =
𝑛𝑛 − 2
Otra posible fórmula para la estimación de la varianza del error es:

𝑛𝑛 · (𝑆𝑆𝑦𝑦2 − 𝑏𝑏 2 𝑆𝑆𝑥𝑥2 )
𝑆𝑆𝑒𝑒2 =
𝑛𝑛 − 2
Ejemplo

(continuación).
Vamos en este ejemplo a obtener los valores de los coeficientes

estimados que serán los que definan la recta puntuada mostrada en la
figura 2.
Realizamos una serie de cálculos previos antes de pasar a aplicar las

fórmulas de los estimadores puntuales:
Estadística II
13
Tema 6. Ideas clave
Importe de
Observaciones la cifra de Precio (X) Y^2 X^2 XY
negocio (Y)
1 7 17 49 289 119
2 9 15 81 225 135
3 10 13 100 169 130
4 11 11 121 121 121
5 14 9 196 81 126
6 13,5 6 182,25 36 81
7 18 5 324 25 90
Sumatorios 82,5 76 1053,25 946 802
Medias 11,7857 10,8571 150,4642 135,1428 114,5714
Varianzas 11,5612 17,2653
Covarianza -13,3877
Ahora aplicamos las fórmulas de los estimadores:

𝑠𝑠𝑥𝑥𝑥𝑥 13,3877
𝛽𝛽̂1 = =− = −0,7754
𝑠𝑠2𝑥𝑥 17,2653
𝛽𝛽̂0 = 𝑌𝑌� − 𝛽𝛽1 · 𝑋𝑋

� = 20,2047
Por tanto, el modelo de regresión lineal:𝑦𝑦�𝑖𝑖 = 20,2047 + (−0,7754) · 𝑥𝑥𝑖𝑖
20
18
16
14
12 y = -0,7754x + 20,204
10
8
6
4
2
0
0 5 10 15 20
Figura 3. Ecuación de la recta de regresión calculada con Excel. (Elaboración propia).

¿Cómo se interpreta?
Si la variable x=0, la cifra de negocios tendría un valor esperado de -

20,2047 milones de euros.
Estadística II
14
Tema 6. Ideas clave
El aumento en el precio en 10 euros, x=10, cabría esperar una caída de la
cifra de negocios de 7,754 millones de euros.
Se podría calcular la varianza residual calculando los residuos y después

aplicando la fórmula:
Importe de valores
errores al
Observaciones Precio (X) la cifra de ajustados errores
cuadrado
negocio (Y) de Y
1 17 7 7,022 -0,022 0,001
2 15 9 8,573 0,427 0,182
3 13 10 10,124 -0,124 0,015
4 11 11 11,675 -0,675 0,456
5 9 14 13,226 0,774 0,599
6 6 13,5 15,552 -2,052 4,211
7 5 18 16,327 1,673 2,798
Sumatorios 76 82,5 82,500 0,000 8,261
La varianza residual dado que hemos calculado que SCR=8,2612 será:
8,2612
𝑆𝑆𝑒𝑒2 = = 1,6527
7−2
Podríamos aplicar la fórmula corta:

𝑛𝑛 · (𝑆𝑆𝑦𝑦2 − 𝑏𝑏 2 · 𝑆𝑆𝑥𝑥2 ) 7 · (11,5612 − (−0,7754)2 · 17,2653)
𝑆𝑆𝑒𝑒2 = = = 1,6527
𝑛𝑛 − 2 7−2
Estos cálculos ya aprendiste a hacerlos en Estadística I, lo único nuevo que

hemos hecho aquí es llamar a estas fórmulas que ya conocías Estimadores
puntuales de los parámetros (coeficientes) del modelo de regresión.
En el recurso 2 de la sección A fondo puedes consultar un estudio con datos reales

en el cual se construye un modelo de regresión simple para explicar los factores
determinantes en el gasto en el servicio de residuos sólidos urbanos en España.
Estadística II
15
Tema 6. Ideas clave
Capacidad explicativa de la regresión lineal. Bondad de ajuste
La medida de la bondad de ajuste que vamos a utilizar se deriva de las propiedades

del ajuste MCO.
Introduzcamos primero algunas definiciones:
 Suma Cuadrática Total (SCT):

𝑁𝑁
𝑆𝑆𝑆𝑆𝑆𝑆 = �(𝑦𝑦𝑖𝑖 − 𝑦𝑦�)2

𝑖𝑖=1
 Suma Cuadrática Explicada (SCE):

𝑁𝑁
𝑆𝑆𝑆𝑆𝑆𝑆 = �(𝑦𝑦�𝑖𝑖 − 𝑦𝑦�)2

𝑖𝑖=1
 Suma Cuadrática Residual (SCR):

𝑁𝑁
𝑆𝑆𝑆𝑆𝑆𝑆 = � e2i
𝑖𝑖=1
La SCT mide la variabilidad en la muestra de la variable dependiente 𝑦𝑦, la SCE mide la

variabilidad de los valores estimados 𝑦𝑦�, y la SCR mide la variabilidad de los residuos
(𝑒𝑒). Fíjate que coinciden con el numerador de la varianza de cada caso.
Estos tres valores son siempre no negativos y están relaciones entre sí mediante la
expresión:
𝑆𝑆𝑆𝑆𝑆𝑆 = 𝑆𝑆𝑆𝑆𝑆𝑆 + 𝑆𝑆𝑆𝑆𝑆𝑆
 Medida de bondad de ajuste
La medida de la bondad de ajuste viene dada por cuán próximo sea la variabilidad de
los valores estimados a la variabilidad de los valores observados de la variable
Estadística II
16
Tema 6. Ideas clave
dependiente. Cuanto más próximo sea SCE a SCT mejor será el ajuste y mejor diremos
que explicará la variable X la variabilidad o comportamiento de la variable Y.
Para proporcionar un valor numérico que nos indique el grado de ajuste, siempre que
SCT sea distinta de cero, que es equivalente a que los valores observados de la
variable dependiente no son todos iguales, hacemos la siguiente transformación:
𝑆𝑆𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆
1= +
Como cometamos anteriormente, cuanto más próximo a 1 sea el ratio mejor será
el grado de ajuste. Por lo tanto, nuestra medida de la bondad de ajuste, que

denotamos como 𝑅𝑅2 y denominamos coeficiente de determinación vendrá dado por:
𝑅𝑅2 = =1−
El coeficiente de determinación también puede ser calculado como el coeficiente de

correlación entre X e Y al cuadrado:
2
𝑆𝑆𝑋𝑋𝑋𝑋 2
𝑅𝑅 = � �
𝑆𝑆𝑋𝑋 · 𝑆𝑆𝑌𝑌
Estadística II
17
Tema 6. Ideas clave
Ejemplo

(continuación)
Utilizamos los cálculos anteriores:
Importe de
Observaciones la cifra de Precio (X) Y^2 X^2 XY
negocio (Y)
1 7 17 49 289 119
2 9 15 81 225 135
3 10 13 100 169 130
4 11 11 121 121 121
5 14 9 196 81 126
6 13,5 6 182,25 36 81
7 18 5 324 25 90
Sumatorios 82,5 76 1053,25 946 802
Medias 11,7857143 10,8571429 150,464286 135,142857 114,571429
Varianzas 11,5612245 17,2653061
Desviaciones
3,40018007 4,15515416
típicas
Covarianza -13,3877551
Ahora aplicamos las fórmulas de los estimadores:
2
−13,387 2
𝑅𝑅 = � � = 0,898
3,4 · 4,15
Interpretación: Lo que nos está indicando que el modelo definido por la
relación lineal entre las variables explica un 89,8 % de la variabilidad
registrada por la variable dependiente. Esto es, los cambios percibidos
por la variable dependiente vienen explicados por la variable
independiente en un 89,8 % sobre 100 %.
Estadística II
18
Tema 6. Ideas clave
6.4. Intervalo de confianza para la pendiente de la
recta de regresión poblacional
Hemos visto hasta ahora estimaciones puntuales de los coeficientes de regresión.

Vamos ahora a calcular intervalos de confianza para obtener una medida de la
precisión de dichas estimaciones que complemente a la estimación puntual de 𝛽𝛽0 y
𝛽𝛽1 anteriormente definida.
Varianza de la estimación de la pendiente de la regresión
Necesitamos en primer lugar definir el error de estimación el cual se definirá a partir

de la varianza del coeficiente estimado:
Puede definirse fácilmente (no veremos demostración) cuál es la varianza de la

pendiente de la regresión, la cual será necesaria para poder hacer inferencias sobre
los parámetros de la recta de regresión.
En concreto definimos un estimador para su desviación típica o también denominada

error estándar (se) de 𝛽𝛽1 :
2
�̂ ) = � 𝑆𝑆𝑒𝑒
𝑠𝑠𝑠𝑠�𝛽𝛽̂1 � = �𝑉𝑉𝑉𝑉𝑉𝑉(𝛽𝛽1
𝑛𝑛 · 𝑆𝑆𝑥𝑥2
Nota: Ten en cuenta que la fórmula que te habíamos proporcionado con

denominador (n-1) debía contener el estimador insesgado de la varianza, 𝑆𝑆̂𝑥𝑥2 , y
nosotros en ningún punto de este tema hemos utilizado los estimadores insesgados
de la varianza porque es así como Gretl lo calcula y para que nos coincida con sus
resultados. Esto puede hacerse porque en Econometría se trabaja con muestras muy
grandes, y por tanto no tiene relevancia con ese tamaño muestral el uso de una u
Estadística II
19
Tema 6. Ideas clave
otra. Sin embargo, si en el formulario de examen te aparece con (n-1) no tiene
relevancia, y lo tenemos en cuenta.
Construcción del intervalo de confianza para 𝛽𝛽1
Sea (𝑥𝑥1 , 𝑦𝑦1 ), (𝑥𝑥2 , 𝑦𝑦2 ),…, (𝑥𝑥𝑛𝑛 , 𝑦𝑦𝑛𝑛 ) una muestra de n pares de observaciones de un
proceso cuya recta de regresión poblacional es 𝑌𝑌𝑖𝑖 = 𝛽𝛽0 + 𝛽𝛽1 · 𝑋𝑋𝑖𝑖 + 𝜀𝜀𝑖𝑖
Si los errores de la regresión 𝜀𝜀𝑖𝑖 tienen distribución normal y se verifican los supuestos
de linealidad, homogeneidad, homocedasticidad e independencia, entonces un
intervalo de confianza del 100(1-α) % para la pendiente b de la recta de regresión
poblacional es:
�𝛽𝛽̂1 ∓ 𝑡𝑡𝑛𝑛−2;𝛼𝛼 · 𝑠𝑠𝑠𝑠�𝛽𝛽̂1 ��

2
Dado que el modelo de distribución de la pendiente del modelo de regresión es una

t-student con n-2 grados de libertad.
Ejemplo

(continuación).
Vamos ahora a calcular un intervalo de confianza para la pendiente

poblacional a un nivel de confianza de 95 %.
Retomamos los siguientes cálculos obtenidos:
𝑦𝑦�𝑖𝑖 = 20,204 − 0,775 · 𝑥𝑥𝑖𝑖 ; 𝑠𝑠𝑒𝑒2 = 1,652

𝑛𝑛
� 𝑥𝑥12 = 946; 𝑋𝑋� = 10,86

𝑖𝑖=1
Estadística II
20
Tema 6. Ideas clave
𝑠𝑠𝑒𝑒2 1,652 1,652
𝑠𝑠𝑠𝑠�𝛽𝛽̂1 � = � =� =�
(𝑛𝑛 − 1) · 𝑆𝑆̂𝑥𝑥
2 (7 − 1) · 20,14286 120,8571
= 0,1169
𝑡𝑡𝛼𝛼,𝑛𝑛−2 = 𝑡𝑡0,025; ,5 = 2,5706
2
Intervalo de confianza para la pendiente:
�𝛽𝛽̂1 ∓ 𝑡𝑡𝑛𝑛−2;𝛼𝛼 · 𝑠𝑠𝑠𝑠�𝛽𝛽̂1 �� = (−0,775 ∓ 2,5706 · 0,1169) =

2
= (−0,775 ∓ 0,3005) = (−1,0755; −0,4745)
Vemos en el ejemplo anterior como hemos obtenido un intervalo de valores para la

estimación de la pendiente del modelo de regresión, coeficiente 𝛽𝛽1 .
Adicionalmente podríamos obtener el IC para el punto de corte, coeficiente 𝛽𝛽0 ,

teniendo en cuenta que:
2 2
�̂ ) = 𝑠𝑠𝑒𝑒 · 𝑥𝑥̅
𝑉𝑉𝑎𝑎𝑎𝑎(𝛽𝛽0
∑𝑛𝑛 2
𝑖𝑖=1 𝑥𝑥𝑖𝑖
�2 =
Donde 𝑥𝑥 .
𝑛𝑛
Nota: igual que antes hemos cambiado el denominador para poder utilizar la varianza
muestral, poniendo n en sustituición de (n-1) como estaba anteriormente.
6.5. Contraste de hipótesis para la pendiente de la

recta de regresión poblacional
Vamos ahora como último paso de la inferencia sobre el modelo de regresión a

realizar contrastes de hipótesis sobre sus parámetros. Recuerda que los contrastes
de hipótesis utilizaban la información muestral para validar determinadas hipótesis o
afirmaciones realizadas directamente sobre los parámetros, en este caso los
coeficientes del modelo de regresión.
Estadística II
21
Tema 6. Ideas clave
Para realizarlos necesitamos suponer que existe normalidad en los errores del
modelo (término de error de la recta de regresión, parte aleatoria). De este modo,
siendo considerados los estimadores puntuales como variables aleatorias, estos
también tendrán una distribución normal con media y varianza calculadas en el punto
anterior, y que pasamos a recordar:
 Media de los coeficientes:
𝐸𝐸�𝛽𝛽̂𝑗𝑗 � = 𝛽𝛽𝑗𝑗 ; 𝑗𝑗 = 0, 1
 Varianza de los coeficientes del modelo:
2
�̂ ) = � 𝑆𝑆𝑒𝑒
𝑠𝑠𝑠𝑠𝑠𝑠�𝛽𝛽̂1 � = �𝑉𝑉𝑉𝑉𝑉𝑉(𝛽𝛽1
𝑆𝑆𝑒𝑒2 · 𝑥𝑥̅ 2
𝑠𝑠𝑠𝑠�𝛽𝛽̂0 � = �
Entonces, si los errores de la recta de regresión cumplen el supuesto de distribución

normal y se verifican todos los supuestos del modelo, definidos en el apartado 6.2
(linealidad, homogeneidad, homoscedasticidad e independencia), entonces los
siguientes contrastes tienen un nivel de confianza (1 − 𝛼𝛼) · 100 % y serán realizados
tal y como pasamos a especificar:
1. Hipótesis:
CONTRASTE BILATERAL CONTRASTE UNILATERAL

Cola derecha Cola izquierda
𝐻𝐻0 : 𝛽𝛽 = 𝛽𝛽0 𝐻𝐻0 : 𝛽𝛽 ≤ 𝛽𝛽0 𝐻𝐻0 : 𝛽𝛽 ≥ 𝛽𝛽0
𝐻𝐻1 : 𝛽𝛽 ≠ 𝛽𝛽0 𝐻𝐻1 : 𝛽𝛽 > 𝛽𝛽0 𝐻𝐻1 : 𝛽𝛽 < 𝛽𝛽0
Estadística II
22
Tema 6. Ideas clave
2. Supuestos:
Se trata de una muestra aleatoria simple de observaciones independientes. La

población se distribuye normalmente.
3. Estadístico de contraste:
𝛽𝛽̂ − 𝛽𝛽0
𝑡𝑡 =
𝑠𝑠𝑠𝑠(𝛽𝛽̂)
El estadístico de contraste se distribuye como una t-student con n-2 grados de
libertad.
4. Criterio de decisión: Dada la distribución del estadístico de contraste se tiene las

siguientes zonas de rechazo:
Opción 1: se rechazará la hipótesis nula si:
C.B.: |𝑡𝑡| > 𝑡𝑡𝑛𝑛−2;𝛼𝛼
2
C.U.D.: 𝑡𝑡 > 𝑡𝑡𝑛𝑛−2; 𝛼𝛼

C.U.I.: 𝑡𝑡 < −𝑡𝑡𝑛𝑛−2; 𝛼𝛼
Opción 2: se rechaza la hipótesis nula si p-valor <α, donde:

C.B.: 𝑝𝑝 − 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣 = 2 · 𝑃𝑃(𝑡𝑡𝑛𝑛−2 > |𝑡𝑡|)
C.U.D.: 𝑝𝑝 − 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣 = 𝑃𝑃(𝑡𝑡𝑛𝑛−2 > 𝑡𝑡)
C.U.I.: 𝑝𝑝 − 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣 = 𝑃𝑃(𝑡𝑡𝑛𝑛−2 < 𝑡𝑡)
5. Interpretación de los resultados:
A partir de la decisión tomada en el apartado anterior, interpretar a un nivel de

confianza de 100(1 − 𝛼𝛼) %.
Contraste de significatividad de la pendiente
Un caso especial de interés práctico sobre la pendiente es cuando el valor postulado

en la hipótesis nula es cero, es decir, contrastar la hipótesis nula de que la pendiente
Estadística II
23
Tema 6. Ideas clave
es cero llegando en caso de que sea cierta a afirmar que la variable X no es
significativa, o bien, la alternativa pendiente distinta de cero y así la variable X si es
significativa.
𝐻𝐻 : 𝛽𝛽 = 0
Hipótesis: � 0 1
𝐻𝐻1 : 𝛽𝛽1 ≠ 0
Ejemplo

(continuación).
Utilizando el ejemplo anterior y los resultados obtenidos, vamos a

contrastar si el precio tiene efecto sobre la cifra de negocios. Este tipo de
contraste recibe el nombre de contraste de significatividad y el parámetro
que acompaña a la variable será enfrentado en las hipótesis al valor 0.
Hipótesis:
𝐻𝐻0 : 𝛽𝛽1 = 0
𝐻𝐻1 : 𝛽𝛽1 ≠ 0
Estadístico de contraste:
𝛽𝛽̂1 − 𝛽𝛽0 −0,775
𝑡𝑡 = = = −6,6296
𝑠𝑠𝑠𝑠(𝛽𝛽̂1 ) 0,1169
Criterio de decisión:
Se obtiene un valor muy grande de t, lo que da indicios de que el valor de

𝛽𝛽̂ según la muestra dada está alejado de cero. Aun así, aplicamos el
criterio de decisión el cual nos dice que para una t-student con 5 grados
de libertad al 5% de significatividad 2 toma un valor de 2,5706 ( 𝑡𝑡𝛼𝛼,𝑛𝑛−2 =
2
𝑡𝑡0,025; ,5 = 2,5706).
Conclusión del contraste:
2
Ten en cuenta que al tratarse de un contraste bilateral tomaremos 2,5% en cada cola.
Estadística II
24
Tema 6. Ideas clave
Vemos por tanto que nuestro estadístico cae en la región de rechazo (cola
izquierda, −6,6296 < −2,5706), por lo que se Rechaza la hipótesis nula
concluyendo que la variable precio sí tiene efecto sobre la cifra de
negocio al ser su coeficiente distinto de cero.
Contraste de significatividad de la regresión
En los casos que aquí están siendo analizados, al tener el modelo un único regresor
(variable explicativa) lo que denominamos el contraste de significatividad de la
regresión coincide con el contraste de significatividad de la pendiente (siendo la
variable a la que acompaña la única variable del modelo).
Estos modelos con un único regresor o variable explicativa se conocen como modelos
de regresión lineal simple.
En el tema 7 vamos a analizar el caso de modelos de regresión múltiples, donde

aparece más de un regresor o variable explicativa y vamos a analizar cómo se lleva a
cabo el contraste de significatividad de la regresión donde habrá que analizar si
conjuntamente las variables explicativas del modelo son significativas.
𝐻𝐻0 : 𝛽𝛽1 = 𝛽𝛽2 = ⋯ = 𝛽𝛽𝑘𝑘 = 0

Hipótesis: �
𝐻𝐻1 : 𝛽𝛽𝑗𝑗 ≠ 0 para algún j = 1, … k
6.6. Predicciones
Hablamos de predicciones en el contexto del modelo de regresión para referirnos a

los valores estimados de y cuando es conocido un valor de X. De este modo podremos

dar valores a la X y estimar (predecir) cual es el valor de Y que, según nuestro modelo
estimado, se corresponde con el valor conocido del regresor X.
Estadística II
25
Tema 6. Ideas clave
Ejemplo

(continuación)
Dada la recta de regresión calculada para este ejemplo:

𝑦𝑦�𝑖𝑖 = 20,204 − 0,775 · 𝑥𝑥𝑖𝑖
¿Cuál es el importe de la cifra de negocio si el precio del producto es de

20 euros?
𝑦𝑦�𝑖𝑖 = 20,2047 − 0,7754 · 20 = 4,6967 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑𝑑𝑑 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒
Si nuestra empresa fija un precio de 20 euros la cifra de negocio que se

estima tendrá es de 4,6967 millones de euros.
Además de estos valores puntuales de las estimaciones dado un valor de X, es posible

conocido el error de la predicción construir intervalos de confianza para tales
predicciones, simplemente haciendo uso de la estimación y su error estándar y
siguiendo la metodología de intervalos de confianza. No obstante, este tema, al igual
que otros de mayor calado sobre los modelos de regresión, serán materia de la
asignatura de Econometría.
6.7. El modelo de regresión múltiple
Definición y construcción de un modelo de regresión múltiple
Nos referimos a un modelo de regresión múltiple cuando nuestro modelo de

regresión lineal incorpora más de un regresor o variable explicativa. Estos modelos
son más realistas que los definidos en el tema anterior, donde se introdujo el modelo
de regresión lineal simple, ya que es de esperar que la variable Y venga explicada y
por tanto su comportamiento dependa de más de una variable explicativa.
Estadística II
26
Tema 6. Ideas clave
Ejemplo
Ejemplos de modelos múltiples de regresión
La cifra de negocios de una empresa es mucho más realista estudiarla en

función de varios represores tales como el precio, el precio de la
competencia, el sector en el que opera, la cifra de negocios del año
anterior, ….
Otro ejemplo de la necesidad del análisis de regresión múltiple seria

explicar la remuneración de los puestos directivos en las empresas en
función de las características del individuo que lo ocupa, edad, titulación,
años de experiencia, etc., del puesto analizado, nº de personas que
dependen del puesto, nivel jerárquico, etc. y de la empresa, sector,
tamaño beneficios, etc.
Supongamos que estamos interesados en analizar la relación lineal que existe entre
una variable dependiente Y y k variables independientes 𝑋𝑋1 , 𝑋𝑋2 ,..., 𝑋𝑋𝑘𝑘 . Si las variables
independientes toman valores 𝑥𝑥1 , 𝑥𝑥2 ,..., 𝑥𝑥𝑘𝑘 en una muestra determinada entonces,
la regresión múltiple expresa puede escribirse como:
𝑌𝑌𝑖𝑖 = 𝛼𝛼 + 𝛽𝛽1 𝑥𝑥1𝑖𝑖 + 𝛽𝛽2 𝑥𝑥2𝑖𝑖 + ⋯ + 𝛽𝛽𝑘𝑘 𝑥𝑥𝑘𝑘𝑘𝑘 + 𝜀𝜀𝑖𝑖
donde:
 𝑌𝑌𝑖𝑖 es el valor de la variable dependiente en individuo i-ésimo. También se le llama
variable explicada o valor respuesta.
 𝑋𝑋𝑖𝑖𝑖𝑖 es el valor de la variable independiente j-ésima para el individuo i-ésimo donde
j=1, ... k, siendo k el número de variables independientes que se introducen en el

modelo. También se les llama regresores del modelo o variables explicativas.
 𝛽𝛽𝑗𝑗 son los coeficientes de modelo para la j-ésima variable explicativa donde j=1, ...
k, siendo k el número de variables explicativas.
Estadística II
27
Tema 6. Ideas clave
 𝜀𝜀𝑖𝑖 mide el efecto que producen sobre la respuesta las variables que no están
incluidas en el modelo. Es el término de error o perturbación.
Las variables dependiente e independiente son observadas; los coeficientes

son parámetros que van a ser estimados; los errores son no observables y por
lo tanto constituyen un componente aleatorio sobre el que formulamos una
serie de supuestos.
Interpretación de los coeficientes del modelo
𝛽𝛽0 es la ordenada en el origen o constante de regresión y se interpreta como el valor

promedio de la variable dependiente (Y) debido al efecto de las variables que no han
sido consideradas en el modelo. Como en regresión simple, no siempre tiene sentido
su interpretación.
𝛽𝛽𝑗𝑗 para j=1, 2, ..., k, son los coeficientes de regresión parcial y miden la variación de
la variable dependiente Y por cada cambio unitario en Xi, manteniendo constantes
las demás variables independientes. Mide el efecto marginal que produce un
aumento unitario en 𝑋𝑋𝑗𝑗 cuando el resto de regresores permanecen constantes.
Ejemplo
Una entidad bancaria desea realizar previsiones sobre los recursos ajenos
o pasivo de clientes que captan sus distintas oficinas y en un estudio
previo se considera que el pasivo (en miles de euros) de una sucursal
depende del número de personas que residen en el área de influencia de
la oficina (en miles) y del número de oficinas próximas de otros bancos.
El modelo estimado presenta el siguiente valor para los coeficientes:
𝑦𝑦� = −20,95 + 1,22𝑥𝑥1 + 1,13𝑥𝑥2
Interpretación:
Estadística II
28
Tema 6. Ideas clave
Si la población y los bancos toman el valor cero, el pasivo sería de -20.950
euros, lo cual no tiene sentido su interpretación.
Si se incrementa la población en 1.000 personas, manteniendo la variable

bancos constante, el incremento por término medio del pasivo es de
1.220 euros.
Si se incrementa los bancos en 10, manteniendo la población constante,

el pasivo se incrementa por término medio, en 11.300 euros.
La estimación del modelo de regresión múltiple es materia de la asignatura de

Econometría, por tanto, será en ella donde aprenderás a estimar los coeficientes de
este modo (estimación puntual sobre el modelo de regresión múltiple) así como
también verás intervalos de confianza y contrastes de hipótesis en el modelo
múltiple. También estudiarás los supuestos en los que se basa tanto la construcción
de los modelos de regresión múltiple y la inferencia sobre él, y verás cuáles serán los
efectos del incumplimiento de dichos supuestos.
6.8. Aplicación de las TIC
Análisis de regresión con Excel
Los gráficos mostrados a lo largo de este tema (figura 1 a 3) han sido creados con
Excel, el cual además de representar la nube de puntos (diagrama de dispersión) nos
permite introducir en el gráfico la recta de regresión, así como la ecuación de la
misma, proporcionándonos así la estimación MCO.
Para ello debemos introducir los datos en Excel indicando en una primera columna
los valores de X y en una segunda columna los de Y. De este modo al insertar un
Gráfico “diagrama de dispersión” Excel tomará los puntos (x, y) representando los
valores de X en el eje de abscisas y de Y en el eje de ordenadas, tal y como mostramos
en la figura 1 del apartado 6.2.
Estadística II
29
Tema 6. Ideas clave
Una vez construido el diagrama de dispersión, debemos pedirle a Gretl que nos dibuje
la recta de regresión y en las opciones de esta que nos indique la ecuación y el
coeficiente de determinación.
Uso de Gretl para la estimación del modelo de regresión
Introducción de la base de datos en el software
Lo primero que debemos hacer para trabajar en Gretl es aprender a cargar el

conjunto de datos con el que vamos a trabajar. Para ello debes acceder a «Archivo
en Gretl» y seleccionar una de las tres opciones siguientes:
 Crear nuevo conjunto de datos introduciendo los datos de forma manual:
«Archivo»  «Nuevo conjunto de datos» (completar la información

solicitada)
 Cargar un fichero previamente preparado en Excel:
«Archivo»  «Abrir archivo de datos»  «Archivo de usuario»
 Utilizar una base de datos previamente creada de las que el programa nos facilita
(es esta opción la que vamos a utilizar para trabajar en este taller y tener así
diferentes bases de datos listas con las que trabajar).
«Archivo»  «Abrir archivo de prueba»
Estimación MCO del modelo de regresión
Cargar datos y hacer regresiones con Gretl es muy sencillo, ya que solo debes pulsar
los botones apropiados para poder hacerlo.
Para llevar a cabo la regresión MCO accederemos al menú principal a las opciones:
«Modelo»  «Mínimos cuadrados ordinarios»
Estadística II
30
Tema 6. Ideas clave
Deberán a continuación definirse las variables X e Y.
Podemos utilizar las opciones que aparecen en el nuevo menú principal de la tabla
del modelo:
 Archivo:
• Guardar la sesión como icono.
 Editar:
• Modificar el modelo.
• Valores estimados.
 Gráficos:
• Gráficos de residuos.
• Gráficos de la variable estimada y observada.
 Análisis:
• Mostrar variable observada, estimada, residuos.

• Matriz de covarianzas de los. Coeficientes.
 Guardar:
• Residuos.
• Valores estimados.
En el recurso 4 de la sección A fondo dispones de un interesante recurso para

empezar a practicar con Gretl al tiempo que repasas los conceptos aquí aprendidos.
Este manual te será muy útil para cursos futuros así que no lo pierdas de vista.
Te recordamos que al igual que ocurría con otros cálculos en Gretl, los output de
resultados que ahora vas a obtener contienen todos los valores expresados bajo el
Estadística II
31
Tema 6. Ideas clave
criterio anglosajón de fijación de decimales, esto es, se indican los decimales
mediante un punto y no se utiliza separador de miles.
Vemos a continuación los resultados en Gretl del ejemplo que hemos ido
desarrollando a lo largo del tema.
Ejemplo

(continuación)
Recordamos el modelo que venimos utilizando:
𝑖𝑖𝑖𝑖𝑝𝑝𝑖𝑖 = 𝛽𝛽0 + 𝛽𝛽1 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑜𝑜𝑖𝑖 + ui
Con el objetivo de cuantificar la relación, se toma una muestra de N

empresas, por ello, el subíndice 𝑖𝑖 tomará valores desde 1 hasta N.
Los datos presentados a continuación y estos deben ser pasados a Gretl

manualmente con la opción:
Archivo  Nuevo conjunto de datos
Tabla Simple (X; Y)

Precio Importe de la cifra de negocio
17 7
15 9
13 10
11 11
9 14
6 13,5
5 18
La tabla output que nos da Gretl con todos los resultados calculados en el
ejemplo a lo largo de este tema es la siguiente:
Estadística II
32
Tema 6. Ideas clave
Tema 6. Ideas clave

Estadística II
33
A fondo
Formulario para el modelo de regresión
En este recurso podrás encontrar en formato PDF un formulario para el modelo de

regresión.
El documento está disponible en el aula virtual
Gasto Municipal por el servicio de residuos sólidos urbanos
Bel, G. (2006). Gasto Municipal por el servicio de residuos sólidos urbanos. Revista de
economía aplicada, 41 (vol. XIV), 5-32.
Este artículo presenta de forma simplificada un modelo de regresión lineal simple

para explicar los factores determinantes en el gasto en el servicio de residuos sólidos
urbanos en España. Presta especial atención a la descripción de la variable
dependiente y las variables explicativas, el modelo estimado y la tabla 5 con los
resultados de la estimación.
Accede al documento a través del aula virtual o desde la siguiente dirección web:
http://www.revecap.com/revista/numeros/41/pdf/bel.pdf
Estadística II
34
Tema 6. A fondo
Econometría básica aplicada a Gretl
Esteban, M. V. et al. (2009). Econometría básica aplicada con Gretl. EHU/UPV: Sarriko-on
Se trata de un interesante manual el cual te permitirá familiarizarte con Gretl al

tiempo que estudias los conceptos de este tema. Está redactado de modo sencillo
con ejemplos reales que te van guiando paso a paso por la teoría y por el uso del
software Gretl. Puedes consultar los capítulos 2 y 3.
Accede al documento a través del aula virtual o desde la siguiente dirección web:
http://www.et.bs.ehu.es/~etpesgov/VirtualCompleto.pdf
Estadística II
35
Tema 6. A fondo
Test
1. En el modelo de regresión 𝑌𝑌 = 𝛽𝛽0 + 𝛽𝛽1 · 𝑋𝑋 + 𝜀𝜀:
A. Si el modelo es no significativo entonces 𝛽𝛽1 = 0.
B. Si el modelo es significativo entonces 𝛽𝛽1 = 0.
C. Si el modelo es no significativo entonces 𝛽𝛽0 = 0 y 𝛽𝛽1 = 0.
D. Si el modelo es significativo entonces 𝛽𝛽0 = 0.
2. Supongamos que el coeficiente de determinación vale cero, entonces:

A. La recta de regresión es vertical.
B. La recta de regresión es horizontal.
C. La recta de regresión podría ser oblicua.
D. El ajuste de la recta de regresión es perfecto.
3. Si el modelo de regresión 𝑌𝑌 = 𝛽𝛽0 + 𝛽𝛽1 · 𝑋𝑋 + 𝜀𝜀 resulta ser significativo, entonces:

A. El coeficiente 𝛽𝛽0 representa el incremento de X por cada unidad que se
incrementa Y.
B. El coeficiente 𝛽𝛽0 representa el incremento de Y por cada unidad que se
incrementa X.
C. El coeficiente 𝛽𝛽1 representa el incremento de X por cada unidad que se
incrementa Y.
D. El coeficiente 𝛽𝛽1 representa el incremento de Y por cada unidad que se
incrementa X.
4. Si 𝛽𝛽𝛽𝛽 (−1,25 ; 2,03) a un nivel de confianza del 95 %, entonces, si formulamos las

𝐻𝐻0 : 𝛽𝛽 = 2
hipótesis � :
𝐻𝐻1 : 𝛽𝛽 ≠ 2
A. Rechazamos la hipótesis nula a un nivel de confianza del 95 %.
B. No rechazamos la hipótesis nula a un nivel de confianza del 95 %.
C. No podemos tomar una decisión si realizar el contraste.
D. No guardan relación el intervalo de confianza y el contraste de hipótesis.
Estadística II
36
Tema 6. Test
5. (1-R2) % expresa:
A. El porcentaje de variabilidad de la variable X que es explicado por la variable Y.
B. El porcentaje de variabilidad de la variable X que no es explicado por la variable
Y.
C. El porcentaje de variabilidad de la variable Y que es explicado por la variable X.
D. El porcentaje de variabilidad de la variable Y que no es explicado por la variable
X.
6. Si 𝑅𝑅2 = 1, entonces:
A. Todos los puntos están sobre la recta de regresión.
B. Ningún punto está sobre la recta de regresión.
C. La pendiente es la unidad.
D. La recta pasa por el origen de coordenadas.
7. Al realizar la regresión lineal por el método de estimación por mínimos cuadrados

se garantiza que:
A. Las predicciones sean exactas, es decir, máxima exactitud.
B. Los coeficientes estimados tomen valores muy pequeños tendiendo a cero.
C. Los errores de predicción sean mínimos.
D. Ninguna de las anteriores.
8. En el contraste de significatividad de la pendiente se obtuvo un p-valor=0,001.

Podemos afirmar a un nivel de confianza del 99 % que:
A. Existe una relación lineal entre las variables X e Y.
B. No existe relación lineal entre las variables X e Y.
C. Existe relación no necesariamente lineal entre las variables X e Y.
D. Ninguna de las anteriores.
Estadística II
37
Tema 6. Test
9. Si en el contraste de significatividad de la pendiente se rechaza la hipótesis nula a
cierto nivel de confianza, entonces, a ese nivel podemos afirmar que:
A. Los coeficientes α y β son nulos.
B. Los coeficientes α y β son nulos.
C. El intervalo de confianza para la pendiente contendrá el cero.
D. El intervalo de confianza para la pendiente no contendrá el cero.
10. Considera el modelo de regresión lineal 𝑦𝑦𝑖𝑖 = 𝛽𝛽0 + 𝛽𝛽1 𝑥𝑥1𝑖𝑖 + 𝑢𝑢𝑖𝑖 . Se obtiene la
siguiente muestra de 4 elementos:
𝑥𝑥1𝑖𝑖 3 2 4 2
𝑦𝑦𝑖𝑖 -2 1 -1 0
A. La estimación mediante MCO de 𝛽𝛽0 y 𝛽𝛽1 es 𝛽𝛽̂0 = −0,9𝛽𝛽̂1 = 2

B. La estimación mediante MCO de 𝛽𝛽0 y 𝛽𝛽1 es 𝛽𝛽̂0 = 2𝛽𝛽̂1 = −0,9
C. La estimación mediante MCO de 𝛽𝛽0 y 𝛽𝛽1 es 𝛽𝛽̂0 = 2,5𝛽𝛽̂1 = −0,5
D. La estimación mediante MCO de 𝛽𝛽0 y 𝛽𝛽1 es 𝛽𝛽̂0 = −0,5𝛽𝛽̂1 = 2,5
Estadística II
38
Tema 6. Test

Tema6 El Caso Particular de La Inferencia en El Modelo de Regresion Lineal

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema6 El Caso Particular de La Inferencia en El Modelo de Regresion Lineal

Cargado por

Copyright:

Formatos disponibles

Tema 6

recta de regresión poblacional 21

Coeficiente de Pendiente poblacional Predicciones

6.1. Introducción y objetivos

Hasta ahora hemos aplicado todas herramientas de inferencia estadística aprendidas

Vamos a estudiar en este tema un caso particular de aplicación de estas herramientas

Recordaremos en primer lugar este modelo y veremos cómo se va a realizar

Veamos un ejemplo. Supongamos que para cada trabajador disponemos de su

rentables para la empresa. Este tipo de análisis se realizan mediante el modelo de

6.2. El modelo de regresión lineal simple

Definición del modelo de regresión lineal simple

En este apartado vamos a construir un modelo de regresión simple. Este modelo

La variable Y recibe así el nombre de variable dependiente o explicada, y la variable

El modelo lineal se escribe del siguiente modo:

 Aleatoria: una parte no explicada linealmente por X, es decir: 𝜀𝜀 .

Te será fácil aprender esta metodología si recuerdas que se trata de un concepto ya

Dicha recta se construye a partir de la nube de punto o diagrama de dispersión que

Efecto de los precios sobre el importe neto de la cifra de negocios.

Se quiere analizar cuál es el efecto que el precio (en euros) de un

El modelo que deberá especificarse para cuantificar dicha relación es el

𝑖𝑖𝑖𝑖𝑝𝑝𝑖𝑖 = 𝛽𝛽0 + 𝛽𝛽1 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑜𝑜𝑖𝑖 + ui

Con el objetivo de cuantificar la relación, se toma una muestra de N

Los datos presentados a continuación permiten representar dicha

Tabla simple (Y, X)

Figura 1. Gráfico de dispersión o nube de puntos. (Elaboración propia).

Dada la representación de la información para las 7 empresas dadas, se

Supuestos de partida para la construcción y estimación del modelo de

Suelen realizarse los siguientes supuestos:

 Linealidad: la relación existente entre X e Y es lineal. Es preciso que tengan un

aspecto razonablemente recto para realizar el ajuste. La hipótesis de linealidad es

varianza, 𝑉𝑉(𝜀𝜀𝑖𝑖 ) = 𝜎𝜎𝜀𝜀2 para i= 1, 2,…, n.

 Normalidad: las variables aleatorias 𝜀𝜀𝑖𝑖 se distribuyen normalmente, 𝑁𝑁(0, 𝜎𝜎𝜀𝜀2 ).

Vemos visualmente en los gráficos presentados a continuación, que significa que

En la figura 2 se observa que, en el gráfico de la izquierda, la variabilidad existente en

Figura 2. Homocedasticidad y Heterocedasticidad. (Elaboración propia).

6.3. Estimación puntual: el método de los mínimos

Veremos, por tanto:

 Cómo obtener estimaciones puntuales de estos parámetros en base a una

 Cómo construir intervalos de confianza para los parámetros del modelo de

 Cómo realizar contrastes de hipótesis asumiendo bajo la hipótesis nula

determinados valores para los parámetros del modelo de regresión lineal.

El método de búsqueda del estimador puntual para los parámetros a estimar,

Efecto de los precios sobre el importe neto de la cifra de negocios

Sobre el ejemplo anterior puede ser estimada la recta de regresión sobre

Figura 3. Gráfico de dispersión o nube de puntos y recta de regresión. (Elaboración propia).

La recta punteada representa la recta de regresión realizada mediante la

metodología del ajuste Mínimos Cuadrados Ordinarios.

Dichas distancias de cada punto a la recta se conocen como errores de estimación y

𝑆𝑆𝑆𝑆𝑆𝑆 = � 𝑒𝑒𝑖𝑖2 = �(𝑦𝑦𝑖𝑖 − 𝑦𝑦�𝑖𝑖 )2

Derivando la expresión anterior (puedes encontrar esto desarrollado en el recurso 1

𝛽𝛽̂0 = 𝑦𝑦� − 𝑏𝑏𝑥𝑥�

El concepto de la varianza residual

Un estimador insesgado de la varianza de los errores es la varianza residual:

∑𝑛𝑛𝑖𝑖=1 𝑒𝑒i2 ∑𝑛𝑛𝑖𝑖=1(𝑦𝑦𝑖𝑖 − 𝑦𝑦�𝑖𝑖 )2

Otra posible fórmula para la estimación de la varianza del error es:

Efecto de los precios sobre el importe neto de la cifra de negocios

Vamos en este ejemplo a obtener los valores de los coeficientes

Realizamos una serie de cálculos previos antes de pasar a aplicar las

Ahora aplicamos las fórmulas de los estimadores:

𝛽𝛽̂0 = 𝑌𝑌� − 𝛽𝛽1 · 𝑋𝑋

Por tanto, el modelo de regresión lineal:𝑦𝑦�𝑖𝑖 = 20,2047 + (−0,7754) · 𝑥𝑥𝑖𝑖

Figura 3. Ecuación de la recta de regresión calculada con Excel. (Elaboración propia).

Si la variable x=0, la cifra de negocios tendría un valor esperado de -

Se podría calcular la varianza residual calculando los residuos y después