MR Tema1 Apuntamentos

Modelos de regresión - Máster en Técnicas Estadísticas 2022-2023
Tema 1. Modelo de regresión lineal simple
Área de Estatística e I.O., USC
Índice
1. Introducción 1
2. Elementos de un modelo de regresión: el modelo lineal 3
2.1. Hipótesis del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2. Tipo de diseño . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3. Estimación de los parámetros por mínimos cuadrados 6
4. Propiedades de los estimadores 8
4.1. Propiedades de βb1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
4.2. Propiedades de βb0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
4.3. Estimador de σ 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
5. Inferencia sobre los parámetros 10
5.1. Inferencia sobre β0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
5.2. Inferencia sobre β1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
5.3. Inferencia sobre σ 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
6. Descomposición de la variabilidad. El test F 15
7. Predicción 18
7.1. Estimación de la media condicionada . . . . . . . . . . . . . . . . . . . . . . . . . . 18
7.2. Predicción de una nueva observación . . . . . . . . . . . . . . . . . . . . . . . . . . 19
I
1. Introducción
Para representar la dependencia de una variable Y (variable dependiente, variable respuesta) con
respecto a otra variable X (variable independiente, variable explicativa), se utilizan los modelos de
regresión. En este tema trataremos el modelo de regresión lineal simple.
Aunque los modelos de regresión fueron utilizados con anterioridad en Astronomía y Física por
Laplace y Gauss, su nombre genérico, modelos de regresión, proviene de los trabajos de Galton
en Biología a finales del siglo XIX. Galton estudió la dependencia de la estatura de los hijos (Y )
respecto a la de sus padres (X ), encontrando lo que denominó una regresión a la media: los padres
altos tienen en general hijos altos, pero en promedio no tan altos como sus padres; los padres
bajos tienen hijos bajos, pero en promedio más altos que sus padres. Desde entonces, los modelos
estadísticos que explican la dependencia de una variable Y respecto de una o varias variables X
se denominan modelos de regresión.
Los modelos de regresión se diseñan con dos objetivos:
Conocer de qué modo la variable Y depende de X ; en este sentido, el modelo de regresión

permite describir la forma de dependencia.
Realizar predicciones, una vez construido el modelo de regresión, podemos utilizarlo para
predecir el valor de Y , cuando se conoce el valor de X .
Por ejemplo, podemos pensar en un modelo de regresión que represente el crecimiento de bac-
terias que producen caries, en función de la concentración de azúcar. En este caso, la variable Y
(respuesta) sería el crecimiento bacteriano, medido por el número de bacterias al cabo de un cierto
tiempo; mientras que la concentración de azúcar sería la variable X (explicativa).
Resulta muy interesante disponer de un modelo de regresión que represente cómo evoluciona el
crecimiento bacteriano según sea la concentración de azúcar. En principio, parece que concentra-
ciones altas de azúcar darán lugar a un mayor crecimiento bacteriano, pero además, el modelo
de regresión servirá para predecir el crecimiento bacteriano cuando se conoce la concentración
de azúcar, y esta predicción será mucho más precisa que la que podríamos obtener sin tener en
cuenta la concentración de azúcar.
Los modelos de regresión se pueden comparar con otros modelos de las ciencias experimentales,
como las leyes de los gases ideales o las leyes de la gravitación, que se suelen plantear como
modelos deterministas: conocidas las variables explicativas la variable respuesta se puede prede-
cir con total exactitud. En el ejemplo de los gases, conocida la temperatura, podemos predecir la
presión que ejercerá el gas.
Sin embargo, en la vida real a menudo la predicción con exactitud es imposible, y en su lugar ne-
cesitamos modelos que permitan aprovechar el conocimiento de variables explicativas, pero que
Modelos de regresión.Área de Estadística e IO de la USC

además incorporen una componente de error impredecible, que vendría ocasionado por errores de
medida, por la influencia de otras variables no controlables, o por una aleatoriedad intrínseca a
la variable respuesta. Cuando un modelo matemático incorpora una componente aleatoria se dice
que es un modelo estocástico. Los modelos de regresión que vamos a estudiar en este tema son
modelos estocásticos.
Ejemplo. En este tema consideraremos el ejemplo de Sheather (2009) sobre tiempos en una cade-
na de producción. Se pretende explicar el tiempo de producción en función del tamaño del pedido.
Para ello se dispone, en una muestra de 20 pedidos, del tiempo (en minutos) que lleva producir
cada pedido, que será la variable respuesta, junto con el número de unidades solicitadas en cada
pedido que será la variable explicativa. Los datos figuran a continuación:
RunTime RunSize
195 175
215 189
243 344
162 88
185 114
231 338
234 271
166 173
253 284
196 277
220 337
168 58
207 146
225 277
169 123
215 227
147 63
230 337
208 146
172 68
Estamos ante un problema de regresión, pues interesa conocer la dependencia que presenta el
tiempo empleado, en función del número de unidades del pedido. Además, será necesario predecir
el tiempo, Y , para poder atender un pedido cuyas unidades son X .

En la siguiente figura se representa el diagrama de dispersión de Y frente a X para el ejemplo:
Diagrama de dispersión
240
220
Run Time
200
180
160
50 100 150 200 250 300 350
Run Size
Figura 1: diagrama de dispersión para el tiempo de producción (Run Time) frente al número de
unidades (Run Size), para 20 pedidos.
2. Elementos de un modelo de regresión: el modelo lineal
En términos generales, la regresión se suele formalizar como la media condicionada de la variable

respuesta en función del valor que tome la variable explicativa. Se trataría, pues, de la función
siguiente:
m(x) = E(Y /X = x), para cada posible valor x de X.
Por tanto, podemos descomponer la variable respuesta en función del resultado de X (a través de
la media condicionada), más un error:
Y = m(X) + ε,
donde ε se conoce como error y verifica E(ε/X = x) = 0 para todo x. Este es el concepto de
regresión en los términos más generales.
Para construir el modelo de regresión específico en cada caso, se tiene en cuenta el número de
variables explicativas, el número de variables respuesta, el tipo de las mismas (discretas, continuas,
categóricas, ...), la forma de la función de regresión (lineal, polinómica, ...), el tipo de distribución
del error, la forma de obtener los datos muestrales, y otros aspectos que permiten determinar el
modelo adecuado.
En este primer tema, se considerará un modelo muy sencillo de regresión: modelo de regresión
lineal simple. En este modelo tanto la variable respuesta Y , como la variable explicativa X , se

suponen univariantes, esto es, cada una de ellas refleja el valor de una sola característica, y ambas
serán además continuas.
2.1. Hipótesis del modelo
Las hipótesis básicas sobre las que se sustenta este modelo son:
Linealidad. La función de regresión es una línea recta. En consecuencia, el modelo puede

escribirse como
Y = β0 + β1 X + ε,
donde β0 y β1 son parámetros desconocidos, y ε es una variable aleatoria no observable que

contiene la variabilidad no atribuible a la variable explicativa sino debida a errores de medición
u otros factores no controlables (término de error).
Homocedasticidad. La varianza del error es la misma cualquiera que sea el valor de la

variable explicativa, esto es, Var(ε/X = x) = σ 2 para todo x.
Normalidad. El error tiene distribución Normal, es decir, ε ∈ N 0, σ 2 .

Independencia. Las variables aleatorias que representan los errores ε1 , . . . , εn son mutua-
mente independientes, entendiendo que vamos a obtener una muestra de n observaciones
bajo el modelo de regresión. Esta suposición dice que los n errores (no observados) serían
mutuamente independientes.
La hipótesis de linealidad consiste en suponer que la media de la variable respuesta toma un valor
inicial β0 cuando la variable explicativa x vale cero, y además dicha media crece en una cantidad
fija β1 cada vez que x se incrementa en una unidad.
La hipótesis de linealidad hace que estemos ante un modelo paramétrico, porque supone que la
función de regresión es una recta que deja libertad al valor concreto de la pendiente β1 y la ordenada
en el origen β0 . Estos valores, son parámetros desconocidos a nivel teórico, que debemos estimar
en base a una muestra (X1 , Y1 ), . . . , (Xn , Yn ).
Las hipótesis de homocedasticidad y Normalidad constituyen simplificaciones muy útiles para poder
llevar a cabo las tareas de inferencia bajo un modelo de regresión general, y en particular también
para el caso del modelo lineal.
Finalmente, la suposición de independencia de los errores es conveniente para poder desarrollar

inferencia.

2.2. Tipo de diseño
Para poder estimar los parámetros del modelo, β0 y β1 , necesitamos una muestra. La forma de
obtener esa muestra se verá reflejada en lo que se denomina tipo de diseño experimental. En este
caso consideraremos dos posibilidades:
Diseño fijo. Los valores de la variable explicativa están fijados por el experimentador, de
acuerdo a un diseño conveniente de cara a la viabilidad del experimento o a su eficiencia
estadística.
Por ejemplo, podemos fijar distintas concentraciones de azúcar y medir el crecimiento bacte-
riano que se obtiene en cada una de ellas.
En este caso los valores de la variable explicativa no son aleatorios, y sólo es aleatorio el
error y, en consecuencia, la variable respuesta. Por tanto, la muestra resultante de un diseño
fijo sería del tipo (x1 , Y1 ) , . . . , (xn , Yn ).
Diseño aleatorio. En este caso tanto la variable explicativa como la variable respuesta son
aleatorias.
Por ejemplo, nos interesa un modelo de regresión donde la variable explicativa sea el tamaño
de los peces de cierta especie (medido mediante la longitud) y la variable respuesta sea la
concentración de cierto ácido graso. Si el experimento consiste en tomar peces al azar en
un río y medir su longitud y su concentración del ácido graso, entonces ambas variables son
aleatorias y por tanto se trata de un diseño aleatorio.
En definitiva, la muestra reultante de un diseño aleatorio sería del tipo:
(X1 , Y1 ) , . . . , (Xn , Yn )
En adelante supondremos diseño fijo. Aún así, según se vayan obteniendo los procedimientos es-
tadísticos, iremos indicando en qué medida se pueden aplicar bajo diseño aleatorio.
En resumen, un modelo de regresión lineal simple, homocedástico, con errores Normales e in-
dependientes, del que extraemos una muestra bajo diseño fijo nos proporciona datos del tipo
(x1 , Y1 ), . . . , (xn , Yn ), donde x1 , . . . , xn son valores fijados por el experimentador, mientras que
Yi = β0 + β1 xi + εi , para i ∈ {1, . . . , n},
siendo ε1 , . . . , εn ∈ N (0, σ 2 ) independientes.

En el ejemplo observando la Figura 1, parecen cumplirse las hipótesis de linealidad, homocedasti-

cidad, Normalidad de los errores e independencia. Asimismo, se trata de un diseño aleatorio, pues
no se han fijado los tamaños de los pedidos, sino que se tomaron directamente de la experiencia de
la empresa. Para que fuera un diseño fijo, la empresa tendría que producir ex profeso ciertos lotes
con tamaños fijados, con el propósito de estimar el modelo.
En el tema siguiente veremos cómo valorar si se cumplen las suposiciones del modelo. De momen-
to, las asumimos como ciertas.
3. Estimación de los parámetros por mínimos cuadrados
En esta sección obtendremos estimadores para los parámetros β0 y β1 en base a una muestra
(x1 , Y1 ), . . . , (xn , Yn ). Supondremos las hipótesis de linealidad, homocedasticidad, Normalidad, di-
seño fijo e independencia de los errores.
Recordemos que la recta de regresión se va a usar para predecir el valor de Y a partir de un valor
de x. Así, denotando por βb0 y βb1 los estimadores de los parámetros, para el valor x de la variable
explicativa daríamos la predicción βb0 + βb1 x de la variable respuesta. Aplicando esto a los datos
muestrales, para el valor observado xi tendríamos la predicción Ybi = βb0 + βb1 xi , mientras que
hemos observado Yi . En definitiva, tendríamos los siguientes errores de predicción:
εbi = Yi − Ybi = Yi − βb0 − βb1 xi , para i ∈ {1, . . . , n},
los cuales se denominan residuos de la regresión (véase Figura 2 para una representación de los
residuos sobre los datos del ejemplo).
La idea consiste en escoger los estimadores βb0 y βb1 que den lugar a los residuos más pequeños.
Con este objetivo, y para evitar que se compensen los residuos positivos con los negativos, se
usa la suma de los cuadrados de los residuos como criterio a minimizar. Así, los estimadores por
mínimos cuadrados son βb0 y βb1 tales que
n
X 2 n
X
Yi − βb0 − βb1 xi = mı́n (Yi − β0 − β1 xi )2
β0 ,β1
i=1 i=1
La minimización se realiza calculando las derivadas parciales respecto de β0 y β1 , igualándolas a

cero y despejando de ambas ecuaciones los valores de β0 y β1 candidatos a mínimo. El cálculo
de las segundas derivadas prueba que en efecto constituyen un mínimo absoluto de la suma de
cuadrados de los residuos. Como resultado se obtienen los estimadores
SxY SxY
βb0 = Y − 2 x y βb1 = 2 ,
Sx Sx

240
220
Run Time
200
180
160
50 100 150 200 250 300 350
Run Size
Figura 2: Diagrama de dispersión para el tiempo de producción (Run Time) frente al número de
unidades (Run Size) con recta ajustada por mínimos cuadrados. Los segmentos verticales repre-
sentan los residuos de la regresión.
Pn
1
Y = n1 ni=1 Yi son las medias respectivas de la variable explicativa y la
P
donde x = n i=1 xi ,
= n1 ni=1 (xi − x)(Yi − Y ) es la covarianza y Sx2 = n1 ni=1 (xi − x)2 es la
P P
variable respuesta, SxY
varianza muestral de la variable explicativa.
La recta de regresión estimada por mínimos cuadrados es la que pasa por el vector de medias o
SxY
centro de gravedad, (x, Y ), y tiene pendiente βb1 = Sx2
.
Sobre el ejemplo. Si consideramos el modelo Y = β0 + β1 x + ε, las estimaciones por mínimos

cuadrados para β0 y β1 son:
βb0 = 149.748, βb1 = 0.259.
Estas estimaciones las podemos obtener utilizando la función lm de .
La varianza del error, σ 2 , también es desconocida, y podemos estimarla mediante

n n
2 1 X 2 1 X 2
σ
b = εbi = Yi − βb0 − βb1 xi .
n−2 n−2
i=1 i=1
Empleamos la suma de cuadrados de los residuos, pero dividimos por (n − 2) en lugar de hacerlo
por n, para que el estimador sea insesgado. Esto se debe a que se han tenido que estimar dos
parámetros β0 y β1 .
Sobre el ejemplo. La función lm, además de proporcionar los valores de los coeficientes estimados
por mínimos cuadrados, también proporciona los residuos de la regresión. La estimación de la

varianza del error puede obtenerse sumando sus componentes al cuadrado y dividiendo por (n−2).
Como resultado se obtiene:
1
b2 = (195 − 149.7 − 0.295 ∗ 175)2 + · · · + (172 − 149.7 − 0.295 ∗ 68)2

σ
20 − 2
1
(−0.115)2 + · · · + (4.624)2 = 264.14

=
18
La desviación típica del error se estimaría simplemente calculando la raíz cuadrada del valor ante-
rior:
√
σ
b= 264.14 = 16.25
4. Propiedades de los estimadores
En esta sección estudiaremos las propiedades de los estimadores que acabamos de obtener. Para
deducir las propiedades vamos a emplear las suposiciones de linealidad, homocedasticidad, Nor-
malidad, diseño fijo e independencia que hemos considerado en la construcción del modelo.
4.1. Propiedades de βb1
El estimador de la pendiente se puede expresar como

Pn n n
SxY i=1 (xi − x)(Yi − Y ) X (xi − x) X
βb1 = 2 = = (Yi − Y ) = ωi (Yi − Y ),
Sx nSx2 nSx2
i=1 i=1
(xi −x)
donde los pesos ωi = nSx2
sólo dependen de los valores de la variable explicativa, y por tanto no
son aleatorios, pues estamos trabajando bajo diseño fijo.
En consecuencia, podemos calcular la esperanza así:

n n
X (a) X (xi − x)
E βb1 = ωi E Yi − Y = β1 (xi − x) = β1 .
nSx2
i=1 i=1
En la igualdad (a) hemos empleado la suposición de linealidad, y observamos que βb1 es un estima-
dor insesgado de β1 .
Para obtener la varianza, nos conviene expresar βb1 así:

n
X n
X
βb1 = ωi (Yi − Y ) = ωi Yi ,
i=1 i=1

Pn
lo cual es correcto ya que i=1 ωi = 0. Entonces
n n 2
(a) X (b) X (xi − x) σ2
Var βb1 = ωi2 Var (Yi ) = σ 2
= .
n2 Sx4 nSx2
i=1 i=1
En la igualdad (a) hemos usado la suposición de independencia y en la igualdad (b) la homocedas-

ticidad.
De esta expresión deducimos que la varianza del estimador de la pendiente será:
a) Tanto mayor cuanto mayor sea la varianza del error, σ 2 . Esto es lógico pues al aumentar la
varianza del error, los datos aparecerán más alejados de la recta de regresión, y será más
difícil estimar los parámetros de la recta en base a ellos.
b) Será más pequeña si los valores x1 , . . . , xn tienen mucha dispersión.
c) Será más pequeña si disponemos de muchos datos, o lo que es lo mismo, si el tamaño

muestral n es grande.
Por último, bajo la suposición de Normalidad, el estimador βb1 también tiene distribución Normal,
pues es combinación lineal de las variables Y1 , . . . , Yn que son Normales e independientes.
Por tanto, podemos afirmar que

σ2

βb1 ∈ N β1 , .
nSx2
4.2. Propiedades de βb0
La ordenada en el origen, β0 , es el valor que toma la recta de regresión cuando x = 0. Salvo

en las pocas ocasiones en que nos interese la media de la variable respuesta cuando la variable
explicativa tome el valor cero, la ordenada en el origen tiene poco interés, y en general mucho menos
que la pendiente. Aún así, calcularemos la esperanza y la varianza del estimador βb0 , y veremos que
presenta distribución Normal, todo ello mediante argumentos muy similares a los empleados con
βb1 .
Como βb0 = Y − βb1 x, entonces

E βb0 = E Y − xE βb1 = β0 + β1 x − xβ1 = β0 ,
y en consecuencia βb0 es un estimador insesgado de β0 .
Para calcular la varianza, vamos a expresar βb0 así:

n n n
X Yi X X 1
βb0 = Y − βb1 x = − xωi Yi = − xωi Yi .
n n
i=1 i=1 i=1

De este modo,
n 2 n
x2

(a) X 1 (b) 2 X 1 2 2 xωi (c) 2 1
Var β0 =
b − xωi Var (Yi ) = σ + x ωi − 2 =σ + .
n n2 n n nSx2
i=1 i=1
En la igualdad (a) hemos usado la suposición de independencia, en la igualdad (b) la homocedas-

Pn Pn 2 1
ticidad y en la igualdad (c) hemos aplicado que i=1 ωi = 0 y que i=1 ωi = nSx2
.
Podemos descomponer esta expresión de la varianza en dos términos: σ 2 /n y (σ 2 x2 )/(nSx2 ), que

asociamos respectivamente con Y y βb1 x, de cuya diferencia se obtiene βb0 . Así, σ 2 /n es la parte
de la varianza de βb0 que se debe a la estimación de la media Y , mientras que (σ 2 x2 )/(nSx2 ) es la
parte asociada a la estimación de la pendiente. Aquí el factor x2 indica que cuanto más lejos esté
x del origen, más varianza tendrá el estimador de la ordenada en el origen, siendo por tanto más
impreciso.
Pn 1

Igual que antes, al haber expresado βb0 = i=1 n − xωi Yi , y en consecuencia como combinación
lineal de las variables Y1 , . . . , Yn , bajo suposición de independencia y Normalidad tendríamos que
βb0 tiene distribución Normal.
Por tanto, podemos afirmar que

x2

2 1
βb0 ∈ N β0 , σ + .
n nSx2
4.3. Estimador de σ 2
Para el estimador de la varianza del error, una demostración algo más compleja que las anteriores
y que vamos a omitir, nos conduciría a la siguiente distribución de tipo ji-cuadrado:
σ2
(n − 2)b
∈ χ2n−2 .
σ2
b2 es un estimador insesgado de σ 2 . De hecho, la aparición de (n − 2)
De aquí se deduce que σ
grados de libertad es el motivo por el que hemos dividido la suma de cuadrados de los residuos por
(n − 2), en lugar de por n, para calcular el estimador de la varianza.
5. Inferencia sobre los parámetros
Hasta aquí hemos visto cómo se estiman los parámetros β0 , β1 y σ 2 involucrados en el modelo
lineal simple, y hemos analizado las propiedades de los estimadores: esperanza, varianza y distri-
bución. En esta sección realizaremos las otras dos tareas de la Inferencia: intervalos de confianza
y contraste de hipótesis; para cada uno de ellos.

5.1. Inferencia sobre β0
Empezamos recordando que la desviación típica de un estimador se conoce como su error típi-
co, que es la característica principal de los estimadores insesgados y simétricos, como son βb0 y
βb1 . Realmente en la sección anterior hemos calculado la varianza de estos estimadores, así que
efectuando una raíz cuadrada ya llegaríamos al error típico.
En concreto, para β0 tendríamos que

s
1 x2
Error Típico βb0 = σ + .
n nSx2
Para construir intervalos de confianza o realizar contrastes de hipótesis, podríamos usar como
pivote la estandarización de βb0 , esto es:
βb − β0
q0 ∈ N (0, 1),
x2
σ n1 + nS 2
x
aunque para ello habría que conocer la varianza del error, σ 2 .
Como lo más habitual es que σ 2 sea desconocida, se suele estimar el error típico mediante
s
\
1 x2
Error Típico βb0 = σ + ,
n nSx2
b
para después recurrir al pivote

βb0 − β0
T = q ∈ Tn−2
x2
b n1 + nS
σ 2
x
donde la distribución Normal estándar se ha sustituido por la T de Student.
En base a este pivote, el intervalo de confianza para β0 con nivel de confianza (1 − α), estará
centrado en βb0 , y su radio será el producto del cuantil de la T de Student por el error típico estimado:
s s !
1 x2 1 x2
βb0 − tα/2 σ + , βb0 + tα/2 σ +
n nSx2 n nSx2
b b
Para el contraste de hipótesis relativas a β0 también podemos utilizar este estadístico pivote, así,
por ejemplo, rechazaremos la hipótesis nula H0 : β0 ≥ 2 en favor de Ha : β0 < 2 si
βb − 2
q0 < −tn−2,α .
x2
b n1 + nS
σ 2
x

5.2. Inferencia sobre β1
Para la pendiente, β1 , el pivote sería
βb1 − β1
√ ∈ N (0, 1), si σ es conocida,
σ/ (Sx n )
y
βb1 − β1
√ ∈ Tn−2 , si σ es desconocida.
σ
b/ (Sx n )
De nuevo, como σ 2 suele ser desconocida, se estima el error típico mediante

σ
√ ,
\ b
Error Típico βb1 =
Sx n
y se construye el intervalo de confianza para β1 con nivel de confianza (1 − α), de la siguiente

manera:
σ σ
βb1 − tn−2,α/2 √ , βb1 + tn−2,α/2 √
b b
,
Sx n Sx n
lo cual vuelve a estar centrado en el estimador βb1 , y tiene de radio el producto del cuantil de la T de
Student por el error típico estimado.
En cuestión de contraste, una hipótesis nula del tipo H0 : β1 = 3 se rechazaría en favor de la

hipótesis alternativa Ha : β1 6= 3 si

β1 − 3
b
= √ > tn−2,α/2 .
σ
b/ (Sx n )
Tiene especial interés el contraste de la hipótesis nula H0 : β1 = 0, pues de ser cierta esta hipó-
tesis la función de regresión sería una recta horizontal, y nos encontraríamos con que la variable
explicativa no influye en la variable respuesta. Así, rechazaremos H0 : β1 = 0 si

β1
b
= √ > tn−2,α/2 ,
σ
b/ (Sx n )
y en tal caso diremos que βb1 ha tomado un valor significativamente distinto de cero.
5.3. Inferencia sobre σ 2
Para la varianza del error, σ 2 , el pivote sería
σ2
(n − 2)b
∈ χ2n−2 .
σ2

En base a este pivote, el intervalo de confianza para σ 2 con nivel de confianza (1 − α), se puede
construir así !
(n − 2)bσ 2 (n − 2)b
σ2
, .
χ2n−2,α/2 χ2n−2,1−α/2
En el caso del contraste, se rechazaría, por ejemplo, la hipótesis nula H0 : σ 2 ≥ 4 en favor de la

alternativa Ha : σ 2 < 4 si
σ2
(n − 2)b
< χ2n−2,1−α .
4
b2 no es simétrico en
En este caso no se emplea el concepto de error típico, porque el estimador σ
torno a σ 2 , y de hecho tampoco se obtienen intervalos de confianza simétricos en torno al estimador
b2 .
σ
Sobre el ejemplo. Utilizando la función summary sobre el modelo de regresión ajustado, se obtiene
la siguiente salida de resultados:
> summary(m1)
Call:
lm(formula = RunTime ~ RunSize)
Residuals:
Min 1Q Median 3Q Max
-28.597 -11.079 3.329 8.302 29.627
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 149.74770 8.32815 17.98 6.00e-13 ***
RunSize 0.25924 0.03714 6.98 1.61e-06 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 16.25 on 18 degrees of freedom

Multiple R-squared: 0.7302, Adjusted R-squared: 0.7152
F-statistic: 48.72 on 1 and 18 DF, p-value: 1.615e-06
En esta salida podemos distinguir los siguientes elementos:
Bajo el título Call: se presenta el modelo en lenguaje .

Bajo el título Residuals: se presenta un estudio descriptivo, en términos de cuantiles, de los

residuos.
Bajo el título Coefficients: se ofrecen los elementos básicos de inferencia para los paráme-
tros de la recta.
Estimate Son las estimaciones de los coeficientes.

Std. Error Son los errores típicos.
t value Son los cocientes entre las estimaciones y los errores típicos.
Pr(>|t|) Son los niveles críticos para el contraste de que el coeficiente vale cero.
Las tres últimas líneas presentan un estudio de la variabilidad, donde en este ejemplo pode-
mos extraer:
La desviación típica del error (dice residual, por ser su valor estimado con los residuos) es
16.25, lo cual se calculó con 18 grados de libertad.
El coeficiente de determinación (cuadrado del coeficiente de correlación) vale 0.7302. En
el próximo tema estudiaremos el coeficiente de determinación, su significado e inter-
pretación como medida de la calidad del modelo. También veremos el coeficiente de
determinación ajustado, que en esta salida arroja el valor 0.7152.
La última línea proporciona los resultados del test F , que se estudia en la próxima sección.
Figura el valor del estadístico 48.72, los grados de libertad de numerador y denominador,
1 y 18, respectivamente, y el nivel crítico, 1.615x10−6 .
Los asteriscos que acompañan a los niveles críticos son una simbología para indicar si
hay mucha significación. Aparecen tres asteriscos si el nivel crítico es inferior a 0.001 (el
uno por mil), dos asteriscos si está entre 0.01 y 0.001 (entre el uno por mil y el uno por
cien), y así sucesivamente según se explica en la línea titulada Signif. codes:.
Nótese que el "t value" es el estadístico para el contraste de que el coeficiente vale cero. La pro-
babilidad que deja a ambos lados de la distribución T de Student es el nivel crítico que figura en la
columna "Pr(>|t|)".
A la vista de estos reultados, podemos deducir, por ejemplo, que la pendiente de la recta de regre-
sión es significativamente distinta de cero, dicho de manera más detallada, la pendiente estimada
es distinta de cero y constituye una prueba significativa de que la "verdadera pendiente" es distinta
de cero. En este ejemplo, si la pendiente fuera cero, estaríamos en un modelo que predice el mismo
tiempo para cualquier tamaño de pedido, lo cual es contradictorio con los datos.
Para calcular un intervalo de confianza se podría emplear la estimación y el error típico de esta
salida de resultados. Para el cuantil de la T de Student se puede emplear la función qt de . Así,
por ejemplo, el intervalo de confianza para β0 con nivel del 95 % sería:

( 149.75 - 2.10*8.328 , 149.75 + 2.10*8.328 ) = ( 132.25 , 167.24 )
Lo anterior es a modo ilustrativo, pues los intervalos de confianza se pueden obtener directamente
mediante la función confint:
> confint(m1,level=0.95)
2.5 % 97.5 %
(Intercept) 132.2509062 167.2444999
RunSize 0.1812107 0.3372755
Con lo cual, tendríamos que
- IC al 95 % para β0 : ( 132.25 , 167.24 )

- IC al 95 % para β1 : ( 0.181 , 0.337 )
6. Descomposición de la variabilidad. El test F
Los métodos de regresión explican cómo la variable respuesta, Y , se comporta de distinta manera
en función del valor que tome la variable explicativa, X . En consecuencia, parte de la variabilidad
de Y quedaría justificada por la influencia de la variable X , mientras que otra parte sería debida al
error del modelo.
Además, gracias al modelo de regresión podemos obtener predicciones más precisas de Y en

base al valor conocido de X = xi , que si no conociéramos dicho valor. Así, sin tener en cuenta
la variable explicativa X , la mejor predicción que podemos hacer de Y es su media, Y , mientras
que si sabemos que X = xi la predicción será βb0 + βb1 xi , el valor correspondiente en la recta de
regresión. Sin usar la recta de regresión, los residuos obtenidos serían Yi − Y mientras que los
residuos vendrían dados por Yi − βb0 − βb1 xi usando la recta de regresión.
Observemos que la suma de cuadrados de los residuos sin usar la recta de regresión es
Pn
− Y )2 , que dividido por n o (n − 1), da lugar a la varianza o cuasivarianza de Y , que
i=1 (Yi
son medidas de la variabilidad de Y .
Además, los residuos sin tener en cuenta el modelo se pueden escribir como:

Yi − Y = Yi − βb0 − βb1 xi + βb0 + βb1 xi − Y ,
por lo que podemos descomponer (Yi − Y )2 a través del cuadrado de esa suma, y efectuar la suma
en todos los datos, obteniendo:
n n 2 n 2
X 2 X X
Yi − Y = Yi − βb0 − βb1 xi + βb0 + βb1 xi − Y
i=1 i=1 i=1

Es habitual representar esta situación mediante la llamada tabla de análisis de la varianza.
Fuente de variación Suma de cuadrados Grados de libertad

n
X 2
Debida a la regresión βb0 + βb1 xi − Y 1
i=1
n
X 2
Debida al error Yi − βb0 − βb1 xi n−2
i=1
n
X 2
Total Yi − Y n−1
i=1
Como vemos, la variabilidad de toda la muestra se descompone en dos sumandos. El primero de

ellos representa las desviaciones de las predicciones respecto a la media global. Por tanto, sirve
como medición de la variabilidad que podemos explicar en base al modelo de regresión. El segundo
representa las desviaciones de los valores observados Yi respecto de las predicciones, y en con-
secuencia refleja la variabilidad no explicada por la regresión, sino debida al error. Por este motivo,
también se le conoce como varianza residual, pues de hecho se obtiene a través de los residuos
de la regresión.
Esta descomposición de la variabilidad, aparte del interés en sí misma, se suele emplear para
efectuar lo que se conoce como test F , que consiste en contrastar un modelo simple (en este caso
una recta horizontal) con un modelo más complejo (en este caso una recta con pendiente no nula):
H0 : Y = β0 + ε para algún β0
Ha : Y = β0 + β1 X + ε para algún β0 y algún β1
Como vemos, se trata de contrastar si la función de regresión es una recta horizontal, como hipó-
tesis nula, o en su defecto, si hay pruebas significativas de que la función de regresión constituye
una recta no horizontal. En el primer caso no sería necesaria la regresión, pues la media de Y
es la misma, β0 , cualquiera que sea el valor de X , mientras que en el segundo, si la recta no es
horizontal, la regresión aportaría información relevante sobre Y . Por este motivo, se conoce como
un contraste de la regresión. Observamos también que coincide con el contraste de la hipótesis
nula H0 : β1 = 0, que hemos visto anteriormente.
El test F se utiliza para efectuar el contraste de la regresión basado en el estadístico:

Pn b 2
β 0 + b1 xi − Y
β
i=1
Pn 2 ∈ F1,n−2 .
i=1 Yi − βb0 − βb1 xi /(n − 2)
Rechazaremos la hipótesis nula si la variabilidad explicada es grande en comparación con la varia-

bilidad residual, pues esto constituiría una prueba de que la regresión es relevante ya que a ella se

debe una parte sustancial de la variabilidad. Así, si se hubiera fijado un nivel de significación α, se
rechazaría la hipótesis nula cuando el valor del estadístico en la muestra supera al cuantil f1,n−2,α ,
porque se habrían encontrado pruebas significativas a ese nivel de que la función de regresión no
es horizontal.
Se puede ver que el test F es equivalente al test propuesto en la página 12 sobre la significación de
la pendiente, esto es, con hipótesis nula H0 : β1 = 0.
Sobre el ejemplo. En la salida de resultados de la función summary (vista en la sección anterior) ya

se proporcionó el valor del estadístico F, los grados de libertad de numerador y denominador, y el
nivel crítico del test. Se pueden obtener resultados más detallados, incluyendo todos los elementos
de la tabla de análisis de la varianza, mediante la función anova de .
> anova(m1)
Analysis of Variance Table
Response: RunTime
Df Sum Sq Mean Sq F value Pr(>F)
RunSize 1 12868.4 12868.4 48.717 1.615e-06 ***
Residuals 18 4754.6 264.1
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Esta salida de resultados es simplemente la tabla ANOVA, quizá con las columnas colocadas en
otro orden, y con la columna añadida Mean Sq. En concreto, los elementos son:
Df Son los grados de libertad.
Sum Sq Es la suma de cuadrados.
Mean Sq Es lo que se conoce como cuadrado medio, que es la suma de cuadrados dividida por
los grados de libertad. Tiene interés calcular el cuadrado medio, porque el estadístico F no
es más que el cociente de los dos cuadrados medios, el correspondiente a la regresión y el
correspondiente al error (o a los residuos). Además, el cuadrado medio residual es precisa-
mente el estimador de la varianza del error.
F value Valor del estadístico F.
Pr(>F) Nivel crítico del test F.

Así, en este ejemplo, el valor del estadístico de contraste es F = 48.717, con un nivel crítico
asociado de 1.615x10−6 . Por tanto, la hipótesis nula de que la recta de regresión es horizontal
no se acepta, con las significaciones usuales (10 %, 5 % y 1 %). Observamos que el nivel crítico
coincide con la significación obtenida para el coeficiente β1 , pues, como ya indicamos, el test F es
equivalente al test de significación de la pendiente, en el caso de regresión lineal simple.
7. Predicción
Un modelo de regresión permite, en primer lugar, estimar las medias condicionadas de Y para
cada valor de la variable explicativa x; en segundo lugar, también permite prever futuros valores de
la variable respuesta.
Tanto la estimación de la media, como la predicción del valor de Y se obtienen sustituyendo en la

recta de regresión el valor de x, y calculando el valor Yb ; por tanto, sus valores numéricos son idén-
ticos. Sin embargo, la precisión de estas estimaciones es distinta, como veremos a continuación.
Es importante tener en cuenta que tanto la estimación de la media como la predicción solo pueden
realizarse para valores de X en el rango de la muestra de la que disponemos.
7.1. Estimación de la media condicionada
Supongamos que se desea estimar el valor de la media de Y cuando la variable explicativa toma
cierto valor x0 . Entonces el modelo de regresión postula que dicha media será E(Y /X = x0 ) =
β0 + β1 x0 , y sustituyendo los valores estimados de los parámetros de la recta de regresión, resulta
Ỹ0 = βb0 + βb1 x0 = Y + βb1 (x0 − x) .
Se puede ver que Ỹ0 es un estimador insesgado de E(Y /X = x0 ) y que su varianza vale
σ2
Var Ỹ0 = ,
n0
siendo
n
n0 = .
(x0 −x)2
1+ Sx2
Interpretamos n0 como el número equivalente de observaciones disponibles para la estimación de

E(Y /X = x0 ). Así, si x0 = x, disponemos de n observaciones, pero según x0 se aleja de x es
como si fuéramos teniendo menos observaciones. La razón es que el punto x0 está cada vez más
lejos de los n valores muestrales en los que se basa la estimación.

Un intervalo de confianza para la media condicionada podría obtenerse así

σ σ
Ỹ0 − tn−2,α/2 √ , Ỹ0 + tn−2,α/2 √
b b
.
n0 n0
7.2. Predicción de una nueva observación
Para predecir el valor concreto que tomará la variable Y (y no sólo su media, como hacíamos
antes), vamos a usar el mismo valor Ỹ0 , pero debemos pensar no en cómo Ỹ0 se aproxima a la
media condicionada E(Y /X = x0 ) = β0 + β1 x0 , sino en cómo se aproxima a la nueva observación
Y0 = β0 + β1 x0 + ε.
Es fácil ver que E(Ỹ0 ) = E(Y0 ), pero ahora debemos plantear

2

2 1
E Ỹ0 − Y0 = Var Ỹ0 + Var (Y0 ) = σ 1+ .
n0
En consecuencia, el intervalo de confianza para la predicción de la nueva observación Y0 será

r r
1 1
Ỹ0 − tn−2,α/2 σ
b 1+ , Ỹ0 + tn−2,α/2 σ
b 1+ .
n0 n0
Sobre el ejemplo. Vamos a considerar la predicción para siete nuevos valores de X :
50, 100, 150, 200, 250, 300, 350
proporciona las predicciones e intervalos de confianza, tanto para la media condicionada como
para la predicción, con el comando predict, según vemos a continuación:
> newRunSize<-c(50,100,150,200,250,300,350)
> predict(m1,newdata=data.frame(RunSize=newRunSize),interval="confidence",level=0.95)
fit lwr upr

1 162.7099 148.6204 176.7994
2 175.6720 164.6568 186.6872
3 188.6342 179.9969 197.2714
4 201.5963 193.9600 209.2326
5 214.5585 206.0455 223.0714
6 227.5206 216.7006 238.3407
7 240.4828 226.6220 254.3435

> predict(m1,newdata=data.frame(RunSize=newRunSize),interval="prediction",level=0.95)
fit lwr upr

1 162.7099 125.7720 199.6478
2 175.6720 139.7940 211.5500
3 188.6342 153.4135 223.8548
4 201.5963 166.6076 236.5850
5 214.5585 179.3681 249.7489
6 227.5206 191.7021 263.3392
7 240.4828 203.6315 277.3340
La primera matriz de resultados contiene los intervalos para la estimación de la media condicionada
y la segunda para la predicción. En la columna titulada “fit” se presentan las predicciones, en la
titulada “lwr” (abreviatura de lower, en inglés) los extremos inferiores de los intervalos, y en la que
lleva por título “upr” (abreviatura de upper) los extremos superiores.
Así, por ejemplo, para x0 = 100, la estimación/predicción sería 175.67 y el intervalo para la predic-
ción: ( 139.79 , 211.55 )
La sintaxis del comando predict es algo compleja en lo que respecta a los nuevos valores de X .
Esto se debe a que está diseñada para regresión múltiple, con varias variables explicativas, con
lo cual habría que proporcionar los valores de todas las variables (y todos los individuos) en un
data.frame. En este caso el data.frame sólo tiene una columna, e indicamos que sitúe el vector
newRunSize en esa única columna correspondiente a la variable RunSize.
En la Figura 3 se han representado los intervalos para la media condicionada y la predicción. Ob-
servamos que los intervalos para la predicción son más amplios que los intervalos para la media
condicionada, como ya se podía deducir de las expresiones anteriores.
Asimismo, para valores de X más próximos a la media de las observaciones x, los intervalos
son más pequeños, sobre todo en el caso de la media condicionada. Esto se debe al número
equivalente de observaciones, n0 , que surge en la expresión del intervalo, y que indica que una
estimación/predicción de Y en valores de X dentro del conjunto de observaciones es más precisa
que para valores de X lejanos.
Como última observación, destacamos que aumentando el tamaño muestral n se pueden obtener
estimaciones cada vez más precisas (tanto como se desee) de los parámetros del modelo, y tam-
bién de la media condicionada, de modo que los intervalos a la izquierda de la Figura 3 se podrían
hacer tan pequeños como se desee incrementando el tamaño muestral. No ocurre así con la pre-
dicción, intervalos a la derecha. Aumentando el tamaño muestral se contraerán los intervalos, pero
sólo hasta un punto en el cual queda la aleatoriedad de la nueva respuesta Y0 . El radio mínimo,
imposible de contraer, sería zα/2 σ .

Intervalos media Intervalos predicción
250
250
200
200
150
150
Figura 3: Intervalos de confianza, al 95 %, para la media condicional (izquierda) y para la predicción

(derecha) con siete nuevos valores para el número de unidades.
Ejercicios propuestos
Instrucciones:
Para el seguimiento de este tema, se ofrecen a continuación diferentes bases de datos, que sirve
cada una como ejemplo para el análisis de regresión lineal simple.
Se propone que con cada base de datos/ejercicio que recorran las distintas secciones del tema
efectuando los análisis de manera semejante a lo realizado con el ejemplo de los apuntes. En
concreto, se puede emplear como guión la siguiente relación de tareas:
(a) Identifica la variable explicativa y la variable respuesta. Justifícalo.
(b) Representa el diagrama de dispersión de la variable respuesta sobre la variable explicativa.

Explica alguna característica visible en el diagrama: tendencia creciente, posible linealidad,
dispersión en torno a la tendencia, u otras.
(c) Ajusta el modelo: estimaciones de la ordenada en el origen y de la pendiente (con posibles

interpretaciones), varianza y desviación típica del error.
(d) Representa el diagrama de dispersión con la recta ajustada, e identifica, si es posible, alguna
característica especial de los residuos.

(e) Calcula los intervalos de confianza para la ordenada en el origen y la pendiente, y efectúa algún
contraste que pueda tener interés, comúnmente será el de que la pendiente vale cero.
(f) Presenta la tabla de análisis de la varianza e interpreta brevemente los resultados.
(g) Construye una rejilla de valores de la variable explicativa y representa los intervalos de confian-
za para la estimación de la media condicionada y para la predicción. Aporta algún comentario
sobre los resultados. Si procede, considera algún valor de la variable explicativa cuya predic-
ción pueda tener interés particular.
Relación de bases de datos/ejercicios
1. Se han tomado cinco muestras de glucógeno, se les han aplicado ciertas cantidades de glu-
cogenasa diseñadas previamente, y en cada caso se ha anotado la velocidad de reacción
resultante. Se obtuvo así la siguiente tabla:
Cantidad de glucogenasa (en milimoles/litro) 0.2 0.5 1 2 3

Velocidad de reacción (en µ-moles/minuto) 8 10 18 35 60
Realiza un análisis de regresión lineal simple de la velocidad de reacción en función de la

concentración de glucogenasa.
2. Se ha medido el contenido de oxígeno de un lago a ciertas profundidades, obteniéndose los

siguientes datos:
Profundidad (en metros) 15 20 30 40 50 60 70

Contenido de oxígeno (en mg/l) 6.5 5.6 5.4 6.0 4.6 1.4 0.1
Se propone un modelo de regresión lineal simple del contenido de oxígeno sobre la profundi-
dad.
3. En 1978 tres autores publicaron un estudio sobre el comportamiento de la lluvia bajo un

entorno forestal. En dicho estudio se incluyeron las mediciones de lluvia recogida en 12 tor-
mentas, tanto en la zona exterior colindante con el bosque como en el interior del bosque. Los

resultados se encuentran en la tabla siguiente.
Tormenta Lluvia exterior Lluvia interior

1 10.1 6.5
2 10.7 1.7
3 12.5 6.7
4 12.7 5.1
5 12.8 3.7
6 14.9 11.3
7 18.3 10.1
8 18.3 9.6
9 25.8 13.3
10 26.5 14.7
11 29.4 9.8
12 39.7 24.0
Se plantea un estudio de regresión de la lluvia interior sobre la lluvia exterior.
4. Se está haciendo un estudio epidemiológico sobre la hipertensión. En concreto, se desea

estudiar el efecto de la edad sobre la presión arterial en la población general. Se toman los
datos de veinte personas, con los resultados siguientes:
Edad 24 26 28 28 30 31 32 33 33 33
Presión arterial máxima 9 11 10 10 12 9 13 13 14 8
Edad 35 37 38 42 45 48 51 53 64 71
Presión arterial máxima 9 14 12 15 16 13 15 17 10 11
Estudia el modelo de regresión lineal simple de la presión sobre la edad.
5. Se intenta mejorar el rendimiento de una producción de cereal mediante regadío. Para ello,
conviene conocer cómo afecta la cantidad de riego sobre el crecimiento del cereal. Con este
motivo, se ha diseñado un estudio experimental en el cual se observa el crecimiento de la
planta en un mes, bajo ciertas condiciones de riego predeterminadas. Los resultados figuran
en la tabla siguiente:
Cantidad de riego (en litros) 20 25 30 40 50

50 60 70 75 80
Crecimiento de la planta (en centímetros) 40 50 75 70 95 100 90 110 120 130
Estudia el modelo de regresión lineal simple del crecimiento de la planta sobre la cantidad de
riego.
6. El desarrollo de una especie de ácaro depende, entre otros factores, de la humedad am-
biental. Para estudiar este hecho, se ha planteado un experimento que consiste en hacer un

recuento de individuos en ambientes de cultivo del ácaro, cuando son sometidos a diversos
porcentajes de humedad. Los datos obtenidos son los siguientes:
Humedad 50 50 55 55 60 60 65 65 70 70
Número de individuos 11 25 42 43 77 66 77 88 70 100
Humedad 70 70 75 75 80 80 85 85 90 90
Número de individuos 97 95 97 96 108 96 98 99 73 79
Estudia un modelo de regresión lineal del número de ácaros sobre la humedad.
7. Se está evaluando la dosis de un antibiótico ante un proceso infeccioso recurrente. Para ello,
se estudia el porcentaje de recaídas de la infección ante diversas dosis. Los datos obtenidos
son los siguientes:
Dosis en mg 360 380 400 420 440 460 480 500 520 540
Porcentaje de recaídas 28 33 27 27 32 25 21 25 9 22
Dosis en mg 560 580 600 620 640

Porcentaje de recaídas 15 16 16 6 7
Estudia un modelo de regresión lineal del porcentaje de recaídas frente a la dosis del antibió-
tico.
8. Se está realizando un estudio sobre la producción de madera que se obtiene de cierta espe-
cie arbórea. Esta especie alcanza la mayor producción en zonas costeras o de baja altitud,
mientras que la producción es menor en zonas más elevadas. Para constatar este hecho y
evaluarlo de manera empírica, se registran las producciones de treinta parcelas semejantes
situadas a diferentes altitudes. Los datos se ofrecen a continuación. Bajo la letra A figura la
altitud en metros, y bajo la letra P figura la producción en metros cúbicos.
A P A P A P A P A P A P
0 29.3 10 28.3 15 26.7 80 15.3 125 13.8 230 4.8
0 30.3 10 31.2 25 22.6 80 14.4 135 9.9 250 5.1
5 28.6 10 28.5 50 18.5 100 15.6 150 8.9 260 4.3
5 36.2 10 31.1 50 23.7 110 13.4 205 6.0 280 4.0
5 24.5 15 26.5 80 16.4 115 13.2 230 4.8 285 4.0
Realiza un estudio de la regresión lineal de la producción de madera sobre la altitud.
9. Se están estudiando las propiedades físicas de cierta tela retardante de la llama. En concreto,
interesa conocer la relación entre la rigidez y el espesor de la tela. Se han tomado seis
muestras de tela y se han obtenido los resultados siguientes:
Espesor (mm) 0, 28 0, 65 0, 32 0, 27 0, 81 0, 57
Rigidez (mg-cm) 7, 98 24, 52 12, 47 6, 92 24, 11 35, 71

Realiza un estudio de la regresión lineal de la rigidez sobre el espesor.
10. Se obtuvieron los siguientes resultados al analizar un conjunto de soluciones patrón de plata
por espectrometría de absorción atómica.
Concentración (ng/ml) 0 5 10 15 20 25 30
Absorbancia 0.003 0.127 0.251 0.390 0.498 0.625 0.763
Realiza un estudio de la regresión lineal de la absorbancia sobre la concentración de plata.
11. Se ha examinado una serie de soluciones patrón de fluoresceína en un espectrómetro de

fluorescencia, y se han obtenido las siguientes intensidades de fluorescencia (en unidades
arbitrarias):
Concentración pg/ml 0 2 4 6 8 10 12
Intensidad de fluorescencia 2, 1 5, 0 9, 0 12, 6 17, 3 21, 0 24, 7
Realiza un estudio de la regresión lineal de la intensidad de fluorescencia sobre la concentra-

ción de fluoresceína.
12. El programa incluye en su módulo básico muchas bases de datos de ejemplos. Una de ellas
contiene datos relativos a un experimento químico de calibración para la curva de determi-
nación del formaldehido. Los datos se pueden cargar con el comando data(Formaldehyde).
El método de determinación consiste en emplear un reactivo y observar el resultado de una
espectrofotometría. La base de datos contiene seis observaciones, con dos variables: el car-
bohidrato y la densidad óptica. Se pide: Realiza un estudio de la regresión lineal de la densi-
dad óptica sobre el carbohidrato.

MR Tema1 Apuntamentos

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

MR Tema1 Apuntamentos

Cargado por

Copyright:

Formatos disponibles

Modelos de regresión - Máster en Técnicas Estadísticas 2022-2023

Tema 1. Modelo de regresión lineal simple

Área de Estatística e I.O., USC

2. Elementos de un modelo de regresión: el modelo lineal 3

2.1. Hipótesis del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.2. Tipo de diseño . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

3. Estimación de los parámetros por mínimos cuadrados 6

4. Propiedades de los estimadores 8

4.1. Propiedades de βb1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

4.2. Propiedades de βb0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

5. Inferencia sobre los parámetros 10

5.1. Inferencia sobre β0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

5.2. Inferencia sobre β1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

5.3. Inferencia sobre σ 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

6. Descomposición de la variabilidad. El test F 15

7.1. Estimación de la media condicionada . . . . . . . . . . . . . . . . . . . . . . . . . . 18

7.2. Predicción de una nueva observación . . . . . . . . . . . . . . . . . . . . . . . . . . 19

Los modelos de regresión se diseñan con dos objetivos:

Conocer de qué modo la variable Y depende de X ; en este sentido, el modelo de regresión

Modelos de regresión.Área de Estadística e IO de la USC

Modelos de regresión.Área de Estadística e IO de la USC

En la siguiente figura se representa el diagrama de dispersión de Y frente a X para el ejemplo:

50 100 150 200 250 300 350

2. Elementos de un modelo de regresión: el modelo lineal

En términos generales, la regresión se suele formalizar como la media condicionada de la variable

Modelos de regresión.Área de Estadística e IO de la USC

2.1. Hipótesis del modelo

Linealidad. La función de regresión es una línea recta. En consecuencia, el modelo puede

donde β0 y β1 son parámetros desconocidos, y ε es una variable aleatoria no observable que

Homocedasticidad. La varianza del error es la misma cualquiera que sea el valor de la

Normalidad. El error tiene distribución Normal, es decir, ε ∈ N 0, σ 2 .

Finalmente, la suposición de independencia de los errores es conveniente para poder desarrollar

Modelos de regresión.Área de Estadística e IO de la USC

2.2. Tipo de diseño

Yi = β0 + β1 xi + εi , para i ∈ {1, . . . , n},

siendo ε1 , . . . , εn ∈ N (0, σ 2 ) independientes.

Modelos de regresión.Área de Estadística e IO de la USC

En el ejemplo observando la Figura 1, parecen cumplirse las hipótesis de linealidad, homocedasti-

3. Estimación de los parámetros por mínimos cuadrados

εbi = Yi − Ybi = Yi − βb0 − βb1 xi , para i ∈ {1, . . . , n},

La minimización se realiza calculando las derivadas parciales respecto de β0 y β1 , igualándolas a

Modelos de regresión.Área de Estadística e IO de la USC

50 100 150 200 250 300 350

Sobre el ejemplo. Si consideramos el modelo Y = β0 + β1 x + ε, las estimaciones por mínimos

La varianza del error, σ 2 , también es desconocida, y podemos estimarla mediante

Modelos de regresión.Área de Estadística e IO de la USC

4. Propiedades de los estimadores

4.1. Propiedades de βb1

El estimador de la pendiente se puede expresar como

En consecuencia, podemos calcular la esperanza así:

Para obtener la varianza, nos conviene expresar βb1 así:

Modelos de regresión.Área de Estadística e IO de la USC

En la igualdad (a) hemos usado la suposición de independencia y en la igualdad (b) la homocedas-

De esta expresión deducimos que la varianza del estimador de la pendiente será:

b) Será más pequeña si los valores x1 , . . . , xn tienen mucha dispersión.

c) Será más pequeña si disponemos de muchos datos, o lo que es lo mismo, si el tamaño

Por tanto, podemos afirmar que

4.2. Propiedades de βb0

La ordenada en el origen, β0 , es el valor que toma la recta de regresión cuando x = 0. Salvo

Como βb0 = Y − βb1 x, entonces

y en consecuencia βb0 es un estimador insesgado de β0 .

Para calcular la varianza, vamos a expresar βb0 así:

( 149.75 - 2.108.328 , 149.75 + 2.108.328 ) = ( 132.25 , 167.24 )