Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Índice
1. Introducción 1
4.3. Estimador de σ 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
7. Predicción 18
I
Tema 1. Modelo de regresión lineal simple
1. Introducción
Para representar la dependencia de una variable Y (variable dependiente, variable respuesta) con
respecto a otra variable X (variable independiente, variable explicativa), se utilizan los modelos de
regresión. En este tema trataremos el modelo de regresión lineal simple.
Aunque los modelos de regresión fueron utilizados con anterioridad en Astronomía y Física por
Laplace y Gauss, su nombre genérico, modelos de regresión, proviene de los trabajos de Galton
en Biología a finales del siglo XIX. Galton estudió la dependencia de la estatura de los hijos (Y )
respecto a la de sus padres (X ), encontrando lo que denominó una regresión a la media: los padres
altos tienen en general hijos altos, pero en promedio no tan altos como sus padres; los padres
bajos tienen hijos bajos, pero en promedio más altos que sus padres. Desde entonces, los modelos
estadísticos que explican la dependencia de una variable Y respecto de una o varias variables X
se denominan modelos de regresión.
Realizar predicciones, una vez construido el modelo de regresión, podemos utilizarlo para
predecir el valor de Y , cuando se conoce el valor de X .
Por ejemplo, podemos pensar en un modelo de regresión que represente el crecimiento de bac-
terias que producen caries, en función de la concentración de azúcar. En este caso, la variable Y
(respuesta) sería el crecimiento bacteriano, medido por el número de bacterias al cabo de un cierto
tiempo; mientras que la concentración de azúcar sería la variable X (explicativa).
Resulta muy interesante disponer de un modelo de regresión que represente cómo evoluciona el
crecimiento bacteriano según sea la concentración de azúcar. En principio, parece que concentra-
ciones altas de azúcar darán lugar a un mayor crecimiento bacteriano, pero además, el modelo
de regresión servirá para predecir el crecimiento bacteriano cuando se conoce la concentración
de azúcar, y esta predicción será mucho más precisa que la que podríamos obtener sin tener en
cuenta la concentración de azúcar.
Los modelos de regresión se pueden comparar con otros modelos de las ciencias experimentales,
como las leyes de los gases ideales o las leyes de la gravitación, que se suelen plantear como
modelos deterministas: conocidas las variables explicativas la variable respuesta se puede prede-
cir con total exactitud. En el ejemplo de los gases, conocida la temperatura, podemos predecir la
presión que ejercerá el gas.
Sin embargo, en la vida real a menudo la predicción con exactitud es imposible, y en su lugar ne-
cesitamos modelos que permitan aprovechar el conocimiento de variables explicativas, pero que
además incorporen una componente de error impredecible, que vendría ocasionado por errores de
medida, por la influencia de otras variables no controlables, o por una aleatoriedad intrínseca a
la variable respuesta. Cuando un modelo matemático incorpora una componente aleatoria se dice
que es un modelo estocástico. Los modelos de regresión que vamos a estudiar en este tema son
modelos estocásticos.
Ejemplo. En este tema consideraremos el ejemplo de Sheather (2009) sobre tiempos en una cade-
na de producción. Se pretende explicar el tiempo de producción en función del tamaño del pedido.
Para ello se dispone, en una muestra de 20 pedidos, del tiempo (en minutos) que lleva producir
cada pedido, que será la variable respuesta, junto con el número de unidades solicitadas en cada
pedido que será la variable explicativa. Los datos figuran a continuación:
RunTime RunSize
195 175
215 189
243 344
162 88
185 114
231 338
234 271
166 173
253 284
196 277
220 337
168 58
207 146
225 277
169 123
215 227
147 63
230 337
208 146
172 68
Estamos ante un problema de regresión, pues interesa conocer la dependencia que presenta el
tiempo empleado, en función del número de unidades del pedido. Además, será necesario predecir
el tiempo, Y , para poder atender un pedido cuyas unidades son X .
Diagrama de dispersión
240
220
Run Time
200
180
160
Run Size
Figura 1: diagrama de dispersión para el tiempo de producción (Run Time) frente al número de
unidades (Run Size), para 20 pedidos.
Por tanto, podemos descomponer la variable respuesta en función del resultado de X (a través de
la media condicionada), más un error:
Y = m(X) + ε,
donde ε se conoce como error y verifica E(ε/X = x) = 0 para todo x. Este es el concepto de
regresión en los términos más generales.
Para construir el modelo de regresión específico en cada caso, se tiene en cuenta el número de
variables explicativas, el número de variables respuesta, el tipo de las mismas (discretas, continuas,
categóricas, ...), la forma de la función de regresión (lineal, polinómica, ...), el tipo de distribución
del error, la forma de obtener los datos muestrales, y otros aspectos que permiten determinar el
modelo adecuado.
En este primer tema, se considerará un modelo muy sencillo de regresión: modelo de regresión
lineal simple. En este modelo tanto la variable respuesta Y , como la variable explicativa X , se
suponen univariantes, esto es, cada una de ellas refleja el valor de una sola característica, y ambas
serán además continuas.
Las hipótesis básicas sobre las que se sustenta este modelo son:
Independencia. Las variables aleatorias que representan los errores ε1 , . . . , εn son mutua-
mente independientes, entendiendo que vamos a obtener una muestra de n observaciones
bajo el modelo de regresión. Esta suposición dice que los n errores (no observados) serían
mutuamente independientes.
La hipótesis de linealidad consiste en suponer que la media de la variable respuesta toma un valor
inicial β0 cuando la variable explicativa x vale cero, y además dicha media crece en una cantidad
fija β1 cada vez que x se incrementa en una unidad.
La hipótesis de linealidad hace que estemos ante un modelo paramétrico, porque supone que la
función de regresión es una recta que deja libertad al valor concreto de la pendiente β1 y la ordenada
en el origen β0 . Estos valores, son parámetros desconocidos a nivel teórico, que debemos estimar
en base a una muestra (X1 , Y1 ), . . . , (Xn , Yn ).
Las hipótesis de homocedasticidad y Normalidad constituyen simplificaciones muy útiles para poder
llevar a cabo las tareas de inferencia bajo un modelo de regresión general, y en particular también
para el caso del modelo lineal.
Para poder estimar los parámetros del modelo, β0 y β1 , necesitamos una muestra. La forma de
obtener esa muestra se verá reflejada en lo que se denomina tipo de diseño experimental. En este
caso consideraremos dos posibilidades:
Diseño fijo. Los valores de la variable explicativa están fijados por el experimentador, de
acuerdo a un diseño conveniente de cara a la viabilidad del experimento o a su eficiencia
estadística.
Por ejemplo, podemos fijar distintas concentraciones de azúcar y medir el crecimiento bacte-
riano que se obtiene en cada una de ellas.
En este caso los valores de la variable explicativa no son aleatorios, y sólo es aleatorio el
error y, en consecuencia, la variable respuesta. Por tanto, la muestra resultante de un diseño
fijo sería del tipo (x1 , Y1 ) , . . . , (xn , Yn ).
Diseño aleatorio. En este caso tanto la variable explicativa como la variable respuesta son
aleatorias.
Por ejemplo, nos interesa un modelo de regresión donde la variable explicativa sea el tamaño
de los peces de cierta especie (medido mediante la longitud) y la variable respuesta sea la
concentración de cierto ácido graso. Si el experimento consiste en tomar peces al azar en
un río y medir su longitud y su concentración del ácido graso, entonces ambas variables son
aleatorias y por tanto se trata de un diseño aleatorio.
En definitiva, la muestra reultante de un diseño aleatorio sería del tipo:
(X1 , Y1 ) , . . . , (Xn , Yn )
En adelante supondremos diseño fijo. Aún así, según se vayan obteniendo los procedimientos es-
tadísticos, iremos indicando en qué medida se pueden aplicar bajo diseño aleatorio.
En resumen, un modelo de regresión lineal simple, homocedástico, con errores Normales e in-
dependientes, del que extraemos una muestra bajo diseño fijo nos proporciona datos del tipo
(x1 , Y1 ), . . . , (xn , Yn ), donde x1 , . . . , xn son valores fijados por el experimentador, mientras que
En el tema siguiente veremos cómo valorar si se cumplen las suposiciones del modelo. De momen-
to, las asumimos como ciertas.
En esta sección obtendremos estimadores para los parámetros β0 y β1 en base a una muestra
(x1 , Y1 ), . . . , (xn , Yn ). Supondremos las hipótesis de linealidad, homocedasticidad, Normalidad, di-
seño fijo e independencia de los errores.
Recordemos que la recta de regresión se va a usar para predecir el valor de Y a partir de un valor
de x. Así, denotando por βb0 y βb1 los estimadores de los parámetros, para el valor x de la variable
explicativa daríamos la predicción βb0 + βb1 x de la variable respuesta. Aplicando esto a los datos
muestrales, para el valor observado xi tendríamos la predicción Ybi = βb0 + βb1 xi , mientras que
hemos observado Yi . En definitiva, tendríamos los siguientes errores de predicción:
los cuales se denominan residuos de la regresión (véase Figura 2 para una representación de los
residuos sobre los datos del ejemplo).
La idea consiste en escoger los estimadores βb0 y βb1 que den lugar a los residuos más pequeños.
Con este objetivo, y para evitar que se compensen los residuos positivos con los negativos, se
usa la suma de los cuadrados de los residuos como criterio a minimizar. Así, los estimadores por
mínimos cuadrados son βb0 y βb1 tales que
n
X 2 n
X
Yi − βb0 − βb1 xi = mı́n (Yi − β0 − β1 xi )2
β0 ,β1
i=1 i=1
240
220
Run Time
200
180
160
Run Size
Figura 2: Diagrama de dispersión para el tiempo de producción (Run Time) frente al número de
unidades (Run Size) con recta ajustada por mínimos cuadrados. Los segmentos verticales repre-
sentan los residuos de la regresión.
Pn
1
Y = n1 ni=1 Yi son las medias respectivas de la variable explicativa y la
P
donde x = n i=1 xi ,
= n1 ni=1 (xi − x)(Yi − Y ) es la covarianza y Sx2 = n1 ni=1 (xi − x)2 es la
P P
variable respuesta, SxY
varianza muestral de la variable explicativa.
La recta de regresión estimada por mínimos cuadrados es la que pasa por el vector de medias o
SxY
centro de gravedad, (x, Y ), y tiene pendiente βb1 = Sx2
.
Empleamos la suma de cuadrados de los residuos, pero dividimos por (n − 2) en lugar de hacerlo
por n, para que el estimador sea insesgado. Esto se debe a que se han tenido que estimar dos
parámetros β0 y β1 .
Sobre el ejemplo. La función lm, además de proporcionar los valores de los coeficientes estimados
por mínimos cuadrados, también proporciona los residuos de la regresión. La estimación de la
varianza del error puede obtenerse sumando sus componentes al cuadrado y dividiendo por (n−2).
Como resultado se obtiene:
1
b2 = (195 − 149.7 − 0.295 ∗ 175)2 + · · · + (172 − 149.7 − 0.295 ∗ 68)2
σ
20 − 2
1
(−0.115)2 + · · · + (4.624)2 = 264.14
=
18
La desviación típica del error se estimaría simplemente calculando la raíz cuadrada del valor ante-
rior:
√
σ
b= 264.14 = 16.25
En esta sección estudiaremos las propiedades de los estimadores que acabamos de obtener. Para
deducir las propiedades vamos a emplear las suposiciones de linealidad, homocedasticidad, Nor-
malidad, diseño fijo e independencia que hemos considerado en la construcción del modelo.
(xi −x)
donde los pesos ωi = nSx2
sólo dependen de los valores de la variable explicativa, y por tanto no
son aleatorios, pues estamos trabajando bajo diseño fijo.
En la igualdad (a) hemos empleado la suposición de linealidad, y observamos que βb1 es un estima-
dor insesgado de β1 .
Pn
lo cual es correcto ya que i=1 ωi = 0. Entonces
n n 2
(a) X (b) X (xi − x) σ2
Var βb1 = ωi2 Var (Yi ) = σ 2
= .
n2 Sx4 nSx2
i=1 i=1
a) Tanto mayor cuanto mayor sea la varianza del error, σ 2 . Esto es lógico pues al aumentar la
varianza del error, los datos aparecerán más alejados de la recta de regresión, y será más
difícil estimar los parámetros de la recta en base a ellos.
Por último, bajo la suposición de Normalidad, el estimador βb1 también tiene distribución Normal,
pues es combinación lineal de las variables Y1 , . . . , Yn que son Normales e independientes.
De este modo,
n 2 n
x2
(a) X 1 (b) 2 X 1 2 2 xωi (c) 2 1
Var β0 =
b − xωi Var (Yi ) = σ + x ωi − 2 =σ + .
n n2 n n nSx2
i=1 i=1
4.3. Estimador de σ 2
Para el estimador de la varianza del error, una demostración algo más compleja que las anteriores
y que vamos a omitir, nos conduciría a la siguiente distribución de tipo ji-cuadrado:
σ2
(n − 2)b
∈ χ2n−2 .
σ2
b2 es un estimador insesgado de σ 2 . De hecho, la aparición de (n − 2)
De aquí se deduce que σ
grados de libertad es el motivo por el que hemos dividido la suma de cuadrados de los residuos por
(n − 2), en lugar de por n, para calcular el estimador de la varianza.
Hasta aquí hemos visto cómo se estiman los parámetros β0 , β1 y σ 2 involucrados en el modelo
lineal simple, y hemos analizado las propiedades de los estimadores: esperanza, varianza y distri-
bución. En esta sección realizaremos las otras dos tareas de la Inferencia: intervalos de confianza
y contraste de hipótesis; para cada uno de ellos.
Empezamos recordando que la desviación típica de un estimador se conoce como su error típi-
co, que es la característica principal de los estimadores insesgados y simétricos, como son βb0 y
βb1 . Realmente en la sección anterior hemos calculado la varianza de estos estimadores, así que
efectuando una raíz cuadrada ya llegaríamos al error típico.
Para construir intervalos de confianza o realizar contrastes de hipótesis, podríamos usar como
pivote la estandarización de βb0 , esto es:
βb − β0
q0 ∈ N (0, 1),
x2
σ n1 + nS 2
x
Como lo más habitual es que σ 2 sea desconocida, se suele estimar el error típico mediante
s
\
1 x2
Error Típico βb0 = σ + ,
n nSx2
b
En base a este pivote, el intervalo de confianza para β0 con nivel de confianza (1 − α), estará
centrado en βb0 , y su radio será el producto del cuantil de la T de Student por el error típico estimado:
s s !
1 x2 1 x2
βb0 − tα/2 σ + , βb0 + tα/2 σ +
n nSx2 n nSx2
b b
Para el contraste de hipótesis relativas a β0 también podemos utilizar este estadístico pivote, así,
por ejemplo, rechazaremos la hipótesis nula H0 : β0 ≥ 2 en favor de Ha : β0 < 2 si
βb − 2
q0 < −tn−2,α .
x2
b n1 + nS
σ 2
x
βb1 − β1
√ ∈ N (0, 1), si σ es conocida,
σ/ (Sx n )
y
βb1 − β1
√ ∈ Tn−2 , si σ es desconocida.
σ
b/ (Sx n )
Tiene especial interés el contraste de la hipótesis nula H0 : β1 = 0, pues de ser cierta esta hipó-
tesis la función de regresión sería una recta horizontal, y nos encontraríamos con que la variable
explicativa no influye en la variable respuesta. Así, rechazaremos H0 : β1 = 0 si
β1
b
= √ > tn−2,α/2 ,
σ
b/ (Sx n )
y en tal caso diremos que βb1 ha tomado un valor significativamente distinto de cero.
σ2
(n − 2)b
∈ χ2n−2 .
σ2
En base a este pivote, el intervalo de confianza para σ 2 con nivel de confianza (1 − α), se puede
construir así !
(n − 2)bσ 2 (n − 2)b
σ2
, .
χ2n−2,α/2 χ2n−2,1−α/2
b2 no es simétrico en
En este caso no se emplea el concepto de error típico, porque el estimador σ
torno a σ 2 , y de hecho tampoco se obtienen intervalos de confianza simétricos en torno al estimador
b2 .
σ
Sobre el ejemplo. Utilizando la función summary sobre el modelo de regresión ajustado, se obtiene
la siguiente salida de resultados:
> summary(m1)
Call:
lm(formula = RunTime ~ RunSize)
Residuals:
Min 1Q Median 3Q Max
-28.597 -11.079 3.329 8.302 29.627
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 149.74770 8.32815 17.98 6.00e-13 ***
RunSize 0.25924 0.03714 6.98 1.61e-06 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Bajo el título Coefficients: se ofrecen los elementos básicos de inferencia para los paráme-
tros de la recta.
Las tres últimas líneas presentan un estudio de la variabilidad, donde en este ejemplo pode-
mos extraer:
La desviación típica del error (dice residual, por ser su valor estimado con los residuos) es
16.25, lo cual se calculó con 18 grados de libertad.
El coeficiente de determinación (cuadrado del coeficiente de correlación) vale 0.7302. En
el próximo tema estudiaremos el coeficiente de determinación, su significado e inter-
pretación como medida de la calidad del modelo. También veremos el coeficiente de
determinación ajustado, que en esta salida arroja el valor 0.7152.
La última línea proporciona los resultados del test F , que se estudia en la próxima sección.
Figura el valor del estadístico 48.72, los grados de libertad de numerador y denominador,
1 y 18, respectivamente, y el nivel crítico, 1.615x10−6 .
Los asteriscos que acompañan a los niveles críticos son una simbología para indicar si
hay mucha significación. Aparecen tres asteriscos si el nivel crítico es inferior a 0.001 (el
uno por mil), dos asteriscos si está entre 0.01 y 0.001 (entre el uno por mil y el uno por
cien), y así sucesivamente según se explica en la línea titulada Signif. codes:.
Nótese que el "t value" es el estadístico para el contraste de que el coeficiente vale cero. La pro-
babilidad que deja a ambos lados de la distribución T de Student es el nivel crítico que figura en la
columna "Pr(>|t|)".
A la vista de estos reultados, podemos deducir, por ejemplo, que la pendiente de la recta de regre-
sión es significativamente distinta de cero, dicho de manera más detallada, la pendiente estimada
es distinta de cero y constituye una prueba significativa de que la "verdadera pendiente" es distinta
de cero. En este ejemplo, si la pendiente fuera cero, estaríamos en un modelo que predice el mismo
tiempo para cualquier tamaño de pedido, lo cual es contradictorio con los datos.
Para calcular un intervalo de confianza se podría emplear la estimación y el error típico de esta
salida de resultados. Para el cuantil de la T de Student se puede emplear la función qt de . Así,
por ejemplo, el intervalo de confianza para β0 con nivel del 95 % sería:
Lo anterior es a modo ilustrativo, pues los intervalos de confianza se pueden obtener directamente
mediante la función confint:
> confint(m1,level=0.95)
2.5 % 97.5 %
(Intercept) 132.2509062 167.2444999
RunSize 0.1812107 0.3372755
Los métodos de regresión explican cómo la variable respuesta, Y , se comporta de distinta manera
en función del valor que tome la variable explicativa, X . En consecuencia, parte de la variabilidad
de Y quedaría justificada por la influencia de la variable X , mientras que otra parte sería debida al
error del modelo.
Observemos que la suma de cuadrados de los residuos sin usar la recta de regresión es
Pn
− Y )2 , que dividido por n o (n − 1), da lugar a la varianza o cuasivarianza de Y , que
i=1 (Yi
son medidas de la variabilidad de Y .
Además, los residuos sin tener en cuenta el modelo se pueden escribir como:
Yi − Y = Yi − βb0 − βb1 xi + βb0 + βb1 xi − Y ,
por lo que podemos descomponer (Yi − Y )2 a través del cuadrado de esa suma, y efectuar la suma
en todos los datos, obteniendo:
n n 2 n 2
X 2 X X
Yi − Y = Yi − βb0 − βb1 xi + βb0 + βb1 xi − Y
i=1 i=1 i=1
Esta descomposición de la variabilidad, aparte del interés en sí misma, se suele emplear para
efectuar lo que se conoce como test F , que consiste en contrastar un modelo simple (en este caso
una recta horizontal) con un modelo más complejo (en este caso una recta con pendiente no nula):
H0 : Y = β0 + ε para algún β0
Ha : Y = β0 + β1 X + ε para algún β0 y algún β1
Como vemos, se trata de contrastar si la función de regresión es una recta horizontal, como hipó-
tesis nula, o en su defecto, si hay pruebas significativas de que la función de regresión constituye
una recta no horizontal. En el primer caso no sería necesaria la regresión, pues la media de Y
es la misma, β0 , cualquiera que sea el valor de X , mientras que en el segundo, si la recta no es
horizontal, la regresión aportaría información relevante sobre Y . Por este motivo, se conoce como
un contraste de la regresión. Observamos también que coincide con el contraste de la hipótesis
nula H0 : β1 = 0, que hemos visto anteriormente.
debe una parte sustancial de la variabilidad. Así, si se hubiera fijado un nivel de significación α, se
rechazaría la hipótesis nula cuando el valor del estadístico en la muestra supera al cuantil f1,n−2,α ,
porque se habrían encontrado pruebas significativas a ese nivel de que la función de regresión no
es horizontal.
Se puede ver que el test F es equivalente al test propuesto en la página 12 sobre la significación de
la pendiente, esto es, con hipótesis nula H0 : β1 = 0.
> anova(m1)
Response: RunTime
Df Sum Sq Mean Sq F value Pr(>F)
RunSize 1 12868.4 12868.4 48.717 1.615e-06 ***
Residuals 18 4754.6 264.1
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Esta salida de resultados es simplemente la tabla ANOVA, quizá con las columnas colocadas en
otro orden, y con la columna añadida Mean Sq. En concreto, los elementos son:
Mean Sq Es lo que se conoce como cuadrado medio, que es la suma de cuadrados dividida por
los grados de libertad. Tiene interés calcular el cuadrado medio, porque el estadístico F no
es más que el cociente de los dos cuadrados medios, el correspondiente a la regresión y el
correspondiente al error (o a los residuos). Además, el cuadrado medio residual es precisa-
mente el estimador de la varianza del error.
Así, en este ejemplo, el valor del estadístico de contraste es F = 48.717, con un nivel crítico
asociado de 1.615x10−6 . Por tanto, la hipótesis nula de que la recta de regresión es horizontal
no se acepta, con las significaciones usuales (10 %, 5 % y 1 %). Observamos que el nivel crítico
coincide con la significación obtenida para el coeficiente β1 , pues, como ya indicamos, el test F es
equivalente al test de significación de la pendiente, en el caso de regresión lineal simple.
7. Predicción
Un modelo de regresión permite, en primer lugar, estimar las medias condicionadas de Y para
cada valor de la variable explicativa x; en segundo lugar, también permite prever futuros valores de
la variable respuesta.
Es importante tener en cuenta que tanto la estimación de la media como la predicción solo pueden
realizarse para valores de X en el rango de la muestra de la que disponemos.
Supongamos que se desea estimar el valor de la media de Y cuando la variable explicativa toma
cierto valor x0 . Entonces el modelo de regresión postula que dicha media será E(Y /X = x0 ) =
β0 + β1 x0 , y sustituyendo los valores estimados de los parámetros de la recta de regresión, resulta
Se puede ver que Ỹ0 es un estimador insesgado de E(Y /X = x0 ) y que su varianza vale
σ2
Var Ỹ0 = ,
n0
siendo
n
n0 = .
(x0 −x)2
1+ Sx2
Para predecir el valor concreto que tomará la variable Y (y no sólo su media, como hacíamos
antes), vamos a usar el mismo valor Ỹ0 , pero debemos pensar no en cómo Ỹ0 se aproxima a la
media condicionada E(Y /X = x0 ) = β0 + β1 x0 , sino en cómo se aproxima a la nueva observación
Y0 = β0 + β1 x0 + ε.
proporciona las predicciones e intervalos de confianza, tanto para la media condicionada como
para la predicción, con el comando predict, según vemos a continuación:
> newRunSize<-c(50,100,150,200,250,300,350)
> predict(m1,newdata=data.frame(RunSize=newRunSize),interval="confidence",level=0.95)
> predict(m1,newdata=data.frame(RunSize=newRunSize),interval="prediction",level=0.95)
La primera matriz de resultados contiene los intervalos para la estimación de la media condicionada
y la segunda para la predicción. En la columna titulada “fit” se presentan las predicciones, en la
titulada “lwr” (abreviatura de lower, en inglés) los extremos inferiores de los intervalos, y en la que
lleva por título “upr” (abreviatura de upper) los extremos superiores.
Así, por ejemplo, para x0 = 100, la estimación/predicción sería 175.67 y el intervalo para la predic-
ción: ( 139.79 , 211.55 )
La sintaxis del comando predict es algo compleja en lo que respecta a los nuevos valores de X .
Esto se debe a que está diseñada para regresión múltiple, con varias variables explicativas, con
lo cual habría que proporcionar los valores de todas las variables (y todos los individuos) en un
data.frame. En este caso el data.frame sólo tiene una columna, e indicamos que sitúe el vector
newRunSize en esa única columna correspondiente a la variable RunSize.
En la Figura 3 se han representado los intervalos para la media condicionada y la predicción. Ob-
servamos que los intervalos para la predicción son más amplios que los intervalos para la media
condicionada, como ya se podía deducir de las expresiones anteriores.
Asimismo, para valores de X más próximos a la media de las observaciones x, los intervalos
son más pequeños, sobre todo en el caso de la media condicionada. Esto se debe al número
equivalente de observaciones, n0 , que surge en la expresión del intervalo, y que indica que una
estimación/predicción de Y en valores de X dentro del conjunto de observaciones es más precisa
que para valores de X lejanos.
Como última observación, destacamos que aumentando el tamaño muestral n se pueden obtener
estimaciones cada vez más precisas (tanto como se desee) de los parámetros del modelo, y tam-
bién de la media condicionada, de modo que los intervalos a la izquierda de la Figura 3 se podrían
hacer tan pequeños como se desee incrementando el tamaño muestral. No ocurre así con la pre-
dicción, intervalos a la derecha. Aumentando el tamaño muestral se contraerán los intervalos, pero
sólo hasta un punto en el cual queda la aleatoriedad de la nueva respuesta Y0 . El radio mínimo,
imposible de contraer, sería zα/2 σ .
250
250
200
200
150
150
Ejercicios propuestos
Instrucciones:
Para el seguimiento de este tema, se ofrecen a continuación diferentes bases de datos, que sirve
cada una como ejemplo para el análisis de regresión lineal simple.
Se propone que con cada base de datos/ejercicio que recorran las distintas secciones del tema
efectuando los análisis de manera semejante a lo realizado con el ejemplo de los apuntes. En
concreto, se puede emplear como guión la siguiente relación de tareas:
(d) Representa el diagrama de dispersión con la recta ajustada, e identifica, si es posible, alguna
característica especial de los residuos.
(e) Calcula los intervalos de confianza para la ordenada en el origen y la pendiente, y efectúa algún
contraste que pueda tener interés, comúnmente será el de que la pendiente vale cero.
(g) Construye una rejilla de valores de la variable explicativa y representa los intervalos de confian-
za para la estimación de la media condicionada y para la predicción. Aporta algún comentario
sobre los resultados. Si procede, considera algún valor de la variable explicativa cuya predic-
ción pueda tener interés particular.
1. Se han tomado cinco muestras de glucógeno, se les han aplicado ciertas cantidades de glu-
cogenasa diseñadas previamente, y en cada caso se ha anotado la velocidad de reacción
resultante. Se obtuvo así la siguiente tabla:
Se propone un modelo de regresión lineal simple del contenido de oxígeno sobre la profundi-
dad.
Edad 24 26 28 28 30 31 32 33 33 33
Presión arterial máxima 9 11 10 10 12 9 13 13 14 8
Edad 35 37 38 42 45 48 51 53 64 71
Presión arterial máxima 9 14 12 15 16 13 15 17 10 11
5. Se intenta mejorar el rendimiento de una producción de cereal mediante regadío. Para ello,
conviene conocer cómo afecta la cantidad de riego sobre el crecimiento del cereal. Con este
motivo, se ha diseñado un estudio experimental en el cual se observa el crecimiento de la
planta en un mes, bajo ciertas condiciones de riego predeterminadas. Los resultados figuran
en la tabla siguiente:
Estudia el modelo de regresión lineal simple del crecimiento de la planta sobre la cantidad de
riego.
6. El desarrollo de una especie de ácaro depende, entre otros factores, de la humedad am-
biental. Para estudiar este hecho, se ha planteado un experimento que consiste en hacer un
recuento de individuos en ambientes de cultivo del ácaro, cuando son sometidos a diversos
porcentajes de humedad. Los datos obtenidos son los siguientes:
Humedad 50 50 55 55 60 60 65 65 70 70
Número de individuos 11 25 42 43 77 66 77 88 70 100
Humedad 70 70 75 75 80 80 85 85 90 90
Número de individuos 97 95 97 96 108 96 98 99 73 79
Estudia un modelo de regresión lineal del número de ácaros sobre la humedad.
7. Se está evaluando la dosis de un antibiótico ante un proceso infeccioso recurrente. Para ello,
se estudia el porcentaje de recaídas de la infección ante diversas dosis. Los datos obtenidos
son los siguientes:
Dosis en mg 360 380 400 420 440 460 480 500 520 540
Porcentaje de recaídas 28 33 27 27 32 25 21 25 9 22
8. Se está realizando un estudio sobre la producción de madera que se obtiene de cierta espe-
cie arbórea. Esta especie alcanza la mayor producción en zonas costeras o de baja altitud,
mientras que la producción es menor en zonas más elevadas. Para constatar este hecho y
evaluarlo de manera empírica, se registran las producciones de treinta parcelas semejantes
situadas a diferentes altitudes. Los datos se ofrecen a continuación. Bajo la letra A figura la
altitud en metros, y bajo la letra P figura la producción en metros cúbicos.
A P A P A P A P A P A P
0 29.3 10 28.3 15 26.7 80 15.3 125 13.8 230 4.8
0 30.3 10 31.2 25 22.6 80 14.4 135 9.9 250 5.1
5 28.6 10 28.5 50 18.5 100 15.6 150 8.9 260 4.3
5 36.2 10 31.1 50 23.7 110 13.4 205 6.0 280 4.0
5 24.5 15 26.5 80 16.4 115 13.2 230 4.8 285 4.0
Realiza un estudio de la regresión lineal de la producción de madera sobre la altitud.
9. Se están estudiando las propiedades físicas de cierta tela retardante de la llama. En concreto,
interesa conocer la relación entre la rigidez y el espesor de la tela. Se han tomado seis
muestras de tela y se han obtenido los resultados siguientes:
Espesor (mm) 0, 28 0, 65 0, 32 0, 27 0, 81 0, 57
Rigidez (mg-cm) 7, 98 24, 52 12, 47 6, 92 24, 11 35, 71
10. Se obtuvieron los siguientes resultados al analizar un conjunto de soluciones patrón de plata
por espectrometría de absorción atómica.
Concentración (ng/ml) 0 5 10 15 20 25 30
Absorbancia 0.003 0.127 0.251 0.390 0.498 0.625 0.763
Concentración pg/ml 0 2 4 6 8 10 12
Intensidad de fluorescencia 2, 1 5, 0 9, 0 12, 6 17, 3 21, 0 24, 7
12. El programa incluye en su módulo básico muchas bases de datos de ejemplos. Una de ellas
contiene datos relativos a un experimento químico de calibración para la curva de determi-
nación del formaldehido. Los datos se pueden cargar con el comando data(Formaldehyde).
El método de determinación consiste en emplear un reactivo y observar el resultado de una
espectrofotometría. La base de datos contiene seis observaciones, con dos variables: el car-
bohidrato y la densidad óptica. Se pide: Realiza un estudio de la regresión lineal de la densi-
dad óptica sobre el carbohidrato.