Está en la página 1de 17

Regresión lineal

Ejercicio 1

Para estudiar la relación entre las horas de funcionamiento por litro de combustible
consumido, y la potencia y tipo de unos equipos electrógenos se realizó un estudio por
regresión lineal, cuyos resultados parciales se muestran a continuación:

MODELO 1:
-----------------------------------------------------------------------------
Dependent variable: hpl
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT 45.8452 1.64211 27.9185 0.0000
potencia -0.208853 0.0159949 -13.0575 0.0000
tipo=2 2.35902 1.06945 2.20583 0.0290
tipo=3 3.74928 0.871 4.30457 0.0000
-----------------------------------------------------------------------------

Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model
Residual
-----------------------------------------------------------------------------
Total (Corr.) 8086.77 149

R-squared = 66.5646 percent


R-squared (adjusted for d.f.) =
Standard Error of Est. =
Mean absolute error =
Durbin-Watson statistic = 1.58372 (P=0.0052)
Lag 1 residual autocorrelation = 0.202701

1) Escribe el modelo teórico (poblacional) que se ha ajustado. Explica el significado de


las variables del modelo.
2) ¿Qué interpretación tiene el coeficiente asociado a la variable tipo=3?

El modelo formulado es: E(hpl) = β 0 + β 1 potencia + β 2 (tipo=2) + β 3 (tipo=3).

A partir del modelo, particularizando para los tipos electrógenos 3 y 1, se tiene:


(1) E(hpl|potencia, tipo 3) = β 0 + β 1 potencia + β 3
(2) E(hpl|potencia, tipo 1) = β 0 + β 1 potencia

Restando las ecuaciones (1)-(2) se obtiene el parámetro β 3 , por lo que se concluye que este parámetro
indica la diferencia de horas de funcionamiento medio por litro de combustible entre el grupo
electrógeno 3 y el 1 a una misma potencia.

2) Calcula la desviación típica residual. ¿Qué estima dicha desviación típica?


3 ¿Qué información obtienes de los siguientes gráficos?
Component+Residual Plot for hpl
Plot of hpl
16

component effect
50
11
40
6

observed
1 30

-4 20

-9 10

-14 0
0 30 60 90 120 150 180 0 10 20 30 40 50
potencia predicted

Residual Plot
3.3
Studentized residual

2.3
1.3
0.3
-0.7
-1.7
-2.7
0 30 60 90 120 150 180
potencia

Ejercicio 2

Para estudiar la relación entre la resistencia de un polímero y el contenido de una impureza


se ha realizado el siguiente ajuste por regresión lineal a partir de 154 muestras de
polímero fabricados por un cierto proceso:

Regression Analysis - Linear model: Y = a + b*X


-----------------------------------------------------------------------------
Dependent variable: Resistencia
Independent variable: Impureza
-----------------------------------------------------------------------------
Standard
Parameter Estimate Error
-----------------------------------------------------------------------------
Intercept 55.8971 1.51963
Slope -0.0101428 0.00055482
-----------------------------------------------------------------------------

A la vista de los resultados obtenidos, ¿puede concluirse que el contenido de la citada


impureza afecta a la resistencia media del polímero? Para ello, construye un intervalo de
confianza al 90% para el parámetro que corresponda, especificando el significado de dicho
parámetro y las hipótesis a contrastar.

2
Ejercicio 3

Se quiere estudiar la relación entre el coste promedio por unidad y el tamaño del lote de
producción de un producto. A partir de una muestra de doce lotes del producto de
diferente tamaño (variable T) se han obtenido los costes promedios por unidad (variable C
expresada en cientos de euros). Con estos datos se ha realizado un ajuste por regresión
lineal. Los resultados se muestran a continuación:

Polynomial Regression - C versus T

Polynomial Regression Analysis


-----------------------------------------------------------------------------
Dependent variable: C
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT 2.19827 0.0225498 97.4849 0.0000
T -0.0225224 0.000942435
T^2 0.000125065 0.0000086577 14.4455 0.0000
-----------------------------------------------------------------------------

Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 0.525163
Residual
-----------------------------------------------------------------------------
Total (Corr.) 0.5265

Standard Error of Est. =


Mean absolute error = 0.00893574
Durbin-Watson statistic = 2.78329 (P=0.0096)
Lag 1 residual autocorrelation = -0.453746

a) Interpreta el significado del parámetro asociado al término T^2 del modelo.

El modelo ajustado es: E(C) = β0 + β1 T + β2 T2 ;


derivando una vez: d E(C)/ dT = β1 + 2 β2 T; que indica que la pendiente depende del tamaño del lote T
derivando dos veces: d2 E(C)/ dT2 = 2 β2 ; que indica que la curvatura del modelo es constante.
Por tanto β2 está asociado a la curvatura del modelo.

b) Calcula el coeficiente de determinación del ajuste, R2. ¿Qué interpretación tiene?

R2=SCE/SCT=0.525163/0.5265=0.99746, lo que indica que el 99.746% de la variabilidad del coste promedio por
unidad está explicado por el modelo (que incluye el efecto lineal y cuadrático del tamaño de lote).

c) Calcula el valor del Standard Error of Est. ¿Qué interpretación tiene?

0.5265 − 0.525163
Standard Error of Est = CMR = = 0.000149 = 0.012. Representa la
12 − (2 + 1)
desviación típica de los residuos del modelo y estima la desviación típica de la distribución de la variable aleatoria
coste promedio por unidad en función del tamaño de lote.

d) ¿Es significativo el término lineal del modelo? Justifica la respuesta utilizando el


contraste de hipótesis adecuado e indicando las hipótesis a contrastar.

3
Contrastaremos las hipótesis: H0: β1 = 0 frente a H1: β1 ≠ 0.
Como tcalc= b1/sb1= -0.02252/0.00094 = -23.96 en valor absoluto es mayor que t90.05/2=2.262, se rechaza H0 y se
considera que el término lineal del modelo es estadísticamente significativo (α=0.05).

e) Estima aproximadamente entre qué valores centrales fluctuará el coste medio por
unidad de producto en el 70% de los lotes de tamaño 50.

m* = (Valor medio predicho del coste promedio / T=50)= 2.19827 – 0.0225224×50 + 0.000125065×502 = 1.385
σ* = 0.012
Coste promedio por unidad en los lotes de tamaño 50 ∼ N(m=1.385; σ = 0.012)
El intervalo pedido se calcula como 1.385± z 0.012, donde el valor z es el percentil 85 de la distribución normal
tipificada, z=1.036 ⇒ 1.385± 1.036× 0.012⇒ 137.2, 139.7 €

Ejercicio 4

a) En el estudio de la relación entre una serie de variables explicativas y una


variable respuesta, ¿en qué casos resulta indispensable recurrir a los modelos de
regresión lineal? Pon un ejemplo.

El recurso a los modelos de regresión resulta indispensable:


- cuando no es posible fijar previamente los valores a adoptar por las variables explicativas en
un determinado estudio, como sucede en particular si éstas son de tipo aleatorio, dado que en
estos casos no es posible diseñar un experimento que garantice la ortogonalidad de los
efectos a investigar. Ejemplo: estudio del efecto de la temperatura diaria en el consumo de
energía de una instalación. La temperatura diaria es una variable explicativa de naturaleza
aleatoria que no es posible fijar de antemano.
- en el análisis de información histórica que no fue obtenida a partir de un diseño experimental.
Ejemplo: datos procedentes del control estadístico de cierto proceso recopilados durante el
último año, o datos resultantes de una determinada encuesta.

b) ¿Cómo validarías con el Statgraphics en un modelo de regresión la hipótesis de


normalidad de las perturbaciones del modelo?

Las perturbaciones del modelo de regresión se estiman a partir de los residuos del modelo: diferencia
entre los valores observados y los predichos por el modelo. Por ello, la hipótesis de normalidad de las
perturbaciones se validará viendo si puede asumirse que los residuos se distribuyen normalmente.
Para ello, se podrían calcular los estadísticos muestrales de los residuos (mediante la opción: resumen
de estadísticos) y ver si los valores de media y mediana son parecidos (distan pocas desviaciones
típicas), y los coeficientes de asimetría y curtosis estandarizados están en el intervalo (-2, 2). El
estudio se completaría con una representación en papel probabilístico normal de los residuos,
comprobando que se ajustan a una recta.

Para estudiar la relación entre las horas de funcionamiento por litro de combustible
consumido, y la potencia y tipo de tres equipos electrógenos se realizó un estudio por
regresión lineal, cuyos resultados parciales se muestran a continuación:

MODELO 1:
-----------------------------------------------------------------------------
Dependent variable: hpl
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT 45.8452 1.64211 27.9185 0.0000
potencia -0.208853 0.0159949 -13.0575 0.0000
tipo=2 2.35902 1.06945 2.20583 0.0290

4
tipo=3 3.74928 0.871 4.30457 0.0000
-----------------------------------------------------------------------------

Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model
Residual
-----------------------------------------------------------------------------
Total (Corr.) 8086.77 149

R-squared = 66.5646 percent


R-squared (adjusted for d.f.) =
Standard Error of Est. =
Mean absolute error =
Durbin-Watson statistic = 1.58372 (P=0.0052)
Lag 1 residual autocorrelation = 0.202701

c) ¿Qué interpretación tiene el coeficiente asociado a la variable tipo=3?

El modelo formulado es: E(hpl) = β 0 + β 1 potencia + β 2 (tipo=2) + β 3 (tipo=3).

A partir del modelo, particularizando para los tipos electrógenos 3 y 1, se tiene:


(1) E(hpl|potencia, tipo 3) = β 0 + β 1 potencia + β 3
(2) E(hpl|potencia, tipo 1) = β 0 + β 1 potencia

Restando las ecuaciones (1)-(2) se obtiene el parámetro β 3 , por lo que se concluye que este parámetro
indica la diferencia de horas de funcionamiento medio por litro de combustible entre el grupo
electrógeno 3 y el 1 a una misma potencia.

Ejercicio 5

En un estudio sobre la influencia en el rendimiento de un proceso químico de la temperatura


y del tipo de reactor utilizado, se han recogido datos de 21 reacciones, registrándose las
siguientes variables:
RTO: rendimiento (Tm/h)
T: temperatura (ºC)
REAC: reactor (3 tipos codificados como A, B y C)
El ajuste de regresión lineal múltiple realizado mediante el Statgraphics ha dado los
resultados que se recogen parcialmente a continuación:
-----------------------------------------------------------------------------
Dependent variable: RTO
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT 3.52 0.32773
T 1.58 0.111246
REAC="B" 2.14 0.651869
REAC="C" 3.37 0.568342
T*(REAC="B") 0.62 0.370911
T*(REAC="C") 1.25 0.257064
-----------------------------------------------------------------------------

Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model
Residual 0.647
-----------------------------------------------------------------------------
Total (Corr.) 122.595

5
a) Calcular el valor del coeficiente R2 e interpretar el resultado obtenido

a) ¿Qué interpretación práctica tiene el valor 0.62 obtenido para el coeficiente de la


variable T*(REAC="B")? Justifica la respuesta.

b) Estudiar si es significativo (α=0.05) el parámetro anterior. ¿Qué se quiere decir cuando


se afirma que un parámetro del modelo no es significativo estadísticamente?

c) La varianza de la distribución marginal de la variable RTO, ¿será mayor, menor o igual


que 0.647? Justifica la respuesta.

Ejercicio 6

Se ha realizado un estudio de regresión lineal para investigar el efecto del tipo de


catalizador (variable TIPO codificada como 1, 2 y 3) y del contenido en impurezas (variable
IMPUREZAS en ppm) en el rendimiento de una reacción química (variable REND en
toneladas). Los resultados obtenidos con el STATGRAPHICS para el ajuste de diferentes
modelos se muestran a continuación (resultados incompletos):
MODELO 1
Model fitting results for: REND
--------------------------------------------------------------------------------
Independent variable coefficient std. error t-value P-value
--------------------------------------------------------------------------------
CONSTANT 0.346167 0.053202 6.5066 0.0000
IMPUREZAS -0.027194 0.00724 -3.7562 0.0021
TIPO=2 0.168 0.043439 3.8675 0.0017
TIPO=3 0.054167 0.043439 1.2470 0.2329
--------------------------------------------------------------------------------
Analysis of Variance for the Full Regression
--------------------------------------------------------------------------------
Source Sum of Squares DF Mean Square F-Ratio P-value
--------------------------------------------------------------------------------
Model
Error
--------------------------------------------------------------------------------
Total (Corr.)

R-squared = 0.679599 Stnd. error of est. =


R-squared (Adj. for d.f.) = 0.610942 Durbin-Watson statistic = 2.0488

MODELO 2
Model fitting results for: REND
--------------------------------------------------------------------------------
Independent variable coefficient std. error t-value P-value
--------------------------------------------------------------------------------
CONSTANT 0.23 0.061664 3.7299 0.0029
IMPUREZAS -0.007833 0.009515
TIPO=2 0.442 0.087206 5.0685 0.0003
TIPO=3 0.128667 0.087206 1.4754 0.1658
IMPUREZAS*(TIPO=2) -0.045667 0.013456 -3.3937 0.0053
IMPUREZAS*(TIPO=3) -0.012417 0.013456 -0.9228 0.3743
--------------------------------------------------------------------------------
Analysis of Variance for the Full Regression
--------------------------------------------------------------------------------
Source Sum of Squares DF Mean Square F-Ratio P-value
--------------------------------------------------------------------------------
Model 0.208244 5 0.0416489 12.7788 0.0002
Error 0.0391106 12 0.00325922
--------------------------------------------------------------------------------
Total (Corr.) 0.247355 17

R-squared = 0.841885 Stnd. error of est. = 0.0570895


R-squared (Adj. for d.f.) = 0.776003 Durbin-Watson statistic = 2.1737

6
MODELO 3
Model fitting results for: REND
--------------------------------------------------------------------------------
Independent variable coefficient std. error t-value P-value
--------------------------------------------------------------------------------
CONSTANT 0.210083 0.018986 11.0652 0.0000
TIPO=2 0.461917 0.073532 6.2818 0.0000
IMPUREZAS*(TIPO=2) -0.0535 0.010962 -4.8807 0.0002
--------------------------------------------------------------------------------
Analysis of Variance for the Full Regression
--------------------------------------------------------------------------------
Source Sum of Squares DF Mean Square F-Ratio P-value
--------------------------------------------------------------------------------
Model 0.182471 2 0.0912355 21.0920 0.0000
Error 0.0648839 15 0.00432559
--------------------------------------------------------------------------------
Total (Corr.) 0.247355 17

R-squared = 0.737689 Stnd. error of est. = 0.0657693


R-squared (Adj. for d.f.) = 0.702714 Durbin-Watson statistic = 1.62117

a) Escribe la ecuación del modelo 1 y explica lo que trata de modelar.

La ecuación del modelo 1 es: E(REND)=β0 + β1 IMPUREZAS + β2 (TIPO=2) + β3 (TIPO=3)


Intenta modelar un posible efecto del tipo de catalizador sobre el rendimiento medio de la reacción, así como un
posible efecto lineal del contenido en impurezas sobre dicho rendimiento medio, asumiendo que es el mismo para los
tres catalizadores.

b) Calcular el valor de la varianza residual del modelo 1.

R2 = 0.679599 = SCE/SCT; SCE = 0.679599 x 0.247355 = 0.168102


SCR = SCT - SCE = 0.247355 - 0.168102 = 0.079253
grados de libertad residuales (glr) = 18 - 3 - 1 = 14
s2 (varianza residual) = CMR = SCR/glr = 0.079253/14 = 0.00566

c) En el modelo 2, ¿qué interpretación tiene el coeficiente asociado a la variable


IMPUREZAS? ¿Es estadísticamente significativo? ¿Se deduce de este modelo 2 que el
contenido en impurezas no influye en el rendimiento medio de la reacción química?
(Justificar las respuestas).

En el modelo 2 se tiene que:


E(REND)=β0 + β1 IMPUREZAS + β2 (TIPO=2) + β3 (TIPO=3) +
+ β4 IMPUREZAS x (TIPO=2) + β5 IMPUREZAS x(TIPO=3)

Escribiendo un submodelo para cada tipo de catalizador:


E(REND|Catalizador 1)=β0 + β1 IMPUREZAS
E(REND|Catalizador 2)=β0 +β2 + (β1 + β4 )IMPUREZAS
E(REND|Catalizador 3)=β0 +β3 + (β1 + β5 )IMPUREZAS

β1 (pendiente de la ecuación del submodelo para el catalizador 1) mide la variación del rendimiento medio de la
reacción al aumentar 1ppm el contenido en impurezas cuando se emplea el catalizador tipo 1.

Para estudiar su significación estadística aplicaremos el contraste t-student de inferencia respecto a una población
normal contrastando las siguientes hipótesis: H0: β1=0; H1: β1≠0

b1 −0.007833
= = 0.8233 < t120.025 = 2179
. , por lo que no se puede rechazar la hipótesis nula H0:
sb1 0.009515
β1=0, y este parámetro no se considera estadísticamente significativo con un riesgo de primera especie α=0.05.

Al considerarse nulo dicho parámetro, quiere decir que, para el catalizador tipo 1, el contenido en impurezas no
influye linealmente sobre el rendimiento medio de la reacción en el rango de impurezas estudiado.

Sin embargo, esto no quiere necesariamente decir que el contenido de impurezas no influya en el rendimiento medio
de la reacción. De hecho, para el catalizador tipo 2, sí que existe un efecto lineal como lo indica la significación
estadística del coeficiente β4 asociado a la variable IMPUREZAS x (TIPO=2), dado que su p-valor<0.05.

7
d) Suponiendo que se elige el modelo 3, estimar el porcentaje de reacciones que con el
catalizador tipo 2 y un contenido en impurezas de 3ppm tendrán un rendimiento superior a
0.4 toneladas.

La predicción del rendimiento medio en esas condiciones es:


m*(REND/Tipo 2; Impurezas=3ppm) = 0.210083 + 0.461917 - 0.0535 x 3 = 0.5115

La estimación de la desviación típica es: CMR = 0.0657693


Asumiendo las hipótesis del modelo de regresión, se considerará que:
(REND/Tipo=2; Impurezas = 3ppm)∼Normal(m=0.5115 ton; σ=0.0658 ton), por lo que:

P(N(0.5115, 0.0658)>0.4) = P(N(0,1)>-1.69) = 1-0.0455 = 0.9545 ⇒ 95.45%

Ejercicio 7
Una factoría desea controlar su consumo diario de energía, concretamente el de un tipo de
gas utilizado para la calefacción de sus instalaciones. Se pretende detectar precozmente la
presencia de cualquier anomalía y ayudar a la identificación de la misma con el fin de
eliminarla rápidamente si es desfavorable o de fijarla definitivamente si es favorable. Para
controlar el proceso se optó por establecer un modelo que permitiese predecir el consumo
medio que cabe esperar en las condiciones concretas de cada día.

Tras un estudio del problema se obtuvo el MODELO 1 que se muestra a continuación


(TEMPER: temperatura media del día en ºC; TEMPANT: temperatura media diaria del día
anterior en ºC; DIA: día de la semana de Lunes a Viernes, codificada del 1 al 5,
respectivamente):

NOTA: Trabaja con un α=0.05 y JUSTIFICA todas las respuestas.

MODELO 1
Model fitting results for: CONSUMO
--------------------------------------------------------------------------------
Independent variable coefficient std. error t-value sig.level
--------------------------------------------------------------------------------
CONSTANT 475.305486 7.944811 59.8259 0.0000
TEMPER -22.330665 2.200016 -10.1502 0.0000
TEMPER RAISE 2 0.355977 0.086474 4.1166 0.0001
TEMPANT -2.97119 1.304533 -2.2776 0.0269
DIA=5 -18.648548 6.401579 -2.9131 0.0053
--------------------------------------------------------------------------------
R-SQ. (ADJ.) SE= MAE= 15.687654 DurbWat= 1.489
Previously: 0.0000 0.000000 0.000000 0.000
57 observations fitted, forecast(s) computed for 0 missing val. of dep. var.

Analysis of Variance for the Full Regression


--------------------------------------------------------------------------------
Source Sum of Squares DF Mean Square F-Ratio P-value
--------------------------------------------------------------------------------
Model 565885. 4 141471. 343.759 .0000
Error
--------------------------------------------------------------------------------
Total (Corr.) 587285. 56

R-squared = Stnd. error of est.


R-squared (Adj. for d.f.) = 0.960758 Durbin-Watson statistic = 1.48921

8
a) ¿Cuál es la ecuación que propone el MODELO 1?

b) ¿Qué interpretación tiene el parámetro que acompaña a DIA=5?

c) ¿Es estadísticamente significativo el parámetro anterior? Explica detalladamente el


fundamento del contraste de hipótesis utilizado, indicando cuál es el riego de primera
especie que asumes.

A partir del ajuste al MODELO 1 se obtuvo el siguiente análisis de regresión usando como
variable dependiente los cuadrados de los residuos obtenidos en ese ajuste:

Model fitting results for: RESIDS RAISE 2


--------------------------------------------------------------------------------
Independent variable coefficient std. error t-value sig.level
--------------------------------------------------------------------------------
CONSTANT 186.186589 214.901523
TEMPER 5.237472 13.393591
DIA=2 -26.249048 245.746389
DIA=3 169.243293 211.921526
DIA=4 426.892457 237.699092
DIA=5 108.710434 211.908285
--------------------------------------------------------------------------------

d) ¿Qué se está tratando de estudiar con este segundo análisis? ¿Qué conclusión se
desprende del mismo?

e) ¿Entre qué valores centrales fluctuará aproximadamente el 99% del consumo diario de
energía los viernes en los que la temperatura media sea de 15ºC y la temperatura media
del día anterior haya sido de 10ºC?

a) E(CONSUMO) = β0 + β1 TEMPER + β2 TEMPER2 + β3 TEMPANT + β4 (DIA=5)


Donde (DIA=5) es una variable dummy que vale 1 para los viernes y vale 0 para cualquier otro día de la semana.

b) Si obtenemos el modelo para los viernes tenemos:


E(CONSUMO) = (β0 + β4 ) + β1 TEMPER + β2 TEMPER2 + β3 TEMPANT
El modelo para el resto de días de la semana queda:
E(CONSUMO) = β0 + β1 TEMPER + β2 TEMPER2 + β3 TEMPANT
Si a la ecuación del modelo de los viernes le restamos la ecuación del modelo para el resto de los días de la semana
obtenemos precisamente β4.
Así pues, β4 expresa la diferencia entre el consumo medio de los viernes y el del resto de los días de la semana para
una misma temperatura media del día y del día anterior.

c) Para estudiar esto se realiza el siguiente contraste de hipótesis para el parámetro β4 de la variable DIA=5:
H0: β4=0 frente a H1:β4≠0
Por los supuestos del modelo de regresión se considera que b4, estimador del parámetro β4, es una variable aleatoria
con distribución normal: b4∼N(m=β4; σb4)
También se deduce que (b4-β4)/sb4 ∼ tJ-(I+1), donde sb4 es la estimación de la desviación típica de b4, J (nº de
observaciones) e I (nº de variables del modelo de regresión).

9
Si H0 es cierta (β4=0), entonces b4/sb4 ∼ tJ-(I+1), mientras que si H0 es falsa, entonces |b4/sb4| tomará en promedio
valores mayores que una tJ-(I+1).
En concreto, el contraste se construye de forma que si |b4/sb4|>|tJ-(I+1) /2| se rechaza la H0 (aceptándose en caso
α

contrario) trabajando con un riesgo de 1ª especie α.


La estimación de β4 es b4=-18.648548, y la estimación de σb4 es sb4=6.401579, por lo que |b4/sb4|=2.9131>|t57-
/2
(4+1)=52 | =2.01 con un riesgo de primera especie α=0.05. Por lo que se acepta que β4≠0 y se considera que la
α

disminución del consumo medio de los viernes respecto al del resto de los días de la semana para una misma
temperatura media del día y del día anterior es de 18.6 unidades de energía.

d) En este análisis se pretende estudiar si el efecto lineal de la temperatura y el día de la semana influyen sobre la
varianza del consumo. Calculando los estadísticos t-calc=bi/sbi para los coeficientes del modelo se tiene:
t-calc=bi/sbi
Constant: 0.87
Temper: 0.39
DIA=2: -0.11
DIA=3: 0.80
DIA=4: 1.80
DIA=5: 0.51

Como todos (sin estudiar la constante del modelo) son en valor absoluto menores que t57-(5+1)=510.05/2=2.01 se
concluye que estos factores no afectan a la varianza del consumo de energía.

e) A partir del modelo 1 se tiene que el consumo en las condiciones indicadas (viernes en los que la temperatura
media sea de 15ºC y la temperatura media del día anterior haya sido de 10ºC) será Normal (m*; σ*= CMR ):

m*= 475.31 – 22.33 x 15 + 0.36 x 152 –2.97 x 10 – 18.65 =173.01 ;

σ*= CMR = ( 587285 − 565885 / 56 − 4 ) = 411.54 = 20.29


Nos piden calcular los valores “a” y “b” tales que P(a<N(173.01; 20.29)<b)=0.99.
P(N(173.01;20.29)>b)=0.005; (b-173.01)/20.29=2.575; b=225.26
P(N(173.01;20.29)<a)=0.005; (a-173.01)/20.29=-2.575; a= 120.76

Por tanto, entre 120.76 y 225.26 unidades de energía fluctuará aproximadamente el consumo el 99% de los viernes
en los que la temperatura media sea de 15ºC y la temperatura media del día anterior haya sido de 10ºC.

Ejercicio 8

Con el fin de mejorar ciertas propiedades en el polipropileno utilizado en parachoques, es


conveniente añadirle el aditivo CO3CA. Para estudiar este fenómeno se realizaron pruebas
aditivando al polipropileno diferentes cantidades de CO3CA (variable x=DOSIS, expresada
en %) y midiéndose la resistencia obtenida en cada caso (variable y=RESISTENCIA, medida
en Newtons). Los valores obtenidos de ambas variables se recogen en la siguiente tabla:

10
a) Calcula el modelo de regresión lineal que relaciona ambas variables.

b) Calcula el coeficiente de determinación R2. ¿Qué interpretación tiene R2?

Ejercicio 9

Responde a las siguientes cuestiones:

a) ¿Para qué sirven los modelos de regresión lineal?

Para establecer modelos predictivos de la pauta de variabilidad de una variable aleatoria (variable
dependiente) en función de los valores de una o más variables explicativas (aleatorias o no). Los modelos
de regresión habituales relacionan el valor medio de la variable dependiente con los valores de las
variables explicativas, aunque también es posible modelar la varianza de la variable dependiente en
función de las variables explicativas. El recurso a estos modelos es indispensable cuando no es posible
fijar previamente los valores de las variables explicativas, como sucede cuando éstas son aleatorias,
dado que en estos casos no es posible diseñar un experimento que garantice la ortogonalidad de los
efectos a estudiar. También es necesario recurrir a estos modelos para el análisis de información
histórica, no procedente de diseños experimentales.

b) ¿Se introduce del mismo modo en un modelo de regresión un factor cuantitativo a tres
niveles que un factor cualitativo con tres variantes? Justifica la respuesta.

No. Un factor cuantitativo, v.g. temperatura del reactor, T, se introduce como βi×T. El efecto de un factor
cualitativo, v.g. tipo de catalizador, C, con tres variantes, C1, C2 y C3, se modela previa definición de dos nuevas
variables tipo “dummy”: Z1 y Z2. Una posible asignación sería:
C1 C2 C3
Z1 0 1 0
Z2 0 0 1
En el modelo se introducirían los términos: βj×Z1 + βk×Z2.

11
c) Para analizar el efecto de dos factores cuantitativos X1 y X2 sobre una respuesta Y, se
ha realizado un experimento 22 con dos replicaciones, obteniéndose un total de 8
pruebas. Formula un modelo de regresión que permita estimar los efectos lineales de
los dos factores sobre la respuesta. Interpreta el significado de los coeficientes del
modelo.

E(Y)= β0 + β1×X1 + β2×X2


β0: Valor medio de Y cuando X1=X2=0
β1: Incremento del valor medio de Y cuando X1 aumenta en una unidad, manteniéndose constante X2.
β2: Incremento del valor medio de Y cuando X2 aumenta en una unidad, manteniéndose constante X1.

d) ¿El modelo de regresión lineal sólo admite modelar relaciones lineales? Justifica la
respuesta indicando cómo en el ejemplo del apartado c) se podría incluir una posible
relación de segundo orden (cuadrática) del factor X1 sobre Y.

El modelo de regresión es lineal en los parámetros, por lo que sí puede modelar relaciones no
lineales. V.g., la posible relación de segundo orden (cuadrática) del factor X1 sobre Y se modelaría
añadiendo al modelo del apartado c) el siguiente término: β3×X12, quedando el modelo así: E(Y)= β0
+ β 1× X 1 + β 2× X 2 + β 3× X 12.

e) ¿Para qué sirve dibujar un gráfico en papel probabilístico normal de los residuos de un
modelo de regresión?
Para validar la hipótesis de normalidad de las perturbaciones del modelo y detectar observaciones
atípicas en la respuesta. Si los residuos (estimaciones de las perturbaciones) caen aproximadamente en
línea recta en el papel probabilístico normal puede asumirse razonable la hipótesis de normalidad y la
ausencia de observaciones anómalas en la respuesta.

f) Se quiere ajustar mediante un modelo de regresión lineal la ecuación de Clausius-


Clapeyron que relaciona la presión de vapor (P) y la temperatura del etileno (T) en el
β1
β0 +
equilibrio líquido-vapor del etileno: P = e T . Formula el modelo de regresión,
explicando el significado de sus variables y parámetros.

Dado que el modelo no es lineal en los parámetros, hay que linealizarlo, para lo cual aplicaremos la
1
transformación logarítmica: ln P = β 0 + β1 , formulando el modelo:
T

E(Y ) = β0 + β1 X ; siendo:
Y: logaritmo neperiano de la presión de vapor (ln P)
X: inverso de la temperatura del etileno (1/T)
β0: Valor medio del ln P cuando 1/T=0 (es decir, la temperatura del etileno es infinita).
β1: Incremento del valor medio de ln P cuando X (inverso de la temperatura del etileno) aumenta en una
unidad.

12
Ejercicio 10

Para predecir el rendimiento de un proceso químico (variable R) con la temperatura


de la reacción (variable T) y con el tipo de catalizador (variable cualitativa CAT
con dos variantes: A y B), se ha formulado el siguiente modelo de regresión:

E(R)=β0 + β1 x T + β2 x (CAT=”B”) + β3 x T x (CAT=”B”)

a) ¿Qué interpretación tiene el parámetro β3?

b) A partir de los datos registrados en 64 reacciones se ha ajustado el siguiente


modelo de regresión lineal:

-----------------------------------------------------------------------------
Dependent variable: R
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic
-----------------------------------------------------------------------------
CONSTANT 18.310 0.9378330
T 0.253 0.0156578
CAT=”B” 6.840 1.3262960
T*(CAT=”B”) -0.088 0.0221434

-----------------------------------------------------------------------------

Sabiendo que la SCTotal = 620 y que el R2 = 0.9, calcular la probabilidad de que el


rendimiento del proceso operado usando el catalizador B y con una temperatura de 200
ºC sea superior a 60. (Nota: comprobar que los coeficientes del modelo son
estadísticamente significativos; α=0.05).

c) ¿A partir de qué valor de la temperatura el rendimiento medio de un catalizador es


mayor que el del otro?

El rendimiento observado en una reacción usando el catalizador A y con una


temperatura de 150 ºC es de 57:

d) Dibujar el punto correspondiente a esta observación en el gráfico de residuos


frente a predicciones.

e) ¿Para qué se puede usar ese gráfico?

13
Ejercicio 11

Se desea comparar la resistencia a la corrosión de unos tubos de acero fabricados


por dos proveedores. Una muestra de 15 tubos del proveedor A y otra de 20 tubos
del proveedor B se sometieron a una prueba de corrosión. La penetración
(profundidad que alcanza la corrosión en una sección transversal del tubo, en
milésimas de milímetro) se midió para cada tubo.

a) ¿Cuántas poblaciones se están comparando? ¿Cuáles?


b) Formula un modelo de regresión lineal para estudiar si hay diferencias en la
penetración media poblacional de los tubos de acero entre ambos
proveedores. Explica el significado de los parámetros β del modelo.
c) ¿Cuántos grados de libertad estarán asociados a la variabilidad explicada
por el modelo de regresión? ¿Cuántos grados de libertad estarán asociados
a la varianza residual?
d) ¿Cómo estudiarías en el modelo de regresión formulado si hay diferencias
entre la penetración media poblacional de los tubos de acero entre ambos
proveedores? Explica qué hipótesis formularías y cómo las contrastarías
con los datos disponibles.
e) Asumiendo que la media y la varianza de la penetración es mayor en los
tubos del proveedor B, ¿qué aspecto tendría el gráfico de los residuos
frente a los valores predichos por el modelo?
f) En el estudio de la relación entre una serie de variables explicativas y una
variable respuesta, ¿en qué casos resulta indispensable recurrir a los
modelos de regresión lineal? Pon un ejemplo.

a) Se están comparando dos poblaciones: la de los tubos de acero del proveedor A y la de los tubos de acero del
proveedor B. De la primera población se ha extraído una muestra de 15 tubos, mientras que la de la segunda se ha
extraído una muestra de 20 tubos.

b) Se pretende estudiar la relación entre la Penetración media y el Proveedor. Dado que el Proveedor es una variable
cualitativa con dos variantes (A y B), la introduciremos en el modelo mediante una variable “dummy” Z, que vale 1 para
el proveedor B y 0 para el proveedor A. El modelo de regresión es:

E(Penetración) = β0 + β1 Z

El modelo para el proveedor A es:


E(Penetración|A) = β0 , por lo que este parámetro mide la penetración media para los tubos del proveedor A.

Mientras que para el proveedor B es:


E(Penetración|B) = β0 + β1 , restando esta ecuación de la anterior, despejamos β1, por lo que este parámetro mide
la diferencia de penetración media entre el proveedor B y A.

c) Grados de libertad totales =N-1= 15+20-1 = 34


Grados de libertad del modelo =nº de parámetros β del modelo (sin contar β0) = 1
Grados de libertad residual = GLTotal – GLModelo = 34-1 = 33

d) Dado que β1 mide la diferencia de penetración media entre el proveedor B y A, realizaría el siguiente contraste de
hipótesis para el parámetro β1 de la variable “dummy” Z:
H0: β1=0 (no hay diferencias entre proveedores) frente a H1:β1≠0 (hay diferencias entre proveedores)

14
Por los supuestos del modelo de regresión se considera que b1, estimador del parámetro β1, es una variable aleatoria
con distribución normal: b1∼N(m=β1; σb1)
También se deduce que (b1-β1)/sb1 ∼ t33, donde sb1 es la estimación de la desviación típica de b1 y 33 son los grados
de libertad residuales del modelo.
Si H0 es cierta (β1=0), entonces b1/sb1 ∼ t33, mientras que si H0 es falsa, entonces |b1/sb1| tomará en promedio valores
mayores que una t33.
En concreto, el contraste se construye de forma que si |b1/sb1|>|t33,(α/2)| se rechaza la H0 (aceptándose en caso
contrario), trabajando con un riesgo de 1ª especie α.

Nota: Observar que este contraste es equivalente al test t-student de comparación de medias de poblaciones normales.

e) Dado que la media predicha para el proveedor A es m*(A)=b 0 y que la media predicha para el proveedor B es
m*(B)=b 0 +b 1 , como nos dicen que la penetración media es mayor en los tubos del proveedor B, entonces β 1 >0, y
m*(B) tenderá a ser mayor que m*(A). Como la varianza de la penetración es mayor en los tubos del proveedor B, los
residuos del proveedor B (diferencias entre la penetración medida y la media predicha para el proveedor B) tenderán a
ser mayores en valor absoluto, por lo que quedarán más dispersos en el gráfico residuos/valores predichos.

5,9

3,9
residual

1,9

-0,1

-2,1

-4,1
A B

Proveedor
Predicción (m*)
f)

El recurso a los modelos de regresión resulta indispensable:


- cuando no es posible fijar previamente los valores a adoptar por las variables explicativas en un determinado
estudio, como sucede en particular si estas son de tipo aleatorio, dado que en estos casos no es posible
diseñar un experimento que garantice la ortogonalidad de los efectos a investigar. Ejemplo: estudio del efecto
de la temperatura diaria en el consumo de energía de una instalación. La temperatura diaria es una variable
explicativa de naturaleza aleatoria que no es posible fijar de antemano.
- en el análisis de información histórica que no fue obtenida a partir de un diseño experimental. Ejemplo: datos
procedentes del control estadístico de cierto proceso recopilados durante el último año, o datos resultantes
de una determinada encuesta.

Ejercicio 12

Se pretende estudiar la posible influencia del contenido de impurezas (variable IMP, en %)


y el tipo de catalizador (variable CAT, codificada como 0, tipo A, y 1, tipo B) sobre la
resistencia de un polímero (variable RES, medida en una determinada escala). A partir de
un número elevado de datos se ha realizado un análisis de regresión lineal obteniéndose los
siguientes resultados (siendo todos los coeficientes estadísticamente significativos):

Variable explicativa Coeficiente


CONSTANT 43.7
IMP -1.2
CAT 5
IMP x CAT -0.5

15
a) ¿Qué criterio matemático (función objetivo) se usa para la construcción de la
ecuación de regresión?
b) ¿Cómo se calcula el residuo correspondiente a una observación? ¿Qué mide dicho
residuo?
c) Explica brevemente el fundamento estadístico del contraste t-student para
estudiar la significación estadística del coeficiente asociado a CAT.
d) ¿Qué hipótesis habría que formular para estudiar si hay diferencias entre ambos
catalizadores?
e) ¿Qué interpretación tiene el coeficiente 5, asociado al tipo de catalizador?
f) ¿Qué interpretación tiene el coeficiente -0.5, asociado a la interacción IMP x CAT?
g) Para obtener polímeros más resistentes en promedio ¿qué catalizador sería el
adecuado? Justifica la respuesta.
h) ¿Qué gráfico utilizarías para estudiar de forma descriptiva si hay efectos de
dispersión asociados al tipo de catalizador? Dibuja un boceto del aspecto de ese
gráfico en el caso en que la varianza de la resistencia con el catalizador B fuera
mayor que con el A.
i) Un ajuste usando como variable respuesta los cuadrados de los residuos del modelo
anterior dio como únicos coeficientes estadísticamente significativos los
siguientes:

Variable explicativa Coeficiente


CONSTANT 12
IMP 0.1
CAT 1.3

¿Entre qué límites aproximados fluctuará la resistencia en el 99% de los polímeros


fabricados con un 5% de impurezas y con el catalizador B?

16
Ejercicio 13

Se quiere estudiar la relación entre la Presión (mmHg) Temperatura (ºC)


presión de vapor de etileno y su 30 105.5
temperatura. Para ello, se ha realizado una 37 110.2
experiencia registrando los valores de 59 118.4
presión de vapor de etileno a distintas 71 122.4
temperaturas. Los resultados se muestran 83 124.6
a continuación: 118 133.5
149 140.9
a) Ajusta mediante un modelo de 197 148.2
regresión lineal los valores 244 153.6
experimentales a la ecuación de 341 163.9
Clausius-Clapeyron que relaciona la 446 170.6
presión de vapor (P) y la temperatura 569 178.4
del etileno (T) en el equilibrio líquido- 739 187
vapor del etileno mediante la expresión: 1010 196.9
β1
β0 +
T .
Formula el modelo de
P=e
regresión, explicando el significado de
sus variables y parámetros.

b) Estudia la significación global del ajuste y la de cada uno de los coeficientes Beta
del modelo. ¿Cuál es el coeficiente de determinación del ajuste? ¿Qué significa?
¿Cuál es la estimación de la desviación típica residual? ¿Qué estima dicha
desviación típica residual?
c) Valida el modelo mediante el análisis de los residuos.
d) Compara el modelo de Clasius-Clapeyron con un modelo de regresión lineal
polinómico del tipo: P = β0 + β1T + β2T 2 +...
Discutir el modelo a elegir.
Nota: los modelos a) y el d) no tienen la misma SCTotal, pues los datos están en
diferentes escalas, por lo que no se pueden comparar sus R2. El mejor modelo
debería ofrecer un alto coeficiente de determinación con un menor número de
parámetros.

17

También podría gustarte