Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Ejercicio 1
Para estudiar la relación entre las horas de funcionamiento por litro de combustible
consumido, y la potencia y tipo de unos equipos electrógenos se realizó un estudio por
regresión lineal, cuyos resultados parciales se muestran a continuación:
MODELO 1:
-----------------------------------------------------------------------------
Dependent variable: hpl
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT 45.8452 1.64211 27.9185 0.0000
potencia -0.208853 0.0159949 -13.0575 0.0000
tipo=2 2.35902 1.06945 2.20583 0.0290
tipo=3 3.74928 0.871 4.30457 0.0000
-----------------------------------------------------------------------------
Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model
Residual
-----------------------------------------------------------------------------
Total (Corr.) 8086.77 149
Restando las ecuaciones (1)-(2) se obtiene el parámetro β 3 , por lo que se concluye que este parámetro
indica la diferencia de horas de funcionamiento medio por litro de combustible entre el grupo
electrógeno 3 y el 1 a una misma potencia.
component effect
50
11
40
6
observed
1 30
-4 20
-9 10
-14 0
0 30 60 90 120 150 180 0 10 20 30 40 50
potencia predicted
Residual Plot
3.3
Studentized residual
2.3
1.3
0.3
-0.7
-1.7
-2.7
0 30 60 90 120 150 180
potencia
Ejercicio 2
2
Ejercicio 3
Se quiere estudiar la relación entre el coste promedio por unidad y el tamaño del lote de
producción de un producto. A partir de una muestra de doce lotes del producto de
diferente tamaño (variable T) se han obtenido los costes promedios por unidad (variable C
expresada en cientos de euros). Con estos datos se ha realizado un ajuste por regresión
lineal. Los resultados se muestran a continuación:
Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 0.525163
Residual
-----------------------------------------------------------------------------
Total (Corr.) 0.5265
R2=SCE/SCT=0.525163/0.5265=0.99746, lo que indica que el 99.746% de la variabilidad del coste promedio por
unidad está explicado por el modelo (que incluye el efecto lineal y cuadrático del tamaño de lote).
0.5265 − 0.525163
Standard Error of Est = CMR = = 0.000149 = 0.012. Representa la
12 − (2 + 1)
desviación típica de los residuos del modelo y estima la desviación típica de la distribución de la variable aleatoria
coste promedio por unidad en función del tamaño de lote.
3
Contrastaremos las hipótesis: H0: β1 = 0 frente a H1: β1 ≠ 0.
Como tcalc= b1/sb1= -0.02252/0.00094 = -23.96 en valor absoluto es mayor que t90.05/2=2.262, se rechaza H0 y se
considera que el término lineal del modelo es estadísticamente significativo (α=0.05).
e) Estima aproximadamente entre qué valores centrales fluctuará el coste medio por
unidad de producto en el 70% de los lotes de tamaño 50.
m* = (Valor medio predicho del coste promedio / T=50)= 2.19827 – 0.0225224×50 + 0.000125065×502 = 1.385
σ* = 0.012
Coste promedio por unidad en los lotes de tamaño 50 ∼ N(m=1.385; σ = 0.012)
El intervalo pedido se calcula como 1.385± z 0.012, donde el valor z es el percentil 85 de la distribución normal
tipificada, z=1.036 ⇒ 1.385± 1.036× 0.012⇒ 137.2, 139.7 €
Ejercicio 4
Las perturbaciones del modelo de regresión se estiman a partir de los residuos del modelo: diferencia
entre los valores observados y los predichos por el modelo. Por ello, la hipótesis de normalidad de las
perturbaciones se validará viendo si puede asumirse que los residuos se distribuyen normalmente.
Para ello, se podrían calcular los estadísticos muestrales de los residuos (mediante la opción: resumen
de estadísticos) y ver si los valores de media y mediana son parecidos (distan pocas desviaciones
típicas), y los coeficientes de asimetría y curtosis estandarizados están en el intervalo (-2, 2). El
estudio se completaría con una representación en papel probabilístico normal de los residuos,
comprobando que se ajustan a una recta.
Para estudiar la relación entre las horas de funcionamiento por litro de combustible
consumido, y la potencia y tipo de tres equipos electrógenos se realizó un estudio por
regresión lineal, cuyos resultados parciales se muestran a continuación:
MODELO 1:
-----------------------------------------------------------------------------
Dependent variable: hpl
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT 45.8452 1.64211 27.9185 0.0000
potencia -0.208853 0.0159949 -13.0575 0.0000
tipo=2 2.35902 1.06945 2.20583 0.0290
4
tipo=3 3.74928 0.871 4.30457 0.0000
-----------------------------------------------------------------------------
Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model
Residual
-----------------------------------------------------------------------------
Total (Corr.) 8086.77 149
Restando las ecuaciones (1)-(2) se obtiene el parámetro β 3 , por lo que se concluye que este parámetro
indica la diferencia de horas de funcionamiento medio por litro de combustible entre el grupo
electrógeno 3 y el 1 a una misma potencia.
Ejercicio 5
Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model
Residual 0.647
-----------------------------------------------------------------------------
Total (Corr.) 122.595
5
a) Calcular el valor del coeficiente R2 e interpretar el resultado obtenido
Ejercicio 6
MODELO 2
Model fitting results for: REND
--------------------------------------------------------------------------------
Independent variable coefficient std. error t-value P-value
--------------------------------------------------------------------------------
CONSTANT 0.23 0.061664 3.7299 0.0029
IMPUREZAS -0.007833 0.009515
TIPO=2 0.442 0.087206 5.0685 0.0003
TIPO=3 0.128667 0.087206 1.4754 0.1658
IMPUREZAS*(TIPO=2) -0.045667 0.013456 -3.3937 0.0053
IMPUREZAS*(TIPO=3) -0.012417 0.013456 -0.9228 0.3743
--------------------------------------------------------------------------------
Analysis of Variance for the Full Regression
--------------------------------------------------------------------------------
Source Sum of Squares DF Mean Square F-Ratio P-value
--------------------------------------------------------------------------------
Model 0.208244 5 0.0416489 12.7788 0.0002
Error 0.0391106 12 0.00325922
--------------------------------------------------------------------------------
Total (Corr.) 0.247355 17
6
MODELO 3
Model fitting results for: REND
--------------------------------------------------------------------------------
Independent variable coefficient std. error t-value P-value
--------------------------------------------------------------------------------
CONSTANT 0.210083 0.018986 11.0652 0.0000
TIPO=2 0.461917 0.073532 6.2818 0.0000
IMPUREZAS*(TIPO=2) -0.0535 0.010962 -4.8807 0.0002
--------------------------------------------------------------------------------
Analysis of Variance for the Full Regression
--------------------------------------------------------------------------------
Source Sum of Squares DF Mean Square F-Ratio P-value
--------------------------------------------------------------------------------
Model 0.182471 2 0.0912355 21.0920 0.0000
Error 0.0648839 15 0.00432559
--------------------------------------------------------------------------------
Total (Corr.) 0.247355 17
β1 (pendiente de la ecuación del submodelo para el catalizador 1) mide la variación del rendimiento medio de la
reacción al aumentar 1ppm el contenido en impurezas cuando se emplea el catalizador tipo 1.
Para estudiar su significación estadística aplicaremos el contraste t-student de inferencia respecto a una población
normal contrastando las siguientes hipótesis: H0: β1=0; H1: β1≠0
b1 −0.007833
= = 0.8233 < t120.025 = 2179
. , por lo que no se puede rechazar la hipótesis nula H0:
sb1 0.009515
β1=0, y este parámetro no se considera estadísticamente significativo con un riesgo de primera especie α=0.05.
Al considerarse nulo dicho parámetro, quiere decir que, para el catalizador tipo 1, el contenido en impurezas no
influye linealmente sobre el rendimiento medio de la reacción en el rango de impurezas estudiado.
Sin embargo, esto no quiere necesariamente decir que el contenido de impurezas no influya en el rendimiento medio
de la reacción. De hecho, para el catalizador tipo 2, sí que existe un efecto lineal como lo indica la significación
estadística del coeficiente β4 asociado a la variable IMPUREZAS x (TIPO=2), dado que su p-valor<0.05.
7
d) Suponiendo que se elige el modelo 3, estimar el porcentaje de reacciones que con el
catalizador tipo 2 y un contenido en impurezas de 3ppm tendrán un rendimiento superior a
0.4 toneladas.
Ejercicio 7
Una factoría desea controlar su consumo diario de energía, concretamente el de un tipo de
gas utilizado para la calefacción de sus instalaciones. Se pretende detectar precozmente la
presencia de cualquier anomalía y ayudar a la identificación de la misma con el fin de
eliminarla rápidamente si es desfavorable o de fijarla definitivamente si es favorable. Para
controlar el proceso se optó por establecer un modelo que permitiese predecir el consumo
medio que cabe esperar en las condiciones concretas de cada día.
MODELO 1
Model fitting results for: CONSUMO
--------------------------------------------------------------------------------
Independent variable coefficient std. error t-value sig.level
--------------------------------------------------------------------------------
CONSTANT 475.305486 7.944811 59.8259 0.0000
TEMPER -22.330665 2.200016 -10.1502 0.0000
TEMPER RAISE 2 0.355977 0.086474 4.1166 0.0001
TEMPANT -2.97119 1.304533 -2.2776 0.0269
DIA=5 -18.648548 6.401579 -2.9131 0.0053
--------------------------------------------------------------------------------
R-SQ. (ADJ.) SE= MAE= 15.687654 DurbWat= 1.489
Previously: 0.0000 0.000000 0.000000 0.000
57 observations fitted, forecast(s) computed for 0 missing val. of dep. var.
8
a) ¿Cuál es la ecuación que propone el MODELO 1?
A partir del ajuste al MODELO 1 se obtuvo el siguiente análisis de regresión usando como
variable dependiente los cuadrados de los residuos obtenidos en ese ajuste:
d) ¿Qué se está tratando de estudiar con este segundo análisis? ¿Qué conclusión se
desprende del mismo?
e) ¿Entre qué valores centrales fluctuará aproximadamente el 99% del consumo diario de
energía los viernes en los que la temperatura media sea de 15ºC y la temperatura media
del día anterior haya sido de 10ºC?
c) Para estudiar esto se realiza el siguiente contraste de hipótesis para el parámetro β4 de la variable DIA=5:
H0: β4=0 frente a H1:β4≠0
Por los supuestos del modelo de regresión se considera que b4, estimador del parámetro β4, es una variable aleatoria
con distribución normal: b4∼N(m=β4; σb4)
También se deduce que (b4-β4)/sb4 ∼ tJ-(I+1), donde sb4 es la estimación de la desviación típica de b4, J (nº de
observaciones) e I (nº de variables del modelo de regresión).
9
Si H0 es cierta (β4=0), entonces b4/sb4 ∼ tJ-(I+1), mientras que si H0 es falsa, entonces |b4/sb4| tomará en promedio
valores mayores que una tJ-(I+1).
En concreto, el contraste se construye de forma que si |b4/sb4|>|tJ-(I+1) /2| se rechaza la H0 (aceptándose en caso
α
disminución del consumo medio de los viernes respecto al del resto de los días de la semana para una misma
temperatura media del día y del día anterior es de 18.6 unidades de energía.
d) En este análisis se pretende estudiar si el efecto lineal de la temperatura y el día de la semana influyen sobre la
varianza del consumo. Calculando los estadísticos t-calc=bi/sbi para los coeficientes del modelo se tiene:
t-calc=bi/sbi
Constant: 0.87
Temper: 0.39
DIA=2: -0.11
DIA=3: 0.80
DIA=4: 1.80
DIA=5: 0.51
Como todos (sin estudiar la constante del modelo) son en valor absoluto menores que t57-(5+1)=510.05/2=2.01 se
concluye que estos factores no afectan a la varianza del consumo de energía.
e) A partir del modelo 1 se tiene que el consumo en las condiciones indicadas (viernes en los que la temperatura
media sea de 15ºC y la temperatura media del día anterior haya sido de 10ºC) será Normal (m*; σ*= CMR ):
Por tanto, entre 120.76 y 225.26 unidades de energía fluctuará aproximadamente el consumo el 99% de los viernes
en los que la temperatura media sea de 15ºC y la temperatura media del día anterior haya sido de 10ºC.
Ejercicio 8
10
a) Calcula el modelo de regresión lineal que relaciona ambas variables.
Ejercicio 9
Para establecer modelos predictivos de la pauta de variabilidad de una variable aleatoria (variable
dependiente) en función de los valores de una o más variables explicativas (aleatorias o no). Los modelos
de regresión habituales relacionan el valor medio de la variable dependiente con los valores de las
variables explicativas, aunque también es posible modelar la varianza de la variable dependiente en
función de las variables explicativas. El recurso a estos modelos es indispensable cuando no es posible
fijar previamente los valores de las variables explicativas, como sucede cuando éstas son aleatorias,
dado que en estos casos no es posible diseñar un experimento que garantice la ortogonalidad de los
efectos a estudiar. También es necesario recurrir a estos modelos para el análisis de información
histórica, no procedente de diseños experimentales.
b) ¿Se introduce del mismo modo en un modelo de regresión un factor cuantitativo a tres
niveles que un factor cualitativo con tres variantes? Justifica la respuesta.
No. Un factor cuantitativo, v.g. temperatura del reactor, T, se introduce como βi×T. El efecto de un factor
cualitativo, v.g. tipo de catalizador, C, con tres variantes, C1, C2 y C3, se modela previa definición de dos nuevas
variables tipo “dummy”: Z1 y Z2. Una posible asignación sería:
C1 C2 C3
Z1 0 1 0
Z2 0 0 1
En el modelo se introducirían los términos: βj×Z1 + βk×Z2.
11
c) Para analizar el efecto de dos factores cuantitativos X1 y X2 sobre una respuesta Y, se
ha realizado un experimento 22 con dos replicaciones, obteniéndose un total de 8
pruebas. Formula un modelo de regresión que permita estimar los efectos lineales de
los dos factores sobre la respuesta. Interpreta el significado de los coeficientes del
modelo.
d) ¿El modelo de regresión lineal sólo admite modelar relaciones lineales? Justifica la
respuesta indicando cómo en el ejemplo del apartado c) se podría incluir una posible
relación de segundo orden (cuadrática) del factor X1 sobre Y.
El modelo de regresión es lineal en los parámetros, por lo que sí puede modelar relaciones no
lineales. V.g., la posible relación de segundo orden (cuadrática) del factor X1 sobre Y se modelaría
añadiendo al modelo del apartado c) el siguiente término: β3×X12, quedando el modelo así: E(Y)= β0
+ β 1× X 1 + β 2× X 2 + β 3× X 12.
e) ¿Para qué sirve dibujar un gráfico en papel probabilístico normal de los residuos de un
modelo de regresión?
Para validar la hipótesis de normalidad de las perturbaciones del modelo y detectar observaciones
atípicas en la respuesta. Si los residuos (estimaciones de las perturbaciones) caen aproximadamente en
línea recta en el papel probabilístico normal puede asumirse razonable la hipótesis de normalidad y la
ausencia de observaciones anómalas en la respuesta.
Dado que el modelo no es lineal en los parámetros, hay que linealizarlo, para lo cual aplicaremos la
1
transformación logarítmica: ln P = β 0 + β1 , formulando el modelo:
T
E(Y ) = β0 + β1 X ; siendo:
Y: logaritmo neperiano de la presión de vapor (ln P)
X: inverso de la temperatura del etileno (1/T)
β0: Valor medio del ln P cuando 1/T=0 (es decir, la temperatura del etileno es infinita).
β1: Incremento del valor medio de ln P cuando X (inverso de la temperatura del etileno) aumenta en una
unidad.
12
Ejercicio 10
-----------------------------------------------------------------------------
Dependent variable: R
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic
-----------------------------------------------------------------------------
CONSTANT 18.310 0.9378330
T 0.253 0.0156578
CAT=”B” 6.840 1.3262960
T*(CAT=”B”) -0.088 0.0221434
-----------------------------------------------------------------------------
13
Ejercicio 11
a) Se están comparando dos poblaciones: la de los tubos de acero del proveedor A y la de los tubos de acero del
proveedor B. De la primera población se ha extraído una muestra de 15 tubos, mientras que la de la segunda se ha
extraído una muestra de 20 tubos.
b) Se pretende estudiar la relación entre la Penetración media y el Proveedor. Dado que el Proveedor es una variable
cualitativa con dos variantes (A y B), la introduciremos en el modelo mediante una variable “dummy” Z, que vale 1 para
el proveedor B y 0 para el proveedor A. El modelo de regresión es:
E(Penetración) = β0 + β1 Z
d) Dado que β1 mide la diferencia de penetración media entre el proveedor B y A, realizaría el siguiente contraste de
hipótesis para el parámetro β1 de la variable “dummy” Z:
H0: β1=0 (no hay diferencias entre proveedores) frente a H1:β1≠0 (hay diferencias entre proveedores)
14
Por los supuestos del modelo de regresión se considera que b1, estimador del parámetro β1, es una variable aleatoria
con distribución normal: b1∼N(m=β1; σb1)
También se deduce que (b1-β1)/sb1 ∼ t33, donde sb1 es la estimación de la desviación típica de b1 y 33 son los grados
de libertad residuales del modelo.
Si H0 es cierta (β1=0), entonces b1/sb1 ∼ t33, mientras que si H0 es falsa, entonces |b1/sb1| tomará en promedio valores
mayores que una t33.
En concreto, el contraste se construye de forma que si |b1/sb1|>|t33,(α/2)| se rechaza la H0 (aceptándose en caso
contrario), trabajando con un riesgo de 1ª especie α.
Nota: Observar que este contraste es equivalente al test t-student de comparación de medias de poblaciones normales.
e) Dado que la media predicha para el proveedor A es m*(A)=b 0 y que la media predicha para el proveedor B es
m*(B)=b 0 +b 1 , como nos dicen que la penetración media es mayor en los tubos del proveedor B, entonces β 1 >0, y
m*(B) tenderá a ser mayor que m*(A). Como la varianza de la penetración es mayor en los tubos del proveedor B, los
residuos del proveedor B (diferencias entre la penetración medida y la media predicha para el proveedor B) tenderán a
ser mayores en valor absoluto, por lo que quedarán más dispersos en el gráfico residuos/valores predichos.
5,9
3,9
residual
1,9
-0,1
-2,1
-4,1
A B
Proveedor
Predicción (m*)
f)
Ejercicio 12
15
a) ¿Qué criterio matemático (función objetivo) se usa para la construcción de la
ecuación de regresión?
b) ¿Cómo se calcula el residuo correspondiente a una observación? ¿Qué mide dicho
residuo?
c) Explica brevemente el fundamento estadístico del contraste t-student para
estudiar la significación estadística del coeficiente asociado a CAT.
d) ¿Qué hipótesis habría que formular para estudiar si hay diferencias entre ambos
catalizadores?
e) ¿Qué interpretación tiene el coeficiente 5, asociado al tipo de catalizador?
f) ¿Qué interpretación tiene el coeficiente -0.5, asociado a la interacción IMP x CAT?
g) Para obtener polímeros más resistentes en promedio ¿qué catalizador sería el
adecuado? Justifica la respuesta.
h) ¿Qué gráfico utilizarías para estudiar de forma descriptiva si hay efectos de
dispersión asociados al tipo de catalizador? Dibuja un boceto del aspecto de ese
gráfico en el caso en que la varianza de la resistencia con el catalizador B fuera
mayor que con el A.
i) Un ajuste usando como variable respuesta los cuadrados de los residuos del modelo
anterior dio como únicos coeficientes estadísticamente significativos los
siguientes:
16
Ejercicio 13
b) Estudia la significación global del ajuste y la de cada uno de los coeficientes Beta
del modelo. ¿Cuál es el coeficiente de determinación del ajuste? ¿Qué significa?
¿Cuál es la estimación de la desviación típica residual? ¿Qué estima dicha
desviación típica residual?
c) Valida el modelo mediante el análisis de los residuos.
d) Compara el modelo de Clasius-Clapeyron con un modelo de regresión lineal
polinómico del tipo: P = β0 + β1T + β2T 2 +...
Discutir el modelo a elegir.
Nota: los modelos a) y el d) no tienen la misma SCTotal, pues los datos están en
diferentes escalas, por lo que no se pueden comparar sus R2. El mejor modelo
debería ofrecer un alto coeficiente de determinación con un menor número de
parámetros.
17