Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Practica 5 2006 PDF
Practica 5 2006 PDF
1. Ajustar un modelo de regresión múltiple con variable respuesta “millas por galón”
(inversa del consumo) y regresoras: precio, peso y desplazamiento.
5. Analizar los residuos del modelo ajustado: estudio descriptivo y grá…co de los resid-
uos. ¿Se veri…can las hipótesis del modelo (homocedasticidad, normalidad)? ¿mejora
el modelo si se introduce la variable “aceleración”?
9. Repetir este mismo problema pero utilizando solamente los datos relativos a coches
de origen USA, ¿Cambian las conclusiones de los apartados anteriores?”
1
2 Modelos estadísticos aplicados. Juan Vilar
Los resultados del apartado resumen del procedimiento permite responder a las
preguntas de los cuatro primeros apartados de este problema:
? Proporciona el modelo estimado y la tabla ANOVA, se deduce que todas las variables
son signi…cativas y el contraste conjunto de la F indica que el modelo es signi…cativo.
? Calcula los coe…cientes de determinación y correlación.
? Obtiene el contraste de Durbin-Watson que indica que la primera autocorrelación de
los residuos es cero.
En el apartado informes se obtienen los valores de las predicciones y de los residuos.
Si se quieren calcular predicciones para un valor de x
~ determinado se debe introducir este
vector como un dato muestral (sin Y ).
En el apartado residuos atipicos se observa que las observaciones 145 y 147 presentan
residuos altos.
En el apartado puntos influyentes se pueden estudiar las observaciones que pueden
ser in‡uyentes en el cálculo del modelo.
Este módulo proporciona muchos grá…cos de interés:
? Los grá…cos de efectos de las componentes indican la importancia de las tres regre-
soras.
? Los diferentes grá…cos de residuos permiten obtener conclusiones acerca de las hipóte-
sis del modelo.
La hipótesis de multicolinealidad puede estudiarse en:
El apartado matriz de correlaciones valores grandes de esta matriz (valores
fuera de la diagonal próximos a 1) indican la posible existencia de multicolinealidad.
La matriz de correlaciones de las variables regresoras R; puede calcularse en el
apartado (también se obtiene la matriz de correlaciones parciales y un grá…co matricial)
descripcion > datos numericos > analisis multidimensional.
En todo caso es conveniente calcular la diagonal de R 1 y el índice de condicionamien-
to de R:
Se guardan las predicciones y los residuos estandarizados y/o estudentizados y se
pueden estudiar las hipótesis de normalidad, homocedasticidad e independencia.
? Utilizando los residuos estandarizados la normalidad se estudia en el módulo:
Problema 5.2.
“Con los datos del …chero problema-5-1 estudiar la regresión de la variable respuesta
“millas por galón” (inversa del consumo) respecto a las variables regresoras: precio, peso,
desplazamiento, potencia (caballos de vapor) aceleración y número de cilindros.
Y = 1 + 00 49 1 exp ( 2 (X 8)) ;
Los resultados que calcula este módulo son similares a los que se obtienen en el ajuste
de un modelo de regresión lineal.
Prácticas y problemas de regresión lineal múltiple. 5
P P P
n = 15; x1i = 42; x2i = 55; yi = 80 070;
P P P
x21i = 1880 08; x1i x2i = 1400 80; yi x1i = 320 063;
P P
x22i = 2190 00; yi x2i = 280 960:
6 Modelos estadísticos aplicados. Juan Vilar
Por tanto
0 1 0 1
15 420 00 550 00 80 070
B C B C
S = Xt X = @ 42 1880 08 1400 80 A T = @ 320 063 A :
55 1400 80 2190 00 280 960
De donde
0 1 10 1
15 420 00 550 00 80 070
B C B 0 C
~ = S 1 T = @ 42 1880 08 1400 80 A @ 32 063 A =
55 1400 80 2190 00 280 960
0 10 1 0 1
10 360 00 092 00 282 80 070 00 160
1 B CB C B C
~ =S T=@ 00 092 00 016 00 013 A @ 320 063 A = @ 00 149 A
00 282 00 013 00 067 280 960 00 077
El modelo de regresión lineal que se obtiene es:
A partir de esta ecuación se obtienen las predicciones y los residuos asociados a las
observaciones muestrales.
Para la primera observación (x1 = 20 1; x2 = 3; y = 00 43) se obtiene
Para la varianza 2;
2 00 072
12 00 05 = 50 2253 2
210 0298 = 2
12 00 95 ;
00 072 00 072
00 0034 = 2
= 00 0138:
210 0298 50 2253
de donde
^0 0 00 160 0
p tn (k+1) ) t12 ;
s^R q00 00 0903
^1 00 149
t^1 = p tn (k+1) ) t^1 = = 150 050 t12 ;
s^R q11 00 0099
p1 = 00 000 ) Se Rechaza H0 :
^2 2 00 077 2
p 2 tn (k+1) ) ;
s^R q22 00 0201
^2 00 077
t^2 = p tn (k+1) ) t^2 = = 30 831;
s^R q22 00 0201
p2 = 00 0012 ) Se Rechaza H0 :
de donde X
scE = scG scR == (yi y^i )2 = 10 3595:
Tabla ANOVA
Fuentes de Suma de Grados Varianzas
variación cuadrados libertad
scE (por el modelo) 10 3595 2 s^2e = 00 6797
scR (Residual) 00 0721 12 s^2R = 00 0060
scG ( Global) 10 4316 14 s^2y = 00 1023
s^2 00 6797
F^M = 2e = 0 = 1130 28 F2;12 ) pc = 00 0000:
s^R 0 0060
Contraste individual de la F:
Se calcula el contraste individual de la F respecto a la variable x2 =“tamaño”, este
contraste es equivalente al contraste individual de la t.
Se obtiene la regresión de la variable gasto respecto a la variable ingreso,
4V E (tama~
no) = V E (2) V E (ingreso) = 10 3595 10 2716 = 00 0879;
este valor indica lo que aumenta la variabilidad explicada por el modelo al introducir
la variable tamaño.
Para contrastar la in‡uencia de esta variable se utiliza el estadístico
4V E (x2 )
1 00 0879
F^2 = = = 140 65 F1;12 ) p = 00 001:
s^2R (k) 00 0060
Este contraste proporciona el mismo p valor que el contraste individual de la t salvo
problemas de redondeo.
Coe…cientes de correlación:
Coe…ciente de determinación,
scE 10 3595
R2 = = 0 = 00 9496 ) 940 96 % de scG:
scG 1 4316
Este coe…ciente es una medida de la relación lineal existente entre las variables gasto
e ingreso.
Este coe…ciente también se puede calcular a partir del coe…ciente de determinación
de la siguiente regresión
scE 10 2716
R2 = = 0 = 00 8882 ) R = (gasto; ingreso) = 00 9424:
scG 1 4316
Coe…ciente de correlación parcial entre las variables gasto e ingreso t^ingreso = t^1 .
2
t^2ingreso
r (gasto; ingreso; tama~
no) =
t^2ingreso + n (k + 1)
150 0502
= = 00 9496
150 0502 + 12
no) = 00 974:
) r (gasto; ingreso; tama~
Otra forma más compleja de calcular este coe…ciente es la siguiente: se calculan las
siguientes regresiones simple y se guardan los residuos egasto:tama~no y eingreso:tama~no :
El coe…ciente de correlación parcial entre las variables gasto e ingreso se obtiene como
el coe…ciente de correlación simple entre las variables egasto:tama~no y eingreso:tama~no
^ 0 0; 4) = m
m(3 ^ t = ^ 0 + ^ 1 xt1 + ^ 2 xt2 =
= 00 160 + 00 149 30 0 + 00 077 4 = 00 595:
1
htt = ~xtt X t X ~xt
0 10 1
10 360 00 092 00 282 1
B CB C
= 1 30 0 4 @ 00 092 00 016 00 013 A @ 30 0 A = 00 07649
00 282 00 013 00 067 4
1
) nt = = 130 073:
00 07649
La varianza del estimador m
^ t es
“La familia Pérez que tiene unos ingresos de xt1 = 30 0 y un tamaño de xt2 = 4:
Esto es (~xt = (xt1 ; xt2 ) = (30 0; 4)) ¿qué gasto en alimentación tendrá?”.
y^(30 0; 4) = ^ 0 + ^ 1 x1 + ^ 2 x2 = 00 595:
La varianza de la predicción es
V ar (^
yt ) = s^2R (1 + htt ) = 00 0060 1 + 00 07649 = 00 0065
) yt ) = 00 0803:
(^
Algunos grá…cos de interés que ayudan a resolver el problema son los grá…cos par-
ciales de las componentes que sirven para observar la in‡uencia de las regresoras (Figuras
5.1. y 5.2.) y los grá…cos de residuos que se utilizan para chequar que se veri…can las hipóte-
sis estructurales del modelo, dos de ellos (frente a ingreso y frente a índice) se representan
en las Figuras 5.3. y 5.4.
R. L. Simple R. L. Múltiple
yi = 0 + 1 xi1 + 2 xi2 +
yi = 0 + 1 xi + "i
+ : : : + k xik + "i
Modelo
~ =
Y 0~
1 + ~ +~
1X " ~ = X ~ + ~"
Y
sXY
^1 = 2
sX 1
Estimación ^ = Xt X Xt Y
^0 = y ^1 x
2 1
~ N ~; 2 Xt X
^1 N 1;
ns2x
Propiedades (normal multivariante)
2 x2
^0 N 0; 1+ ^i N i;
2q
n s2x ii
y^i = ^ 0 + ^ 1 xi1 + ^ 2 xi2 +
y^i = ^ 0 + ^ 1 xi
+ : : : + ^ k xik
Predicción
^ = ^ 0~
Y ~
1 + ^ 1X ^ =X ^
Y
ei = yi y^i ei = yi y^i
Residuos
~ ~
e=Y ^
Y ~
e=Y
~ ^
Y
Varianza 1 Pn
s^2R = 2
i=1 ei
1 Pn 2
Estimada n 2 s^2R = i=1 ei
n (k + 1)
n^ 2M V
Propiedades
2
2
n 2 (n (k + 1)) s^2R 2
2 n (k+1)
^0 0
!0 = s tn 2
1 x2
Interv. de s^R 1+ 2
n sx ^i i
Con…anza !i = p tn (k+1)
s^R qii
^1 1 p
!1 = sx n tn 2
s^R
s^2 s^2
Contraste F F^R = 2e Fk;n 2 F^M = 2e Fk;n (k+1)
s^R s^R
Prácticas y problemas de regresión lineal múltiple. 15
Y 11 8 73 21 46 30
X1 10 0 10 10 0 10
X2 0 5 5 0 5 5
Problema 5.6. “Los datos de la tabla adjunta indican la gravedad especí…ca (X1 ),
contenido de humedad (X2 ) y fuerza (Y ) de diez vigas de madera. Encontrar el modelo
de regresión que mejor se ajusta a estos datos”.
Y 110 14 120 74 130 13 110 51 120 38 120 60 110 13 110 70 110 02 110 41
X1 00 99 00 558 00 604 00 441 00 550 00 528 00 418 00 480 00 406 00 467
X2 110 1 80 9 80 8 80 9 80 8 90 9 100 7 100 5 100 5 100 7
Caso 1 2 3 4 5 6 7 8 9 A B C
x1 2 0 2 4 3 1 3 1 4 0 3 3
x2 6;5 7;3 8;3 6;0 8;8 8;0 5;9 6;9 9;5 7;2 9 7;3
y 1;5 0;5 1;6 3;9 3;5 0;8 2;7 1;3 4;1 5 1;5 4
1. Analizar la relación lineal de la variable de interés, peso de corcho perdido, con las
dos variables explicativas.
Problema 5.17. “El …chero problema-5-17 contiene datos del fósforo encontrado
en 18 muestras de aceite tomadas a 20o . La variable X1 es el fósforo inorgánico, X2 el
fósforo orgánico e Y es el fósforo de maíz en el aceite. Encontrar un modelo que explique
la variable Y como función de las otras dos regresoras”.
Prácticas y problemas de regresión lineal múltiple. 19
Problema 5.18. “Se está interesado en estudiar la temperatura mínima de una ciu-
dad en relación con su longitud y latitud geográ…ca. Se ha tomado una muestra de 56
ciudades de EEUU y se ha calculado la temperatura mínima (en grados Farenheit) en el
mes de enero, el resultado obtenido es el promedio de 30 años (de 1931 a 1960). El …chero
problema-5-18 contiene los datos de esta variable y de las regresoras: longitud y latitud
de la ciudad.
En base a estos datos ajustar un modelo de regresión que explique el comportamiento
de la variable de interés en función de las dos regresoras. En un estudio previo se proponía
ajustar la temperatura con una relación lineal respecto a la variable latitud y un ajuste
cúbico respecto a la variable longitud”.
Problema 5.19. “Se desea estudiar la relación entre el consumo de helados, medido
en pintas per capita, y las variables regresoras precio del helado, en doláres por pinta,
el ingreso familiar por semana y la temperatura media medida en grados Farenheit. Para
ello se obtuvieron datos de 30 meses, desde marzo de 1951 a julio de 1953. El …chero
problema-5-19 contiene estos datos. Analizarlos y estudiar un modelo de regresión que
se ajuste a los mismos”.
Problema 5.23. “El …chero problema-5-23 contiene datos de tres variables relativas
a las 48 ciudades más grandes del mundo en 1991. Las variables consideradas son:
Horas de trabajo=“promedio ponderado de 12 ocupaciones”
Nivel de precios=“coste de una cesta de la compra de 112 productos básicos, en base
al nivel de Zurich=100”
Nivel de salarios=“nivel del salario de 12 ocupaciones diferentes ponderadas según la
distribución ocupacional, excluídas tasas a la seguridad social e impuestos, en base al nivel
de Zurich=100”
El objetivo del estudio es encontrar una relación entre estas tres variables. Tiene par-
ticular interés el estudio de los siguientes modelos de regresión:
X=“Desigualdad en ingresos, el número de familias por mil que ganan por debajo de
la mitad de la mediana de ingresos”
El objetivo del estudio es encontrar la mejor relación entre la variable de interés R con
el resto de las variables regresoras. Analizar la in‡uencia de la variable atributo S”.
Problema 5.25. “Los datos de este problema son clásicos en análisis de regresión
(…chero problema-5-25), corresponden a la observación de 21 días de trabajo en una
planta química para la oxidación del amonio como una etapa en la producción del ácido
nítrico. Las variables observadas son:
X1 =“‡ujo de aire”
X2 =“temperatura del ahua de refrigeración (o C)”
X3 =“concentración de ácido ( %)”
Y =“pérdida acumulada, porcentage del amonio que escapa sin ser absorbido”
El objetivo del estudio es ajustar un modelo de regresión a estos datos que explique el
comportamiento de la respuesta Y respecto a las tres regresoras”.
Problema 5.26. “En la tabla adjunta se presentan cuatro indicadores del tamaño
medio de las empresas en 15 paises desarrolados. Estos indicadores son: (V ) ventas, (A)
activos, (N ) número de empleados y (R) recursos propios. Estudiar un modelo de regresión
que relacione la variable V con las restantes variables (se sugiere transformar los datos
tomando logaritmos)”.
Pais V A N R Pais V A N R
España 249 454 3;358 166 Italia 109 100 874 16
EE.UU. 3;334 2;612 15;230 1;209 Bélgica 167 124 1;267 37
Alemania 707 542 7;391 119 Noruega 100 81 894 14
Inglaterra 511 352 7;307 243 Dinamarca 84 67 978 20
Francia 477 535 6;306 91 Finlandia 119 100 1;350 15
Suecia 142 137 2;075 34 Portugal 35 46 1;302 16
Suiza 494 475 6;163 215 Irlanda 237 283 3;668 80
Holanda 301 227 3;517 70
Problema 5.27. “En la tabla adjunta se indica la altura (H), longitudde las naves
(L), anchura de la nave principal (A) y número de naves (N ) de algunas iglesias románicas
españolas. Estudiar la relación entre la variable altura (H) y el resto de las variables”.
22 Modelos estadísticos aplicados. Juan Vilar
H L A N H L A N H L A N
60 15 200 00 60 18 1 90 20 170 00 80 20 1 90 00 200 50 70 00 3
110 60 190 40 50 20 3 90 10 200 60 90 50 1 130 00 260 50 60 40 3
220 00 850 00 80 10 3 70 75 120 20 50 40 1 110 45 210 75 70 45 3
100 20 240 00 50 50 3 80 85 170 90 60 50 1 80 50 100 00 60 70 1
80 90 140 30 60 50 1 100 00 280 20 50 45 1 60 70 140 60 60 20 3
90 50 110 90 60 40 1 100 50 260 78 80 80 3 110 60 130 60 70 60 1
120 20 200 00 60 10 3 190 00 350 00 70 70 3 100 15 110 60 40 10 3
110 40 190 30 70 50 1 80 20 160 00 90 00 1
Problema 5.28. “El …chero problema-5-28 contiene datos de tres variables obser-
vadas en cincuenta tipos de madera utilizados en la construcción. Las variables estudiadas
son las siguientes:
X =“densidad de la madera en aire seco”
Y =“módulo de rigidez”
Z =“módulo de elasticidad”.
El objetivo del estudio es ajustar un módelo de regresión que explique el compor-
tamiento de la variable elasticidad en función de las otras dos variables.
Los datos están ordenados de forma creciente según la variable X”.
Y Z X Y Z X Y Z X Y Z X
1000 99 250 3 1897 240 500 3 1145 193 400 3 2036 264 580 6
1112 173 280 2 1822 248 510 3 1438 167 400 3 2570 189 580 7
1033 188 280 6 2129 261 510 7 1281 188 400 6 1474 223 590 5
1087 133 290 1 2053 245 520 8 1595 238 420 3 2116 245 600 8
1069 146 300 7 1676 186 530 8 1129 130 420 4 2054 272 610 3
925 91 310 4 1621 188 530 9 1492 189 420 5 1994 264 610 5
1306 188 320 5 1990 252 540 9 1605 213 430 0 1746 196 630 2
1306 194 360 8 1764 222 550 1 1647 165 430 0 2604 268 630 3
1323 195 370 1 1909 244 550 2 1539 210 460 7 1767 205 680 1
1379 177 380 3 2086 274 550 3 1706 224 490 0 2649 346 680 9
1332 182 390 0 1916 276 560 9 1728 228 500 2 2159 246 680 9
1254 110 390 6 1889 254 570 3 1703 209 500 3 2078 237;5 700 8
1587 203 400 1 1870 238 580 3
Problema 5.29. “Se presentan dos problemas análogos. En una primera parte en el
…chero problema-5-29A, se recogen las distancias en metros de los saltos obtenidos por
los ganadores de la medalla de oro en las Olimpíadas en las siguientes pruebas: salto de
altura, salto de pértiga, salto de longitud y triple salto, en las pruebas realizadas entre los
años 1896 y 1988.
Prácticas y problemas de regresión lineal múltiple. 23
Los datos de la segunda parte están en el …chero problema-5-29B que contiene los
tiempos, en segundos, de los ganadores de las carreras de hombres de 100, 200, 400, 800 y
1500 metros en los JJOO desde 1900 a 1988 (no hubo JJOO en 1916, 1940 y 1944).
En ambos casos el objetivo del estudio es el mismo:
2. Para una determinada variable (en ambos …cheros) ajustar un modelo de regresión
simple donde la variable regresora es el tiempo (reescalado) o, dicho de otra forma,
estimar la tendencia de la variable (serie de tiempo).
Problema 5.30. “El …chero problema-5-30 contiene datos de tres variables relativas
a 35 carreras de montaña que tuvieron lugar en Escocia durante el año 1984. Las variables
estudiadas son:
- Distancia: recorrida en la carrera medida en millas.
- Altura: alcanzada en la montaña en el ascenso efectuado, medida en pies.
- Tiempo: que tardó el vencedor de la carrera.
Se desea ajustar un modelo de regresión que explique el comportamiento de la variable
respuesta, tiempo, respecto a las dos regresoras distancia y altura. En principio, puede ser
razonable hacer una transformación de la variable respuesta pero debe de estudiarse la
existencia de datos in‡uyentes”.
Problema 5.31. “En este problema se presenta una colección de datos obtenidos en
pruebas simuladas de accidentes de motos. Se observaban dos variables:
- X = tiempo transcurrido (en milisegundos) después del impacto.
- Y = aceleración de la cabeza.
Los datos se recogen en el …chero problema-5-31. En base a ellos se pide: