Está en la página 1de 36

Las tcnicas de Regresin lineal multiple parten de k+1 variables cuantitativas:

La variable respuesta (y) Las variables explicativas (x1 ,, xk)


Y tratan de explicar la y mediante una funcin lineal de las x1 ,, xk representada por:

y = b0 + b1x1 ++ bkxk
Debemos extender a k variables las ideas y tcnicas de la regresin lineal simple

Modelo
Y(x1,...xk) = b0 + b1x1 ++ bkxk + U con U N(0,s)

Muestra Aleatoria

En notacin matricial:

X = matriz del diseo

Cuatro hiptesis comunes con la regresin lineal simple


Normalidad Homocedasticidad Linealidad Independencia

Y dos requisitos adicionales


n > k+1
El modelo depende de k+2 parmetros. Para que la regresin tenga sentido debemos tener un nmero suficiente de datos (evidentemente, en la regresin lineal simple, tambin necesitamos ms de 2 datos para que tenga sentido ajustar una recta)

Ninguna de las Xi es combinacin lineal de las otras (multicolinealidad)


Si alguna de las Xi es combinacin lineal exacta de algunas de las otras Xj, el modelo puede simplificarse con menos variables explicativas. Tambin hay que tener cuidado si alguna de las Xi est fuertemente correlacionada con otras.

Datos y estimacin de los parmetros


Geomtricamente, la nube de puntos ahora est en un espacio de dimensin k+1 Difcil de visualizar para k>2!

X es la matriz del diseo, ahora con los datos Residuos:

Ejemplo 1 Estimacin del tamao de Trilobites


En la mayora de las condiciones de preservacin, es difcil encontrar ejemplares completos de Trilobites. La cabeza (cephalon) suelta es mucho ms comn. Por ello, es til poder estimar el tamao del cuerpo en funcin de medidas sobre la cabeza, estableciendo cules de ellas constituyen la mejor determinacin del tamao total. El siguiente ejemplo est tomado de: Norman MacLeod Keeper of Palaeontology, The Natural History Museum, London

Dibujo de Sam Gon III

y = b0 + b1x1 + b2x2

Intervalos de confianza

Error tpico de la estimacin de

Contrastes de hiptesis

Rechazaremos H0 , al nivel a, si el cero no est en el intervalo de confianza 1- a para bi.

Lo que es equivalente al contraste de la t de Student para cada parmetro bi.

Ejemplo 1 Estimacin del tamao de Trilobites


Coeficientes Error tpico Estadstico t 3,9396 4,4531 0,8847 2,5664 0,8771 2,9259 0,9387 1,0730 0,8749 p-valor Inferior 95% Superior 95% 0,3887 -5,4558 13,3349 0,0094 0,7159 4,4170 0,3938 -1,3250 3,2025

Intercepcin Gabella length Glabella width

Anlisis de la Varianza

Coeficiente de determinacin

SCT = nvy = (n-1) sy2; SCE = nvyR2

Tabla Anova

Rechazaremos H0 , al nivel a, si :

Relacin entre F y R2

Ejemplo 1 Estimacin del tamao de Trilobites


Regresin Residuos Total Gr. de libertad Suma de cuadrados 2 5586,22 17 1177,70 19 6763,92 cuadrados medios 2793,11 69,28 F Valor crtico de F 40,32 0,0000004

Estadsticas de la regresin Coeficiente de correlacin mltiple Coeficiente de determinacin R^2 R^2 ajustado Error tpico Observaciones

0,909 0,826 0,805 8,323 20

Resumen de los contrastes

Respiracin de lquenes Se estudia la tasa de respiracin (en nmoles oxgeno g-1 min-1) del liquen Parmelia saxatilis en crecimiento bajo puntos de goteo con un recubrimiento galvanizado.
El agua que cae sobre el liquen contiene Zinc y Potasio que se utilizan como variables explicativas.

Ejemplo 2

Los datos corresponden a: Wainwright (1993, J.Biol.Educ., 27(3), 201- 204).

Respiration Rate

Potassium ppm

Zinc ppm

Datos

71 53 55 48 69 84 21 68 68 Variable RespRate K ppm Zn ppm N 9 9 9 MEAN 59.67 359.9 6939

388 258 292 205 449 331 114 580 622 MEDIAN 68.00 331.0 2607

2414 10693 11682 12560 2464 2607 16205 2005 1825 STDEV 18.8 168.1 5742

Plano de regresin

Tasa de respiracin = b0 + b1Potasio + b2Zinc

* *

* * * * * * * *
*

* *

Datos *

Anlisis de la varianza (tabla ANOVA)


Source Regression Error Total df 2 6 8 SS 2243.3 400.7 2644.0 MS 1121.6 66.8 F 16.80 p 0.003

Regresin de la tasa de respiracin (RespRate) sobre el Potasio (K) y el Zinc (Zn). La ecuacin de regresin estimada es: RespRate = 101 - 0.0403 K - 0.00388 Zn
Predictor Coef Stdev t-ratio p

Constant K ppm

101.09 -0.04034

18.87 0.03424

5.36 -1.18

0.002 0.283

Zn ppm

-0.00387

0.001002

-3.87

0.008

ANLISIS DE VARIANZA (slo Zn) gr. Libertad Suma de cuadrados cuadrados medios Regresin 1 2150,58 2150,58 Residuos 7 493,42 70,49 Total 8 2644
Estadsticas de la regresin Coeficiente de correlacin mltiple Coeficiente de determinacin R^2 R^2 ajustado Error tpico Observaciones

p-valor 30,51 0,00088423

0,90 0,81 0,79 8,40 9

ANLISIS DE VARIANZA (slo K) gr. Libertad Suma de cuadrados cuadrados medios Regresin 1 1244,51 1244,51 Residuos 7 1399,49 199,93 Total 8 2644
Estadsticas de la regresin Coeficiente de correlacin mltiple Coeficiente de determinacin R^2 R^2 ajustado Error tpico Observaciones

F 6,22

p-valor 0,04

0,69 0,47 0,40 14,14 9

Estimacin de la respuesta media de Y para los valores x10 ,, xk0 de las variables explicativas

Error tpico

Prediccin de un nuevo valor de Y dados los valores x10 ,, xk0 de las variables explicativas

Error tpico

Ejemplo 3
En un experimento sobre el efecto txico de un compuesto qumico sobre las larvas del gusano de seda, se inyectaron distintas dosis del compuesto qumico a 15 larvas de distintos pesos, midindose posteriormente su supervivencia.

Se decidi realizar una regresin lineal mltiple entre las variables: Y = Log10 (supervivencia) X1= Log10 (dosis) X2 = Log10 (peso)

Supervivencia
685,49 924,70 486,41 477,53 671,43 276,69

dosis
1,41 1,64 3,07 3,23 3,72 3,92

peso
2,66 2,75 2,00 2,11 2,35 1,24

Y
2,84 2,97 2,69 2,68 2,83 2,44

X1
,15 ,21 ,49 ,51 ,57 ,59

X2
,43 ,44 ,30 ,33 ,37 ,09

263,63
399,94

4,37
6,04

1,38
2,55

2,42
2,60

,64
,78

,14
,41

359,75
276,06 263,03 274,79 242,66

5,48
6,79 7,33 8,02 8,75

2,31
1,43 1,77 1,90 1,38

2,56
2,44 2,42 2,44 2,39

,74
,83 ,87 ,90 ,94

,36
,16 ,25 ,28 ,14

283,14
224,39

12,30
15,63

1,95
1,56

2,45
2,35

1,09
1,19

,29
,19

Datos

Datos transformados

b ANOVA

Modelo 1

Regresin Res idual Tot al

Suma de cuadrados ,464 ,047 ,511

gl 2 12 14

Media cuadrtica ,232 ,004

F 59, 178

Sig. ,000a

a. Variables predic toras: (Constante), Log10 (peso), Log10 (dos is ) b. Variable dependiente: Log10 (superv iv encia)
a Coefi cientes

Modelo 1

Variables (Constante) Log10 (dos is ) Log10 (pes o)

Estadst ic os Coef icientes est andarizad Coef icientes no est andarizados os B Error t p. Beta 2, 589 ,084 -, 378 ,066 -, 580 ,875 ,172 ,516

t 30, 966 -5,702 5, 073

Sig. ,000 ,000 ,000

a. Variable dependiente: Log10 (superv iv encia)

Grficos de regresin simple

Regresin simple: slo la dosis


a Coefi cientes

Coef icientes no est andarizados Modelo 1 B 2, 952 -, 550 Error t p. ,074 ,097

Coef icientes est andarizados Beta -, 843 t 40, 136 -5,649

(Constante) Log10 (dosis )

Interv alo de conf ianza para B al 95% L mite Sig. L mite inf erior superior ,000 2, 793 3, 111 ,000 -, 760 -, 340

a. Variable dependiente: Log10 (superv iv encia)

Aceptando el modelo completo Para una larva (L1) que pesa 1.58 qu dosis estimamos necesaria para que viva el mismo tiempo que una larva (L2) que pesa 2.51 y a la que se administra una dosis de 3.16? Solucin Estimacin de Log10 (Supervivencia) de L2 = 2.589 + 0.875 Log10(2.51) 0.378Log10(3.16) = 2.75
Supervivencia estimada de L2 = 102.75 = 562.34 Dosis estimada para L1 2.75 = 2.589 + 0.875 Log10(1.58) 0.378Log10(x)

Despejando Log10(x) = 0.04

la dosis pedida es 100.04 = 1.10

Ejemplo 4
Los siguientes resultados corresponden al anlisis realizado sobre los cerezos negros en el Allegheny National Forest, Pennsylvania. Los datos corresponden al volumen (en pies cbicos), la altura (en pies) y el dimetro (en pulgadas, a 54 pulgadas sobre la base) de 31 cerezos. Se trata de estimar el volumen de un rbol (y por tanto su cantidad de madera) dados su altura y su dimetro.

Correlaciones Diam
Dimetro Altura Volumen 1 0,519 0,967

Varianzas y covarianzas

Altura
1 0,598

Volumen
Dimetro Altura Volumen

Diam
7,986 7,598 38,030

Altura
36,432 44,917

Volumen

194,668

Anlisis de los residuos

Regresin simple (slo el dimetro)

cul es la curva ajustada con el modelo potencial?

Regresin simple (slo el dimetro) Residuos no tipificados

justifican los residuos la eleccin del modelo potencial?

Predicciones puntuales
Para un cerezo con una altura de 80 pies y un dimetro de 16 pulgadas Con el modelo lineal completo (dimetro y altura): Volumen estimado = -57,988 + 4,708 (16) +0,339 (80) = 44,46 pies cbicos Con el modelo lineal (solo el dimetro): Volumen estimado = -36,943 + 5,066 (16) = 44,11 pies cbicos Con el modelo potencial (slo el dimetro): Volumen estimado = 0,095 (16)2,2 = 42,34 pies cbicos