Está en la página 1de 8

Ing. William Len Velsquez wleonv20@yahoo.

com SEM 2012-1


Pag: 1/1

LABORATORIO
05
ANLISIS DE REGRESIN Y CORRELACION MLTIPLE
ESTADISTICA INDUSTRIAL
ANLISIS DE REGRESIN Y CORRELACIN MLTIPLE

En el anlisis de correlacin y regresin simple se estudia la
relacin entre dos variables Al usar solo una variable
independiente se esta ignorando la relacin que pudiera tener la
variable dependiente con otras variables independientes. Al
estudio de la influencia de dos o mas variables independientes
sobre la variable dependiente se le llama anlisis de regresin y
correlacin mltiple.

EJERCICIO DESARROLLADO
Como parte de una prueba de energa trmica solar, se mide el flujo de calor total de
un conjunto de viviendas. Se desea determinar si el flujo de calor total (FlujoCalor)
puede predecirse tomando en cuenta la posicin de los puntos focales en las
direcciones de este, sur y norte. Los datos son de [27]. Se debe determinar, utilizando
la regresin de los mejores subconjuntos, que el modelo de los mejores dos
predictores inclua las variables Norte y Sur, y que el modelo de los mejores tres
predictores agregaba la variable Este. Se debe evaluar el modelo de los mejores tres
predictores utilizando la regresin mltiple.
Fl uj oCal or
271. 8 264. 0 238. 8 230. 7 251. 6 257. 9 263. 9 266. 5 229. 1
239. 3 258. 0 257. 6 267. 3 267. 0 259. 6 240. 4 227. 2 196. 0
278. 7 272. 3 267. 4 254. 5 224. 7 181. 5 227. 5 253. 6 263. 0
265. 8 263. 8

Est e
33. 53 36. 50 34. 66 33. 13 35. 75 34. 46 34. 60 35. 38 35. 85
35. 68 35. 35 35. 04 34. 07 32. 20 34. 32 31. 08 35. 73 34. 11
34. 79 35. 77 36. 44 37. 82 35. 07 35. 26 35. 56 35. 73 36. 46
36. 26 37. 20

Sur
40. 55 36. 19 37. 31 32. 52 33. 71 34. 14 34. 85 35. 89 33. 53
33. 79 34. 72 35. 22 36. 50 37. 60 37. 89 37. 71 37. 00 36. 76
34. 62 35. 40 35. 96 36. 26 36. 34 35. 90 31. 84 33. 16 33. 83
34. 89 36. 27

Nor t e
16. 66 16. 46 17. 66 17. 50 16. 40 16. 28 16. 06 15. 93 16. 60
16. 41 16. 17 15. 92 16. 04 16. 19 16. 62 17. 37 18. 12 18. 53
15. 54 15. 70 16. 45 17. 62 18. 12 19. 05 16. 51 16. 02 15. 89
15. 83 16. 71

1 Ingrese los datos en las
columnas C1, c2 y c3.
2 Elija Estadsticas
> Regresin
> Regresin.

3 En Respuesta,
ingreseFlujoCalor.
4 En Predictores, ingrese
Este Sur Norte.





Ing. William Len Velsquez wleonv20@yahoo.com SEM 2012-1
Pag: 2/2

LABORATORIO
05
ANLISIS DE REGRESIN Y CORRELACION MLTIPLE
ESTADISTICA INDUSTRIAL
5 Haga clic en Grficas.
6 En Residuos para grficas, elija
Estandarizados.
7 En Grficas de residuos, elija Grficas
individuales.
Marque
Histograma de residuos,
Grfica normal de residuos, y
Residuos vs. ajustes.
Haga clic en Aceptar.

8 Haga clic en Opciones.
En Mostrar,
marque PRESS y R-
cuadrada pronosticada.

Haga clic en Aceptar en
cada cuadro de dilogo.


Salida de la ventana Sesin


The r egr essi on equat i on i s
FlujoCalor = 389 + 2.12 Este + 5.32 Sur - 24.1 Norte

Predictor Coef SE Coef T P
Constant 389.17 66.09 5.89 0.000
Este 2.125 1.214 1.75 0.092
Sur 5.3185 0.9629 5.52 0.000
Norte -24.132 1.869 -12.92 0.000

S =8.59782 R-Sq =87.4% R-Sq(adj) =85.9%

PRESS =3089.67 R-Sq(pred) =78.96%
Suma de los cuadrados de prediccin (PRESS)
Evala la capacidad predictora del modelo.
En general, mientras ms pequeo es el valor de PRESS, mejor ser la capacidad
predictora del modelo. PRESS se utiliza para calcular R
2
predictora, la cual es
generalmente ms intuitiva de interpretar.
En conjunto, estas estadsticas pueden ayudar a prevenir el sobreajsute del modelo
debido a que se calcula utilizando las observaciones que no se incluyen en la
estimacin del modelo. El sobreajuste se refiere a modelos que parecen explicar la
relacin entre las variables predictoras y de respuesta para el conjunto de datos
utilizado en el clculo del modelo, pero no aportan predicciones vlidas para nuevas
observaciones.
PRESS, similar a la suma de los cuadrados de error (SSE), es la suma de los
cuadrados del error de prediccin. PRESS difiere de SSE en que cada valor ajustado,

i
, para PRESS se obtiene cuando se excluye la observacin i
simo
del conjunto de
datos, estimando la ecuacin del resto n - 1 observaciones, luego, utilizando la funcin
de regresin ajustada para obtener el valor predictor para la observacin i
simo
.





Ing. William Len Velsquez wleonv20@yahoo.com SEM 2012-1
Pag: 3/3

LABORATORIO
05
ANLISIS DE REGRESIN Y CORRELACION MLTIPLE
ESTADISTICA INDUSTRIAL
Analysis of Variance

Source DF SS MS F P
Regression 3 12833.9 4278.0 57.87 0.000
Residual Error 25 1848.1 73.9
Total 28 14681.9


Source DF Seq SS
Este 1 153.8
Sur 1 349.5
Norte 1 12330.6


Unusual Observations

Obs Este FlujoCalor Fit SE Fit Residual St Resid
4 33.1 230.70 210.20 5.03 20.50 2.94R
22 37.8 254.50 237.16 4.24 17.34 2.32R

R denotes an observation with a large standardized residual.
Interpretacin de los resultados

Salida de la ventana Sesin

El valor p en la tabla Anlisis de varianza (0.000). Se rechaza la hiptesis nula
Esto indica que al menos un coeficiente es diferente de cero. Lo que significa que el
modelo estimado mediante el procedimiento de regresin es significativo en un nivel
de 0.05.

Los valores p para los coeficientes estimados de Norte y Sur son ambos de 0.000, lo
cual indica que estn significativamente relacionados con FlujoCalor.
El valor p para Este es de 0.092, lo que indica que no est relacionado con
FlujoCalor en un nivel a de 0.05.
Adicionalmente, la suma secuencial de los cuadrados indica que el predictor Este no
explica una cantidad sustancial de la varianza nica. Esto sugiere que un modelo que
solamente tome en cuenta Norte y Sur podra ser ms apropiado.

El valor R2 indica que los predictores explican el 87.4% de la variacin en FlujoCalor.
El valor de R2 ajustada es de 85.9%, lo cual explica el nmero de predictores en el
modelo. Ambos valores indican que el modelo se ajusta bien a los datos.

El valor de R2 pronosticada es de 78.96%. En virtud de que el valor de R2
pronosticada est cerca de los valores de R2 y R2 ajustada, el modelo no parece
estar sobreajustado y tiene una capacidad predictiva adecuada.

Las observaciones 4 y 22 estn identificadas como inusuales porque el valor absoluto
de los residuos estandarizados es mayor que 2. Esto podra indicar que se trata de
valores atpicos.





Ing. William Len Velsquez wleonv20@yahoo.com SEM 2012-1
Pag: 4/4

LABORATORIO
05
ANLISIS DE REGRESIN Y CORRELACION MLTIPLE
ESTADISTICA INDUSTRIAL
Salida de la ventana Grfica
El histograma indica que los datos
podran tener valores atpicos, lo cual
se muestra mediante dos barras, en
el extremo derecho de la grfica.
Residuo
La diferencia entre un valor observado (y)
y su valor ajustado correspondiente ().
La grfica de probabilidad normal
muestra un patrn aproximadamente
lineal que concuerda con una
distribucin normal. Los dos puntos
de la esquina superior derecha de la
grfica pueden ser valores atpicos. El
Destacado de la grfica identifica
estos puntos como 4 y 22, los mismos
puntos que fueron etiquetados como
observaciones inusuales en la salida.
Vase Verificacin de su modelo e
Identificacin de valores atpicos.
Grfica de probabilidad normal de
residuos: Los puntos de esta grfica deben generalmente formar una lnea recta si los
residuos estn normalmente distribuidos. Si los puntos en la grfica salen de una lnea
recta, el supuesto de normalidad puede ser invlido. Si sus datos tienen menos de 50
observaciones, la grfica podra mostrar una curvatura en las colas, aun si los residuos
estn normalmente distribuidos. A medida que el nmero de observaciones disminuye,
la grfica de probabilidad podra mostrar una variacin sustancial no linealidad, aun si
los residuos estn normalmente distribuidos.
La grfica de residuos versus valores ajustados
muestra que los residuos se hacen ms
pequeos (se acercan a la lnea de la
referencia) a medida que aumentan los
valores ajustados, lo cual podra indicar
que los residuos tienen una varianza no
constante.
Residuos versus ajustes: Esta grfica
debe mostrar un patrn de residuos
aleatorio en ambos lados de 0. Si uno de
los puntos se encuentra lejos de la mayora
de los puntos, podra tratarse de un valor
atpico. Adems, no debera haber ningn
patrn reconocible en la grfica de residuos. Lo siguiente podra indicar un error que no
es aleatorio:
Una serie de puntos crecientes o decrecientes
La predominancia de residuos positivos o una predominancia de residuos negativos
Patrones, tales como residuos crecientes, con ajustes crecientes





Ing. William Len Velsquez wleonv20@yahoo.com SEM 2012-1
Pag: 5/5

LABORATORIO
05
ANLISIS DE REGRESIN Y CORRELACION MLTIPLE
ESTADISTICA INDUSTRIAL
PROBLEMAS PROPUESTOS

1. Se lleva a cabo un experimento para determinar si el peso de un animal se
puede predecir despus de un tiempo dado sobre la base del peso inicial del
animal y la cantidad de alimento que consume. Se registran los datos
siguientes en kilogramos:


peso final peso inicial alimento consumido
95 42 272
77 33 226
80 33 259
100 45 292
97 39 311
70 36 183
50 32 173
80 41 236
92 40 230
84 38 235

a) Realice un estudio de regresin y correlacin y determine la mejor ecuacin de
regresin mltiple.
b) Calcule el coeficiente de correlacin y determinacin e interpretarlo.
c) Muestre los grficos de anlisis del modelo e interprtelos.
d) Calcule el peso final de un animal con peso inicial de 30 kg. y 250 kg. de
alimento consumido


2. La tensin de la pierna es un ingrediente necesario para un pateador exitoso en el
ftbol americano. Una medida de la calidad de una buena patada es la distancia a la
que se lanza el ovoide. Para determinar si la tensin de las piernas influye en la
distancia de pateo, se eligieron 13 pateadores para el experimento y cada uno pate
10 veces un ovoide.

La distancia promedio en pies, junto con la tensin en libras, se registraron como
sigue:






Ing. William Len Velsquez wleonv20@yahoo.com SEM 2012-1
Pag: 6/6

LABORATORIO
05
ANLISIS DE REGRESIN Y CORRELACION MLTIPLE
ESTADISTICA INDUSTRIAL

Distancia (pies) Tensin pierna izq. ( lbs.) Tensin pierna der. ( lbs.)
162.50 170 170
144.00 130 140
105.67 110 120
147.50 170 180
117.59 120 130
163.50 160 160
140.25 140 120
192.50 150 170
150.17 130 140
171.75 150 150
165.16 150 160
162.00 180 170
104.93 110 110

a) Realice un estudio de regresin y correlacin y determine la mejor ecuacin de
regresin mltiple.
b) Calcule el coeficiente de correlacin y determinacin e interpretarlo.
c) Muestre los grficos de anlisis del modelo e interprtelos.
d) Calcule la distancia de pateo de un jugador con tensin en ambas piernas de
140 lbs.






Ing. William Len Velsquez wleonv20@yahoo.com SEM 2012-1
Pag: 7/7

LABORATORIO
05
ANLISIS DE REGRESIN Y CORRELACION MLTIPLE
ESTADISTICA INDUSTRIAL
3. Los datos de la tabla son mediciones realizadas a 9 nios con el propsito de
llegar a una ecuacin de estimacin que relacionara con su estatura al nacer y
con su edad en nmero de das.

Estatura del nio (cm.) Edad (das) Estatura al nacer (cm.)
57.5 78 48.2
52.8 69 45.5
61.3 77 46.3
67.0 88 49.0
53.5 67 43.0
62.7 80 48.0
56.2 74 48.0
68.5 94 53.0
69.2 102 58.0

a) Realice un estudio de regresin y correlacin y determine la mejor ecuacin de
regresin mltiple.
b) Calcule el coeficiente de correlacin y determinacin e interpretarlo.
c) Muestre los grficos de anlisis del modelo e interprtelos.
d) Calcule la estatura de un nio con edad de 60 das que midi 50 cm al nacer.



4. Un economista esta estudiando la relacin entre el ingreso per cpita en una
provincia, el porcentaje de la poblacin que es empleada en agricultura, y el
nmero promedio de aos de educacin para personas mayores de 25 aos.
Fueron seleccionados aleatoriamente 19 provincias del norte del pas





Ing. William Len Velsquez wleonv20@yahoo.com SEM 2012-1
Pag: 8/8

LABORATORIO
05
ANLISIS DE REGRESIN Y CORRELACION MLTIPLE
ESTADISTICA INDUSTRIAL

ingreso (miles de $) empleo agrcola ( % ) educacin ( aos )
19.6 10.2 10.6
21.4 12.6 16.0
19.4 13.4 16.9
19.2 12.8 10.4
16.0 10.2 15.1
26.4 9.7 13.7
19.8 10.8 14.9
25.8 9.5 14.0
21.8 10.3 15.0
20.2 10.5 10.2
18.2 13.3 16.0
15.2 13.0 13.8
18.2 11.3 16.0
19.8 10.6 13.0
21.4 10.3 15.1
24.8 8.4 15.2
15.2 12.7 12.9
13.3 9.6 13.8
24.8 8.5 10.1
a) Realice un estudio de regresin y correlacin y determine la mejor ecuacin de
regresin mltiple.
b) Calcule el coeficiente de correlacin y determinacin e interpretarlo.
c) Muestre los grficos de anlisis del modelo e interprtelos.
d) Calcule el ingreso per cpita en una provincia con un 10% de la poblacin
empleada en la agricultura y con un nmero promedio de aos de educacin
de 9 aos.

También podría gustarte