Está en la página 1de 59

REGRESION LINEAL SIMPLE

Jorge Galbiati Riesco


Se dispone de una muestra de observaciones formadas por pares de
variables: (x1, y1)
(x2, y2)
..
(xn, yn)
A través de esta muestra, se desea estudiar la relación existente
entre las dos variables X e Y.

Es posible representar estas observaciones mediante un gráfico de


dispersión, como el anterior.

También se puede expresar el grado de asociación mediante


algunos indicadores, que se verán a continuación.
MEDIDAS DE ASOCIACION DE VARIABLES

Covarianza entre las variables X e Y. Es una medida de la


variación conjunta. Se define como

1 1
cov(X , Y )   ( xi  x)( yi  y )  S xy
n n

Puede tomar valores positivos o negativos.


Covarianza positiva, significa que ambas variables tienden a variar de
la misma forma, hay una asociación positiva.

Negativa, significa que si una aumenta, la otra tiende a disminuir, y


vice versa.

Covarianza cercana a cero indica que no hay asociación entre las


variables.
Ejemplo 1

DATOS DEL CLUB DE SALUD

Datos correspondientes a 20 empleados del club de salud de una empresa

X pulsasiones or minuto en reposo


Y tiempo en correr 1 milla ( reg)

Fuente: S. Chatterjee - A. Hadi: " Sentivity Analysis in Linear Regression"

obs X Y
1 67 481
2 52 292
3 56 357
4 66 396
5 65 345
6 80 469
7 77 425
8 65 393
9 68 346
10 66 401
11 70 267
12 59 368
13 58 295
14 52 391
15 64 487
16 72 481
17 57 374
18 59 367
19 70 469
20 63 252
Promedios: 64,3 382,8
Calcularemos de la covarianza entre estas dos variables.

Covarianza

Valores centrados y productos:


obs X-64,3 Y-382,8 prod
1 2,7 98,2 265,14
2 -12,3 -90,8 1116,84
3 -8,3 -25,8 214,14
4 1,7 13,2 22,44
5 0,7 -37,8 -26,46
6 15,7 86,2 1353,34
7 12,7 42,2 535,94
8 0,7 10,2 7,14
9 3,7 -36,8 -136,16
10 1,7 18,2 30,94
11 5,7 -115,8 -660,06
12 -5,3 -14,8 78,44
13 -6,3 -87,8 553,14
14 -12,3 8,2 -100,86
15 -0,3 104,2 -31,26
16 7,7 98,2 756,14
17 -7,3 -8,8 64,24
18 -5,3 -15,8 83,74
19 5,7 86,2 491,34
20 -1,3 -130,8 170,04
Promedio : 239,41

La covarianza entre las


variables X e Y es igual a 239,41
Coeficiente de correlación lineal.

La covariaza tiene el inconveniente de que su valor no es acotado,


por lo que, a partir de él es dificil juzgar si es grande o pequeña.

Se define la correlación, que es una medida de asociación lineal


independiente de las unidades de medida.

Es igual a la covarianza dividida por las desviaciones standard:


Coeficiente de correlación lineal.

La covariaza tiene el inconveniente de que su valor no es acotado,


por lo que, a partir de él es dificil juzgar si es grande o pequeña.

Se define la correlación, que es una medida de asociación lineal


independiente de las unidades de medida:

Es igual a la covarianza dividida por las desviaciones estandar:

corr( X , Y ) 
cov(X , Y )

 ( x  x)( y  y)
i i

S xy
dsX * dsY  ( x  x)  ( y  y )
i
2
i
2
S xx S yy
El valor de la correlación entre cualquier par de variables es un
número entre -1 y 1. n valor alto de correlación no indica que existe
alguna relación de causa-efecto entre las variables.
Ejemplo (continuación) Coeficiente de Correlación

Se deben calcular las desviaciones standard.


Para ello se deben elevar al cuadrado las observaciones centradas
y promediar, obteniéndose las varianzas.
Las desviaciones standard son las raíces cuadradas de éstas.

cuadrados de
obs X-64,3 Y-382,8
1 7,3 9643,2
2 151,3 8244,6
3 68,9 665,6
4 2,9 174,2
5 0,5 1428,8
6 246,5 7430,4
7 161,3 1780,8
8 0,5 104,0
9 13,7 1354,2
10 2,9 331,2
11 32,5 13409,6
12 28,1 219,0
13 39,7 7708,8
14 151,3 67,2
15 0,1 10857,6
16 59,3 9643,2
17 53,3 77,4
18 28,1 249,6
19 32,5 7430,4
20 1,7 17108,6
Promedios : 54,11 4896,46
(varianzas)

Las desviaciones standard son


dsX = 7,36 ds Y = 69,97

Para obtener las correlaciones se debe


dividir la covarianza por las desviaciones standard:

corr(X,Y) = 239.41 / ( 7.36 * 69.97 ) = 0,465


El siguiente es un gráfico de dispersión que muestra estos datos.

Club de Salud

600
Tiem po en recorrer 1

500
400
m illa

300
200
100
0
0 20 40 60 80 100
Pulsaciones por m inuto
La interpretación del coeficiente de correlación puede ilustrarse
mediante los siguientes gráficos.
REGRESION LINEAL SIMPLE

Ahora asumiremos que si hay una relación de causalidad de la


variable X (causa) hacia la variable Y (efecto).

Además, se sabe que esa relación es de tipo lineal, dentro del rango
de los datos.

Estableceremos un modelo para explicar la causa (Y) en términos del


efecto (X), del tipo siguiente:
Yi  a  bXi  ei para i = 1,2,..., n

en que a y b son dos cantidades fijas (parámetros del modelo) y


los ei son cantidades aleatorias que representan las diferencias
entre lo que postula el modelo y lo que realmente se observa, y.

Por esa razón a los e los llamaremos "errores" o "errores


aleatorios". Se asume que tienen valor esperado 0 y desviación
estándar común .
Ejemplo 2 Venta de automóviles
Se piensa que si aumentan el porcentaje de comisión pagada
al vendedor de automóviles, aumenta la venta.
Estudio sobre 15 concesionarios similares
X Comisiones pagadas a vendedores de autos en un mes (%)
Y Ganancias netas por ventas, en el mismo mes (Millones de $)

obs X Y
1 3.6 11.28
2 5.2 14.74
3 5.3 18.46
4 7.3 20.01
5 5.0 12.43
6 5.2 15.37
7 3.0 9.59
8 3.1 11.26
9 3.2 8.05
10 7.5 27.91
11 8.3 24.62
12 6.1 18.80
13 4.9 13.87
14 5.8 12.11
15 7.1 23.68
Representación de los datos en un gráfico de dispersión:

Ganancias netas versus com isiones

30.00
Ganancias (MM$)

25.00
20.00
15.00
10.00
5.00
0.00
0.0 2.0 4.0 6.0 8.0 10.0
com isión (%)
Se puede apreciar la relación lineal existente entre ambas variables
observadas.

Nuestro problema es estimar los parámetros a, b y para poder


identificar el modelo.

Para estimar a y b se utiliza el método de Mínimos cuadrados, que


consiste en encontrar aquellos valores de a y de b que hagan
mínima la suma de los cuadrados de las desviaciones de las
observaciones respecto de la recta que representa el modelo, en el
sentido vertical.
En la figura, son los cuadrados de los segmentos verticales cuya suma
de cuadrados se debe minimizar, para determinar a y b.

Estos segmentos representan los errores e del modelo. b se llama


pendiente de la recta que representa los datos y a se llama intercepto
sobre el eje vertical.
La solución está dada por las siguientes fórmulas:

b
 ( x  x)( y  y) S
i

i xy

 ( x  x) i S 2
xx

a  y  bx
Ejemplo 2 (continuación)

Calculamos los promedios de ambas variables y se las restamos a


los valores.
Promedio de la X : 5.4
Promedio de la Y : 16.1

Desviaciones respecto de las medias, sus cuadrados y productos:

obs X-5.4 Y-16.1 cuadrados prod.


1 -1.8 -4.9 3.1 23.7 8.6
2 -0.2 -1.4 0.0 2.0 0.2
3 -0.1 2.3 0.0 5.3 -0.2
4 1.9 3.9 3.7 14.9 7.4
5 -0.4 -3.7 0.1 13.8 1.4
6 -0.2 -0.8 0.0 0.6 0.1
7 -2.4 -6.6 5.6 42.9 15.6
8 -2.3 -4.9 5.2 23.8 11.1
9 -2.2 -8.1 4.7 65.6 17.6
10 2.1 11.8 4.5 138.5 25.0
11 2.9 8.5 8.6 71.8 24.8
12 0.7 2.7 0.5 7.0 1.9
13 -0.5 -2.3 0.2 5.2 1.1
14 0.4 -4.0 0.2 16.3 -1.7
15 1.7 7.5 3.0 56.8 13.0
sumas 0.0 0.0 39.6 488.3 126.1
Sxx Syy Sxy
Entonces utilizando las fórmulas de arriba,

b= 3.18 a= -0.96
El modelo, para estos datos, es

Yi  0.96  3,18Xi  ei para i=1,2,.. 15

Representa una recta, cuyo intercepto con el eje vertical es


-0.96, y su pendiente es 3.18, o sea, si el porcentaje de
comisión X aumenta en 1%, la ganancia neta Y aumenta en
3.18 Millones de pesos.
Gráfico de los datos:

Ganancias netas versus com isiones

30.00

25.00
Ganancias (MM$)

20.00

15.00

10.00

5.00

0.00
0.0 2.0 4.0 6.0 8.0 10.0
-5.00
com isión (%)
VALORES AJUSTADOS AL MODELO.

El modelo de regresión lineal se puede utilizar para obtener


valores de Y ajustados al modelo.

Los valores puntuales se obtienen mediante la fórmula

Yi  a  bXi
en que a y b son los valores estimados por el procedimiento
indicado anteriormente, y Xi toma los valores de la muestra.

Los puntos que representan estos valores en el gráfico de


dispersión, yacen sobre la recta.
Ejemplo 2 (continuación)
La tabla siguiente contiene los valores de Y ajustados , para cada
valor de X, además de los valores de Y observados, a modo de
comparación. Los ajustados se obtienen por la fórmula.

Yi  0.96  3.18Xi
obs X Y Yajust. dif
1 3.6 11.28 10.50 0.78
2 5.2 14.74 15.59 -0.85
3 5.3 18.46 15.91 2.54
4 7.3 20.01 22.28 -2.27
5 5.0 12.43 14.96 -2.52
6 5.2 15.37 15.59 -0.23
7 3.0 9.59 8.59 1.00
8 3.1 11.26 8.91 2.36
9 3.2 8.05 9.23 -1.18
10 7.5 27.91 22.92 5.00
11 8.3 24.62 25.46 -0.84
12 6.1 18.80 18.46 0.34
13 4.9 13.87 14.64 -0.77
14 5.8 12.11 17.50 -5.40
15 7.1 23.68 21.64 2.04
promedio 5.4 16.1 16.1 0.00
Se puede observar que el promedio de los valores ajustados es igual
al promedio de los valores observados, y que el promedio de las
diferencias es cero.

La raíz cuadrada del promedio de los cuadrados de las diferencias


entre los valores observados y ajustados, es una estimación de la
varianza del error, s .

En el ejemplo, la suma de las diferencias al cuadrado es 19.8, luego


la estimación de la desviación estándar del error es igual a

1
s 86.933  5.796  2.41 Millones de pesos
15
Coeficiente de determinación.

Es una medida de bondad de ajuste del modelos de regresión lineal


a los datos.

Es deseable que los valores de Y ajustados al modelo, sean lo más


parecidos posible a los valores observados.

Una medida de lo parecido que son, es el coeficiente de correlación.


Se define el coeficiente de determinación, R2, como el cuadrado del
coeficiente de correlación entre los valores de Y observados y los
valores de Y ajustados.
Sin embargo se puede demostrar que es igual a la siguiente
expresión:

R2 
S xy2

 ( x  x)( y  y)
i i
2

S xx S yy  ( x  x)  ( y  y) 
i
2
i
2

El rango de R2 es entre 0, cero ajuste, hasta 1, ajuste perfecto


(cuando los puntos aparecen en un línea recta).
Ejemplo 2 (continuación)
Más arriba se calcularos las sumas de cuadrados y de productos, y
dieron los siguientes valores:

Sxx = 39.6 , Syy = 488.3 , Sxy = 126.1

Entonces el coeficiente de determinación es


2
(126 .1)
R2   0.82
39.6 * 488.3

que señala que el ajuste del modelo a los datos es bueno.


Ejemplo 3
Los datos siguientes corresponde al Indice de Producción Física de la
Industria Manufacturera, por agrupación, de los meses de mayo de 2002 y
mayo de 2003, entregado por el Instituto Nacional de Estadísticas.
Agrupaciones Mayo 02 Mayo 03
Fabricac. de productos alimenticios 140.2 133.5
Industrias de bebidas 134.6 133.7
Industria del tabaco 151.1 140.5
Fabricac. de textiles 70.9 70.3
Fabricac. prendas de vestir, excepto calzado 34.7 30.5
Industria del cuero; produc. de cuero y sucedáneos 59.3 56.7
Fabricac. de calzado, exc. de caucho o plástico 52.6 45.3
Industria de madera y sus productos exc. muebles 132.3 141.6
Fabricac. de muebles y accesorios, exc. metálicos 114.0 132.4
Fabricac. de papel y productos de papel 189.5 205.3
Imprentas, editoriales e industrias conexas 107.5 108.0
Fabricac. de sustancias químicas industriales 229.4 231.4
Fabricac. de otros productos químicos 212.4 209.6
Refinerías de petróleo 136.0 165.2
Fabricac. prod. derivados de petróleo y carbón 143.2 156.2
Fabricac. de productos de caucho 141.4 177.4
Fabricac. de productos plásticos 305.8 399.7
Fabricac. de objetos de loza y porcelana 68.2 61.1
Fabricac. de vidrio y productos de vidrio 268.6 266.4
Fabricac. otros productos minerales no metálicos 185.6 186.5
Industrias básicas de hierro y acero 123.1 167.1
Industrias básicas de metales no ferrosos 119.8 108.7
Fabricac. prod. metálicos exc. maquinaria y equipo 153.6 153.5
Construcción de maquinaria, exc. la eléctrica 282.5 289.7
Construcción máq., aparatos y acces. eléctricos 87.0 83.0
Construcción de material de transporte 103.4 73.4
Fabricac. equipo profesional y artículos oftálmicos 67.7 64.1
Otras industrias manufactureras 66.0 67.5
Es un índice cuya base 100 es el promedio de producción de cada
agrupación, en el año 1989.

El gráfico de dispersión es el siguiente:

Prod. Física Industria Manufacturera

600
Indice mayo 2003

400

200

0
0 100 200 300 400
Indice mayo 2002
Cálculos parciales, en que X es el índice mayo 2002, Y el índice
mayo 2003:
n  28 x  136.6 y  144.9
S xx   ( xi  x)2  134,913.6

S yy   ( yi  y) 2  187,813.7

S xy   ( xi  x)( yi  y)  154,350.8

Estimación de los parámetros del modelo:

S xy 154,350.8
b   1.14
S xx 134,913.6

a  y  bx  13.61
Bondad de ajuste:

S xy2 (154,350.8) 2
R 
2
  0.940
S xx S yy (134,913.6) * (187,350.8)

que indica un muy buen ajuste.

El siguiente gráfico muestra de recta de regresión estimada:

Prod. Física Industria Manufacturera

600
Indice mayo 2003

400

200

0
0 100 200 300 400

-200
Indice m ayo 2002
Predicción por bandas de confianza.

Se pueden hacer predicciones de valores Y para valores X que no


están en el conjunto de observaciones, dentro o fuera de su rango,
utilizando la fórmula de la regresión lineal, con los parámetros a y b
estimados.

También se pueden hacer predicciones por intervalos de confianza


verticales, que tienen la ventaja de proporcionar una cuantificación
del error de predicción.

Los intervalos tienen la propiedad de ser de diferente ancho, según


el valor de X, siendo más angostos cuando X es igual al promedio,
ensanchándose a medida que nos alejamos del promedio.
Cuando se sale del rango de los datos, se ensanchan más
fuertemente.

Esto significa que mientras más nos alejamos del centro de los
valores de la variable X, más imprecisas serán nuestras
estimaciones del valor de la variable Y, lo que parece razonable.
Si unimos los extremos superiores (o los inferiores) de todos los
intervalos de confianza, se obtienen dos curvas con forma de
hipérbola, como se muestra en la figura:
El gráfico siguiente muestra las bandas de confianza de coeficiente
95%, para el ejemplo de la producción física manufacturera.

Mientras mayor es el coeficiente de determinación R2, más angostas


son las bandas de confianza; lo mismo mientras mayor es la
desviación estándar de las X, y lo mismo si el tamaño muestral
aumenta. Y a medida que nos alejamos del promedio de las X, se
ensanchan las bandas.
ESTUDIO DE CASO

Relación entre población y número de


nacimientos.
El objetivo del estudio es explorar el valor predictivo de la población
de cada uno de los tramos etarios sobre el número de nacimientos,
de las comunas.

En particular, determinar cuál tramo etario (su población) tiene mayor


poder predictivo sobre el número de nacimientos.
Se tiene una muestra de 40 comunas comunas elegidas al azar, en que
se midieron las siguientes variables :

Población por tramo etario (del censo de 2002):

1 menos de 1 año
2 entre 1 y 4 años
3 entre 5 y 9 años
4 entre 19 y 19 años
5 entre 20 y 44 años
6 entre 45 y 64 años
7 entre 65 y 79 años
8 80 años o más
9 Nacimientos en el año (correspondientes a 2006)
Nacimien
menos 1 e1-4 e 5-9 e 10-19 e 20-44 e 45-64 e 65-79 mas 80
Comuna tos
1 Huasco 116 486 677 1,501 2735 1802 624 124 101
2 Las Cabras 305 1,299 1,794 3,872 7995 4661 1639 378 1066
3 El Monte 508 2,079 2,634 5,634 11082 5467 1700 464 392
4 Alto Biobío 140 544 617 1,108 4146 2038 387 74 176
5 San Nicolás 132 538 761 1,736 3684 2216 779 165 118
6 San Fernando 960 4,090 5,756 12,911 25627 14007 4446 1098 965
7 Aisén 427 1,682 2,121 4,790 9951 4535 1234 271 409
8 Llanquihue 280 1,155 1,581 3,327 6619 3446 1078 234 218
9 Victoria 471 1,760 2,547 6,500 11768 6995 2751 707 462
10 Arauco 613 2,678 3,573 7,521 15147 7119 2140 517 528
11 El Bosque 2,655 10,647 13,257 31,249 66602 35983 11795 2547 2573
12 San Vicente 568 1,392 3,462 7,955 15458 9518 3202 785 561
13 Yerbas Buenas 244 978 1,362 3,189 6265 3512 1050 240 216
14 Pemuco 101 507 794 1,692 3295 1844 691 153 90
15 Chiguayante 1,537 6,152 8,612 20,445 39650 20500 5239 1552 1145
16 Porvenir 67 271 366 994 2275 1157 382 77 80
17 Combarbalá 161 661 934 2,010 4225 2962 1521 395 168
18 Conchalí 1,686 6,676 8,286 18,977 44767 25540 11377 2842 1958
19 Tucapel 190 745 1,058 2,391 4609 2787 1205 305 175
20 Camarones 18 74 100 255 546 346 106 26 4
menos Nacimien
e1-4 e 5-9 e 10-19 e 20-44 e 45-64 e 65-79 mas 80
Comuna 1 tos
21 Quinta de Tilcoco 160 635 894 2,179 4279 2556 813 203 162
22 Ovalle 1,661 6,712 9,140 20,281 38840 20843 7750 1833 1653
23 Pica 75 304 354 746 7218 2487 338 100 59
24 Ninhue 60 310 455 939 1738 1272 550 134 49
25 Taltal 177 735 950 1,939 4075 2336 655 143 199
26 Molina 538 2,297 3,224 7,218 15539 8832 2803 666 521
27 Arica 2,842 11,630 15,545 33,775 67981 38405 12487 2767 3079
28 Navidad 54 263 369 752 1658 1396 709 184 45
29 Graneros 429 1,757 2,406 5,480 10809 5659 1634 217 86
30 Coronel 1,471 6,248 8,681 20,287 39860 20784 5792 1130 1509
31 Caldera 249 966 1,266 2,941 5512 2810 837 138 264
32 Mejillones 177 682 830 1,836 3954 1943 408 81 139
33 Colchane 26 101 120 249 620 347 140 47 14
34 Chillán 2,283 9,549 13,437 30,848 66475 35890 11216 2527 2479
35 Lago Verde 13 53 68 139 390 258 69 13 12
36 Futrono 278 1,150 1,541 3,211 5420 2886 976 208 214
37 Máfil 111 368 521 1,516 2472 1436 569 160 86
38 Canela 121 515 716 1,437 2818 1986 1101 261 103
39 Freire 402 1,667 2,337 5,134 9525 5416 2093 542 311
40 Valdivia 2,173 8,470 11,336 28,184 59713 30986 10176 2539 2192
Se presentan los gráficos de los nacimientos versus población,
de cada tramo.

Nacimientos versus enores de 1 año


3500

3000

2500
Nacimientos

2000

1500

1000

500

0 500 1000 1500 2000 2500 3000


menos de 1 año
Scatterplot of Nac vs e 1 - 4
3500

3000

2500

2000
Nac

1500

1000

500

0 2000 4000 6000 8000 10000 12000


e1-4
Scatterplot of Nac vs e 5-9
3500

3000

2500

2000
Nac

1500

1000

500

0 2000 4000 6000 8000 10000 12000 14000 16000


e 5-9
Scatterplot of Nac vs e 10-19
3500

3000

2500

2000
Nac

1500

1000

500

0 5000 10000 15000 20000 25000 30000 35000


e 10-19
Scatterplot of Nac vs e 20-44
3500

3000

2500

2000
Nac

1500

1000

500

0 10000 20000 30000 40000 50000 60000 70000


e 20-44
Scatterplot of Nac vs e 45-64
3500

3000

2500

2000
Nac

1500

1000

500

0 10000 20000 30000 40000


e 45-64
Scatterplot of Nac vs e 65-79
3500

3000

2500

2000
Nac

1500

1000

500

0 2000 4000 6000 8000 10000 12000 14000


e 65-79
Scatterplot of Nac vs mas 80
3500

3000

2500

2000
Nac

1500

1000

500

0 500 1000 1500 2000 2500 3000


mas 80
Se observa que persistentemente una comuna tiene un número de
nacimientos mayor que el resto, según su población, en todos los
tramos.

Es la Comuna de Las Cabras.

Las comunas con ambos números más grandes son Arica, El Bosque
y Chillán.

Para los gráficos y los cálculos siguientes se usó el software MINITAB.,


Hay una correlación muy fuerte entre las poblaciones de los distintos
tramos de edad, siendo un poco menos entre el tramo “más de 80” y
las demás.

Esto se puede apreciar en la siguiente figura, en que grafican las


variables de a pares.
Matrix Plot of menos 1, e 1 - 4, e 5-9, e 10-19, e 20-44, e 45-64, ...
0 5000 10000 0 15000 30000 0 20000 40000 0 1500 3000
3000

1500
menos 1
0
10000
5000 e1-4
0 16000

8000
e 5-9
0
30000
15000 e 10-19
0
50000
e 20-44 25000

40000 0

20000
e 45-64
0
10000
e 65-79 5000

3000 0

1500
mas 80
0
0 1500 3000 0 8000 16000 0 25000 50000 0 5000 10000
Se ajustaron modelos de regresión lineal simple a los
nacimientos, con la población de cada uno de los tramos
etarios, como regresor.

La respuesta (y) siempre fue el número de nacimientos.

La salida de MINITAB es la siguiente (en el primer caso):


Regression Analysis: Nac versus menos 1

The regression equation is


Nac = - 14.2 + 1.03 (menos 1)

Predictor Coef SE Coef T P


Constant -14.17 33.63 -0.42 0.676
menos 1 1.02732 0.03418 30.06 0.000
(cont.)
S = 166.564 R-Sq = 96.0% R-Sq(adj) = 95.9%

Analysis of Variance

Source DF SS MS F P
Regression 1 25065853 25065853 903.49 0.000
Residual Error 38 1054251 27743
Total 39 26120104
De las pruebas t de hipótesis, se concluye que el intercepto

a = - 14.2 no es significativo, mientras que la pendiente

b = 1.03 si lo es.

Por lo tanto la relación entre nacimientos y el tamaño de la


población de menores de 1 año es

Nac = 1.03 (menos 1)


Relaciones similares se puede obtener para las otras
variables poblacionales y su efecto sobre el número de
nacimientos.

Eso queda para el lector.


FIN

También podría gustarte