Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Lectura 4 - Correlacion y Regresion
Lectura 4 - Correlacion y Regresion
Bibliografa bsica:
Berenson y Levine (1996) Estadstica para Administracin y Economa. 6. Ed.
Prentice Hall Hispanoamericana. Madrid.
Captulos: 17 (Apartados 17.1, 17.2, 17.3, 17.4, 17.5, 17.6, 17.7, 17.8, 17.9), 18
(Apartados 18.1 y 18.2)
4.1.
La idea de poder predecir cierto valor de una variable a partir del conocimiento del
valor de otra que la determina o influye ha llevado a desarrollar las tcnicas que
presentamos en este mdulo.
En particular, la idea es detectar si existe una relacin lineal entre dos variables,
una que llamaremos dependiente que es condicionada por los valores de otra que
denominamos independiente o explicatoria.
Diagrama de dispersin
Como siempre en Estadstica, un primer anlisis exploratorio grfico posibilita un
avance en el conocimiento sobre un fenmeno, aunque no de manera concluyente.
Un grfico da la posibilidad de visualizar rpidamente la posible existencia de una
relacin entre las variables de inters.
El diagrama de dispersin, de amplia aplicacin en el caso del anlisis de
regresin, consiste en la representacin de puntos en un sistema de ejes
cartesianos, donde los valores de la variable dependiente se indican en las
ordenadas y los de la variable independiente en las abscisas. Cada punto del
grfico corresponde con las coordenadas del mismo representado como par
ordenado (x, y). El conjunto de puntos que quedan ilustrados recibe el nombre de
nube de puntos.
Un diagrama de dispersin permite visualizar la forma de la relacin, pero siempre
debe tomarse precauciones (no confiar en las apariencias), por lo cual siempre
necesitaremos los test y estimaciones estadsticas. No obstante, destacamos que
la primera aproximacin grfica es un buen punto de partida, por ejemplo, para
preliminarmente analizar si la lnea recta ser una aproximacin aceptable de la
relacin o no.
En el ejemplo de Diagrama de dispersin que mostramos a continuacin, la
variable Y (dependiente) indica, en el marco de un estudio sobre productividad
-1-
Actividad:
1. Elabore (utilizando una hoja cuadriculada, para facilitar la adecuacin a una
escala proporcional de cada variable) la siguiente relacin:
Los siguientes datos fueron tomados de un estudio sobre las diferentes
sucursales de una marca de supermercados de la ciudad:
-2-
Sucursal
300
425
350
435
450
550
500
600
700
860
760
770
770
980
900
1100
1200
1240
10
1400
1500
11
2000
2400
12
2050
2200
13
2100
2080
(en
Yi 0 1 X i i
Donde:
1 la pendiente poblacional
i error aleatorio en Y para la i-sima observacin
-3-
-4-
-5-
La relacin lineal es uno de los modelos que puede seguir la relacin entre dos
variables. En este caso, a su vez, la relacin puede ser positiva (tal como la
ejemplificada) o negativa. No obstante, la relacin podr a tener otra forma
(curvilnea, constante, etc.) que pudiera tener enorme inters terico y prctico,
que se trabaja con tcnicas ms sofisticadas que las que presentaremos en
este mdulo. La siguiente figura ilustra algunas de las situaciones posibles.
Figura: formas de la relacin entre dos variables
Relacin lineal positiva
-6-
La ecuacin de la recta
-7-
Yi b0 b1 X i
que mejor ajusta la nube de puntos del grfico de dispersin es la que
minimiza la suma de los cuadrados de los residuos.
Esta manera de obtener los valores de b0 y b1, permite seleccionar una de
todas las posibles rectas (algunos ejemplos pueden observarse en la figura
siguiente) que podran ser utilizadas para describir la relacin. El mtodo de
mnimos cuadrados aporta un criterio para determinar esa recta. Este criterio
corresponde a determinar la recta en la cual los valores reales y los valores
predichos tienen la mnima distancia. Como puede observarse en la figura
previa, la recta de mnimos cuadrados, es la que tiene las menores distancias
totales (ej: la distancia vertical indicada en la figura). En cuanto a si las
diferencias (ej) entre la recta de regresin y los valores observados, no interesa
si las diferencias son por exceso o por defecto, por lo tanto, se trabaja con la
suma de desvos elevados al cuadrado.
Figura: Otras rectas de regresin posibles
-8-
n.b0 b1 . X i
Ecuacin II:
X Y
i i
b0 X i b1 . X i2
b1 .
X Y nXY
X nX
i i
2
i
Ordenada:
bo . Y b1 X
-9-
60
23
62
23
61
25
55
25
53
26
60
26
63
29
53
30
52
30
48
32
49
33
53
31
X 55,75 aos
- 10 -
X2
XY
60
23
62
23
61
25
55
25
53
26
60
26
63
29
53
30
52
30
48
32
49
33
53
31
3600
3844
3721
3025
2809
3600
3969
2809
2704
2304
2401
2809
37595
1380
1426
1525
1375
1378
1560
1827
1590
1560
1536
1617
1643
18417
Suma:
b1 .
b1 .
X Y nXY
X nX
i i
2
i
18417 12.27,75.55,75
37595 12.(55,75) 2
b1 .
18417 18564,75
37595 37296,75
b1 . 0,495
- 11 -
bo . Y b1 X
bo . 27,75 (0,495)55,75
bo . 55,37
Por lo tanto, la ecuacin estimada de la recta es:
Yi 55,37 0,495. X i
Yi 55,37 0,495.50
Yi 30,6 salidas a comer al ao, por esparcimiento
- 12 -
- 13 -
Yi Yi
(Yi Yi ) 2
Yi
60
23
62
23
61
25
55
25
53
26
60
26
63
29
53
30
52
30
48
32
49
33
53
31
25,637
24,646
25,141
28,114
29,104
25,637
24,150
29,104
29,600
31,581
31,086
29,104
-2,637
-1,646
-0,141
-3,114
-3,104
0,363
4,850
0,896
0,400
0,419
1,914
1,896
6,951
2,708
0,019
9,694
9,636
0,132
23,518
0,8022
0,160
0,175
3,663
3,593
Suma:
0,096
61,057
El error estndar de la estimacin es una medida que informa cunto varan los
datos reales en torno de la recta de regresin.
sYX
(Y
i 1
Yi ) 2
n2
- 14 -
61,047
10
sYX
sYX 2,47
El error estndar de la estimacin es la medida anloga a la desviacin
estndar, y est expresada en la misma unidad de medida que la variable Y.
Pregunta para reflexin: si el error estndar de la estimacin es anloga a la
desviacin estndar calculada en base a datos muestrales, por qu cree que
en la frmula se divide en n-2? (Ayuda: piense en el concepto de grados de
libertad, y analice a qu se asocian las prdidas de grados de libertad en este
caso).
Bondad de ajuste de la regresin
Una vez que hemos encontrado la recta de regresin, necesitamos disponer de
alguna medida que indique en qu grado es buena (o no) la representacin que
permite hacer la esa recta del conjunto de puntos iniciales.
Para construir una medida, construiremos algunas sumas de cuadrados que
permitan luego integrar esa medida.
La suma de cuadrados total (SST) indica la variabilidad de los valores de Y
respecto de su media:
SST (Yi Y ) 2
i 1
- 15 -
SSR (Yi Y ) 2
i 1
SSE (Yi Yi ) 2
i 1
R2
SSR
SST
- 16 -
Yi Yi
(Yi Yi ) 2
Yi
60
23
62
23
61
25
55
25
53
26
60
26
63
29
53
30
52
30
48
32
49
33
53
31
25,637
24,646
25,141
28,114
29,104
25,637
24,150
29,104
29,600
31,581
31,086
29,104
-2,637
-1,646
-0,141
-3,114
-3,104
0,363
4,850
0,896
0,400
0,419
1,914
1,896
6,951
2,708
0,019
9,694
9,636
0,132
23,518
0,8022
0,160
0,175
3,663
3,593
Suma:
0,096
61,057
Yi Y
(Yi Y ) 2
-2,113
-3,104
-2,609
0,364
1,354
-2,113
-3,600
1,354
1,850
3,831
3,336
4,466
9,636
6,806
0,132
1,834
4,466
12,957
1,834
3,422
14,679
11,128
1,354
1,834
73,195
- 17 -
(Yi Yi ) 2
Yi
60
23
62
23
61
25
55
25
53
26
60
26
63
29
53
30
52
30
48
32
49
33
53
31
25,637
24,646
25,141
28,114
29,104
25,637
24,150
29,104
29,600
31,581
31,086
29,104
6,951
2,708
0,019
9,694
9,636
0,132
23,518
0,8022
0,160
0,175
3,663
3,593
Suma:
61,057
(Yi Y ) 2
Yi Y
(Yi Y ) 2
4,466
9,636
6,806
0,132
1,834
4,466
12,957
1,834
3,422
14,679
11,128
-4,75
-4,75
-2,75
-2,75
-1,75
-1,75
1,25
2,25
2,25
4,25
5,25
22,5625
22,5625
7,5625
7,5625
3,0625
3,0625
1,5625
5,0625
5,0625
18,0625
27,5625
1,834
73,195
3,25
0
10,5625
134,25
SSR (Yi Y ) 2
i 1
SSR 73,195
La suma de cuadrados debida al error:
n
SSE (Yi Yi ) 2
i 1
SSE 61,067
La suma de cuadrados total:
SST (Yi Y ) 2
i 1
SST 134,25
- 18 -
El coeficiente de determinacin:
R2
R2
SSR
SST
73,195
134,25
R 2 0,545
Por lo tanto, la regresin a travs de la recta obtenida, explica el 54,5% de la
variabilidad total de la variable Y observada.
4.2.
ANLISIS DE CORRELACIN
El objetivo del anlisis de correlacin es cuantificar la intensidad de relacin
lineal entre dos variables cuantitativas.
El coeficiente de correlacin, es un indicador que se ubica en el intervalo [-1,
1], donde estos valores extremos indican correlaciones exactas entre las
variables:
-1 Correlacin negativa perfecta
1 Correlacin positiva perfecta
r R2
En estos casos, en que corresponda a una regresin, el signo de r ser el signo
de b1.
Sin embargo, en muchas ocasiones hacemos un anlisis de correlacin
independiente del anlisis de regresin. En particular, debido a que el anlisis
de correlacin no exige fijar a ninguna de las variables como dependiente de la
otra.
- 19 -
una
- 20 -
- 21 -
- 22 -
Ahora vemos
positiva fuerte.
una
correlacin
- 23 -
(X
i 1
X )(Yi Y )
( X i X )2 .
i 1
(Y
i 1
Y )2
Opcin 2:
n
X Y
i 1
i i
nX .Y
X i2 nX 2 .
i 1
Y
i 1
n.Y 2
- 24 -
- 25 -
Ejercicios
Resuelva los siguientes ejercicios, si tiene dudas o consultas, envelas a su tutor
virtual.
1. Con los siguientes datos, plantee y resuelva 2 problemas distintos de
regresin lineal
Empleo (en miles)
28,4
3,6
2,4
25,9
27,2
2,0
6,2
2,8
23,5
13,4
2,2
6,3
10,7
2,0
1,1
3,2
0,7
Turismo:
Nmero de viajeros (miles)
11.902,5
1.848,0
1.088,2
6.716,0
4.875,7
933,8
3.647,6
1.805,1
10.771,7
5.579,7
1.000,7
3.040,5
5.748,9
882,5
557,7
1.540,6
446,2
Turismo:
Estancia media
3,1
2,1
2,3
7,2
7,8
2,4
1,7
1,7
3,4
3,9
1,7
2,1
2,1
3,0
2,0
1,9
1,8
Actividades:
1. Determine si existe correlacin entre la series.
2. Relacione las variables y trate de armar una vinculacin entre dos variables de
las listadas, en las cuales pueda existir una causalidad.
3. Plantee el modelo de regresin lineal simple a estimar
4. Grafique la nube de puntos a travs de un diagrama de dispersin
5. Obtenga los estimadores de los parmetros del modelo
6. Calcule una medida de bondad de ajuste y explique su significado
- 26 -
Ao
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
PIB
Consumo Hipotecas Viviendas
construccin
de
(valores
a
Cemento constantes) Construir
403.822
296.432
162.909
3.383
377.465
287.559
179.347
3.607
396.944
310.719
215.490
5.116
451.070
349.314
277.880
6.375
529.679
373.310
344.324
6.264
593.644
444.370
390.794
7.486
638.578
501.691
428.410
7.763
702.334
485.614
534.140
7.910
723.412
497.092
698.667
7.822
743.513
504.946
806.633
7.132
775.183
507.362
958.913
10.496
818.717
525.357
1.121.994
12.966
531.342
1.318.888
14.906
Empleo
65.294
63.612
64.268
75.728
86.031
90.260
97.318
103.272
107.684
110.478
115.640
125.699
137.097
Y
1
4
9
16
25
25
16
9
4
1
Actividades:
a. Calcular el coeficiente de correlacin de Pearson
b. En este caso el coeficiente calculado es adecuado para representar el
patrn de covariacin que muestran los datos?. por qu?. Ayuda:
construya el diagrama de dispersin. Elabore una conclusin
c. Qu relacin podra estar descripta por esas variables? Indicar un
ejemplo.
- 27 -
X
1
2
3
4
5
6
7
8
9
10
Y
2
4
6
8
10
12
14
16
18
20
Actividades:
a. Calcular el coeficiente de correlacin de Pearson
b. En este caso el coeficiente calculado es adecuado para representar el
patrn de covariacin que muestran los datos?. por qu?. Ayuda:
construya el diagrama de dispersin. Elabore una conclusin
c. Qu relacin podra estar descripta por esas variables? Indicar un
ejemplo.
Y
5
6
4
5
6
7
4
3
5
15
Actividades:
a. Calcular el coeficiente de correlacin de Pearson
b. En este caso el coeficiente calculado es adecuado para representar el
patrn de covariacin que muestran los datos?. por qu?. Ayuda:
construya el diagrama de dispersin. Elabore una conclusin
- 28 -
Y: Estabilidad
Emocional
6
6
3
8
6
3
5
9
10
9
Actividades
a. Realice un diagrama de dispersin. Sugerencia: intente hacerlo usando
alguna herramienta informtica como Excel.
b. Estime la ecuacin de regresin lineal simple.
c. Cul es el nivel de estabilidad predicho para un sujeto cuyo grado de
extroversin es cero?. Este valor corresponde a algn coeficiente de la
recta calculada?
d. En cunto se diferenciaran las puntuaciones ajustadas de dos sujetos con
puntuaciones consecutivas en grado de extroversin? Este valor
corresponde a algn coeficiente de la recta calculada?
e. Complete la tabla anterior aadiendo para cada sujeto su puntuacin
f.
X 6,
Y 7,
X X
360,
Y Y
240,
X X Y Y 300
- 29 -
Y 10 0,05 X
Tenga en cuenta que:
la escala de estrs puede tomar valores entre 1 y 30
que la media fue de 15
Indicar cules de las siguientes afirmaciones son correctas y justificar:
a) A mayor nmero de aos trabajados mayor estrs.
b) 0,05 es la media de estrs de los sujetos que no trabajan
c) A mayor nmero de aos trabajados menor es el estrs.
d) -10 es el estrs medio estimado de aquellas personas que no trabajan
e) El ao prximo, si sigues trabajando, tu nivel medio de estrs se
incrementar en 0,05 puntos.
Nmero de habitaciones
2
1
3
2
2
2
2
1
1
2
1
- 30 -
Materia prima
25
20
16
17
19
18
- 31 -
- 32 -