Está en la página 1de 8

UNIDAD III: CORRELACION Y REGRESION LINEAL SIMPLE

El trmino regresin fue introducido por Galton en su libro Natural inheritance (1889)
refirindose a la ley de la regresin universal:
Cada peculiaridad en un hombre es compartida por sus descendientes, pero en media, en un
grado menor.

Regresin a la media

Su trabajo se centraba en la descripcin de los rasgos fsicos de los descendientes (una variable) a
partir de los de sus padres (otra variable).
Pearson (un amigo suyo) realiz un estudio con ms de 1000 registros de grupos familiares
observando una relacin del tipo:

Altura del hijo = 85cm + 0,5 altura del padre (aprox.)

Conclusin: los padres muy altos tienen tendencia a tener hijos que heredan parte de esta altura,
aunque tienen tendencia a acercarse (regresar) a la media. Lo mismo puede decirse de los padres
muy bajos.
Hoy en da el sentido de regresin es el de prediccin de una medida basndonos en el
conocimiento de otra.

COVARIANZA Y CORRELACION LINEAL


La covarianza es una medida de la variabilidad conjunta de X y de Y. Es una medida de asociacin
entre los valores de X y de Y y de sus respectivas dispersiones.

X
n

COV ( X , Y ) =

i =1

X Yi Y

La covarianza entre dos variables, COV(X,Y), nos indica si la posible relacin entre dos variables
es directa o inversa.

Directa: COV(X,Y) >0


Inversa: COV(X,Y) <0
No correlacionada: COV(X,Y) =0

El signo de la covarianza nos dice si el aspecto de la nube de puntos es creciente o no, pero no nos
dice nada sobre el grado de relacin entre las variables.

ESTADISTICAS II: CPA


________________________________________________________________________________________________

Si la covarianza de X y de Y se divide por el producto de las desviaciones estndar de X y de Y, el


resultado es una cantidad sin dimensin llamado Coeficiente de Correlacin y se denota por
r ( X ,Y ) :

r ( X ,Y ) =

Cov( X , Y )
S X SY

El coeficiente de correlacin lineal de Pearson de dos variables, r, nos indica si los puntos
tienen una tendencia a disponerse alineadamente (excluyendo rectas horizontales y verticales).
tiene el mismo signo que COV(X,Y) por tanto de su signo obtenemos el que la posible relacin
sea directa o inversa.
r es til para determinar si hay relacin lineal entre dos variables, pero no servir para otro tipo
de relaciones (cuadrtica, logartmica,...)

PROPIEDADES DEL COEFICIENTE DE CORRELACION

Es adimensional
Slo toma valores en [-1,1]
Las variables son no correlacionadas
r=0
Relacin lineal perfecta entre dos variables
r = +1 o r = -1
Excluimos los casos de puntos alineados horizontal o verticalmente.
Cuanto ms cerca est r de +1 o -1 mejor ser el grado de relacin lineal.
Siempre que no existan observaciones anmalas.

CORRELACIONES POSITIVAS
330

130

280

110

230

90
180

70

130

50

80

r=0,1

r=0,4

30
110

30
140

150

160

170

180

190

200

100

140

150

160

170

180

190

200

90
90

80
70

70

60
50

50

40

r=0,6
30

r=0,8

30
140

150

160

170

180

190

200

140

150

160

170

180

190

200

________________________________________________________________________________________________
2
.

ESTADISTICAS II: CPA


________________________________________________________________________________________________
110

110

90

90

70

70

50

50
r=0,9

30
140

150

160

170

180

190

r=1

30
200

140

150

160

170

180

190

200

CORRELACIONES NEGATIVAS
80

80
60

60

40

40

20

20

r=-0,5

0
140

150

r=-0,7

160

170

180

190

200

140

80

80

60

60

40

40

160

170

180

170

180

190

200

20

20
0

150

0 r=-0,999

r=-0,95
140

150

160

170

180

190

140

200

150

160

190

200

EJEMPLO
La siguiente informacin muestra el puntaje obtenido (de un total de 10) en dos pruebas de
matemticas.
1 prueba
2 prueba

6
8

5
7

8
7

8
10

7
5

6
8

10
10

4
6

9
8

7
6

a) Graficar
b) Calcule e interprete el coeficiente de correlacin.

________________________________________________________________________________________________
3
.

ESTADISTICAS II: CPA


________________________________________________________________________________________________

REGRESION LINEAL SIMPLE


El anlisis de regresin sirve para predecir una medida en funcin de otra medida (o varias).
Un modelo de regresin es un modelo que permite describir cmo influye una variable X sobre otra
variable Y.

Y = Variable dependiente, predicha, explicada

X = Variable independiente, predictora, explicativa

Es posible descubrir una relacin?

Y = f ( x ) + error
f es una funcin de un tipo determinado
el error es aleatorio, pequeo, y no depende de X

La regresin lineal simple determina una lnea recta o ecuacin matemtica lineal que describe la
relacin entre dos variables.
En la etapa inicial del anlisis de datos es importante graficarlos para darnos una idea de la relacin
que tienen. Al realizar un diagrama de dispersin se observa un conjunto de puntos que estn ms o
menos sobre una recta.
16
14
12
10
8
6
4
2
0
0

10

15

Buscamos encontrar una funcin de X muy simple (lineal) que nos permita aproximar Y mediante:
= a + bX
a (ordenada en el origen, constante)
b (pendiente de la recta)
Y e rara vez coincidirn por muy bueno que sea el modelo de regresin. A la cantidad
________________________________________________________________________________________________
4
.

ESTADISTICAS II: CPA


________________________________________________________________________________________________

e = Y Y

se le denomina residuo o error residual.

En el ejemplo de Pearson y las alturas, l encontr:

Y = a + bX

a =85 cm (No interpretar como altura de un hijo cuyo padre mide 0 cm)
b = 0,5 (En media el hijo gana 0,5 cm por cada cm del padre.)

Interpretacin de la ecuacin de regresin

Y = a + bX

A un valor X = 0 corresponde Y = a , a es la prediccin de Y cuando la variable independiente


toma el valor 0.
b es la pendiente de la recta, nos indica el nmero de unidades que cambia Y por cada unidad de
cambio de X.

EJEMPLO
El ingreso anual disponible (X) y los gastos de consumo (Y) de 12 familias, seleccionadas
aleatoriamente, en cierta ciudad, han sido en miles de euros los siguientes:
Gastos
de 7
consumo
Ingreso anual 8
disponible

12

18

30

20

24

11

10

18

15

20

35

28

25

13

12

15

________________________________________________________________________________________________
5
.

ESTADISTICAS II: CPA


________________________________________________________________________________________________

a)
b)
c)
d)

Ajuste una recta de regresin en la que el consumo sea funcin de los ingresos.
Interprete los coeficientes del modelo.
Cul es el consumo esperado para una familia con un ingreso de 15 mil euros?
Encuentre e interprete el coeficiente de correlacin.

HIPTESIS DEL MODELO DE REGRESIN LINEAL SIMPLE

1.- Linealidad: La relacin existente entre X e Y es lineal, f (x) = a + bx


2.- Homogeneidad: El valor promedio del error es cero, E ei = 0

3.- Homocedasticidad: La varianza de los errores es constante, Var ( ei ) = 2


4.- Independencia: Las observaciones son independientes, E ei e j = 0
5.- Normalidad: Los errores siguen una distribucin normal, ei N ( 0 , 2 )

BONDAD DE AJUSTE

La bondad de un ajuste de un modelo de regresin se mide usando el coeficiente de


determinacin R2
R2 es una cantidad adimensional que slo puede tomar valores en [0, 1]
Cuando un ajuste es bueno, R2 ser cercano a uno.
Cuando un ajuste es malo R2 ser cercano a cero.

A R2 tambin se le denomina porcentaje de variabilidad explicado por el modelo de regresin.

R2 puede ser pesado de calcular en modelos de regresin general, pero en el modelo lineal
simple, la expresin es de lo ms sencilla: R2= r2

________________________________________________________________________________________________
6
.

ESTADISTICAS II: CPA


________________________________________________________________________________________________

GUIA DE EJERCICIOS N3: REGRESION LINEAL SIMPLE Y CORRELACION LINEAL


1.- Se realiz un estudio para determinar los efectos de no dormir en la capacidad de las personas
para resolver problemas sencillos. La cantidad variaba de 8, 12, 16, 20 24 horas sin dormir. Diez
personas participaron en el estudio, dos para cada nivel de horas sin dormir. Se dieron a cada
persona, despus de un periodo especfico sin dormir, un conjunto de problemas sencillos de sumar y
se registr el nmero de errores. Se obtuvieron los siguientes resultados:
N horas sin dormir 8
N de errores
8

8
6

12
7

12
10

16
8

16
13

20
15

20
14

24
16

24
14

a) Graficar
b) Calcule e interprete el coeficiente de correlacin.

2.- En un grupo de investigacin se estableci una escala del grado de violencia en programas de
TV, para lo cual se calific 10 programas y recopilaron datos sobre el porcentaje de tele espectadores de cada uno de ellos.
Programa
Grado de Violencia
Porcentaje de
telespectadores

1
10
15

2
20
16

3
30
20

4
40
24

5
40
25

6
50
30

7
55
30

8
65
35

9
70
35

10
70
35

a) Encuentre la recta de regresin lineal referente al porcentaje de teleespectadores potencial, en


trminos del coeficiente de violencia.
b) Interprete la pendiente de la recta.
c) Si un programa es calificado con grado de violencia de 45 Qu porcentaje de teleespectadores
esperara?
d) Calcule e interprete el coeficiente de determinacin.
e) Calcule e interprete el coeficiente de correlacin.
3.- Una compaa que tiene 15 tiendas ha recopilado datos en relacin con los metros cuadrados de
reas de ventas respecto de los ingresos mensuales.
Tienda

Ingreso
45
Mensual
Metros
55
Cuadrados

115

120

95

75

170

110

140

130

75

80

105 200 95

60

200

180

110

90

260

140

215

200

85

90

180 300 130 80

a) Encontrar la recta de regresin lineal simple


b) Cul es el valor estimado del ingreso mensual si la tienda tiene 100 metros cuadrado?
c) Calcule e interprete el coeficiente de correlacin.
________________________________________________________________________________________________
7
.

ESTADISTICAS II: CPA


________________________________________________________________________________________________

4.- La direccin de una empresa quiere estudiar la rentabilidad de su inversin en publicidad. Para
ello ha recogido datos del volumen de ventas y del gasto en publicidad referidos a los aos noventa
y expresados en millones de pesos.
Ao
90
Ventas 50
Gastos 10

91
100
15

92
150
18

93
200
20

94
200
25

95
300
35

96
400
50

97
500
60

98
650
65

99
700
70

a) Especifique y estime el modelo lineal que explique las ventas de la empresa en funcin de la
inversin publicitaria. Interpretar los parmetros estimados.
b) En el ao 2003 la empresa a invertir 120 millones en publicidad. Calcular el volumen de
ventas esperado.
d) Calcule e interprete el coeficiente de correlacin.
e) Calcule e interprete el coeficiente de determinacin
5.- Para analizar la concentracin de una solucin (Y) a lo largo del tiempo (X), un qumico preparo
15 soluciones idnticas. Las 15 soluciones fueron divididas aleatoriamente en 5 grupos de 3 cada
uno, y los 5 grupos fueron comprobados despus de 1,3,5,7,9 horas, respectivamente, obtenindose
las siguientes concentraciones.
X 9
Y 0.0
7

9
0.0
9

9
0.0
8

7
0.1
6

7
0.1
7

7
0.2
1

5
0.4
9

5
0.5
8

5
0.5
3

3
1.2
2

3
1.1
5

3
1.0
7

1
2.8
4

1
2.5
7

1
3.1
0

Ajuste una funcin de regresin lineal a los datos. Interprete los resultados.

6.- El representante de una conocida marca de equipos de servidores de redes computacionales,


desea proyectar sus ventas mensuales para el prximo ao. Una relacin importante que se ha
observado es entre el nmero de presupuestos que le solicitan y el nmero de unidades vendidas
cada mes. El comportamiento de estas variables ha sido el siguiente:
Mes
N P
U. V
a)
b)
c)
d)
e)
f)

Ene
14
23

Feb
6
10

Mar
16
22

Abr
18
25

May
24
32

Jun
22
31

Jul
37
39

Ago
32
42

Sep
30
41

Oct
33
47

Nov
37
54

Dic
34
47

Identifique variables
Calcule la covarianza e interprete su signo.
Obtenga la ecuacin de la recta de regresin.
Interprete los parmetros de la recta de regresin.
Calcule e interprete R2
Estime las unidades vendidas en un mes si le solicitan 50 presupuestos.

________________________________________________________________________________________________
8
.

También podría gustarte