Está en la página 1de 37

Tema 7: Regresin Simple

y Mltiple

EJEMPLO:

Nos dicen que la frmula

N prestamos 25 0'3Das
Aproxima bien el nmero de prstamos que efecta una biblioteca a
lo largo de su primer ao de vida.

Si damos valores a la variable Das (n das transcurridos desde


la apertura de la biblioteca

N prestamos 25 0'3Das
Nprestamos

120
100
80
60
40
20
0
0

100

200

Das

300

400

Si dos variables X e Y est relacionadas mediante una expresin


del tipo Y=a+bX, la grfica que relaciona los valores de X e Y es
una lnea recta, y se dice que Y=a+bX es la ecuacin de dicha
recta; el recproco es cierto, es decir, si la grfica que
relaciona X e Y es una recta, entre ambas existe una relacin del
tipo Y=a+bX. En ese caso, decimos que entre X e Y hay una
relacin de tipo lineal.

En la realidad, no nos encontramos frmulas tan redondas, pero


s nos encontramos fenmenos que pueden aproximarse por ellas.

EJEMPLO: Supongamos que una biblioteca


proporcion los siguientes datos, a lo largo
de su primer ao de vida

Das

N
prestamos

25

20

32

35

40

50

39

65

47

80

51

95

56

110

54

135

69

150

72

165

76

180

77

195

86

210

90

235

98

250

102

265

105

280

110

295

113

310

120

N prestamos

120
100
80
60
40
20
0
0

100

200

Das

300

400

APROXIMADAMENTE,

N prestamos = 24,5529 + 0,301579*Das

En este caso, diramos que las variables N prstamos y Das estn


linealmente correlacionadas, y que lo de arriba es la ecuacin de
la recta de regresin de N prstamos sobre Das.

Para qu nos sirve? (1) para conocer leyes


empricas; (2) para predecir el valor de una cierta
variable

PROBLEMAS: Dadas dos variables X e Y, continuas


1.- [Correlacin] Existe una cierta relacin entre ellas, o por el contrario son
independientes? En el primer caso, hablamos de que entre X e Y
hay correlacin; en el segundo, decimos que son incorreladas
2.- [Correlacin lineal] Suponiendo que entre X e Y hay correlacin, estn
linealmente correlacionadas, es decir, funciona suficientemente bien un
modelo del tipo Y = a+bX para predecir Y a partir de X? Cules son los
ptimos valores para a y b, es decir, los que producen mejores estimaciones?
3.- [Otros tipos de correlacin] Hay algn modelo mejor que el lineal
que permita estimar Y a partir de X? Por ejemplo,
Cuadrtico: Y=a+bX+bX2
Exponencial: Y=a bx

Otro ejemplo (Leyes bibliomtricas)

Curva logstica del crecimiento


de la informacin

1. Distribuciones bidimensionales. Correlacin.


Cuando en una poblacin registramos simultneamente los valores
de dos variables X e Y, decimos que estamos ante una distribucin
BIDIMENSIONAL (PIZARRA: distribuciones marginales)

Los datos relativos a una distribucin bidimensional se pueden


representar grficamente mediante una NUBE DE PUNTOS, o
DIAGRAMA DE DISPERSION (PIZARRA)

Si la nube de puntos se ajusta aproximadamente a una curva, diremos


que las variables estn correlacionadas, es decir, que existe una cierta
relacin entre ellas (y buscaremos cul es la expresin, la frmula que
mejor aproxima una de ellas partir de la otra); en caso contrario, decimos
que las variables son incorreladas, es decir, que no tienen relacin.

120
100
80

Hay correlacin

60
40
20
0
0

100

200

300

400

15
12

Incorreladas

9
6
3
0
0

100

200

300

400

Adems de la inspeccin de la nube de puntos,


hay mtodos ms exactos para evaluar la existencia
o no de correlacin.

Si la nube de puntos parece ajustarse en torno a alguna curva (es


decir, si hay correlacin), la forma de dicha curva nos indica el tipo
de correlacin. Si la nube de puntos parece agruparse en torno a
una recta, diremos que hay correlacin lineal, o que las variables
estn linealmente correlacionadas.

120
100
80
60
40
20
0
0

100

200

300

400

Si las variables estn linealmente correlacionadas, entonces tiene


sentido buscar la recta que mejor se ajusta a la nube de puntos,
es decir, la recta que globalmente est ms cerca del conjunto de
puntos. Si nuestra intencin al hacer eso es la de estimar Y a partir
de X, entonces encontrar dicha recta es equivalente a encontrar la
mejor aproximacin

Y=a+bX

(RECTA DE REGRESION DE Y SOBRE X)

Cmo tomar a, b para que la aproximacin sea


ptima?

2. Regresin lineal sobre un conjunto de puntos.


PROBLEMA 1: Dada una distribucin bidimensional (X,Y), determinar
si las variables X e Y estn o no linealmente correlacionadas, y la
fuerza de dicha correlacin lineal.

PROBLEMA 2: Suponiendo que X e Y estn linealmente correlacionadas,


determinar la recta de regresin de Y sobre X, es decir, a y b de modo
que, aproximadamente, Y=a + bX.

PROBLEMA 1: Dada una distribucin bidimensional (X,Y), determinar


si las variables X e Y estn o no linealmente correlacionadas, y la
fuerza de dicha correlacin lineal.

- Nube de puntos.
- Coeficiente de correlacin lineal de Pearson. (PIZARRA)
- Coeficiente de correlacin lineal de Spearman.
- Coeficiente de determinacin R-cuadrado % de variabilidad
explicada.

PROBLEMA 2: Suponiendo que X e Y estn linealmente correlacionadas,


determinar la recta de regresin de Y sobre X, es decir, a y b de modo
que, aproximadamente, Y=a + bX.

Y a bX
(Ecuacin recta de regresin de Y sobre X)

Conocida la recta de regresin, podemos estimar los valores de Y


correspondientes a distintos valores de X.

y i a bxi
Valor predicho, o estimado

120
100
80
60

y i :valor real

40
20
0
0

100

200

300

400

120
100
80
60

y i

40
20
0
0

100

Valor predicho:

200

300

y i a bxi

400

120
100

Residuo: diferencia
entre el valor real
y el valor predicho

80
60

y i

40
20
0
0

100

Valor predicho:

200

300

y i a bxi

400

R-cuadrado Coeficiente de Determinacin % de variabilidad


explicada (PIZARRA)

Statgraphics

3. El modelo de regresin lineal.


Sabemos decidir si, aproximadamente, un conjunto (xi,yi) de puntos
(datos) se ajusta o no a Y=a+bX. Pero, teniendo en cuenta que esos
datos son una MUESTRA de una poblacin

SIGUE SIENDO APROXIMADAMENTE


VALIDO Y=a+bX cuando tomamos
NO una muestra (xi,yi), sino cuando consideramos
TODA LA POBLACION? Qu queremos
decir por aproximadamente?

Modelo de regresin lineal:

1.

Decimos que dos variables (poblacionales!)


estn linealmente correlacionadas, si:

y i a bxi i
residuo

Y: variable explicada

X: regresor

2. Los residuos tienen media 0.


3. La varianza de los residuos no depende de xi (homocedasticidad)
4. Los residuos son normales.
5. Los residuos son aleatorios.
2+ 4+ 5= Residuos siguen una normal N(0,)

Grfico del Modelo Ajustado

Prestamos

56
51
46
41
36
31
26
8

12

16

20

24

28

32

Semanas
La varianza de los residuos no depende de xi (homocedasticidad)

Modelo de regresin lineal:

1.

Hiptesis bsicas:

y i a bxi i
residuo

Y: variable explicada

X: regresor

2. Los residuos tienen media 0.


3. La varianza de los residuos no depende de xi (homocedasticidad)
4. Los residuos son normales.
5. Los residuos son aleatorios.
2, 4 y 5 pueden contrastarte guardando los residuos, y procediendo
como en otras ocasiones.

Modelo de regresin lineal:

1.

Hiptesis bsicas:

y i a bxi i
residuo

Y: variable explicada

X: regresor

2. Los residuos tienen media 0.


3. La varianza de los residuos no depende de xi (homocedasticidad)
4. Los residuos son normales.
5. Los residuos son aleatorios.
3 lo contrastaremos con los grficos de residuos,
y comprobando que no haya residuos atpicos.

Grfico del Modelo Ajustado

Prestamos

56
51
46
41
36
Homocedasticidad
aceptable

31
26
8

12

16

20

24

Semanas

28

32

Modelo de regresin lineal:

1.

Hiptesis bsicas:

y i a bxi i
residuo

Y: variable explicada

X: regresor

2. Los residuos tienen media 0.


3. La varianza de los residuos no depende de xi (homocedasticidad)
4. Los residuos son normales.
5. Los residuos son aleatorios.

Cmo CONTRASTAR?

Cmo CONTRASTAR?
a.- Inspeccin del diagrama de dispersin, valores de los coeficientes
de correlacin de Pearson y Spearman (si el ajuste no funciona bien
para la muestra, difcilmente lo har para la poblacin).
b.- Contraste tipo ANOVA sobre la existencia o no de correlacin lineal.
COEFICIENTE DE DETERMINACION. = Contraste sobre la pendiente
de la recta de regresin.
c.- Cmo podemos estar seguros de que, en la poblacin, los coeficientes de Pearson y Spearman no seran 0 (en cuyo caso, no habra
correlacin lineal)? Contraste de hiptesis.

(Explicacin: PIZARRA)

- Eliminacin de parmetros (simplificacin del modelo):

y i a bxi i
Si aceptamos el contraste H0: a=0, entonces la recta de regresin
que obtenemos es y = bx (una frmula ms sencilla): se dice entonces
que hemos simplificado nuestro modelo.

Qu hacer si falla alguna hiptesis? (algunas ideas sobre esto)


(APUNTES)
1.

y i a bxi i
residuo

Y: variable explicada

X: regresor

2. Los residuos tienen media 0.


3. La varianza de los residuos no depende de xi (homocedasticidad)
4. Los residuos son normales.
5. Los residuos son aleatorios.

Statgraphics

4. El modelo de regresin mltiple.

PROBLEMA: Hemos recogido datos sobre usuarios de mediana edad


de una biblioteca en la que adems se realizan actividades tanto para
nios como para adolescentes y adultos, y estamos interesados en
analizar cules son las variables que determinan el nivel de satisfaccin
de sus usuarios; las variables recogidas son: aficin a la lectura, al cine,
a la msica, nmero de hijos, renta y, por supuesto, nivel de satisfaccin.

Aficion_lectura
4
3
5
2
4
3
5
3
3
1
4
5
5
5
2
4
3
1
2
1
5
2
4
4
5

Num_hijos
0
0
1
2
1
1
3
0
1
3
0
0
2
2
1
2
3
1
1
0
1
2
1
1
2

Aficion_cine Aficion_musica renta_mens Nivel_estudios


3
5
1200
4
3
4
1500
5
4
1
1800
3
1
3
1000
2
5
3
1300
3
3
4
1900
1
4
5
1300
4
2
3
1200
4
4
1
1600
2
2
1
1400
2
5
4
1700
3
5
5
2500
4
4
4
1100
5
5
3
1400
3
1
4
1800
4
5
4
2000
4
2
4
1500
4
2
3
1000
2
2
2
1300
3
2
5
1600
4
4
4
1800
3
3
3
1200
4
5
5
1700
2
4
3
1500
5
4
5
1100
5

Aficion_TV Satisfaccion
4
4
4
3
5
5
2
3
4
4
4
3
5
5
4
3
5
4
1
2
4
4
5
5
3
5
4
5
3
3
5
5
3
3
2
2
3
3
4
2
4
4
4
4
5
4
4
4
5
5

El modelo de regresin simple es, a priori, poco realista (parece poco


probable que el nivel de satisfaccin dependa de una nica variable,
ms bien lo natural es que en l intervengan varias variables). En consecuencia, ensayamos no con

Y=a+bX
sino con

Y=a+b1X1+ +bnXn

regresores
Variable respuesta
(en nuestro caso,
nivel de satisfaccin)

Por ejemplo, en el problema anterior, la frmula a la que llegaremos


es:

Satisfaccion = 0,686829 + 0,134472*Aficion_cine +


0,436889*Aficion_lectura - 0,0904825*Aficion_musica +
0,234494*Aficion_TV + 0,113699*Nivel_estudios + 0,206893*
0,0000595998*renta_mens

Aqu, Y=Satisfaccin, X1=Aficin_cine, X2=Aficion_lectura, etc.


Sirve para:
- predecir.
- detectar influencias (qu variables tienen ms poder sobre la
variable que nos interesa, etc.)

Modelo de regresin mltiple:

1.

y i a b1 x1 bn x n i
residuo

2. Los residuos tienen media 0.


3. La varianza de los residuos no depende de xi (homocedasticidad)
4. Los residuos son normales.
5. Los residuos son aleatorios.
6. Las variables x1, x2, etc. no estn linealmente correlacionadas
entre s.

Modelo de regresin mltiple:

1.

y i a b1 x1 bn x n i
residuo

2. Los residuos tienen media 0.


3. La varianza de los residuos no depende de xi (homocedasticidad)
4. Los residuos son normales.
5. Los residuos son aleatorios.
6. Las variables x1, x2, etc. no estn linealmente correlacionadas
entre s.
2+ 4+ 5= Residuos siguen una normal N(0,)

También podría gustarte