Está en la página 1de 49

RELACIONES ENTRE

VARIABLES CUANTITATIVAS

ANÁLISIS DE REGRESIÓN

Prof. G. Duret©®
ANÁLISIS DE REGRESIÓN
¿QUÉ ES?
MÉTODO ESTADÍSTICO PARA
EXPLICAR EL COMPORTAMIENTO DE
UNA VARIABLE CUANTITATIVA EN
FUNCIÓN DE OTRA U OTRAS
VARIABLES, QUE PUEDEN SER
CUALITATIVAS O CUANTITATIVAS
ANÁLISIS DE REGRESIÓN
¿PARA QUÉ?
PARA PREDECIR EL VALOR DE Y

¿CÓMO?
MEDIANTE UNA ECUACIÓN O FUNCIÓN O
MODELO ESTADÍSTICO

Y  f (X 1 , X 2 , ..., Xk )  
SIMBOLOGÍA
RESPUESTA
Y VARIABLE EXPLICADA
DEPENDIENTE

X 1 ; X 2 ; ; Xk
VARIABLES EXPLICATIVAS O
INDEPENDIENTE S

 VARIABLE ALEATORIA
MODELO ESTADÍSTICO DE
REGRESION

Y  f (X 1 , X 2 , ..., Xk )  

FUNCIÓN DE REGRESIÓN VARIABLE RESIDUAL


ALEATORIA. Residuo
aleatorio
MODELO REGRESIÓN SIMPLE

Y  f (X)  

VARIABLE VARIABLE RESIDUO


EXPLICADA EXPLICATIVA ALEATORIO
MODELO REGRESIÓN LINEAL
SIMPLE

Y  0  1X  

VARIABLE RESIDUO
EXPLICADA FUNCIÓN AFIN O RECTA ALEATORIO
RESIDUO O ERROR ALEATORIO

  Y  f (X)
RESIDUO DIFERENCIA ENTRE EL VALOR OBSERVADO
o ERROR = Y LA FUNCIÓN DE AJUSTE o FUNCIÓN DE
ALEATORIO REGRESIÓN (recta)

  Y  ( 0   1 X)
DIAGRAMA DE DISPERSIÓN
30,00
Y = f(X)
25,00

20,00
Y = f(X)
15,00

10,00

5,00

0,00
0 2 4 6 8 10 12
SUPUESTOS DE REGRESIÓN
  No
E(  )  0
V(  )   2
 cons tan te X

Cov(  i ,  j )  0
Cov( , X j )  0 j  1 k
SUPUESTOS DE REGRESIÓN
E(Yij / Xj)   0   1 X j

 2


RECTA DE REGRESIÓN ESPERADA O TEÓRICA
valor promedio esperado de
E(Yij / Xi) = gi = la variable explicada (Y)
para cada valor de la variable
= 0 + 1 Xi  i explicativa (X) = esperanza
matemática condicionada,

VARIANZA RESIDUAL ESPERADA O TEÓRICA


varianza de la variable
explicada (Y) para cada valor
de la variable explicativa (X) =
V(Yij / Xi) =  2
 i
varianza condicionada
ESTIMADORES DE LOS PARÁMETROS

Ŷ  bo  b 1 X RECTA de REGRESIÓN
MUESTRAL

2
S e
VARIANZA RESIDUAL MUESTRAL
VARIANZA DE ERROR
SUPUESTOS DE REGRESIÓN
E(Yij / Xj)   0   1 X j

 2


DESVIACIONES EN REGRESIÓN
Ŷ  b 0  b 1 X
Y0
DESVIACIÓN no EXPLICADA
ˆ
(Y0  Y) O RESIDUAL
(Y0  Y) Ŷ
DESVIA ˆ  Y)
(Y DESVIACIÓN EXPLICADA O
CIÓN DEBIDA A LA REGRESIÓN
TOTAL Y
DE Y

X X0
VARIANZAS DE LA REGRESIÓN
DESVIACIÓN TOTAL Y = D. EXPLICADA + D. RESIDUAL

ˆ  Y)  (Y  Y)
(Y0  Y)  (Y ˆ
0

 (Y0  Y)   (Y  Y)   (Y0  Y)
2
ˆ 2 ˆ 2

SCY  SCEXP  SCRES


VARIANZAS DE LA REGRESIÓN

 (Y0  Y)   (Y0  Y)   (Y  Y)
2
ˆ 2 ˆ 2

SCRES  SCY  SCEXP


 (Y Y)   (Y0  Y)   (Y0  Y)
2
ˆ 2 ˆ 2

SCEXP  SCY  SCRES


COEFICIENTE DE DETERMINACIÓN

SCEXP SCY SCRES


 
SCY SCY SCY
SCRES
R  1
2

SCY
COEFICIENTE DE DETERMINACIÓN
MIDE LA PROPORCION DE LA VARIACIÓN TOTAL
DE Y QUE SE EXPLICA O SE DEBE A LA
VARIACIÓN DE X. medida de bondad del ajuste

SCRES
R  1
2

SCY

0R 1 2
COEFICIENTE DE DETERMINACIÓN
R 1
2 El 100% de la variación de Y se
explica por la variación de X

R 0
2 Nada de la variación de Y se explica
por la variación de X

2
SCEXP b SCx
R  2
 1

SCY SCY
DISTRIBUCIÓN DE LOS ESTIMADORES
DISTRIBUCIÓN DE LA ORDENADA AL ORIGEN

b0  0
t (n  2 )
V̂(b 0 )

 1 x 2
  1 x 2 
V̂(b 0 )  S e2     S 2
e   
 n  (x  x)2
 n SCx   
DISTRIBUCIÓN DE LOS ESTIMADORES
DISTRIBUCIÓN DEL COEFICIENTE DE REGRESIÓN

b1  1
t (n  2 )
V̂(b 1 )

Se2 Se2
V̂(b 1 )  
SCx  (x  x) 2
INTERVALOS DE CONFIANZA PARA
LOS PARÁMETROS
PARA LA ORDENADA AL ORIGEN

ˆ
b 0  t (n  2 );( 1 2 ) V(b 0)

PARA EL COEFICIENTE DE REGRESIÓN

ˆ
b 1  t(n  2 );( 1 2 ) V(b 1)
INTERVALO DE CONFIANZA PARA
UNA PREDICCIÓN
Ŷ(x0 )  bo  b1x0 ESTIMACIÓN PUNTUAL DE Y
PARA UN VALOR DE X DADO

 1 (x  x) 2
  1 (x  x) 2

ˆ  ˆ 
V  Y(x 0 )   S e  1   0
2
 2
1   0
 S e  
 n SCx 

 n  (x  x) 2

ˆ
Y(x )  t ˆ  Y(x
V ˆ ) 
0  (n  2 );( 1 2 )  0 
PRUEBA DE HIPÓTESIS PARA LOS PARÁMETROS
PARA LA ORDENADA AL ORIGEN
H0 : 0   b0  0
t (n  2 )
H1 : 0   V̂(b 0 )

PARA EL COEFICIENTE DE REGRESIÓN


H 0 :  1  0  regresión no significativa
H 1 :  1  0  regresión significativa
b1  1
t (n  2 )
V̂(b 1 )
PRUEBA DE HIPÓTESIS PARA LOS PARÁMETROS
PARA EL COEFICIENTE DE REGRESIÓN
Si el coeficiente de regresión es nulo, la regresión no es
significativa, no hay efecto regresión, indica que no hay
una variación de Y ante una variación unitaria de X.
En tal caso la recta de regresión es una paralela al eje
de abscisas(x)
Si  1  0 Y
Y  0
0

X
EJEMPLO
Se realizó una investigación a fin de concientizar
acerca de la problemática de los residuos y la
contaminación. En la etapa inicial se relevaron
datos acerca del tamaño de los hogares y la
cantidad de basura que producían en un mes. El
objetivo fue establecer si existía relación entre el
tamaño del hogar, medido con un índice y la
cantidad total de basura que c/u producía en un
mes (en kilos) y predecir la cantidad de basura en
función del tamaño del hogar. Se tomó una
muestra piloto aleatoria de 62 hogares.
DATOS DEL EJEMPLO

tamhog total(Kg) tamhog total(Kg)


orden x y orden x y
1 2 4,88 15 6 20,16
2 3 9,05 16 2 10,95
3 3 12,52 17 4 17,05
4 6 17,29 18 4 17,67
5 4 12,66 19 3 7,79
6 2 9,93 20 3 14,33
7 1 9,90 21 2 10,48
8 5 22,35 22 2 12,50
9 6 15,09 23 4 14,04
10 4 16,12 24 1 1,85
11 4 20,16 25 4 10,53
12 7 20,49 26 6 19,50
13 3 15,00 27 11 23,54
14 5 4,69 28 3 9,16
tamhog total(Kg) tamhog total(Kg)
orden x y orden x y
29 4 16,69 46 6 9,43
30 3 8,63 47 4 11,70
31 2 7,00 48 4 6,63
32 2 9,39 49 3 12,89
33 2 7,72 50 3 12,32
34 4 20,57 51 10 24,71
35 6 22,39 52 3 5,95
36 2 8,19 53 6 20,76
37 2 7,90 54 5 15,78
38 2 10,74 55 4 16,90
39 2 8,68 56 7 23,40
40 2 9,52 57 5 11,25
41 3 9,61 58 4 11,87
42 3 13,18 59 2 5,10
43 2 6,78 60 4 12,77
44 2 2,01 61 2 5,05
45 3 11,26 62 2 5,31
PARTE A: cálculos y estimaciones puntuales
1- IDENTIFICAR LA VARIABLE RESPUESTA Y LA VARIABLE
EXPLICATIVA

2- PRESENTAR LOS DATOS EN UN DIAGRAMA DE DISPERSIÓN

3- ESTIMAR EL MODELO DE REGRESIÓN E INTERPRETAR


3.1- EL COEFICIENTE DE REGRESIÓN
3.2- LA ORDENADA AL ORIGEN (SI ES POSIBLE)
3.3- LA CANTIDAD DE BASURA SI EL TAMAÑO DEL HOGAR
TIENE UN ÍNDICE DE 9
4- ESTIMAR LA VARIANZA RESIDUAL

5- DAR UNA MEDIDA DE LA BONDAD DEL AJUSTE


PARTE B: inferencias en regresión

6- ESTIMAR CON UNA CONFIANZA DEL 95% LA VARIACIÓN EN LA


CANTIDAD DE BASURA ANTE UN AUMENTO DE UN PUNTO EN
EL ÍNDICE DEL TAMAÑO DEL HOGAR

7- ESTIMAR CON UNA CONFIANZA DEL 95% LA ORDENADA AL


ORIGEN

8- ESTIMAR CON UNA CONFIANZA DEL 95% LA CANTIDAD DE


BASURA SI EL ÍNDICE DEL TAMAÑO DEL HOGAR ES IGUAL A 9

9- VERIFICAR, CON UN NIVEL DE SIGNIFICACIÓN DEL 5% SI EL


COEFICIENTE DE REGRESIÓN LINEAL ES SIGNIFICATIVO.
PARTE C: análisis de correlación

10- VERIFICAR, CON UN NIVEL DE SIGNIFICACIÓN DEL 5%

a) SI EL COEFICIENTE DE CORRELACIÓN LINEAL ES SIGNIFICATIVO

b) Y SUPERIOR A 0,70.
1- IDENTIFICACIÓN DE LAS VARIABLES X E Y:
¿Qué depende de qué?
VARIABLE EXPLICATIVA O INDEPENDIENTE

X = tamaño del hogar medido en un índice


VARIABLE EXPLICADA O DEPENDIENTE O
VARIABLE RESPUESTA

Y = cantidad de basura total en kg.


2- DIAGRAMA DE DISPERSIÓN
relación entre tamaño del hogar y total de basura
30,00
y = 4,3064 + 2,1947x
R² = 0,5756
25,00

20,00
total basura Kg

15,00

10,00

5,00

0,00
0 2 4 6 8 10 12
tamaño del hogar
3- ESTIMACIÓN DEL MODELO DE REGRESIÓN

CÁLCULOS NECESARIOS: 5 totales

orden X Y XY X^2 Y^2

 X  Y  XY  X  Y
total 2 2
TABLA DE CÁLCULO
tamhog total(Kg)
orden x y x*y x^2 y^2
1 2 4,88 9,76 4,00 23,8205
2 3 9,05 27,16 9,00 81,9687
… … … … … …
53 6 20,76 124,56 36,00 431,0114
54 5 15,78 78,90 25,00 249,0209
55 4 16,90 67,60 16,00 285,6358
56 7 23,40 163,77 49,00 547,3809
57 5 11,25 56,27 25,00 126,6428
58 4 11,87 47,50 16,00 141,0153
59 2 5,10 10,21 4,00 26,0395
60 4 12,77 51,07 16,00 163,0361
61 2 5,05 10,11 4,00 25,5327
62 2 5,31 10,61 4,00 28,1643
total 230 771,78 3373,92 1086,00 11554,9652
3- ESTIMACIÓN DEL MODELO DE REGRESIÓN

CÁLCULOS NECESARIOS: 5 totales

orden X= Y= XY X^2 Y^2


tam. basura
hogar kg

X Y  XY X 2
Y
2

total 230 771,78 3373,92 1086 11554,96


3- ESTIMACIÓN DEL MODELO DE REGRESIÓN

CÁLCULOS NECESARIOS: 5 totales para calcular las sumas


de cuadrados de X y de Y y la suma de productos
cruzados de X e Y

SCx   (x  x)   x  nx
2 2 2

SCy   (y  y)   y  ny
2 2 2

SPxy   (x  x)(y  y)   xy  nx y
3- ESTIMACIÓN DEL MODELO DE REGRESIÓN

X
 x 230
  3, 71 Y
 y 771, 78
  12 , 448
n 62 n 62

SCx   x  nx  1086  62 .3, 71  232, 77


2 2 2

SCx  232, 77
SCy   y 2  ny 2  11551, 9652  62.12, 4482  1944, 88
SCy  1944, 88
SPxy   xy  nx y  3373, 92  62.3, 71. 12, 448  510, 86
SPxy  510, 86
3- ESTIMACIÓN DEL MODELO DE REGRESIÓN

CÁLCULOS NECESARIOS: las sumas de cuadrados de X y de Y y la


suma de productos cruzados de X e Y para estimar b1 y b0, en ese
orden y la recta de regresión muestral

b1 
SPxy

 (x  x)(y  y)   xy  nx y
SCx  (x  x) 2
 x  nx 2 2

b0  y  b1 x

Ŷ  bo  b1 X
3- ESTIMACIÓN DEL MODELO DE REGRESIÓN

CÁLCULOS NECESARIOS: las sumas de cuadrados de X y de Y y la


suma de productos cruzados de X e Y para estimar b1 y b0, en ese
orden y la recta de regresión muestral

SPxy 510, 86
b1    2 , 19
SCx 232, 77

b 0  y  b 1 x  12, 448  2, 16 .3, 71  4, 32

ˆ b b X Y
Y ˆ  4, 32  2, 19 X
o 1
3- ESTIMACIÓN DEL MODELO DE REGRESIÓN

INTERPRETACIÓN

CUANDO EL TAMAÑO DEL HOGAR AUMENTA


b 1  2 , 19 EN UNA UNIDAD, LA CANTIDAD DE BASURA
AUMENTA 2,19 KG, EN PROMEDIO.

CUANDO EL TAMAÑO DEL HOGAR ES CERO


b 0  4, 32 LA CANTIDAD DE BASURA ES DE 4,32 KG
(No es muy lógico en este problema)
3- ESTIMACIÓN DEL MODELO DE REGRESIÓN

Ŷ(x 0 )  bo  b 1 x 0

ESTIMACIÓN PUNTUAL DE LA CANTIDAD DE BASURA SI EL INDICE


DEL TAMAÑO DEL HOGAR ES 9

Ŷ(9)  4, 32  2, 19(9)  24, 03kg


SI EL TAMAÑO DEL HOGAR TIENE UN ÍNDICE DE 9 LA CANTIDAD
TOTAL DE BASURA QUE PRODUCE ES, EN PROMEDIO DE 24,03 KG.
4- CÁLCULO DE LA VARIANZA RESIDUAL

SCY  b SC X 1944, 88  2 , 19 232 , 77


2 2
S 
2 1
  13, 8
e
n2 62  2

S  13, 8
2
e

ES NECESARIO SU CÁLCULO PARA HACER


INFERENCIAS CON RESPECTO A LOS PARÁMETROS
5- MEDIDA DE LA BONDAD DEL AJUSTE

2 2
b SC X 2 , 19 232 , 77
R 
2 1
  0, 57
SCY 1944, 88

R  0, 57
2

EL 57% DE LA VARIACIÓN EN LA CANTIDAD DE BASURA SE


EXPLICA POR LA VARIACIÓN EN EL TAMAÑO DEL HOGAR
6- INTERVALO DE CONFIANZA PARA 1

ˆ
b 1  t(n 2 );( 1 2 ) V(b 1)

Se2 13, 8
V̂(b 1 )    0, 0593 V̂(b 1 )  0, 0593  0, 2435
SCx 232 , 77
t(n  2 );( 1 2 )  t ( 60;0 ,975 )  2 SE TOMÓ t CON 61 gl PORQUE 60 gl
NO FIGURA EN TABLA
2 , 19  2 0, 2435
1, 703   1  2 , 677

CON UNA CONFIANZA DEL 95%, CUANDO EL ÍNDICE DEL TAMAÑO


DEL HOGAR AUMENTA EN UNA UNIDAD, LA CANTIDAD DE
BASURA AUMENTARÍA ENTRE 1,703 Y 2,677 KG. MENSUALES
7- INTERVALO DE CONFIANZA PARA 0

ˆ
b0  t(n 2 );( 1 2 ) V(b 0)

 1 x2   1 3, 712 
V̂(b 0 )  S  
2
  13, 8     1, 0386
 62 232, 77 
e
 n SCx 

V̂(b 0 )  1, 0386  1, 019 t(n 2 );( 1 2 )  t ( 60;0 ,975 )  2

4, 32  2 1, 019
2 , 282   0  6, 358
CON UNA CONFIANZA DEL 95%, CUANDO EL ÍNDICE DEL TAMAÑO
DEL HOGAR ES NULO, LA CANTIDAD DE BASURA ESTARÍA ENTRE
2,282 Y 6,358 KG. MENSUALES
8- INTERVALO DE CONFIANZA PARA UNA PREDICCIÓN E[Ŷ(X0 )]
ˆ
Y(x )  t ˆ  Y(x
V ˆ ) 
0 (n  2 );( 1 2 )  0 
ˆ  Y(x
ˆ  1 (x  x) 2
  1 (9  3, 71)2 
V  9 )   S 1  0
2
  13, 8  1     15, 6816
 0  e
62 232, 77 
 n SCx  
Ŷ(9)  4, 32  2, 19(9)  24, 03 ˆ  Y(x
ˆ 
V  0  9)  15, 6816  3, 96

t(n 2 );( 1 2 )  t ( 60;0 ,975 )  2

24, 03  2 3, 96

16, 11  E Y(x 0  9)  31, 95


CON UNA CONFIANZA DEL 95%, CUANDO EL ÍNDICE DEL TAMAÑO
DEL HOGAR ES 9, LA CANTIDAD DE BASURA ESTARÍA ENTRE 16,11
Y 31,95 KG. MENSUALES
9- PRUEBA DE HIPÓTESIS PARA EL COEFICIENTE DE REGRESIÓN
H 0 :  1  0  regresión no significativa
H 1 :  1  0  regresión significativa
  0, 05

b1  1
t (n  2 )
V̂(b 1 )

2 , 19
si t C  2  se rechaza H 0 tc   8, 99  2  rechaza H 0
0, 2435

El coeficiente de regresión es significativo, hay una variación


significativa en la cantidad total de basura ante un aumento
en un punto del índice del tamaño del hogar

También podría gustarte