Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Regresionycorrelacion 1218923211263746 8
Regresionycorrelacion 1218923211263746 8
Regresin y Correlacin
por
Lic. Olga Susana Filippini
1
Introduccin
Muchas veces las decisiones se basan en la relacin entre
dos o ms variables.Ejemplos
250
Rendimiento
200
150
Rend.
100
50
0
0 20 40 60 80 100 120 140
Dosis
5
Figura 2
Relacin estadstica entre tamao del lote y
horas hombre
180
160
Horas hombre
140
120
100
80
60
Horas hombre
40
20
0
0 10 20 30 40 50 60 70 80 90
6000
5000
4000
3000
2000
1000
0
0 2 4 6 8 10 12 14 16
9
Coeficiente de correlacin
lineal
El Coeficiente de Correlacin (r)
requiere variables medidas en escala de
intervalos o de proporciones
Vara entre -1 y 1.
Valores de -1 1 indican correlacin perfecta.
Valor igual a 0 indica ausencia de correlacin.
Valores negativos indican una relacin lineal
inversa y valores positivos indican una relacin
lineal directa
10
Correlacin Negativa Perfecta
10
9
8
7
6
Y 5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
X
11
Correlacin Positiva Perfecta
10
9
8
7
6
Y 5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
X
12
Ausencia de Correlacin
10
9
8
7
6
Y 5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
X
13
Correlacin Fuerte y Positiva
10
9
8
7
6
Y 5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
X
14
Frmula para el coeficente de
correlacin (r) Pearson
n(XY) (X)(Y)
r=
[ n(X ) (X) ] [ n( Y ) ( Y)
2 2 2 2
]
15
Modelos de Regresin
16
Modelos de Regresin
17
Representacin grfica del
modelo de Regresin Lineal
19
Supuestos de Regresin Lineal
Clsica
Cada error est normalmente distribuido
con:
Esperanza de los errores igual a 0
Variancia de los errores igual a una constante
2.
Covariancia de los errores nulas para todo
ij
20
Proceso de estimacin de la regresin lineal simple
Modelo de regresin Datos de la muestra
y=0+1x+ x y
x1 y1
Ecuacin de regresin x2 y2
E(y)=0+1x . .
Parmetros desconocidos . .
0.1 . .
xn yn
Ecuacin estimada de
b0 y b1 regresin
y=b0+b1x
proporcionan estimados Estadsticos de la muestra
0 y 1 b0.b1
21
Lneas posibles de regresin en la
regresin lineal simple
Seccin A Seccin B Seccin C
Relacin lineal positiva Relacin lineal negativa No hay relacin
Ey Ey Ey
La pendiente 1
Lnea de regresin * es negativa La pendiente 1
es 0
* La pendiente 1 *
es positiva Lnea de regresin Lnea de regresin
x x x
* Ordenada al origen 0
22
Estimacin de la ecuacin de
Regresin Simple
Y= a + bX, donde:
Y es el valor estimado de Y para distintos X.
a es la interseccin o el valor estimado de Y cuando X=0
b es la pendiente de la lnea, o el cambio promedio de Y
para cada cambio en una unidad de X
el principio de mnimos cuadrados es usado para obtener a
y b:
n( XY ) ( X )( Y )
b
n( X 2 ) ( X ) 2
Y X
a b
n n 23
Mnimos cuadrados - Supuestos
1. El modelo de regresin es lineal en los parmetros.
2. Los valores de X son fijos en muestreo repetido.
3. El valor medio de la perturbacin i es igual a cero.
4. Homocedasticidad o igual variancia de i.
5. No autocorrelacin entre las perturbaciones.
6. La covariancia entre i y Xi es cero.
7. El nmero de observaciones n debe ser mayor que el nmero
de parmetros a estimar.
8. Variabilidad en los valores de X.
9. El modelo de regresin est correctamente especificado.
10. No hay relaciones lineales perfectas entre las explicativas.
24
Estimacin de la variancia de los
trminos del error (2)
Debe ser estimada por varios motivos
Para tener una indicacin de la variabilidad de las
distribuciones de probabilidad de Y.
Para realizar inferencias con respecto a la funcin de
regresin y la prediccin de Y.
La lgica del desarrollo de un estimador de 2 para el
modelo de regresin es la misma que cuando se
muestrea una sola poblacin
La variancia de cada observacin Yi es 2, la misma que
la de cada trmino del error
25
Estimacin de la variancia de los
trminos del error (2)
Dado que los Yi provienen de diferentes distribuciones
de probabilidades con medias diferentes que
dependen del nivel de X, la desviacin de una
observacin Yi debe ser calculada con respecto a su
propia media estimada Yi.
Por tanto, las desviaciones son los residuales
i = e i
Yi - Y
Y la suma de cuadrados es:
n n n
e
) (Y a bX ) e
SC (Y Y i i
2
i 1
2 2
i
i 1 i 1 i 1
26
Estimacin de la variancia de los
trminos del error (2)
La suma de cuadrados del error, tiene n-2 grados de libertad
asociados con ella, ya que se tuvieron que estimar dos
parmetros.
Por lo tanto, las desviaciones al cuadrado dividido por los
grados de libertad, se denomina cuadrados medios
n 2
SC e
CM e
i 1 i
n2 n2
e
27
Anlisis de Variancia en el anlisis
de regresin
El enfoque desde el anlisis de variancia se basa en
la particin de sumas de cuadrados y grados de
libertad asociados con la variable respuesta Y.
La variacin de los Yi se mide convencionalmente
en trminos de las desviaciones
(Y Y )
i i
Podemos descomponerla en
(Y Y )
i i
T Y
R
i
Y (Y
E Y) (Y Y
i
) i i
(T): desviacin total
(R): es la desviacin del valor ajustado por la regresin con
respecto a la media general
(E): es la desviacin de la observacin con respecto a la lnea de
regresin
29
Desarrollo formal de la particin
Si consideremos todas las observaciones y elevamos al cuadrado para que
los desvos no se anulen
Y Y (Y
2 2
SCtot SCreg
i
2
Y) (Y Y
SCer i
) i i
(SCtot): Suma de cuadrados total
(SCreg): Suma de cuadrados de la regresin
(SCer): Suma de cuadrados del error
Dividiendo por los grados de libertad, (n-1), (k) y
(n-2), respectivamente cada suma de cuadrados, se obtienen los
cuadrados medios del anlisis de variancia.
30
Coeficiente de Determinacin
Coeficiente de Determinacin, R2 - es la
proporcin de la variacin total en la
variable dependiente Y que es explicada o
contabilizada por la variacin en la variable
independiente X.
El coeficiente de determinacin es el
cuadrado del coeficiente de correlacin, y
varia entre 0 y 1.
31
Clculo del R2 a travs de la
siguiente frmula
y y)
( 2
R
2 c
(y y)
2
o
32
Inferencia en Regresin
Los supuestos que establecimos sobre los
errores nos permiten hacer inferencia sobre
los parmetros de regresin (prueba de
hiptesis e intervalos de confianza), ya que
los estimadores de 0 y 1 pueden cambiar su
valor si cambia la muestra.
Por lo tanto debemos conocer la distribucin
de los estimadores para poder realizar
prueba de hiptesis e intervalos de confianza
33
Ejemplo
Se desean comparar los rendimientos predichos a partir de la
informacin obtenida por 3 sensores sobre los rendimientos
reales por parcelas de lotes de maz. Los rendimientos (Y) y el
los rindes predichos de 4 sensores se presentan a continuacin
Sensor 1 Sensor 4 Sensor 5 Rendimiento
0,0754 0,3083 0,1212 42,5846
0,0754 0,3083 0,1212 43,8576
0,0742 0,3327 0,1328 44,0082
0,0766 0,3327 0,1251 43,4989
0,0766 0,3297 0,1251 41,3327
0,0730 0,3205 0,1193 41,0313
0,0754 0,3114 0,1193 40,4802
0,0766 0,2901 0,1193 36,6735
0,0754 0,3449 0,1328 43,3535
0,0754 0,3480 0,1193 43,3180
0,0766 0,3480 0,1193 43,3143
0,0766 0,3419 0,1135 41,0042
0,0766 0,2840 0,1135 36,4908
0,0766 0,3053 0,1193 37,5931
0,0754 0,3266 0,1232 40,4556
0,0766 0,2840 0,1135 35,5595
0,0754 0,3358 0,1232 41,6400
0,0742 0,3419 0,1251 43,5951
P R E D _ R e n d im ie n to
45,95
38,41
30,87
23,33
15,79
0,078 0,092 0,107 0,121 0,135
B5
Rendimiento
PRED_Rendimiento
Y = 338.71*X - 4.87
35
R2 = 0.32
P R E D _ R e n d i m i e n to
Ttulo
45,95
38,41
30,87
23,33
15,79
0,22 0,26 0,30 0,34 0,37
B4
Rendimiento
PRED_Rendimiento
Y = 155.37*X 13.25
R2 = 0.57 36
P R E D _ R e n d i m i e n to Ttulo
45,95
38,41
30,87
23,33
15,79
0,071 0,076 0,081 0,087 0,092
B1
Rendimiento
PRED_Rendimiento
Y = -1004.34*X +112.24
R2 = 0.44 37