Regresion y Correlacion 2015 PDF

1
REGRESION Y CORRELACION LINEAL

Prof.: Sergio Moscoso Cerda
1.0 Regresin Lineal Simple
Es establecer relaciones que posibiliten predecir una o ms variables en
trminos de otras, es un objetivo en muchas investigaciones estadsticas. Por
ejemplo establecer el peso de una persona que a seguido una dieta durante un
determinado tiempo.
Aunque, por supuesto, es deseable predecir una cantidad exactamente en
trminos de otras rara vez es posible y en la mayora de los casos tenemos que
conformarnos con predecir promedios o valores esperados.
A menudo en la prctica se encuentra que existe una relacin entre dos o ms
variables y, lo que se desea es expresar esta relacin en forma matemtica
determinando una ecuacin que conecte las variables.
Un primer paso es recolectar la informacin indicando los valores que toma la
variable. Por ejemplo si las variables son el peso y la estatura las
representaremos por x e y respectivamente, entonces en una muestra de n
individuos resultara que tendramos
x1 , x2 ,..., xn
pesos e
y1 , y 2 ,..., y n estaturas, correspondientes a los n individuos.

Al presentar los datos en un diagrama de dispersin es posible encontrar los
siguientes tipos:
a) En el grafico siguiente se observa que los datos se aproximan bien por una
recta por lo que se puede decir que existe una Relacin Lineal
2
b) En este grafico no existe una relacin lineal, es decir, existe una Relacin
no lineal
c) En est grafico no hay ninguna relacin entre las variables
La ecuacin tipo que se sugiere para el diagrama de dispersin (a) es la

ecuacin de la recta que tiene la siguiente forma:
y / x x ei
Donde
es la pendiente,
es el coeficiente de posicin y
ei
es el error
1.1 El Mtodo de los Mnimos Cuadrados

En la prctica hay muchos problemas donde un conjunto de datos pareados
da la indicacin de que la regresin es lineal, donde no conocemos la
distribucin conjunta de las variables aleatorias consideradas, pero no obstante
deseamos estimar los coeficientes de regresin y

. Los problemas de
este tipo suelen manejarse por medio del Mtodo de los Mnimos Cuadrados,
un mtodo de ajuste de curvas sugerido originalmente a principios del siglo XIX
por el matemtico francs Adrien Legendre.
De la figura anterior, para un valor dado de x, por ejemplo x1, habr una
diferencia entre el valor de y1 y el valor correspondiente determinado en la
curva C, denotaremos esta diferencia por d1 y anlogamente,
correspondiendo a los valores
diferencias.
x2 ,..., xn obtenemos d 2 ,..., d n
Una medida de la bondad del ajuste de la curva C al conjunto de datos la

suministra la cantidad (*)
d 21 d 2 2 ... d 2 n Mnimo
1.1.1 Ajuste por mnimos cuadrados Utilizando Matrices
El problema de recoleccin de datos est presente en muchos aspectos de la
actividad humana. En este punto lo que se pretende es poder hacer una
estimacin de una variable dependiente si conocemos el valor de una
variable independiente.
Los datos tienen una naturaleza probabilstica, es decir son deterministas en
el sentido de que si repetimos el experimento encontraramos valores
ligeramente distintos para las variables, pues todas las mediciones estn
sujetas a errores experimentales.
4
Luego se puede aplicar el mtodo de los mnimos cuadrados para obtener la
lnea recta que mejor se ajusta a los datos observados. Esta lnea es la recta
de mnimos cuadrados.
Dados n puntos observados (x1, y1), (x2, y2) , ..., (x n, y n), donde al menos dos
de las x i son distintas.
La recta de los mnimos cuadrados que mejor ajusta los datos es
y b1 x b0 (1)
S los puntos observados (x1, y1), (x2, y2), ...,(xn, yn) estuvieran exactamente
sobre la recta de mnimos cuadrados, tendramos que
yi b1 xi b0 (2)
Como algunos de estos puntos no estn sobre la recta, tenemos:
yi b1 xi b0 di i 1, 2,
Donde d es la distancia del punto (xi,
, n (3)
yi) a la recta de ajuste de mnimos
cuadrados, la cantidad di puede ser positiva, negativa o cero.

De la figura anterior tenemos:
y1
x1 1
d1
y
x 1
d
b1
2
2
, x
2
b , A=
y
d

y
x
1
n
n
dn
Luego podemos escribir las n ecuaciones en (3) como una sola ecuacin
matricial
b Ax d
Como por lo general el sistema lineal
Ax b
Es inconsistente, se puede determinar una solucin por mnimos cuadrado
Ax b , es decir,
Ax b tiene una nica solucin por mnimos cuadrados, dada por
de
x AT A AT b
1
Entonces, podemos estar seguros de que A x estar lo ms cerca posible

de b
Procedimiento para determinar la recta de ajuste por los mnimos
cuadrados mediante Matrices
El procedimiento para determinar la recta de mnimos cuadrados
y = b1 x + b 0
para los datos
(x1, y1), (x2, y2),..., (x n, y n),
donde al menos dos de las xi son diferentes, es el siguiente:

Paso 1: Sean
y1
x1 1
y
x 1
b1
2
2
b
, A=
, x

b0

y
x
1
n
n
Paso 2: Resolver el sistema normal
AT Ax AT b
Ejemplo 1:
En la fabricacin del producto xxx, la cantidad de compuesto beta presente es
controlada por la cantidad del ingrediente alfa utilizada en el proceso. Al
fabricar un galn, se registra la cantidad de alfa usada y la cantidad beta
presente. Al hacer un muestreo aleatorio de la fabricacin del producto xxx se
obtuvieron los siguientes datos:
: Utilizada
: Presente
3
4.5
4
5.5
5
5.7
6
6.6
7
7.0
8
7.7
9
8.5
10
8.7
11
9.5
12
9.7
La grafica de estos puntos observados es
Determinar
a) Una ecuacin para la recta de mnimos cuadrados asociada a los datos
b) Utilizar la ecuacin obtenida en (a) para predecir el nmero de onzas beta
presente en un galn del producto xxx si se utilizan 3 onzas de alfa por cada
galn
Solucin:
a) Tenemos
4.5
3
5.5
4

5.7
5

6.6

6
7.0
7
b , A
7.7
8
8.5
9

8.7

10
9.5
11

9.7
12
1
1
1
1
b1
,
x
b . Entonces
1
0
1
1
1
645 75
598,6
T
AT A
y
A
b
73, 4
75 10
Al resolver el sistema normal
AT Ax AT b
se tiene que:
b1 0,583
x
b
2,967
0

Entonces b1 0,583 y b0 2,967
Por lo tanto, la ecuacin de la recta de mnimos cuadrados es:
y = 0,583x + 2,967
Donde y es la cantidad de beta presente y x es la cantidad de alfa
utilizada.
b) Si x = 3, entonces, y = 0,583(3) + 2,967 = 4,716
Por lo tanto, habr 4,716 onzas de beta presentes en un galn de xxx
La grafica de los puntos observado y estimados es la siguiente:
1.1.1 Ajuste polinomial por mnimos cuadrados

Este mtodo nos sirve para obtener el ajuste lineal por mnimos cuadrados
para un conjunto dado de puntos observados.
Supongamos n puntos dados (x1, y1), (x2, y2),..., (xn, yn) , donde al menos
m + 1 de los xi son distintos, y que queremos construir un modelo matemtico
de la forma:
y am x m am1 x m1 ... a1 x a0 ; m n 1
Que mejor ajuste los datos observados. Como en el ajuste lineal por mnimos
cuadrados, debido a que algunos de los n puntos observados no estn
exactamente sobre la grafica del polinomio de mnimos cuadrados, tenemos:
yi am x m i am1 x m1i ... a1 xi a0 d i ; i 1, 2,..., n
(4)
Si hacemos
x1m
y1
m
y
x
2
b , A 2

m

yn
xn
m 1
1
m 1
2
x
x
2
1
2
2
x
x
x1
x2
xn m1
xn 2
xn
am
1
d1
a
d
m1
1
y d 2
, x

1
dn
1
a0
Podemos escribir las n ecuaciones en (4) como la ecuacin matricial
b Ax d
Una solucin para
x del sistema normal es:

AT Ax AT b
Es una solucin por mnimos cuadrados de

Con esta solucin se garantiza que
Ax b
d b Ax
se minimiza.
Procedimiento para determinar el polinomio por mnimos cuadrados

Si
y am xm am1 xm1 ... a1 x a0 ; m n 1

Es la ecuacin que mejor ajusta a los datos observados
(x1, y1), (x2, y2),..., (xn, yn) donde m n 1 y al menos m + 1 de los xi
El procedimiento es el siguiente
10
Paso 1: Formamos
x1m
y1
m
y
x
2
b , A 2

m

y
n

xn
m 1
1
m 1
2
x
x
2
1
2
2
x
x
x1
x2
xn m1
xn 2
xn
am
1
a
m1
1
, x
1
1
a0
Paso 2: Resolvemos el sistema normal
AT Ax AT b
Ejemplo 2:
Los siguientes datos muestran los contaminantes atmosfricos yi (con
respecto de cierta norma de calidad del aire) en intervalos de media hora t i
ti
yi
1
-0.15
1.5
0.24
2
0.68
2.5
1.04
3
1.21
3.5
1.15
4
0.86
La grafica de estos datos es:
La grafica sugiere un polinomio cuadrtico de la siguiente forma:
4.5
0.41
5
-0.08
11
y a2t a1t a0
2
Ahora hacemos
12
1
2.25
6.25
A 9
12.25
16
20.25
25
1
1.5
2
2.5
3
3.5
4
4.5
5
1
0.15
0.24
1
0.68
1
1
1.04
a2
1 , x a1 , b 1.21
a0
1
1.15
0.86
1
1
0.41
0.08
1
Por lo que el sistema normal es:

1583.25 378 96 a2 54.65
378
96 27 a1 16.71
96
27 9 a0 5.36
Al resolverse se tiene que:
-0.3274
x 2.0067
-1.9317
De modo que obtenemos el modelo polinomial cuadrtico
y 0.3274t 2 +2.0067t 1.9317
La grafica del modelo es:
13
1.2 Ajuste por los mnimos cuadrados utilizando las ecuaciones normales
1.2.1 Ajuste de y sobre x
S la ecuacin de la recta de ajuste es
y x
Donde las constantes y se determinan solucionando el siguiente sistema
de ecuaciones, tambin llamado sistema de ecuaciones normales
n
i 1
i 1
1) yi n xi
n
i 1
i 1
i 1
2) xi yi xi x 2i
Al resolver este sistema se obtiene la estimacin de los mnimos cuadrados de:
14
La pendiente
de la recta de ajuste de y sobre x es:
n
nn n
n xi yi xi yi
i 1 i 1
a) i 1
2
n 2 n
n x i xi
i 1
i 1
De otra manera
b)
x y nx y
i 1
n
2
2
x
n
(
x
)
i
i 1
Coeficiente de posicin de la recta de regresin de y sobre x

Al resolver el sistema formado por las ecuaciones normales del punto 1.2.1
encontramos el valor del coeficiente de posicin
i 1
i 1
yi xi
n
Al dividir la ecuacin normal (1) por n, tambin, se puede obtener el valor

de la siguiente manera
y x
15
La recta de regresin de x sobre y se pude determinar de la siguiente forma.
Si x = c +d y de donde c es el coeficiente de posicin y d es la pendiente.
Luego
n n 2 n n
xi y i y i xi y i
i 1 i 1
c i 1 i 1
2
n
n
2
n y y i
i 1
i 1
n n
n xi y i xi y i
i 1 i 1
d i 1
2
n
n
n y 2 i y i
i 1
i 1
n
Recta de mnimos cuadrados en trminos de varianzas y covarianzas

muestrales
Las varianzas muestrales de x e y estn dadas por:
Varianza de x
x
n
S 2x
i 1
n2
Varianza de y
y
n
S2y
i 1
n2
16
Covarianza de xy
x
n
S 2 xy
i 1
x yi y
n2
La Covarianza indica como varan dos variables en forma conjunta

La recta de regresin de y sobre x en funcin de varianzas y covarianzas es
S 2 xy
y y 2 x x
S x
La recta de regresin de x sobre y en funcin de varianzas y covarianzas es:
S 2 xy
x x 2 ( y y)
S y
Ejemplo 3
Supongamos que estamos interesados en determinar una recta de regresin
que nos permita conocer la nota (y) obtenida por un estudiante s sabemos
cuantas horas estudi(x) para la prueba. Al hacer una encuesta se obtuvieron
los siguientes datos
Tabla 1.0
Estudt
.
1
2
3
4
5
6
7
8
5
6
6
7
8
9
10
10
61
3
3
4
5
4
6
6
5
36
X2
25
36
36
49
64
81
100
100
491
Y2
9
9
16
25
16
36
36
25
172
X*Y
15
18
24
35
32
54
60
50
288
Del ejemplo 3 se obtiene lo siguiente:
xi x
yi y
(a)
(b)
-2,625
-1,625
-1,625
-0,.625
0,375
1,375
2,375
2,375
-1,5
-1,5
-0,5
0,5
-0,5
1,5
1,5
0,5
6,8906
2,6406
2,6406
0,3906
0,1406
1,8906
5,6406
5,6406
( yi y) 2
a*b
2,25
2,25
0,25
0,25
0,25
2,25
2,25
0,25
3,9375
2,4375
0,8125
-0,3125
-0,1875
2,0625
3,5625
1,1875
17
n = 8; x = 61; y = 36; x2 = 491;
172 ;
xy 288 ; x 7,625 ;
y 4,5
Luego reemplazando en:

i) Se tiene que la pendiente es:
8 288 61 36
0,5217
8 491 612
ii) Se tiene que el coeficiente de posicin es:
36 0,5217 61
0,5220
8
Por lo tanto, la ecuacin de la recta de regresin de y sobre x es
y 0,522 0,522 x
Del ejemplo 3 calculemos la varianza de x. Para ello podemos utilizar la tabla
1.0, por lo tanto, se obtiene
S 2x
25,8750
4,3125
82
De manera anloga se pueden calcular la varianza de y y la Covarianza

Tambin, podramos calcular la recta de regresin de y sobre x utilizando la
varianza de x y la Covarianza por lo se tiene lo siguiente
y 4,5
13,50
x 7,625
25,8750
Al despejar la variable independiente y se tiene:
y = 0,5220 + 0,5217 x
18
Lo que comprueba que la recta de regresin es la obtenida anteriormente.
Supongamos que en ejemplo 3 lo que queremos estimar son las horas de
estudio, es decir, x , entonces:
x 7,625
13,50
( y 4,5)
10
Al despejar la variable dependiente x se tiene
x 1,55 1,35 y
Con la recta de regresin se puede hacer una estimacin de la variable
dependiente siempre y cuando el valor de la variable independiente se
encuentre en su recorrido y esta recta sea un buen estimador de la
relacin entre x e y.
Esta idea queda representada en los siguientes grficos.
Supongamos que un estudiante obtuvo en la prueba un 5,5. Cuntas horas

estudi?
Para dar respuesta a esta pregunta utilizaremos la recta de regresin de x
sobre y, de modo que al sustituir en x 1,55 1,35 y se obtiene lo siguiente:
x 1,55 1,35 5,5 8,975

Es decir, a este estudiante se le estima que estudi 8,975 horas
2.0 Residuales
19
Tomemos al estudiante n 1 del ej. 1.0 y estimemos su nota utilizando la recta
de regresin de y sobre x
Luego, utilizando la recta de regresin y 0,522 0,522 x y sustituyendo x
por 5 se obtiene lo siguiente:
y 0,522 0,522 5 3,1320

Es decir, a este estudiante se le estima que obtuvo un 3,1320 y, si este valor lo
comparamos con la nota que realmente tiene nos damos cuenta que ha y una
diferencia de 0,1320 horas, a este tipo de diferencia la llamaremos Residual
y al que definiremos de la siguiente manera:
e yi y
Los residuales se deben calcular para cada uno de los valores observados de
la variable dependiente.
Ejemplo. Calcular los residuales del ejemplo 3
0,522 0,522 x y sustituyendo x para todo valor de

Solucin: Como y
x se tiene como resultado la columna e en la tabla 2.0
Tabla 2.0
Estudiante
X
1
2
3
4
5
6
7
8
5
6
6
7
8
9
10
10
= 61
yi y 2 e 2
y 2i
-0,1320
-0,6540
0,3460
0,8240
-0,6980
0,7800
0,2580
-0,7420
0,0174
0,4277
0,1197
0,6790
0,4872
0,6084
0,0666
0,5506
9
9
16
25
16
36
36
25
3
3
4
5
4
6
6
5
= 36
= -0.018
= 2.9566
= 172
2.1 Error estndar de la estimacin

El error estndar de la estimacin mide la variabilidad o dispersin de los
valores observados alrededor de la lnea de regresin
El error estndar se le define como:
Sy/ x
y y
i 1
n2
20
Por ejemplo si calculamos el error estndar del ejemplo 3, para lo cual
utilizaremos los clculos hechos en la tabla 2.0 se tiene:
Sy/ x
2,9566
0, 7020
82
Por lo tanto, cuando el error de la estimacin sea un valor que ms se

aproxime a cero nos indicar que la recta de regresin es una buena recta
de ajuste de los datos, y podr utilizarse dicha recta para hacer estimaciones
Una interpretacin grafica del error estndar de la estimacin es la siguiente:
Cuando mayor sea el error estndar de la estimacin, ms grande ser la

dispersin de puntos alrededor de la lnea de regresin. Por el contrario, si
Se = 0, esperamos que la ecuacin de estimacin sea un estimador perfecto
de la variable dependiente. En ese caso todos los puntos de datos deben
dispersarse alrededor de la lnea de regresin.
Suponiendo que los puntos observados estn normalmente distribuidos
alrededor de la lnea de regresin, cabe esperar encontrar el 68% de ellos
dentro de 1 Se, 95.5% de los puntos dentro de 2S e y 99.7 % de los punto
dentro de 3S e . Otra cosa que hemos de observar es que el error estndar de
la estimacin se mide a lo largo del eje Y, y no perpendicular a la lnea de
regresin
El error estndar de la estimacin se puede calcular en forma abreviada
de la siguiente manera
21
i 1
i 1
y i yi xi yi
2
Sy/ x
Ec.2.3
i 1
n2
Ejemplo: Calculemos el S y/x del ejemplo 3.Como
y 0,522 0,522 x y de las tablas 1.0 y 2.0 tenemos que

n
i 1
172
x y
i 1
y
i 1
288
36
Luego, se tiene
Sy/ x
172 0,522 36 0,522 288

0, 6919
82
Este es un valor que se aproxima mucho al calculado anteriormente (0,7020)
3.0 Correlacin
La correlacin describe el grado de relacin que hay entre dos variables
Existen dos medidas para describir la correlacin entre dos variables.
a) El Coeficiente de Determinacin
b) El Coeficiente de Correlacin
3.1 El Coeficiente de Determinacin o Coeficiente Muestral de
Determinacin
Este coeficiente se denotar por r2 y se le define por:
22
r2 1
(y
y ) 2
(y
y) 2
i 1
n
i 1
Interpretacin de r2
4 x Luego la recta pasa por el origen, dado que el coeficiente de

b1) Sea y
posicin es cero.
Al hacer una tabla de valores se tiene lo siguiente:
X
Y
1
4
2
8
3
12
4
16
5
20
6
24
7
28
Luego, se tiene
y 18
Al graficar la tabla anterior se tiene
De donde al reemplazar
i) y por 4, 8, 12, 16, 20, 24, 28, 32, respectivamente se tiene que
8
32
23
n
(y
i 1
y ) 2 0 . Puesto que todos los valores de y i se encuentran en la
lnea de regresin, la diferencia entre los valores de y i y

los casos.
y es cero en todos
ii) y por 18 se tiene que:

n
(y
i 1
y ) 2 672
Luego, se tiene
r2 1
0
1
672
Por lo tanto, cuando el Coeficiente de Determinacin es 1 nos indica que

la relacin entre las variables es perfecta.
2) Supongamos, ahora, la siguiente tabla de valores para la variables x e y
X
Y
1
6
1
12
3
6
3
12
5
6
De donde la media y es 9, el grafico de esta tabla es:
y 9
y9
5
12
7
6
7
12
24
Los puntos pueden encontrarse a igual distancia en ambos lados de una lnea
horizontal de regresin, de modo que
(y
i 1
i 1
y ) 2 72
y ) 2 72
(y
pasan por 9, se tiene que:
Luego, se tiene que:
r2 1
72
0
72
Por lo tanto, si el Coeficiente de Determinacin es igual a cero nos

indicar que no hay relacin entre las variables.
3.1.1 Clculo abreviado del Coeficiente de Determinacin: r2
Una forma corta de calcular el Coeficiente de Determinacin esta dado por:
r
2
yi xi yi n( y )2
n( y ) 2
3.2 Coeficiente de Correlacin: r

El coeficiente de correlacin es otra medida con que puede describirse la
eficacia con que una variable es explicada por otra. Se le define como
r r2
Observaciones:
i)
Cuando la pendiente de la lnea de regresin es positiva, entonces r

es la raz cuadrada positiva
ii)
Si la pendiente de la lnea de regresin es negativa, entonces r es la

raz cuadrada negativa
iii)
La relacin entre las variables puede ser:
25
a) Relacin dbil s r 0,50
b) Relacin moderada s 0,50 < r < 0,80
c) Relacin fuerte s 0,80 r 1
3.2.1 El mtodo de la Covarianza

Esta es otra medida que puede utilizarse para expresar la relacin entre dos
variables.
La Covarianza mide la medida en la que dos variables varan en forma
conjunta.
Un signo positivo indica una relacin directa, en tanto que un signo
negativo indica una relacin inversa
La Covarianza se la denotar por cov (x, y) y se la define por:
Cov( x, y )
x x y y
i
n 1
Esta Covarianza es para covarianzas muestrales
El coeficiente de correlacin en funcin de la Covarianza se define como:
cov( x, y )
Sx S y
El error de x se define como
Sx
2
i
n( x ) 2
n 1
El error de y se define como
Sy
2
i
n( y ) 2
n 1
26
Ejemplo: Del ejemplo 3 y de las tablas 1.0 y 2.0 se tiene:
y 2,9566
2
( y
y) 2 10
Luego
r2 1
2,9566
0,7043
10
De modo que el coeficiente de correlacin es
r 0,7043 0,8392
Lo que nos indica que la relacin entre las variables es buena, en general,
diremos que habr una muy buena relacin directa entre las variables s el
coeficiente de correlacin se aproxima a 1 y, diremos que la relacin es muy
buena e inversa si el coeficiente de correlacin reaproxima a -1
Utilizando los datos de las tablas 1.0 y 2.0 calculamos el coeficiente de
determinacin en forma abreviada se tiene
0,522 36 0,522 288 8 4,52

r
0, 7128
172 8 4,52
2
Utilizando los valores de la tabla 1.0 y 2.0 y calcular la Covarianza se tiene
Cov
13,50
1,9286
8 1
Este valor indica la forma en que las dos variables varan en forma
conjunta
Al sustituir los valores de las tablas 1.0 y 2.0 y calcular el error de x se tiene
27
491 8 7, 6252
Sx
1,9226 .
8 1
Al valor anterior corresponde al error de las horas de estudio
Sustituyen los valores de las tablas 1.0 y 2.0 y calcular el error de y se tiene
172 8 4.52
Sy
1,1952 .
8 1
Al valor anterior corresponde al error de las notas
Luego el coeficiente de correlacin en funcin de la Covarianza y los errores de
las variables se obtiene al sustituir la Cov (x, y), S x y S y obtenindose
1,1986
0,8393
(1,1926) (1,1952)
4.0 Regresin lineal Mltiple

4.1 Recta de ajuste Mltiple mediante el uso de las ecuaciones normales
El anlisis de regresin mltiple se usa para probar hiptesis acerca de la
relacin entre una variable dependiente y, dos o ms variables independientes.
El modelo de regresin lineal de tres variables se puede escribir como
y b0 b1 X 1i b2 X 2i ui
Se supone que no hay relacin lineal exacta entre las variables
independientes
Se pueden obtener estimaciones de mnimos cuadrados minimizando la suma
del cuadrado de los residuos
2
Yi y
Esto genera tres ecuaciones normales
28
Y nb b X b X
X Y b X b X b X X
X Y b X b X X b X
i
2
1
2
2
2
Al resolver este sistema para b1 y b2 se tiene:
X Y X X Y X
X X X X
X Y X X Y X
X X X X
b1
b0 Y b1 X 1 b2 X 2
X2
Pendiente para X2
Pendiente para X1
X2
b2
Coeficiente de posicin
El estimador b1 mide el cambio en Y por variaciones unitarias de X1 mientras

se mantiene constante X2, b2 se define anlogamente. Los estimadores
b1 y
b2 se llaman coeficientes de regresin parcial

Ejemplo 4:
Los datos de la siguiente tabla corresponden al rendimiento del maz en
quintales por hectrea (Y), resultante del uso de varias cantidades de
fertilizante (X1) e insecticidas (X2), ambos en kilos por hectrea
Ao
X1
X2
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
40
44
46
48
52
58
60
68
74
80
570
6
10
12
14
16
18
22
24
26
32
180
4
4
5
7
9
12
14
20
21
24
120
Donde:
y- y
a
-17
-13
-11
-9
-5
1
3
11
17
23
0
X1 X 1
X2 X 2
b
-12
-8
-6
-4
-2
0
4
6
8
14
0
c
-8
-8
-7
-5
-3
0
2
8
9
12
0
a*b
a*c
b*c
204
104
66
36
10
0
12
66
136
322
956
136
104
77
45
15
0
6
88
153
276
900
96 144 64
64 64 64
42 36 49
20 16 25
6
4
9
0
0
0
8
16
4
48 36 64
72 64 81
168 196 144
524 576 504
29
Y 57; X 1 18; X 2 12
b1
(956)(504) (900)(524)
0,65
(576)(504) (524) 2
b2
(900)(576) (956)(524)
1,11
(576)(504) (524) 2
b0 = 57- (0,65)(18)-(1,11)(12) = 31,98

Por lo tanto la recta de regresin es:
Y = 31,98 + 0,65X1 + 1,11X2

4.2 Recta de ajuste Mltiple mediante el uso de matrices
Dados n puntos observados (x1, z1, y1), (x2, z2, y2) , ..., (x n, zn, y n), donde al
menos dos de las x i son distintas. La recta de los mnimos cuadrados que
mejor ajusta los datos es
y b0 b1 X 1i b2 X 2i ui
S los puntos observados (x1, z1, y1), (x2, z2, y2) , ..., (x n, zn, y n) (x1, y1)
estuvieran exactamente sobre la recta de mnimos cuadrados, tendramos que
yi = b1xi +b2zi + b0 + di
Donde d es la distancia del punto (xi, zi, yi) a la recta de ajuste de mnimos
cuadrados, la cantidad di puede ser positiva, negativa o cero.
De la figura anterior tenemos:
y1
x1
y
x
2
b , A= 2

y
n
xn
z1
z2
zn
1
bi
d1
b
d
1
i
1
, x y d 2

1
b
0
dn
30
Luego podemos escribir las n ecuaciones como una sola ecuacin matricial
b=Ax+d
Como por lo general el sistema lineal A x = b es inconsistente, se puede
determinar una solucin por mnimos cuadrado

de A x = b, es decir,
A x = b tiene una nica solucin por mnimos cuadrados, dada por
x AT A AT b
1
Entonces podemos estar seguros de que A x estar lo ms cerca posible de b

Procedimiento para determinar la recta de ajuste por los mnimos
cuadrados mediante Matrices
El procedimiento para determinar la recta de mnimos cuadrados para los
datos (x1, y1), (x2, y2),..., (xn, yn), donde al menos dos de las xi son diferentes,
es el siguiente:
Paso 1: Sean
y1
x1
y
x
b 2 , A= 2

y
n
xn
z1
z2
zn
Paso 2: Resolver el sistema normal
AT A x = AT b
x A A
T
Ejemplo 6: del ejemplo 4 se tiene:
A b
T
1
bi
b
1
, x i 1

1
b0
31
40
6 4 1
44
10 4 1

46
12 5 1

48
14
7
1

52
16 9 1
b A
58
18
12
1

60
22 14 1

68
24 20 1
74
26 21 1

80
32 24 1
T
Y luego al sustituir en y A A
AT b y, despus resolver se tiene:
0, 6501
y 1,1099
31,9807
Por lo tanto el modelo es:
y 31,9807 0,6501x1 1,1099 x2

Lo que es coincidente con el resultado del mtodo anterior
4.3 El coeficiente de determinacin mltiple

El coeficiente de determinacin mltiple, r2, se define como la proporcin de la
variacin total en Y explicada por la regresin mltiple de Y sobre X1 y X2, y se
puede calcular por
32
r2 1
Y
i
Tambin se puede calcular r2 como
r2
Donde
b1 yx1 b2 yx 2
y Yi Y
Ejemplo 5:
Calcular el coeficiente de determinacin para el ejemplo anterior
Como Y = 31,98 + 0,65X1 + 1.11X2 es la recta de regresin de los datos,
entonces
Ao
1990
1991
1993
1994
1995
1996
1997
1998
1999
2000
Y
40
44
46
48
52
58
60
68
74
80
X1
6
10
12
14
16
18
22
24
26
32
X2
4
4
5
7
9
12
14
20
21
24
Y
40.32
42.92
45.93
48.85
52.37
57.00
61.82
69.78
72.19
79.42
e
-0.32
1.08
0.67
-0.85
-0.37
1.00
-1.82
-1.78
1.81
0.58
e 0
e2
0.1024
1.1664
0.4489
0.7225
0.1369
1.0000
3.3124
3.1684
3.2761
0.3364
e 2 13.6704
y2
289
169
121
81
25
1
9
121
289
529
y 2 1634
Luego se tiene que:
r2 1
13.6704
0,9916
1634
4.4 Colinealidad
Al hablar de la estimacin de los coeficientes, si en un modelo de regresin
lineal mltiple (RLM) alguna variable independiente es combinacin lineal de
otras, el modelo es irresoluble, debido a que en ese caso, la matriz XX es
singular, es decir, su determinante es cero y no se puede invertir.
33
A este fenmeno se le llama Colinealidad.

Que una variable X1 sea combinacin lineal de otra X2, significa que ambas
estn relacionadas por la expresin X1= 1 + X2, siendo yconstantes,
por lo tanto el coeficiente de correlacin entre ambas variables ser 1.
En la prctica, esta Colinealidad exacta raras veces ocurre, pero si ocurre con
cierta frecuencia la llamada Casi-Colinealidad, o por extensin, simplemente
Colinealidad en que alguna variable es casi combinacin lineal de otra u
otras, o dicho de otro modo, algunos coeficientes de correlacin simple o
mltiple entre variables independientes estn cercanos a 1, aunque no llegan a
dicho valor.
Adems, como la matriz de varianzas de los estimadores es proporcional a la
matriz XX, resulta que en presencia de Colinealidad los errores estndar de los
coeficientes son grandes (hay imprecisin en el sentido estadstico).
Por consiguiente, a la hora de plantear modelos de RLM conviene estudiar
previamente la existencia de casi-Colinealidad. Como medida de la misma hay
varios estadsticos propuestos, los ms sencillos son los coeficientes de
determinacin de cada variable independiente con todas las dems, es decir
R2i R2 X i / X1,..., X i1, X i1,..., X k i 1,..., k

Y, relacionado con ellos, el factor de inflacin de la varianza (FIV) y la
tolerancia (T) definidos como:
FIVi
1
1 R 2i
1
1 R 2i
FIVi
Una regla emprica, citada por Kleinbaum, consiste en considerar que

existen problemas de colinealidad si algn FIV es superior a 10, que
corresponde a algn R2i = 0,9 y Ti 0,1
Aunque puede existir colinealidad con FIV bajos, adems puede haber
colinealidades que no impliquen a todas las variables independientes y que, por
tanto, no son detectadas por el FIV.
Otra manera, ms completa, de detectar colinealidad es realizar un anlisis de
componentes principales de las variables independientes. Esta tcnica es
matemticamente compleja. Un resumen de ella es:
34
Se denominan componentes principales de un conjunto de variables a otras
variables, combinacin lineal de las originales, y que tienen tres propiedades
caractersticas:
i)
son mutuamente independientes (no estn relacionadas entre s
ii)
mantienen la misma informacin que las variables originales
iii)
tienen la mxima varianza posible con las limitaciones anteriores
Para modelos predictivos los componentes principales son las variables

independientes ideales.
La varianza de cada componente principal es un autovalor (nmero asociado a
una matriz) de la matriz de varianzas-covarianzas de las variables originales.
El nmero de autovalores nulos indica el nmero de variables que son
combinacin lineal de otras (el nmero de colineales exactas) y autovalores
prximos a cero indican problemas graves de colinealidad.
El clculo de autovalores permite determinar no slo la existencia de
colinealidad, sino tambin el nmero de colinealidades.
Para determinar cuando un autovalor pequeo est suficientemente prximo a
cero se usa su valor relativo con respecto al mayor, en este sentido, para cada
autovalor se define el ndice de condicin como la raz cuadrada del cociente
entre el mayor de ellos y dicho autovalor y se denomina nmero de condicin
al mayor de los ndices de condicin.
Para Belsley ndices de condicin entre 5 y 10 estn asociados con una
colinealidad dbil, mientras que ndices de condicin entre 30 y 100
sealan una colinealidad modera a fuerte.
Una vez determinada la presencia y el nmero de colinealidades, es
conveniente averiguar que variables estn implicadas en ellas. Usando ciertas
propiedades de las matrices se puede calcular la proporcin de la varianza de
las variables sobre cada componente.
Belsley propone usar conjuntamente los ndices de condicin y la proporcin
de descomposicin de varianza para realizar el diagnstico de colinealidad,
usando como umbral de proporcin alta 0,50 de modo que dicho diagnstico se
har de la siguiente manera:
i)
ii)
los ndice de condicin altos (mayores que 30) indican el nmero de

colinealidades y la magnitud de los mismos mide su importancia
relativa
si un componente tiene un ndice de condicin mayor que 30 y dos o
ms variables tienen una proporcin de varianza alta en el mismo,
esas variables son colineales.
35
Otras soluciones alternativas pueden ser: Cambios de escala en las variables,
incluyendo el centrado de las mismas (restar a cada variable su media) o,
incluso, eliminar alguna de las variables colineales.
5.0 Coeficiente de correlacin de Spearmann
El coeficiente de correlacin de Spearman (rs) es apropiada cuando una de las
escalas de medicin es ordinal y la otra ordinal o de intervalo / razn.
Si una variable es ordinal y la segunda es de intervalo/ razn se las debe
expresar a las dos segn su rango.
El coeficiente de correlacin de Spearman se define como:
6 x y
rs 1
n(n 2 1)
Donde x e y son rangos

La x y 0 , si esta suma no fuera cero deben comprobarse los rangos
originales y las diferencias subsiguientes
Ejemplo 6: Supongamos que un profesor, llega atener la firme sospecha de que
la inteligencia (x) y la aptitud de mando (y) son variables relacionadas. Ser
verdadera la sospecha del profesor? Para dar respuesta a la pregunta se toma
una muestra de 15 alumnos obtenindose los siguientes datos
Rango x Rango y
1
4
2
2
3
9
4
1
5
7
6
10
7
8
8
13
9
5
10
3
11
11
12
6
13
12
14
15
15
14
xy
-3
0
-6
3
-2
-4
-1
-5
4
7
0
6
1
-1
1
( x y) 0
( x y )2
9
0
36
9
4
16
1
25
16
49
0
36
1
1
1
2
x y 206
36
Luego
rs 1
6 206
0, 63214
2
15(15 1)
Por lo tanto, la sospecha del profesor es verdadera, dado que, las dos variables
estn relacionadas.
Cuando se convierten calificaciones en rangos puede ocurrir que dos o ms
calificaciones tengan el mismo rango (empate). En este caso, se asigna a cada
uno de los rangos empatados la media de dichos rangos. La calificacin
siguiente en la ordenacin recibe el rango que le corresponde
Ejemplo: Supongamos los siguientes datos:
Calificaciones
Rangos
Rangos
(empates)
128
1
1
122
2
2
115
3
345
4
3
115
4
345
4
3
115
5
345
4
3
107
6
6
103
7
7
Cuando se producen empates en una de las variables x e y, o en ambas, el

coeficiente de correlacin de Spearman exagera el valor de dicho coeficiente,
particularmente cuando el nmero de empates es grande.
En caso de empates debera aplicarse el coeficiente de correlacin de Pearson
a los datos ordenados por rangos.

Regresion y Correlacion 2015 PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Regresion y Correlacion 2015 PDF

Cargado por

Copyright:

Formatos disponibles

1

REGRESION Y CORRELACION LINEAL

y1 , y 2 ,..., y n estaturas, correspondientes a los n individuos.

c) En est grafico no hay ninguna relacin entre las variables

La ecuacin tipo que se sugiere para el diagrama de dispersin (a) es la

1.1 El Mtodo de los Mnimos Cuadrados

deseamos estimar los coeficientes de regresin y

x2 ,..., xn obtenemos d 2 ,..., d n

Una medida de la bondad del ajuste de la curva C al conjunto de datos la

yi) a la recta de ajuste de mnimos

cuadrados, la cantidad di puede ser positiva, negativa o cero.

Entonces, podemos estar seguros de que A x estar lo ms cerca posible

para los datos

(x1, y1), (x2, y2),..., (x n, y n),

donde al menos dos de las xi son diferentes, es el siguiente:

La grafica de estos puntos observados es

Al resolver el sistema normal

b) Si x = 3, entonces, y = 0,583(3) + 2,967 = 4,716

Por lo tanto, habr 4,716 onzas de beta presentes en un galn de xxx

La grafica de los puntos observado y estimados es la siguiente:

1.1.1 Ajuste polinomial por mnimos cuadrados

yi am x m i am1 x m1i ... a1 xi a0 d i ; i 1, 2,..., n

Podemos escribir las n ecuaciones en (4) como la ecuacin matricial

x del sistema normal es:

Es una solucin por mnimos cuadrados de

Procedimiento para determinar el polinomio por mnimos cuadrados

y am xm am1 xm1 ... a1 x a0 ; m n 1

Paso 2: Resolvemos el sistema normal

La grafica de estos datos es:

La grafica sugiere un polinomio cuadrtico de la siguiente forma:

Por lo que el sistema normal es:

Al resolver este sistema se obtiene la estimacin de los mnimos cuadrados de:

de la recta de ajuste de y sobre x es:

Coeficiente de posicin de la recta de regresin de y sobre x

Al dividir la ecuacin normal (1) por n, tambin, se puede obtener el valor

Recta de mnimos cuadrados en trminos de varianzas y covarianzas

La Covarianza indica como varan dos variables en forma conjunta

Del ejemplo 3 se obtiene lo siguiente:

Luego reemplazando en:

ii) Se tiene que el coeficiente de posicin es:

Por lo tanto, la ecuacin de la recta de regresin de y sobre x es

De manera anloga se pueden calcular la varianza de y y la Covarianza

Al despejar la variable independiente y se tiene:

Al despejar la variable dependiente x se tiene

Esta idea queda representada en los siguientes grficos.

Supongamos que un estudiante obtuvo en la prueba un 5,5. Cuntas horas

x 1,55 1,35 5,5 8,975

y 0,522 0,522 5 3,1320

0,522 0,522 x y sustituyendo x para todo valor de

2.1 Error estndar de la estimacin

Por lo tanto, cuando el error de la estimacin sea un valor que ms se

Cuando mayor sea el error estndar de la estimacin, ms grande ser la

Ejemplo: Calculemos el S y/x del ejemplo 3.Como

y 0,522 0,522 x y de las tablas 1.0 y 2.0 tenemos que

172 0,522 36 0,522 288

Este es un valor que se aproxima mucho al calculado anteriormente (0,7020)

4 x Luego la recta pasa por el origen, dado que el coeficiente de

y ) 2 0 . Puesto que todos los valores de y i se encuentran en la

lnea de regresin, la diferencia entre los valores de y i y

ii) y por 18 se tiene que:

Por lo tanto, cuando el Coeficiente de Determinacin es 1 nos indica que

De donde la media y es 9, el grafico de esta tabla es:

pasan por 9, se tiene que: