Documentos de Académico
Documentos de Profesional
Documentos de Cultura
x1 , x2 ,..., xn
pesos e
2
b) En este grafico no existe una relacin lineal, es decir, existe una Relacin
no lineal
y / x x ei
Donde
es la pendiente,
es el coeficiente de posicin y
ei
es el error
De la figura anterior, para un valor dado de x, por ejemplo x1, habr una
diferencia entre el valor de y1 y el valor correspondiente determinado en la
curva C, denotaremos esta diferencia por d1 y anlogamente,
correspondiendo a los valores
diferencias.
d 21 d 2 2 ... d 2 n Mnimo
1.1.1 Ajuste por mnimos cuadrados Utilizando Matrices
El problema de recoleccin de datos est presente en muchos aspectos de la
actividad humana. En este punto lo que se pretende es poder hacer una
estimacin de una variable dependiente si conocemos el valor de una
variable independiente.
Los datos tienen una naturaleza probabilstica, es decir son deterministas en
el sentido de que si repetimos el experimento encontraramos valores
ligeramente distintos para las variables, pues todas las mediciones estn
sujetas a errores experimentales.
4
Luego se puede aplicar el mtodo de los mnimos cuadrados para obtener la
lnea recta que mejor se ajusta a los datos observados. Esta lnea es la recta
de mnimos cuadrados.
Dados n puntos observados (x1, y1), (x2, y2) , ..., (x n, y n), donde al menos dos
de las x i son distintas.
La recta de los mnimos cuadrados que mejor ajusta los datos es
y b1 x b0 (1)
S los puntos observados (x1, y1), (x2, y2), ...,(xn, yn) estuvieran exactamente
sobre la recta de mnimos cuadrados, tendramos que
yi b1 xi b0 (2)
Como algunos de estos puntos no estn sobre la recta, tenemos:
yi b1 xi b0 di i 1, 2,
Donde d es la distancia del punto (xi,
, n (3)
y1
x1 1
d1
y
x 1
d
b1
2
2
, x
2
b , A=
y
d
y
x
1
n
n
dn
Luego podemos escribir las n ecuaciones en (3) como una sola ecuacin
matricial
b Ax d
Como por lo general el sistema lineal
Ax b
Es inconsistente, se puede determinar una solucin por mnimos cuadrado
Ax b , es decir,
Ax b tiene una nica solucin por mnimos cuadrados, dada por
de
x AT A AT b
1
y = b1 x + b 0
y1
x1 1
y
x 1
b1
2
2
b
, A=
, x
b0
y
x
1
n
n
Paso 2: Resolver el sistema normal
AT Ax AT b
Ejemplo 1:
En la fabricacin del producto xxx, la cantidad de compuesto beta presente es
controlada por la cantidad del ingrediente alfa utilizada en el proceso. Al
fabricar un galn, se registra la cantidad de alfa usada y la cantidad beta
presente. Al hacer un muestreo aleatorio de la fabricacin del producto xxx se
obtuvieron los siguientes datos:
: Utilizada
: Presente
3
4.5
4
5.5
5
5.7
6
6.6
7
7.0
8
7.7
9
8.5
10
8.7
11
9.5
12
9.7
Determinar
a) Una ecuacin para la recta de mnimos cuadrados asociada a los datos
b) Utilizar la ecuacin obtenida en (a) para predecir el nmero de onzas beta
presente en un galn del producto xxx si se utilizan 3 onzas de alfa por cada
galn
Solucin:
a) Tenemos
4.5
3
5.5
4
5.7
5
6.6
6
7.0
7
b , A
7.7
8
8.5
9
8.7
10
9.5
11
9.7
12
1
1
1
1
b1
,
x
b . Entonces
1
0
1
1
1
645 75
598,6
T
AT A
y
A
b
73, 4
75 10
AT Ax AT b
se tiene que:
b1 0,583
x
b
2,967
0
Entonces b1 0,583 y b0 2,967
Por lo tanto, la ecuacin de la recta de mnimos cuadrados es:
y = 0,583x + 2,967
Donde y es la cantidad de beta presente y x es la cantidad de alfa
utilizada.
y am x m am1 x m1 ... a1 x a0 ; m n 1
Que mejor ajuste los datos observados. Como en el ajuste lineal por mnimos
cuadrados, debido a que algunos de los n puntos observados no estn
exactamente sobre la grafica del polinomio de mnimos cuadrados, tenemos:
(4)
Si hacemos
x1m
y1
m
y
x
2
b , A 2
m
yn
xn
m 1
1
m 1
2
x
x
2
1
2
2
x
x
x1
x2
xn m1
xn 2
xn
am
1
d1
a
d
m1
1
y d 2
, x
1
dn
1
a0
b Ax d
Una solucin para
Ax b
d b Ax
se minimiza.
10
Paso 1: Formamos
x1m
y1
m
y
x
2
b , A 2
m
y
n
xn
m 1
1
m 1
2
x
x
2
1
2
2
x
x
x1
x2
xn m1
xn 2
xn
am
1
a
m1
1
, x
1
1
a0
AT Ax AT b
Ejemplo 2:
Los siguientes datos muestran los contaminantes atmosfricos yi (con
respecto de cierta norma de calidad del aire) en intervalos de media hora t i
ti
yi
1
-0.15
1.5
0.24
2
0.68
2.5
1.04
3
1.21
3.5
1.15
4
0.86
4.5
0.41
5
-0.08
11
y a2t a1t a0
2
Ahora hacemos
12
1
2.25
6.25
A 9
12.25
16
20.25
25
1
1.5
2
2.5
3
3.5
4
4.5
5
1
0.15
0.24
1
0.68
1
1
1.04
a2
1 , x a1 , b 1.21
a0
1
1.15
0.86
1
1
0.41
0.08
1
96
27 9 a0 5.36
Al resolverse se tiene que:
-0.3274
x 2.0067
-1.9317
De modo que obtenemos el modelo polinomial cuadrtico
y 0.3274t 2 +2.0067t 1.9317
La grafica del modelo es:
13
1.2 Ajuste por los mnimos cuadrados utilizando las ecuaciones normales
1.2.1 Ajuste de y sobre x
S la ecuacin de la recta de ajuste es
y x
Donde las constantes y se determinan solucionando el siguiente sistema
de ecuaciones, tambin llamado sistema de ecuaciones normales
n
i 1
i 1
1) yi n xi
n
i 1
i 1
i 1
2) xi yi xi x 2i
14
La pendiente
n
nn n
n xi yi xi yi
i 1 i 1
a) i 1
2
n 2 n
n x i xi
i 1
i 1
De otra manera
b)
x y nx y
i 1
n
2
2
x
n
(
x
)
i
i 1
i 1
i 1
yi xi
n
y x
15
La recta de regresin de x sobre y se pude determinar de la siguiente forma.
Si x = c +d y de donde c es el coeficiente de posicin y d es la pendiente.
Luego
n n 2 n n
xi y i y i xi y i
i 1 i 1
c i 1 i 1
2
n
n
2
n y y i
i 1
i 1
n n
n xi y i xi y i
i 1 i 1
d i 1
2
n
n
n y 2 i y i
i 1
i 1
n
x
n
S 2x
i 1
n2
Varianza de y
y
n
S2y
i 1
n2
16
Covarianza de xy
x
n
S 2 xy
i 1
x yi y
n2
S 2 xy
y y 2 x x
S x
La recta de regresin de x sobre y en funcin de varianzas y covarianzas es:
S 2 xy
x x 2 ( y y)
S y
Ejemplo 3
Supongamos que estamos interesados en determinar una recta de regresin
que nos permita conocer la nota (y) obtenida por un estudiante s sabemos
cuantas horas estudi(x) para la prueba. Al hacer una encuesta se obtuvieron
los siguientes datos
Tabla 1.0
Estudt
.
1
2
3
4
5
6
7
8
5
6
6
7
8
9
10
10
61
3
3
4
5
4
6
6
5
36
X2
25
36
36
49
64
81
100
100
491
Y2
9
9
16
25
16
36
36
25
172
X*Y
15
18
24
35
32
54
60
50
288
xi x
yi y
(a)
(b)
-2,625
-1,625
-1,625
-0,.625
0,375
1,375
2,375
2,375
-1,5
-1,5
-0,5
0,5
-0,5
1,5
1,5
0,5
6,8906
2,6406
2,6406
0,3906
0,1406
1,8906
5,6406
5,6406
( yi y) 2
a*b
2,25
2,25
0,25
0,25
0,25
2,25
2,25
0,25
3,9375
2,4375
0,8125
-0,3125
-0,1875
2,0625
3,5625
1,1875
17
n = 8; x = 61; y = 36; x2 = 491;
172 ;
xy 288 ; x 7,625 ;
y 4,5
8 288 61 36
0,5217
8 491 612
36 0,5217 61
0,5220
8
y 0,522 0,522 x
Del ejemplo 3 calculemos la varianza de x. Para ello podemos utilizar la tabla
1.0, por lo tanto, se obtiene
S 2x
25,8750
4,3125
82
y 4,5
13,50
x 7,625
25,8750
y = 0,5220 + 0,5217 x
18
Lo que comprueba que la recta de regresin es la obtenida anteriormente.
Supongamos que en ejemplo 3 lo que queremos estimar son las horas de
estudio, es decir, x , entonces:
x 7,625
13,50
( y 4,5)
10
x 1,55 1,35 y
Con la recta de regresin se puede hacer una estimacin de la variable
dependiente siempre y cuando el valor de la variable independiente se
encuentre en su recorrido y esta recta sea un buen estimador de la
relacin entre x e y.
19
Tomemos al estudiante n 1 del ej. 1.0 y estimemos su nota utilizando la recta
de regresin de y sobre x
Luego, utilizando la recta de regresin y 0,522 0,522 x y sustituyendo x
por 5 se obtiene lo siguiente:
e yi y
Los residuales se deben calcular para cada uno de los valores observados de
la variable dependiente.
Ejemplo. Calcular los residuales del ejemplo 3
1
2
3
4
5
6
7
8
5
6
6
7
8
9
10
10
= 61
yi y 2 e 2
y 2i
-0,1320
-0,6540
0,3460
0,8240
-0,6980
0,7800
0,2580
-0,7420
0,0174
0,4277
0,1197
0,6790
0,4872
0,6084
0,0666
0,5506
9
9
16
25
16
36
36
25
3
3
4
5
4
6
6
5
= 36
= -0.018
= 2.9566
= 172
Sy/ x
y y
i 1
n2
20
Por ejemplo si calculamos el error estndar del ejemplo 3, para lo cual
utilizaremos los clculos hechos en la tabla 2.0 se tiene:
Sy/ x
2,9566
0, 7020
82
21
i 1
i 1
y i yi xi yi
2
Sy/ x
Ec.2.3
i 1
n2
i 1
172
x y
i 1
y
i 1
288
36
Luego, se tiene
Sy/ x
3.0 Correlacin
La correlacin describe el grado de relacin que hay entre dos variables
Existen dos medidas para describir la correlacin entre dos variables.
a) El Coeficiente de Determinacin
b) El Coeficiente de Correlacin
3.1 El Coeficiente de Determinacin o Coeficiente Muestral de
Determinacin
Este coeficiente se denotar por r2 y se le define por:
22
r2 1
(y
y ) 2
(y
y) 2
i 1
n
i 1
Interpretacin de r2
X
Y
1
4
2
8
3
12
4
16
5
20
6
24
7
28
Luego, se tiene
y 18
Al graficar la tabla anterior se tiene
De donde al reemplazar
i) y por 4, 8, 12, 16, 20, 24, 28, 32, respectivamente se tiene que
8
32
23
n
(y
i 1
y es cero en todos
(y
i 1
y ) 2 672
Luego, se tiene
r2 1
0
1
672
1
6
1
12
3
6
3
12
5
6
y 9
y9
5
12
7
6
7
12
24
Los puntos pueden encontrarse a igual distancia en ambos lados de una lnea
horizontal de regresin, de modo que
(y
i 1
i 1
y ) 2 72
y ) 2 72
(y
r2 1
72
0
72
r
2
yi xi yi n( y )2
n( y ) 2
r r2
Observaciones:
i)
ii)
iii)
25
a) Relacin dbil s r 0,50
b) Relacin moderada s 0,50 < r < 0,80
c) Relacin fuerte s 0,80 r 1
Cov( x, y )
x x y y
i
n 1
cov( x, y )
Sx S y
Sx
2
i
n( x ) 2
n 1
Sy
2
i
n( y ) 2
n 1
26
Ejemplo: Del ejemplo 3 y de las tablas 1.0 y 2.0 se tiene:
y 2,9566
2
( y
y) 2 10
Luego
r2 1
2,9566
0,7043
10
r 0,7043 0,8392
Lo que nos indica que la relacin entre las variables es buena, en general,
diremos que habr una muy buena relacin directa entre las variables s el
coeficiente de correlacin se aproxima a 1 y, diremos que la relacin es muy
buena e inversa si el coeficiente de correlacin reaproxima a -1
Utilizando los datos de las tablas 1.0 y 2.0 calculamos el coeficiente de
determinacin en forma abreviada se tiene
Cov
13,50
1,9286
8 1
Este valor indica la forma en que las dos variables varan en forma
conjunta
Al sustituir los valores de las tablas 1.0 y 2.0 y calcular el error de x se tiene
27
491 8 7, 6252
Sx
1,9226 .
8 1
Al valor anterior corresponde al error de las horas de estudio
Sustituyen los valores de las tablas 1.0 y 2.0 y calcular el error de y se tiene
172 8 4.52
Sy
1,1952 .
8 1
Al valor anterior corresponde al error de las notas
Luego el coeficiente de correlacin en funcin de la Covarianza y los errores de
las variables se obtiene al sustituir la Cov (x, y), S x y S y obtenindose
1,1986
0,8393
(1,1926) (1,1952)
y b0 b1 X 1i b2 X 2i ui
Se supone que no hay relacin lineal exacta entre las variables
independientes
Se pueden obtener estimaciones de mnimos cuadrados minimizando la suma
del cuadrado de los residuos
2
Yi y
28
Y nb b X b X
X Y b X b X b X X
X Y b X b X X b X
i
2
1
2
2
2
X Y X X Y X
X X X X
X Y X X Y X
X X X X
b1
b0 Y b1 X 1 b2 X 2
X2
Pendiente para X2
Pendiente para X1
X2
b2
Coeficiente de posicin
b1 y
X1
X2
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
40
44
46
48
52
58
60
68
74
80
570
6
10
12
14
16
18
22
24
26
32
180
4
4
5
7
9
12
14
20
21
24
120
Donde:
y- y
a
-17
-13
-11
-9
-5
1
3
11
17
23
0
X1 X 1
X2 X 2
b
-12
-8
-6
-4
-2
0
4
6
8
14
0
c
-8
-8
-7
-5
-3
0
2
8
9
12
0
a*b
a*c
b*c
204
104
66
36
10
0
12
66
136
322
956
136
104
77
45
15
0
6
88
153
276
900
96 144 64
64 64 64
42 36 49
20 16 25
6
4
9
0
0
0
8
16
4
48 36 64
72 64 81
168 196 144
524 576 504
29
Y 57; X 1 18; X 2 12
b1
(956)(504) (900)(524)
0,65
(576)(504) (524) 2
b2
(900)(576) (956)(524)
1,11
(576)(504) (524) 2
y b0 b1 X 1i b2 X 2i ui
S los puntos observados (x1, z1, y1), (x2, z2, y2) , ..., (x n, zn, y n) (x1, y1)
estuvieran exactamente sobre la recta de mnimos cuadrados, tendramos que
yi = b1xi +b2zi + b0 + di
Donde d es la distancia del punto (xi, zi, yi) a la recta de ajuste de mnimos
cuadrados, la cantidad di puede ser positiva, negativa o cero.
De la figura anterior tenemos:
y1
x1
y
x
2
b , A= 2
y
n
xn
z1
z2
zn
1
bi
d1
b
d
1
i
1
, x y d 2
1
b
0
dn
30
Luego podemos escribir las n ecuaciones como una sola ecuacin matricial
b=Ax+d
Como por lo general el sistema lineal A x = b es inconsistente, se puede
x AT A AT b
1
y1
x1
y
x
b 2 , A= 2
y
n
xn
z1
z2
zn
AT A x = AT b
x A A
T
A b
T
1
bi
b
1
, x i 1
1
b0
31
40
6 4 1
44
10 4 1
46
12 5 1
48
14
7
1
52
16 9 1
b A
58
18
12
1
60
22 14 1
68
24 20 1
74
26 21 1
80
32 24 1
T
Y luego al sustituir en y A A
0, 6501
y 1,1099
31,9807
Por lo tanto el modelo es:
32
r2 1
Y
i
r2
Donde
b1 yx1 b2 yx 2
y Yi Y
Ejemplo 5:
Calcular el coeficiente de determinacin para el ejemplo anterior
Como Y = 31,98 + 0,65X1 + 1.11X2 es la recta de regresin de los datos,
entonces
Ao
1990
1991
1993
1994
1995
1996
1997
1998
1999
2000
Y
40
44
46
48
52
58
60
68
74
80
X1
6
10
12
14
16
18
22
24
26
32
X2
4
4
5
7
9
12
14
20
21
24
Y
40.32
42.92
45.93
48.85
52.37
57.00
61.82
69.78
72.19
79.42
e
-0.32
1.08
0.67
-0.85
-0.37
1.00
-1.82
-1.78
1.81
0.58
e 0
e2
0.1024
1.1664
0.4489
0.7225
0.1369
1.0000
3.3124
3.1684
3.2761
0.3364
e 2 13.6704
y2
289
169
121
81
25
1
9
121
289
529
y 2 1634
r2 1
13.6704
0,9916
1634
4.4 Colinealidad
Al hablar de la estimacin de los coeficientes, si en un modelo de regresin
lineal mltiple (RLM) alguna variable independiente es combinacin lineal de
otras, el modelo es irresoluble, debido a que en ese caso, la matriz XX es
singular, es decir, su determinante es cero y no se puede invertir.
33
FIVi
1
1 R 2i
1
1 R 2i
FIVi
34
Se denominan componentes principales de un conjunto de variables a otras
variables, combinacin lineal de las originales, y que tienen tres propiedades
caractersticas:
i)
ii)
iii)
ii)
35
Otras soluciones alternativas pueden ser: Cambios de escala en las variables,
incluyendo el centrado de las mismas (restar a cada variable su media) o,
incluso, eliminar alguna de las variables colineales.
5.0 Coeficiente de correlacin de Spearmann
El coeficiente de correlacin de Spearman (rs) es apropiada cuando una de las
escalas de medicin es ordinal y la otra ordinal o de intervalo / razn.
Si una variable es ordinal y la segunda es de intervalo/ razn se las debe
expresar a las dos segn su rango.
El coeficiente de correlacin de Spearman se define como:
6 x y
rs 1
n(n 2 1)
xy
-3
0
-6
3
-2
-4
-1
-5
4
7
0
6
1
-1
1
( x y) 0
( x y )2
9
0
36
9
4
16
1
25
16
49
0
36
1
1
1
2
x y 206
36
Luego
rs 1
6 206
0, 63214
2
15(15 1)
Por lo tanto, la sospecha del profesor es verdadera, dado que, las dos variables
estn relacionadas.
Cuando se convierten calificaciones en rangos puede ocurrir que dos o ms
calificaciones tengan el mismo rango (empate). En este caso, se asigna a cada
uno de los rangos empatados la media de dichos rangos. La calificacin
siguiente en la ordenacin recibe el rango que le corresponde
Ejemplo: Supongamos los siguientes datos:
Calificaciones
Rangos
Rangos
(empates)
128
1
1
122
2
2
115
3
345
4
3
115
4
345
4
3
115
5
345
4
3
107
6
6
103
7
7