Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Regresion y Corre PDF
Regresion y Corre PDF
CORRELACIN Y REGRESIN
CR I
Correlacin Lineal
a.
y
xi
yi
xi
yi
xi
yi
34
37
37
37
28
30
30
34
39
33
36
29
36
34
32
30
30
29
32
34
41
37
33
40
32
33
38
40
43
42
36
40
36
42
31
29
35
39
37
40
38
40
34
37
33
36
34
31
29
36
32
31
36
38
35
35
33
31
34
32
45
40
35
30
25
25
Fig. CR I.a
30
35
40
45
Fig. CR I.b
A primera vista, del diagrama de dispersin resulta que existe una tendencia a que valores
altos de X estn asociados con valores altos de Y, y a que valores bajos de X estn asociados
con valores bajos de Y, resultando as que la tendencia de la dispersin es hacia una lnea
recta, y sera deseable medir de alguna manera el grado en que las antedichas variables X e
Y estn linealmente interrelacionadas.
b.
Con el fin de efectuar dicha medicin se empezar por ver que condiciones sera deseable
que tuviera.
Para empezar dicha medicin debera ser independiente de la eleccin del origen de las
variables. El hecho de que el diagrama de dispersin de la figura CR I.b tenga por origen el
punto (25 , 25) implica que se admiti que la interrelacin entre X e Y es independiente del
origen.
Esta propiedad se obtiene usando valores xi x e y i y en vez de los valores primitivos xi
e yi.
En segundo lugar, la medicin de la interrelacin debe ser independiente de las unidades en
que vienen medidos los valores X e Y.
CR 2
As, si los valores xi e yi indicados en la figura CR I.a fueran ambos duplicados, no debera
quedar afectada la medida de la interrelacin entre X e Y. Esta propiedad es obtenida
dividiendo los valores xi por una constante que tenga su misma dimensin, y haciendo lo
propio con los valores yi. Por razones que sern evidentes mas adelante se tomarn a sx y a sy
como dichas constantes.
Es decir que las dos propiedades recin indicada sern obtenidas usando valores:
x x
ui = i
sx
y y
vi = i
sy
v
2
u
-2
-1
-1
-2
Fig. CR I.c
Se puede observar en este diagrama que la mayora de los puntos estn ubicados en los
cuadrantes primero y tercero y que dichos puntos tienden a tener coordenadas cuyo valor
absoluto es mayor que la de los puntos ubicados en los cuadrantes segundo y cuarto.
n
i =1
tercero contribuirn valores positivos a esta sumatoria, mientras que los puntos de los
cuadrantes segundo y cuarto contribuirn valores negativos. Por lo tanto un valor positivo
grande de dicha sumatoria parece indicar una tendencia lineal positiva en el diagrama de
dispersin.
A la recproca, un valor negativo grande indicara una tendencia lineal negativa en el
diagrama de dispersin.
CR 3
u i vi
c.
( xi x )( yi y )
i =1
ns x s y
[1]
Efectuando clculos puede hallarse que para los datos indicados en la figura CR I.a
corresponde un coeficiente de correlacin lineal r = 0,66.
Para interpretar este resultado y para ver que valores de r se obtienen para distintos tipos de
diagramas de dispersin, considrese los diagramas de dispersin de la figura CR I.d.
Los primeros cuatro diagramas corresponden a valores crecientes de r, es decir a
interrelaciones lineales crecientes entre X e Y.
Si estos diagramas fueran rotados 180 alrededor del eje y, las dispersiones apareceran
como teniendo una dispersin lineal negativa, y los correspondientes valores de r seran los
negativos de los indicados en dichos diagramas.
Por lo tanto el valor absoluto de r determina la magnitud de la interrelacin lineal mientras
que su signo indica si los valores yi tienden a aumentar o disminuir a medida que los xi
crecen.
r0
r = 0,6
(a)
(b)
(c)
r0
r=1
r = 0,8
(d)
(e)
Fig. CR I.d
CR 4
El quinto diagrama ilustra un caso en el cual los xi e yi estn muy interrelacionados pero que
dicha interrelacin no es lineal.
Esto ilustra que el coeficiente de correlacin r es una medida til de la interrelacin entre
variables solo cuando dicha interrelacin tiende a ser lineal.
Los diagramas de la figura CR I.d y sus valores asociados de r hacen plausible dos
propiedades de dicho coeficiente:
1. 1 r 1
2. r = 1 cuando y solo cuando los puntos del diagrama de dispersin caen todos sobre una
misma lnea recta.
La demostracin de estas propiedades es mas bien larga y tediosa, por lo que ser omitida
ac.
d.
e.
En cualquier problema que concierna a la correlacin lineal, el valor r puede ser considerado
como una muestra tomada de una poblacin. Por ejemplo si los datos indicados en la figura
CR I.a corresponden a 30 estudiantes tomados al azar dieron un coeficiente de correlacin
lineal igual a r1, otras muestras darn valores r2, r3, etc.
La poblacin as muestreada tiene una distribucin de probabilidad intrnseca D XY , y
E
Sean dos variables X e Y entre las cuales exista una cierta interrelacin lineal, la cual es
medida por el coeficiente de correlacin lineal r.
Supngase que adems del grado de interrelacin lineal interese conocer el valor que
asumir una de las variables conocido el valor que asumi la otra.
Por ejemplo, supngase que en la tabla de la figura CR I.a los valores xi correspondan al
rendimiento de un hombre como alumno y los valores yi correspondan a su posterior
rendimiento como profesional.
A un posible empleador del recin graduado le interesara mucho poder predecir el eventual
rendimiento del candidato en base a su rendimiento como alumno.
El coeficiente r pelado es incapaz de efectuar dicha prediccin, para efectuar la cual ser
necesario usar las tcnicas de regresin a ser consideradas en los prximos prrafos.
CR 5
CR II
Curvas de aproximacin
a.
Dado un diagrama de dispersin, a menudo interesa conocer una curva que se aproxime lo
mejor posible a los puntos del mismo.
A dicha curva se la llamar curva de aproximacin.
A menudo es posible visualizar por inspeccin cul es el tipo de curva que mejor se
aproximar (por ejemplo la recta de la figura CR II.a y la parbola de la figura CR II.b), y a
veces el diagrama de dispersin tomar un aspecto de perdigonada para la cual
aparentemente no hay ninguna curva de aproximacin que tenga sentido (ver la figura
CR II.c).
x
Fig. CR II.a
x
Fig. CR II.b
x
Fig. CR II.c
b.
c.
El caso en que la curva de aproximacin sea una recta es el que ulteriormente ser mas fcil
de tratar.
Existen curvas de aproximacin que no son rectas pero que mediante adecuados cambios de
variables se transforman en rectas.
A estas curvas de aproximacin no lineales susceptibles de ser linealizadas se las llamar
intrnsecamente lineales.
Evidentemente, en el caso de que los resultados experimentales conduzcan a un diagrama
de dispersin al cual corresponde una curva de aproximacin intrnsecamente lineal,
aplicando los cambios de variables del caso a los resultados experimentales se obtendr un
diagrama de dispersin al cual corresponder una curva de aproximacin rectilnea.
d.
En el caso de que nada sugiera el tipo de curva de aproximacin a adoptar, por ejemplo el
caso de la perdigonada de la figura CR II.c, la poltica que generalmente se adopta es
suponer una lnea recta como curva de aproximacin.
CR 6
CR III
Mtodo de los mnimos cuadrados
a.
Una vez decidido el tipo de curva que se adoptar como curva de aproximacin, quedan por
definir los coeficientes de la ecuacin correspondiente que den el mejor ajuste posible de la
curva al diagrama de dispersin.
Considrese el caso de la figura CR III.a, en la cual los puntos del diagrama de dispersin
son (x1 , y1), , (xn , yn). Sea C una curva de aproximacin del tipo elegido, pero de la cual
todava no se conocen los valores de sus coeficientes.
(xn , yn)
y
Curva C
y* = f(x)
dn
(xn , y n* )
(x1 , y1)
*
d1 (x2 , y 2 )
(x1 , y1* )
d2
(x2 , y2)
x
Fig. CR III.a
D = d12 + ... + d n2
[1]
b.
CR 7
y
Curva C
x* = (y)
(x2 , y2) d2
(x1 , y1)
d1
(xn , yn) dn
( x n* , yn)
( x 2* ,y2)
( x1* , y1 )
x
Fig. CR III.b
Notar que:
1. La curva C de regresin de Y sobre X es tal que y* = f(x)
La curva C de regresin de X sobre Y es tal que x* = (y)
2. Salvo casos excepcionales, estas dos curvas de regresin no coinciden.
c.
CR IV
Rectas de regresin
a.
Sea un diagrama de dispersin. Se buscar la recta que mejor se adapte a dicha dispersin en
el sentido de hacer mnima a la magnitud D definida en [1] de CR III.
Se deja constancia de que no es indispensable que los puntos del diagrama tengan una
tendencia rectilnea.
b.
Es conveniente, a fin de simplificar los clculos, expresar la ecuacin de dicha recta como:
y* = a0 + a1(x x )
[1]
i =1
i =1
Ver [1]
CR 8
2[yi a0 a1 ( xi x )](1) = 0
a0 i =1
n
D = 2[ y a a ( x x )][ ( x x )] = 0
0
1 i
i
a1 i
i =1
na0 + a1 ( xi x ) = yi = ny
i =1
i =1
n
n
n
a
( xi x ) + a1 ( xi x ) 2 = ( xi x ) yi
i =1
i =1
i =1
( xi x ) = 0 resulta:
i =1
( xi x ) y i
a0 = y
a1 = i =1
[2]
( xi x )
i =1
y por [1] resulta entonces que la recta de regresin ptima de Y sobre X ser:
n
( xi x ) y i
y = y +
i =1
n
(x x)
[3]
( xi x ) 2
i =1
c.
Como:
n
i =1
i =1
( xi x )( yi y ) = ( xi x ) yi + y ( xi x ) = ( xi x ) yi
=14243
i1
=0
i =1
resulta que la expresin [3] puede ser puesta bajo cualquiera de las siguientes formas:
n
( xi x )( yi y )
y* = y + i =1
( xi x ) 2
i =1
(x x)
[4]
CR 9
= sY
y* = y +
1 n
( xi x )( yi y )
n i =1
1 n
( yi y ) 2
n i =1
1 n
1 n
( xi x ) 2
( yi y ) 2
n i =1
n i =1
1 n
( xi x ) 2
n i =1
= r (ver [1] de CR I)
d.
(x x)
= sX
s
y* = y + r Y ( x x )
sX
[5]
( y* y)
(x x)
=r
sY
sX
[6]
[7]
e.
f.
[8]
CR 10
n
D=
=
=
( yi
i =1
n
yi* ) 2
( y i y )
i =1
s
= ( y i y ) r Y ( xi x ) =
sX
i =1
n
2
2 sY
+r
s 2X
s
( xi x ) 2 2r Y ( xi x )( yi y ) =
sX
sY2 n
i =1
s 2X i =1
( yi y ) 2 + r 2
( xi x ) 2 2 r s Y ( xi x )( y i y ) =
X i =1
(Ver [1] de CR I)
[9]
[10]
g.
En todo lo antedicho se ha supuesto que tanto los valores xi como los yi son valores
asumidos por variables aleatorias X e Y, pero los razonamientos hechos son asimismo
vlidos para el caso en que una de las variables asuma valores controlados por el operador.
Por ejemplo, supngase que se forme un grupo de 1000 personas de 40 aos de edad, otro de
1000 personas de 41 aos, , y otro de 1000 personas de 60 aos, y que se halle la presin
arterial promedio de cada grupo.
Haciendo corresponder la variable X a la edad y la variable Y a la presin arterial promedio,
se tendr que los valores asumidos por X son controlados y que los asumidos por Y son
aleatorios.
h.
El objetivo principal del anlisis de la regresin consiste en obtener predicciones del valor
que asumir la variable Y para un valor determinado de X (o viceversa). Esto es vlido no
solo para el caso de una regresin lineal, sino tambin para cualquier otro tipo de regresin.
Considrese por el momento el caso de una regresin lineal. Sea [5] la recta de regresin
lineal correspondiente al caso. Dado un valor x, se tiene que y* es la estimacin mximo
verosmil del valor que asumir Y cuando X asuma el valor x.
Por otra parte, como los valores (xi , yi) no se ajustan exactamente a la antedicha recta de
regresin, la antedicha estimacin mximo verosmil est sujeta a un cierto error.
El as llamado error tpico de estimacin de Y sobre X est definido por la expresin:
CR 11
( yi yi* ) 2
YX
= i =1
D
= sY2 (1 r 2 ) = s
Y
n
(1 r 2 )
[11]
Ver [9]
Ver [1] de CR III
Este error tpico de estimacin tiene propiedades anlogas a la de la desviacin tpica. Por
ejemplo, si se trazan pares de rectas paralelas a la recta de regresin a distancias verticales
sYX (2 sYX) para n grande se encontrar que entre dicho par de rectas estar
aproximadamente el 68 % (el 95 %) de los puntos del diagrama de dispersin.
CR V
Aplicaciones
CRV 1
a.
La tabla de la figura CR V.a da en Kg. los pesos X e Y de una muestra de 12 padres y sus
hijos varones mayores, ambos a la edad de 18 aos.
Peso X del padre
Peso Y del hijo
65
68
63
66
67
68
64
65
68
69
62
66
70
68
66
65
68
71
67
67
69 71
68 70
Fig. CR V.a
Se pide hallar:
- El coeficiente de correlacin lineal entre X e Y.
- La recta de regresin de Y sobre X.
- La recta de regresin de X sobre Y.
- El error tpico de estimacin de Y sobre X.
b.
xi
yi
xi x
yi y
65
63
67
64
68
62
70
66
68
67
69
71
= 800
68
66
68
65
69
66
68
65
71
67
68
70
= 811
-1,7
-3,7
0,3
-2,7
1,3
-4,7
3,3
-0,7
1,3
0,3
2,3
4,3
0,4
-1,6
0,4
-2,6
1,4
-1,6
0,4
-2,6
3,4
-0,6
0,4
2,4
( xi x ) 2
2,89
13,69
0,09
7,29
1,64
22,09
10,89
0,49
1,69
0,09
5,29
18,49
= 84,68
( yi y ) 2
0,16
2,56
0,16
6,76
1,96
2,56
0,16
6,76
11,56
0,36
0,16
5,76
= 38,92
( xi x )( yi y )
-0,68
5,92
0,12
7,02
1,82
7,52
1,32
1,82
4,42
-0,18
0,92
10,32
= 40,34
Fig. CR V.b
CR 12
x=
800
811
84,68
38,92
= 66,7 ; y =
= 67,6 ; s X =
= 2,656 ; s Y =
= 1,8
12
12
12
12
1 40,34
12
r=
= 0,703
[1]
2,656 1,8
1,8
(x 66,7) = 35,82 + 0,476 x
2,656
[2]
2,656
(y 67,6) = 3,42 + 1,0373 y
1,8
[3]
73
x* = 3,42 + 1,0373 y
71
y* = 35,82 + 0,476 x
69
67
65
63
x
61
61
63
65
67
69
71
c.
73
Fig. CR V.c
CR 13
y
73
71
Recta de regresin
de Y sobre X
69
sYX
67
sYX
65
63
61
61
63
65
67
69
71
73
Fig. CR V.d
La recta de regresin indicada en [2] est dibujada en trazo grueso en la figura CR V.d. Sus
paralelas a distancia vertical sYX = 1,28 estn dibujadas en trazo punteado. Se ve en dicha
figura que 7 de los 12 puntos caen entre dichas paralelas y 2 aparecen sobre ellas. Una
aritmtica mas fina (mas decimales) revelara que uno de esos dos tambin caera entre las
paralelas. Por lo tanto 812 = 66,66 % de los puntos caen entre las paralelas, obtenindose as
un porcentaje prximo al 68 % predicho en h. de CR IV. Esta diferencia es debida a la
escasa cantidad de puntos del diagrama de dispersin considerado.
CRV 2
a.
T = 2
L 2 1 2
=
L
g
g
siendo:
T = Perodo de oscilacin (seg)
L = Longitud del pndulo (m)
g = Aceleracin de la gravedad ( m
seg 2
[1]
b.
Poniendo en [1]:
CR 14
y=T
x=L
k=
r=
[2]
y=kx
[3]
y* = k x
[4]
x= lgex
y= lgey
[5]
y* = lgek + r x
c.
[6]
Sean los datos experimentales crudos indicados en la figura CR VI.a a los cuales
corresponden los datos modificados segn [5] indicados en la figura CR VI.b.
x= L
(m)
1,025
0,805
0,745
0,675
0,615
0,515
0,435
0,370
0,325
0,270
0,205
y=T
(seg)
2,025
1,813
1,739
1,650
1,573
1,441
1,338
1,232
1,149
1,051
0,912
Fig. CR VI.a
x=lgex = lgeL
y=lgey = lgeT
0,0246926
-0,216913
-0,294371
-0,3930425
-0,486133
-0,6635883
-0,8324092
-0,9942522
-1,1239301
-1,3093333
-1,5847453
0,7055697
0,5949829
0,5533102
0,5007753
0,4529846
0,3653373
0,2911760
0,2086389
0,1388920
0,0497421
-0,0921152
Fig. CR VI.b
CR 15
11
( xi x) yi
y* = y+ i =1
11
( xi x)
11
( xi x) yi
( x x) = y i =1
11
11
x + i =1
( xi x)
1
=
i
144424443
a0
i =1
( xi x) yi
11
[7]
( xi x)
1
=
i
144244
3
a1
Resumiendo:
y* = a0 + a1 x
2
g
Ver [2]
y por lo tanto:
a0
2
g =
g
e a0
Efectuando los clculos indicados en [7] (evidentemente con la ayuda de una computadora),
en base a los datos de la figura CR VI.b se llega a que:
a0 = 0,7172 g = 9,406
lo cual constituye una aproximacin razonable de la magnitud de la aceleracin de la
gravedad, visto y considerando la precariedad del mtodo empleado.
CR VII
Regresin curvilnea
a.
b.
A ttulo de ejemplo se supondr que la curva del caso es una parbola cuya ecuacin es:
y* = a0 + a1x + a2x2
CR 16
D = d 2 + ... + d n2 =
1
n
2
*)2 =
y
y
(
i i
yi a0 a1xi a2 xi2
i =1
i =1
Los valores de a0, a1 y a2 que hacen mnima a D han de ser tales que:
n
D
= 2 yi a0 a1 xi a 2 xi2 (1) = 0
a0
=
1
i
n
D
=
2 yi a0 a1xi a2 xi2 ( xi ) = 0
a
1 i =1
n
D =
2 y a0 a1 xi a 2 xi2 ( xi2 ) = 0
a 2 i
i =1
na0 + a1 xi + a 2 xi2 = yi
i =1
i =1
i =1
n
n
n
n
2 +a
3=
a
x
a
x
x
+
0 i
xi yi
1 i
2 i
i =1
i =1
i =1
i =1
n
n
n
n
a
xi2 + a1 xi3 + a 2 xi4 = xi2 yi
i =1
i =1
i =1
i =1
Resolviendo este sistema se hallan los coeficientes a0, a1 y a2 que proporcionan el mejor
ajuste posible de la parbola a los datos del problema.
c.
i =1
i =1
i =1
n
n
n
n
2
k +1 =
xi yi
a0 xi + a1 xi + ... + ak xi
i =1
i =1
i =1
i =1
..........
..........
..........
..........
..........
..........
..........
...
n
n
n
n
a0 x k + a1 x k +1 + ... + a k x 2k = x k yi
i
i
i
i
i =1
i =1
i =1
i =1
y resolviendo este sistema se hallarn los valores a0, a1, , ak que implican el mejor ajuste
posible de la curva polinmica:
CR 17
y* = a0 + a1x + + ak xk
a los datos del problema.
c.
En este caso de regresin polinmica, el error tpico de estimacin de Y sobre X viene dado
por la expresin:
n
sYX = i =1
d.
CR VIII
Observaciones
a.
b.
Los problemas de correlacin y regresin implican por lo general una dosis inaceptable de
aritmtica si sta se hace a mano.
Si se trabaja profesionalmente en este tema es prcticamente indispensable el uso de una
computadora dotada de un software adecuado.
Hoy en da muchas calculadoras cientficas tienen el modo reg que con solo ingresar los
pares de datos se obtienen los parmetros de la recta de ajuste (a0 y a1).
c.
Vale la pena citar la reflexin hecha por M. I. Moroney en su pequeo gran libro Hechos y
Estadsticas.
La rama de la estadstica que mayor similitud tiene con una mquina de hacer salchichas
es el anlisis de la correlacin y regresin. El problema de la interpretacin de los resultados
es siempre mucho mas difcil que las manipulaciones estadsticas.
Para hacer una interpretacin correcta de los resultados no hay substituto para el
conocimiento profundo y detallado del problema que se tiene entre manos y de sus
condiciones de contorno.
El estadstico puede ayudar al especialista en su campo, pero no puede nunca sustituirlo.
Quien usa sin precauciones herramientas de alto filo tiene un gran riesgo de cortarse.
CR 18
APNDICE
Curvas de aproximacin intrnsecamente lineales
a.
Caso
Curva de aproximacin
intrnsecamente lineal
(a)
(b)
(c)
(d)
y* = a ebx
y* = a xb
*
y = a + b lge x
y* = a + b x
Cambios de variables a
aplicar a los resultados
experimentales crudos
x= x ; y= lge y
x= lge x ; y= lge y
x= lge x ; y= y
x= 1 x ; y= y
Curva de aproximacin
despus de efectuado el
cambio de variables
y* = lge a + bx
y* = lge a + bx
y* = a + bx
y* = a + bx
Fig. A.CR.a
b>1
b>0
0< b<1
a
b<0
b<0
x
(a)
(b)
y
b>0
b>0
a
b<0
b<0
0
(c)
(d)
x
Fig. A.CR.b
CR 19
r=
n
n n
n xi yi xi yi
i =1
i =1 i =1
2
2
n
n n
n
n x 2 x n y 2 y
i i i i
i =1 i =1
i =1
i =1
CR 2 Explicar porque no sera sorprendente encontrar una alta correlacin entre el trfico en la
Panamericana y la altura de la marea en Ro Gallegos. Supngase que se hacen mediciones
cada hora entre las 6 y 10 de la maana y que la marea mxima en Ro Gallegos ocurra a las
8 de la maana.
CR 3 Cual sera el efecto en el valor r del coeficiente de correlacin entre el peso y la estatura de
los varones de todas las edades si solo fueran muestreados varones entre 20 y 25 aos.
Haga un diagrama de dispersin para ayudar su contestacin.
CR 4 Si la recta de regresin de Y sobre X es y* = a0 + a1 x, y la recta de regresin de X sobre Y es
x* = b0 + b1 y, probar que a1b1 = r2.
CR 5 La tabla adjunta muestra los ndices de precios de la alimentacin X y de los gastos mdicos
Y a los largo de 9 aos. Se pide hallar:
- El coeficiente de correlacin lineal de Y y X.
- La recta de regresin de Y sobre X.
- La recta de regresin de X sobre Y.
- El error tpico de estimacin de Y sobre X.
X
Y
175
169
181
185
192
202
211
219
235
240
255
266
275
295
286
329
292
357
1,2
4,5
1,8
5,9
3,1
7,0
4,9
7,8
5,7
7,2
7,1
6,8
8,6
4,5
9,8
2,7
(La cantidad de aritmtica que requiere este problema implica el uso de una computadora).