Está en la página 1de 19

CR 1

CORRELACIN Y REGRESIN
CR I
Correlacin Lineal
a.

Considrese el problema de tratar de hallar la relacin funcional existente entre dos


variables aleatorias X e Y.
La investigacin de dicha interrelacin, basada en n experimentos en que dichas variables
asumieron pares de valores (x1 , y1) (xn , yn), generalmente se encara graficando dichos
pares de valores sobre un sistema de coordenadas ortogonales. Dicho grfico, llamado
diagrama de dispersin a menudo permite discernir si existe alguna tendencia hacia algn
tipo de interrelacin entre ambas variables, y, si posible, la naturaleza de dicho tipo de
interrelacin.
A ttulo ilustrativo considrese la tabla de la figura CR I.a correspondientes a las notas
obtenidas por 30 alumnos en Matemticas y Fsica, siendo 50 la nota mxima posible.
Arbitrariamente, se asignar la variable X a la nota obtenida en Matemticas e Y a la nota
obtenida en Fsica, resultando as el diagrama de dispersin indicado en la figura CR I.b.

y
xi

yi

xi

yi

xi

yi

34
37

37
37

28
30

30
34

39
33

36
29

36

34

32

30

30

29

32

34

41

37

33

40

32

33

38

40

43

42

36

40

36

42

31

29

35

39

37

40

38

40

34

37

33

36

34

31

29

36

32

31

36

38

35

35

33

31

34

32

45

40

35

30

25
25

Fig. CR I.a

30

35

40

45

Fig. CR I.b

A primera vista, del diagrama de dispersin resulta que existe una tendencia a que valores
altos de X estn asociados con valores altos de Y, y a que valores bajos de X estn asociados
con valores bajos de Y, resultando as que la tendencia de la dispersin es hacia una lnea
recta, y sera deseable medir de alguna manera el grado en que las antedichas variables X e
Y estn linealmente interrelacionadas.
b.

Con el fin de efectuar dicha medicin se empezar por ver que condiciones sera deseable
que tuviera.
Para empezar dicha medicin debera ser independiente de la eleccin del origen de las
variables. El hecho de que el diagrama de dispersin de la figura CR I.b tenga por origen el
punto (25 , 25) implica que se admiti que la interrelacin entre X e Y es independiente del
origen.
Esta propiedad se obtiene usando valores xi x e y i y en vez de los valores primitivos xi
e yi.
En segundo lugar, la medicin de la interrelacin debe ser independiente de las unidades en
que vienen medidos los valores X e Y.

CR 2

As, si los valores xi e yi indicados en la figura CR I.a fueran ambos duplicados, no debera
quedar afectada la medida de la interrelacin entre X e Y. Esta propiedad es obtenida
dividiendo los valores xi por una constante que tenga su misma dimensin, y haciendo lo
propio con los valores yi. Por razones que sern evidentes mas adelante se tomarn a sx y a sy
como dichas constantes.
Es decir que las dos propiedades recin indicada sern obtenidas usando valores:

x x
ui = i
sx

y y
vi = i
sy

en vez de los xi e yi.


El diagrama de dispersin de los puntos (ui , vi) correspondiente a los datos de la figura
CR I.a es el indicado en la figura CR I.c.

v
2

u
-2

-1

-1

-2
Fig. CR I.c

Se puede observar en este diagrama que la mayora de los puntos estn ubicados en los
cuadrantes primero y tercero y que dichos puntos tienden a tener coordenadas cuyo valor
absoluto es mayor que la de los puntos ubicados en los cuadrantes segundo y cuarto.
n

Una sencilla medida de esta tendencia es

ui vi . Los puntos de los cuadrantes primero y

i =1

tercero contribuirn valores positivos a esta sumatoria, mientras que los puntos de los
cuadrantes segundo y cuarto contribuirn valores negativos. Por lo tanto un valor positivo
grande de dicha sumatoria parece indicar una tendencia lineal positiva en el diagrama de
dispersin.
A la recproca, un valor negativo grande indicara una tendencia lineal negativa en el
diagrama de dispersin.

CR 3

Todo lo antedicho no es estrictamente cierto ya que si la cantidad de puntos fuera duplicada


sin cambiar la naturaleza de la dispersin, el valor de la sumatoria se vera aproximadamente
duplicado. Por lo tanto es necesario dividir el valor de la sumatoria por la cantidad de
puntos, n, antes de que se la pueda usar como medida de la interrelacin lineal entre las
variables.
Por lo tanto, la deseada medida de la interrelacin lineal ser:
n

u i vi

r = Coeficiente de correlacin lineal = i =1

c.

( xi x )( yi y )

i =1

ns x s y

[1]

Efectuando clculos puede hallarse que para los datos indicados en la figura CR I.a
corresponde un coeficiente de correlacin lineal r = 0,66.
Para interpretar este resultado y para ver que valores de r se obtienen para distintos tipos de
diagramas de dispersin, considrese los diagramas de dispersin de la figura CR I.d.
Los primeros cuatro diagramas corresponden a valores crecientes de r, es decir a
interrelaciones lineales crecientes entre X e Y.
Si estos diagramas fueran rotados 180 alrededor del eje y, las dispersiones apareceran
como teniendo una dispersin lineal negativa, y los correspondientes valores de r seran los
negativos de los indicados en dichos diagramas.
Por lo tanto el valor absoluto de r determina la magnitud de la interrelacin lineal mientras
que su signo indica si los valores yi tienden a aumentar o disminuir a medida que los xi
crecen.

r0

r = 0,6

(a)

(b)

(c)

r0

r=1

r = 0,8
(d)

(e)
Fig. CR I.d

CR 4

El quinto diagrama ilustra un caso en el cual los xi e yi estn muy interrelacionados pero que
dicha interrelacin no es lineal.
Esto ilustra que el coeficiente de correlacin r es una medida til de la interrelacin entre
variables solo cuando dicha interrelacin tiende a ser lineal.
Los diagramas de la figura CR I.d y sus valores asociados de r hacen plausible dos
propiedades de dicho coeficiente:
1. 1 r 1
2. r = 1 cuando y solo cuando los puntos del diagrama de dispersin caen todos sobre una
misma lnea recta.
La demostracin de estas propiedades es mas bien larga y tediosa, por lo que ser omitida
ac.
d.

La interpretacin del coeficiente de correlacin lineal como medida de la interrelacin lineal


entre dos variables es en esencia una interpretacin puramente matemtica, y est
desprovista de toda connotacin causa efecto. As por ejemplo, la cantidad de llamadas
telefnicas que se inician en Bs. As. entre las 11 y 12 de la maana y la cantidad de huevos
que ponen las gallinas en el campo en dicho perodo, tienen una fuerte correlacin lineal
positiva a pesar de que uno de estos hechos no tiene ninguna influencia sobre el otro.

e.

En cualquier problema que concierna a la correlacin lineal, el valor r puede ser considerado
como una muestra tomada de una poblacin. Por ejemplo si los datos indicados en la figura
CR I.a corresponden a 30 estudiantes tomados al azar dieron un coeficiente de correlacin
lineal igual a r1, otras muestras darn valores r2, r3, etc.
La poblacin as muestreada tiene una distribucin de probabilidad intrnseca D XY , y
E

supngase que de dicha distribucin surja un parmetro que indique el grado de


correlacin lineal verdadero entre las variables X e Y.
Puede demostrarse que el valor r indicado en [1] es una estimacin mxima verosmil de
dicho parmetro .
f.

Sean dos variables X e Y entre las cuales exista una cierta interrelacin lineal, la cual es
medida por el coeficiente de correlacin lineal r.
Supngase que adems del grado de interrelacin lineal interese conocer el valor que
asumir una de las variables conocido el valor que asumi la otra.
Por ejemplo, supngase que en la tabla de la figura CR I.a los valores xi correspondan al
rendimiento de un hombre como alumno y los valores yi correspondan a su posterior
rendimiento como profesional.
A un posible empleador del recin graduado le interesara mucho poder predecir el eventual
rendimiento del candidato en base a su rendimiento como alumno.
El coeficiente r pelado es incapaz de efectuar dicha prediccin, para efectuar la cual ser
necesario usar las tcnicas de regresin a ser consideradas en los prximos prrafos.

CR 5

CR II
Curvas de aproximacin
a.

Dado un diagrama de dispersin, a menudo interesa conocer una curva que se aproxime lo
mejor posible a los puntos del mismo.
A dicha curva se la llamar curva de aproximacin.
A menudo es posible visualizar por inspeccin cul es el tipo de curva que mejor se
aproximar (por ejemplo la recta de la figura CR II.a y la parbola de la figura CR II.b), y a
veces el diagrama de dispersin tomar un aspecto de perdigonada para la cual
aparentemente no hay ninguna curva de aproximacin que tenga sentido (ver la figura
CR II.c).

x
Fig. CR II.a

x
Fig. CR II.b

x
Fig. CR II.c

b.

A veces el tipo de curva de aproximacin adecuada al caso es elegida a ojo, pero a


menudo dicha eleccin proviene de algn conocimiento previo sobre una probable relacin
existente entre las variables.
Las ecuaciones de las curvas de aproximacin mas comunes son:
Lnea recta
:
y* = a0 + a1x
Parbola
:
y* = a0 + a1x + a2x2
Polinomio de grado n :
y* = a0 + a1x + a2x2 + + anxn
Exponencial
:
y* = k ex

c.

El caso en que la curva de aproximacin sea una recta es el que ulteriormente ser mas fcil
de tratar.
Existen curvas de aproximacin que no son rectas pero que mediante adecuados cambios de
variables se transforman en rectas.
A estas curvas de aproximacin no lineales susceptibles de ser linealizadas se las llamar
intrnsecamente lineales.
Evidentemente, en el caso de que los resultados experimentales conduzcan a un diagrama
de dispersin al cual corresponde una curva de aproximacin intrnsecamente lineal,
aplicando los cambios de variables del caso a los resultados experimentales se obtendr un
diagrama de dispersin al cual corresponder una curva de aproximacin rectilnea.

d.

En el caso de que nada sugiera el tipo de curva de aproximacin a adoptar, por ejemplo el
caso de la perdigonada de la figura CR II.c, la poltica que generalmente se adopta es
suponer una lnea recta como curva de aproximacin.

CR 6

CR III
Mtodo de los mnimos cuadrados
a.

Una vez decidido el tipo de curva que se adoptar como curva de aproximacin, quedan por
definir los coeficientes de la ecuacin correspondiente que den el mejor ajuste posible de la
curva al diagrama de dispersin.
Considrese el caso de la figura CR III.a, en la cual los puntos del diagrama de dispersin
son (x1 , y1), , (xn , yn). Sea C una curva de aproximacin del tipo elegido, pero de la cual
todava no se conocen los valores de sus coeficientes.

(xn , yn)

y
Curva C
y* = f(x)

dn
(xn , y n* )

(x1 , y1)
*
d1 (x2 , y 2 )
(x1 , y1* )

d2
(x2 , y2)
x
Fig. CR III.a

Para x = x1 habr una desviacin d1 entre y1 y el valor y1* correspondiente a la curva C. Es


decir que d1 = y1 y1* . A este valor d1 se lo llamar desviacin, error, o valor residual en x1.
Este valor puede ser positivo, negativo o nulo.
Anlogamente, asociadas a x = x2, , x = xn, existirn desviaciones d2, , dn.
Se define que la magnitud de la desviacin del conjunto de los n valores y1, , yn de la
curva de aproximacin est dada por la magnitud:

D = d12 + ... + d n2

[1]

El problema queda ahora reducido a encontrar los coeficientes de un tipo de curva de la C


que hagan mnimo el valor D. Una vez determinados estos valores, a la curva
correspondiente se la llamar curva de regresin de Y sobre X.

b.

Si en vez de considerar el procedimiento recin indicado se hubieran tomado desviaciones


horizontales en vez de verticales (ver figura CR III.b), se encontrara una curva C de
regresin de X sobre Y.

CR 7

y
Curva C
x* = (y)

(x2 , y2) d2
(x1 , y1)
d1

(xn , yn) dn

( x n* , yn)

( x 2* ,y2)
( x1* , y1 )
x
Fig. CR III.b

Notar que:
1. La curva C de regresin de Y sobre X es tal que y* = f(x)
La curva C de regresin de X sobre Y es tal que x* = (y)
2. Salvo casos excepcionales, estas dos curvas de regresin no coinciden.
c.

Surge ahora una pregunta:


Porque en vez de considerar desviaciones verticales tal como usadas en a. o desviaciones
horizontales tal como usadas en b. no se consideran desviaciones perpendiculares a los
puntos a la curva.
La respuesta es muy sencilla: El trato ulterior del problema sera mucho mas complicado.

CR IV
Rectas de regresin
a.

Sea un diagrama de dispersin. Se buscar la recta que mejor se adapte a dicha dispersin en
el sentido de hacer mnima a la magnitud D definida en [1] de CR III.
Se deja constancia de que no es indispensable que los puntos del diagrama tengan una
tendencia rectilnea.

b.

Es conveniente, a fin de simplificar los clculos, expresar la ecuacin de dicha recta como:
y* = a0 + a1(x x )

[1]

donde los coeficientes a0 y a1 son por el momento desconocidos.


Los valores de a0 y a1 que hacen mnima a la magnitud:
n

i =1

i =1

D = d12 + ... + d n2 = ( yi yi* ) 2 = yi a0 a1 ( xi x )

Ver [1]

CR 8

han de ser tales que:


n
D
=

2[yi a0 a1 ( xi x )](1) = 0
a0 i =1

n
D = 2[ y a a ( x x )][ ( x x )] = 0
0
1 i
i
a1 i
i =1

Simplificando estas expresiones se obtiene:


n
n

na0 + a1 ( xi x ) = yi = ny

i =1
i =1
n
n
n
a
( xi x ) + a1 ( xi x ) 2 = ( xi x ) yi

i =1
i =1
i =1

y teniendo en cuenta que

( xi x ) = 0 resulta:

i =1

( xi x ) y i

a0 = y

a1 = i =1

[2]

( xi x )

i =1

y por [1] resulta entonces que la recta de regresin ptima de Y sobre X ser:
n

( xi x ) y i

y = y +

i =1
n

(x x)

[3]

( xi x ) 2

i =1

c.

Como:
n

i =1

i =1

( xi x )( yi y ) = ( xi x ) yi + y ( xi x ) = ( xi x ) yi
=14243
i1
=0

i =1

resulta que la expresin [3] puede ser puesta bajo cualquiera de las siguientes formas:
n

( xi x )( yi y )

y* = y + i =1

( xi x ) 2

i =1

(x x)

[4]

CR 9

= sY

y* = y +

1 n
( xi x )( yi y )
n i =1

1 n
( yi y ) 2
n i =1

1 n
1 n
( xi x ) 2

( yi y ) 2
n i =1
n i =1

1 n
( xi x ) 2
n i =1

= r (ver [1] de CR I)

d.

(x x)

= sX

s
y* = y + r Y ( x x )
sX

[5]

( y* y)
(x x)
=r
sY
sX

[6]

Por un procedimiento anlogo al recin desarrollado se obtendra que la recta de regresin


de X sobre Y es:
s
x* = x + r X ( y y )
sY

[7]

o, bajo otra forma:


( x* x )
( y y)
=r
sX
sY

e.

Observando las ecuaciones [5] y [7] resulta que:


s
Pendiente de la recta de regresin de Y sobre X = r Y
sX
s
Pendiente de la recta de regresin de X sobre Y = r X
sY

f.

Por [1] de CR III y por [5] se tiene que:

[8]

CR 10
n

D=

=
=

( yi

i =1
n

yi* ) 2

( y i y )

i =1

s
= ( y i y ) r Y ( xi x ) =
sX

i =1
n

2
2 sY
+r
s 2X

s
( xi x ) 2 2r Y ( xi x )( yi y ) =
sX

sY2 n

i =1

s 2X i =1

( yi y ) 2 + r 2

( xi x ) 2 2 r s Y ( xi x )( y i y ) =
X i =1

(Ver [1] de CR I)

= n sY2 + n r 2 sY2 -2 n sY2 r 2 = n sY2 (1 + r2 2r2) = n sY2 (1 r2)


Resumiendo:
D = n sY2 (1 r2)

[9]

Este valor ha sido hallado considerando la regresin de Y sobre X.


Si se hubiera considerado la regresin de X sobre Y se habra hallado:
D = n s 2X (1 r2)

[10]

valor que diferir de D si sX sY.


Observar que si fuera r = 1 (todos los puntos sobre una misma recta) resultara D = D = 0.

g.

En todo lo antedicho se ha supuesto que tanto los valores xi como los yi son valores
asumidos por variables aleatorias X e Y, pero los razonamientos hechos son asimismo
vlidos para el caso en que una de las variables asuma valores controlados por el operador.
Por ejemplo, supngase que se forme un grupo de 1000 personas de 40 aos de edad, otro de
1000 personas de 41 aos, , y otro de 1000 personas de 60 aos, y que se halle la presin
arterial promedio de cada grupo.
Haciendo corresponder la variable X a la edad y la variable Y a la presin arterial promedio,
se tendr que los valores asumidos por X son controlados y que los asumidos por Y son
aleatorios.

h.

El objetivo principal del anlisis de la regresin consiste en obtener predicciones del valor
que asumir la variable Y para un valor determinado de X (o viceversa). Esto es vlido no
solo para el caso de una regresin lineal, sino tambin para cualquier otro tipo de regresin.
Considrese por el momento el caso de una regresin lineal. Sea [5] la recta de regresin
lineal correspondiente al caso. Dado un valor x, se tiene que y* es la estimacin mximo
verosmil del valor que asumir Y cuando X asuma el valor x.
Por otra parte, como los valores (xi , yi) no se ajustan exactamente a la antedicha recta de
regresin, la antedicha estimacin mximo verosmil est sujeta a un cierto error.
El as llamado error tpico de estimacin de Y sobre X est definido por la expresin:

CR 11

( yi yi* ) 2

YX

= i =1

D
= sY2 (1 r 2 ) = s
Y
n

(1 r 2 )

[11]

Ver [9]
Ver [1] de CR III
Este error tpico de estimacin tiene propiedades anlogas a la de la desviacin tpica. Por
ejemplo, si se trazan pares de rectas paralelas a la recta de regresin a distancias verticales
sYX (2 sYX) para n grande se encontrar que entre dicho par de rectas estar
aproximadamente el 68 % (el 95 %) de los puntos del diagrama de dispersin.

CR V
Aplicaciones
CRV 1
a.
La tabla de la figura CR V.a da en Kg. los pesos X e Y de una muestra de 12 padres y sus
hijos varones mayores, ambos a la edad de 18 aos.
Peso X del padre
Peso Y del hijo

65
68

63
66

67
68

64
65

68
69

62
66

70
68

66
65

68
71

67
67

69 71
68 70
Fig. CR V.a

Se pide hallar:
- El coeficiente de correlacin lineal entre X e Y.
- La recta de regresin de Y sobre X.
- La recta de regresin de X sobre Y.
- El error tpico de estimacin de Y sobre X.

b.
xi

yi

xi x

yi y

65
63
67
64
68
62
70
66
68
67
69
71
= 800

68
66
68
65
69
66
68
65
71
67
68
70
= 811

-1,7
-3,7
0,3
-2,7
1,3
-4,7
3,3
-0,7
1,3
0,3
2,3
4,3

0,4
-1,6
0,4
-2,6
1,4
-1,6
0,4
-2,6
3,4
-0,6
0,4
2,4

( xi x ) 2
2,89
13,69
0,09
7,29
1,64
22,09
10,89
0,49
1,69
0,09
5,29
18,49
= 84,68

( yi y ) 2
0,16
2,56
0,16
6,76
1,96
2,56
0,16
6,76
11,56
0,36
0,16
5,76
= 38,92

( xi x )( yi y )
-0,68
5,92
0,12
7,02
1,82
7,52
1,32
1,82
4,42
-0,18
0,92
10,32
= 40,34
Fig. CR V.b

CR 12

x=

800
811
84,68
38,92
= 66,7 ; y =
= 67,6 ; s X =
= 2,656 ; s Y =
= 1,8
12
12
12
12

1 40,34
12
r=
= 0,703

[1]

2,656 1,8

Recta de regresin de Y sobre X (ver [5] de CR IV):


y* = 67,6 + 0,703

1,8
(x 66,7) = 35,82 + 0,476 x
2,656

[2]

Recta de regresin de X sobre Y (ver [7] de CR IV):


x* = 66,7 + 0,703

2,656
(y 67,6) = 3,42 + 1,0373 y
1,8

[3]

Ver figura CR V.c.

73

x* = 3,42 + 1,0373 y

Peso del hijo

71

y* = 35,82 + 0,476 x

69
67
65
63

x
61
61

63

65

67

69

71

Peso del padre

c.

Error tpico de estimacin de Y sobre X (ver [11] de CR IV)

sYX = 1,8 1 (0,703) 2 = 1,28

73

Fig. CR V.c

CR 13

y
73

Peso del hijo

71

Recta de regresin
de Y sobre X

69

sYX
67

sYX

65
63
61
61

63

65

67

69

Peso del padre

71

73

Fig. CR V.d

La recta de regresin indicada en [2] est dibujada en trazo grueso en la figura CR V.d. Sus
paralelas a distancia vertical sYX = 1,28 estn dibujadas en trazo punteado. Se ve en dicha
figura que 7 de los 12 puntos caen entre dichas paralelas y 2 aparecen sobre ellas. Una
aritmtica mas fina (mas decimales) revelara que uno de esos dos tambin caera entre las
paralelas. Por lo tanto 812 = 66,66 % de los puntos caen entre las paralelas, obtenindose as
un porcentaje prximo al 68 % predicho en h. de CR IV. Esta diferencia es debida a la
escasa cantidad de puntos del diagrama de dispersin considerado.

CRV 2
a.

Supngase que interese calcular la aceleracin de la gravedad midiendo con un cronmetro


de mano los perodos de oscilacin de pndulos de distintas longitudes que describen
oscilaciones pequeas.
Segn visto en fsica se tiene que:

T = 2

L 2 1 2
=
L
g
g

siendo:
T = Perodo de oscilacin (seg)
L = Longitud del pndulo (m)
g = Aceleracin de la gravedad ( m

seg 2

[1]

Evidentemente, si se pudiera medir con absoluta precisin el perodo de oscilacin de un


pndulo de una longitud determinada se podra determinar a g con una nica medicin, pero
dado lo rudimentario del mtodo usado para medir los tiempos de oscilacin en este
experimento, es inevitable que los resultados obtenidos no sern coincidentes para distintas
longitudes del pndulo considerado.

b.

Poniendo en [1]:

CR 14

y=T

x=L

k=

r=

[2]

dicha frmula toma el aspecto:


r

y=kx

[3]

Efectuando el experimento para diversas longitudes del pndulo se obtiene un cierto


diagrama de dispersin, y por conocimiento previo del fenmeno fsico involucrado, se sabe
que la curva de aproximacin adecuada al caso ser de la forma:
r

y* = k x

[4]

Esta curva de aproximacin es intrnsecamente lineal (ver CR II.c) ya que haciendo el


cambio de variables:

x= lgex

y= lgey

[5]

se obtiene la curva de aproximacin rectilnea:

y* = lgek + r x

c.

[6]

Sean los datos experimentales crudos indicados en la figura CR VI.a a los cuales
corresponden los datos modificados segn [5] indicados en la figura CR VI.b.

x= L
(m)
1,025
0,805
0,745
0,675
0,615
0,515
0,435
0,370
0,325
0,270
0,205

y=T
(seg)
2,025
1,813
1,739
1,650
1,573
1,441
1,338
1,232
1,149
1,051
0,912

Fig. CR VI.a

Segn indicado en [3] de CR IV se tiene que:

x=lgex = lgeL

y=lgey = lgeT

0,0246926
-0,216913
-0,294371
-0,3930425
-0,486133
-0,6635883
-0,8324092
-0,9942522
-1,1239301
-1,3093333
-1,5847453

0,7055697
0,5949829
0,5533102
0,5007753
0,4529846
0,3653373
0,2911760
0,2086389
0,1388920
0,0497421
-0,0921152

Fig. CR VI.b

CR 15
11

( xi x) yi

y* = y+ i =1

11

( xi x)

11

( xi x) yi

( x x) = y i =1

11

11

x + i =1

( xi x)
1
=
i
144424443
a0

i =1

( xi x) yi
11

[7]

( xi x)
1
=
i
144244
3
a1

Resumiendo:
y* = a0 + a1 x

y comparando con [6] resulta que:


a0 = lgek = lge

2
g

Ver [2]
y por lo tanto:

a0

2
g =
g
e a0

Efectuando los clculos indicados en [7] (evidentemente con la ayuda de una computadora),
en base a los datos de la figura CR VI.b se llega a que:

a0 = 0,7172 g = 9,406
lo cual constituye una aproximacin razonable de la magnitud de la aceleracin de la
gravedad, visto y considerando la precariedad del mtodo empleado.

CR VII
Regresin curvilnea
a.

Si el diagrama de dispersin indica que una recta no se adaptar satisfactoriamente a los


datos obtenidos debido a la no linealidad de la tendencia observada, debe adoptarse otro tipo
de curva de aproximacin.
Si no hay razones bsicas que sugieran un cierto tipo de curva, generalmente se usarn
curvas polinmicas por su simplicidad y flexibilidad.
Por inspeccin puede a menudo determinarse el grado de la curva polinmica mas sencilla
que se ajuste a los valores obtenidos.

b.

A ttulo de ejemplo se supondr que la curva del caso es una parbola cuya ecuacin es:

y* = a0 + a1x + a2x2

CR 16

Entonces se tiene que:

D = d 2 + ... + d n2 =
1

n
2
*)2 =

y
y
(
i i
yi a0 a1xi a2 xi2
i =1
i =1

Los valores de a0, a1 y a2 que hacen mnima a D han de ser tales que:
n
D

= 2 yi a0 a1 xi a 2 xi2 (1) = 0

a0
=
1
i

n
D
=

2 yi a0 a1xi a2 xi2 ( xi ) = 0

a
1 i =1

n
D =
2 y a0 a1 xi a 2 xi2 ( xi2 ) = 0

a 2 i
i =1

Simplificando estas expresiones se obtiene:


n
n
n

na0 + a1 xi + a 2 xi2 = yi

i =1
i =1
i =1

n
n
n
n

2 +a
3=
a
x
a
x
x
+
0 i
xi yi
1 i
2 i
i =1
i =1
i =1
i =1

n
n
n
n
a
xi2 + a1 xi3 + a 2 xi4 = xi2 yi

i =1
i =1
i =1
i =1
Resolviendo este sistema se hallan los coeficientes a0, a1 y a2 que proporcionan el mejor
ajuste posible de la parbola a los datos del problema.

c.

La generalizacin de lo visto en b. al caso en que la curva de aproximacin sea un


polinomio de grado k es obvia.
Se obtendr un sistema:
n
n
n

na0 + a1 xi + ... + ak xik = yi

i =1
i =1
i =1

n
n
n
n

2
k +1 =
xi yi
a0 xi + a1 xi + ... + ak xi

i =1
i =1
i =1
i =1

..........
..........
..........
..........
..........
..........
..........
...

n
n
n
n
a0 x k + a1 x k +1 + ... + a k x 2k = x k yi
i
i
i
i

i =1
i =1
i =1
i =1

y resolviendo este sistema se hallarn los valores a0, a1, , ak que implican el mejor ajuste
posible de la curva polinmica:

CR 17

y* = a0 + a1x + + ak xk
a los datos del problema.

c.

En este caso de regresin polinmica, el error tpico de estimacin de Y sobre X viene dado
por la expresin:
n

( yi a0 a1xi ... ak xik ) 2

sYX = i =1
d.

En a., b. y c. se ha tratado el caso de una regresin polinmica de Y sobre X.


Una regresin polinmica de X sobre Y sera tratada de una manera anloga.

CR VIII
Observaciones
a.

Lo visto en este captulo constituye apenas un viaje exploratorio al mundo de la


correlacin y regresin, habindose tratado nicamente de introducir los conceptos
fundamentales de dichos temas.
Un tratamiento completo insumira unas 100 o mas pginas.

b.

Los problemas de correlacin y regresin implican por lo general una dosis inaceptable de
aritmtica si sta se hace a mano.
Si se trabaja profesionalmente en este tema es prcticamente indispensable el uso de una
computadora dotada de un software adecuado.
Hoy en da muchas calculadoras cientficas tienen el modo reg que con solo ingresar los
pares de datos se obtienen los parmetros de la recta de ajuste (a0 y a1).

c.

Vale la pena citar la reflexin hecha por M. I. Moroney en su pequeo gran libro Hechos y
Estadsticas.
La rama de la estadstica que mayor similitud tiene con una mquina de hacer salchichas
es el anlisis de la correlacin y regresin. El problema de la interpretacin de los resultados
es siempre mucho mas difcil que las manipulaciones estadsticas.
Para hacer una interpretacin correcta de los resultados no hay substituto para el
conocimiento profundo y detallado del problema que se tiene entre manos y de sus
condiciones de contorno.
El estadstico puede ayudar al especialista en su campo, pero no puede nunca sustituirlo.
Quien usa sin precauciones herramientas de alto filo tiene un gran riesgo de cortarse.

CR 18

APNDICE
Curvas de aproximacin intrnsecamente lineales
a.

En el prrafo CR II c. se defini lo que son las curvas de aproximacin intrnsecamente


lineales.
En la tabla de la figura A.CR.a se indican algunas de las curvas de aproximacin
intrnsecamente lineales mas comunes junto con los correspondientes cambios de variables
que determinan que a los resultados experimentales modificados por dichos cambios
corresponda una curva de aproximacin lineal.

Caso

Curva de aproximacin
intrnsecamente lineal

(a)
(b)
(c)
(d)

y* = a ebx
y* = a xb
*
y = a + b lge x
y* = a + b x

Cambios de variables a
aplicar a los resultados
experimentales crudos
x= x ; y= lge y
x= lge x ; y= lge y
x= lge x ; y= y
x= 1 x ; y= y

Curva de aproximacin
despus de efectuado el
cambio de variables
y* = lge a + bx
y* = lge a + bx
y* = a + bx
y* = a + bx
Fig. A.CR.a

En la figura A.CR.b se han graficado las curvas de aproximacin intrnsecamente lineales


indicadas en la segunda columna de la tabla A.CR.a.
y

b>1

b>0

0< b<1

a
b<0

b<0
x

(a)

(b)

y
b>0

b>0
a
b<0

b<0
0
(c)

(d)

x
Fig. A.CR.b

CR 19

Ejercicios sobre Correlacin y Regresin


CR 1 Demostrar que la frmula [1] de CR I (definicin del coeficiente de correlacin) tambin
podra ser expresada bajo la forma (mucho mas econmica en aritmtica):

r=

n
n n
n xi yi xi yi

i =1
i =1 i =1
2
2
n
n n
n
n x 2 x n y 2 y
i i i i
i =1 i =1
i =1
i =1

CR 2 Explicar porque no sera sorprendente encontrar una alta correlacin entre el trfico en la
Panamericana y la altura de la marea en Ro Gallegos. Supngase que se hacen mediciones
cada hora entre las 6 y 10 de la maana y que la marea mxima en Ro Gallegos ocurra a las
8 de la maana.
CR 3 Cual sera el efecto en el valor r del coeficiente de correlacin entre el peso y la estatura de
los varones de todas las edades si solo fueran muestreados varones entre 20 y 25 aos.
Haga un diagrama de dispersin para ayudar su contestacin.
CR 4 Si la recta de regresin de Y sobre X es y* = a0 + a1 x, y la recta de regresin de X sobre Y es
x* = b0 + b1 y, probar que a1b1 = r2.
CR 5 La tabla adjunta muestra los ndices de precios de la alimentacin X y de los gastos mdicos
Y a los largo de 9 aos. Se pide hallar:
- El coeficiente de correlacin lineal de Y y X.
- La recta de regresin de Y sobre X.
- La recta de regresin de X sobre Y.
- El error tpico de estimacin de Y sobre X.
X
Y

175
169

181
185

192
202

211
219

235
240

255
266

275
295

286
329

292
357

CR 6 Ajustar una parbola al conjunto de datos de la tabla adjunta:


X
Y

1,2
4,5

1,8
5,9

3,1
7,0

4,9
7,8

5,7
7,2

7,1
6,8

8,6
4,5

9,8
2,7

(La cantidad de aritmtica que requiere este problema implica el uso de una computadora).

También podría gustarte