Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Regresion Simple PDF
Regresion Simple PDF
"Regresin Y CORRELACIN"
6.1.1 Introduccin
Regresin es una palabra un tanto rara. La utilizan los bilogos, los mdicos, los
psiclogos... y suena como "ir hacia atrs", "volver al pasado", y realmente este es
verdadero significado del vocablo.
Fue un bilogo y estadstico ingls, SIR FRANCIS GALTON*, quien introdujo en
1889 el trmino regresin en Estadstica. Emple este concepto para indicar la relacin
que exista entre la estatura de los nios de una muestra y la estatura de su padre.
Observ, que si los padres son altos, los hijos generalmente tambin lo son, y si los
padres son bajos los hijos son tambin de menor estatura. Pero ocurra un hecho
curioso: cuando el padre es muy alto o muy bajo, aparece una perceptible "regresin"
hacia la estatura media de la poblacin, de modo que sus hijos retroceden hacia la
media de la que sus padres, por cierto, estn muy alejados. Hoy da, el trmino no se
utiliza en ese sentido.
En muchas ocasiones, se desea conocer algo acerca de la relacin o dependencia
entre dos caractersticas cuantitativas, o msde una, consideradas sobre la misma
poblacin objeto de estudio (por ejemplo la talla y el peso). Hay muchos casos en los
que ya de antemano se "sospecha" que puede existir algn tipo de relacin, y por
consiguiente, se pretende saber por ejemplo, en el caso de que tengamos nicamente dos
variables:
1.- Si ambas variables estn realmente relacionadas entre s o si, por el
contrario, pueden considerarse independientes.
2.- Si existe dependencia, es necesario conocer el "grado de relacin", as
como el "tipo" de relacin entre ambas.
3.- Si puede predecirse la variable que es considerada como dependiente a
partir de los valores de la otra, que es considerada independiente, y si es as,
con qu precisin.
El orden de exposicin de los dos Anlisis es arbitrario. El orden para su estudio puede invertirse.
El Anlisis de regresin, :
a.- Cul es el tipo de dependencia entre las dos variables?
b.- Pueden estimarse los valores de Y a partir de los de X?. Con qu
precisin?.
De modo general, diremos que existe regresin de los valores de una variable con
respecto a los de otra, cuando hay alguna lnea, llamada lnea de regresin que se
ajusta ms o menos claramente a la nube de puntos.
Si existe regresin, a la ecuacin que nos describe la relacin entre las dos
variables la denominamos ecuacin de regresin.
Por ejemplo:
Y=a+bX
Y=a+bX+cX2
" (x i ! x)( yi ! y )
SXY = i =1
SIGNIFICADO DE a y b
a es la ordenada en el origen, es decir, es la altura a la que la recta corta al eje Y.
Se denomina tambin trmino independiente.
b, tambin denominada pendiente es la inclinacin de la recta, es decir, es el
incremento que se produce en la variable Y cuando la variable X aumenta una unidad.
Por ejemplo, en el caso anterior Y=3+2X, por cada unidad que incrementa la X, la
Y presenta un incremento medio de 2 unidades.
10
Figura 6.5: Nube de puntos y posibles rectas que pueden pasar por ella.
Que pase lo ms cerca posible de todos los puntos, es decir que diste poco de
todos y cada uno de ellos significa que hemos de adoptar un criterio particular que en
general se conoce como MNIMOS CUADRADOS. Este criterio significa que la suma
de los cuadrados de las distancias verticales de los puntos a la recta debe ser lo ms
pequea posible (ver figura 6.6). (Obviamente, este es uno de los posibles criterios a
adoptar, pero es el ms utilizado).
Y
yi
(xi, yi)
*
* Y* = a+bX
*
*
*
*
(xi, yi )
*
*
* *
*
*
*
*
* * * *
* * *
ei
xi
Figura 6.6: Recta de regresin mostrando los residuos o errores que se minimizan
en el procedimiento de ajuste de los Mnimos cuadrados.
11
D = ! ei
mnima
i=1
Dado que la recta de regresin deber tener carcter de lnea media, esa suma de
distancias deber anularse (lo mismo que suceda, como veamos en la primera unidad
didctica al tratar de hallar la suma de las diferencias con respecto a la media
aritmtica). Por las mismas razones que entonces, para evaluar la dispersin,
trabajaremos con esas distancias, pero al cuadrado, de modo que la funcin que
deberemos minimizar ser:
n
(
i=1
n
D = ! e 2i = ! yi " y#i
i=1
i=1
" ( yi ! a ! bxi ) = 0
i =1
n
i =1
12
i =1
i=1
na + b ! x i = ! yi
n
i =1
i=1
i =1
a ! x i + b ! x2i = ! x iy i
a = y ! bx
S
b = XY
s2X
La interpretacin de a y b, es anloga a la que comentbamos en el apartado
6.1.3.2, slo que como ya dijimos entonces, b recibe el nombre de Coeficiente de
Regresin.
Como podemos observar, en el numerador de b, aparece la covarianza, y en el
denominador la varianza de la variable independiente. Esto hace que el signo de b sea el
mismo signo que el de la covarianza, por lo que si b>0, entonces, existe una relacin
directa entre las variables, y si b<0 entonces la relacin es inversa.
En nuestro ejemplo de talla y edad, b sera el incremento medio que se produce en
la talla, por cada incremento unitario de edad; si la edad est en aos, por cada ao
aumente la edad.
Si queremos predecir un valor yi a partir de un valor concreto de xi, utilizaremos
la expresin de la ecuacin donde ahora ya, a y b son conocidos. No olvidemos que ese
era uno de los objetivos del anlisis, tratar de conocer valores de Y a partir de los de X:
y*i = a+bxi
13
(
i =1
n
S2e =
# yi ! y"i
i=1
i =1
S2e = i =1
14
Ahora, ya es fcil obtener una media que nos indique el porcentaje de variaciones
controladas o explicadas mediante el modelo, que se conoce como Coeficiente de
Determinacin, que denotaremos con R2. Su expresin en tantos por 1, ser:
S2
R 2 = 1! 2e
sy
Como puede observarse, a partir de la expresin anterior: 0< R2 <1. Por tanto:
Si R2=1, entonces no hay residuos, habr una dependencia funcional. Cuanto ms
se acerque dicho valor a la unidad, mayor poder explicativo tendr el modelo de
regresin.
Si R2=0, X no explica en absoluto ninguna de las variaciones de la variable Y, de
modo que o bien el modelo es inadecuado, o bien las variables son independientes.
Cuanto ms cercano a 0 est dicho valor, menor poder explicativo.
15
EXTRAPOLACIN
Es importante, resaltar el hecho de que a la hora de hacer predicciones, no deben
extrapolarse los resultados ms all del rango de la variable X utilizado para ajustar el
modelo, ya que ms all de ese rango no sabemos qu puede estar ocurriendo.
Por todos es conocido que las plantas necesitan abono para poder crecer. Desde
pequeos hemos aprendido que hay que abonarlas, de modo que en principio, cuanto
ms abono se les suministre ms crecern. Pero... qu ocurrira si abonsemos
demasiado el suelo?. Obviamente la planta morira. Bien, esto se traduce, en que
conforme aumenta la cantidad de abono, el crecimiento es ms notable, pero a partir de
un punto, la planta deja de crecer, y es ms se muere. Esto queda reflejado en la figura
6.7. De ah el peligro de extrapolar los resultados.
16
Figura 6.7: Comparacin de una posible verdadera relacin entre cantidad de abono
y crecimiento de una planta, con los resultados de una recta de regresin obtenida
mediante el estudio de un rango limitado de valores de abono.
PARBOLA DE REGRESIN
En muchos casos, es una funcin de segundo grado la que se ajusta lo suficiente a
la situacin real dada.
La expresin general de un polinomio de 2 grado es:
17
Y=a+bX+cX2
donde a, b y c son los parmetros.
El problema consiste, por tanto, en determinar dichos parmetros para una
distribucin dada. Seguiremos para ello, un razonamiento similar al que hicimos en el
caso del modelo de regresin lineal simple, utilizando el procedimiento de ajuste de los
mnimos cuadrados, es decir, haciendo que la suma de los cuadrados de las desviaciones
con respecto a la curva de regresin sea mnima:
n
D = # (y i ! y"i )2
i=1
i=1
i =1
! yi = na + b ! x i + c ! x 2i
i =1
n
i =1
n 2
n
! xi yi = a ! xi + b ! xi + c ! x 3i
i =1
i=1
i=1
i=1
n
n
n
n
! x2i yi = a ! x 2i + b ! x 3i + c ! x 4i
i =1
i=1
i=1
i=1
i=1
18
Modelo exponencial:
Tomando logaritmos en la expresin de la funcin exponencial, obtendremos:
logY = logA + logB X
Tambin se trata de la ecuacin de una recta Y=a+bX, pero ahora ajustndola a
logY y a X; de modo que, para obtener el parmetro A del modelo exponencial, basta
con hacer antilog(a), y el parmetro B se obtiene tomando antilog(b).
Modelo logartmico:
La curva logartmica Y = a + b logX es tambin una recta, pero en lugar de estar
referida a las variables originales X e Y, est referida a logX y a Y.
19
6.1.4 Correlacin
Como hemos visto con anterioridad, al analizar las relaciones existentes entre dos
variables aleatorias cuantitativas, deberemos responder a las preguntas, de si existe
dependencia estocstica entre ellas y de qu grado. El anlisis de correlacin nos dar
respuesta a dichas preguntas.
r=
Sxy
sxsy
20
r 2 = R2
21
grados de
libertad (n-2)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
5%
1%
.997
.950
.878
.811
.754
.707
.666
.632
.602
.576
.553
.532
.514
.497
.482
.468
.456
.444
.433
.423
.413
.404
.396
1.000
.990
.959
.917
.874
.834
.798
.765
.735
.708
.684
.661
.641
.623
.606
.590
.575
.561
.549
.537
.526
.515
.505
grados de
libertad (n-2)
24
25
26
27
28
29
30
35
40
45
50
60
70
80
90
100
125
150
200
300
400
500
1000
5%
1%
.388
.381
.374
.367
.361
.355
.349
.325
.304
.288
.273
.250
.232
.217
.205
.195
.174
.159
.138
.113
.098
.088
.062
.496
.487
.478
.470
.463
.456
.449
.418
.393
.372
.354
.325
.302
.283
.267
.254
.228
.208
.181
.148
.128
.115
.081