Está en la página 1de 7

Regresin Lineal y Correlacin

1. Ecuacin lineal simple



Si tenemos dos variables como X e Y, y estas estn relacionadas tal
que Y = 3 + 1.5 X; esta relacin nos permite calcular cualquier valor de
Y dado un valor de X. Adems nos describe el efecto de un cambio en
la variable X en los valores que toma Y. Especficamente el coeficiente
de X indica el cambio en el valor de Y originado por el cambio en una
unidad de X.
En nuestra ecuacin Y vara en 1.5 unidades cuando X varia en una
unidad.
En este caso Y aumente cuando X aumenta, por lo que se dice que
estn relacionadas directamente.
Si tenemos una ecuacin como Y = 100 - 25 X, el valor de Y disminuir
en 2 unidades por cada unidad que aumente X; luego en este caso
diremos que X e Y estn relacionadas inversamente.

El signo del coeficiente nos indica el tipo de relacin que existe entre las
variables.

Y = 3 + 1.5X Primer Grado
Y = 3 + 2X + 4X
2
Segundo Grado
Y = 3 + 7X + 5X
3
Tercer Grado
Las ecuaciones anteriores tienen diferentes grados, los que dependen
del mayor exponente incluido en la ecuacin, pero todas son
ecuaciones simples pues ellas solo expresan una relacin entre dos
variables.
Si tuviramos una ecuacin tal como Y = 3X + 8Z, esta expresa una
relacin entre ms de dos variables (X, Y, Z ) y se llama una ecuacin
mltiple.
Ecuaciones simples se representan por Diagramas de dispersin.
Una ecuacin con la forma genrica Y = a + b X, que es una ecuacin
simple de primer grado y su representacin grfica es una recta, se le
denomina ecuacin lineal simple.

2. Regresin lineal simple

La finalidad del anlisis de regresin simple es establecer una
relacin cuantitativa (ecuacin) entre dos variables relacionadas.
Una vez hecho esto podemos predecir valores de una variable en base
a los valores conocidos de otra.
La variable cuyo valor se predice se denomina variable dependiente y
se designa con la letra Y.
La variable conocida se llama variable independiente y se designa con
la letra X. Para establecer esta relacin entre X e Y es necesario contar
con informacin muestral. Esta informacin es un conjunto de pares de
observaciones de X e Y; cada par pertenece a un elemento de la
muestra.
Una vez recopilados los datos necesarios, la relacin entre variables
puede establecerse grficamente o matemticamente (mnimos
cuadrados).
Tenemos la siguiente informacin recolectada referida a la altura
que alcanza una muestra de plantas versus la edad de las mismas.

Altura cms. 9 5 7 14 10
Edad meses 3 1 2 5 4


3. Mtodos de clculo

a. Grfico
Cada par de observaciones representa un punto en el diagrama.
La variable independiente X se grfica en el eje horizontal y la dependiente
Y en el eje vertical.
A este diagrama se le conoce con el nombre de Diagrama de dispersin
o puntos. Una vez graficados todos los puntos, trazamos una recta que
trate de unirlos (relacionarlos) a todos; a esta recta se le conoce con el
nombre de recta estimada de regresin (Y'), Esta recta nos permitir
predecir el valor de Y para cualquier valor de X. Este mtodo es simple y
directo.
Su principal inconveniente es la naturaleza subjetiva del procedimiento,
existirn diferentes rectas dependiendo de las personas que la
confeccionen
















b. Matemtico o de los mnimos cuadrados
Sabemos que la ecuacin genrica de una recta es:
Y = a + bX (Ecuacin de regresin)
Este mtodo nos permitir hallar las constantes a y b que se
denominan coeficientes de regresin.
Para hallar estos coeficientes tambin nos Pasamos en los pares
observados con los cuales se llevan a cabo los siguientes clculos
preliminares:
n Y X Y
2
X
2
XY
1 9 3 81 9 27
2 5 1 25 1 5
3 7 2 49 4 14
4 14 5 196 25 70
5 10 4 100 16 40
Y=45 X=15 Y
2
=451 X
2
=55 XY=156
La siguiente etapa consiste en estas en las llamadas ecuaciones
normales:

Donde n es el nmero de pares observados empleados en el
clculo de la regresin, a y b son los coeficientes de regresin,
remplazando los datos podemos construir un sistema de
ecuaciones con dos incgnitas:
45 = 5a+15b (1) *(-3)
156= 15a + 55b (2)
Resolviendo el sistema (1) y (2)
b = 2.1
Remplazando en (1)
a = 2.7

Remplazando los coeficientes a y b en la ecuacin de regresin
tenemos: Y=2.7 + 2.1X
El clculo de los coeficientes se podr efectuar de manera
abreviada, es decir sin tener que construir un sistema de
ecuaciones, empleando una variacin de las ecuaciones normales,
las que se vern el la parte final de este captulo.
Es conveniente efectuar una distincin entre el valor observado y
el valor estimado de Y.
El primero se refiere a la observacin efectiva (hecho o dato real)
mientras que el segundo se refiere a un valor hallado o calculado
en base a los datos observados y a la ecuacin de regresin (valor
estimado).
Estos dos valores pueden no ser iguales.
Para evitar confusiones se designa con la letra Y a los valores
observados y con Y a los valores estimados, quedando la ecuacin
de la siguiente forma: Y = 2.7 + 2.1X
La diferencia la podemos apreciar en el siguiente grfico.












4. Error estndar de estimacin
Designado por S
yx
, mide la disparidad promedio entre los valores
efectivos y estimados de la variable Y.

Empleando los datos de nuestro ejemplo tenemos:

N Y X Y (Y-Y) (Y-Y)
2
1 9 3 9.0 0.0 0.00
2 5 1 4.8 0.2 0.04
3 7 2 6.9 0.1 0.01
4 14 5 13.2 0.8 0.64
5 10 4 11.1 -1.1 1.21
(Y-Y)
2
=1.90
Reemplazando en la frmula: S
YX
= 0.80 cms.

S
YX
podemos considerarlo como un indicador del grado de precisin
con que la ecuacin de regresin describe la relacin entre variables.
Si S
YX
, es pequeo es una buena descripcin de la relacin entre las
variables, si se acerca a CERO entonces Y = Y' luego la relacin es
exacta.
Si S
YX
es grande, hay una gran disparidad entre Y e Y', luego la
ecuacin describe deficientemente la relacin entre las variables. S
YX
se
mide en las mismas unidades que Y.
Al S
YX
no se le considera como una buena medida del grado de
relacin entre los valores de las variables, pues es afectada por las
unidades en que se expresa.
Para determinar un adecuado grado de relacin emplearemos el
coeficiente de correlacin.

5. Coeficiente de Correlacin (r) y Determinacin (r
2
)
De nuestro ejemplo, podemos calcular cul es la altura promedio de las
observaciones (

=9 cm.
La variacin en las alturas se mide calculando la suma de las
diferencias cuadrticas (a semejanza de una varianza), es decir
(

, a esta variacin se le denomina variacin total.



Esta variacin total puede deberse a muchos factores, luego
separaremos a la variacin total en variacin explicada (altura - edad)
y en variacin no explicada (otros factores). La variacin explicada es
la suma de las diferencias cuadrticas entre los datos estimados (Y) y
el promedio (

) (

.

La variacin no explicada es la suma de las diferencias cuadrticas
entre los datos observados (Y) y los estimados () ( )

.
Grficamente:




















Efectuando los clculos:
Y

( )


9 9 9 0 0.0 0.00
5 4.8 9 16 17.64 0.04
7 6.9 9 4 4.41 0.01
14 13.2 9 25 17.64 0.64
10 11.1 9 1 4.41 1.21
=46 =44.10 =1.90


Variacin total = Variacin explicada + Variacin no explicada

46 = 44.10 + 1.90
La razn o cociente de la variacin explicada respecto a la total se
conoce con el nombre de coeficiente de determinacin (r
2
).



En nuestro caso tendremos: r
2
= 0.96.

Esto quiere decir que el 96% de la variacin de la altura (Y) est
explicada por la variacin de la edad de las plantas (X).

Si existiera una relacin exacta entre las variables X e Y entonces la
variacin no explicada sera CERO, es decir (

, luego la
variacin explicada ser igual a la variacin total, lo cual nos da que r
2
=
1, por tanto se puede decir que existe una correlacin perfecta (r = 1),
por el contrario si las variables no se encontraran relacionadas entonces
la variacin explicada seria CERO, es decir (

, luego r
2
= 0.

El coeficiente de correlacin es la raz cuadrada del coeficiente de
determinacin (r
2
). Los valores de r van de 0 a 1, pero pueden ser
positivos o negativos, lo que indica si las variables se encuentran
relacionadas directamente o indirectamente, el coeficiente de
correlacin tiene el mismo signo de b.
El coeficiente ms significativo es r
2
, pues mide el porcentaje de la
variacin de la variable dependiente Y que es explicada por la variacin
de la variable independiente X.

6. Mtodo abreviado de clculo
Podemos hallar rpidamente los valores de a, b, S
yx
, y r siguiendo los
siguientes pasos


1. Hallar
N Y X Y
2
X
2
XY
1 9 3 81 9 27
2 5 1 25 1 5
3 7 2 49 4 14
4 14 5 196 25 70
5 10 4 100 16 40
Y=45 X=15 Y
2
=451 X
2
=55 XY=156

2. Calcular



3. Calcular y
2
, x
2
y xy

)

4. Calcular b



5. Calcular a



6. Calcular S
xy





7. Calcular r

También podría gustarte