Está en la página 1de 7

UNIVERSIDAD TECNOLGICA METROPLITANA

DEPARTAMENTO DE ESTADSTICA Y ECONOMETRA

Profesor: Claudio Ortiz Alvarez

REGRESIN SIMPLE Y CORRELACIN

Como ya hemos visto muchos estudios son diseados para investigar la asociacin entre dos o
ms variables. Muchas veces intentamos relacionar una variable explicativa (X) con una variable
respuesta (Y). Los datos que se usan para estudiar la relacin entre dos variables se llaman datos
bivariados. Datos bivariados se obtienen cuando medimos ambas variables en el mismo individuo.

Estos datos se pueden representar a travs de un grfico de dispersin, que nos muestra una
asociacin lineal entre dos variables de inters, entonces buscaremos una lnea recta que describa
esta relacin y que llamaremos recta de regresin.

El nombre de regresin deriva de los estudios de herencia de Galton, quien en 1886 * publica la ley
de la "regresin universal". En sus estudios Galton encontr que haba una relacin directa entre la
estatura de padres e hijos. Sin embargo, el promedio de estatura de hijos de padres muy altos era
inferior al de sus padres y, el de hijos de padres muy bajos, era superior al de los padres,
regresando a una media poblacional.

La ecuacin de la recta donde la variable dependiente Y est determinada por la variable


independiente X es:

Y = bX + a
Donde:

Y: Variable dependiente o variable respuesta, es decir, es la variable que se desea explicar o


predecir.

X: Variable independiente o variable explicativa, es decir, es la variable que se utiliza para


explicar.

a: Es el intercepto y corresponde al valor de Y cuando X = 0 (valor basal).

b: Es la pendiente de la recta.

En el Modelo de Regresin es muy importante identificar cul es la variable dependiente y cul es


la variable independiente.

1
UNIVERSIDAD TECNOLGICA METROPLITANA
DEPARTAMENTO DE ESTADSTICA Y ECONOMETRA

ECUACIN DE REGRESIN

Para comprender el concepto de regresin lineal veamos el siguiente ejemplo.

Se seleccion a 7 alumnas de la carrera de Psicologa del ao 2003 que nos dieron sus datos de
estatura (en cms) y de peso (en kilos), y se obtuvo el siguiente grfico de dispersin.

Como se puede apreciar, es imposible describir los datos a travs de una sola recta que pase por
todos estos puntos, por lo tanto, debemos hallar la recta que mejor de ajuste a dichos puntos.

Esta recta la representaremos a travs de la siguiente ecuacin de estimacin:


Y bX a e


Donde: a : Valor de Y , cuando X = 0

b : Variacin promedio de Y , cuando X aumenta una unidad.


e Yi Y es el error de estimacin o error residual y corresponde a la diferencia

entre el valor observado de Y y el valor estimado por Y

Observacin: si el valor observado se encuentra sobre la recta de estimacin, el error es positivo,


mientras que si el valor observado se encuentra debajo de la recta de estimacin, el error es
negativo.

Para poder minimizar el error de estimacin, se utiliza el mtodo de los mnimos cuadrados,

mediante el cual se obtienen los parmetros a y b :


a Y bX

Donde:
X = media de los valores observados de la variable independiente

Y = Media de los valores observados de la variable Y

2
UNIVERSIDAD TECNOLGICA METROPLITANA
DEPARTAMENTO DE ESTADSTICA Y ECONOMETRA

Por otro lado:


n

XY n XY
i1 XY X Y COV( X, Y )
b m
2
2

x
2 Sx Sx
n X
2
i
i

Determinemos la ecuacin de regresin para el ejemplo de las alumnas de psicologa.

Alumna Estatura X (cm) Peso Y (kg) XY X2


A 155 48 7440 24025
B 157 48 7536 24649
C 159 51 8109 25281
D 162 55 8910 26244
E 165 53 8745 27225
F 168 55 9240 28224
G 169 57 9633 28561
n= 7 X = 1135 Y = 367 XY = 59.613 X 2 = 184.209

X
X 162,14 ; Y
Y 52,43 ; XY
XY 8.516,14 ; X
2

X 2

123 .315,57
7 7 7 7

Luego:
n

XY n XY
i1 59.613 7 162,14 52,43
b 0,603
184 .209 7 162,14
m 2

x
2
n X
2
i
i


Conocido el valor de b , determinamos el valor de a

a Y b X 52,43 0,6 162,14 = - 45,276

Finalmente la ecuacin de regresin es:


Y 0,603 x 45,276

Grficamente se tiene:

Con esta ecuacin podemos estimar el peso de una alumna a partir de su estatura.

3
UNIVERSIDAD TECNOLGICA METROPLITANA
DEPARTAMENTO DE ESTADSTICA Y ECONOMETRA

En la siguiente tabla se muestran los valores estimados del peso a partir de la estatura de cada
alumna.

Alumna Estatura X (cm) Peso Y (kg)


Y
A 155 48 48,189
B 157 48 49,395
C 159 51 50,601
D 162 55 52,410
E 165 53 54,219
F 168 55 56,028
G 169 57 56,631

La diferencia entre los pesos observados y los pesos estimados se denomina error residual.

El error residual mide la variabilidad o dispersin de los valores observados respecto de la recta de
regresin, y su valor magnitud se obtiene mediante la siguiente frmula:
2
n


Yi Yi
i1 Y 2
a Y b XY
e
n2 n2

Para nuestro ejemplo e = 1,28.

Por lo tanto, el modelo de regresin lineal es:



Y 0,603 x 45,276 1,28

Cmo se interpretan los parmetros b y a ?

Interpretacin de b : Por cada centmetro que aumente la estatura de una alumna, su peso se
incrementa, en promedio, en 0,603 kg

Interpretacin a : En este contexto, no tiene mucho sentido la interpretacin de este parmetro,
sin embargo, numricamente se tiene que si la estatura de una alumna es de 0 cm, su peso ser de
- 45,276 kg

Cul ser el peso estimado se una alumna que mide 160 cm y otra que mide 1,73?

Cunto debe medir una alumna para que su peso estimado sea de 60 kg?

Nota: Para poder crear un modelo de regresin lineal es necesario que se cumpla con los
siguientes supuestos:

1. La relacin entre las variables sea lineal.


2. Los errores en la medicin de las variables explicativas sean independientes entre s.
3. Los errores tengan varianza constante. (Homocedasticidad)
4. Los errores tengan una esperanza matemtica igual a cero (los errores de una misma
magnitud y distinto signo son equiprobables).
5. El error total sea la suma de todos los errores.

4
UNIVERSIDAD TECNOLGICA METROPLITANA
DEPARTAMENTO DE ESTADSTICA Y ECONOMETRA

Uso de la calculadora para determinar los parmetros de la ecuacin de estimacin


Los parmetros a y b obtener de forma sencilla a travs de la calculadora.
Para quienes tengan los modelos Casio 81 Ms, 82 Ms 30 Ms, debern seguir los siguientes
pasos:

Paso 1: Seleccionar el modo de regresin

Apretar

COMP SD REG
1 2 3

Al seleccionar la opcin 3, debe aparecer en la pantalla REG.

Paso 2 : Limpiar la memoria.

Apretar y en seguida .

SCL Mode All


1 2 3

Seleccionar la opcin 1 ( en algunos modelos aparece MCL), aparecer en la pantalla Stat


Clear y se aprieta la tecla igual.

Paso 3 : Ingresar los datos a la memoria

Cada dato se ingresa como un par ordenado (X,Y), en ese orden, primero el valor de
variable independiente y luego el respectivo valor de la variable dependiente.

X1 Y1

X2 Y2

As sucesivamente hasta el ltimo par de datos

Paso 4: Obtencin de los parmetros.

Apretar y en seguida .

En la pantalla se despliegan tres opciones:

a b r
1 2 3

5
UNIVERSIDAD TECNOLGICA METROPLITANA
DEPARTAMENTO DE ESTADSTICA Y ECONOMETRA

Para quienes tengas otros modelos de calculadora, deben apretar MODE y a continuacin STAT.
En el men que les aparecer en la pantalla, deben elegir la opcin donde aparezca el modelo
A + BX. Ah les aparecer una tabla donde deben ingresar los datos de X e Y. Una vez que
ingresen todos los puntos, deben salir de ah (apretar AC) y luego SHIFT y STAT. En este nuevo
men, seleccionen REG y les aparecern los parmetros buscados.

NOTA: r corresponde al coeficiente de correlacin que fue visto en clase y que mide la fuerza con
que las dos variables pueden o no relacionarse. Como pueden ver, a travs de la
calculadora, tambin podemos determinar rpidamente este coeficiente.

En nuestro ejemplo r = 0,921. Esto indica que existe una alta correlacin directa entre las dos
variables.

Coeficiente de Determinacin

Denominamos coeficiente de determinacin R2 como el coeficiente que nos indica el porcentaje del
ajuste que se ha conseguido con el modelo lineal, es decir el porcentaje de la variacin de Y, que
se explica a travs del modelo lineal que se ha estimado, es decir, a travs del comportamiento de
X . A mayor porcentaje mejor es nuestro modelo para predecir el comportamiento de la variable Y
Tambin se puede entender este coeficiente de determinacin como el porcentaje de varianza
explicada por la recta de regresin y su valor siempre estar entre 0 y 1

El valor del coeficiente de determinacin corresponde al cuadrado del coeficiente de correlacin

R2 = r2

En nuestro ejemplo R2 = 0,8481, es decir, que nuestro modelo nos permite explicar el 84,81 % de
las variaciones del peso a travs del ajuste por medio de las estaturas.

Una medida de la proximidad o de ajuste de la recta de regresin a la nube de puntos. Tambin se


le denomina bondad del ajuste y nos indica qu porcentaje de las variaciones no se explica a
travs del modelo de regresin, es como si fuera la varianza inexplicada que es la varianza de los
residuos.

Bondad de ajuste = 1 R2

Nos indica qu porcentaje de las variaciones no se explica a travs del modelo de regresin, es
como si fuera la varianza inexplicada que es la varianza de los residuos.

Ejemplo: La tabla adjunta presenta las variables X: temperatura mxima diaria (en C) e
Y: demanda elctrica promedio (en KW/hr).

Temperatura
19 14 20 28 27 27 14 21 16 12 23 15 12 16
C
Demanda
111 153 121 72 79 84 141 107 134 140 106 149 147 149
KWH

a) Determinar un modelo de regresin lineal que permita predecir la demanda de energa


elctrica en funcin de la temperatura mxima
b) Interpretar los parmetros del modelo.
c) Estimar la demanda elctrica para un da en que la temperatura mxima sea de 25 C y otro
en que la temperatura sea de 30C.
d) Cul debiese ser la temperatura mxima de un da si la demanda estimada es de 130
KWH?

6
UNIVERSIDAD TECNOLGICA METROPLITANA
DEPARTAMENTO DE ESTADSTICA Y ECONOMETRA

a) Utilizando la calculadora podemos obtener que los parmetros del modelo son:


b 4,8 y a 211,2

Por lo tanto, el modelo de regresin lineal es


Y 4,8X 211,2
b)

Interpretacin de b : Por cada grado que aumente la temperatura, la demanda de
energa elctrica disminuye, en promedio, en 4,8 KWH.

Interpretacin a : Si la temperatura fuera de 0C, la demanda de energa elctrica es de
211,2 KWH.

c) Y(25) 4,8 25 211,2 91 KWH

Y(30) 4,8 30 211,2 67,2 KWH

d) 130 = -4,8 X + 211,2 , entonces x = 16,92 C

El siguiente grfico, generado con Excel, muestra la recta de regresin ajusta al grfico de
dispersin. Tambin se puede observar que el coeficiente de determinacin R2 = 0,9204, lo cual
indica que es un muy buen modelo ya que explica el 92,04 % de las variaciones de la demanda
de energa elctrica a partir de las mximas temperaturas diarias.