Está en la página 1de 16

Regresin lineal

Para otros usos de este trmino, vase Funcin lineal (desambiguacin).

Ejemplo de una regresin lineal con una variable dependiente y unavariable independiente.

En estadstica la regresin lineal o ajuste lineal es un mtodo matemtico que modela la relacin entre una variable dependiente Y, las variables independientes Xi y un trmino aleatorio . Este modelo puede ser expresado como:

: variable dependiente, explicada o regresando. : variables explicativas, independientes o regresores. : parmetros, miden la influencia que las variables explicativas tienen sobre el regresando. donde es la interseccin o trmino "constante", las son los parmetros

respectivos a cada variable independiente, y

es el nmero de parmetros independientes a tener

en cuenta en la regresin. La regresin lineal puede ser contrastada con la regresin no lineal.
ndice
[ocultar]

1 Historia

1.1 Etimologa

2 El modelo de regresin lineal 3 Hiptesis modelo de regresin lineal clsico 4 Supuestos del modelo de regresin lineal 5 Tipos de modelos de regresin lineal

5.1 Regresin lineal simple

5.1.1 Anlisis

5.2 Regresin lineal mltiple

6 Rectas de regresin 7 Aplicaciones de la regresin lineal

o o o

7.1 Lneas de tendencia 7.2 Medicina 7.3 Informtica

8 Vase tambin 9 Referencias 10 Bibliografa 11 Enlaces externos

Historia[editar editar cdigo]


La primera forma de regresiones lineales documentada fue el mtodo de los mnimos cuadrados, el cual fue publicado por Legendre en 1805,1 y en dnde se inclua una versin del teorema de GaussMrkov.

Etimologa[editar editar cdigo]


El trmino regresin se utiliz por primera vez en el estudio de variables antropomtricas: al comparar la estatura de padres e hijos, result que los hijos cuyos padres tenan una estatura muy superior al valor medio tendan a igualarse a ste, mientras que aquellos cuyos padres eran muy bajos tendan a reducir su diferencia respecto a la estatura media; es decir, "regresaban" al promedio.2 La constatacin emprica de esta propiedad se vio reforzada ms tarde con la justificacin terica de ese fenmeno. El trmino lineal se emplea para distinguirlo del resto de tcnicas de regresin, que emplean modelos basados en cualquier clase de funcin matemtica. Los modelos lineales son una explicacin simplificada de la realidad, mucho ms gil y con un soporte terico por parte de la matemtica y la estadstica mucho ms extenso. Pero bien, como se ha dicho, podemos usar el trmino lineal para distinguir modelos basados en cualquier clase de aplicacin.

El modelo de regresin lineal[editar editar cdigo]


El modelo lineal relaciona la variable dependiente Y con K variables explicativas cualquier transformacin de stas, que generan un hiperplano de parmetros (2) donde es la perturbacin aleatoria que recoge todos aquellos factores de la realidad no (k = 1,...K), o desconocidos:

controlables u observables y que por tanto se asocian con el azar, y es la que confiere al modelo su

carcter estocstico. En el caso ms sencillo, con una sola variable explicativa, el hiperplano es una recta: (3) El problema de la regresin consiste en elegir unos valores determinados para los parmetros desconocidos , de modo que la ecuacin quede completamente especificada. Para ello se

necesita un conjunto de observaciones. En una observacin cualquiera i-sima (i= 1,... I) se registra el comportamiento simultneo de la variable dependiente y las variables explicativas (las perturbaciones aleatorias se suponen no observables). (4) Los valores escogidos como estimadores de los parmetros, , son los coeficientes de regresin,

sin que se pueda garantizar que coinciden con parmetros reales del proceso generador. Por tanto, en (5) Los valores son por su parte estimaciones de la perturbacin aleatoria o errores.

Hiptesis modelo de regresin lineal clsico[editar editar cdigo]


1. Esperanza matemtica nula.

Para cada valor de X la perturbacin tomar distintos valores de forma aleatoria, pero no tomar sistemticamente valores positivos o negativos, sino que se supone que tomar algunos valores mayores que cero y otros menores, de tal forma que su valor esperado sea cero. 2. Homocedasticidad para todo t Todos los trminos de la perturbacin tienen la misma varianza que es desconocida. La dispersin de cada en torno a su valor esperado es siempre la misma. para todo

3. Incorrelacin. t,s con t distinto de s

Las covarianzas entre las distintas pertubaciones son nulas, lo que quiere decir que no estn correlacionadas o autocorrelacionadas. Esto implica que el valor de la perturbacin para cualquier observacin muestral no viene influenciado por los valores de la perturbacin correspondientes a otras observaciones muestrales. 4. Regresores no estocsticos. 5. No existen relaciones lineales exactas entre los regresores.

6.

Suponemos que no existen errores de especificacin en el modelo ni errores de

medida en las variables explicativas 7. Normalidad de las perturbaciones

Supuestos del modelo de regresin lineal[editar editar cdigo]


Para poder crear un modelo de regresin lineal, es necesario que se cumpla con los siguientes supuestos:3 1. La relacin entre las variables es lineal. 2. Los errores en la medicin de las variables explicativas son independientes entre s. 3. Los errores tienen varianza constante. (Homocedasticidad) 4. Los errores tienen una esperanza matemtica igual a cero (los errores de una misma magnitud y distinto signo son equiprobables). 5. El error total es la suma de todos los errores.

Tipos de modelos de regresin lineal[editar editar cdigo]


Existen diferentes tipos de regresin lineal que se clasifican de acuerdo a sus parmetros:

Regresin lineal simple[editar editar cdigo]


Slo se maneja una variable independiente, por lo que slo cuenta con dos parmetros. Son de la forma:4 (6) donde que es el error asociado a la medicin del valor y siguen los supuestos de modo y con ).

(media cero, varianza constante e igual a un

Anlisis[editar editar cdigo]


Dado el modelo de regresin simple, si se calcula la esperanza (valor esperado) del valor Y, se obtiene:5 (7)

Derivando respecto a

e igualando a cero, se obtiene:5

(9)

(10)

Obteniendo dos ecuaciones denominadas ecuaciones normales que generan la siguiente solucin para ambos parmetros:4

(11)

(12) La interpretacin del parmetro en es que un incremento en Xi de una unidad, Yi incrementar

Regresin lineal mltiple[editar editar cdigo]


La regresin lineal nos permite trabajar con una variable a nivel de intervalo o razn, as tambin se puede comprender la relacin de dos o ms variables y nos permitir relacionar mediante ecuaciones, una variable en relacin a otras variables llamndose Regresin mltiple. Constantemente en la prctica de la investigacin estadstica, se encuentran variables que de alguna manera estn relacionados entre si, por lo que es posible que una de las variables puedan relacionarse matemticamente en funcin de otra u otras variables. Maneja varias variables independientes. Cuenta con varios parmetros. Se expresan de la forma:6 (13) donde que es el error asociado a la medicin del valor y siguen los supuestos de modo y con ).

(media cero, varianza constante e igual a un

Rectas de regresin[editar editar cdigo]


Las rectas de regresin son las rectas que mejor se ajustan a la nube de puntos (o tambin llamado diagrama de dispersin) generada por una distribucin binomial. Matemticamente, son posibles dos rectas de mximo ajuste:7

La recta de regresin de Y sobre X:

(14)

La recta de regresin de X sobre Y:

(15) La correlacin ("r") de las rectas determinar la calidad del ajuste. Si r es cercano o igual a 1, el ajuste ser bueno y las predicciones realizadas a partir del modelo obtenido sern muy fiables (el modelo obtenido resulta verdaderamente representativo); si r es cercano o igual a 0, se tratar de un

ajuste malo en el que las predicciones que se realicen a partir del modelo obtenido no sern fiables (el modelo obtenido no resulta representativo de la realidad). Ambas rectas de regresin se intersecan en un punto llamado centro de gravedad de la distribucin.

Aplicaciones de la regresin lineal


LECCION 13 Regresin lineal

Representamos en un grfico los pares de valores de una distribucin bidimensional: la variable "x" en el eje horizontal o eje de abcisa, y la variable "y" en el eje vertical, o eje de ordenada. Vemos que la nube de puntos sigue una tendencia lineal:

El coeficiente de correlacin lineal nos permite determinar si, efectivamente, existe relacin entre las dos variables. Una vez que se concluye que s existe relacin, la regresin nos permite definir la recta que mejor se ajusta a esta nube de puntos.

Una recta viene definida por la siguiente frmula:

y = a + bx
Donde "y" sera la variable dependiente, es decir, aquella que viene definida a partir de la otra variable "x" (variable independiente). Para definir la recta hay que determinar los valores de los parmetros "a" y "b": El parmetro "a" es el valor que toma la variable dependiente "y", cuando la variable independiente "x" vale 0, y es el punto donde la recta cruza el eje vertical. El parmetro "b" determina la pendiente de la recta, su grado de inclinacin.

La regresin lineal nos permite calcular el valor de estos dos parmetros, definiendo la recta que mejor se ajusta a esta nube de puntos. El parmetro "b" viene determinado por la siguiente frmula:

Es la covarianza de las dos variables, dividida por la varianza de la variable "x". El parmetro "a" viene determinado por:

a = ym - (b * xm)
Es la media de la variable "y", menos la media de la variable "x" multiplicada por el parmetro "b" que hemos calculado. Ejemplo: vamos a calcular la recta de regresin de la siguiente serie de datos de altura y peso de los alumnos de una clase. Vamos a considerar que la altura es la variable independiente "x" y que el peso es la variable dependiente "y" (podamos hacerlo tambin al contrario): Alumno Estatura Peso Alumno Estatura Peso Alumno Estatura Peso x x x x x x x x x Alumno 1 1,25 32 Alumno 11 1,25 33 Alumno 21 1,25 33 Alumno 2 1,28 33 Alumno 12 1,28 35 Alumno 22 1,28 34 Alumno 3 1,27 34 Alumno 13 1,27 34 Alumno 23 1,27 34 Alumno 4 1,21 30 Alumno 14 1,21 30 Alumno 24 1,21 31 Alumno 5 1,22 32 Alumno 15 1,22 33 Alumno 25 1,22 32 Alumno 6 1,29 35 Alumno 16 1,29 34 Alumno 26 1,29 34 Alumno 7 1,30 34 Alumno 17 1,30 35 Alumno 27 1,30 34 Alumno 8 1,24 32 Alumno 18 1,24 32 Alumno 28 1,24 31 Alumno 9 1,27 32 Alumno 19 1,27 33 Alumno 29 1,27 35 Alumno 10 1,29 35 Alumno 20 1,29 33 Alumno 30 1,29 34 El parmetro "b" viene determinado por: (1/30) * 1,034

b = ----------------------------------------- = 40,265
(1/30) * 0,00856 Y el parmetro "a" por:

a = 33,1 - (40,265 * 1,262) = -17,714


Por lo tanto, la recta que mejor se ajusta a esta serie de datos es:

y = -17,714 + (40,265 * x)

Esta recta define un valor de la variable dependiente (peso), para cada valor de la variable independiente (estatura):

atemticas finitas tema en-lnea: regresin lineal


y exponencial
Note: Las matemticas en esta pgina han sido mecanografiado por jsMath. Para ver jsMath a su mejor expresin, debe instalar las fuentes jsMath TeX. Haga clic en el botn de jsMath en la parte inferior derecha de la pagina para ver ms detalles. Ya hemos visto como ajustar una recta a un conjunto de dos puntos de datos: Se calcula la ecuacin de la recta que pasa por dos puntos dados. (Vea la resumen de funciones para algunos ejemplos.) Sin embargo, por lo general se tiene ms que dos puntos de datos, y raras veces estn todos en una sola recta. El problema es que hallar la recta que ajusta los datos tan estrechamente que posible.

1. Recta de mejor ajuste (Recta de regresin)


Empezamos intentando construir una funcin lineal de demanda. Suponga que su investigacin de mercado muestra las siguientes estadsticas de venta para casas de varios precios durante el ao pasado: Precio (Miles de dlares) 160 180 200 220 240 260 280 75 82 40 20

Ventas de nueva casas este ao 126 103 82

Queremos utilizar estos datos para construir una funcin de demanda para el mercado de los bienes races. (Recuerde que una funcin de demanda especifica la demanda, y, medida aqu por ventas anual, como una funcin del precio, x.) Aqu est una traza de y contra x:

Los datos sugiera una recta, ms o menos, y entonces una relacin lineal entre y y x. Aqu son varias rectas que se acercan a los puntos:

P Cul recta ajusta los puntos lo ms estrechamente que posible? R Nos gustara que las ventas que pronosticara la recta (los valores pronosticados ) estuvieran tan
cerca como fuera posible de las ventas reales (los valores observados). Las diferencias entre los valores esperados y los valores pronosticados, que son los errores residuales, son las distancias verticales que se marcan in la figura ms abajo. Error residual = Valor observado - Valor pronosticado

P Entonces como podemos hacerlo? R Sumamos primero todos los cuadrados de los errores residuales para obtener un solo error que se
llama el suma de los errores al cuadrado (SSE -- siglas en ingls de "Sum of Squares Error") y escogemos la recta que se da el ms pequeo valor de SSE. Esta recta se llama la recta de mejor ajuste, recta de regresin, o recta de mnimos cuadrados asociada a los datos.

Ejemplo 1: Calculando SSE para una recta dada


Supngase que nos gustara calcular SSE para una recta especifica, como y=x+300 como mostrada ms abajo:

Tenemos la siguiente tabla de valores:


y Observado y Pronosticado Error residual

x 160 180 200 220 240 260 280

y 126 103 82 75 82 40 20

y =x+300 140 120 100

yy -14 -17 -18

Entonces, para la recta y=x+300 SSE = Suma de los valores de errores residuales = - 14 - 17 - 18 - 5 + 22 + 0 + 0 = -32

P Muy bien. Ahora sabemos como se calcula el valor de SSE para una recta ya dada. Como
hallamos la recta de mejor ajuste; es decir, la recta para que SSE es lo menor? R Presentaremos aqu la formula que la determina. Justificarla necesita clculo; puede consultar el capitulo de funciones de varias variables en Clculo Aplicado para una explicacin detallada.
Recta de regresin (o mejor ajuste)

La recta que se ajusta mejor a los n puntos (x1 y1) forma

(x 2 y 2 )

(xn yn) tiene la

y=mx+b
donde

Pendiente=m=n

(x2)

x 2n

xy

Interseccin=b=n
Aqu,

y m

x + xn yn x= suma

significa "la suma de." As,

xy= suma del productos =x1y1+x2y2+ del valores de x=x1+x2+ de y=y1+y2+ + x2 n + yn + xn

y= suma del valores

x2= suma del valores de x2=x21+x22+

El uso de las formulas as bastante fcil, como se muestra el siguiente ejemplo.

Ejemplo 2: Calculando la recta de regresin a mano


Determine la recta de regresin asociada a los siguientes datos:

xx 1

yy 1.5 1.6 2.1 3.0


Solucin Para aplicar las formulas, es mejor organizar los datos en forma de tabla como sigue: (Cuando ha rellenado los valores de xy y x2 correctamente, pulse "Sumas" para obtener la suma de cada columna.)

xx
1 2 3 4

yy
1.5 1.6 2.1 3.0

xyxy

x2 x2

x= 10

y= 8.2

xy=

x2 =

Sustituyendo los valores correctos de la tabla ms arriba en las formulas, obtenemos

Pendiente=m=n (x2) x 2n xy x y =4(30)1024(23)(10)(8 2)=0 5 Interseccin=b=n 5)(10)=0 8


Por lo tanto, la recta de regresin es

y m

x =48 2(0

y=0 5x+0 8
Antes de seguir... Aqu esta una traza de los pontos de dados y la recta de regresin.

Observe que ni siquiera pasa la recta por uno de los puntos, pero es la recta que se ajusta mejor a los puntos.

Regresamos a los datos sobre la demanda para el mercado de los bienes races con la que empezamos este tema.

Ejemplo 3: Funcin de demanda


Obtenga la ecuacin de demanda que se ajusta mejor a los siguientes datos, y sela para pronosticar ventas anuales de casas preciadas a $140,000. Precio (Miles de dlares) 160 180 200 220 240 260 280 75 82 40 20

Ventas de nueva casas este ao 126 103 82

Solucin Aqu esta una tabla como la que usamos ms arriba para organizar las calculaciones:

xx
160 180 200 220 240 260 280

yy
126 103 82 75 82 40 20

xyxy
20,160 18,540 16,400 16,500 19,680 10,400 5,600

x2 x2
25,600 32,400 40,000 48,400 57,600 67,600 78,400

x=1540

y=528

xy=107 280

x2=350 000

Sustituyendo estos valores en la formula (con n=7), obtenemos

Pendiente=m=n (x2) x 2n xy x y =7(350 000)154027(107 280)(1540)(528) 0 7929 Interseccin=b=n x 7528(0 7928571429)(1540) 249 9

y m

Observe que usamos el valor ms exacto que pudimos obtener en la calculadora, m 0 7928571429, en lugar del valor redondeado (0 7929) en la calculacin de b. Eso ilustra la sigiuente regla general: Al calcular, no redondee los resultados intermedios; en vez de eso, utilice los resultados ms exactos que puede obtener, usando los valores guardados en su computadora o calculadora si es posible. Por lo tanto, la recta de regresin es

y=0 7929x+249 9
Ahora podemos utilizar esta ecuacin pronosticar las ventas anuales de casa cuyo precio es $140,000: Ventas anuales de casas preciadas a $140,000 redondee al nmero entero ms cercano

Antes de seguir... Ms abajo est una traza de la recta de regresin.

P Si mis puntos estn en una recta, est la recta de mejor ajuste? R S. Si los puntos estn en una recta, el valor mnimo posible de SSE es cero, y eso sucede si se usa
la recta que pasa por todos los puntos. Una consecuencia de este hecho es que se puede usar la herramienta regresin en su graficadora o la herramienta regresin en este sitio para calcular la ecuacin de la recta que pasa por dos puntos especificados.

P Si no todos los untos estn en una recta, cmo puedo saber cunto se acercan a una recta? R Hay un nmero que mide la "bondad de ajuste" de la recta de regresin llamado coeficiente de correlacin. Este nmero, que se representa por r, est entre 1 y 1. Cuanto ms se acerca r a1 o 1, el ajuste es mejor. Si el ajuste es malo, se acerca r a 0. Si el ajusto es exacto, r=1 para una recta con pendiente negativa, o r=1 para una recta de pendiente positiva. La
figura ms abajo muestra varios conjuntos de puntos con sus rectas de regresin, y los valores correspondientes de r.

El coefficiente de correlacin se puede calcular con la siguiente formula. Para obtener la se requieren buenos conocimientos de estadstica.
Coeficiente de correlacin

Coeficiente de correlacin =r=n x


2

xy

x2

y2

2. Curva exponencial de mejor ajuste (Curva exponencial regresin)


P Ahora sabemos como ajustar una recta a un conjunto de datos. Que hay una curva exponencial de
la forma

y=Arx ?

R La idea es convertir una curva exponencial a una recta por medio de logaritmos, como sigue:
Empiece con la funcin exponencial

y=Arx
y tome el logaritmo de ambos lados:

logy=log(Arx)
Las propiedades de logaritmos nos dan entonces

logy logy =logA+logrx o =logA+xlogr


Esto expresa logy como una funcin lineal de x, con

Pendiente =m=logr Interseccin =b=logA


Por lo tanto, si calculamos la recta de mejor ajuste usando logy como una funcin de x, entonces la pendiente y la interseccin en y seran dados como ms arriba, y despus podemos obtener los coeficientes r y A por

r A =10m =10b
Para resumir,
Regresin exponencial

Para obtener la curva exponencial de mejor ajuste de la forma

y=Arx
1. Obtenga la recta de regresin usando los datos (x 2. Los coeficientes deseados A y r son entonces

logy).

r A =10m =10b
donde m y b son la pendiente y interseccin de la recta de regresin.

Ejemplo 4: Ventas de Compaq


Ingresos de ventas de computadores Compaq (una marca ahora extinguida) son mostrados en la siguiente tabla, donde t representa aos desde 1990.* Obtenga el modelo exponencial de regresin para los datos. tt = Ao (1990 = 0) 0 2 4 7

RR = Ingreso ($ billn) 3 4 11 25
* Datos son redondeados. Fuente: Informes de compaa/The New York Times, Enero 27, 1998, p. D1.

Solucin Pues necesitamos modelar logR como una funcin lineal de t, primero construimos una tabla con x=t y y=logR , y entonces calculamos la recta de regresin, y=mx+b. x (=t)x (=t) 0 2 4 7

y (=logR)y (=logR) 0.477121 0.602060 1.04139 1.39794 En lugar de hacer la calculacin a mano como hicimos ms arriba, podemos utilizar la herramienta regresin en este sitio para hacerlo automticamente. Simplemente ingrese los valores de x y y y pulse el botn "y=mx+b". (S, la herramienta puede hacer regresin exponencial directamente, pero preferimos que sabe usted como funciona!) La recta de regresin que obtenemos es

y=0 13907x+0 42765


Por lo tanto, el modelo exponencial deseado es

R=Art
,

donde r=10m=100 13907

1 3774, y A=100 42765 2 6770.

Nuestra modelo de ingresos es, por lo tanto,

R=2 6770(1 3774)t


. Antes de seguir... Vaya a la herramienta regresin, ingrese los datos originales (sin tomar logaritmos) y pulse el botn "y=a(bx)". Qu encuentra? Note: Pues hemos tomado logaritmos antes de hacer la regresin lineal, se puede decir que la curva de regresin exponencial no es la curva que minimiza SSE para los datos originales, esta curva minimiza SSE para los datos tranformados --- es decir, para los datos(x logy). Por lo tanto, la curva de regresin exponencial no es la curva exponencial de mejor ajuste en el sentido "estricto." Vea los libros de texto "Applied Calculus" para un mtodo obtener esta curva.

3. Otras formas de regresin


A la herramienta de regresin se puede encontrar tambin curvas de regresin de las siguientes formas:

y=ax2+bx+c y=ax3+bx2+cx+d y=axb (Regresin cuadrtica) ( Regresin cbica) (Regresin potencia)


En la calculadora TI-83/84, se puede encontrar todos estos y tambin los siguientes:

y=ax4+bx3+cx2+dx+e y=asin(bx+c) (Regresin curtica) (Regresin seno)


Ultima actualizacin: Enero 2008