Está en la página 1de 22

Ingeniera en Tecnologas de la Informacin

________ _____ _____


________ _____ _______

Carmen Hernndez Jimnez

Regresin Lineal Simple


Se conoce como regresin lineal, correlacin de Pearson o mtodo de mnimos cuadrados, al
procedimiento de encontrar la ecuacin de la recta "que mejor se ajuste a un conjunto de puntos". El mtodo de mnimos cuadrados nos permite encontrar el grado de correlacin lineal entre un conjunto de pares de valores numricos.

Etimologa
El trmino regresin se utiliz por primera vez en el estudio de variables antropomtricas: al comparar la estatura de padres e hijos, result que los hijos cuyos padres tenan una estatura muy superior al valor medio tendan a igualarse a ste, mientras que aquellos cuyos padres eran muy bajos tendan a reducir su diferencia respecto a la estatura media; es decir, "regresaban" al promedio. La constatacin emprica de esta propiedad se vio reforzada ms tarde con la justificacin terica de ese fenmeno.

Regresin Lineal Simple


El modelo de regresin lineal
El modelo lineal relaciona la variable dependiente Y con K variables explicativas Xk (k = 1,...K), o cualquier transformacin de stas, que generan un hiperplano de parmetros k desconocidos:

Donde es la perturbacin aleatoria que recoge todos aquellos factores de la realidad no controlables u observables y que por tanto se asocian con el azar, y es la que confiere al modelo su carcter estocstico. En el caso ms sencillo, con una sola variable explicativa, el hiperplano es una recta: Y = 1 + 2X2 + El problema de la regresin consiste en elegir unos valores determinados para los parmetros desconocidos k, de modo que la ecuacin quede completamente especificada. Para ello se necesita un conjunto de observaciones. En una observacin cualquiera i-sima (i= 1,... I) se registra el comportamiento simultneo de la variable dependiente y las variables explicativas (las perturbaciones aleatorias se suponen no observables).

Los valores escogidos como estimadores de los parmetros , son los coeficientes de regresin, sin que se pueda garantizar que coinciden con parmetros reales del proceso generador. Por tanto, en

Los valores

son por su parte estimaciones de la perturbacin aleatoria o errores.

Regresin Lineal Simple


Supuestos del modelo de regresin lineal Para poder crear un modelo de regresin lineal, es necesario que se cumpla con los siguientes supuestos:

La relacin entre las variables es lineal. Los errores en la medicin de las variables explicativas son independientes entre s. Los errores tienen varianza constante. (Homocedasticidad) Los errores tienen una esperanza matemtica igual a cero (los errores de una misma magnitud y distinto signo son equiprobables). El error total es la suma de todos los errores.

Tipos de modelos de regresin lineal Existen diferentes tipos de regresin lineal que se clasifican de acuerdo a sus parmetros: Regresin lineal simple Slo se maneja una variable independiente, por lo que slo cuenta con dos parmetros. Son de la forma: Yi = 0 + 1Xi + i donde i es el error asociado a la medicin del valor Xi y siguen los supuestos de modo que iN(0,2) (media cero, varianza constante e igual a un y con ).

Regresin Lineal Simple


Anlisis Dado el modelo de regresin simple, si se calcula la esperanza (valor esperado) del valor Y, se obtiene:

Derivando respecto a

e igualando a cero, se obtiene:

Obteniendo dos ecuaciones denominadas ecuaciones normales que generan la siguiente solucin para ambos parmetros:

La interpretacin del parmetro 1 es que un incremento en Xi de una unidad, Yi incrementar en 1

Regresin Lineal Simple


Con frecuencia, nos encontramos en economa con modelos en los que el comportamiento de una variable, Y, se puede explicar a travs de una variable X; lo que representamos mediante Y = f(X) (1) Si consideramos que la relacin f, que liga Y con X, es lineal, entonces se puede escribir as: t 1 2 t Y= + X (2)
Como quiera que las relaciones del tipo anterior raramente son exactas, sino que ms bien son aproximaciones en las que se han omitido muchas variables de importancia secundaria, debemos incluir un trmino de perturbacin aleatoria, t u , que refleja todos los factores distintos de X -que influyen sobre la variable endgena, pero que ninguno de ellos es relevante individualmente. Con ello, la relacin quedara de la siguiente forma: Modelo de regresin simple Yt = 1 + 2X1 + U1 La expresin anterior refleja una relacin lineal, y en ella slo figura una nica variable explicativa, recibiendo el nombre de relacin lineal simple. El calificativo de simple se debe a que solamente hay una variable explicativa. Supongamos ahora que disponemos de T observaciones de la variable Y ( Y1,Y2, , Y T) y de las correspondientes observaciones de X ( X1, X 2 , XT ). Si hacemos extensiva a la relacin entre observaciones, tendremos el siguiente conjunto de T ecuaciones: Y1 = 1 + 2X1 + U1 Y2 = 1 + 2x2 + U2 ------ -------- --------YT = 1 + 2XT + Ut

El sistema de ecuaciones (4) se puede escribir abreviadamente de la forma siguiente: 1 2 1, 2, , t t t Y= +X+u t = T

Regresin Lineal Simple


Regresin lineal simple. Tiene como objeto estudiar cmo los cambios en una variable, no aleatoria, afectan a una variable aleatoria, en el caso de existir una relacin funcional entre ambas variables que puede ser establecida por una expresin lineal, es decir, su representacin grfica es una lnea recta. Cuando la relacin lineal concierne al valor medio o esperado de la variable aleatoria, estamos ante un modelo de regresin lineal simple. La respuesta aleatoria al valor x de la variable controlada se designa por Yx y, segn lo establecido, se tendr

De manera equivalente, otra formulacin del modelo de regresin lineal simple sera: si xi es un valor de la variable predictora e Yi la variable respuesta que le corresponde, entonces

Ei es el error o desviacin aleatoria de Yi.

Regresin Lineal Simple


Estimacin de los parmetros de la recta de regresin. El primer problema a abordar es obtener los estimadores de los parmetros de la recta de regresin, partiendo de una muestra de tamao n, es decir, n pares (x1, Y1) , (x2, Y2), ..., (xn, Yn); que representan nuestra intencin de extraer para cada xi un individuo de la poblacin o variable Yi . Una vez realizada la muestra, se dispondr de n pares de valores o puntos del plano (x1, y1) , (x2, y2), ..., (xn, yn). El mtodo de estimacin aplicable en regresin, denominado de los mnimos cuadrados, permite esencialmente determinar la recta que "mejor" se ajuste o mejor se adapte a la nube de n puntos. Las estimaciones de los parmetros de la recta de regresin obtenidas con este procedimiento son:

Por tanto la recta de regresin estimada ser:

Regresin Lineal Simple


En estadstica la regresin lineal o ajuste lineal es un mtodo matemtico que modeliza la relacin entre una variable dependiente Y, las variables independientes Xi y un trmino aleatorio . Este modelo puede ser expresado como:

donde 0 es la interseccin o trmino "constante", las son los parmetros respectivos a cada variable independiente, y p es el nmero de parmetros independientes a tener en cuenta en la regresin. La regresin lineal puede ser contrastada con la regresin no lineal. Un ejemplo. La recta de regresin representada corresponde a la estimacin obtenida a partir de 20 pares de observaciones: x representa la temperatura fijada en un recinto cerrado e Y el ritmo cardaco de un vertebrado.

Regresin Lineal Simple


(Ejemplo de Excel)
Venta de automviles Se piensa que si aumentan el porcentaje de comisin pagada al vendedor de automviles, aumenta la venta. Estudio sobre 15 concesionarios similares X Comisiones pagadas a vendedores de autos en un mes (%) Y Ganancias netas por ventas, en el mismo mes (Millones de $)

Representacin de los datos en un grfico de dispersin:

Regresin Lineal Simple


(Ejemplo de Excel)

Formula =SUMA(ESTIMACION.LINEAL(C3:C8:B3:B8)*{9,1})

Regresin Lineal
Aplicaciones de la regresin lineal Lneas de tendencia Una lnea de tendencia representa una tendencia en una serie de datos obtenidos a travs de un largo perodo. Este tipo de lneas puede decirnos si un conjunto de datos en particular (como por ejemplo, el PBI, el precio del petrleo o el valor de las acciones) han aumentado o decrementado en un determinado perodo. Se puede dibujar una lnea de tendencia a simple vista fcilmente a partir de un grupo de puntos, pero su posicin y pendiente se calcula de manera ms precisa utilizando tcnicas estadsticas como las regresiones lineales. Las lneas de tendencia son generalmente lneas rectas, aunque algunas variaciones utilizan polinomios de mayor grado dependiendo de la curvatura deseada en la lnea.

Medicina En medicina, las primeras evidencias relacionando la mortalidad con el fumar tabaco vinieron de estudios que utilizaban la regresin lineal. Los investigadores incluyen una gran cantidad de variables en su anlisis de regresin en un esfuerzo por eliminar factores que pudieran producir correlaciones espurias. En el caso del tabaquismo, los investigadores incluyeron el estado socio-econmico para asegurarse que los efectos de mortalidad por tabaquismo no sean un efecto de su educacin o posicin econmica. No obstante, es imposible incluir todas las variables posibles en un estudio de regresin. En el ejemplo del tabaquismo, un hipottico gen podra aumentar la mortalidad y aumentar la propensin a adquirir enfermedades relacionadas con el consumo de tabaco. Por esta razn, en la actualidad las pruebas controladas aleatorias son consideradas mucho ms confiables que los anlisis de regresin.

Regresin Lineal Mltiple


Regresin lineal mltiple
La regresin lineal nos permite trabajar con una variable a nivel de intervalo o razn, as tambin se puede comprender la relacin de dos o ms variables y nos permitir relacionar mediante ecuaciones, una variable en relacin a otras variables llamndose Regresin mltiple. Constantemente en la prctica de la investigacin estadstica, se encuentran variables que de alguna manera estn relacionados entre si, por lo que es posible que una de las variables puedan relacionarse matemticamente en funcin de otra u otras variables.
Maneja varias variables independientes. Cuenta con varios parmetros. Se expresan de la forma:

donde i es el error asociado a la medicin i del valor Xip y siguen los supuestos de modo que iN(0,2) (media cero, ). varianza constante e igual a un y con Rectas de regresin Las rectas de regresin son las rectas que mejor se ajustan a la nube de puntos (o tambin llamado diagrama de dispersin) generada por una distribucin binomial. Matemticamente, son posibles dos rectas de mximo ajuste: La recta de regresin de Y sobre X:

La recta de regresin de X sobre Y:

Regresin Lineal Mltiple


El Modelo de regresin lineal mltiple El modelo de regresin lineal mltiple es idntico al modelo de regresin lineal simple, con la nica diferencia de que aparecen ms variables explicativas: Modelo de regresin simple

Modelo de regresin mltiple:

Siguiendo con nuestro ejemplo, si consideramos el peso como variable dependiente y como posibles variables explicativas: estatura pie l_brazo a_espald d_craneo El modelo que deseamos construir es El modelo que deseamos construir es:

Al igual que en regresin lineal simple, los coeficientes b van a indicar el incremento en el peso por el incremento unitario de la correspondiente variable explicativa. Por lo tanto, estos coeficientes van a tener las correspondientes unidades de medida.

Regresin Lineal Mltiple


Hiptesis

Para realizar un anlisis de regresin lineal mltiple se hacen las siguientes consideraciones sobre los datos:
a) Linealidad: los valores de la variable dependiente estn generados por el siguiente modelo lineal:

b) Homocedasticidad: todas las perturbaciones tienen las misma varianza:

c) Independencia: las perturbaciones aleatorias son independientes entre s:

d) Normalidad: la distribucin de la perturbacin aleatoria tiene distribucin normal:

e) Las variables explicativas Xk se obtienen sin errores de medida.

Si admitimos que los datos presentan estas hiptesis entonces el teorema de Gauss-Markov establece que el mtodo de estimacin de mnimos cuadrados va a producir estimadores ptimos, en el sentido que los parmetros estimados van a estar centrados y van a ser de mnima varianza.

Regresin Lineal Mltiple


Contraste de regresin Como estamos sacando conclusiones de una muestra de un conjunto mucho ms amplio de datos, a veces este conjunto ser infinito, es obvio que distintas muestras van a dar distintos valores de los parmetros. Un caso de especial inters es asignar una medida de probabilidad a la siguiente afirmacin o hiptesis:

La afirmacin contraria sera:

Nota La hiptesis nula es que todos los coeficientes menos b0 son nulos y la hiptesis alternativa o complementaria es que existe al menos uno que es distinto de 0, puede haber varios que sean nulos, pero al menos existe uno distinto de cero. Se denomina contraste de regresin al estudio de la posibilidad de que el modelo de regresin sea nulo, es decir, los valores de las variables explicativas X no van a influir en la variable Peso.

Regresin Lineal Mltiple


Errores que deben de evitarse
Errores que son fciles pasar por alto al realizar un modelo de regresin lineal mltiple son los siguientes: No controlar el factor tamao. Si hay un factor de ponderacin, no tenerlo en cuenta. Al calcular los grados de libertad en los contrastes de hiptesis. No incluir una variable relevante en el modelo. Incluir una variable irrelevante. Especificar una relacin lineal que no lo es.

Regresin Lineal Mltiple


(Ejemplo de Implementacin)
Unidad de Epidemiologa Clnica y Bioestadstica La mayora de los estudios clnicos conllevan la obtencin de datos en un nmero ms o menos extenso de variables. En algunos casos el anlisis de dicha informacin se lleva a cabo centrando la atencin en pequeos subconjuntos de las variables recogidas utilizando para ello anlisis sencillos que involucran nicamente tcnicas bivariadas.

Un anlisis apropiado, sin embargo, debe tener en consideracin toda la informacin recogida o de inters para el clnico y requiere de tcnicas estadsticas multivariantes ms complejas. En particular, hemos visto como el modelo de regresin lineal simple es un mtodo sencillo para analizar la relacin lineal entre dos variables cuantitativas.
Sin embargo, en la mayora de los casos lo que se pretende es predecir una respuesta en funcin de un conjunto ms amplio de variables, siendo necesario considerar el modelo de regresin lineal mltiple como una extensin de la recta de regresin que permite la inclusin de un nmero mayor de variables. Estimacin de parmetros y bondad de ajuste Generalizando la notacin usada para el modelo de regresin lineal simple, disponemos en n individuos de los datos de una variable respuesta Y y de p variables explicativas X1,X2,...,Xp. La situacin ms sencilla que extiende el caso de una nica variable regresora es aquella en la que se dispone de informacin en dos variables adicionales. Como ejemplo, tomemos la medida de la tensin arterial diastlica en setenta individuos de los que se conoce adems su edad, colesterol e ndice de masa corporal (Tabla 1). Es bien conocido que el valor de la tensin arterial diastlica vara en funcin del colesterol e ndice de masa corporal de cada sujeto. Al igual que ocurra en el caso bidimensional, se puede visualizar la relacin entre las tres variables en un grfico de dispersin, de modo que la tcnica de regresin lineal mltiple proporcionara el plano que mejor ajusta a la nube de puntos resultante (Fig. 1).

Regresin Lineal Mltiple

Fig. 1

Del grfico se deduce fcilmente que los pacientes con tensin arterial diastlica ms alta son aquellos con valores mayores de colesterol e ndice de masa corporal. Si el nmero de variables explicativas aumenta (p>2) la representacin grfica ya no es factible, pero el resultado de la regresin se generaliza al caso del mejor hiperplano que ajusta a los datos en el espacio (p+1)dimensional correspondiente. Tabla. 1

Regresin Lineal Mltiple


En el caso general, el modelo de regresin lineal mltiple con p variables responde a la ecuacin:

de modo que los coeficientes

se estiman siguiendo el criterio de mnimos cuadrados:

Regresin Lineal Mltiple


(Ejemplo de Excel)
Suponga que un programador comercial est pensando en adquirir un grupo de pequeos edificios de oficinas en un distrito comercial conocido. El programador puede utilizar el anlisis de regresin lineal mltiple para calcular el valor de un edificio de oficinas en un rea determinada basndose en las variables siguientes.

Este ejemplo supone que existe una relacin de lnea recta entre cada variable independiente (x1, x2, x3, y x4) y la variable dependiente (y), el valor de los edificios de oficinas en esa rea. El programador elige al azar una muestra de 11 edificios de oficinas de 1.500 edificios posibles y obtiene los datos siguientes. "Media entrada" significa una entrada slo para entregas.

Regresin Lineal Mltiple


(Ejemplo de Excel)

Formula

=ESTIMACION.LINEAL(E2:E12;A2:D12;V ERDADERO;VERDADERO

También podría gustarte