Está en la página 1de 20

Regresin lineal

En estadstica la regresin lineal o ajuste lineal es un mtodo matemtico que modela la relacin entre una variable dependiente Y, las variables independientes Xi y un trmino aleatorio . Este modelo puede ser expresado como:

: variable dependiente, explicada o regresando. : variables explicativas, independientes o regresores. : parmetros, miden la influencia que las variables explicativas tienen sobre el regresando. donde es la interseccin o trmino "constante", las son los parmetros respectivos a cada variable independiente, y es el nmero de parmetros independientes a tener en cuenta en la regresin. La regresin lineal puede ser contrastada con la regresin no lineal.

El modelo de regresin lineal


El modelo lineal relaciona la variable dependiente Y con K variables explicativas (k = 1,...K), o cualquier transformacin de stas, que generan un hiperplano de parmetros desconocidos: (2) donde es la perturbacin aleatoria que recoge todos aquellos factores de la realidad no controlables u observables y que por tanto se asocian con el azar, y es la que confiere al modelo su carcter estocstico. En el caso ms sencillo, con una sola variable explicativa, el hiperplano es una recta: (3) El problema de la regresin consiste en elegir unos valores determinados para los parmetros desconocidos , de modo que la ecuacin quede completamente especificada. Para ello se necesita un conjunto de observaciones. En una observacin cualquiera i-sima (i= 1,... I) se registra el comportamiento simultneo de la variable dependiente y las variables explicativas (las perturbaciones aleatorias se suponen no observables). (4)

Los valores escogidos como estimadores de los parmetros, , son los coeficientes de regresin, sin que se pueda garantizar que coinciden con parmetros reales del proceso generador. Por tanto, en (5) Los valores son por su parte estimaciones de la perturbacin aleatoria o errores.

El modelo de regresin lineal


El modelo lineal relaciona la variable dependiente Y con K variables explicativas (k = 1,...K), o cualquier transformacin de stas, que generan un hiperplano de parmetros desconocidos: (2) donde es la perturbacin aleatoria que recoge todos aquellos factores de la realidad no controlables u observables y que por tanto se asocian con el azar, y es la que confiere al modelo su carcter estocstico. En el caso ms sencillo, con una sola variable explicativa, el hiperplano es una recta: (3) El problema de la regresin consiste en elegir unos valores determinados para los parmetros desconocidos , de modo que la ecuacin quede completamente especificada. Para ello se necesita un conjunto de observaciones. En una observacin cualquiera i-sima (i= 1,... I) se registra el comportamiento simultneo de la variable dependiente y las variables explicativas (las perturbaciones aleatorias se suponen no observables). (4) Los valores escogidos como estimadores de los parmetros, , son los coeficientes de regresin, sin que se pueda garantizar que coinciden con parmetros reales del proceso generador. Por tanto, en (5) Los valores son por su parte estimaciones de la perturbacin aleatoria o errores.

CONCEPTO DE REGRESIN LINEAL SIMPLE La regresin lineal simple, es una herramienta muy importante para la econometra, que

estudia la dependencia existente entre una variable dependiente y una o ms variables explicativas. El inventor de dicha teora fue Francis Galton, junto con la del concepto de correlacin El modelo de regresin lineal simple, busca encontrar la recta de Y = 0 +regresin que relacione dos variables (X e Y) de forma que 1 X + error Un ejemplo de dicha regresin lineal, es la renta, ya que no podemos saber el nivel de renta en un futuro, pero si podemos saber si el promedio de la renta aumentar o disminuir determinando con cierta exactitud la cantidad. Regresion mltiple Es un mtodo para analizar el efecto de dos o mas variables independientes sobre una dependiente; asi mismo, es una extencin de la regresin lineal solo que con un mayor nmero de variables independientes. Es decir sirve para predecir el valor de una variable dependiente conociendo el valor y la influencia de las variables independientes incluidas en el anlisis. En la Regresin lineal simple slo se maneja una variable independiente, por lo que slo cuenta con dos parmetros. La Regresin lineal mltiple maneja varias variables independientes. Cuenta con varios parmetros.

Cuando existe una posible relacin entra varias variables independientes y otra dependiente se hace necesario el uso de la REGRESIN MULTIPLE. La regresin mltiple se usa con mayor frecuencia en las publicaciones de las investigaciones cuando se requiere crear un modelo donde se seleccionan variables que pueden infuir en la respuesta, descartando aquellas que no aportan informacin, cuando se requiere detectar la interaccin entre variables independientes que afectan a la variable y cuando se requiere identificar variables confusoras. Al momento de aplicar la regresin mltiple se tienen ciertos requisitos y limitaciones, entre los cuales se pueden citar los siguientes:

Linealidad Normalidad y equidistribucin de los residuos. Nmero de variables independientes. Colinealidad Observaciones anmalas.

cuando la relacion que existe entre una variable y otra la cual nos permite predecir los valores de una variable a partir de los valores obserbados de otra hablamos de una regresion multiple. Analiza el efecto de dos o ms variables dependientes o independientes. Es un procedimiento que se presenta cuando dos o ms variables independientes influyen sobre una variable dependiente.

Coeficiente de correlacin
En estadstica, el coeficiente de correlacin de Pearson es un ndice que mide la relacin lineal entre dos variables aleatorias cuantitativas. A diferencia de la covarianza, la correlacin de Pearson es independiente de la escala de medida de las variables. De manera menos formal, podemos definir el coeficiente de correlacin de Pearson como un ndice que puede utilizarse para medir el grado de relacin de dos variables siempre y cuando ambas sean cuantitativas. En el caso de que se est estudiando dos variables aleatorias x e y sobre una poblacin estadstica; el coeficiente de correlacin de Pearson se simboliza con la letra , siendo la expresin que nos permite calcularlo:

Donde:

es la covarianza de es la desviacin tpica de la variable es la desviacin tpica de la variable

De manera anloga podemos calcular este coeficiente sobre un estadstico muestral, denotado como a:

Interpretacin

El valor del ndice de correlacin vara en el intervalo [-1,1]:

Si r = 1, existe una correlacin positiva perfecta. El ndice indica una dependencia total entre las dos variables denominada relacin directa: cuando una de ellas aumenta, la otra tambin lo hace en proporcin constante. Si 0 < r < 1, existe una correlacin positiva. Si r = 0, no existe relacin lineal. Pero esto no necesariamente implica que las variables son independientes: pueden existir todava relaciones no lineales entre las dos variables. Si -1 < r < 0, existe una correlacin negativa. Si r = -1, existe una correlacin negativa perfecta. El ndice indica una dependencia total entre las dos variables llamada relacin inversa: cuando una de ellas aumenta, la otra disminuye en proporcin constante.

COEFICIENTE DE DETERMINACIN
El coeficiente de determinacin es una medida que nos dice qu tan bien se ajusta la recta de regresin muestral a los datos, es decir, es una medida de bondad de ajuste [el se encuentra entre 0 y 1]. Y Yi FRM Debido al residuo total Debido a la regresin Y media Media condicional X 22 Xi,Y,X,Y,X,Y X,YX El crculo Y representa la variacin en la variable dependiente Y y el crculo X representa la variacin en la variable X. Por lo tanto, la interseccin de los dos crculos indica la medida en la cual la variacin en Y es explicada por la variacin en X. entre mayor sea la medida de la interseccin, mayor ser la variacin en Y que es explicada por la X.

Diagrama de dispersin
El tiempo de espera entre las erupciones y la duracin de la erupcin del giser Old Faithful en el Parque Nacional Yellowstone, Wyoming, EE.UU. Este grfico sugiere que por lo general hay dos "tipos" de erupciones: uno de corta espera y corta duracin y otro de larga espera y larga duracin.

Un diagrama de dispersin es un tipo de diagrama matemtico que utiliza las coordenadas cartesianas para mostrar los valores de dos variables para un conjunto de datos. Los datos se muestran como un conjunto de puntos, cada uno con el valor de una variable que determina la posicin en el eje horizontal y el valor de la otra variable determinado por la posicin en el eje vertical.[1] Un diagrama de dispersin se llama tambin grfico de dispersin.

Descripcin
Se emplea cuando una variable est bajo el control del experimentador. Si existe un parmetro que se incrementa o disminuye de forma sistemtica por el experimentador, se le denomina parmetro de control o variable independiente = eje de x y habitualmente se representa a lo largo del eje horizontal. La variable medida o dependiente = eje de y usualmente se representa a lo largo del eje vertical. Si no existe una variable dependiente, cualquier variable se puede representar en cada eje y el diagrama de dispersin mostrar el grado de correlacin (no causalidad) entre las dos variables. Un diagrama de dispersin puede sugerir varios tipos de correlaciones entre las variables con un intervalo de confianza determinado. La correlacin puede ser positiva (aumento), negativa (descenso), o nula (las variables no estn correlacionadas). Se puede dibujar una lnea de ajuste (llamada tambin "lnea de tendencia") con el fin de estudiar la correlacin entre las variables. Una ecuacin para la correlacin entre las variables puede ser determinada por procedimientos de ajuste. Para una correlacin lineal, el procedimiento de ajuste es conocido como regresin lineal y garantiza una solucin correcta en un tiempo finito. Uno de los aspectos ms poderosos de un grfico de dispersin, sin embargo, es su capacidad para mostrar las relaciones no lineales entre las variables. Adems, si los datos son representados por un modelo de mezcla de relaciones simples, estas relaciones son visualmente evidentes como patrones superpuestos. El diagrama de dispersin es una de las herramientas bsicas de control de calidad, que incluyen adems el histograma, el diagrama de Pareto, la hoja de verificacin, los grficos de control, el diagrama de Ishikawa y el (diagrama de flujo).

formula para calcular el coeficiente de correlacion

formula para encontrar la ecuacin de regresin

Regresin de la Frmula: La ecuacin de regresin(y) = a + bx Pendiente(b) = (NXY - (X)(Y)) / (NX2 - (X)2) Interceptar(a) = (Y - b(X)) / N donde x e y son las variables. b =La pendiente de la recta de regresin a =El punto de interseccin de la recta de regresin y el eje Y. N =Nmero de valores o elementos X = Primera puntuacin Y =La puntuacin de Segunda XY = Suma del producto de las puntuaciones primero y segundo X =La suma de las puntuaciones Primera Y = Suma de las puntuaciones de segunda X2 = Suma de cuadrados Puntuacin Primero

Ejemplo de regresin: Para encontrar la simple / Regresin lineal de X Valores Y Valores 60 3.1 61 3.6 62 3.8 63 4 65 4.1

Para encontrar la ecuacin de regresin, lo primero que se encuentra pendiente, interseccin y usarla para formar la ecuacin de regresin.. Paso 1:Cuente el nmero de valores. N=5 Paso 2:Buscar XY, X2 Consulte la tabla siguiente

X Valor Y Relacin X*Y X*X 60 3.1 60 * 3.1 = 186 60 * 60 = 3600 61 3.6 61 * 3.6 = 219.6 61 * 61 = 3721 62 3.8 62 * 3.8 = 235.6 62 * 62 = 3844 63 4 63 * 4 = 252 63 * 63 = 3969 65 4.1 65 * 4.1 = 266.5 65 * 65 = 4225

Paso 3:Buscar X, Y, XY, X2. X = 311

Y = 18.6 XY = 1159.7 X2 = 19359 Paso 4:Suplente en la frmula de la pendiente por encima de determinado. Slope(b) = (NXY - (X)(Y)) / (NX2 - (X)2) = ((5)*(1159.7)-(311)*(18.6))/((5)*(19359)-(311)2) = (5798.5 - 5784.6)/(96795 - 96721) = 13.9/74 = 0.19 Paso 5:Ahora, de nuevo suplente en la frmula anterior interceptar dado. Interceptar(a) = (Y - b(X)) / N = (18.6 - 0.19(311))/5 = (18.6 - 59.09)/5 = -40.49/5 = -8.098 Paso 6:A continuacin, sustituir estos valores en la ecuacin de regresin frmula La ecuacin de regresin(y) = a + bx = -8.098 + 0.19x. Supongo que si queremos saber el valor y aproximada de la variable x = 64. Entonces podemos sustituir el valor en la ecuacin anterior. La ecuacin de regresin(y) = a + bx = -8.098 + 0.19(64). = -8.098 + 12.16 = 4.06 Este ejemplo le gua para encontrar la relacin entre dos variables mediante el clculo de la regresin de los pasos anteriores.
formula para calcular el coeficiente de correlacion

Qu mide el Coeficiente de Correlacin? En la Wikipedia podemos encontrar esta buena explicacin de lo que es la correlacin: La correlacin es la medida de asociacin entre variables. En probabilidad y estadstica, la correlacin indica la fuerza y la direccin de una relacin lineal entre dos variables aleatorias. Se considera que dos variables cuantitativas estn correlacionadas cuando los valores de una de ellas varan sistemticamente con respecto a los valores homnimos de la otra: si tenemos dos variables (A y B) existe correlacin si al aumentar los valores de A lo hacen tambin los de B y viceversa.

El coeficiente de correlacin sirve para medir la correlacin entre 2 variables. La ventaja que tiene este coeficiente sobre otras herramientas para medir la correlacin, como puede ser la covarianza, es que los resultados del coeficiente de correlacin estn acotados entre -1 y +1. Esta caracterstica nos permite comparar diferentes correlaciones de una manera ms estandarizada. El coeficiente de correlacin se puede calcular con Excel mediante el comando COEF.DE.CORREL. Tambin se puede calcular mediante la frmula:

Siendo Cov (X,Y) la covarianza entre las series temporales X e Y, y X e Y las desviaciones estndar de X e Y. Interpretacin Como he mencionado antes, el coeficiente de correlacin tiene un valor acotado entre -1 y +1. Los valores cercanos a cero indican que no hay asociacin entre las variables. Valores cercanos a uno indican una asociacin fuerte, mientras que los valores cercanos a menos uno indican una asociacin fuerte pero inversa. Por ejemplo, si el coeficiente de correlacin entre dos activos financieros es mayor que 0,70, podemos decir que estn muy correlacionados positivamente. Por el contrario, si el valor de este coeficiente est entre -0,20 y +0,20, la correlacin ser baja. Por ltimo, si el coeficiente de correlacin es menor que -0,70 existir una gran correlacin, pero negativa. Captulo 4:

Coeficiente de determinacin

Software Contable Ecuador Listo para NIIF, Facil de Manejar, Integrado. Desde 150 USD Vea Demo ! www.worldoffice.com.coEnlaces patrocinados

2da parte Aplicacin. La UCI cuenta con dos circuitos por los cuales se mide el consumo de Energa Elctrica, ellos son el circuito 1590 que suministra el servicio a la residencia y el 1600 que lo hace en los edificios docentes.

Se tomaron los consumos de energa elctrica en MW-h de los 108 primeros das del ao en curso medidos en los diferentes circuitos, y tambin la temperatura ambiente en distintos horarios del da, con el propsito de analizar si existe una relacin entre el consumo de energa elctrica con la temperatura ambiente. El estudio parte cuando queda demostrado a travs de la prueba de necesidad realizada en el departamento de Gestin Energtica que los puntos claves y equipos que ms influencia ejercen en el consumo son los aires condicionados. En las tablas que aparecen de anexo se muestran los valores de temperaturas y consumo de energa en los das que se realiz el estudio. Se calcul el coeficiente correlacin de Pearson entre las variables que se de finen mediante la ecuacin (I): Y: Consumo de energa (Dependiente) X: Temperatura ambiente (Independiente) r = 0.52 Lo que indica que existe una relacin lineal entre las variables pues este valor a pesar de no estar muy lejos de cero, nos dice que existen otros factores que tambin pudieran estar condicionando el nivel de consumo. Para ello es necesario realizar una inferencia acerca del coeficiente de correlacin a travs de una prueba de hiptesis utilizando el estadgrafo t student con un 95 % de confianza queda a = 0.05

Hiptesis a ser evaluadas Mediante la ecuacin (II) obtenemos a t de las observaciones el cual es 7.72

Como el valor de "t obs" excede el valor crtico obtenido de la tabla se deduce que hay evidencia suficiente para sealar que existe correlacin lineal entre el consumo de energa y la temperatura ambiente. Para verificar la relacin funcional que eventualmente puede existir entre las variables que se estudian se realiz un anlisis de regresin lineal, calculando los parmetros de la regresin:

A partir de esta expresin se puede predecir el comportamiento del consumo de enrgia una vez conocida la temperatura ambiente. Con la finalidad de comprobar estadsticamente si las variables X y Y presentan la supuesta relacin lineal se realiz un anlisis de varianza completando la tabla ANVA descrita anteriormente.

En este caso el valor crtico se seleccion de la tabla de distribucin normal, ya que la muestra excede los 30 datos, y se aproxima a la distribucin normal. 3.82 mayor 1.64 Por lo que se rechaza H0 y se concluye que el modelo de regresin lineal simple es adecuado.

Utilizando la expresin (III) calculamos in De donde se obtiene un 27 %, lo que quiere decir que la variacin del consumo de energa de la UCI esta explicada a travs de un 27 % con respecto a la temperatura ambiente que exista, aparentemente es un porcentaje bajo, pero si se analiza que en las diferentes reas de la universidad existe una gran diversidad de equipos electrnicos entre ellos aire acondicionados demuestra que estos ejercen una influencia significativa en los valores de consumo. Ecuacin del error estndar de estimacin El error estndar de estimacin representado por el smbolo Syx mide la dispersin de los valores observados alrededor de la lnea de regresin. El resultado se obtiene a travs de la siguiente ecuacin:

Desarrollemos el siguiente ejercicio Se desea calcular el error estndar de estimacin de los montos de importacin y exportacin, expresados en millones, de un pas en los ltimos 7 aos. Ao 2002 2003 2004 2005 2006 2007 2008 Importacin 500 680 700 680 745 800 920 Exportacin 400 520 650 480 600 700 780

Colocamos los datos en Microsoft Excel, desde la celda A1 hasta C8 y seguimos los siguientes pasos: 1. Calcula los totales de (x), (y), x2, (x)(y), y2

2. Obtn los coeficientes de intercepcin y tamao utilizando el mtodo mnimo de cuadrados.

Entonces la ecuacin estar representada de la siguiente forma.

3. Reemplaza los datos en la ecuacin de error estndar de estimacin.

El error estndar de estimacin es 53.1403394, que representa la variabilidad alrededor de la recta de regresin. 2. Anlisis de datos utilizando Microsoft Excel 2007 Podemos obtener los mismos resultados haciendo uso de la herramienta Anlisis de datos que ofrece Microsoft Excel 2007, realizando los siguientes pasos: 1. Seleccione el men DATOS

2. Luego clic sobre la opcin ANLISIS DE DATOS

3. Aparece el cuadro de dilogo ANLISIS DE DATOS y seleccione la funcin REGRESIN, despus clic en ACEPTAR.

4. El siguiente recuadro define los rangos que sern analizados, ingresando los datos correspondientes. Para el rango de entrada Y seleccione desde la celda C2 hasta la celda C8 y para el rango X seleccione desde la celda B2 hasta la celda B8. Define las opciones de salida y presione ACEPTAR.

El resultado indica los valores del modelo de regresin lineal y el error estndar de estimacin, entre otros.

Los resultados de los coeficientes permiten predecir el monto de exportacin (Y) para el prximo ao, dependiento de los montos de importacin (X) segn la muestra analizada. Solo se reemplaza el siguiente monto de importacin en la variable X. El error tpico muestra la variabilidad alrededor de la recta de regresin.