Regresión lineal

En estadística la regresión lineal o ajuste lineal es un método matemático que modela la relación entre una variable dependiente Y, las variables independientes Xi y un término aleatorio ε. Este modelo puede ser expresado como:

: variable dependiente, explicada o regresando. : variables explicativas, independientes o regresores. : parámetros, miden la influencia que las variables explicativas tienen sobre el regresando. donde es la intersección o término "constante", las son los parámetros respectivos a cada variable independiente, y es el número de parámetros independientes a tener en cuenta en la regresión. La regresión lineal puede ser contrastada con la regresión no lineal.

El modelo de regresión lineal
El modelo lineal relaciona la variable dependiente Y con K variables explicativas (k = 1,...K), o cualquier transformación de éstas, que generan un hiperplano de parámetros desconocidos: (2) donde es la perturbación aleatoria que recoge todos aquellos factores de la realidad no controlables u observables y que por tanto se asocian con el azar, y es la que confiere al modelo su carácter estocástico. En el caso más sencillo, con una sola variable explicativa, el hiperplano es una recta: (3) El problema de la regresión consiste en elegir unos valores determinados para los parámetros desconocidos , de modo que la ecuación quede completamente especificada. Para ello se necesita un conjunto de observaciones. En una observación cualquiera i-ésima (i= 1,... I) se registra el comportamiento simultáneo de la variable dependiente y las variables explicativas (las perturbaciones aleatorias se suponen no observables). (4)

Los valores escogidos como estimadores de los parámetros, , son los coeficientes de regresión, sin que se pueda garantizar que coinciden con parámetros reales del proceso generador. Por tanto, en (5) Los valores son por su parte estimaciones de la perturbación aleatoria o errores.

El modelo de regresión lineal
El modelo lineal relaciona la variable dependiente Y con K variables explicativas (k = 1,...K), o cualquier transformación de éstas, que generan un hiperplano de parámetros desconocidos: (2) donde es la perturbación aleatoria que recoge todos aquellos factores de la realidad no controlables u observables y que por tanto se asocian con el azar, y es la que confiere al modelo su carácter estocástico. En el caso más sencillo, con una sola variable explicativa, el hiperplano es una recta: (3) El problema de la regresión consiste en elegir unos valores determinados para los parámetros desconocidos , de modo que la ecuación quede completamente especificada. Para ello se necesita un conjunto de observaciones. En una observación cualquiera i-ésima (i= 1,... I) se registra el comportamiento simultáneo de la variable dependiente y las variables explicativas (las perturbaciones aleatorias se suponen no observables). (4) Los valores escogidos como estimadores de los parámetros, , son los coeficientes de regresión, sin que se pueda garantizar que coinciden con parámetros reales del proceso generador. Por tanto, en (5) Los valores son por su parte estimaciones de la perturbación aleatoria o errores.

CONCEPTO DE REGRESIÓN LINEAL SIMPLE La regresión lineal simple, es una herramienta muy importante para la econometría, que

En la Regresión lineal simple sólo se maneja una variable independiente. es una extención de la regresión lineal solo que con un mayor número de variables independientes. por lo que sólo cuenta con dos parámetros. busca encontrar la recta de Y = β0 +regresión que relacione dos variables (X e Y) de forma que β1• X + error Un ejemplo de dicha regresión lineal. Es decir sirve para predecir el valor de una variable dependiente conociendo el valor y la influencia de las variables independientes incluidas en el análisis. Cuando existe una posible relación entra varias variables independientes y otra dependiente se hace necesario el uso de la REGRESIÓN MULTIPLE. entre los cuales se pueden citar los siguientes:      Linealidad Normalidad y equidistribución de los residuos. Analiza el efecto de dos o más variables dependientes o independientes. La Regresión lineal múltiple maneja varias variables independientes. Número de variables independientes. asi mismo. Es un procedimiento que se presenta cuando dos o más variables independientes influyen sobre una variable dependiente. es la renta. Al momento de aplicar la regresión múltiple se tienen ciertos requisitos y limitaciones. ya que no podemos saber el nivel de renta en un futuro. Regresion múltiple Es un método para analizar el efecto de dos o mas variables independientes sobre una dependiente. cuando la relacion que existe entre una variable y otra la cual nos permite predecir los valores de una variable a partir de los valores obserbados de otra hablamos de una regresion multiple. Colinealidad Observaciones anómalas. pero si podemos saber si el promedio de la renta aumentará o disminuirá determinando con cierta exactitud la cantidad. descartando aquellas que no aportan información.estudia la dependencia existente entre una variable dependiente y una o más variables explicativas. cuando se requiere detectar la interacción entre variables independientes que afectan a la variable y cuando se requiere identificar variables confusoras. La regresión múltiple se usa con mayor frecuencia en las publicaciones de las investigaciones cuando se requiere crear un modelo donde se seleccionan variables que pueden infuir en la respuesta. Cuenta con varios parámetros. junto con la del concepto de correlación El modelo de regresión lineal simple. . El inventor de dicha teoría fue Francis Galton.

.

A diferencia de la covarianza. De manera menos formal. siendo la expresión que nos permite calcularlo: .Coeficiente de correlación En estadística. la correlación de Pearson es independiente de la escala de medida de las variables. el coeficiente de correlación de Pearson se simboliza con la letra . podemos definir el coeficiente de correlación de Pearson como un índice que puede utilizarse para medir el grado de relación de dos variables siempre y cuando ambas sean cuantitativas. En el caso de que se esté estudiando dos variables aleatorias x e y sobre una población estadística. el coeficiente de correlación de Pearson es un índice que mide la relación lineal entre dos variables aleatorias cuantitativas.

.1]:      Si r = 1. existe una correlación positiva. El índice indica una dependencia total entre las dos variables denominada relación directa: cuando una de ellas aumenta. existe una correlación negativa perfecta. El índice indica una dependencia total entre las dos variables llamada relación inversa: cuando una de ellas aumenta. Si r = -1. Si r = 0. Si -1 < r < 0. existe una correlación positiva perfecta. denotado como a: Interpretación El valor del índice de correlación varía en el intervalo [-1. existe una correlación negativa.Donde:    es la covarianza de es la desviación típica de la variable es la desviación típica de la variable De manera análoga podemos calcular este coeficiente sobre un estadístico muestral. Si 0 < r < 1. no existe relación lineal. la otra disminuye en proporción constante. la otra también lo hace en proporción constante. Pero esto no necesariamente implica que las variables son independientes: pueden existir todavía relaciones no lineales entre las dos variables.

UU. cada uno con el valor de una variable que determina la posición en el eje horizontal y el valor de la otra variable determinado por la posición en el eje vertical. Wyoming.Y. es decir. mayor será la variación en Y que es explicada por la X.Y X. Y Yi FRM Debido al residuo total Debido a la regresión Y media Media condicional X 22 Xi.YX El círculo Y representa la variación en la variable dependiente Y y el círculo X representa la variación en la variable X. Los datos se muestran como un conjunto de puntos. Este gráfico sugiere que por lo general hay dos "tipos" de erupciones: uno de corta espera y corta duración y otro de larga espera y larga duración. la intersección de los dos círculos indica la medida en la cual la variación en Y es explicada por la variación en X. Por lo tanto.Y.COEFICIENTE DE DETERMINACIÓN El coeficiente de determinación es una medida que nos dice qué tan bien se ajusta la recta de regresión muestral a los datos. EE.X. es una medida de bondad de ajuste [el se encuentra entre 0 y 1]. entre mayor sea la medida de la intersección. . Un diagrama de dispersión es un tipo de diagrama matemático que utiliza las coordenadas cartesianas para mostrar los valores de dos variables para un conjunto de datos.[1] Un diagrama de dispersión se llama también gráfico de dispersión. Diagrama de dispersión El tiempo de espera entre las erupciones y la duración de la erupción del géiser Old Faithful en el Parque Nacional Yellowstone.X.

estas relaciones son visualmente evidentes como patrones superpuestos. La variable medida o dependiente = eje de y usualmente se representa a lo largo del eje vertical. el diagrama de Pareto. Uno de los aspectos más poderosos de un gráfico de dispersión.Descripción Se emplea cuando una variable está bajo el control del experimentador. Una ecuación para la correlación entre las variables puede ser determinada por procedimientos de ajuste. Un diagrama de dispersión puede sugerir varios tipos de correlaciones entre las variables con un intervalo de confianza determinado. o nula (las variables no están correlacionadas). es su capacidad para mostrar las relaciones no lineales entre las variables. si los datos son representados por un modelo de mezcla de relaciones simples. sin embargo. Además. Para una correlación lineal. La correlación puede ser positiva (aumento). negativa (descenso). se le denomina parámetro de control o variable independiente = eje de x y habitualmente se representa a lo largo del eje horizontal. . la hoja de verificación. El diagrama de dispersión es una de las herramientas básicas de control de calidad. los gráficos de control. Si no existe una variable dependiente. que incluyen además el histograma. Se puede dibujar una línea de ajuste (llamada también "línea de tendencia") con el fin de estudiar la correlación entre las variables. el diagrama de Ishikawa y el (diagrama de flujo). cualquier variable se puede representar en cada eje y el diagrama de dispersión mostrará el grado de correlación (no causalidad) entre las dos variables. Si existe un parámetro que se incrementa o disminuye de forma sistemática por el experimentador. el procedimiento de ajuste es conocido como regresión lineal y garantiza una solución correcta en un tiempo finito.

.

formula para calcular el coeficiente de correlacion formula para encontrar la ecuación de regresión .

Regresión de la Fórmula: La ecuación de regresión(y) = a + bx Pendiente(b) = (NΣXY . N=5 Paso 2:Buscar XY. intersección y usarla para formar la ecuación de regresión. ΣX = 311 .1 = 266.1 = 186 60 * 60 = 3600 61 3. ΣXY.8 = 235.8 62 * 3. ΣX2. b =La pendiente de la recta de regresión a =El punto de intersección de la recta de regresión y el eje Y.1 60 * 3. ΣY.6 = 219.b(ΣX)) / N donde x e y son las variables.1 61 3.(ΣX)(ΣY)) / (NΣX2 . X2 Consulte la tabla siguiente X Valor Y Relación X*Y X*X 60 3.5 65 * 65 = 4225 Paso 3:Buscar ΣX. Paso 1:Cuente el número de valores.(ΣX)2) Interceptar(a) = (ΣY .6 61 * 61 = 3721 62 3.6 62 3..8 63 4 65 4. N =Número de valores o elementos X = Primera puntuación Y =La puntuación de Segunda ΣXY = Suma del producto de las puntuaciones primero y segundo ΣX =La suma de las puntuaciones Primera ΣY = Suma de las puntuaciones de segunda ΣX2 = Suma de cuadrados Puntuación Primero Ejemplo de regresión: Para encontrar la simple / Regresión lineal de X Valores Y Valores 60 3.1 65 * 4.6 62 * 62 = 3844 63 4 63 * 4 = 252 63 * 63 = 3969 65 4.1 Para encontrar la ecuación de regresión. lo primero que se encuentra pendiente.6 61 * 3.

7 ΣX2 = 19359 Paso 4:Suplente en la fórmula de la pendiente por encima de determinado.ΣY = 18.098 + 0.59. formula para calcular el coeficiente de correlacion ¿Qué mide el Coeficiente de Correlación? En la Wikipedia podemos encontrar esta buena explicación de lo que es la correlación: “La correlación es la medida de asociación entre variables.5 .9/74 = 0.06 Este ejemplo le guía para encontrar la relación entre dos variables mediante el cálculo de la regresión de los pasos anteriores. Slope(b) = (NΣXY .0. Entonces podemos sustituir el valor en la ecuación anterior.098 Paso 6:A continuación.b(ΣX)) / N = (18.09)/5 = -40.(ΣX)2) = ((5)*(1159.098 + 0.6 ΣXY = 1159.6 .19(64).(ΣX)(ΣY)) / (NΣX2 .6 .16 = 4. Interceptar(a) = (ΣY .19x. Se considera que dos variables cuantitativas están correlacionadas cuando los valores de una de ellas varían sistemáticamente con respecto a los valores homónimos de la otra: si tenemos dos variables (A y B) existe correlación si al aumentar los valores de A lo hacen también los de B y viceversa. Supongo que si queremos saber el valor y aproximada de la variable x = 64.6)/(96795 .” . de nuevo suplente en la fórmula anterior interceptar dado.6))/((5)*(19359)-(311)2) = (5798.96721) = 13.7)-(311)*(18. la correlación indica la fuerza y la dirección de una relación lineal entre dos variables aleatorias. sustituir estos valores en la ecuación de regresión fórmula La ecuación de regresión(y) = a + bx = -8. La ecuación de regresión(y) = a + bx = -8.19 Paso 5:Ahora. = -8.5784. En probabilidad y estadística.098 + 12.49/5 = -8.19(311))/5 = (18.

coEnlaces patrocinados 2da parte Aplicación. si el valor de este coeficiente está entre -0. como puede ser la covarianza.com. ellos son el circuito 1590 que suministra el servicio a la residencia y el 1600 que lo hace en los edificios docentes. Los valores cercanos a cero indican que no hay asociación entre las variables. La ventaja que tiene este coeficiente sobre otras herramientas para medir la correlación. Desde 150 USD Vea Demo ! www.20 y +0.Y) la covarianza entre las series temporales X e Y. y σX e σY las desviaciones estándar de X e Y.DE. pero negativa. El coeficiente de correlación se puede calcular con Excel mediante el comando “COEF.70. Valores cercanos a uno indican una asociación fuerte. Por último. Por el contrario. Integrado.CORREL”. es que los resultados del coeficiente de correlación están acotados entre -1 y +1.70 existirá una gran correlación. Capítulo 4: Coeficiente de determinación  Software Contable Ecuador Listo para NIIF. mientras que los valores cercanos a menos uno indican una asociación fuerte pero inversa. Por ejemplo. . La UCI cuenta con dos circuitos por los cuales se mide el consumo de Energía Eléctrica. el coeficiente de correlación tiene un valor acotado entre -1 y +1.worldoffice. podemos decir que están muy correlacionados positivamente. si el coeficiente de correlación entre dos activos financieros es mayor que 0. También se puede calcular mediante la fórmula: Siendo Cov (X.20. Esta característica nos permite comparar diferentes correlaciones de una manera más estandarizada. si el coeficiente de correlación es menor que -0. la correlación será baja. Facil de Manejar. Interpretación Como he mencionado antes.El coeficiente de correlación sirve para medir la correlación entre 2 variables.

nos dice que existen otros factores que también pudieran estar condicionando el nivel de consumo.05 Hipótesis a ser evaluadas Mediante la ecuación (II) obtenemos a t de las observaciones el cual es 7. con el propósito de analizar si existe una relación entre el consumo de energía eléctrica con la temperatura ambiente.72 Como el valor de "t obs" excede el valor crítico obtenido de la tabla se deduce que hay evidencia suficiente para señalar que existe correlación lineal entre el consumo de energía y la temperatura ambiente.52 Lo que indica que existe una relación lineal entre las variables pues este valor a pesar de no estar muy lejos de cero. En las tablas que aparecen de anexo se muestran los valores de temperaturas y consumo de energía en los días que se realizó el estudio. Para verificar la relación funcional que eventualmente puede existir entre las variables que se estudian se realizó un análisis de regresión lineal. Se calculó el coeficiente correlación de Pearson entre las variables que se de finen mediante la ecuación (I): Y: Consumo de energía (Dependiente) X: Temperatura ambiente (Independiente) r = 0. y también la temperatura ambiente en distintos horarios del día.Se tomaron los consumos de energía eléctrica en MW-h de los 108 primeros días del año en curso medidos en los diferentes circuitos. calculando los parámetros de la regresión: . El estudio parte cuando queda demostrado a través de la prueba de necesidad realizada en el departamento de Gestión Energética que los puntos claves y equipos que más influencia ejercen en el consumo son los aires condicionados. Para ello es necesario realizar una inferencia acerca del coeficiente de correlación a través de una prueba de hipótesis utilizando el estadígrafo t student con un 95 % de confianza queda a = 0.

64 Por lo que se rechaza H0 y se concluye que el modelo de regresión lineal simple es adecuado. .82 mayor 1.A partir de esta expresión se puede predecir el comportamiento del consumo de enrgia una vez conocida la temperatura ambiente. y se aproxima a la distribución normal. En este caso el valor crítico se seleccionó de la tabla de distribución normal. Con la finalidad de comprobar estadísticamente si las variables X y Y presentan la supuesta relación lineal se realizó un análisis de varianza completando la tabla ANVA descrita anteriormente. 3. ya que la muestra excede los 30 datos.

(y). desde la celda A1 hasta C8 y seguimos los siguientes pasos: 1. (x)(y). expresados en millones. de un país en los últimos 7 años. y2 . aparentemente es un porcentaje bajo. pero si se analiza que en las diferentes áreas de la universidad existe una gran diversidad de equipos electrónicos entre ellos aire acondicionados demuestra que estos ejercen una influencia significativa en los valores de consumo. lo que quiere decir que la variación del consumo de energía de la UCI esta explicada a través de un 27 % con respecto a la temperatura ambiente que exista. El resultado se obtiene a través de la siguiente ecuación: Desarrollemos el siguiente ejercicio Se desea calcular el error estándar de estimación de los montos de importación y exportación. Calcula los totales de (x). Año 2002 2003 2004 2005 2006 2007 2008 Importación 500 680 700 680 745 800 920 Exportación 400 520 650 480 600 700 780 Colocamos los datos en Microsoft Excel. x2. Ecuación del error estándar de estimación El error estándar de estimación representado por el símbolo Syx mide la dispersión de los valores observados alrededor de la línea de regresión.Utilizando la expresión (III) calculamos ión De donde se obtiene un 27 %.

Entonces la ecuación estará representada de la siguiente forma. Obtén los coeficientes de intercepción y tamaño utilizando el método mínimo de cuadrados. 3. .2. Reemplaza los datos en la ecuación de error estándar de estimación.

Aparece el cuadro de diálogo ANÁLISIS DE DATOS y seleccione la función REGRESIÓN. Seleccione el menú DATOS 2. Luego clic sobre la opción ANÁLISIS DE DATOS 3.El error estándar de estimación es 53. que representa la variabilidad alrededor de la recta de regresión. después clic en ACEPTAR. . Análisis de datos utilizando Microsoft Excel 2007 Podemos obtener los mismos resultados haciendo uso de la herramienta Análisis de datos que ofrece Microsoft Excel 2007. 2.1403394. realizando los siguientes pasos: 1.

Para el rango de entrada Y seleccione desde la celda C2 hasta la celda C8 y para el rango X seleccione desde la celda B2 hasta la celda B8. El siguiente recuadro define los rangos que serán analizados. ingresando los datos correspondientes. Define las opciones de salida y presione ACEPTAR. entre otros. El resultado indica los valores del modelo de regresión lineal y el error estándar de estimación.4. .

. El error típico muestra la variabilidad alrededor de la recta de regresión. Solo se reemplaza el siguiente monto de importación en la variable X.Los resultados de los coeficientes permiten predecir el monto de exportación (Y) para el próximo año. dependiento de los montos de importación (X) según la muestra analizada.

Sign up to vote on this title
UsefulNot useful