P. 1
Regresión lineal

Regresión lineal

|Views: 26|Likes:

More info:

Published by: Silvia Naula de Alvarado on Dec 11, 2012
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as DOCX, PDF, TXT or read online from Scribd
See more
See less

03/03/2014

pdf

text

original

Regresión lineal

En estadística la regresión lineal o ajuste lineal es un método matemático que modela la relación entre una variable dependiente Y, las variables independientes Xi y un término aleatorio ε. Este modelo puede ser expresado como:

: variable dependiente, explicada o regresando. : variables explicativas, independientes o regresores. : parámetros, miden la influencia que las variables explicativas tienen sobre el regresando. donde es la intersección o término "constante", las son los parámetros respectivos a cada variable independiente, y es el número de parámetros independientes a tener en cuenta en la regresión. La regresión lineal puede ser contrastada con la regresión no lineal.

El modelo de regresión lineal
El modelo lineal relaciona la variable dependiente Y con K variables explicativas (k = 1,...K), o cualquier transformación de éstas, que generan un hiperplano de parámetros desconocidos: (2) donde es la perturbación aleatoria que recoge todos aquellos factores de la realidad no controlables u observables y que por tanto se asocian con el azar, y es la que confiere al modelo su carácter estocástico. En el caso más sencillo, con una sola variable explicativa, el hiperplano es una recta: (3) El problema de la regresión consiste en elegir unos valores determinados para los parámetros desconocidos , de modo que la ecuación quede completamente especificada. Para ello se necesita un conjunto de observaciones. En una observación cualquiera i-ésima (i= 1,... I) se registra el comportamiento simultáneo de la variable dependiente y las variables explicativas (las perturbaciones aleatorias se suponen no observables). (4)

Los valores escogidos como estimadores de los parámetros, , son los coeficientes de regresión, sin que se pueda garantizar que coinciden con parámetros reales del proceso generador. Por tanto, en (5) Los valores son por su parte estimaciones de la perturbación aleatoria o errores.

El modelo de regresión lineal
El modelo lineal relaciona la variable dependiente Y con K variables explicativas (k = 1,...K), o cualquier transformación de éstas, que generan un hiperplano de parámetros desconocidos: (2) donde es la perturbación aleatoria que recoge todos aquellos factores de la realidad no controlables u observables y que por tanto se asocian con el azar, y es la que confiere al modelo su carácter estocástico. En el caso más sencillo, con una sola variable explicativa, el hiperplano es una recta: (3) El problema de la regresión consiste en elegir unos valores determinados para los parámetros desconocidos , de modo que la ecuación quede completamente especificada. Para ello se necesita un conjunto de observaciones. En una observación cualquiera i-ésima (i= 1,... I) se registra el comportamiento simultáneo de la variable dependiente y las variables explicativas (las perturbaciones aleatorias se suponen no observables). (4) Los valores escogidos como estimadores de los parámetros, , son los coeficientes de regresión, sin que se pueda garantizar que coinciden con parámetros reales del proceso generador. Por tanto, en (5) Los valores son por su parte estimaciones de la perturbación aleatoria o errores.

CONCEPTO DE REGRESIÓN LINEAL SIMPLE La regresión lineal simple, es una herramienta muy importante para la econometría, que

La regresión múltiple se usa con mayor frecuencia en las publicaciones de las investigaciones cuando se requiere crear un modelo donde se seleccionan variables que pueden infuir en la respuesta. busca encontrar la recta de Y = β0 +regresión que relacione dos variables (X e Y) de forma que β1• X + error Un ejemplo de dicha regresión lineal.estudia la dependencia existente entre una variable dependiente y una o más variables explicativas. junto con la del concepto de correlación El modelo de regresión lineal simple. Es un procedimiento que se presenta cuando dos o más variables independientes influyen sobre una variable dependiente. descartando aquellas que no aportan información. es la renta. La Regresión lineal múltiple maneja varias variables independientes. El inventor de dicha teoría fue Francis Galton. es una extención de la regresión lineal solo que con un mayor número de variables independientes. Colinealidad Observaciones anómalas. Regresion múltiple Es un método para analizar el efecto de dos o mas variables independientes sobre una dependiente. pero si podemos saber si el promedio de la renta aumentará o disminuirá determinando con cierta exactitud la cantidad. ya que no podemos saber el nivel de renta en un futuro. Analiza el efecto de dos o más variables dependientes o independientes. cuando se requiere detectar la interacción entre variables independientes que afectan a la variable y cuando se requiere identificar variables confusoras. En la Regresión lineal simple sólo se maneja una variable independiente. Número de variables independientes. entre los cuales se pueden citar los siguientes:      Linealidad Normalidad y equidistribución de los residuos. por lo que sólo cuenta con dos parámetros. . asi mismo. Al momento de aplicar la regresión múltiple se tienen ciertos requisitos y limitaciones. Cuando existe una posible relación entra varias variables independientes y otra dependiente se hace necesario el uso de la REGRESIÓN MULTIPLE. Es decir sirve para predecir el valor de una variable dependiente conociendo el valor y la influencia de las variables independientes incluidas en el análisis. cuando la relacion que existe entre una variable y otra la cual nos permite predecir los valores de una variable a partir de los valores obserbados de otra hablamos de una regresion multiple. Cuenta con varios parámetros.

.

De manera menos formal. podemos definir el coeficiente de correlación de Pearson como un índice que puede utilizarse para medir el grado de relación de dos variables siempre y cuando ambas sean cuantitativas.Coeficiente de correlación En estadística. En el caso de que se esté estudiando dos variables aleatorias x e y sobre una población estadística. la correlación de Pearson es independiente de la escala de medida de las variables. el coeficiente de correlación de Pearson se simboliza con la letra . siendo la expresión que nos permite calcularlo: . A diferencia de la covarianza. el coeficiente de correlación de Pearson es un índice que mide la relación lineal entre dos variables aleatorias cuantitativas.

no existe relación lineal. existe una correlación positiva perfecta.Donde:    es la covarianza de es la desviación típica de la variable es la desviación típica de la variable De manera análoga podemos calcular este coeficiente sobre un estadístico muestral. Si -1 < r < 0.1]:      Si r = 1. Si r = 0. Si 0 < r < 1. Pero esto no necesariamente implica que las variables son independientes: pueden existir todavía relaciones no lineales entre las dos variables. existe una correlación positiva. existe una correlación negativa perfecta. existe una correlación negativa. la otra también lo hace en proporción constante. El índice indica una dependencia total entre las dos variables denominada relación directa: cuando una de ellas aumenta. Si r = -1. . denotado como a: Interpretación El valor del índice de correlación varía en el intervalo [-1. la otra disminuye en proporción constante. El índice indica una dependencia total entre las dos variables llamada relación inversa: cuando una de ellas aumenta.

YX El círculo Y representa la variación en la variable dependiente Y y el círculo X representa la variación en la variable X. mayor será la variación en Y que es explicada por la X. es decir. la intersección de los dos círculos indica la medida en la cual la variación en Y es explicada por la variación en X. Un diagrama de dispersión es un tipo de diagrama matemático que utiliza las coordenadas cartesianas para mostrar los valores de dos variables para un conjunto de datos. EE. es una medida de bondad de ajuste [el se encuentra entre 0 y 1].X. Por lo tanto. Wyoming.COEFICIENTE DE DETERMINACIÓN El coeficiente de determinación es una medida que nos dice qué tan bien se ajusta la recta de regresión muestral a los datos. Diagrama de dispersión El tiempo de espera entre las erupciones y la duración de la erupción del géiser Old Faithful en el Parque Nacional Yellowstone.Y. Y Yi FRM Debido al residuo total Debido a la regresión Y media Media condicional X 22 Xi.Y X.X.UU.Y. entre mayor sea la medida de la intersección. Los datos se muestran como un conjunto de puntos.[1] Un diagrama de dispersión se llama también gráfico de dispersión. . Este gráfico sugiere que por lo general hay dos "tipos" de erupciones: uno de corta espera y corta duración y otro de larga espera y larga duración. cada uno con el valor de una variable que determina la posición en el eje horizontal y el valor de la otra variable determinado por la posición en el eje vertical.

Descripción Se emplea cuando una variable está bajo el control del experimentador. es su capacidad para mostrar las relaciones no lineales entre las variables. Una ecuación para la correlación entre las variables puede ser determinada por procedimientos de ajuste. La correlación puede ser positiva (aumento). la hoja de verificación. sin embargo. los gráficos de control. Si existe un parámetro que se incrementa o disminuye de forma sistemática por el experimentador. Un diagrama de dispersión puede sugerir varios tipos de correlaciones entre las variables con un intervalo de confianza determinado. Si no existe una variable dependiente. cualquier variable se puede representar en cada eje y el diagrama de dispersión mostrará el grado de correlación (no causalidad) entre las dos variables. el diagrama de Pareto. si los datos son representados por un modelo de mezcla de relaciones simples. Además. el diagrama de Ishikawa y el (diagrama de flujo). La variable medida o dependiente = eje de y usualmente se representa a lo largo del eje vertical. estas relaciones son visualmente evidentes como patrones superpuestos. El diagrama de dispersión es una de las herramientas básicas de control de calidad. Para una correlación lineal. el procedimiento de ajuste es conocido como regresión lineal y garantiza una solución correcta en un tiempo finito. . Se puede dibujar una línea de ajuste (llamada también "línea de tendencia") con el fin de estudiar la correlación entre las variables. o nula (las variables no están correlacionadas). negativa (descenso). Uno de los aspectos más poderosos de un gráfico de dispersión. que incluyen además el histograma. se le denomina parámetro de control o variable independiente = eje de x y habitualmente se representa a lo largo del eje horizontal.

.

formula para calcular el coeficiente de correlacion formula para encontrar la ecuación de regresión .

intersección y usarla para formar la ecuación de regresión.1 60 * 3.b(ΣX)) / N donde x e y son las variables.1 Para encontrar la ecuación de regresión.6 62 * 62 = 3844 63 4 63 * 4 = 252 63 * 63 = 3969 65 4. ΣX = 311 . X2 Consulte la tabla siguiente X Valor Y Relación X*Y X*X 60 3. N=5 Paso 2:Buscar XY. ΣX2.Regresión de la Fórmula: La ecuación de regresión(y) = a + bx Pendiente(b) = (NΣXY ..6 61 * 61 = 3721 62 3. ΣY.(ΣX)2) Interceptar(a) = (ΣY .8 62 * 3.6 = 219.6 62 3.8 63 4 65 4.6 61 * 3.1 = 186 60 * 60 = 3600 61 3.1 61 3.1 = 266. b =La pendiente de la recta de regresión a =El punto de intersección de la recta de regresión y el eje Y.8 = 235. Paso 1:Cuente el número de valores.(ΣX)(ΣY)) / (NΣX2 . lo primero que se encuentra pendiente. N =Número de valores o elementos X = Primera puntuación Y =La puntuación de Segunda ΣXY = Suma del producto de las puntuaciones primero y segundo ΣX =La suma de las puntuaciones Primera ΣY = Suma de las puntuaciones de segunda ΣX2 = Suma de cuadrados Puntuación Primero Ejemplo de regresión: Para encontrar la simple / Regresión lineal de X Valores Y Valores 60 3.5 65 * 65 = 4225 Paso 3:Buscar ΣX. ΣXY.1 65 * 4.

Entonces podemos sustituir el valor en la ecuación anterior.7)-(311)*(18.7 ΣX2 = 19359 Paso 4:Suplente en la fórmula de la pendiente por encima de determinado. = -8.6 .5 .ΣY = 18. La ecuación de regresión(y) = a + bx = -8. Supongo que si queremos saber el valor y aproximada de la variable x = 64.6 .098 + 0. Interceptar(a) = (ΣY . Slope(b) = (NΣXY .59. Se considera que dos variables cuantitativas están correlacionadas cuando los valores de una de ellas varían sistemáticamente con respecto a los valores homónimos de la otra: si tenemos dos variables (A y B) existe correlación si al aumentar los valores de A lo hacen también los de B y viceversa.(ΣX)(ΣY)) / (NΣX2 .0.06 Este ejemplo le guía para encontrar la relación entre dos variables mediante el cálculo de la regresión de los pasos anteriores.19x.b(ΣX)) / N = (18.6 ΣXY = 1159.19 Paso 5:Ahora.19(311))/5 = (18.9/74 = 0.6))/((5)*(19359)-(311)2) = (5798.96721) = 13.098 + 0.6)/(96795 .098 Paso 6:A continuación. sustituir estos valores en la ecuación de regresión fórmula La ecuación de regresión(y) = a + bx = -8. de nuevo suplente en la fórmula anterior interceptar dado.09)/5 = -40.16 = 4. la correlación indica la fuerza y la dirección de una relación lineal entre dos variables aleatorias. formula para calcular el coeficiente de correlacion ¿Qué mide el Coeficiente de Correlación? En la Wikipedia podemos encontrar esta buena explicación de lo que es la correlación: “La correlación es la medida de asociación entre variables.5784.098 + 12.19(64).” .49/5 = -8.(ΣX)2) = ((5)*(1159. En probabilidad y estadística.

. Por el contrario. y σX e σY las desviaciones estándar de X e Y. Capítulo 4: Coeficiente de determinación  Software Contable Ecuador Listo para NIIF. Desde 150 USD Vea Demo ! www.coEnlaces patrocinados 2da parte Aplicación. La UCI cuenta con dos circuitos por los cuales se mide el consumo de Energía Eléctrica. si el coeficiente de correlación entre dos activos financieros es mayor que 0. como puede ser la covarianza. La ventaja que tiene este coeficiente sobre otras herramientas para medir la correlación.20.worldoffice. Por último. podemos decir que están muy correlacionados positivamente.20 y +0. el coeficiente de correlación tiene un valor acotado entre -1 y +1.El coeficiente de correlación sirve para medir la correlación entre 2 variables. la correlación será baja. ellos son el circuito 1590 que suministra el servicio a la residencia y el 1600 que lo hace en los edificios docentes. Esta característica nos permite comparar diferentes correlaciones de una manera más estandarizada.70. Valores cercanos a uno indican una asociación fuerte. Interpretación Como he mencionado antes. Facil de Manejar.DE. es que los resultados del coeficiente de correlación están acotados entre -1 y +1. El coeficiente de correlación se puede calcular con Excel mediante el comando “COEF. Los valores cercanos a cero indican que no hay asociación entre las variables. pero negativa. Integrado. También se puede calcular mediante la fórmula: Siendo Cov (X. si el coeficiente de correlación es menor que -0.CORREL”. si el valor de este coeficiente está entre -0. Por ejemplo. mientras que los valores cercanos a menos uno indican una asociación fuerte pero inversa.70 existirá una gran correlación.Y) la covarianza entre las series temporales X e Y.com.

Para verificar la relación funcional que eventualmente puede existir entre las variables que se estudian se realizó un análisis de regresión lineal.72 Como el valor de "t obs" excede el valor crítico obtenido de la tabla se deduce que hay evidencia suficiente para señalar que existe correlación lineal entre el consumo de energía y la temperatura ambiente. En las tablas que aparecen de anexo se muestran los valores de temperaturas y consumo de energía en los días que se realizó el estudio. El estudio parte cuando queda demostrado a través de la prueba de necesidad realizada en el departamento de Gestión Energética que los puntos claves y equipos que más influencia ejercen en el consumo son los aires condicionados. nos dice que existen otros factores que también pudieran estar condicionando el nivel de consumo.05 Hipótesis a ser evaluadas Mediante la ecuación (II) obtenemos a t de las observaciones el cual es 7. calculando los parámetros de la regresión: . Se calculó el coeficiente correlación de Pearson entre las variables que se de finen mediante la ecuación (I): Y: Consumo de energía (Dependiente) X: Temperatura ambiente (Independiente) r = 0. Para ello es necesario realizar una inferencia acerca del coeficiente de correlación a través de una prueba de hipótesis utilizando el estadígrafo t student con un 95 % de confianza queda a = 0. con el propósito de analizar si existe una relación entre el consumo de energía eléctrica con la temperatura ambiente.Se tomaron los consumos de energía eléctrica en MW-h de los 108 primeros días del año en curso medidos en los diferentes circuitos.52 Lo que indica que existe una relación lineal entre las variables pues este valor a pesar de no estar muy lejos de cero. y también la temperatura ambiente en distintos horarios del día.

En este caso el valor crítico se seleccionó de la tabla de distribución normal.A partir de esta expresión se puede predecir el comportamiento del consumo de enrgia una vez conocida la temperatura ambiente. ya que la muestra excede los 30 datos.64 Por lo que se rechaza H0 y se concluye que el modelo de regresión lineal simple es adecuado.82 mayor 1. y se aproxima a la distribución normal. . 3. Con la finalidad de comprobar estadísticamente si las variables X y Y presentan la supuesta relación lineal se realizó un análisis de varianza completando la tabla ANVA descrita anteriormente.

aparentemente es un porcentaje bajo. de un país en los últimos 7 años.Utilizando la expresión (III) calculamos ión De donde se obtiene un 27 %. (x)(y). Calcula los totales de (x). (y). expresados en millones. pero si se analiza que en las diferentes áreas de la universidad existe una gran diversidad de equipos electrónicos entre ellos aire acondicionados demuestra que estos ejercen una influencia significativa en los valores de consumo. x2. Ecuación del error estándar de estimación El error estándar de estimación representado por el símbolo Syx mide la dispersión de los valores observados alrededor de la línea de regresión. desde la celda A1 hasta C8 y seguimos los siguientes pasos: 1. y2 . lo que quiere decir que la variación del consumo de energía de la UCI esta explicada a través de un 27 % con respecto a la temperatura ambiente que exista. Año 2002 2003 2004 2005 2006 2007 2008 Importación 500 680 700 680 745 800 920 Exportación 400 520 650 480 600 700 780 Colocamos los datos en Microsoft Excel. El resultado se obtiene a través de la siguiente ecuación: Desarrollemos el siguiente ejercicio Se desea calcular el error estándar de estimación de los montos de importación y exportación.

Entonces la ecuación estará representada de la siguiente forma. Obtén los coeficientes de intercepción y tamaño utilizando el método mínimo de cuadrados. Reemplaza los datos en la ecuación de error estándar de estimación. 3. .2.

que representa la variabilidad alrededor de la recta de regresión. realizando los siguientes pasos: 1. Seleccione el menú DATOS 2. después clic en ACEPTAR. Luego clic sobre la opción ANÁLISIS DE DATOS 3. 2. Análisis de datos utilizando Microsoft Excel 2007 Podemos obtener los mismos resultados haciendo uso de la herramienta Análisis de datos que ofrece Microsoft Excel 2007. Aparece el cuadro de diálogo ANÁLISIS DE DATOS y seleccione la función REGRESIÓN. .1403394.El error estándar de estimación es 53.

entre otros. Para el rango de entrada Y seleccione desde la celda C2 hasta la celda C8 y para el rango X seleccione desde la celda B2 hasta la celda B8. ingresando los datos correspondientes.4. Define las opciones de salida y presione ACEPTAR. El resultado indica los valores del modelo de regresión lineal y el error estándar de estimación. . El siguiente recuadro define los rangos que serán analizados.

Solo se reemplaza el siguiente monto de importación en la variable X. El error típico muestra la variabilidad alrededor de la recta de regresión.Los resultados de los coeficientes permiten predecir el monto de exportación (Y) para el próximo año. dependiento de los montos de importación (X) según la muestra analizada. .

You're Reading a Free Preview

Descarga
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->