P. 1
REGRESIÓN LINEAL SIMPLE

REGRESIÓN LINEAL SIMPLE

|Views: 2.370|Likes:
Publicado porJACKMONT

More info:

Published by: JACKMONT on Sep 08, 2010
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

09/03/2015

pdf

text

original

REGRESIÓN LINEAL SIMPLE

MONTERO PÉREZ JAIRO ANDRÉS

PRESENTADO A EVERTH ANAYA COHEN. DOCENTE

ESTADÍSTICA II INGENIERÍA INDUSTRIAL FACULTAD DE INGENIERÍAS CORPORACIÓN UNIVERSITARIA DEL CARIBE CECAR© KM 1 VÍA A COROZAL 2008-10-29

CECAR©

CORPORACIÓN UNIVERSITARIA DEL CARIBE© FACULTAD DE INGENIERÍAS INGENIERÍA INDUSTRIAL V REGRESIÓN LINEAL SIMPLE

TABLA DE CONTENIDO

INTRODUCCIÓN IV. OBJETIVOS ................................................................................................................ 4 V. REGRESIÓN LINEAL SIMPLE .................................................................................... 5 1. GENERALIDADES ....................................................................................................... 5 2. FUNCIÓN DE REGRESIÓN POBLACIONAL ............................................................... 6 3. FUNCIÓN DE REGRESIÓN MUESTRAL..................................................................... 7 4. PASOS PARA REALIZAR LA REGRESIÓN LINEAL SIMPLE ..................................... 7 5. DIAGRAMAS DE DISPERSIÓN ................................................................................... 8 6. ESTIMACIÓN DE LOS COEFICIENTES DEL MODELO............................................ 10 7. INTERPRETACIÓN DE LOS COEFICIENTES ESTIMADOS..................................... 17 8. DISTRIBUCIÓN DE PROBABILIDAD DEL ERROR ................................................... 18 9. PROPIEDADES DE LOS ESTIMADORES ................................................................. 19 10. INFERENCIAS SOBRE LOS ESTIMADORES ....................................................... 21 11. COEFICIENTE DE DETERMINACIÓN ( ) ........................................................... 24 12. COEFICIENTE DE CORRELACIÓN ....................................................................... 25 BIBLIOGRAFÍA

2

La relación que se ajusta a un conjunto de datos experimentales se caracteriza por una ecuación de predicción que se denomina ecuación de regresión.CECAR© CORPORACIÓN UNIVERSITARIA DEL CARIBE© FACULTAD DE INGENIERÍAS INGENIERÍA INDUSTRIAL V REGRESIÓN LINEAL SIMPLE INTRODUCCIÓN Cuando se posee información acerca de dos o más variables relacionadas. Es claro que si . si se conocen o suponen valores para las otras variables. Es decir. Los modelos de regresión fueron utilizados por Laplace y Gauss en sus trabajos de astronomía y física desarrollados durante el siglo XVIII. debemos esperar que varíen los valores de . pero el nombre de modelos de regresión tiene su origen en los trabajos de Galton en biología de finales del siglo XIX. La expresión de Galton: “regression towards mediocrity” dio nombre a la regresión. Si denotamos una muestra aleatoria de tamaño con el conjunto . Su objetivo consiste en estimar y/o predecir el valor medio poblacional de la variable dependiente a partir de los valores conocidos y fijos de las variables explicativas. la función o ecuación que mejor se ajuste a los datos. 3 . De aquí el valor en el par ordenado es un valor de alguna variable aleatoria . Entonces. Por conveniencia se define como la variable aleatoria que corresponde a un valor fijo . Además. y se toman muestras adicionales mediante el uso de exactamente los mismos valores de . Las técnicas usadas para lograr estos dos objetivos se conocen como método de regresión y correlación. la situación se convierte en una regresión de sobre . los métodos de correlación se utilizan para medir el grado de asociación o de relación entre las distintas variables. En el caso de una sola y solo una . El Análisis de Regresión es una técnica que se ocupa de analizar la dependencia entre una variable dependiente o endógena ( ) y una o más variables explicativas o exógenas (digamos ). Cabe resaltar. que el análisis estadístico es solamente un instrumento que ayuda en el razonamiento e interpretación de los datos y que finalmente el investigador o persona investigativa es quien toma las decisiones a partir de estos resultados. no se busca solamente una relación matemática que nos diga de qué manera están relacionadas las variables. es decir. sino que se desea saber también con qué precisión se puede predecir o pronosticar el valor de una variable. En tanto que. el símbolo representa la variable aleatoria con media y varianza . obtenidos mediante un proceso de muestras repetidas. Los métodos de regresión se usan para elegir la "mejor" relación funcional entre las variables. es deseable conocer la consistencia de la relación. indicando su media y varianza con y . es natural buscar un modo de expresar la forma de la relación funcional entre ellas. se infiere que las variables independientes no son variables aleatorias y por tanto no tienen propiedades de distribución. respectivamente.

Implementar el contraste de hipótesis ecuánime para el modelo. Estimar los coeficientes del modelo.CECAR© CORPORACIÓN UNIVERSITARIA DEL CARIBE© FACULTAD DE INGENIERÍAS INGENIERÍA INDUSTRIAL V REGRESIÓN LINEAL SIMPLE IV. reconociéndolo como herramienta o método fundamental para modelar mediante funciones la relación de variables en problemas. Analizar. describir e interpretar el tópico de regresión lineal simple. ESPECÍFICOS. utilizando el método adecuado.        Identificar las variables fundamentales del modelo de regresión lineal simple. 4 . Reconocer la importancia de los diagramas de dispersión. OBJETIVOS GENERAL. Interpretar correctamente los coeficientes estimados. Analizar la capacidad explicativa del modelo. situaciones-problema propias de ingeniería a través de la aplicación fidedigna de nuestro conocimiento. Definir las funciones de regresión tanto poblacional como muestral.

Esto equivale a suponer que el valor promedio de . La relación anterior supone una relación exacta entre las variables. lo que se representa mediante: Si consideramos que la relación anterior se representa como que liga con . En especial si se supone que se distribuye normalmente con promedio y varianza . esto no significa que sea exactamente igual a . no hay margen de error en esa predicción. Sin embargo. A este modelo se le denomina determinista. en el que siempre se puede determinar a con exactitud cuando se conoce valor de . entonces la relación Que corresponde a la ecuación de regresión de población. en el que el componente aleatorio se distribuye normalmente con promedio y varianza . el cual comprende tanto un componente determinista como un componente de error aleatorio. es lineal. Pero donde es una constante. Siempre se supondrá que el valor promedio del error aleatorio es igual a cero. GENERALIDADES. en general. Donde es la variable aleatoria que se tiene que predecir. lo que hará que las leyes solo expresen una aproximación a la realidad.CECAR© CORPORACIÓN UNIVERSITARIA DEL CARIBE© FACULTAD DE INGENIERÍAS INGENIERÍA INDUSTRIAL V REGRESIÓN LINEAL SIMPLE REGRESIÓN LINEAL SIMPLE 1. sino que será igual a más o menos un error aleatorio. se tendrá un error aleatorio introducido por el experimento. donde los coeficientes de regresión son parámetros a estimar a partir de los datos muestrales. Sin embargo. es decir. Rara vez los experimentos reproducen con exactitud esas leyes. A este modelo se le denomina probabilista o probabilístico. entonces se puede formular el modelo probabilista . es igual al componente determinista del modelo. 5 .1 Forma General de los modelos Probabilísticos. 1. estas leyes son válidas con exactitud sólo bajo condiciones ideales. Es por lo anterior que. Con frecuencia nos encontramos en ingeniería con modelos en el que el comportamiento de una variable puede ser explicado a través de una variable .

Este se puede considerar como una variable sustitutiva de todas las variables omitidas que pueden afectar a . así que: Si es una función lineal de . 6 . Para un valor dado de . son coeficientes de regresión. por lo tanto teniendo en cuenta la sección anterior: Donde es el componente aleatorio de error. los valores de se concentran alrededor del promedio de . FUNCIÓN DE REGRESIÓN POBLACIONAL. pero que por una u otra razón no pudieron incluirse en el modelo de regresión. Reemplazando el se tiene: Que es la función de regresión poblacional. Como sabemos . La expresión anterior refleja una relación lineal. La frase variable independiente se usa en el análisis de regresión para representar una variable predictora de la respuesta .CECAR© CORPORACIÓN UNIVERSITARIA DEL CARIBE© FACULTAD DE INGENIERÍAS INGENIERÍA INDUSTRIAL V REGRESIÓN LINEAL SIMPLE 2. donde es la ordenada en el origen de la recta y la pendiente. recibiendo el nombre de relación lineal simple. se tiene: Lo cual nos indica que el valor promedio de varía con . y en ella sólo figura una única variable explicativa. En cada caso los símbolos representan parámetros de población que necesitarán estimarse mediante los datos de la muestra. lo cual indica que se van a presentar algunas diferencias o desviaciones de un valor individual de alrededor de su valor esperado. (Modelo probabilístico de la recta) Una función de regresión poblacional es la unión de los promedios condicionales de la variable dependiente para los valores fijos de la variable independiente o explicativa .

FUNCIÓN DE REGRESIÓN MUESTRAL. el componente aleatorio de error.  Paso 4: Comprobar estadísticamente la adecuación del modelo. etc. usar el modelo para predicciones. por lo tanto. 7 . se plantea una ecuación que nos permita estimar los valores de . PASOS PARA REALIZAR EL ANÁLISIS DE REGRESIÓN. y estimar cualesquiera parámetros desconocidos de esta distribución. así que el objetivo es estimar la función de regresión poblacional con base en la función de regresión muestral: Donde: Debido a que los valores observados no forman exactamente una línea recta.  Paso 3: Especificar la distribución de probabilidad de . Generalmente es necesario trabajar con información muestral y no poblacional.  Paso 2: Reunir datos de muestra (representarlos en diagrama de dispersión) y utilizarlos para estimar los parámetros desconocidos del modelo. estimaciones.  Paso 5: Cuando se quede satisfecho con la adecuación. es necesario elegir un método para estimar los coeficientes de regresión que haga mínima la diferencia entre los valores observados y los estimados o ajustados. 4. este método es el de los mínimos cuadrados (generalmente usado).CECAR© CORPORACIÓN UNIVERSITARIA DEL CARIBE© FACULTAD DE INGENIERÍAS INGENIERÍA INDUSTRIAL V REGRESIÓN LINEAL SIMPLE 3. Resulta útil imaginarse que el análisis de regresión es un procedimiento de cinco pasos:  Paso 1: Suponer la forma que tiene el promedio (componente determinista del modelo).

Nos puede ayudar mucho en la búsqueda de un modelo que describa la relación entre las dos variables. DIAGRAMAS DE DISPERSIÓN. de manera que tenemos una relación funcional entre las dos variables. Entonces. en donde. Una vez especificadas las variables es necesario determinar la relación entre ellas. No será una relación funcional. la es cada vez menor y lo contrario en el segundo caso. En estos dos casos los puntos se ajustan perfectamente sobre la recta. de la cual se puede tener una idea general. 8 . A partir de un conjunto de observaciones de dos variables e sobre una muestra de individuos. En el caso ) no se tiene ningún tipo de relación entre las variables. En el caso los puntos se encuentran situados en una franja bastante estrecha que tiene una forma bien determinada. De todos modos. los puntos se encuentran absolutamente dispersos. en un sistema de coordenadas. dada por la ecuación de la recta. se puede representar estos datos sobre unos ejes coordenados . que nos indica que a medida que aumenta. en el que la pendiente es positiva. esta gráfica se llama nube de puntos o diagrama de dispersión. se observa que no se trata de una relación lineal (la nube de puntos tiene forma de parábola). La nube de puntos no presenta una forma “tubular” bien determinada. En el primer caso. graficando las variables.CECAR© CORPORACIÓN UNIVERSITARIA DEL CARIBE© FACULTAD DE INGENIERÍAS INGENIERÍA INDUSTRIAL V REGRESIÓN LINEAL SIMPLE 5. con pendiente negativa. ya que los puntos no se sitúan sobre una curva. en el eje de las abscisas se ubica la variable independiente y en el de las ordenadas la variable dependiente. el diagrama de dispersión se obtiene representando cada observación como un punto en el plano cartesiano Ejemplos de diagramas de dispersión En los casos y tenemos que las observaciones se encuentran sobre una recta. pero sí que es posible asegurar la existencia de una fuerte relación entre las dos variables.

de manera que podemos pensar en una fuerte relación lineal.CECAR© CORPORACIÓN UNIVERSITARIA DEL CARIBE© FACULTAD DE INGENIERÍAS INGENIERÍA INDUSTRIAL V REGRESIÓN LINEAL SIMPLE En los casos y se puede observar que sí existe algún tipo de relación entre las dos variables. Ejemplo de aplicación: Supóngase que se realizó un estudio sobre la relación entre el contenido promedio de alquitrán en el flujo saliente de un proceso químico y la temperatura de entrada. pero no tan fuerte como la anterior. A continuación. En el caso se observa una relación lineal con pendiente positiva. pero se acercan bastante. Los puntos no están sobre una línea recta. se muestran los datos registrados durante 10 días en una industria. ya que a medida que el valor de aumenta. 1 2 3 4 5 6 7 8 9 10 95 82 90 81 99 100 93 95 93 87 214 152 156 129 254 266 210 204 213 150 Contenido medio de alquitrán 270 250 230 210 190 170 150 130 110 80 85 90 95 100 Temperatura de entrada 9 . En el caso se puede ver un tipo de dependencia lineal con pendiente negativa. el valor de disminuye.

Un método. por supuesto son parámetros desconocidos. 10 . también recibe el nombre de residuo. Como resultado. se observa su residuo . Teniendo en cuenta el ejemplo del ítem anterior. Es decir. Entonces. el de los cuadrados mínimos o mínimos cuadrados selecciona el estimador que hace mínima la suma de los errores elevados al cuadrado ( ). Se debe tener en cuenta que la línea no se conoce. Una vez que hemos hecho el diagrama de dispersión y después de observar una posible relación lineal entre las dos variables. la realización de . La línea ajustada es una estimación de la línea que produce el modelo estadístico. e igualando a cero. es una noción conceptual simple de cómo se generaron los datos en el proceso científico. cada par de observaciones satisface la relación: entonces: . sino que más bien. se escoge el estimador tal que: n n SSE e2 ( y  )2 y i i i 1 i 1 Se reduzca al mínimo. Ahora bien. ESTIMACIÓN DE LOS COEFICIENTES DEL MODELO: MÉTODO DE LOS MÍNIMOS CUADRADOS. y luego despejar . Como hipótesis se considera que el modelo tiene la forma: y se desea emplear los datos de la muestra para calcular . describe el error en el ajuste del modelo en el punto de los datos. A menudo la suma de los cuadrados de los residuos se le llama suma de cuadrados de los errores aleatorios alrededor de la línea de regresión. Esta recta se denomina recta de regresión. Se puede obtener la forma de este estimador derivando a con respecto a .CECAR© CORPORACIÓN UNIVERSITARIA DEL CARIBE© FACULTAD DE INGENIERÍAS INGENIERÍA INDUSTRIAL V REGRESIÓN LINEAL SIMPLE 6. Entonces. Sin embargo. se encontrarán de modo que se minimice . en realidad nunca se observa. nos proponemos encontrar la ecuación de la recta que mejor se ajuste a la nube de puntos. Con el uso de la línea de regresión estimada o ajustada .

y se llama estimador de para cuadrados mínimos. dará tan baja como Presúmase ahora que se decide modelar el contenido promedio de alquitrán en el flujo saliente como función de la temperatura de entrada del día. En especial.CECAR© CORPORACIÓN UNIVERSITARIA DEL CARIBE© FACULTAD DE INGENIERÍAS INGENIERÍA INDUSTRIAL V REGRESIÓN LINEAL SIMPLE n d ( SSE ) d y 2 i 1 ( yi ) y 0 Simplificando.8  )2 y y SSE i 1 ( yi 19263. porque es el estimador de mínimos cuadrados. el promedio muestral es el estimador que reduce al mínimo la suma de los errores elevados al cuadrado. ya se sabe que ningún otro estimador de éste. n n 2n  y n 2 i 1 yi  y 2 i 1 yi 2n  y yi i 1 n y Por tanto.6 De manera que. 1 2 3 4 5 6 7 8 9 10 214 152 156 129 254 266 210 204 213 150 Para los datos de la y 1948 10 n el promedio muestral es: 194. se modelará 11 . n 2 i 1 yi 2n  y 0 y Despejando  .

se igualan los resultados a ( SSE )  0 2 n 2 i 1 2 ( yi n  0  x) 1 i n 0 2 0 0  n 1 i 1 ( SSE )  0 n n 2( i 1 yi i 1  0  n 1 i 1 xi ) ( SSE ) 2 0 ( 2( i 1 yi xi )) 2 n yi i 1 0 Hay un mínimo  n 1 i 1 n yi i 1 n 0  n 1 i 1 n xi 0 1 n0 xi 1 Ahora se deriva parcialmente con respecto a a cero ( SSE )  1 n n . Diagrama de dispersión. luego. Se utiliza el mismo principio para estimar en el modelo de línea recta que para estimar a en el modelo de promedio constante: el método de los mínimos cuadrados. La gráfica de esos datos se ilustra en la .CECAR© CORPORACIÓN UNIVERSITARIA DEL CARIBE© FACULTAD DE INGENIERÍAS INGENIERÍA INDUSTRIAL V REGRESIÓN LINEAL SIMPLE el contenido promedio de alquitrán como función lineal de . y se quiere usar los datos de la muestra para estimar la ordenada en el origen y la pendiente . Los datos aparecen registrados en la . con respecto a . Por lo tanto se escoge la estimación De modo que n SSE i 1 ( yi  )2 y n ( yi i 1  0  x )2 1 i Se reduzca al mínimo. también tiene mínimo. se iguala 2 i 1 xi ( yi n  n 1 i 1 0  x) 1 i 2 n 0 i 1 xi yi  n 0 i 1 xi  n 1 i 1 xi2 0 xi yi i 1  0 i 1 xi  xi2 De despejamos n  yi i 1 0  n n 1 i 1 n xi  yi i 1 0  n 1 i 1 xi n  n 0 y  1 x 12 . Se supone el modelo probabilístico de la línea recta. Se deriva cero y se despeja .

CECAR© CORPORACIÓN UNIVERSITARIA DEL CARIBE© FACULTAD DE INGENIERÍAS INGENIERÍA INDUSTRIAL V REGRESIÓN LINEAL SIMPLE Reemplazamos  0 en n y hallamos xi yi i 1 n (y n  xi n 1 x) i 1 xi n  n 1 i 1 n xi2 xi i 1 n 1 i 1 2 n yi i 1 xi yi i 1 i 1  xi i 1 1  n n n n n xi2 n xi xi yi i 1 i 1 yi  xi i 1 1 n i 1 n n n n n xi2 i 1 xi i 1 i 1 yi n 2 n i 1 xi yi  n 1 n n n n n n  xi i 1 n i 1 yi 2 n i 1 n xi yi xi2 i 1 1  xi i 1 1 n i 1 yi 2 n i 1 n xi yi xi2 i 1 n xi i 1 n i 1 xi2 i 1 xi n xi i 1 n 1 1 n n n n n n n n n xi xi yi i 1 i 1 yi n n xi xi yi i 1 i 1 yi n yi i 1  n i 1 1 xi yi i 1 n n xi i 1 2 n  n 2 1 i 1 n n 2  1 n n i 1 x 2 i i 1 xi n xi x 2 i i 1 n xi x 2 i i 1 i 1 n n i 1 n n n n xi xi yi i 1 i 1 yi 2 n n  i 1 1 n n n xi ( xi i 1 n x)( yi ( xi x) 2 y)  ( xi i 1 1 n x)( yi ( xi x) 2 y) xi2 i 1 i 1 i 1 i 1 n  SS xy 1 SS xx 13 .

y 194.5 .CECAR© CORPORACIÓN UNIVERSITARIA DEL CARIBE© FACULTAD DE INGENIERÍAS INGENIERÍA INDUSTRIAL V REGRESIÓN LINEAL SIMPLE Entonces. SS xy / n es la covarianza muestral de las observaciones es la varianza muestral de las observaciones . y SS xx (n 1) ( 1 2 3 4 5 6 7 8 9 10 95 82 90 81 99 100 93 95 93 87 915 214 20330 9025 152 12464 6724 156 14040 8100 129 10449 6561 254 25146 9801 266 26600 10000 210 19530 8649 204 19380 9025 213 19809 8649 150 13050 7569 1948 180798 84103 xi ) 2 837225 Para los datos de la n n n n xi xi yi i 1 i 1 yi SS xy i 1 ( xi x)( yi y) i 1 n 180798 (915)(1948) 10 n n 2556 n 2 xi x 2 i i 1 SS xx i 1 ( xi 837225 10 x) 2 i 1 n 84103 380.  0 y  1 x i 1 En donde.8 10 Entonces. la solución viene dada por: n  ( xi i 1 1 n x)( yi ( xi x)2 y) SS xy SS xx .5 y 915 91. las estimaciones de mínimos cuadrados son x 14 .

93 212.84 824.28 2093. la recta de regresión estimada está dada por 0  1 95 214 2 82 152 3 90 156 4 81 129 5 99 254 6 100 266 7 93 210 8 95 204 9 93 213 10 87 150 218.85 Temperatura de entrada 15 .72 4.31 21.419.8 (6. obtenida por mínimos cuadrados es cual es usada en los problemas.31 204.82 14.7175x .98 184.37 77.57 -4.02 -28. la Contenido medio de alquitrán 270 250 230 210 190 170 150 130 110 80 85 90 95 100 y = 6.7175  y 1 x 194.27 245.79 198.10 5. .12 -14.21 204.12 -14.5) 419.5 6.84 22.88 164.85 0 Por tanto.57 18.CECAR© CORPORACIÓN UNIVERSITARIA DEL CARIBE© FACULTAD DE INGENIERÍAS INGENIERÍA INDUSTRIAL V REGRESIÓN LINEAL SIMPLE  SS xy 1 SS xx 2556 380.81 26.18 251.43 Entonces la recta de regresión.88 218.90 204.78 65.31 8.58 441.7175)(91.73 8.72 124.31 130.

La es . Es la ordena en el origen. 7. se ha definido la recta que mejor se ajusta como la que satisface el método de los mínimos cuadrados. y la ecuación se llama ecuación de predicción de mínimos cuadrados. pero para efectos de proyección se deja el valor obtenido. minimizan la suma de cuadrados de los residuos. el error ( ) y se muestran en la . ( ). Los valores predichos. son estimadores insesgados de . De esta manera se sabrá que ninguna otra recta minimizará la tan pequeña como la hallada.CECAR© CORPORACIÓN UNIVERSITARIA DEL CARIBE© FACULTAD DE INGENIERÍAS INGENIERÍA INDUSTRIAL V REGRESIÓN LINEAL SIMPLE Además de que estimados. se interpreta como cero. es decir el punto donde la recta corta o interseca el eje . Es decir que: Se puede observar que los errores son las distancias verticales entre los puntos observados y la línea de predicción. INTERPRETACIÓN DE LOS COEFICIENTES ESTIMADOS. 16 . Es el valor promedio de la variable dependiente cuando la independiente vale cero. Cuando el valor del coeficiente de intersección sea negativo y su interpretación no sea lógica. Esta recta es la denominada recta de los mínimos cuadrados. En forma de sinopsis. También se interpreta como el efecto promedio sobre la variable dependiente de todas las variables omitidas en el modelo de regresión.

CECAR© CORPORACIÓN UNIVERSITARIA DEL CARIBE© FACULTAD DE INGENIERÍAS INGENIERÍA INDUSTRIAL V REGRESIÓN LINEAL SIMPLE Es la pendiente. la cantidad en que aumenta (o disminuye) el promedio de por cada aumento unitario de . Los errores asociados con distintas observaciones son independientes. se debe especificar la distribución de probabilidad del término de error aleatorio y estimar cualquier parámetro desconocido de esa distribución. Se utilizan 2 grados de libertad para estimar la ordenada en el origen y la pendiente del modelo de línea recta. El componente aleatorio de error está distribuido normalmente con promedio cero y varianza constante . en la cual SSE n 2 n ( yi i 1  ) yi 2 SS yy  SS 1 xy y 17 . La estimación de cuadrados mínimos de es En el paso 3. DISTRIBUCIÓN DEL COMPONENTE ALEATORIO DE ERROR. y se deja grados de libertad para estimar la varianza del error. Si la relación entre las variables es inversa y mide el decremento de la variable dependiente por cada aumento de una unidad en la variable independiente o viceversa. Si la relación entre las variables es directa y mide el incremento de la variable dependiente por cada aumento de una unidad en la variable independiente. La estimación de se calcula dividiendo la entre el nº de grados de libertad asociados con el componente de error. Si . Para estimar se usa del modelo de mínimos cuadrados. es decir. Así s2 SSE . En los ítems anteriores se establecieron los dos primeros pasos del modelado de regresión: se ha supuesto la forma de y empleado los datos de la muestra para estimar los parámetros desconocidos en el modelo. nos indica que no existe relación lineal entre las dos variables 8.

9. En lo que sigue.68 16.CECAR© CORPORACIÓN UNIVERSITARIA DEL CARIBE© FACULTAD DE INGENIERÍAS INGENIERÍA INDUSTRIAL V REGRESIÓN LINEAL SIMPLE 2 n n 2 n yi y 2 i i 1 n En el ejemplo del contenido medio de alquitrán.43 8 261.68 y s s2 261. i 1 i 1 SS yy ( yi yi ) s2 SSE n 2 2093. PROPIEDADES DE LOS ESTIMADORES DE MÍNIMOS CUADRADOS.  SS xy 1 ( xi i 1 n x)(Yi ( xi x) 2 Y) SS xx i 1 Utilizando los siguientes criterios: a. b. c.1 Demostración De Que n Es Insesgado. n E( 1 ) ( xi E i 1 n x)(Yi ( xi x) 2 Y) E( 1 ) 1 n n ( xi x) 2 i 1 x) E (Yi Y) ( xi i 1 0 1 i i 1 E( 1 ) E( 1 ) 1 SS xx 1 SS xx n ( xi i 1 n x) E[( x i ) ( 0 1 i x i n )] x)[ 1 ( xi xi )] ( xi i 1 x)[ 1 ( xi xi )] E( 1 ) 1 SS xx ( xi i 1 18 . Se encuentra que.18 9. se demuestra que el estimador es insesgado para y se muestran las varianzas para . Esto iniciará una serie de desarrollos que conducen a la prueba de hipótesis y a la estimación del intervalo de confianza sobre la pendiente y la intersección.

( 2 j ) 2 Cov( n i ) Cov( j ) Var ( ) n n n Se han empleado los siguientes hechos: a. j 1 n Var ( i ) n 2 n De esta forma. (Y j Y ). 19 . Cov( i . ) Cov i.CECAR© CORPORACIÓN UNIVERSITARIA DEL CARIBE© FACULTAD DE INGENIERÍAS INGENIERÍA INDUSTRIAL V REGRESIÓN LINEAL SIMPLE E( 1 ) SS xx SS xx 1 E( 1 ) 1 Lo cual demuestra que  1 es un estimador insesgado de 1 . Cov( i .2 Deducción De La Varianza de  1 y ecuación para la varianza de n 2 1 Var (  ) Var 1 ( xi i 1 n x)(Yi ( xi x) 2 Y) 2 1 1 n n Var 2 x) 2 i 1 ( xi x)(Yi Y) i 1 ( xi i 1 n n 2 1 1 2 SS xx n ( xi i 1 x) 2 Var (Yi Y) i 1 j 1 ( xi x)( x j x)Cov (Yi Y ). (Y j Y) Tenemos que Var (Yi Var (Yi y Cov (Yi Cov (Yi Y ). (Y j Y) Y) Cov ( 2 i 2 Y ) Var ( Y) 2 0 2 1 i 2 x i ) ( 2 0 2 1 xi i ) Var (Yi Y ) Var ( i ) n 2 n n ). Var ( ) Var n n 1 n2 n Var ( i ) i 1 n 2 n2 2 n j d. Asimismo 9. i n i i 1 j c. Var ( i ) b. 2 j ) 0.

utilizando i 1 ( xi x) 0 Por lo tanto la desviación estándar de  1 es SS xx n La varianza de  0 es xi 2 i 1 n 2 n i 1 ( xi x)2 10. se contrasta Comparándola con 20 . si en el modelo de regresión lineal la pendiente es cero. En este caso diremos que no es una variable explicativa del modelo.CECAR© CORPORACIÓN UNIVERSITARIA DEL CARIBE© FACULTAD DE INGENIERÍAS INGENIERÍA INDUSTRIAL V REGRESIÓN LINEAL SIMPLE 2 1 1 2 SS xx n 2 n n 2 ( xi i 1 2 x) ( 2 2 2 n n ) i 1 j 1 2 ( xi 2 x)( x j x) n n 2 1 1 SS xx 2 SS xx n ( xi i 1 x) SS xx . para probar la hipótesis nula de que no contribuye con información para predecir . Esto significa que el promedio No se modifica cuando cambia . INFERENCIAS ACERCA DE LOS COEFICIENTES DE REGRESIÓN 10. Es posible observar que. si . se pueden hacer inferencias estadísticas acerca de la adecuación del modelo para representar el promedio y para poder predecir los valores de para valores dados de .1 Prueba De Hipótesis Sobre La Pendiente En el paso nº 4 se debe comprobar en forma estadística la adecuación del modelo. entonces la variable no tiene ningún efecto sobre la variable . Teniendo especificada la distribución de probabilidad de y estimado al varianza . Entonces. el modelo es simplemente . En este modelo de línea recta. lo anterior significa que la pendiente verdadera es igual a cero. contra la hipótesis alternativa que esas variables se relacionan en forma lineal con una pendiente diferente de cero. Por lo tanto.

con promedio y desviación estándar SS xx Como la desviación estándar de . 21 . se prueba la hipótesis nula . tanto a la derecha.CECAR© CORPORACIÓN UNIVERSITARIA DEL CARIBE© FACULTAD DE INGENIERÍAS INGENIERÍA INDUSTRIAL V REGRESIÓN LINEAL SIMPLE Si los datos respaldan la hipótesis alternativa. el estimador de mínimos cuadrados de la pendiente . independientes. Se encuentra la medida estadística de prueba si se considera la distribución de muestreo de . que es se desconoce en general. de manera que la estadística se vuelve Para el ejemplo del contenido de alquitrán en el flujo saliente en un proceso químico tenemos: Se escoge . la desviación estándar estimada de la distribución de muestreo de . se llega a la conclusión de que si aporta información para predecir a empleando el modelo la línea recta. la distribución de muestreo del estimador de mínimos cuadrados de la pendiente será normal. En general. con media cero y varianza constante. Si se supone que los componentes de error son variables aleatorias normales. normalmente la medida estadística de prueba adecuada será una distribución de Student que se forma así: Donde . La prueba es de dos Colas. como a la izquierda.

y la cantidad en la que se alarga a cada lado de la estimación depende del nivel deseado de confianza. el intervalo de confianza de para la pendiente es 22 . es decir.2) y de la variabilidad del estimador (mediante ).2 Intervalo De Confianza 100(1. y Como este valor de calculado está en la región de rechazo en la cola superior. La evidencia no respalda la afirmación. en . Para ambas colas Para cola a la derecha Para cola a la izquierda Donde Este intervalo está centrado en la estimación puntual del parámetro. Para el ejemplo. entonces se concluye que la temperatura de entrada si influye en el contenido medio de alquitrán en flujo de salida en un proceso químico. se rechaza la hipótesis nula y se llega a la conclusión de que la pendiente no es cero.CECAR© CORPORACIÓN UNIVERSITARIA DEL CARIBE© FACULTAD DE INGENIERÍAS INGENIERÍA INDUSTRIAL V REGRESIÓN LINEAL SIMPLE La región de rechazo es: Anteriormente se calculó . (mediante el valor crítico ta/2. n .)% Para La Pendiente    Puesto que. 10.

es decir: R2 SS yy SSE SS yy 1 SSE SS yy SCR SS yy Donde es la suma de cuadrados para la regresión. COEFICIENTE DE DETERMINACIÓN La medida más importante de la bondad del ajuste es el coeficiente de determinación R2. 11. porque significa que la pendiente verdadera está entre . Este coeficiente nos indica el grado de ajuste de la recta de regresión a los valores de la muestra. En el ejemplo 23 .CECAR© CORPORACIÓN UNIVERSITARIA DEL CARIBE© FACULTAD DE INGENIERÍAS INGENIERÍA INDUSTRIAL V REGRESIÓN LINEAL SIMPLE Este intervalo de confianza confirma la conclusión de la prueba de hipótesis nula. y se define como la proporción de varianza explicada por la recta de regresión.

Se suele decir que X e Y tienen una relación positiva si los valores grandes de X están aparejados con valores grandes de Y y valores pequeños de X. 12.CECAR© CORPORACIÓN UNIVERSITARIA DEL CARIBE© FACULTAD DE INGENIERÍAS INGENIERÍA INDUSTRIAL V REGRESIÓN LINEAL SIMPLE Esto significa que la variabilidad muestral del contenido de alquitrán con respecto a su promedio se reduce en cuando se modela el contenido de alquitrán como función lineal de la temperatura de entrada diaria. con grandes de Y. COEFICIENTE DE CORRELACIÓN. 24 . se dice que X e Y tienen una relación negativa si los valores grandes de X están aparejados con los valores pequeños de Y y los pequeños de X. De manera análoga. con valores pequeños de Y.

25 .CECAR© CORPORACIÓN UNIVERSITARIA DEL CARIBE© FACULTAD DE INGENIERÍAS INGENIERÍA INDUSTRIAL V REGRESIÓN LINEAL SIMPLE Correlación Negativa Perfecta Correlación Positiva Perfecta No Existe Correlación.

[2] WALPOLE. SCHEAFFER. Probabilidad Y Estadística Para Ingenieros.CECAR© CORPORACIÓN UNIVERSITARIA DEL CARIBE© FACULTAD DE INGENIERÍAS INGENIERÍA INDUSTRIAL V REGRESIÓN LINEAL SIMPLE BIBLIOGRAFÍA [1] MCCLAVE. Probabilidad Y Estadística Para Ingeniería. 26 . 1999. RONALD. Sexta Edición. Iberoamericana.

You're Reading a Free Preview

Descarga
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->