Está en la página 1de 12

 REGRESION LINEAL SIMPLE En el caso de la regresin lineal simple donde hay una sola variable de regression independiente x y una

sola variable aleatoria independiente Y, los datos se pueden representar mediante los pares de observaciones (x,y); t=1.2,3,.n). Es conveniente utilizar los conceptos de la seccion anterior para definer cada variable aleatoria Y=Y/x, por medio de un modelo estadstico. Si postulamos que todas las medidas caen en una lnea recta, cada Y, se puede describer con el modelo de regression lineal simple. Dende el error aleatrio E, el error del modelo, necesariamente debe tener una media de cero. Cada observacion (x,.y) en nuestra muestra satisface la ecuacin. Donde E, es el valor que toma E cuando Y toma el valor y. La ecuacion anterior se puede ver como el modelo para una sola observaciony. De manera similar con el uso de la lnea de regresion estimada o ajustada.

Cada par de observaciones satisface la relacion

Donde e=y-y, se denomina residuo y describe el error un el ajuste del modelo en el isimo punto de de los datos. La diferencia entre e y E se muestra con claridad en la figura 11.2

yGeneralidades La regresin y los anlisis de correlacin nos muestran como determinar tanto la naturaleza como la fuerza deuna relacin entre dos variables. En el anlisis de regresin desarrollaremos una ecuacin de estimacin, esto es, una formula matemtica querelaciona las variables conocidas con la variable desconocida. Entonces podemos aplicar el anlisis decorrelacin para determinar el grado de en el que estn relacionadas las variables. El anlisis de correlacin, Entonces, nos dice qu tan bien estn relacionadas las variables. El anlisis de correlacin, entonces, nos diceque tan bien la ecuacin de estimacin realmente describe la relacin 

yPrincipales tcnicas utilizadas en el anlisis de regresin lineal simple 1) Ordenamiento y anlisis de la informacin original 3) Diagrama de dispersin e interpretacin El primer paso para determinar si existe o no una relacin entre dos variables es observar la grafica de datosobservados. Esta grafica se llama diagrama de dispersin. Un diagrama nos puede da dos tipos de informacin, visualmente podemos buscar patrones que nos indiquenque las variables estn relacionadas. Entonces si esto sucede, podemos ver que tipo de lnea, o ecuacin deestimacin, describe esta relacin. Primero tomamos los datos de la tabla que deseamos analizar y dependiendo de que se desea averiguar seconstruye la grafica colocando la variable dependiente en el eje Y y la independiente en el eje X, Cuandovemos todos estos puntos juntos, podemos visualizar la relacin que existe entre estas dos variables. Comoresultado, tambin podemos trazar, o ajustar una lnea recta a travs de nuestro diagrama de dispersin pararepresentar la relacin. Es comn intentar trazar estas lneas de forma tal que un numero igual de puntos caigaa cada lado de la lnea.

yEstimacin mediante la lnea de regresin Hasta el momento las lneas de regresin se colocaron al ajustar las lneas visualmente entre los puntos dedatos, pero para graficar estas lneas de una forma ms precisa podemos utilizar una ecuacin que relacionalas dos variables matemticamente. La ecuacin para una lnea recta donde la variable dependiente Y esta determinada por la varianza dependiente X es: Usando esta ecuacin podemos tomar un valor dado en X y calcular el valor de Y la a se denomina interseccin en Y por que su valor es el punto en el cual la lnea de regresin cruza el eje Y por que su valores el punto en el cual la lnea de regresin cruza el eje Y, es decir el eje vertical. La b es la pendiente de lalnea, representa que tanto cada cambio de unidad de la variable independiente X cambia la variabledependiente Y. Tanto a como b son constantes numricas, puesto que para cada recta dada, sus valores nocambian.

Recta de regresin por el mtodo de mnimos cuadrados. Ahora que hemos visto como determinar la ecuacin para una lnea recta, pensemos como podemos calcularuna ecuacin para una lnea dibujada en medio de un conjunto de puntos en un diagrama de dispersin. Paraesto debemos minimizar el error entre los puntos estimados en la lnea y los verdaderos puntos observadosque se utilizaron para trazarla. Para esto debemos introducir un nuevo smbolo, para simbolizar los valores individuales de los puntosestimados, esto es, aquellos puntos que caen en la lnea de estimacin. En consecuencia escribiremos laecuacin para la lnea de estimacin como Una forma en que podemos medir el error de nuestra lnea de estimacin es sumando todas las diferencias, oerrores, individuales entre los puntos observados y los puntos estimados. La suma de las diferencias individuales para calcular el error no es una forma confiable de juzgar la bondad deajuste de una lnea de estimacin. El problema al aadir los errores individuales es el efecto de cancelacin de los valores positivos y negativos,por eso usamos valores absolutos en esta diferencia a modo de cancelar la anulacin de los signos positivos ynegativos, pero ya que estamos buscando el menor error debemos buscar un mtodo que nos muestre lamagnitud del error, decimos que la suma de los valores absolutos no pone nfasis en la magnitud del error. Parece razonable que mientras ms lejos este un punto de la lnea e estimacin, mas serio seria el error,preferiramos tener varios errores pequeos que uno grande. En efecto, deseamos encontrar una forma depenalizar errores absolutos grandes, de tal forma que podamos evitarlos. Puede lograr esto si cuadramos loserrores individuales antes de sumarlos. Con estos se logran dos objetivos: yPenaliza los errores ms grandes yCancela el efecto de valores positivos y negativos

Como estamos buscando la lnea de estimacin que minimiza la suma de los cuadrados de los errores a estollamamos mtodo de mnimos cuadrados. Si usamos el mtodo de mnimos cuadrados, podemos determinar si una lnea de estimacin tiene un majorajuste que otro. Pero para un conjunto de puntos de datos a travs de los cuales podramos trazar un numeroinfinito de lneas de estimacin, cmo podemos saber cuando hemos encontrado la mejor lnea de ajuste? Los estadsticos han derivado dos ecuaciones que podemos utilizar para encontrar la pendiente y la interseccin Y de la lnea de regresin del mejor ajuste. La primera formula calcula la pendiente. yb = pendiente de la lnea de estimacin de mejor ajuste yX = valores de la variable independiente yY = valores de la variable dependiente y= media de los valores de la variable independiente y= media de los valores de la variable dependiente yn = numero de puntos de datos La segunda ecuacin calcula la interseccin en Y ya = interseccin en Y yb = pendiente de la ecuacin anterior y= media de los valores de la variable dependiente y= media de los valores de la variable independiente

Verificacin de la ecuacin de estimacin Ahora que sabemos como calcular la lnea de regresin, podemos verificar que tanto se ajusta. Tomando los errores individuales positivos y negativos deben dar cero Error estndar de la estimacin El error estndar nos permite deducir la confiabilidad de la ecuacin de regresin que hemos desarrollado. Este error se simboliza Se y es similar a la desviacin estndar en cuanto a que ambas son medidas dedispersin. El error estndar de la estimacin mide la variabilidad, o dispersin de los valores observados alrededor de lalnea de regresin y su formula es la siguiente y= media de los valores de la variable dependiente yY = valores de la variable dependiente yn = numero de puntos de datos Mtodo de atajo para calcular el error estndar de la estimacin Dado que utilizar la ecuacin anterior requiere una serie de clculos tediosos, se ha diseado una ecuacin quepuede eliminar unos de estos pasos, la ecuacin es la siguiente: yX = valores de la variable independiente yY = valores de la variable dependiente ya = interseccin en Y

yb = pendiente de la ecuacin de la estimacin yn = numero de puntos de datos Interpretacin del error estndar de la estimacin Como se aplicaba en la desviacin estndar, mientras ms grande sea el error estndar de estimacin, mayorser la dispersin de los puntos alrededor de la lnea de regresin. De manera que inversa, si Se = 0, esperemos que la ecuacin de estimacin sea un estimador perfecto de la variable dependiente. En este casotodos lo puntos deben caer en la lnea de regresin y no habra puntos dispersos. Usaremos el error estndar como una herramienta de igual forma que la desviacin estndar. Esto suponiendoque los puntos observados estn distribuidos normalmente alrededor de la lnea de regresin, podemosencontrar un 68% de los puntos en + 1 Se, 95.5% en + 2 Se y 99.7% de los puntos en + 3 Se. Otra cosa quedebemos observar es que el error estndar de la estimacin se mide a lo largo del eje Y, y noperpendicularmente de la lnea de regresin. Intervalos de confianza utilizando desviacin estndar En estadstica, la probabilidad que asociamos con una estimacin de intervalo se conoce como el nivel deconfianza Esta probabilidad nos indica que tanta confianza tenemos en que la estimacin del intervalo incluya alparmetro de la poblacin. Una probabilidad mas alta significa mas confianza. El intervalo de confianza es el alcance de la estimacin que estamos haciendo pero a menudo hacemos elintervalo de confianza en trminos de errores estndar, para esto debemos calcular el error estndar de lamedia as: Donde es el error estndar de la media para una poblacin infinita, es la desviacin estndar de la poblacin. Con frecuencia expresaremos los intervalos de confianza de esta forma: en la que: = limite superior del intervalo de confianza = limite inferior del intervalo de confianza Relacin entre nivel de confianza e intervalo de confianza Podra pensarse que deberamos utilizar un alto nivel de confianza, como 99% en todos los problemas sobreestimaciones, pero en algunos casos altos niveles de confianza producen intervalos de confianza alto por lotanto imprecisos. Debe tenerse un intervalo de confianza que vaya de acuerdo al tema que se este estimando. Intervalos de prediccin aproximados una forma de ver el error estndar de la estimacin es concebirla como la herramienta estadstica que podemosusar para hacer un enunciado de probabilidad sobre el intervalo alrededor del valor estimado de , dentro delcual cae el valor real de Y. Cuando la muestra es mayor de 30 datos, se calcula los intervalos de prediccin aproximados de la siguientemanera, Si queremos estar seguros en aproximadamente 65% de que el valor real de Y caer dentro de + 1 errorestndar de . Podemos calcular los limites superior e inferior de este intervalo de prediccin de la siguientemanera: = Limite superior del intervalo de prediccin

= Limite inferior del intervalo de prediccin Si, en lugar decimos que estamos seguros en aproximadamente 95.5% de que el dato real estar dentro de + 2errores estndar de la estimacin de . Podramos calcular los limites de este intervalo de la siguiente manera: = Limite superior del intervalo de prediccin = Limite inferior del intervalo de prediccin y por ultimo decimos que estamos seguros en aproximadamente el 99.7% cuando usamos + 3 errores estndarde la estimacin de Podramos calcular los limites de este intervalo de la siguiente manera: = Limite superior del intervalo de prediccin = Limite inferior del intervalo de prediccin Como ya habamos mencionado solo se usa para grandes muestras (mayores de 30 datos) para muestras mspequeas se usan la distribucin T Debemos poner nfasis en que los intervalos de prediccin son solo aproximaciones, de hecho los estadsticospueden calcular el error estndar exacto para la prediccin Sp, usando la formula: en la que: X0 = valor especifico de x en el que deseamos predecir el valor de Y Anlisis de correlacin El anlisis de correlacin es la herramienta estadstica que podemos usar para describir el grado hasta el cualuna variable esta linealmente relacionada con la otra. Con frecuencia el anlisis de correlacin se utiliza juntocon el anlisis de regresin para medir que tan bien la lnea de regresin explica los cambio de la variabledependiente Y. Sin embargo, la correlacin tambin se puede usar sola para medir el grado de asociacinentre dos variables. Los estadsticos han desarrollado dos medidas para describir la correlacin entre dos variables: el coeficientede determinacin y el coeficiente de correlacin. Coeficiente de determinacin El coeficiente de determinacin es la principal forma en que podemos medir la extensin, o fuerza deasociacin que existe entre dos variables, X y Y. Puesto que hemos desarrollado una muestra de puntos paradesarrollar las lneas de regresin, nos referimos a esta medida como el coeficiente de determinacin de lamuestra. El coeficiente de determinacin de la muestra se desarrolla de la relacin entre dos tipos de variacin: lavariacin de los valores Y en conjunto de los datos alrededor de  yla lnea de regresin ajustada ysu propia media el termino variacin en estos dos casos se refiere a la suma de un grupo de desviaciones cuadradas. Al usaresta definicin, entonces es razonable expresar la variacin de los valores Y alrededor de la lnea de regressioncon esta ecuacin:

variacin de los valores Y alrededor de la lnea de regresin = la segunda variacin, la de los valores de Y con respecto a su propia media, esta determinada por variacin de los valores de Y alrededor de su propia media = uno menos la razn entre estas dos variaciones es el coeficiente de determinacin de la muestra que sesimboliza r2esta ecuacin es una medida del grado de asociacin lineal entre X y Y Una correlacin perfecta es aquella en que todos los valores de Y caen en la lnea de estimacin , por lo tantoel coeficiente de determinacin es 1 Cuando el valor del coeficiente de determinacin es 0 quiere decir que no hay correlacin entre las dosvariables. En los problemas con que se topa la mayora de los responsables de la toma de decisiones, r2 caer en algunaparte entre estos dos extremos de 1 y 0. recuerde, no obstante que un r2 cercano a 1 indica una fuertecorrelacin entre X y Y, mientras que un r2 cercano a 0 significa que existe poca correlacin entre estas dosvariables. Un punto que debemos subrayar fuertemente es que r2 mide solo la fuerza de una relacin lineal entre dosvariables. Otra interpretacin de r2 Los estadsticos tambin interpretan el coeficiente de determinacin viendo la cantidad de variacin en Y quees explicada por la lnea de regresin. Mtodo de atajo para calcular el coeficiente de determinacin (r2) Hay una formula que nos ahorra muchos clculos tediosos y esta es: en la que:  yr2= coeficiente de determinacin de la muestra ya = interseccin en Y yb = pendiente de la lnea de estimacin de mejor ajuste yn = numero de puntos de datos yX = valores de la variable independiente yY = valores de la variable dependiente y= media de los valores observados de la variable dependiente El coeficiente de correlacin El coeficiente de correlacin es la segunda medida que podemos usar para describir que tambin una variablees explicada por la otra. Cuando tratamos con muestras, el coeficiente de variacin de muestra se denominacomo r y es la raz cuadrada del coeficiente de determinacin de muestra: cuando la pendiente de estimacin de la muestra es positiva, r es la raz cuadrada positiva, pero si b esnegativa, r es la raiz cuadrada negativa. Por lo tanto, el signo de indica la direccin de la relacin entre las dosvariables X y Y. Si existe una relacin inversa, esto es , si y disminuyeYX Interseccin Y Variable dependiente Pendiente de la lnea Variable independiente

REGRESIN LINEAL SIMPLE Regresin lineal simple Slo se manejauna variable independiente, por lo queslocuenta con dos parmetros. Son de la forma:[6] (6) donde es el error asociado a la medicin del valor Xi y siguen los supuestos de modoque (media cero, varianzaconstante e igual a un Anlisis Dado el modelo de regresin simple, si se calcula la esperanza (valor esperado) del valor Y, se obtiene:[7]
(7) (8)

con

).

Calculando

. Para esto se buscandichosparmetrosqueminimicen

Derivandorespecto a

e igualando a cero, se obtiene:[7]

(9)

(10)

Obteniendo dos ecuacionesdenominadasecuacionesnormalesquegeneran la siguientesolucinpara ambos parmetros:[6]

(11)

(12)

MNIMOS CUADRADOS Encontraremos a y b las estimaciones de a y b de modo que la suma de los cuadrados de los residuos sea mnima. A menudo la suma de los cuadrados de los residuos se llama suma de cuadrados de los errores alrededor de la lnea de regresin y se denota con SSE. Este procedimiento de minimizar para estimar los parmetros se llama mtodo de mnimos cuadrados. Por ello, encontraremos a y b de modo que se minimice.

Al diferenciar SSE con respecto a a y b, tenemos

Al hacer las derivadas parciales iguales a cero y reacomodar los trminos, obtenemos las ecuaciones denominadas ecuaciones normales

Que podemos resolver de manera simultnea para obtener frmulas de clculo para a y b

Estimacion del coeficiente de regresin

Qu es el mtodo de mnimos cuadrados? Es el mtodo ms usado para el ajuste de una recta a una serie de datos. Cmo aplicar el mtodo de los mnimos cuadrados: Tomando en cuenta que el mtodo de los mnimos cuadradosconsiste en ajustar una recta a valores dispersos, necesitamosentonces conocer las caractersticas de la recta, como son, supendiente y su ordenada al origen, de la cual necesitamos esti-mar los valores de a y de b de la siguiente ecuacin: Y= a+bx Por lo que, sabiendo que el mtodo de los mnimos cuadradoscalcular la recta que pasa por la media de todas las observaciones representadas por(x1, y1),(x2, y2), ...(xn, yn), entonces laecuacin de la recta sera Y = y+ b(x-media) En donde: y= media de y1, y2, ...yn x = media de x1, x2, ...xn

b =P (x x)(y y)P (x x)2


Tendremos as entonces la ecuacin de la recta en su formapendiente-ordenada que corresponder a la recta que satisface lacondicin:

(x ...+ ( xn

x)(y y) = x)(yn y)

( x1

x)(y1

y) + ( x2

x)(y2

y) +

de que las constantes aybhacen mnima la suma

(y Y )2 =(y y)2 (Y

y)

de los cuadrados de las desviaciones de los valores observados respecto a dicha linea.

Aplicaciones del mtodo: Este mtodo es una aproxima-cin que nos permite representar un grupo de datos medianteuna sola funcin. As que donde haya un conjunto de valores registrados, sin importar la cantidad de estos ni su tamao, ah estar el mtodo de mnimos cuadrados para proporcionarle una tendencia. Las aplicaciones del mtodo son ilimitadas seores, el lmite esta en su imaginacin: desde conocer la tendencia de su xito con las mujeres, hasta modelar la produccin y ventas de una gigantesca y exitosa empresa petrolera. Para la ingeniera, los negocios, la investigacin y todaslas ciencias en general, el mtodo de los mnimos cuadrados,le garantiza su tendencia con elmnimo margen de error.

ELECCIN DE UN MODELO DE REGRESIN. Gran parte de los presentado hasta ahora sobre la regresin que involucra una sola variable independiente depende de la suposicin de que el modelo que se elige es correcto, la presuncin de que uy, se relaciona con x linealmente en los parmetros. En realidad, no esperaramos que la prediccin de la respuesta fuera buena cite la respuesta y varan en el sistema. Adems, la prediccin sera en realidad inadecuada si la verdadera estructura que relaciona uy, con x es en extremo no lineal en el rango de las variables que se consideran.

Bibliografa: Probabilidad y estadstica Walpole Mayer 6ta edicin