Está en la página 1de 46

En estadstica la regresin lineal o ajuste lineal es un mtodo matemtico que modeliza la relacin entre unavariable dependiente Y, las variables

independientes Xi y un trmino aleatorio . Este modelo puede ser expresado como:

: variable dependiente, explicada o regresando. : variables explicativas, independientes o regresores. : parmetros, miden la influencia que las variables explicativas tienen sobre el regresando. donde es la interseccin o trmino "constante", las son los parmetros respectivos a cada variable independiente, y es el nmero de parmetros independientes a tener en cuenta en la regresin. La regresin lineal puede ser contrastada con la regresin no lineal. [editar]Historia La primera forma de regresiones lineales documentada fue el mtodo de los mnimos 1 cuadrados, el cual fue publicado por Legendre en 1805, y en dnde se inclua una versin delteorema de Gauss-Mrkov. [editar]Etimologa El trmino regresin se utiliz por primera vez en el estudio de variables antropomtricas: al comparar la estatura de padres e hijos, result que los hijos cuyos padres tenan una estatura muy superior al valor medio tendan a igualarse a ste, mientras que aquellos cuyos padres eran muy bajos tendan a reducir su diferencia respecto a la estatura media; es decir, 2 "regresaban" al promedio. La constatacin emprica de esta propiedad se vio reforzada ms tarde con la justificacin terica de ese fenmeno. El trmino lineal se emplea para distinguirlo del resto de tcnicas de regresin, que emplean modelos basados en cualquier clase de funcin matemtica. Los modelos lineales son una explicacin simplificada de la realidad, mucho ms gil y con un soporte terico por parte de la matemtica y la estadstica mucho ms extenso. Pero bien, como se ha dicho, podemos usar el trmino lineal para distinguir modelos basados en cualquier clase de aplicacin. [editar]El

modelo de regresin lineal


(k =

El modelo lineal relaciona la variable dependiente Y con K variables explicativas

1,...K), o cualquier transformacin de stas, que generan un hiperplano de parmetros desconocidos: (2) donde es la perturbacin aleatoria que recoge todos aquellos factores de la realidad no controlables u observables y que por tanto se asocian con el azar, y es la que confiere al modelo su carcter estocstico. En el caso ms sencillo, con una sola variable explicativa, el hiperplano es una recta: (3)

El problema de la regresin consiste en elegir unos valores determinados para los parmetros desconocidos , de modo que la ecuacin quede completamente especificada. Para ello se necesita un conjunto de observaciones. En una observacin cualquiera i-sima (i= 1,... I) se registra el comportamiento simultneo de la variable dependiente y las variables explicativas (las perturbaciones aleatorias se suponen no observables). (4) Los valores escogidos como estimadores de los parmetros, , son los coeficientes de regresin, sin que se pueda garantizar que coinciden con parmetros reales del proceso generador. Por tanto, en (5) Los valores son por su parte estimaciones de la perturbacin aleatoria o errores.

[editar]Hiptesis

modelo de regresin lineal clsico

1. Esperanza matemtica nula.

Para cada valor de X la perturbacin tomar distintos valores de forma aleatoria, pero no tomar sistemticamente valores positivos o negativos, sino que se supone que tomar algunos valores mayores que cero y otros menores, de tal forma que su valor esperado sea cero. 2. Homocedasticidad para todo t Todos los trminos de la perturbacin tienen la misma varianza que es desconocida. La dispersin de cada en torno a su valor esperado es siempre la misma. 3. Incorrelacin. t,s con t distinto de s para todo

Las covarianzas entre las distintas pertubaciones son nulas, lo que quiere decir que no estn correlacionadas o autocorrelacionadas. Esto implica que el valor de la perturbacin para cualquier observacin muestral no viene influenciado por los valores de la perturbacin correspondientes a otras observaciones muestrales. 4. Regresores no estocsticos. 5. No existen relaciones lineales exactas entre los regresores. 6. Suponemos que no existen errores de especificacin en el modelo ni errores de medida en las variables explicativas 7. Normalidad de las perturbaciones [editar]Supuestos

del modelo de regresin lineal

Para poder crear un modelo de regresin lineal, es necesario que se cumpla con los siguientes 3 supuestos:

1. La relacin entre las variables es lineal. 2. Los errores en la medicin de las variables explicativas son independientes entre s. 3. Los errores tienen varianza constante. (Homocedasticidad) 4. Los errores tienen una esperanza matemtica igual a cero (los errores de una misma magnitud y distinto signo son equiprobables). 5. El error total es la suma de todos los errores. [editar]Tipos

de modelos de regresin lineal


lineal simple

Existen diferentes tipos de regresin lineal que se clasifican de acuerdo a sus parmetros: [editar]Regresin

Slo se maneja una variable independiente, por lo que slo cuenta con dos parmetros. Son de 4 la forma: (6) donde que ). [editar]Anlisis Dado el modelo de regresin simple, si se calcula la esperanza (valor esperado) del valor Y, se 5 obtiene: (7) es el error asociado a la medicin del valor y siguen los supuestos de modo y con

(media cero, varianza constante e igual a un

Derivando respecto a

e igualando a cero, se obtiene:

(9)

(10) Obteniendo dos ecuaciones denominadas ecuaciones normales que generan la 4 siguiente solucin para ambos parmetros:

(11)

(12) La interpretacin del parmetro en [editar]Regresin es que un incremento en Xi de una unidad, Yi incrementar

lineal mltiple

La regresion lineal nos permite trabajar con una variable a nivel de intervalo o razn, as tambin se puede comprender la relacin de dos o ms variables y nos permitir relacionar

mediante ecuaciones, una variable en relacin a otras variables llamndose Regresin mltiple. Constantemente en la prctica de la investigacin estadstica, se encuentran variables que de alguna manera estn relacionados entre si, por lo que es posible que una de las variables puedan relacionarse matemticamente en funcin de otra u otras variables. Maneja varias variables independientes. Cuenta con varios parmetros. Se expresan de la 6 forma: (13) donde que ). [editar]Rectas es el error asociado a la medicin del valor y siguen los supuestos de modo y con

(media cero, varianza constante e igual a un

de regresin

Las rectas de regresin son las rectas que mejor se ajustan a la nube de puntos (o tambin llamado diagrama de dispersin) generada por una distribucin binomial. Matemticamente, 7 son posibles dos rectas de mximo ajuste: La recta de regresin de Y sobre X:

(14) La recta de regresin de X sobre Y:

(15) La correlacin ("r") de las rectas determinar la calidad del ajuste. Si r es cercano o igual a 1, el ajuste ser bueno y las predicciones realizadas a partir del modelo obtenido sern muy fiables (el modelo obtenido resulta verdaderamente representativo); si r es cercano o igual a 0, se tratar de un ajuste malo en el que las predicciones que se realicen a partir del modelo obtenido no sern fiables (el modelo obtenido no resulta representativo de la realidad). Ambas rectas de regresin se intersecan en un punto llamado centro de gravedad de ladistribucin. [editar]Aplicaciones [editar]Lneas

de la regresin lineal

de tendencia

Vase tambin: Tendencia

Una lnea de tendencia representa una tendencia en una serie de datos obtenidos a travs de un largo perodo. Este tipo de lneas puede decirnos si un conjunto de datos en particular (como por ejemplo, el PBI, el precio del petrleo o el valor de las acciones) han aumentado o 8 decrementado en un determinado perodo. Se puede dibujar una lnea de tendencia a simple vista fcilmente a partir de un grupo de puntos, pero su posicin y pendiente se calcula de manera ms precisa utilizando tcnicas estadsticas como las regresiones lineales. Las lneas de tendencia son generalmente lneas rectas, aunque algunas variaciones utilizan polinomios de mayor grado dependiendo de la curvatura deseada en la lnea. [editar]Medicina

En medicina, las primeras evidencias relacionando la mortalidad con el fumar tabaco vinieron de estudios que utilizaban la regresin lineal. Los investigadores incluyen una gran cantidad de variables en su anlisis de regresin en un esfuerzo por eliminar factores que pudieran producir correlaciones espurias. En el caso del tabaquismo, los investigadores incluyeron el estado socio-econmico para asegurarse que los efectos de mortalidad por tabaquismo no sean un efecto de su educacin o posicin econmica. No obstante, es imposible incluir todas 10 11 las variables posibles en un estudio de regresin. En el ejemplo del tabaquismo, un hipottico gen podra aumentar la mortalidad y aumentar la propensin a adquirir enfermedades relacionadas con el consumo de tabaco. Por esta razn, en la actualidad las pruebas controladas aleatorias son consideradas mucho ms confiables que los anlisis de regresin. [editar]Vase

tambin

Homoscedasticidad Regresin logstica Modelos de regresin mltiple postulados y no postulados Regresin segmentada Econometra Mnimos cuadrados Regularizacin de Tikhonov Cuarteto de Anscombe Capital Asset Pricing Model

[editar]Referencias
C.F. Gauss. Theoria combinationis observationum erroribus minimis obnoxiae. (1821/1823) Introduction to linear regression Curvefit.com (en ingls) "Anlisis de regresin lineal", Universidad Complutense de Madrid
a b

1. 2. 3. 4.

"Frmulas", Probabilidad y Estadstica. Cs. Bsicas. U.D.B. Matemtica. Universidad

Tecnolgica Nacional, Facultad Regional Buenos Aires. Editorial CEIT-FRBA. (Cdigo BM2BT2) 5. 6.
a b

Modelo de regresin lineal simple. EinsteinNet.

Tcnicas de regresin: Regresin Lineal Mltiple. Prtega Daz, S., Pita Fernndez, S.Unidad de Epidemiologa Clnica y Bioestadstica. Complejo Hospitalario de La Corua(Espaa)

7. 8. 9.

Apunte sobre Rectas de regresin. Ministerio de Educacin y Ciencia. Gobierno deEspaa. Utilizacin de las lneas de tendencia, Paritech (en ingls) Doll R, Peto r, Wheatley K, Gray R et al. Mortality in relation to smoking: 40 years' observations on male British doctors .BMJ 1994;309:901-911 (8 de octubre]

10. "Environmental Tobacco Smoke and Adult Asthma" Division of Pulmonary and Critical Care Medicine, Division of Occupational and Environmental Medicine; Department of Medicine, Institute for Health Policy Studies; and Department of Epidemiology and Biostatistics, Universidad de California, San Francisco, California. (en ingls)

11. Efecto del tabaquismo, los sntomas respiratorios y el asma sobre la espirometra de adultos de la Ciudad de Mxico, Justino Regalado-Pineda; Alejandro Gmez-Gmez; Javier RamrezAcosta; Juan Carlos Vzquez-Garca

[editar]Bibliografa Devore, Jay L.; Probabilidad y Estadstica para Ingeniera y Ciencias. International Thomson Editores. Mxico. ISBN-10: 9706864571. Walpole, Ronald E.; Raymond H.; Myers, Sharon L.; Probabilidad y Estadstica para Ingenieros. Pretice-Hall Hispanoamericana, S.A. Mxico. ISBN-10: 9701702646. Canavos, George C.; Probabilidad y Estadstica. Aplicaciones y Mtodos. McGraw-Hill. Mxico. ISBN-10: 9684518560.

Regresin lineal
Abordaremos en esta pgina las distribuciones bidimensionales. Las observaciones se dispondrn en dos columnas, de modo que en cada fila figuren la abscisa x y su correspondiente ordenada y. La importancia de las distribuciones bidimensionales radica en investigar como influye una variable sobre la otra. Esta puede ser una dependencia causa efecto, por ejemplo, la cantidad de lluvia (causa), da lugar a un aumento de la produccin agrcola (efecto). O bien, el aumento del precio de un bien, da lugar a una disminucin de la cantidad demandada del mismo. Si utilizamos un sistema de coordenadas cartesianas para representar la distribucin bidimensional, obtendremos un conjunto de puntos conocido con el diagrama de dispersin, cuyo anlisis permite estudiar cualitativamente, la relacin entre ambas variables tal como se ve en la figura. El siguiente paso, es la determinacin de la dependencia funcional entre las dos variables x e y que mejor ajusta a la distribucin bidimensional. Se denomina regresin lineal cuando la funcin es lineal, es decir, requiere la determinacin de dos parmetros: la pendiente y la ordenada en el origen de la recta de regresin, y=ax+b. La regresin nos permite adems, determinar el grado de dependencia de las series de valores X e Y, prediciendo el valor y estimado que se obtendra para un valor x que no est en la distribucin.

Vamos a determinar la ecuacin de la recta que mejor ajusta a los datos representados en la figura. Se denomina error ei a la diferencia yi-y, entre el valor observado yi, y el valor ajustado y= axi+b, tal como se ve en la figura inferior. El criterio de ajuste se toma como aqul en el que la desviacin cuadrtica media sea mnima, es decir, debe de ser mnima la suma

El extremos de una funcin: mximo o mnimo se obtiene cuando las derivadas de s respecto de a y de b sean nulas. Lo que da lugar a un sistema de dos ecuaciones con dos incgnitas del que se despeja a yb.

El coeficiente de correlacin es otra tcnica de estudiar la distribucin bidimensional, que nos indica la intensidad o grado de dependencia entre las variables X e Y. El coeficiente de correlacin r es un nmero que se obtiene mediante la frmula.

El numerador es el producto de las desviaciones de los valores X e Y respecto de sus valores medios. En el denominador tenemos las desviaciones cuadrticas medias de X y de Y. El coeficiente de correlacin puede valer cualquier nmero comprendido entre -1 y +1. Cuando r=1, la correlacin lineal es perfecta, directa. Cuando r=-1, la correlacin lineal es perfecta, inversa Cuando r=0, no existe correlacin alguna, independencia total de los valores XeY

Variantes de la regresin lineal

La funcin potencial

y=cxa Se puede trasformar en

Si usamos las nuevas variables X=log x e Y=log y, obtenemos la relacin lineal Y=aX+b. Donde b=log c Ejemplo:
x y 10 1.06 20 1.33 30 1.52 40 1.68 50 1.81 60 1.91 70 2.01 80 2.11

Usar la calculadora para transformar esta tabla de datos en esta otra


X=log x 1.0 1.30 1.477 1.60 1.699 1.778 1.845 1.903

Y=log y

0.025 0.124 0.182 0.225 0.258 0.281 0.303 0.324

Calcular mediante el programa regresin lineal los parmetros a y c.

Funcin exponencial

y=ceax Tomando logaritmos neperianos en los dos miembros resulta ln y=ax+ln c Si ponemos ahora X=x, e Y=ln y, obtenemos la relacin lineal Y=aX+b Donde b=ln c. Ejemplo:
x y 12 930 41 815 93 632 147 487 204 370 264 265 373 147 509 76 773 17

Usar la calculadora para transformar esta tabla de datos en esta otra


X= x Y=ln y 12 6.835 41 6.703 93 6.449 147 6.188 204 5.913 264 5.580 373 4.990 509 4.330 773 2.833

Calcular mediante el programa regresin lineal los parmetros a y c.

La clase Regresion
La clase Regresion que describe la regresin lineal no difiere substancialmente de la clase Estadistica que se ha descrito en la seccin anterior. La diferencia estriba en que los miembros datos son dos arraysx e y que guardan las series de valores X e Y, cuya dependencia funcional deseamos determinar. En los miembros dato pblicos a y b se guarda la pendiente de la recta de regresin y la ordenda en el origen.

La funcin miembro lineal, calcula la pendiente a, y ordenada en el origen b de la recta de regresin. Se hace uso de variables auxiliares para guardar resultados intermedios: sx guarda la suma de todas las abscisas, sy la suma de todas las ordenadas, sx2 la suma de los cuadrados de las abscisas, sy2 la suma de las cuadrados de las ordenadas, y pxy, la suma de los productos de cada abscisa por su ordenada. Los valores calculados a partir de las frmulas respectivas, se guardan en los miembros pblicos a y b de la clase Regresion. Para obtener el coeficiente de correlacin hemos de calcular primero el valor medio <x> de la serie de datos X, y el valor medio <y> de Y. No calculamos las desviaciones cuadrticas medias sino que empleamos una expresin equivalente a la dada anteriormente para el coeficiente de correlacin.
public class Regresion { private double[] x; private double[] y; private int n; //nmero de datos public double a, b; //pendiente y ordenada en el origen public Regresion(double[] x, double[] y) { this.x=x; this.y=y; n=x.length; //nmero de datos } public void lineal(){ double pxy, sx, sy, sx2, sy2; pxy=sx=sy=sx2=sy2=0.0; for(int i=0; i<n; i++){ sx+=x[i]; sy+=y[i]; sx2+=x[i]*x[i]; sy2+=y[i]*y[i]; pxy+=x[i]*y[i]; } a=(n*pxy-sx*sy)/(n*sx2-sx*sx); b=(sy-b*sx)/n; } public double correlacion(){ //valores medios double suma=0.0; for(int i=0; i<n; i++){ suma+=x[i]; } double mediaX=suma/n; suma=0.0; for(int i=0; i<n; i++){ suma+=y[i]; } double mediaY=suma/n; //coeficiente de correlacin double pxy, sx2, sy2; pxy=sx2=sy2=0.0; for(int i=0; i<n; i++){ pxy+=(x[i]-mediaX)*(y[i]-mediaY); sx2+=(x[i]-mediaX)*(x[i]-mediaX);

sy2+=(y[i]-mediaY)*(y[i]-mediaY); } return pxy/Math.sqrt(sx2*sy2); } }

Ejercicios Uso de la clase Regresion


Una fbrica de bebidas refrescantes observa que sus temperaturas (x) y las ventas (y) de la calle han sido.
x 5 y 9 7 10 12 16 20 23 27 19 14 9 6 11 15 16 20 24 27 29 22 20 14 9

Los datos los guardamos en dos arrays denominados temperatura y ventas


double[] temperatura={5, 7, 10, 12, 16, 20, 23, 27, 19, 14, 9, 6}; double[] ventas={9, 11, 15, 16, 20, 24, 27, 29, 22, 20, 14, 9};

Creamos un objeto regresion de la clase Regresion, pasndole al constructor los dos arrays..
Regresion regresion=new Regresion(temperatura, ventas);

Se llama desde el objeto regresion a su funcin miembro lineal, para calcular los coeficentes a y b.
regresion.lineal(); System.out.println("Pendiente "+regresion.a); System.out.println("Ordenada en el origen "+regresion.b);

Se llama tambin, a la funcin miembro correlacion, la cual devuelve el coeficiente de correlacin


System.out.println("Indice de correlacin "+regresion.correlacion());

Una compaa desea hacer predicciones del valor anual de sus ventas totales en cierto pas a partir de la relacin de stas y la renta nacional. Para investigar la relacin cuenta con los siguientes datos:

189

190

208

227

239

252

257

274

293

308

316

402

404

412

425

429

436

440

447

458

469

469

X representa la renta nacional en millones de euros e Y representa las ventas de la compaa en miles de euros en el periodo que va desde 1990 hasta 2000 (ambos inclusive). Calcular:

1 La recta de regresin de Y sobre X. 2 El coeficiente de correlacin lineal e interpretarlo. 3 Si en 2001 la renta nacional del pas fue de 325 millones de
euros. Cul ser la prediccin para las ventas de la compaa en este ao?

2. La informacin estadstica obtenida de una muestra de tamao


12 sobre la relacin existente entre la inversin realizada y el rendimiento obtenido en cientos de miles de euros para explotaciones a grcolas, se muestra en el siguiente cuadro:

Inversin (X) Rendimiento (Y)

11 2

14 3

16 5

15 6

16 5

18 3

20 7

21 10

14 6

20 10

19 5

11 6

Calcular:

1 La recta de regresin del rendimiento respecto de la inversin. 2 La previsin de inversin que se obtendr con un rendimiento de
1 250 000 .

3. El nmero de horas dedicadas al estudio de una asignatura y la


calificacin obtenida en el examen correspondiente, de ocho personas es:

Horas (X) Calificacin (Y)

20 6.5

16 6

34 8.5

23 7

27 9

32 9.5

18 7.5

22 8

Se pide:

1 Recta de regresin de Y sobre X. 2 Calificacin estimada para una persona que hubiese estudiado 28
horas.

4. En la tabla siguiente se indica la edad (en aos) y la conducta


agresiva (medida en una escala de cero a 10) de 10 nios.

Edad Conducta agresiva

6 9

6 6

6.7 7

7 8

7.4 7

7.9 4

8 2

8.2 3

8.5 3

8.9 1

1 Obtener la recta de regresin de la conducta agresiva en funcin


de la edad.

2 A partir de dicha recta, obtener el valor de la conducta agresiva


que correspondera a un nio de 7.2 aos.

5. Los valores de dos variables X e Y se distribuyen segn la tabla


siguiente:

Y/X 14 18 22

100 1 2 0

50 1 3 1

25 0 0 2

Se pide:

1 Calcular la covarianza. 2 Obtener e interpretar el coeficiente de correlacin lineal. 3 Ecuacin de la recta de regresin de Y sobre X.

6. Las puntuaciones obtenidas por un grupo de alumnos en una


batera de test que mide la habilidad verbal (X) y el razonamiento abstracto (Y) son las siguientes:

Y/X (25-35) (35-45) (45-55) (55-65)

20 30 6 3 0 0 4 6 2 1

40 50 0 1 5 2 0 0 3 7

Se pide:

1 Existe correlacin entre ambas variables? 2 Segn los datos de la tabla, si uno de estos alumnos obtiene una
puntuacin de 70 puntos en razonamiento abstracto, en cunto se

estimar su habilidad verbal?

7. Se sabe que entre el consumo de papel y el nmero de litros de


agua por metro cuadrado que se recogen en una ciudad no existe relacin.

1 Cul es el valor de la covarianza de estas variables? 2 Cunto vale el coeficiente de correlacin lineal ?

3 Qu ecuaciones tienen las dos rectas de regresin y cul es su


posicin en el plano?

8. En una empresa de transportes trabajan cuatro conductores. Los


aos de antigedad de permisos de conducir y el nmero de infracciones cometidas en el ltimo ao por cada uno de ellos son los siguientes:

Aos (X) Infracciones (Y)

3 4

4 3

5 2

6 1

Calcular el coeficiente de correlacin lineal e interpretarlo.

9. Una persona rellena semanalmente una quiniela y un boleto de


lotera primitiva anotando el nmero de aciertos que tiene. Durante las cuatro semanas del mes de febrero, los aciertos fueron:

Quiniela (X) Primitiva (Y)

6 1

8 2

6 2

8 1

Obtener

el coeficiente

de

correlacin

lineal e

interpretarlo.

Ofreceran confianza las previsiones hechas con las rectas de regresin?

Ejercicios de regresin y correlacin I

LECCION 13 Regresin lineal

Representamos en un grfico los pares de valores de una distribucin bidimensional: la variable "x" en el eje horizontal o eje de abcisa, y la variable "y" en el eje vertical, o eje de ordenada. Vemos que la nube de puntos sigue una tendencia lineal:

El coeficiente de correlacin lineal nos permite determinar si, efectivamente, existe relacin entre las dos variables. Una vez que se concluye que s existe relacin, la regresin nos permite definir la recta que mejor se ajusta a esta nube de puntos.

Una recta viene definida por la siguiente frmula:

y = a + bx
Donde "y" sera la variable dependiente, es decir, aquella que viene definida a partir de la otra variable "x" (variable independiente). Para definir la recta hay que determinar los valores de los parmetros "a" y "b": El parmetro "a" es el valor que toma la variable dependiente "y", cuando la variable independiente "x" vale 0, y es el punto donde la recta cruza el eje vertical. El parmetro "b" determina la pendiente de la recta, su grado de inclinacin. La regresin lineal nos permite calcular el valor de estos dos parmetros, definiendo la recta que mejor se ajusta a esta nube de puntos. El parmetro "b" viene determinado por la siguiente frmula:

Es la covarianza de las dos variables, dividida por la varianza de la variable "x". El parmetro "a" viene determinado por:

a = ym - (b * xm)
Es la media de la variable "y", menos la media de la variable "x" multiplicada por el parmetro "b" que hemos calculado. Ejemplo: vamos a calcular la recta de regresin de la siguiente serie de datos de altura y peso de los alumnos de una clase. Vamos a considerar que la altura es la variable independiente "x" y que el peso es la variable dependiente "y" (podamos hacerlo tambin al contrario): Alumno Estatura Peso Alumno Estatura Peso Alumno Estatura Peso x x x x x x x x x Alumno 1 1,25 32 Alumno 11 1,25 33 Alumno 21 1,25 33 Alumno 2 1,28 33 Alumno 12 1,28 35 Alumno 22 1,28 34 Alumno 3 1,27 34 Alumno 13 1,27 34 Alumno 23 1,27 34 Alumno 4 1,21 30 Alumno 14 1,21 30 Alumno 24 1,21 31 Alumno 5 1,22 32 Alumno 15 1,22 33 Alumno 25 1,22 32 Alumno 6 1,29 35 Alumno 16 1,29 34 Alumno 26 1,29 34 Alumno 7 1,30 34 Alumno 17 1,30 35 Alumno 27 1,30 34 Alumno 8 1,24 32 Alumno 18 1,24 32 Alumno 28 1,24 31 Alumno 9 1,27 32 Alumno 19 1,27 33 Alumno 29 1,27 35 Alumno 10 1,29 35 Alumno 20 1,29 33 Alumno 30 1,29 34 El parmetro "b" viene determinado por: (1/30) * 1,034

b = ----------------------------------------- = 40,265
(1/30) * 0,00856 Y el parmetro "a" por:

a = 33,1 - (40,265 * 1,262) = -17,714


Por lo tanto, la recta que mejor se ajusta a esta serie de datos es:

y = -17,714 + (40,265 * x)

Esta recta define un valor de la variable dependiente (peso), para cada valor de la variable independiente (estatura):

Estatura x 1,20 1,21 1,22 1,23 1,24 1,25 1,26 1,27 1,28 1,29 1,30

Peso x 30,6 31,0 31,4 31,8 32,2 32,6 33,0 33,4 33,8 34,2 34,6

Introduccin a la regresin lineal

El objeto de un anlisis de regresin es investigar la relacin estadstica que existe entre una variabledependiente (Y) y una o ms variables independientes ( , ... ). Para poder realizar esta investigacin, se debe postular una relacin funcional entre las variables. Debido a su simplicidad analtica, la forma funcional que ms se utiliza en la prctica es la relacin lineal. Cuando solo existe una variable independiente, esto se reduce a una lnea recta:
Anlisis de regresin Coeficientes Diagrama de dispersin Mnimos cuadrados Parmetros Recta de regresin Relacin estadstica Relacin funcional Relacin lineal Variables

donde los coeficientes b0 y b1 son parmetros que definen la posicin e inclinacin de la recta. (Ntese que hemos usado el smbolo especial para representar el valor de Y calculado por la recta. Como veremos, el valor real de Y rara vez coincide exactamente con el valor calculado, por lo que es importante hacer esta distincin.)

El parmetro b0, conocido como la ordenada en el origen, nos indica cunto es Y cuando X = 0. El parmetro b1, conocido como la pendiente, nos indica cunto aumenta Y por cada aumento de una unidad en X. Nuestro problema consiste en obtener estimaciones de estos coeficientes a partir de una muestra de observaciones sobre las variables Y yX. En el anlisis de regresin, estas estimaciones se obtienen por medio del mtodo de mnimos cuadrados. Como ejemplo, consideremos las cifras del Cuadro 1, que muestra datos mensuales de produccin y costos de operacin para una empresa britnica de transporte de pasajeros por carretera durante los aos 1949-52 (la produccin se mide en trminos de miles de millas-vehculo recorridas por mes, y los costos se miden en trminos de miles de libras por mes). Para poder visualizar el grado de relacin que existe entre las variables, como primer paso en el anlisis es conveniente elaborar un diagrama de dispersin, que es una representacin en un sistema de coordenadas cartesianas de los datos numricos observados. En el diagrama resultante, en el eje X se miden las millasvehculo recorridas, y en el eje Y se mide el costo de operacin mensual. Cada punto en el diagrama muestra la pareja de datos (millasvehculo y costos de operacin) que corresponde a un mes determinado. Como era de esperarse, existe una relacin positiva entre estas variables: una mayor cantidad de millas-vehculo recorridas corresponde un mayor nivel de costos de operacin.
Cuadro 1. Operaciones Mensuales en una Empresa de Transporte de Pasajeros. Costos Totales Vehculo (miles) (miles) Mes N X Y Millas

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33

213.9 212.6 215.3 215.3 215.4 228.2 245.6 259.9 250.9 234.5 205.9 202.7 198.5 195.6 200.4 200.1 201.5 213.2 219.5 243.7 262.3 252.3 224.4 215.3 202.5 200.7 201.8 202.1 200.4 209.3 213.9 227.0 246.4

3147 3160 3197 3173 3292 3561 4013 4244 4159 3776 3232 3141 2928 3063 3096 3096 3158 3338 3492 4019 4394 4251 3844 3276 3184 3037 3142 3159 3139 3203 3307 3585 4073

Diagrama de dispersin

Fuente: J. Johnston, Anlisis Estadstico de los Costes (Barcelona: Sagitario, S. A., 1966), p. 118.

Por otro lado, tambin se aprecia por qu este grfico se denomina un diagrama de dispersin: no existe una relacin matemticamente exacta entre las variables, ya que no toda la variacin en el costo de operacin puede ser explicada por la variacin en las millas-vehculo. Si entre estas variables existiera una relacin lineal perfecta, entonces todos los puntos caeran a lo largo de la recta de regresin, que tambin ha sido trazada y que muestra la relacin promedio que existe entre las dos variables. En la prctica, se observa que la mayora de los puntos no caen directamente sobre la recta, sino que estn dispersos en torno a ella. Esta dispersin representa la variacin en Y que no puede atribuirse a la variacin en X.

Estadstica Inferencial No. DeEquipo 7Fecha deentrega: 11 de Mayo 2010 4.Los errores tienen una esperanza matemtica igual a cero.5.El error total es la suma de todos los errores. Tipos de modelos de regresin lineal Existen diferentes tipos de regresin lineal que se clasifican de acuerdo a sus parmetros: Regresin lineal simple Slo se maneja unavariable independiente, por lo que slo cuenta con dosparmetros.Son de la forma: [6] (6)donde es el error asociado a la medicin del valor X i

y siguen los supuestos de modoque (media cero,varianzaconstante e igual a un y con). Anlisis Dado el modelo de regresin simple, si se calcula laesperanza(valor esperado) del valor Y, se obtiene: [7] (7)(8)C a l c u l a n d o y . P a r a e s t o s e b u s c a n d i c h o s parmetrosq u e m i n i m i c e n Derivandorespecto a y e igualando a cero, se obtiene: [7] (9)(10)Obteniendo dos ecuaciones denominadasecuaciones normalesque generan la siguientesolucinpara ambos parmetros: [6] (11)

Estadstica Inferencial No. DeEquipo 7Fecha deentrega: 11 de Mayo 2010 (12)La interpretacin del parmetro beta 2 es que un incremento en Xi de una unidad, Yiincrementar en beta 2 Regresin lineal mltiple Maneja variasvariables independientes. Cuenta con varios parmetros. Se expresan de laforma: [8] (13)donde es el error asociado a la medicin i del valor X ip y siguen los supuestos de modoque (media cero,varianzaconstante e igual a un y con). Rectas de regresin Las rectas de regresin son lasrectasq u e m e j o r s e a j u s t a n a l a nube de puntos

( o tambin llamadodiagrama de dispersin) g e n e r a d a p o r u n a distr ibucin binomial.Matemticamente, son posibles dos rectas de mximo ajuste: [9] La recta de regresin de Y sobre X:(14) La recta de regresin de X sobre Y:(15)Lacorrelacin("r") de las rectas determinar la calidad del ajuste. Si r es cercano o iguala 1, el ajuste ser bueno; si r es cercano o igual a 0, se tratar de un ajuste malo. Ambasr e c t a s d e r e g r e s i n s e i n t e r s e c a n e n u n p u n t o l l a m a d o c e n t r o d e g r a v e d a d d e l a distribucin. Aplicaciones de la regresin linealLneas de tendencia Vase tambin:TendenciaUna lnea de tendencia representa unatendenciaen una serie de datos obtenidos atravs de un largo perodo. Este tipo de lneas puede decirnos si un conjunto de datos enparticular (como por ejemplo, elPBI, elprecio del petrleoo el valor de lasacciones) hanaumentado o decrementado en un determinado perodo. [10] Se puede dibujar una lnea detendencia a simple vista fcilmente a partir de un grupo de puntos, pero su posicin ypendiente se calcula de manera ms precisa utilizando tcnicas estadsticascomo lasregresiones lineales. Las lneas de tendencia son generalmente lneas rectas, aunque

Estadstica Inferencial No. DeEquipo 7Fecha deentrega: 11 de Mayo 2010 algunas variaciones utilizan polinomios de mayor grado dependiendo de la curvaturadeseada en la lnea. Medicina Enmedicina,las primeras evidencias relacionando lamortalidadcon elfumar tabaco [11] vinieron de estudios que utilizaban la regresin lineal. Los investigadores incluyen unagran cantidad de variables en su anlisis de regresin en un esfuerzo por eliminar factoresq u e p u d i e r a n p r o d u c i r correlaciones espurias. E n e l c a s o d e l tabaquismo, l o s investigadores incluyeron el estado socioeconmico para asegurarse que los efectos demortalidadpor tabaquismono sean un efecto de su educacin o posicin econmica. Noobstante, es imposible incluir todas las variables posibles en un estudio de regresin. [12] [13] E n e l e j e m p l o d e l tabaquismo, unhipottico genp o d r a a u m e n t a r l a m o r t a l i d a d y aumentar la propensin a adquirir enfermedades relacionadas con el consumo detabaco.Por esta razn, en la actualidad las pruebas controladas aleatoriasson consideradasmucho ms confiables que los anlisis de regresin.

Ejemplos de correlacin y rectas de regresin

Ejemplo para calcular la varianza, la desviacin tpica, la covarianza y el coeficiente de correlacin r

1. Una compaa de seguros considera que el nmero de vehculos (y) que circulan por una determinada autopista a ms de 120 km/h , puede ponerse en funcin del nmero de accidentes (x) que ocurren en ella. Durante 5 das obtuvo los siguientes resultados: Accidentes xi 5 7 2 1 9 Vehculos yi 15 18 10 8 20

a) Calcula el coeficiente de correlacin lineal. b) Si ayer se produjeron 6 accidentes, cuntos vehculos podemos suponer que circulaban por la autopista a ms de 120 km / h? c) Es buena la prediccin?

Construimos una tabla con las columnas necesarias

fi 1 1 1 1 1 5

xi 5 7 2 1 9 24

yi 15 18 10 8 20 71

xi2 25 49 4 1 81 160

yi2 225 324 100 64 400 1113

xi yi 75 126 20 8 180 409

Ejemplo para calcular una recta de regresin

2. Las calificaciones de 40 alumnos en psicologa evolutiva y en estadstica han sido las de la tabla adjunta. Psicologa xi 3 4 5 6 6 7 7 8 10 Estadstica yi N de alumnos fi 2 5 4 6 5 12 6 7 6 7 9 4 5 4 2 1 10 2

a) Obtener la ecuacin de la recta de regresin de calificaciones de estadstica respecto de las calificaciones de psicologa. b) Cul ser la nota esperada en estadstica para un alumno que obtuvo un 4,5 en psicologa?

Construimos una tabla con las columnas necesarias


fi 4 6 12 4 5 4 2 1 2 40 xi 3 4 5 6 6 7 7 8 10 yi 2 5 5 6 7 6 7 9 10 fixi 12 24 60 24 30 28 14 8 20 220 fiyi 8 30 60 24 35 24 14 9 20 224 fixi2 36 96 300 144 180 196 98 64 200 1314 fiyi2 16 150 300 144 245 144 98 81 200 1378 fixiyi 24 120 300 144 210 168 98 72 200 1336

3. Las notas obtenidas por 10 alumnos en Matemticas y en Msica son: Matemticas xi 6 4 8 5 3,5 7 5 10 5 4 Msica yi 2 5 5 6 7 6 7 9 10 10

Calcula la covarianza y el coeficiente de correlacin. Existe correlacin entre las dos variables? Cul ser la nota esperada en Msica para un alumno que hubiese obtenido un 8,3 en Matemticas?

Solucin

a) Covarianza = 3,075. Coeficiente de correlacin r = 0,92. b) Existe una correlacin positiva fuerte. c) Recta de regresin: y = 1,6 + 0,817 x La nota esperada en Msica = 8, 38

4. Cinco nias de 2, 3, 5, 7 y 8 aos de edad pesan respectivamente 14, 20, 30, 42 y 44 kg . Halla la ecuacin de la recta de regresin de la edad sobre el peso. Cul sera el peso aproximado de una nia de 6 aos?

Solucin

Ecuacin de la recta de regresin: x = 0,192 y - 0,76 Peso aproximado de una nia de 6 aos: 35,2 kg