Está en la página 1de 12

Anlisis de datos y Estadstica Avanzada

Mster Interuniversitario de Astrofsica UCM+UAM Tema 4: Regresin lineal simple

Javier Gorgas y Nicols Cardiel


Departamento de Astrofsica y Ciencias de la Atmsfera Facultad de Ciencias Fsicas Universidad Complutense de Madrid

Tema 4: Regresin lineal simple ()

Anlisis de datos y Estadstica Avanzada

C 1 urso 2010/2011

1 / 29

Esquema

Introduccin Anlisis de regresin Tipos de regresin Regresin lineal simple Tratamiento clsico Tratamiento avanzado 6 mtodos de ajuste por mnimos cuadrados

Tema 4: Regresin lineal simple ()

Anlisis de datos y Estadstica Avanzada

C 2 urso 2010/2011

2 / 29

Introduccin

Anlisis de regresin

Qu es la regresin?
El trmino regresin fue acuado por Francis Galton en el siglo XIX para referirse a fenmenos biolgicos: los descendientes de progenitores excepcionales son, en promedio, menos excepcionales que los progenitores, y ms parecidos a sus ancestros ms distantes (Galton utiliz el trmino reversion al hablar de guisantes en 1877, y regression al referirse a la altura de humanos en 1885).

Tema 4: Regresin lineal simple ()

Anlisis de datos y Estadstica Avanzada

C 3 urso 2010/2011

4 / 29

Introduccin

Anlisis de regresin

Anlisis de regresin
El anlisis de regresin es un intento de examinar la relacin que existe entre una variable dependiente (variable respuesta) y un conjunto de variables independientes (predictores). El modelo matemtico que establece dicha relacin es la ecuacin de regresin. La variable dependiente se modela como una variable aleatoria. La ecuacin de regresin contiene una serie de parmetros de regresin (constantes) que establecen la relacin cuantitativa entre las variables independientes y la dependiente. Estos parmetros se estiman a partir de datos. Los parmetros de un modelo de regresin pueden estimarse de varias maneras, por ejemplo utilizando el mtodo de mnimos cuadrados (OLS, del ingls ordinary least squares) el mtodo de mxima verosimilitud tcnicas bayesianas ...

Tema 4: Regresin lineal simple ()

Anlisis de datos y Estadstica Avanzada

C 4 urso 2010/2011

5 / 29

Introduccin

Tipos de regresin

Regresin lineal y no lineal


Regresin lineal: la relacin entre la respuesta Y (variable dependiente) y las variables independientes Xi es lineal En este sentido, una relacin del tipo Y = 0 + 1 X 1 + 2 X 2 + . . . + n X n . Y = 0 + 1 X + 2 X 2

tambin es lineal (lineal en X y X 2 ), aunque la representacin grca no sea una lnea recta. Algunos problemas no lineales pueden linealizarse realizando una transformacin adecuada. Por ejemplo Y = abX se linealiza tomando logaritmos a ambos lados, es decir Regresin no lineal: aquella en la que la relacin entre la respuesta y las variables independientes no es una funcin lineal o linealizable. En este tema vamos a concentrarnos en la regresin lineal simple: Y = + X . Simple? En absoluto!
Tema 4: Regresin lineal simple () Anlisis de datos y Estadstica Avanzada C 5 urso 2010/2011 7 / 29

ln(Y ) = ln(a) + ln(b)X .

Regresin lineal simple

Tratamiento clsico

Ejemplo de diagrama de dispersin. Los datos corresponden a las medidas de dispersin de velocidades y luminosidad en una muestra de 40 galaxias elpticas realizadas por Schechter P.L. (1980).

Cuando en un diagrama de dispersin los datos se distribuyen aproximadamente a lo largo de una lnea reacta ajustaremos una recta de regresin. La regresin de y sobre x vendr dada entonces por y = a + bx, con a y b dos parmetros a determinar. Grcamente, a ser la ordenada en el origen y b la pendiente de la recta.
Tema 4: Regresin lineal simple () Anlisis de datos y Estadstica Avanzada C 6 urso 2010/2011 9 / 29

Regresin lineal simple

Tratamiento clsico

Cmo se determina la recta de regresin?


Se minimiza la suma de los cuadrados de las distancias entre los valores yi y los valores dados por la recta: yi = a + bxi di = yi yi M=

(Mtodo de mnimos cuadrados)

(residuo)

N N X X 2 2 di = (yi yi ) i=1 i=1 N X 2 (a + bxi yi ) i=1

M= 8 < : P P

M a M b

= =

2(a + bxi yi ) = 0 2(a + bxi yi )xi = 0

8 P (a + bxi yi ) = 0 < 8 P P xi = yi < aN + b : a P xi + b P : P

2 (axi + bxi xi yi ) = 0

P yi 1 a= Px y i i N 1 b= P xi

x=

N = P xi

xi X 2 X 2 =N x xi i P 2 xi

P 2 P xi = xi yi

P 2P P P xi yi xi xi yi = P P 2 P 2 2 N xi ( xi ) xi P P P P yi N xi yi xi yi = P 2 P 2 P N x ( x ) i xi yi i P xi xi y y= P yi N

y = a + bx

1 Px y x y i i b = N1 P 2 2 x i x N

a = y bx 10 / 29

Tema 4: Regresin lineal simple ()

Anlisis de datos y Estadstica Avanzada

Curso 7 2010/2011

Regresin lineal simple

Tratamiento clsico

Covarianza y coecientes de regresin


Las expresiones para los parmetros de la recta de regresin se pueden simplicar ms introduciendo una importante denicin. Se dene la covarianza de una muestra bidimensional a PN 2 i=1 (xi x)(yi y) Cov sxy = (1) N1 Desarrollando esta expresin se puede llegar a una frmula simplicada para calcularla P P (xi x)(yi y) (xi yi xyi xi y + x y) 2 sxy = = = N1 N1 P P P xi yi x yi y xi + Nx y = = N1 P P xi yi xNy yNx + Nx y xi yi Nx y = = . N1 N1

De la misma forma se puede desarrollar la expresin para la varianza de x e y P P 2 P 2 P P 2 P 2 (xi x)2 (xi 2xi x + x2 ) xi 2x xi + Nx2 xi 2Nx2 + Nx2 xi Nx2 2 sx = = = = = . N1 N1 N1 N1 N1 P P 2 P 2 P P 2 P 2 (yi y)2 (yi 2yi y + y2 ) yi 2y yi + Ny2 yi 2Ny2 + Ny2 yi Ny2 2 sy = = = = = . N1 N1 N1 N1 N1 Usando estas deniciones, podemos reescribir la expresin para la determinacin de la pendiente de la recta de regresin y = a + bx como s2 Cov xy byx = = , s2 s2 x x donde escribimos byx para subrayar que es la recta de regresin de y sobre x. Tema 4: Regresin lineal simple () Anlisis de datos y Estadstica Avanzada Curso 8 2010/2011 11 / 29

Regresin lineal simple

Tratamiento clsico

Regresin de y sobre x o de x sobre y?


De igual manera se puede obtener la recta de regresin de x sobre y (x = a + by), minimizando en este caso las distancias horizontales (xi xi ) a la recta. El resultado es que el coeciente de regresin de x sobre y (denotado por bxy ) y la recta resultante se pueden escribir Cov bxy = s2 y Ntese que ambas rectas de regresin no coinciden en general y que ambas se cortan en el punto (x, y). yy= Cov s2 x (x x ) ; xx= Cov s2 y (y y)

Ambos coecientes de regresin tienen el mismo signo (el signo de la covarianza, ya que las varianzas siempre son positivas). Esto implica que las dos rectas de regresin sern a la vez ascendentes o descendentes. Tema 4: Regresin lineal simple () Anlisis de datos y Estadstica Avanzada Curso 9 2010/2011 12 / 29

Regresin lineal simple

Tratamiento clsico

Coeciente de correlacin lineal


La correlacin estudia el grado de asociacin o dependencia entre las dos variables. Estudiar la correlacin signica analizar hasta qu punto es signicativa la dependencia de una variable con la otra. Aunque la covarianza nos informa del grado (y signo) de la correlacin, su utilizacin est limitada por el hecho de que depende de las unidades de medida en que se trabaje. Para construir una medida adimensional hay que dividir la covarianza por un trmino con sus mismas dimensiones. De esta manera se dene el coeciente de correlacin lineal r= s2 xy sx sy sy sx = Cov sx sy .

Es fcil mostrar que el coeciente de correlacin se relaciona con los coecientes de regresin mediante byx = r y, de hecho, y bxy = r sx sy

No es difcil demostrar que

v u q u Cov Cov r= =t = byx bxy . 2 sx sy s2 s x y Cov P (y y)2 VE Variaci on explicada r = P i = = . (yi y)2 VT Variaci on total
2

donde r2 se dene como el coeciente de determinacin.

Tema 4: Regresin lineal simple ()

Anlisis de datos y Estadstica Avanzada

Curso 10 2010/2011

13 / 29

Regresin lineal simple

Tratamiento clsico

Varianza residual
Un concepto relacionado con el coeciente de correlacin es el de varianza residual, la cual permite estimar la variacin de los datos originales respecto a la recta de regresin que se ha ajustado, Pn Pn 2 2 2 i=1 (yi yi ) i=1 (yi a bxi ) sr = = . n2 n2 La relacin entre la varianza residual y el coeciente de determinacin es sr =
2

Interpretacin del coeciente de correlacin


1 r=0 Cov = 0 ;

n1 2 2 sy (1 r ). n2

r = 0. En este caso, por las relaciones vistas en el apartado anterior, es claro que se cumple byx = bxy = 0 ; sr sy .
2 2

Es decir, en este caso, al ser la covarianza nula no existir correlacin. Adems las pendientes de la rectas de regresin de y sobre x y de x sobre y sern nulas, es decir sus orientaciones sern horizontal y vertical respectivamente. Por otra parte, al ser la varianza residual aproximadamente igual a la varianza de y, la dispersin de la variable y no se ver reducida al ajustar la recta de regresin. 2 r = 1. Es claro que en este caso se cumple que la varianza residual es nula (s2 r = 0), por lo que no habr dispersin de los puntos respecto a la recta y todos se situaran sobre ella. En este caso tendremos una dependencia funcional entre ambas variables y una correlacin positiva, o directa, perfecta. Adems las dos rectas de regresin (de y sobre x y de x sobre y) coincidirn. r = 1. Al igual que en el caso anterior todos los puntos se situarn sobre la recta y la correlacin ser negativa, o inversa, perfecta. 0 < r < 1. En este caso, la correlacin ser positiva pero no perfecta. Evidentemente la correlacin (y la covarianza) ser mejor cuanto ms se acerque r a 1. 1 < r < 0. De la misma manera tendremos una correlacin negativa tanto mejor cuanto ms prximo est r a 1. Anlisis de datos y Estadstica Avanzada Curso 11 2010/2011 14 / 29

3 4 5

Tema 4: Regresin lineal simple ()

Regresin lineal simple

Tratamiento clsico

Inferencia sobre la regresin lineal clsica


Hemos partido de la hiptesis bsica Y = + X Pero nosotros contamos con unas observaciones que tan solo nos proporcionan la ecuacin de regresin lineal ajustada o de la muestra yi = a + bxi por lo que a es una estimacin de y b es una estimacin de . Diferentes muestras nos proporcionar distintas estimaciones de los parmetros y . En la aproximacin clsica (ver apuntes de primero) se muestra que, bajo la hiptesis de que los errores en las medidas no dependen del valor de la variable independiente x, las incertidumbres asociadas a los coecientes de la regresin son ! PN 2 1 x2 2 2 2 i=1 xi a = + = P 2 N (N 1)s2 N N x i=1 (xi x) (suma de dos trminos: error en la ordenada media y el incremento del error al alejarnos del origen x = 0) b =
2

2 (N 1)s2 x

(inversamente proporcional al rango en x y proporcional al error intrnseco de las medidas; lgicamente disminuye con N ) 2 es la varianza de Y , cuyo estimador insesgado viene dado por la varianza residual PN 2 2 i=1 (yi a bxi ) sr = N2

Tema 4: Regresin lineal simple ()

Anlisis de datos y Estadstica Avanzada

Curso 12 2010/2011

15 / 29

Regresin lineal simple

Tratamiento clsico

Debilidades de la regresin lineal


Tanto la recta de regresin como el coeciente de correlacin no son robustos, en el sentido de que resultan muy afectados por medidas particulares que se alejen mucho de la tendencia general. No hay que olvidar que el coeciente de correlacin no es ms que una medida resumen. En ningn caso puede substituir al diagrama de dispersin, que siempre habr que construir para extraer ms informacin. Formas muy diferentes de la nube de puntos pueden conducir al mismo coeciente de correlacin. El que en un caso se obtenga un coeciente de correlacin bajo no signica que no pueda existir correlacin entre las variables. De lo nico que nos informa es de que la correlacin no es lineal (no se ajusta a una recta), pero es posible que pueda existir una buena correlacin de otro tipo. Un coeciente de correlacin alto no signica que exista una dependencia directa entre las variables. Es decir, no se puede extraer una conclusin de causa y efecto basndose nicamente en el coeciente de correlacin. En general hay que tener en cuenta que puede existir una tercera variable escondida que puede producir una correlacin que, en muchos casos, puede no tener sentido.

Tema 4: Regresin lineal simple ()

Anlisis de datos y Estadstica Avanzada

Curso 13 2010/2011

16 / 29

Regresin lineal simple

Tratamiento clsico

Recta de regresin cuando hay incertidumbres (Mtodo de mnimos cuadrados)


Si adems de los datos (xi , yi ) se tiene una estimacin de las incertidumbres en yi , que llamaremos i , se puede realizar un proceso similar, minimizando ahora la suma pesada de los cuadrados de las distancias entre los valores yi y los valores dados por la recta: yi = a + bxi di = yi yi M=
N 2 X di

i2 i=1

N 2 X (y i yi ) i=1

i2

M=

N X a + bxi yi 2 i i=1 P 1/i2 = P xi /i2 2 X 1 X xi = P 2 2 i2 i2 xi /i P xi /i2 P xi /i2


i i

8 > > < > > :

M a M b

= =

P h a+bxi yi 1 i 2 =0
i i i i

8 P (a + bxi yi )/i2 = 0 < : P P

P h a+bxi yi xi i 2 =0
2 (axi + bxi xi yi )/i2 = 0

X xi

i2

!2

8 P P P 1/i2 + b xi /i2 = yi /i2 < a : a xi /i2 + b

P yi /i2 1 a= P x y / 2 i i i P 1/i2 1 b= P x / 2 i i

P 2 2 P xi /i = xi yi /i2

P xi P yi P 1 P xi yi 2 2 2 2 i i i i = P xi yi /i2 P yi /i2 Curso 14 2010/2011

2 P P xi P xi yi P xi yi 2 2 2 2 i i i i = P 2 2 x /

Tema 4: Regresin lineal simple ()

Anlisis de datos y Estadstica Avanzada

17 / 29

Regresin lineal simple

Tratamiento clsico

Incertidumbre en la prediccin?
No es posible hacer una estimacin inmediata de la incertidumbre en y = a + bx sin tener en cuenta las covarianzas (a y b se determinan a partir de los mismos datos, por lo que estn correlacionados). Sin embargo, considerando que y0 = a(xi , yi , i ) + b(xi , yi , i )x0 , a la hora de estimar incertidumbres en la prediccin podemos considerar que y0 = f (yi ), por lo que !2 N X y 2 2 (y0 ) = j , y j j=1 donde y yj siendo PN
2 xi i=1 2 i

1 2 j

PN

xi i=1 2 i

xj 2 j

PN

1 i=1 2 i

xj 2 j

PN

xi i=1 2 i

1 2 j

x0 ,

0 12 N X xi A . = @ i2 i=1 i2 i2 i=1 i=1


N N 2 X 1 X xi

Tema 4: Regresin lineal simple ()

Anlisis de datos y Estadstica Avanzada

Curso 15 2010/2011

18 / 29

Regresin lineal simple

Tratamiento avanzado

La importancia de las incertidumbres


El mtodo de regresin lineal clsico es una aproximacin demasiado simplista. En la prctica uno tiene que enfrentarse inevitablemente con incertidumbres en las medidas y con la posibilidad de que la hiptesis bsica Y = + X se vea afectada por factores adicionales. Conviene distinguir diferentes situaciones:
1

Problemas en los que la dispersin de los datos dominan sobre cualquier incertidumbre de medida (la dispersin es real!): ver Isobe et al. (1990), y Babu y Feigelson (1992). Problemas en los que dominan las incertidumbres en las medidas: ver Feigelson y Babu (1992; tratan ajustes pesados, y modelos de regresin truncados faltan datos por encima/debajo de unos lmites y con datos censurados cotas). Problemas en los que importan tanto las incertidumbres en las medidas como la dispersin intrnseca: ver Akritas y Bershady (1996; incluyen un mtodo que permite tratar errores en ambas variables y que dicho error est correlacionado).

En este tema vamos a revisar nicamente el primer caso. Consultar las referencias para las otras dos situaciones.
Tema 4: Regresin lineal simple () Anlisis de datos y Estadstica Avanzada Curso 16 2010/2011 20 / 29

Regresin lineal simple

6 mtodos de ajuste por mnimos cuadrados

Alternativas cuando la dispersin intrnseca de los datos domina Podemos emplear diferentes mtodos cuando lo nico que conocemos son (xi , yi ) (asumimos que la dispersin intrnseca domina sobre las incertidumbres de las medidas). Ver descripcin detallada en Isobe et al. (1990) y Babu y Feigelson (1992).
Tratamiento asimtrico de X e Y OLS(Y|X): mtodo clsico en el que se minimiza la distancia en Y (caso a en la gura). OLS(X|Y): similar al anterior, pero se minimiza la distancia en X (caso b en la gura). Tratamiento simtrico de X e Y OLS-bisector: ajuste que bisecciona OLS(Y|X) y OLS(X|Y). Orthogonal regression: minimiza la distancia perpendicular a la recta (caso c en la gura). Reduced major axis: minimiza la suma de las distancias en X e Y (caso d en la gura). OLS-mean: media de OLS(Y|X) y OLS(X|Y).

Tema 4: Regresin lineal simple ()

Anlisis de datos y Estadstica Avanzada

Curso 17 2010/2011

22 / 29

Regresin lineal simple

6 mtodos de ajuste por mnimos cuadrados

Tema 4: Regresin lineal simple ()

Anlisis de datos y Estadstica Avanzada

Curso 18 2010/2011

23 / 29

Regresin lineal simple

6 mtodos de ajuste por mnimos cuadrados

Tema 4: Regresin lineal simple ()

Anlisis de datos y Estadstica Avanzada

Curso 19 2010/2011

24 / 29

Regresin lineal simple

6 mtodos de ajuste por mnimos cuadrados

Gua para el astrnomo (I)


Los diferentes mtodos proporcionan coecientes de regresin que son, desde un punto de vista terico, distintos, por lo que no proporcionan estimaciones diferentes de una misma cantidad. Salvo que tengamos un conocimiento a priori sobre los datos (e.g. no existen residuos en la direccin X ) o la pregunta cientca a responder (e.g. prediccin de Y a partir de medidas de X ), en cuyo caso puede ser preferible emplear OLS(Y|X), en general no hay una base matemtica para preferir un mtodo frente a otro. Las incertidumbres en OLS(Y|X) que proporcionan las estimaciones clsicas (Bevington 1969) no son realmente correctas (requieren demasiadas restricciones que normalmente no se dan: e.g. residuos en Y independientes de X ). Mejor las frmulas derivadas en Isobe et al. (1990).

Tema 4: Regresin lineal simple ()

Anlisis de datos y Estadstica Avanzada

Curso 20 2010/2011

25 / 29

Regresin lineal simple

6 mtodos de ajuste por mnimos cuadrados

Babu y Feigelson (1992)

Tema 4: Regresin lineal simple ()

Anlisis de datos y Estadstica Avanzada

Curso 21 2010/2011

26 / 29

Regresin lineal simple

6 mtodos de ajuste por mnimos cuadrados

Gua para el astrnomo (II)


Las simulaciones de Monte Carlo (ver Babu y Feigelson 1990) muestran
El mtodo estndar OLS(Y|X) funciona muy bien y debera favorecerse cuando hay una clara distincin entre las variables dependiente e independiente. A la hora de tratar de forma simtrica las variables, el OLS-bisector y el reduced major axis tienen menores varianzas que la orthogonal regression y que el OLS-mean. Un problema con el reduced major axis es que la pendiente que se determina no depende de la correlacin de la poblacin (es invariante de escala) el OLS-bisector parece la mejor alternativa.

Las frmulas para estimar las incertidumbres en los 6 mtodos descritos funcionan bien cuando N es grande. Para N 50 las estimaciones no convergen adecuadamente. Solucin? Jackknife o bootstrap.
Tema 4: Regresin lineal simple () Anlisis de datos y Estadstica Avanzada Curso 22 2010/2011

27 / 29

Regresin lineal simple

6 mtodos de ajuste por mnimos cuadrados

Jackknife1
Este mtodo consiste en generar, a partir de muestras de N elementos, N submuestras de N 1 elementos, eliminando en cada una de estas submuestras secundarias un elemento (podemos hacerlo de forma consecutiva, eliminando el primer elemento en la primera muestra, el segundo en la segunda muestras, y as sucesivamente.

Bootstrap2
Es una generalizacin del mtodo anterior, en el cual se generan muestras secundarias de N elementos, seleccionando los elementos de forma aleatoria a partir de la muestra original, pero permitiendo repetir valores. De esta forma, una fraccin aleatoria de los valores iniciales aparecern duplicados ( 1/e 37%). Estos mtodos no dan informacin a partir de la nada. Nos dan informacin que desconocamos previamente (ver Press et al. 2002).
1 2

Podemos traducirlo como pequea navaja o navaja de bolsillo.

El nombre se debe a la aparente capacidad del mtodo de conseguir algo aparentemente imposible (sacar de donde no hay). En Las increbles aventuras del Barn Munchhausen, Rudolph Erich Raspe cuenta que en cierta ocasin el Barn logr escapar de una muerte segura al salir volando tirando de los cordones de sus propias botas (en ingls [. . . ] he thought to pull himself up by his own bootstraps).

Tema 4: Regresin lineal simple ()

Anlisis de datos y Estadstica Avanzada

Curso 23 2010/2011

28 / 29

Regresin lineal simple

6 mtodos de ajuste por mnimos cuadrados

Referencias (orden cronolgico)


Bevington P.R., Data reduction and error analysis for the physical sciences, 1969, McGraw-Hill Isobe T. et al., Linear regression in Astronomy. I., 1990, ApJ, 364, 104 Babu G.J., Feigelson E.D., Analytical and Monte Carlo comparisons of six different linear squares ts, 1992, Comm. Statit. Comput. Simul., 21(2), 533 Feigelson E.D., Babu G.J., Linear regression in Astronomy. II, ApJ, 397, 55 Arkitas M.G., Bershady M.A., Linear regression for astronomical data with measurement errors and intrinsic scatter, 1996, ApJ, 470, 706 Press W.H., et al., Numerical Recipes in Fortran 77, 2002, Cambridge University Press

Tema 4: Regresin lineal simple ()

Anlisis de datos y Estadstica Avanzada

Curso 24 2010/2011

29 / 29

También podría gustarte