Está en la página 1de 9

REGRESION

Notas
ndice
NDICE 1. OBJETIVOS DEL TEMA 2. CONCEPTOS BSICOS PREVIOS 3. INTRODUCCIN: MODELOS ESTADSTICOS 4. APUNTE HISTRICO 5. REGRESIN LINEAL 6. REGRESIN NO LINEAL 7. REGRESIN ROBUSTA 8. REGRESIN MLTIPLE 9. ANLISIS DE RESIDUALES BIBLIOGRAFA 1 1 1 1 2 3 7 7 8 8 9

1. Objetivos del tema


Entender el concepto de modelo estadstico Conocer y comprender el concepto de anlisis de la regresin lineal Conocer las etapas a seguir para realizar un anlisis de la regresin Conocer los procedimientos de estimacin de los estadsticos de regresin, como el mtodo de los mnimos cuadrados Saber calcular los coeficientes de confianza Conocer y comprender el concepto de anlisis de la regresin no-lineal

2. Conceptos bsicos previos


Covarianza Correlacin Distribucin bivariada Diagramas descriptivos

3. Introduccin: modelos estadsticos


Un modelo matemtico es un conjunto de ecuaciones utilizados para definir cambios entre dos estados (ecuaciones diferenciales) y las relaciones de dependencia entre variables (ecuaciones de estado). Un modelos se denomina numrico cuando utiliza un procedimiento aritmtico para por ejemplo modelar un comportamiento futuro, expresndose en forma de tabla o diagrama. Un modelo analtico obtiene una expresin (ecuacin, funcin) que proporciona una solucin especfica. Un modelo estadstico incluye adems la caracterizacin de datos numricos, el clculo de errores o desviaciones de las observaciones, la prediccin de la conducta de un sistema basada en el comportamiento previo, la extrapolacin de datos basada en el mejor ajuste posible, o el anlisis espectral.

El modelo lineal es uno de los modelos estadsticos ms sencillos y tiles. Trata de resumir en la ecuacin de una lnea (recta) las relaciones entre dos variables con la finalidad de caracterizar esta relacin, calcular las desviaciones de las observaciones respecto del modelo, predecir de la conducta de una variable basada en el comportamiento de la otra, o extrapolar datos basndose en el mejor ajuste posible.

4. Apunte histrico

Adrien Marie Legendre (1752-1833) Describi el mtodo de los mnimos cuadrados en 1805 como un apndice de su libro Nouvelles mthodes pour la dtermination des orbites des comtes.

Carl Friedrich Gauss (1777-1855) Gauss, uno de los matemticos ms influyentes de todos los tiempos. Polemiz con Legendre al asegurar haber inventado el mtodo de los mnimos cuadrados en 1795, cuando public en 1809 su solucin del problema de predecir la rbita de Ceres (descubierto en 1801) en Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem Ambientum.

Pierre Franois Verhulst (1804-1849) Por indicacin de F. Quetelet, investig el tema ya sugerido por Malthus en 1789, de la extrapolacin geomtricas. En una serie de publicaciones aparecidas entre 1838 y 1947 desarroll lo que denomin curva logstica y que luego sera reconocido como regresin logstica (1, 2).

Francis Galton (1822-1911) Buscando una ley matemtica al fenmeno descrito por Darwin sobre el mecanismo hereditario por el cual los descendientes presentaban rasgos que los aproximaban ms a la media de la poblacin que los antecesores, Galton desarroll el modelo que el denomin reversin, y que se populariz como de la regresin a la mediocridad. (3). En 1885 aplic el nombre de regresin. Sin embargo, para Galton era un concepto, como el de correlacin, aplicable nicamente al mbito biolgico.

Karl Pearson (1857-1936) El concepto de regresin y las ideas sobre la herencia de Galton fueron continuados por K. Pearson y George U. Yule, basndose en la distribucin multivariada normal. Pearson tambin comparta la nocin biolgica de regresin de Galton, aunque empez a hablar de coeficientes de regresin en 1896 (4). En 1903 introduce el concepto de regresin mltiple (5).

George U. Yule (1871-1951) La notacin de la correlacin regresin son aportaciones de Yule (6).

Raymond Pearl (1879-1940) Colaborador y luego disidente de K. Pearson. Re-descubri la regresin logstica.

Ronald A. Fisher (1890-1962) R. A. Fisher refund en los aos 1920 (7) la regresin utilizando el modelo que Gauss haba propuesto para la teora de errores y el mtodo de los mnimos cuadrados. Las nociones de PearsonYule y de Gauss Fisher an mantienen su vigencia. En la primera edicin de Statistical Methods for Research Workers (1925) Fisher utiliza los smbolos y y x y los trminos "variable dependiente" y "variable independiente." Para la interceptacin y la pendiente poblacionales utiliza los smbolos

y para los muestrales , a y b .

5. Regresin lineal 5.1. El modelo lineal


Para cada valor xi de X se habr observado un valor yi de la variable aleatoria dependiente Y . Es decir, se dispone de n pares de datos

( x1 , y1 ) , ( x2 , y2 ) ," , ( xn , yn )
Y

que constituyen una muestra aleatoria de

( xi , yi )

los valores ( x1 , x2 ," , xn ) dados. En el modelo lineal, la representacin grfica de las observaciones se dispone en lnea recta, es decir siguen la ecuacin de una recta:

Y = X + +
donde:

son constantes desconocidas

X Y

es la variables independiente es la variables dependiente es una variable aleatoria tal que

E ( ) = 0 covar ( i , j ) = 0 var ( ) = 2 i j

es decir, que ni el valor esperado ni la varianza de

dependen del valor xi X .

( xi , yi )
E (Y ) = X +

X xi

5.2. Estimacin por el mtodo de los mnimos cuadrados


El objetivo de la regresin es ajustar la mejor recta posible. Es decir, aquella recta que las distancias entre los puntos observados

( xi , yi )

y los puntos correspondientes sobre esta recta

i ) ( xi , y

sean mnimas.

Estas distancias (proyecciones) pueden ser de varios tipos, aunque en el caso ordinario se busca un mnimo de proyeccin (perpendicular) sobre el eje de las abscisas:

( xi , yi )
i ) ( xi , y

X xi
La lnea para la cual (a) la suma de las diferencias cuadrado

y y
i =1 i

sea nula y (b) la suma de las diferencias al

( yi

i ) sea mnima, es la recta de mnimos cuadrados buscada. Esto se hace as para evitar y
2

i con signos positivos cancelen diferencias con signos negativos. De esta segunda que diferencias yi y
propiedad este procedimiento recibe el nombre de cuadrados mnimos1:

Existen otras alternativas, como por ejemplo considerar los valores absolutos de las diferencias yi yi

) ( y y
i =1 n i i i

( y ( x + ))
i =1 i

Las soluciones analticas para estimar

son:

b=

y (x x)
i =1 n i i

(x x )
i =1 i

a = y b x

5.3. Estimacin de otros parmetros


Varianza de la regresin

s2 = s2 =
2 1 n yi ( xi + ) ) ( n 2 i =1

scd n2

Varianza del estadstico de interceptacin

var ( a ) = n
Varianza del estadstico de pendiente

x
i =1 n i =1 i

2 i 2

( x x )
s2

s2

var ( b ) =

( x x )
i =1 i

Lmites de confianza de los estadsticos de interceptacin y pendiente

a t s
2

x
i =1

i 2

(x x )
i =1 i

b t s
2

(x x )
i =1 i

5.4. Supuestos
El anlisis de la regresin por el mtodo de los mnimos cuadrados implica asumir que:

(a) Para cada valor xi de X existe una distribucin normal de valores de Y , de los que se ha obtenido aleatoriamente el valor yi ; (b) El valor yi pertenece a esta distribucin normal con media yi . Los diferentes valores de yi se disponen sobre la lnea recta denominada de regresin poblacional; y (c) Las desviaciones de los puntos de la lnea ajustada se distribuyen normalmente con media 0 y varianza constante

5.5. Regresin de X sobre Y


Es totalmente incorrecto despejar X de la ecuacin

1 a) (y b : La regresin de X sobre Y se hace aproximando X por x = b y+a x = b x+a x = y


donde: a = x b y

b=

sX Y
2 sY 2

i = b yi + a , es decir las cantidades ei2 = ( xi x i ) porque se minimiza los errores entre xi y x

5.6. El coeficiente de determinacin, coeficiente de determinacin ajustado, y coeficiente de alienacin


5.6.1. Sinnimos Coefficient of determination, adjusted coefficient of determinatiion; coeficiente de indeterminacin. 5.6.2. Definiciones El coeficiente de determinacin R indica la proporcin de varianza comn entre una variable dependiente y una(s) variable(s) independientes. El coeficiente de determinacin R Pearson:
2 2

se define como el cuadrado del coeficiente de correlacin r de

R2 = r 2
Sus valores estn, pues incluidos en el intervalo 0,1 . El coeficiente de determinacin ajustado Ra 2es una modificacin del coeficiente de determinacin R que toma en cuenta el nmero de variables explicativas. Al contrario de R , el coeficiente de determinacin ajustado R slo aumenta si la nueva variable mejora el modelo sobre lo esperable si slo fuera por causas aleatorias. Puede adoptar valores negativos y por tanto, menores que R . El coeficiente de determinacin ajustado se define como:
2 Ra = 1 (1 R 2 )

[ ]

2 a

n 1 n p 1

donde:
2

es el nmero de variables explicativas (independientes) en el modelo lineal; y

Puede encontrase una calculadora on line de este coeficiente en http://www.danielsoper.com/statcalc/calc25.aspx. 6

es el tamao muestral.
2

El coeficiente de alienacin R (o de indeterminacin) atribuido a Fred Kerlinger, es complementario del coeficiente de determinacin indica la proporcin de varianza no compartida entre dos variables. El coeficiente de alienacin R se define como:
2

R2 = 1 R 2 = 1 r 2
5.6.3.Utilizacin del coeficiente de determinacin R
2

Se utiliza ocasionalmente para medir la significacin de r . Mide la cantidad de variacin compartida por ambas variables, es decir la cantidad (o porcentaje, si as se expresa) de variacin atribuible a X . 5.6.4. Interpretacin El coeficiente de determinacin se interpreta como la proporcin de variacin en la respuesta (variable Y ) que est explicada por la regresin, esto es por la(s) variables(s) independiente(s):

R2 = 1
2

varianza residual varianza Y


2 2

Si R = 1 indicar que el modelo explicar toda la variabilidad en Y . Si R = 0 indicar que el modelo de relacin lineal entre X e Y no es apropiado. Y un valor intermedio, por ejemplo R = 0, 64 se interpretara como que el modelo de las variable(s) independiente(s) X escogidas explica un 64 % de la variacin en la variable dependiente Y y el 36 % restante se explicara por otros mecanismos (otras variables, variacin inherente etc.). La interpretacin del coeficiente de determinacin ajustado es diferente de la del coeficiente de determinacin. El coeficiente de determinacin ajustado es til en la etapa de seleccin de variables cuando se construye un modelo. 5.6.5. Limitaciones El coeficiente de determinacin no informar sin embargo de si se ha seleccionado el mejor conjunto de variables independientes (en el caso multivariado), si esta o estas son la causa de la variacin observada en la variable dependiente, ni si hay sesgo debido a la omisin de alguna variable.

6. Regresin no lineal
La regresin no lineal trata de ajustar un modelo bivariado o multivariado en el que los parmetros 0 , 1 ," no estn en forma lineal, es decir su exponente es 1 . Expresiones como

yi = bi xik + a + e
son lineales, mientras que

k \ k 1

yi = b1k xi + a + e

es no lineal Por lo general, la estimacin de parmetros requiere algoritmos o paquetes estadsticos especficos. Sin embargo algunas expresiones son fciles de manejar, linealizando a travs de transformaciones logartmicas por ejemplo.

7. Regresin robusta
La presencia de datos extremos u otras violaciones de los supuestos de la regresin hace que el mtodo de los mnimos cuadrados no sea un procedimiento apropiado. Una alternativa es utilizar una estimacin no paramtrica, en la que los datos numricos son substituidos por sus ordinales respectivos o en la que la

estimacin del coeficiente de regresin (pendiente) se realiza a travs de seleccionar la mediana de todos los posibles coeficientes. Otra alternativa es utilizar los denominados mtodos robustos. Se denomina heterocedstico un modelo en el que la varianza depende del valor de X . La frmula que utilizan los paquetes informticos para calcular la varianza del modelo de regresin es la presentada en el punto 5.3. basada en modelos homoscedticos (en los que la varianza es independiente de X ). Una frmula alternativa que tiene en cuenta la heterocedasticidad es:

1 2 a(x x) 1 n2 s2 = 2 n 1 n a(x x)
Otros procedimientos son: mnimos absolutos (LAR); regresin de datos recortados (trimmed regression); regresin ponderada (ponderacin:

1 ); varianza

regresin no paramtrica (de Bablok y Passing, atenuada, a trozos o splines, nuclear o kernel); regresin ordinal (rank regression);

bootstrap. Ya que la aplicacin principal de algunos de estos procedimientos est en la comparacin de mtodos estadsticos, sern tratados en este contexto.

8. Regresin mltiple
(Vase Mdulo 3)

9. Anlisis de residuales
Se conoce como residual la diferencia entre las respuestas observadas de la variable explicativa y la correspondiente respuesta obtenida al aplicar la funcin de regresin:

ei = yi f ( xi ; )
El punto clave en el proceso de modelar la relacin entre dos variables es tomar la decisin de validar tal modelo. El clculo del coeficiente de correlacin r y del coeficiente de determinacin R son necesarios pero insuficientes. Para tener un juicio mejor fundamentado debe procederse a analizar el comportamiento de los residuales. Los mtodos grficos proporcionan una perspectiva ms amplia que los mtodos numricos, en ocasiones demasiados centrados en aspectos puntuales. Un ejemplo de mtodo numrico es el test de bondad de ajuste3. Los mtodos grficos incluyen los siguientes diagramas: (a) diagrama de residuos frente a la variable predictiva; (b) diagrama de residuos frente a los parmetros de la regresin; (c) diagrama de residuos ordenados; (d) diagrama de desfase de los residuales; (e) histograma de los residuales; y (f) diagrama de probabilidad normal.
2

El estudio de los tests de bondad de ajuste se har en el contexto del diseo de experimentos 8

Bibliografa
1. Verhulst PF. Notice sur la loi que la population pursuit dans son accroissement. Correspondance mathmatique et physique 1838;10:113-121. 2. Verhulst PF. Recherches mathematiques sur la loi d'accroissement de la population. Nouveaux Memoires de l'Academie Royale des Sciences et Belles-Lettres de Bruxelles 1845;18:1-45. 3. Galton F. Typical laws of heredity. Nature 1877;15:492-495, 512-514, y 532-533. 4. Pearson K. Regression, heredity, and panmixia. Phil Trans R Soc. Ser A 1896;187:253-318. 5. Pearson K, Yule GU, Blanchard N, Lee A. The law of ancestral heredity. Biometrika 1903;2(2):211-236. 6. Yule GU. On the theory of correlation for any number of variables, treated by a new system of notation. Proc R Soc, Ser A 1907;79:182-193. 7. Fisher RA. The goodness of fit of regression formulae, and the distribution of regression coefficients. J Royal Statist Soc 1922;85:597-612.

SPSS
http://www.ats.ucla.edu/STAT/spss/webbooks/reg/chapter3/spssreg3.htm http://www.ats.ucla.edu/STAT/spss/library/catreg.htm http://www.ats.ucla.edu/stat/spss/examples/chp/chp2.html

También podría gustarte