Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Notas
ndice
NDICE 1. OBJETIVOS DEL TEMA 2. CONCEPTOS BSICOS PREVIOS 3. INTRODUCCIN: MODELOS ESTADSTICOS 4. APUNTE HISTRICO 5. REGRESIN LINEAL 6. REGRESIN NO LINEAL 7. REGRESIN ROBUSTA 8. REGRESIN MLTIPLE 9. ANLISIS DE RESIDUALES BIBLIOGRAFA 1 1 1 1 2 3 7 7 8 8 9
El modelo lineal es uno de los modelos estadsticos ms sencillos y tiles. Trata de resumir en la ecuacin de una lnea (recta) las relaciones entre dos variables con la finalidad de caracterizar esta relacin, calcular las desviaciones de las observaciones respecto del modelo, predecir de la conducta de una variable basada en el comportamiento de la otra, o extrapolar datos basndose en el mejor ajuste posible.
4. Apunte histrico
Adrien Marie Legendre (1752-1833) Describi el mtodo de los mnimos cuadrados en 1805 como un apndice de su libro Nouvelles mthodes pour la dtermination des orbites des comtes.
Carl Friedrich Gauss (1777-1855) Gauss, uno de los matemticos ms influyentes de todos los tiempos. Polemiz con Legendre al asegurar haber inventado el mtodo de los mnimos cuadrados en 1795, cuando public en 1809 su solucin del problema de predecir la rbita de Ceres (descubierto en 1801) en Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem Ambientum.
Pierre Franois Verhulst (1804-1849) Por indicacin de F. Quetelet, investig el tema ya sugerido por Malthus en 1789, de la extrapolacin geomtricas. En una serie de publicaciones aparecidas entre 1838 y 1947 desarroll lo que denomin curva logstica y que luego sera reconocido como regresin logstica (1, 2).
Francis Galton (1822-1911) Buscando una ley matemtica al fenmeno descrito por Darwin sobre el mecanismo hereditario por el cual los descendientes presentaban rasgos que los aproximaban ms a la media de la poblacin que los antecesores, Galton desarroll el modelo que el denomin reversin, y que se populariz como de la regresin a la mediocridad. (3). En 1885 aplic el nombre de regresin. Sin embargo, para Galton era un concepto, como el de correlacin, aplicable nicamente al mbito biolgico.
Karl Pearson (1857-1936) El concepto de regresin y las ideas sobre la herencia de Galton fueron continuados por K. Pearson y George U. Yule, basndose en la distribucin multivariada normal. Pearson tambin comparta la nocin biolgica de regresin de Galton, aunque empez a hablar de coeficientes de regresin en 1896 (4). En 1903 introduce el concepto de regresin mltiple (5).
George U. Yule (1871-1951) La notacin de la correlacin regresin son aportaciones de Yule (6).
Raymond Pearl (1879-1940) Colaborador y luego disidente de K. Pearson. Re-descubri la regresin logstica.
Ronald A. Fisher (1890-1962) R. A. Fisher refund en los aos 1920 (7) la regresin utilizando el modelo que Gauss haba propuesto para la teora de errores y el mtodo de los mnimos cuadrados. Las nociones de PearsonYule y de Gauss Fisher an mantienen su vigencia. En la primera edicin de Statistical Methods for Research Workers (1925) Fisher utiliza los smbolos y y x y los trminos "variable dependiente" y "variable independiente." Para la interceptacin y la pendiente poblacionales utiliza los smbolos
( x1 , y1 ) , ( x2 , y2 ) ," , ( xn , yn )
Y
( xi , yi )
los valores ( x1 , x2 ," , xn ) dados. En el modelo lineal, la representacin grfica de las observaciones se dispone en lnea recta, es decir siguen la ecuacin de una recta:
Y = X + +
donde:
X Y
E ( ) = 0 covar ( i , j ) = 0 var ( ) = 2 i j
( xi , yi )
E (Y ) = X +
X xi
( xi , yi )
i ) ( xi , y
sean mnimas.
Estas distancias (proyecciones) pueden ser de varios tipos, aunque en el caso ordinario se busca un mnimo de proyeccin (perpendicular) sobre el eje de las abscisas:
( xi , yi )
i ) ( xi , y
X xi
La lnea para la cual (a) la suma de las diferencias cuadrado
y y
i =1 i
( yi
i ) sea mnima, es la recta de mnimos cuadrados buscada. Esto se hace as para evitar y
2
i con signos positivos cancelen diferencias con signos negativos. De esta segunda que diferencias yi y
propiedad este procedimiento recibe el nombre de cuadrados mnimos1:
Existen otras alternativas, como por ejemplo considerar los valores absolutos de las diferencias yi yi
) ( y y
i =1 n i i i
( y ( x + ))
i =1 i
son:
b=
y (x x)
i =1 n i i
(x x )
i =1 i
a = y b x
s2 = s2 =
2 1 n yi ( xi + ) ) ( n 2 i =1
scd n2
var ( a ) = n
Varianza del estadstico de pendiente
x
i =1 n i =1 i
2 i 2
( x x )
s2
s2
var ( b ) =
( x x )
i =1 i
a t s
2
x
i =1
i 2
(x x )
i =1 i
b t s
2
(x x )
i =1 i
5.4. Supuestos
El anlisis de la regresin por el mtodo de los mnimos cuadrados implica asumir que:
(a) Para cada valor xi de X existe una distribucin normal de valores de Y , de los que se ha obtenido aleatoriamente el valor yi ; (b) El valor yi pertenece a esta distribucin normal con media yi . Los diferentes valores de yi se disponen sobre la lnea recta denominada de regresin poblacional; y (c) Las desviaciones de los puntos de la lnea ajustada se distribuyen normalmente con media 0 y varianza constante
b=
sX Y
2 sY 2
R2 = r 2
Sus valores estn, pues incluidos en el intervalo 0,1 . El coeficiente de determinacin ajustado Ra 2es una modificacin del coeficiente de determinacin R que toma en cuenta el nmero de variables explicativas. Al contrario de R , el coeficiente de determinacin ajustado R slo aumenta si la nueva variable mejora el modelo sobre lo esperable si slo fuera por causas aleatorias. Puede adoptar valores negativos y por tanto, menores que R . El coeficiente de determinacin ajustado se define como:
2 Ra = 1 (1 R 2 )
[ ]
2 a
n 1 n p 1
donde:
2
es el tamao muestral.
2
El coeficiente de alienacin R (o de indeterminacin) atribuido a Fred Kerlinger, es complementario del coeficiente de determinacin indica la proporcin de varianza no compartida entre dos variables. El coeficiente de alienacin R se define como:
2
R2 = 1 R 2 = 1 r 2
5.6.3.Utilizacin del coeficiente de determinacin R
2
Se utiliza ocasionalmente para medir la significacin de r . Mide la cantidad de variacin compartida por ambas variables, es decir la cantidad (o porcentaje, si as se expresa) de variacin atribuible a X . 5.6.4. Interpretacin El coeficiente de determinacin se interpreta como la proporcin de variacin en la respuesta (variable Y ) que est explicada por la regresin, esto es por la(s) variables(s) independiente(s):
R2 = 1
2
Si R = 1 indicar que el modelo explicar toda la variabilidad en Y . Si R = 0 indicar que el modelo de relacin lineal entre X e Y no es apropiado. Y un valor intermedio, por ejemplo R = 0, 64 se interpretara como que el modelo de las variable(s) independiente(s) X escogidas explica un 64 % de la variacin en la variable dependiente Y y el 36 % restante se explicara por otros mecanismos (otras variables, variacin inherente etc.). La interpretacin del coeficiente de determinacin ajustado es diferente de la del coeficiente de determinacin. El coeficiente de determinacin ajustado es til en la etapa de seleccin de variables cuando se construye un modelo. 5.6.5. Limitaciones El coeficiente de determinacin no informar sin embargo de si se ha seleccionado el mejor conjunto de variables independientes (en el caso multivariado), si esta o estas son la causa de la variacin observada en la variable dependiente, ni si hay sesgo debido a la omisin de alguna variable.
6. Regresin no lineal
La regresin no lineal trata de ajustar un modelo bivariado o multivariado en el que los parmetros 0 , 1 ," no estn en forma lineal, es decir su exponente es 1 . Expresiones como
yi = bi xik + a + e
son lineales, mientras que
k \ k 1
yi = b1k xi + a + e
es no lineal Por lo general, la estimacin de parmetros requiere algoritmos o paquetes estadsticos especficos. Sin embargo algunas expresiones son fciles de manejar, linealizando a travs de transformaciones logartmicas por ejemplo.
7. Regresin robusta
La presencia de datos extremos u otras violaciones de los supuestos de la regresin hace que el mtodo de los mnimos cuadrados no sea un procedimiento apropiado. Una alternativa es utilizar una estimacin no paramtrica, en la que los datos numricos son substituidos por sus ordinales respectivos o en la que la
estimacin del coeficiente de regresin (pendiente) se realiza a travs de seleccionar la mediana de todos los posibles coeficientes. Otra alternativa es utilizar los denominados mtodos robustos. Se denomina heterocedstico un modelo en el que la varianza depende del valor de X . La frmula que utilizan los paquetes informticos para calcular la varianza del modelo de regresin es la presentada en el punto 5.3. basada en modelos homoscedticos (en los que la varianza es independiente de X ). Una frmula alternativa que tiene en cuenta la heterocedasticidad es:
1 2 a(x x) 1 n2 s2 = 2 n 1 n a(x x)
Otros procedimientos son: mnimos absolutos (LAR); regresin de datos recortados (trimmed regression); regresin ponderada (ponderacin:
1 ); varianza
regresin no paramtrica (de Bablok y Passing, atenuada, a trozos o splines, nuclear o kernel); regresin ordinal (rank regression);
bootstrap. Ya que la aplicacin principal de algunos de estos procedimientos est en la comparacin de mtodos estadsticos, sern tratados en este contexto.
8. Regresin mltiple
(Vase Mdulo 3)
9. Anlisis de residuales
Se conoce como residual la diferencia entre las respuestas observadas de la variable explicativa y la correspondiente respuesta obtenida al aplicar la funcin de regresin:
ei = yi f ( xi ; )
El punto clave en el proceso de modelar la relacin entre dos variables es tomar la decisin de validar tal modelo. El clculo del coeficiente de correlacin r y del coeficiente de determinacin R son necesarios pero insuficientes. Para tener un juicio mejor fundamentado debe procederse a analizar el comportamiento de los residuales. Los mtodos grficos proporcionan una perspectiva ms amplia que los mtodos numricos, en ocasiones demasiados centrados en aspectos puntuales. Un ejemplo de mtodo numrico es el test de bondad de ajuste3. Los mtodos grficos incluyen los siguientes diagramas: (a) diagrama de residuos frente a la variable predictiva; (b) diagrama de residuos frente a los parmetros de la regresin; (c) diagrama de residuos ordenados; (d) diagrama de desfase de los residuales; (e) histograma de los residuales; y (f) diagrama de probabilidad normal.
2
El estudio de los tests de bondad de ajuste se har en el contexto del diseo de experimentos 8
Bibliografa
1. Verhulst PF. Notice sur la loi que la population pursuit dans son accroissement. Correspondance mathmatique et physique 1838;10:113-121. 2. Verhulst PF. Recherches mathematiques sur la loi d'accroissement de la population. Nouveaux Memoires de l'Academie Royale des Sciences et Belles-Lettres de Bruxelles 1845;18:1-45. 3. Galton F. Typical laws of heredity. Nature 1877;15:492-495, 512-514, y 532-533. 4. Pearson K. Regression, heredity, and panmixia. Phil Trans R Soc. Ser A 1896;187:253-318. 5. Pearson K, Yule GU, Blanchard N, Lee A. The law of ancestral heredity. Biometrika 1903;2(2):211-236. 6. Yule GU. On the theory of correlation for any number of variables, treated by a new system of notation. Proc R Soc, Ser A 1907;79:182-193. 7. Fisher RA. The goodness of fit of regression formulae, and the distribution of regression coefficients. J Royal Statist Soc 1922;85:597-612.
SPSS
http://www.ats.ucla.edu/STAT/spss/webbooks/reg/chapter3/spssreg3.htm http://www.ats.ucla.edu/STAT/spss/library/catreg.htm http://www.ats.ucla.edu/stat/spss/examples/chp/chp2.html