Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Notas
ndice
NDICE
4. APUNTE HISTRICO
5. REGRESIN LINEAL
6. REGRESIN NO LINEAL
7. REGRESIN ROBUSTA
8. REGRESIN MLTIPLE
9. ANLISIS DE RESIDUALES
BIBLIOGRAFA
Conocer los procedimientos de estimacin de los estadsticos de regresin, como el mtodo de los
mnimos cuadrados
El modelo lineal es uno de los modelos estadsticos ms sencillos y tiles. Trata de resumir en la ecuacin
de una lnea (recta) las relaciones entre dos variables con la finalidad de caracterizar esta relacin, calcular
las desviaciones de las observaciones respecto del modelo, predecir de la conducta de una variable basada
en el comportamiento de la otra, o extrapolar datos basndose en el mejor ajuste posible.
4. Apunte histrico
5. Regresin lineal
5.1. El modelo lineal
Para cada valor xi de X se habr observado un valor yi de la variable aleatoria dependiente Y . Es decir,
se dispone de n pares de datos
( x1 , y1 ) , ( x2 , y2 ) ," , ( xn , yn )
( xi , yi )
Y = X + +
donde:
X
Y
es la variables independiente
es la variables dependiente
es una variable aleatoria tal que
E ( ) = 0
var ( ) = 2
covar ( i , j ) = 0
i j
( xi , yi )
E (Y ) = X +
X
xi
( xi , yi )
( xi , yi )
sean mnimas.
Estas distancias (proyecciones) pueden ser de varios tipos, aunque en el caso ordinario se busca un
mnimo de proyeccin (perpendicular) sobre el eje de las abscisas:
( xi , yi )
( xi , yi )
X
xi
n
y y
i =1
cuadrado
( yi
yi ) sea mnima, es la recta de mnimos cuadrados buscada. Esto se hace as para evitar
2
que diferencias yi y i con signos positivos cancelen diferencias con signos negativos. De esta segunda
propiedad este procedimiento recibe el nombre de cuadrados mnimos1:
Existen otras alternativas, como por ejemplo considerar los valores absolutos de las diferencias yi yi
( y y )
i
i =1
( y ( x + ))
i
i =1
son:
n
b=
y (x x)
i
i =1
n
(x x )
i =1
a = y b x
s2 =
2
1 n
yi ( xi + ) )
(
n 2 i =1
s2 =
scd
n2
var ( a ) =
2
i
i =1
( x x )
s2
i =1
var ( b ) =
s2
n
( x x )
i =1
x
i =1
a t s
2
(x x )
i =1
b t s
1
n
(x x )
i =1
5.4. Supuestos
El anlisis de la regresin por el mtodo de los mnimos cuadrados implica asumir que:
(a) Para cada valor xi de X existe una distribucin normal de valores de Y , de los que se ha
obtenido aleatoriamente el valor yi ;
(b) El valor yi pertenece a esta distribucin normal con media yi . Los diferentes valores de yi se
disponen sobre la lnea recta denominada de regresin poblacional; y
(c) Las desviaciones de los puntos de la lnea ajustada se distribuyen normalmente con media 0 y
varianza constante
1
( y a )
b
La regresin de X sobre Y se hace aproximando X por x :
x = b y + a
y = b x + a x =
donde: a = x b y
b=
sX Y
sY2
2
porque se minimiza los errores entre xi y xi = b yi + a , es decir las cantidades ei = ( xi xi )
El coeficiente de determinacin R indica la proporcin de varianza comn entre una variable dependiente
y una(s) variable(s) independientes.
El coeficiente de determinacin R
Pearson:
R2 = r 2
[ ]
El coeficiente de determinacin ajustado Ra 2es una modificacin del coeficiente de determinacin R que
2
ajustado R slo aumenta si la nueva variable mejora el modelo sobre lo esperable si slo fuera por causas
2
Ra2 = 1 (1 R 2 )
donde:
n 1
n p 1
es el tamao muestral.
R2 = 1 R 2 = 1 r 2
5.6.3.Utilizacin del coeficiente de determinacin R
Se utiliza ocasionalmente para medir la significacin de r . Mide la cantidad de variacin compartida por
ambas variables, es decir la cantidad (o porcentaje, si as se expresa) de variacin atribuible a X .
5.6.4. Interpretacin
El coeficiente de determinacin se interpreta como la proporcin de variacin en la respuesta (variable Y )
que est explicada por la regresin, esto es por la(s) variables(s) independiente(s):
R2 = 1
varianza residual
varianza Y
6. Regresin no lineal
La regresin no lineal trata de ajustar un modelo bivariado o multivariado en el que los parmetros
0 , 1 ," no estn en forma lineal, es decir su exponente es 1 .
Expresiones como
yi = bi xik + a + e
k \
yi = b1k xi + a + e
k 1
es no lineal
Por lo general, la estimacin de parmetros requiere algoritmos o paquetes estadsticos especficos. Sin
embargo algunas expresiones son fciles de manejar, linealizando a travs de transformaciones
logartmicas por ejemplo.
7. Regresin robusta
La presencia de datos extremos u otras violaciones de los supuestos de la regresin hace que el mtodo de
los mnimos cuadrados no sea un procedimiento apropiado. Una alternativa es utilizar una estimacin no
paramtrica, en la que los datos numricos son substituidos por sus ordinales respectivos o en la que la
estimacin del coeficiente de regresin (pendiente) se realiza a travs de seleccionar la mediana de todos
los posibles coeficientes. Otra alternativa es utilizar los denominados mtodos robustos.
Se denomina heterocedstico un modelo en el que la varianza depende del valor de X .
La frmula que utilizan los paquetes informticos para calcular la varianza del modelo de regresin es la
presentada en el punto 5.3. basada en modelos homoscedticos (en los que la varianza es independiente
de X ). Una frmula alternativa que tiene en cuenta la heterocedasticidad es:
1
2
a(x x)
1 n2
s2 =
2
n 1
n a(x x)
regresin no paramtrica (de Bablok y Passing, atenuada, a trozos o splines, nuclear o kernel);
1
);
varianza
bootstrap.
Ya que la aplicacin principal de algunos de estos procedimientos est en la comparacin de mtodos
estadsticos, sern tratados en este contexto.
8. Regresin mltiple
(Vase Mdulo 3)
9. Anlisis de residuales
Se conoce como residual la diferencia entre las respuestas observadas de la variable explicativa y la
correspondiente respuesta obtenida al aplicar la funcin de regresin:
ei = yi f ( xi ; )
El punto clave en el proceso de modelar la relacin entre dos variables es tomar la decisin de validar tal
2
modelo. El clculo del coeficiente de correlacin r y del coeficiente de determinacin R son necesarios
pero insuficientes. Para tener un juicio mejor fundamentado debe procederse a analizar el comportamiento
de los residuales. Los mtodos grficos proporcionan una perspectiva ms amplia que los mtodos
numricos, en ocasiones demasiados centrados en aspectos puntuales. Un ejemplo de mtodo numrico es
el test de bondad de ajuste3.
Los mtodos grficos incluyen los siguientes diagramas:
(a) diagrama de residuos frente a la variable predictiva;
(b) diagrama de residuos frente a los parmetros de la regresin;
(c) diagrama de residuos ordenados;
(d) diagrama de desfase de los residuales;
(e) histograma de los residuales; y
(f) diagrama de probabilidad normal.
El estudio de los tests de bondad de ajuste se har en el contexto del diseo de experimentos
8
Bibliografa
1. Verhulst PF. Notice sur la loi que la population pursuit dans son accroissement. Correspondance
mathmatique et physique 1838;10:113-121.
2. Verhulst PF. Recherches mathematiques sur la loi d'accroissement de la population. Nouveaux Memoires
de l'Academie Royale des Sciences et Belles-Lettres de Bruxelles 1845;18:1-45.
3. Galton F. Typical laws of heredity. Nature 1877;15:492-495, 512-514, y 532-533.
4. Pearson K. Regression, heredity, and panmixia. Phil Trans R Soc. Ser A 1896;187:253-318.
5. Pearson K, Yule GU, Blanchard N, Lee A. The law of ancestral heredity. Biometrika 1903;2(2):211-236.
6. Yule GU. On the theory of correlation for any number of variables, treated by a new system of notation.
Proc R Soc, Ser A 1907;79:182-193.
7. Fisher RA. The goodness of fit of regression formulae, and the distribution of regression coefficients. J
Royal Statist Soc 1922;85:597-612.
SPSS
http://www.ats.ucla.edu/STAT/spss/webbooks/reg/chapter3/spssreg3.htm
http://www.ats.ucla.edu/STAT/spss/library/catreg.htm
http://www.ats.ucla.edu/stat/spss/examples/chp/chp2.html