Está en la página 1de 9

REGRESION

Notas
ndice
NDICE

1. OBJETIVOS DEL TEMA

2. CONCEPTOS BSICOS PREVIOS

3. INTRODUCCIN: MODELOS ESTADSTICOS

4. APUNTE HISTRICO

5. REGRESIN LINEAL

6. REGRESIN NO LINEAL

7. REGRESIN ROBUSTA

8. REGRESIN MLTIPLE

9. ANLISIS DE RESIDUALES

BIBLIOGRAFA

1. Objetivos del tema

Entender el concepto de modelo estadstico

Conocer y comprender el concepto de anlisis de la regresin lineal

Conocer las etapas a seguir para realizar un anlisis de la regresin

Conocer los procedimientos de estimacin de los estadsticos de regresin, como el mtodo de los
mnimos cuadrados

Saber calcular los coeficientes de confianza

Conocer y comprender el concepto de anlisis de la regresin no-lineal

2. Conceptos bsicos previos


Covarianza
Correlacin
Distribucin bivariada
Diagramas descriptivos

3. Introduccin: modelos estadsticos


Un modelo matemtico es un conjunto de ecuaciones utilizados para definir cambios entre dos estados
(ecuaciones diferenciales) y las relaciones de dependencia entre variables (ecuaciones de estado). Un
modelos se denomina numrico cuando utiliza un procedimiento aritmtico para por ejemplo modelar un
comportamiento futuro, expresndose en forma de tabla o diagrama. Un modelo analtico obtiene una
expresin (ecuacin, funcin) que proporciona una solucin especfica.
Un modelo estadstico incluye adems la caracterizacin de datos numricos, el clculo de errores o
desviaciones de las observaciones, la prediccin de la conducta de un sistema basada en el
comportamiento previo, la extrapolacin de datos basada en el mejor ajuste posible, o el anlisis espectral.

El modelo lineal es uno de los modelos estadsticos ms sencillos y tiles. Trata de resumir en la ecuacin
de una lnea (recta) las relaciones entre dos variables con la finalidad de caracterizar esta relacin, calcular
las desviaciones de las observaciones respecto del modelo, predecir de la conducta de una variable basada
en el comportamiento de la otra, o extrapolar datos basndose en el mejor ajuste posible.

4. Apunte histrico

Adrien Marie Legendre (1752-1833)


Describi el mtodo de los mnimos cuadrados en 1805 como un apndice de su libro Nouvelles mthodes
pour la dtermination des orbites des comtes.

Carl Friedrich Gauss (1777-1855)


Gauss, uno de los matemticos ms influyentes de todos los tiempos. Polemiz con Legendre al asegurar
haber inventado el mtodo de los mnimos cuadrados en 1795, cuando public en 1809 su solucin del
problema de predecir la rbita de Ceres (descubierto en 1801) en Theoria Motus Corporum Coelestium in
Sectionibus Conicis Solem Ambientum.

Pierre Franois Verhulst (1804-1849)


Por indicacin de F. Quetelet, investig el tema ya sugerido por Malthus en 1789, de la extrapolacin
geomtricas. En una serie de publicaciones aparecidas entre 1838 y 1947 desarroll lo que denomin
curva logstica y que luego sera reconocido como regresin logstica (1, 2).

Francis Galton (1822-1911)


Buscando una ley matemtica al fenmeno descrito por Darwin sobre el mecanismo hereditario por el cual
los descendientes presentaban rasgos que los aproximaban ms a la media de la poblacin que los
antecesores, Galton desarroll el modelo que el denomin reversin, y que se populariz como de la
regresin a la mediocridad. (3). En 1885 aplic el nombre de regresin. Sin embargo, para Galton era un
concepto, como el de correlacin, aplicable nicamente al mbito biolgico.

Karl Pearson (1857-1936)


El concepto de regresin y las ideas sobre la herencia de Galton fueron continuados por K. Pearson y
George U. Yule, basndose en la distribucin multivariada normal. Pearson tambin comparta la nocin
biolgica de regresin de Galton, aunque empez a hablar de coeficientes de regresin en 1896 (4). En
1903 introduce el concepto de regresin mltiple (5).

George U. Yule (1871-1951)


La notacin de la correlacin regresin son aportaciones de Yule (6).

Raymond Pearl (1879-1940)


Colaborador y luego disidente de K. Pearson. Re-descubri la regresin logstica.

Ronald A. Fisher (1890-1962)


R. A. Fisher refund en los aos 1920 (7) la regresin utilizando el modelo que Gauss haba propuesto para
la teora de errores y el mtodo de los mnimos cuadrados. Las nociones de PearsonYule y de Gauss
Fisher an mantienen su vigencia. En la primera edicin de Statistical Methods for Research Workers (1925)
Fisher utiliza los smbolos y y x y los trminos "variable dependiente" y "variable independiente." Para la
interceptacin y la pendiente poblacionales utiliza los smbolos

y para los muestrales , a y b .

5. Regresin lineal
5.1. El modelo lineal
Para cada valor xi de X se habr observado un valor yi de la variable aleatoria dependiente Y . Es decir,
se dispone de n pares de datos

( x1 , y1 ) , ( x2 , y2 ) ," , ( xn , yn )

que constituyen una muestra aleatoria de

( xi , yi )

los valores ( x1 , x2 ," , xn ) dados.


En el modelo lineal, la representacin grfica de las observaciones se dispone en lnea recta, es decir
siguen la ecuacin de una recta:

Y = X + +
donde:

son constantes desconocidas

X
Y

es la variables independiente
es la variables dependiente
es una variable aleatoria tal que

E ( ) = 0
var ( ) = 2

covar ( i , j ) = 0

i j

es decir, que ni el valor esperado ni la varianza de

dependen del valor xi X .

( xi , yi )

E (Y ) = X +

X
xi

5.2. Estimacin por el mtodo de los mnimos cuadrados


El objetivo de la regresin es ajustar la mejor recta posible. Es decir, aquella recta que las distancias entre
los puntos observados

( xi , yi )

y los puntos correspondientes sobre esta recta

( xi , yi )

sean mnimas.

Estas distancias (proyecciones) pueden ser de varios tipos, aunque en el caso ordinario se busca un
mnimo de proyeccin (perpendicular) sobre el eje de las abscisas:

( xi , yi )
( xi , yi )
X
xi
n

La lnea para la cual (a) la suma de las diferencias

y y
i =1

cuadrado

( yi

sea nula y (b) la suma de las diferencias al

yi ) sea mnima, es la recta de mnimos cuadrados buscada. Esto se hace as para evitar
2

que diferencias yi y i con signos positivos cancelen diferencias con signos negativos. De esta segunda
propiedad este procedimiento recibe el nombre de cuadrados mnimos1:

Existen otras alternativas, como por ejemplo considerar los valores absolutos de las diferencias yi yi

( y y )
i

i =1

( y ( x + ))
i

i =1

Las soluciones analticas para estimar

son:
n

b=

y (x x)
i

i =1
n

(x x )

i =1

a = y b x

5.3. Estimacin de otros parmetros


Varianza de la regresin

s2 =

2
1 n
yi ( xi + ) )
(

n 2 i =1

s2 =

scd
n2

Varianza del estadstico de interceptacin


n

var ( a ) =

2
i

i =1

( x x )

s2

i =1

Varianza del estadstico de pendiente

var ( b ) =

s2
n

( x x )

i =1

Lmites de confianza de los estadsticos de interceptacin y pendiente


n

x
i =1

a t s
2

(x x )

i =1

b t s

1
n

(x x )
i =1

5.4. Supuestos
El anlisis de la regresin por el mtodo de los mnimos cuadrados implica asumir que:

(a) Para cada valor xi de X existe una distribucin normal de valores de Y , de los que se ha
obtenido aleatoriamente el valor yi ;
(b) El valor yi pertenece a esta distribucin normal con media yi . Los diferentes valores de yi se
disponen sobre la lnea recta denominada de regresin poblacional; y
(c) Las desviaciones de los puntos de la lnea ajustada se distribuyen normalmente con media 0 y
varianza constante

5.5. Regresin de X sobre Y


Es totalmente incorrecto despejar X de la ecuacin

1
( y a )
b
La regresin de X sobre Y se hace aproximando X por x :
x = b y + a
y = b x + a x =

donde: a = x b y

b=

sX Y
sY2

2
porque se minimiza los errores entre xi y xi = b yi + a , es decir las cantidades ei = ( xi xi )

5.6. El coeficiente de determinacin, coeficiente de determinacin ajustado, y coeficiente


de alienacin
5.6.1. Sinnimos
Coefficient of determination, adjusted coefficient of determinatiion; coeficiente de indeterminacin.
5.6.2. Definiciones
2

El coeficiente de determinacin R indica la proporcin de varianza comn entre una variable dependiente
y una(s) variable(s) independientes.
El coeficiente de determinacin R
Pearson:

se define como el cuadrado del coeficiente de correlacin r de

R2 = r 2

[ ]

Sus valores estn, pues incluidos en el intervalo 0,1 .


2

El coeficiente de determinacin ajustado Ra 2es una modificacin del coeficiente de determinacin R que
2

toma en cuenta el nmero de variables explicativas. Al contrario de R , el coeficiente de determinacin


2
a

ajustado R slo aumenta si la nueva variable mejora el modelo sobre lo esperable si slo fuera por causas
2

aleatorias. Puede adoptar valores negativos y por tanto, menores que R .


El coeficiente de determinacin ajustado se define como:

Ra2 = 1 (1 R 2 )
donde:

n 1
n p 1

es el nmero de variables explicativas (independientes) en el modelo lineal; y

Puede encontrase una calculadora on line de este coeficiente en


http://www.danielsoper.com/statcalc/calc25.aspx.
6

es el tamao muestral.

El coeficiente de alienacin R (o de indeterminacin) atribuido a Fred Kerlinger, es complementario del


coeficiente de determinacin indica la proporcin de varianza no compartida entre dos variables.
2

El coeficiente de alienacin R se define como:


2

R2 = 1 R 2 = 1 r 2
5.6.3.Utilizacin del coeficiente de determinacin R

Se utiliza ocasionalmente para medir la significacin de r . Mide la cantidad de variacin compartida por
ambas variables, es decir la cantidad (o porcentaje, si as se expresa) de variacin atribuible a X .
5.6.4. Interpretacin
El coeficiente de determinacin se interpreta como la proporcin de variacin en la respuesta (variable Y )
que est explicada por la regresin, esto es por la(s) variables(s) independiente(s):

R2 = 1

varianza residual
varianza Y

Si R = 1 indicar que el modelo explicar toda la variabilidad en Y . Si R = 0 indicar que el modelo de


2

relacin lineal entre X

e Y no es apropiado. Y un valor intermedio, por ejemplo R = 0, 64 se


2

interpretara como que el modelo de las variable(s) independiente(s) X escogidas explica un 64 % de la


variacin en la variable dependiente Y y el 36 % restante se explicara por otros mecanismos (otras
variables, variacin inherente etc.).
La interpretacin del coeficiente de determinacin ajustado es diferente de la del coeficiente de
determinacin. El coeficiente de determinacin ajustado es til en la etapa de seleccin de variables cuando
se construye un modelo.
5.6.5. Limitaciones
El coeficiente de determinacin no informar sin embargo de si se ha seleccionado el mejor conjunto de
variables independientes (en el caso multivariado), si esta o estas son la causa de la variacin observada en
la variable dependiente, ni si hay sesgo debido a la omisin de alguna variable.

6. Regresin no lineal
La regresin no lineal trata de ajustar un modelo bivariado o multivariado en el que los parmetros
0 , 1 ," no estn en forma lineal, es decir su exponente es 1 .
Expresiones como

yi = bi xik + a + e

k \

yi = b1k xi + a + e

k 1

son lineales, mientras que

es no lineal
Por lo general, la estimacin de parmetros requiere algoritmos o paquetes estadsticos especficos. Sin
embargo algunas expresiones son fciles de manejar, linealizando a travs de transformaciones
logartmicas por ejemplo.

7. Regresin robusta
La presencia de datos extremos u otras violaciones de los supuestos de la regresin hace que el mtodo de
los mnimos cuadrados no sea un procedimiento apropiado. Una alternativa es utilizar una estimacin no
paramtrica, en la que los datos numricos son substituidos por sus ordinales respectivos o en la que la

estimacin del coeficiente de regresin (pendiente) se realiza a travs de seleccionar la mediana de todos
los posibles coeficientes. Otra alternativa es utilizar los denominados mtodos robustos.
Se denomina heterocedstico un modelo en el que la varianza depende del valor de X .
La frmula que utilizan los paquetes informticos para calcular la varianza del modelo de regresin es la
presentada en el punto 5.3. basada en modelos homoscedticos (en los que la varianza es independiente
de X ). Una frmula alternativa que tiene en cuenta la heterocedasticidad es:

1
2

a(x x)
1 n2

s2 =

2
n 1
n a(x x)

Otros procedimientos son:

mnimos absolutos (LAR);

regresin de datos recortados (trimmed regression);

regresin ponderada (ponderacin:

regresin no paramtrica (de Bablok y Passing, atenuada, a trozos o splines, nuclear o kernel);

regresin ordinal (rank regression);

1
);
varianza

bootstrap.
Ya que la aplicacin principal de algunos de estos procedimientos est en la comparacin de mtodos
estadsticos, sern tratados en este contexto.

8. Regresin mltiple
(Vase Mdulo 3)

9. Anlisis de residuales
Se conoce como residual la diferencia entre las respuestas observadas de la variable explicativa y la
correspondiente respuesta obtenida al aplicar la funcin de regresin:

ei = yi f ( xi ; )
El punto clave en el proceso de modelar la relacin entre dos variables es tomar la decisin de validar tal
2

modelo. El clculo del coeficiente de correlacin r y del coeficiente de determinacin R son necesarios
pero insuficientes. Para tener un juicio mejor fundamentado debe procederse a analizar el comportamiento
de los residuales. Los mtodos grficos proporcionan una perspectiva ms amplia que los mtodos
numricos, en ocasiones demasiados centrados en aspectos puntuales. Un ejemplo de mtodo numrico es
el test de bondad de ajuste3.
Los mtodos grficos incluyen los siguientes diagramas:
(a) diagrama de residuos frente a la variable predictiva;
(b) diagrama de residuos frente a los parmetros de la regresin;
(c) diagrama de residuos ordenados;
(d) diagrama de desfase de los residuales;
(e) histograma de los residuales; y
(f) diagrama de probabilidad normal.

El estudio de los tests de bondad de ajuste se har en el contexto del diseo de experimentos
8

Bibliografa
1. Verhulst PF. Notice sur la loi que la population pursuit dans son accroissement. Correspondance
mathmatique et physique 1838;10:113-121.
2. Verhulst PF. Recherches mathematiques sur la loi d'accroissement de la population. Nouveaux Memoires
de l'Academie Royale des Sciences et Belles-Lettres de Bruxelles 1845;18:1-45.
3. Galton F. Typical laws of heredity. Nature 1877;15:492-495, 512-514, y 532-533.
4. Pearson K. Regression, heredity, and panmixia. Phil Trans R Soc. Ser A 1896;187:253-318.
5. Pearson K, Yule GU, Blanchard N, Lee A. The law of ancestral heredity. Biometrika 1903;2(2):211-236.
6. Yule GU. On the theory of correlation for any number of variables, treated by a new system of notation.
Proc R Soc, Ser A 1907;79:182-193.
7. Fisher RA. The goodness of fit of regression formulae, and the distribution of regression coefficients. J
Royal Statist Soc 1922;85:597-612.

SPSS
http://www.ats.ucla.edu/STAT/spss/webbooks/reg/chapter3/spssreg3.htm
http://www.ats.ucla.edu/STAT/spss/library/catreg.htm
http://www.ats.ucla.edu/stat/spss/examples/chp/chp2.html

También podría gustarte