Está en la página 1de 35

REGRESIN BINOMIAL

Edwin Estiven Pulgarin Rodriguez


Jhon Wilmar Vargas Mendez

Modelos Lineales II
02 de Junio de 2016

Edwin Pulgarin -Jhon Vargas

Regresin Binomial

Modelos Lineales II

1 / 35

Contenido
1

Introduccin

Regresion Binomial

Ejercicio de Aplicacin

Ejercicio de Aplicacin
Ejercicio de Aplicacin
Ejercicio de Aplicacin
Ejercicio de Aplicacin
Ejercicio de Aplicacin

Conclusin

Referencias Bibliogrficas

Edwin Pulgarin -Jhon Vargas

Regresin Binomial

Modelos Lineales II

2 / 35

Introduccin
cuando no se satisfacen las hiptesis .acostumbradas"de
normalidad y de varianza constante. Se puede utilizar un metodo
alternativo para transformar datos denominado modelo lineal
generalizado(GLM).
En un modelo lineal generalizado la distribucin de la variable
de respuesta slo necesita ser un miembro de la familia
exponencial.
P[Y = y | ] = y (1 )1y
(1)
ln(P[Y = y | ]) = yln() + (1 y )ln(1 )

(2)

P[Y = y | ] = exp(yln() + ln(1 ) yln(1 ))

(3)

Edwin Pulgarin -Jhon Vargas

Regresin Binomial

Modelos Lineales II

3 / 35

Introduccin
Se considerar el caso de los modelos de regresin logstica, que
es una situacin en la que la variable de respuesta slo tiene dos
resultados posibles, que se representan por 0 y 1.
Por ejemplo, la respuesta podra ser el resultado de una prueba
de funcionamiento elctrico para un dispositivo semiconductor,
que da como resultado un "xito", que indica que el dispositivo
trabaja bien, o un "fracaso"que podra deberse a un problema de
funcionamiento.
Supngase que el modelo tiene la forma:
yi = xiT + i

(4)

en donde xiT = [1 ,Xi1 ,Xi2 , ...,Xik ], =[0 ,1 ,...,k ] y la variable de


respuesta yi toma los valores 0 o 1.
Edwin Pulgarin -Jhon Vargas

Regresin Binomial

Modelos Lineales II

4 / 35

Regresin Binomial

Se supondr que la variable de respuesta yi es una variable aleatoria


de Bernoulli, cuya distribucin de probabilidad es la siguiente:
yi
1
0

Probabilidad
P(yi =1)=i
P(yi =0)=1-i

Ahora bien, como E(i )=0,el valor esperado de la variable de respuesta


es:
E(yi ) = 1(i ) + 0(1 i ) = i
(5)
Esto implica que:
E(yi ) = xiT = i

Edwin Pulgarin -Jhon Vargas

Regresin Binomial

(6)

Modelos Lineales II

5 / 35

Regresin Binomial
Que quiere decir que la respuesta esperada, determinada con la
funcin de respuesta E(yi ) = xiT no es ms que la probabilidad de
que la variable de respuesta tenga el valor de 1.
Hay algunos problemas derivados de el modelo de regresin dado
anteriormente.
El primero es que se observa que si la respuesta es binaria, entonces
los trminos de error . i slo pueden tener dos valores, que son:
i = 1 xiT
i = xiT

cuando yi = 1

(7)

cuando yi = 1

(8)

En consecuencia, no es posible que los errores en este modelo sean


normales.

Edwin Pulgarin -Jhon Vargas

Regresin Binomial

Modelos Lineales II

6 / 35

Regresin Binomial
En segundo lugar, la varianza del ,error no es constante, ya que:
yi2 = Eyi E(yi )2

(9)

= (1 i )2 i + (O i )2 (1 i )

(10)

= i (1 i )

(11)

Obsrvese que esta ltima expresin equivale a:


yi2 = E(yi )(1 E(yi ))

(12)

porque E(yi )=xiT =i lo que indica que la varianza de las observaciones


(que es igual a la varianza de los errores, porque i =yi -i y i es
constante) es una funcin de la media.

Edwin Pulgarin -Jhon Vargas

Regresin Binomial

Modelos Lineales II

7 / 35

Regresin Binomial

Por ltimo, hay una restriccin para la funcin de respuesta, ya que:


0 E(yi ) = i 1

(13)

Esta restriccin puede causar graves problemas en la eleccin de una


funcin de respuesta lineal, como se ha supuesto al principio.
Sera posible ajustar un modelo con los datos para los cuales los
valores predichos de la respuesta salen del intervalo 0, 1.
En general, cuando la variable de respuesta es binaria, hay bastantes
pruebas empricas que indican que la forma de la funcin de
respuesta debe ser no lineal. Una funcin montonamente creciente
(o decreciente), en forma de S (o de S invertida).

Edwin Pulgarin -Jhon Vargas

Regresin Binomial

Modelos Lineales II

8 / 35

Regresin Binomial
Esta funcin se llama funcin de respuesta logstica y tiene la forma:
E(y ) =

exp(x T )
1 + exp(x T )

(14)

Figura 1: Distribucin aposteriori para theta


Edwin Pulgarin -Jhon Vargas

Regresin Binomial

Modelos Lineales II

9 / 35

Regresin Binomial
La funcin de respuesta logstica se puede linealizar con facilidad.
Un enfoque consiste en definir la porcin estructural del modelo en
trminos de una funcin de la media de la funcin de respuesta. Sea:
= xT

(15)

el predictor lineal, estando definida por la transformacin:





= ln
1

(16)

A esta transformacin se le llama con frecuencia transformacin logit


de la probabilidad , y la relacin /(1-) en la transformacin se
llama ventaja; a veces, a la transformacin logit se le llama ventaja
logartmica.

Edwin Pulgarin -Jhon Vargas

Regresin Binomial

Modelos Lineales II

10 / 35

Regresin Binomial

Hay otras funciones que tienen la misma forma que la funcin logstica,
y tambin se pueden obtener transformando .
Transformacin probit, obtenida transformando a con la
distribucin normal acumulada. De esta manera se obtiene un
modelo de regresin probit, este modelo es menos flexible que el
de regresin logstica, y es probable que no se use tanto, porque
no puede incorporar con facilidad ms de una variable predictora.
Transformacin log-Iog complementaria de , definida por In
[-ln(1-)], que produce una funcin de respuesta que no es
simtrica respecto al valor = 0.5.

Edwin Pulgarin -Jhon Vargas

Regresin Binomial

Modelos Lineales II

11 / 35

Regresin Binomial: Estimacin de parmetros en un


modelo de regresin logstica

Para la estimacin de los coeficientes del modelo y de sus


errores estndar se recurre al clculo de estimaciones de mxima
verosimilitud, es decir, estimaciones que hagan mxima la probabilidad
de obtener los valores de la variable dependiente Y proporcionados
por los datos de nuestra muestra. Estas estimaciones no son de
clculo directo, como ocurre en el caso de las estimaciones de los
coeficientes de regresin de la regresin lineal mltiple por el mtodo
de los mnimos cuadrados. Para el clculo de estimaciones mximo
verosmiles se recurre a mtodos iterativos, como el mtodo de Newton
Raphson.

Edwin Pulgarin -Jhon Vargas

Regresin Binomial

Modelos Lineales II

12 / 35

Regresin Binomial: Estimacin de parmetros en un


modelo de regresin logstica
La forma general del modelo de regresin logstica es:
yi = E(yi ) + i

(17)

donde las observaciones Yi son variables aleatorias independientes de


Bernoulli, cuyos valores esperados son:
E(yi ) = i
=

exp(x T )
1 + exp(x T )

Se usar el mtodo de mxima verosimilitud para estimar los


parmetros del predictor lineal (x T )
Edwin Pulgarin -Jhon Vargas

Regresin Binomial

Modelos Lineales II

13 / 35

Regresin Binomial: Estimacin de parmetros en un


modelo de regresin logstica
Cada observacin de la muestra sigue la distribucin de Bernoulli, por
lo que la distribucin de probabilidades de cada observacin es:
fi (yi ) = iyi (1 i )1yi ; i = 1, 2, ..., n
y naturalmente, cada observacin Yi toma el valor 0 o 1. Como las
observaciones son independientes,la funcin verosimilitud no es ms
que:
n
Y
L(y1 , y2 , ..., yn , ) =
fi (yi )
i=1

n
Y

iyi (1 i )1yi

i=1

Edwin Pulgarin -Jhon Vargas

Regresin Binomial

Modelos Lineales II

14 / 35

Regresin Binomial: Estimacin de parmetros en un


modelo de regresin logstica

Es ms cmod trabajar con el logaritmo de la verosimilitud:


lnL(y1 , y2 , ..., yn , ) = ln

n
Y

fi (yi )

i=1

n
X
i=1

X
i
[yi ln(
)] +
ln(1 i )
1 i
i=1

Ahora bien, como 1 i = [1 +

Edwin Pulgarin -Jhon Vargas

exp((x T )]1

Regresin Binomial

y i =ln[i /(1 i )]= xiT

Modelos Lineales II

15 / 35

Regresin Binomial: Estimacin de parmetros en un


modelo de regresin logstica
el logaritmo de verosimilitud se puede expresar como:
lnL(y , ) =

n
X

yi xiT

i=1

n
X

ln[1 + exp((x T )]

i=1

Con frecuencia, en los modelos de regresin logstica se tienen


observaciones o intentos repetidos en cada nivel de las variables x, sea
yi la cantidad de 1 observado en i y ni la cantidad de intentos en cada
observacin, entonces, el logaritmo de la verosimilitud se transforma
en:
n
n
n
X
X
X
lnL(y , ) =
yi i +
ni ln(1 i )
yi ln(1 i )
i=1

Edwin Pulgarin -Jhon Vargas

i=1

Regresin Binomial

i=1

Modelos Lineales II

16 / 35

Regresin Binomial: Estimacin de parmetros en un


modelo de regresin logstica
Los estimados de mxima verosimilitud (MLE, de maximum likelihood
estimator o estimate) se pueden calcular con un algoritmo de
mnimos cuadrados iterativamente reponderados (IRLS, de iteratively
reweighted least squares). recurde que los estimados MLE son las
soluciones de:
L
=0

L i
=0
i
Ntese que:
n

L X
=
(yi ni i )xi

i=1

Edwin Pulgarin -Jhon Vargas

Regresin Binomial

Modelos Lineales II

17 / 35

Regresin Binomial: Estimacin de parmetros en un


modelo de regresin logstica
Por consiguiente, el estimador de mxima verosimilitud resuelve la
ecuacin:
X T [(y )] = 0
donde y=[y1 , y2 , ..., yn ] y =[n1 1 , n2 2 , ..., nn n ]Este conjunto de
ecuaciones se llama con frecuencia ecuaciones de puntuacin de
mxima verosimilitud. Son en realidad de la misma forma de las
ecuaciones normales que se vieron antes para los mnimos cuadrados
lineales, porque en el modelo de regresin lineal,E(y ) = X =
se pueden escribir como sigue:
X T (y X ) = 0
X T (y ) = 0
el mtodo de Newton-Rapbson es el que se usa para resolver las
ecuaciones de puntuacin para el modelo de regresin logstica.
Edwin Pulgarin -Jhon Vargas

Regresin Binomial

Modelos Lineales II

18 / 35

Regresin Binomial: Mtodo de Newton-Raphson


se observa que en la proximidad de la solucin se puede usar
un desarrollo en serie de Taylor de primer orden para formar la
aproximacin.
i
pi i
( )

donde
pi =

yi
ni

y es el valor de que resuelve las ecuaciones de puntuacin. Ahora


bien,i = xi
exp(i )
i =
1 + exp(i )

Edwin Pulgarin -Jhon Vargas

Regresin Binomial

Modelos Lineales II

19 / 35

Regresin Binomial: Mtodo de Newton-Raphson


Por lo anterior
pi i

i
( i )
i i

siendo i el valor de i evaluado en Ahora bien, la varianza del


predictor lineal i = xiT es, con una primera aproximacin,
var (i )

1
ni i (1 i )

se pueden expresar las ecuaciones de puntuacin en la forma


n 
X
i=1

1
var (i )

(i i ) = 0

en notacin matricial, X T V 1 (i i ) = 0
Edwin Pulgarin -Jhon Vargas

Regresin Binomial

Modelos Lineales II

20 / 35

Regresin Binomial: Mtodo de Newton-Raphson


siendo V una matriz diagonal de los factores de ponderacin obtenidos
con las varianzas de las i . como i = X las ecuaciones de puntuacin
se pueden escribir como sigue:
X T V 1 ( X ) = 0
y el estimado de mxima verosimilitud de es:
= (X T V 1 X )1 X T V 1
Sin embargo, se presenta el problema que no se conoce
p i i

Edwin Pulgarin -Jhon Vargas

i
( i )
i i

Regresin Binomial

Modelos Lineales II

21 / 35

Regresin Binomial: Mtodo de Newton-Raphson

se puede despejar i
i i + (pi )

Sean zi = i y z=[z1 , z2 , ..., zn ] Entonces, el estimado de Newton


Raphson de es:
= (X T V 1 X )1 X T V 1 z
Entonces, V es la matriz diagonal de los factores de ponderacin
obtenidos con las varianzas de la parte aleatoria de z.

Edwin Pulgarin -Jhon Vargas

Regresin Binomial

Modelos Lineales II

22 / 35

Regresin Binomial: Mtodo de Newton-Raphson

Por consiguiente, el algoritmo basado en


Newton-Raphson se puede describir como sigue:
1

mtodo

de

Usar mnimos cuadrados ordinarios para obtener un estimado


inicial de por ejemplo 0 .
usar 0 para estimar V y .

Definir 0 = X 0 .

Basar z1 en 0 .

el

Obtener un nuevo estimado de 1 e iterar, hasta que se satisfaga


un criterio adecuado de convergecnia.

Edwin Pulgarin -Jhon Vargas

Regresin Binomial

Modelos Lineales II

23 / 35

Regresin Binomial: Interpretacin de los parmetros


en un modelo de regresin logstica
Es relativamente fcil interpretar los parmetros de un modelo de
regresin logstica. Se examinar el caso en el que el predictor lineal
slo tiene un regresar, por lo que el valor ajustado del modelo en
determinado valor de x, por ejemplo xi
(xi ) = 0 + 1 x1
El valor ajustado en xi + 1es
(xi + 1) = 0 + 1 (x1 + 1)
(xi + 1) (xi ) = 1

Edwin Pulgarin -Jhon Vargas

Regresin Binomial

Modelos Lineales II

24 / 35

Regresin Binomial: Interpretacin de los parmetros


en un modelo de regresin logstica
Ahora,
(xi ) slo es el logaritmo de la ventaja cuando la variable
regresora es igual a xi y (xi + 1) es el logaritmo de la ventaja cuando
el regresor es igual a xi + 1 por consiguiente la diferencia entre los dos
valores ajustados es
(xi + 1) (xi ) = ln(ventajaxi +1 ) ln(ventajaxi )


ventajaxi+1
= ln
= 1
ventajaxi
Si se sacan antilogaritmos se obtiene el cociente de ventaja
ventajaxi+1
OR =
= exp(1 )
ventajaxi

Edwin Pulgarin -Jhon Vargas

Regresin Binomial

Modelos Lineales II

25 / 35

Regresin Binomial: Interpretacin de los parmetros


en un modelo de regresin logstica

Se puede interpretar el cociente de ventaja como el aumento estimado


en la probabilidad de xito asociado con un cambio unitario en el valor
de la variable predictora, en general, el aumento estimado del cociente
de ventaja, asociado con un cambio de d unidades en la variable
predictora, es exp(d ).

Edwin Pulgarin -Jhon Vargas

Regresin Binomial

Modelos Lineales II

26 / 35

Regresin Binomial: Interpretacin de los parmetros


en un modelo de regresin logstica
Se pueden presentar tres posibles situaciones o casos:
1

La razn de la ventaja es = 1 (el valor del parmetro = 0). En este


caso la variable independiente no produce ningn efecto sobre la
ventaja de un suceso.

La razn de la ventaja es > 1 (el valor del parmetro > 0). En este
caso cuando aumenta la variable independiente se producen un
aumento de la ventaja de un suceso.

La razn de la ventaja es < 1 (el valor del parmetro < 0). En este
caso cuando aumenta la variable independiente se producen una
disminucin de la ventaja de un suceso.

Edwin Pulgarin -Jhon Vargas

Regresin Binomial

Modelos Lineales II

27 / 35

Ejercicio de Aplicacin
Un artculo de la revista Biomtrica en 1959 present datos acerca
de los mineros de carbn que presentan sntomas de neumoconiosis
grave, y de la cantidad de aos de exposicin. La variable de respuesta
de inters, y, es la proporcin de mineros que tienen sntomas graves.
Un modelo razonable de probabilidad de la cantidad de casos graves
es el binomial, por lo que se ajustar un modelo de regresin logstica
a esos datos.
Aos exp
5.8
15
21.5
27.5
33.5
39.5
46
51.5
Edwin Pulgarin -Jhon Vargas

Casos
0
1
3
8
9
8
10
5

Num mineros
98
54
43
48
51
38
28
11
Regresin Binomial

Proporcin(y)
0
0.0185
0.0698
0.1667
0.1765
0.2105
0.3571
0.4545
Modelos Lineales II

28 / 35

proporcin de casos en funcin de la cantidad de


aos de exposicin

Edwin Pulgarin -Jhon Vargas

Regresin Binomial

Modelos Lineales II

29 / 35

Ejercicio de Aplicacin
se muestran los parmetros estimados para el modelo de regresin
logstica por el paquete estadistico R:

Edwin Pulgarin -Jhon Vargas

Regresin Binomial

Modelos Lineales II

30 / 35

Ejercicio de Aplicacin

El modelo ajustado de regresin logstica es:


y =

1
1+

e4.7665+0.0935x

donde x es la cantidad de aos de exposicin. el siguiente grafico


presenta una grfica de los valores ajustados de este modelo,
sobrepuesta al diagrama de dispersin de los datos muestrales. Parece
que el modelo de regresin logstica proporciona un ajuste razonable a
esos datos.

Edwin Pulgarin -Jhon Vargas

Regresin Binomial

Modelos Lineales II

31 / 35

Ejercicio de Aplicacin

Edwin Pulgarin -Jhon Vargas

Regresin Binomial

Modelos Lineales II

32 / 35

Ejercicio de Aplicacin

se ajust el modelo de regresin logstica, como el predictor lineal slo


contiene una variable regresora, 1 = 0.0935 entonces:
OR = exp0.0935 = 1.10
Esto implica que cada ao adicional de exposicin aumenta 10contraer
una neumoconiosis grave; si el tiempo de exposicin aumenta 10 aos,

la relacin de ventaja se transforma en exp(d )=exp(10(0.0935))=2.25.


Eso indica que las probabilidades ms se duplican con una exposicin
de 10 aos.

Edwin Pulgarin -Jhon Vargas

Regresin Binomial

Modelos Lineales II

33 / 35

Conclusin

El Modelo Lineal de Probabilidad consiste simplemente en


considerar un modelo de regresin lineal en el que la variable
dependiente es binaria.
Los errores de este modelo no son normales y la varianza del
error no es constante.
los odd ratio es el numero de veces que es mas probable que
ocurra el fenmeno o suceso frente a que no ocurra .
el objetivo primordial que resuelve esta tcnica es el de cuantificar
cmo influye en la probabilidad de aparicin de un suceso,
habitualmente dicotmico, la presencia o no de diversos factores
y el valor o nivel de los mismos.

Edwin Pulgarin -Jhon Vargas

Regresin Binomial

Modelos Lineales II

34 / 35

Referencias Bibliogrficas

M ONTGOMERI , PECK , VINING ., Introduccin al analisis de regresion


lineal. , Mexico, 206.
,.
ALDRICH, John H. y NELSON Forrest D. Linear probability, logit,
and probitmodels,University of California,Lecture Notes for
Statistics. Sage publications, 1984. Berkeley, CA. 1984.
Importance Sampling: A Review, Department of Statistics,
Carnegie Mellon University. Surya T, Robert Kass Pittsburgh ,USA.

Edwin Pulgarin -Jhon Vargas

Regresin Binomial

Modelos Lineales II

35 / 35