Está en la página 1de 39

Estimacin de la ocurrencia de incidencias en declaraciones de

plizas de importacin. Salcedo Poma, Celia Mercedes






Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
CAPTULO 2

MODELO DE REGRESIN LOGSTICA

2.1 INTRODUCCIN
La Regresin Logstica es una tcnica estadstica multivariante que nos
permite estimar la relacin existente entre una variable dependiente no
mtrica, en particular dicotmica y un conjunto de variables independientes
mtricas o no mtricas.

El Anlisis de Regresin Logstica tiene la misma estrategia que el Anlisis
de Regresin Lineal Mltiple, el cual se diferencia esencialmente del
Anlisis de Regresin Logstica por que la variable dependiente es mtrica;
en la prctica el uso de ambas tcnicas tienen mucha semejanza, aunque
sus enfoques matemticos son diferentes.
La variable dependiente o respuesta no es continua, sino discreta
(generalmente toma valores 1,0). Las variables explicativas pueden ser
cuantitativas o cualitativas; y la ecuacin del modelo no es una funcin lineal
de partida, sino exponencial; si bien, por sencilla transformacin logartmica,
puede finalmente presentarse como una funcin lineal.
As pues el modelo ser til en frecuentes situaciones prcticas de
investigacin en que la respuesta puede tomar nicamente dos valores: 1,
presencia (con probabilidad p); y 0, ausencia (con probabilidad 1-p).
El modelo ser de utilidad puesto que, muchas veces, el perfil de variables
puede estar formado por caracteres cuantitativos y cualitativos; y se
pretende hacer participar a todos ellos en una nica ecuacin conjunta.
El modelo puede acercarse mas a la realidad ya que muchos fenmenos,
como los del campo epidemiolgico, se asemejan ms a una curva que a
una recta. Adems la curva exponencial elegida como mejor ajuste, puede
ser transformada logartmicamente en una ecuacin lineal de todas las


Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes




Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
variables, siendo as que el aparato matemtico estudiado para la regresin
lineal mltiple ser aplicable; aunque el investigador tenga, al final, que
deshacer la transformacin para interpretar sus conclusiones.

Si para el Modelo de Regresin Logstica una variable regresora de tipo
categrica tiene c niveles habr que generar c-1 variables ficticias (dummy)
a fin que todas las posibilidades de la variable queden bien representadas en
el modelo logstico.

Cuando todas las variables regresoras son categricas entonces se usa el
modelo Log lineal, ver Mc Cullagh (1983).

2.2 OBJETIVOS DE LA REGRESIN LOGSTICA
El objetivo primordial de esta tcnica es el de modelar como influyen las
variables regresoras en la probabilidad de ocurrencia de un suceso
particular.

Sistemticamente tiene dos objetivos:
1. Investigar como influye en la probabilidad de ocurrencia de un suceso, la
presencia o no de diversos factores y el valor o nivel de los mismos.
2. Determinar el modelo ms parsimonioso y mejor ajustado que siendo
razonable describa la relacin entre la variable respuesta y un conjunto
de variables regresoras.

2.3 REGRESIN LOGSTICA Y OTROS MTODOS RELACIONADOS
El objetivo general de la Regresin Logstica es predecir la probabilidad de
un evento de inters en una investigacin, as como identificar las variables
predictoras tiles para tal prediccin.



Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes




Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
Se pueden usar varios mtodos multivariantes para predecir una variable
respuesta de naturaleza dicotmica a partir de un grupo de variables
regresoras.

El Anlisis de Regresin Lineal Mltiple y el Anlisis Discriminante son dos
mtodos eficaces pero plantean problemas cuando la variable respuesta es
binaria.
En el Anlisis de Regresin Lineal Mltiple cuando la variable respuesta
toma solo dos valores, se violan los supuestos de necesarios para efectuar
inferencias, los problemas que se plantean son:
1. La distribucin de los errores aleatorios no es normal.
2. Los valores predictados no pueden ser interpretados como
probabilidades como en la Regresin Logstica, porque no toman
valores dentro del intervalo [0,1].

El Anlisis Discriminante permite la prediccin de pertenencia de la unidad
de anlisis a uno de los dos grupos pre-establecidos, pero se requiere que
se cumplan los supuestos de multinormalidad de las variables regresoras y
la igualdad de matrices de covarianzas de los dos grupos, pueden ser
diferentes tambin; para que la regla de prediccin sea ptima, Johnson
(1982).
La Regresin Logstica requiere mucho menos supuestos que el AD, por ello
cuando satisfacen los supuestos requeridos para el AD, la Regresin
Logstica trabaja bien.
A continuacin se describir un paralelo entre la Regresin Lineal Mltiple y
la Regresin Logstica, debido a que ambos tienen el mismo objetivo,
predecir la variable respuesta a partir de las variables regresoras.






Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes




Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
2.4 REVISIN DEL MODELO DE REGRESIN LINEAL MLTIPLE
La diferencia bsica entre los modelos del Anlisis de Regresin Lineal
Mltiple y de la Regresin Logstica es naturaleza de la relacin entre la
variable respuesta y las variables regresoras.
Para el Anlisis de Regresin Lineal Mltiple, consideremos y una variable
respuesta cuantitativa y
k
x x x ,...., ,
2 1
variables regresoras o llamadas
tambin explicativas; y se desea describir la relacin que hay entre la
variable respuesta y las variables explicativas, si entre la variable respuesta
y las regresoras hay una relacin lineal se espera que:
( )
ik k i i i
x x x y E + + + + ......
2 2 1 1 0
, (2.1)
para i=1, 2, ..., n
donde:
i
y es el valor de la variable respuesta cuantitativa para el i-simo objeto.
j
; j = 0, 1, 2,....,k son los parmetros.
Siendo n el nmero de objetos u observaciones.
Aunque (2.1) no de valores exactos, se espera que vare linealmente con las
variables regresoras, esto es:
( )
ik k i i i i
x x x x y E + + + + ...... |
2 2 1 1 0

,
para i=1, 2, ..., n
(2.2)
siendo ( )
in i i i
T
i
x x x x x ,..., , ,
2 1 0

la i-sima observacin, con 1


0

i
x ,
(2.2) toma valores reales y en forma vectorial es:
( )


T
i i i
x x y E | (2.3)
donde ( )
k
T
,..., , ,
2 1 0

es el vector de parmetros.


Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes




Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
Pero en (2.3) hay otras variables regresoras que pueden influir linealmente
sobre
i
y , por tanto cada valor de
i
y est variando alrededor de ( )
i
y E a
esa variacin lo denotamos con
i
, esto es:
( )

T
i i
i i i i
x y
x y E y

|
(2.4)
de (2.4):
i
T
i i
x y +

(2.5)
i ik k i i i
x x x y + + + + + ......
2 2 1 1 0
,
para i=1, 2, ..., n
(2.6)
llamado Modelo de Regresin Lineal Mltiple poblacional, a
i
se le llama
error aleatorio y tiene las siguientes propiedades:
( ( ) )
( ( ) )
( ( ) )
( ( ) ) 0 ,
0 ,
2
0




j
X
i
Cov
j i
j i
Cov
i
V
i
E

(2.7)
las variables regresoras no son variables aleatorias y el comportamiento de
y es la respuestas a aquellas, as mismo
i
es una variable aleatoria no
observable.
Generalizando el Modelo de Regresin Lineal Mltiple, (2.6), mediante el
lgebra matricial est dada por:

+ X y (2.8)
donde:
( )
n
T
y y y y ,...., ,
2 1

, vector de variables respuestas observadas


( )
k
x x x X

,....., , , 1
2 1
matriz de rango completo y con


Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes




Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
( )
ik i i
T
i
x x x x ,..., , , 1
2 1


( )
k
T
,....., ,
1 0


( )
n
T
,...., ,
2 1


as mismo (2.1) en forma matricial es:
( )

X y E (2.9)
el objetivo es estimar los parmetros del modelo (2.6), los mismos que son
estimados mediante el mtodo de mnimos cuadrados.


Sea
i
y la estimacin de
i
y , entonces:
ik k i i i
x x x y

......

2 2 1 1 0
+ + + + ,
para i=1, 2, ..., n (2.10)
o equivalentemente:


T
i i
x y (2.11)
siendo:
( )
k
T

,.....,

1 0

, el vector de parmetros estimados.


(2.10) en su forma matricial es:

X y (2.12)
los residuos ordinarios
i
r es la contraparte muestral de
i
y est dado por:
i i i
y y r

para i=1, 2, ...., n (2.13)


en forma vectorial es:
y y r


(2.14)
El estimador de

se obtiene usando el mtodo de mnimos cuadrados, ver


que consiste en minimizar la suma de cuadrados del error y est dada por:


Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes




Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
( ) ( ) y y y y e e e SCE
T
n
i
T
i

1
2



con respecto a

, esta suma de cuadrados se expresa en forma


cuadrtica como::
( ) ( )

X y X y
T
(2.15)
al minimizarlo se obtiene que:
( ) y X X X
T T

(2.16)
llamada ecuaciones normales.
Como ( ) X X
T
es invertible, por que es simtrica de tamao (k+1)x(k+1) y
de rango completo, entonces la solucin del sistema lineal es:
( ) y X X X
T T


(2.17)
que es sensible a observaciones pobremente ajustados y a los puntos
extremos de X , Montgomery y Peck (1992).
El vector (2.12) de valores estimados para el vector de variables respuesta
es:

X y
( ) y X X X X y
T T

1


(2.18)
a la matriz ( ) y X X X X
T T
1
, se le llama matriz de cambio o de
proyeccin denotada por H, entonces (2.18) es:
y H y

(2.19)
El vector de residuos es:
y y r



y H y r

(2.20)
( )y H I r

(2.21)


Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes




Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
y M r

(2.22)
El vector r

describe las desviaciones de los valores observados de los


ajustados y la matriz M es el subespacio en el cual cae r

.
El vector residual es importante para detectar puntos extraos. A la matriz
H se le llama matriz sombrero o de proyeccin, ver Cook y Weisberg
(1982). Ahora veamos como queda expresado la suma de cuadrados de los
residuos, denotada por SCE:
( ) ( ) y y y y SCE
T


(2.23)
Reemplazando y

por

X : (2.23) es:
( ) ( )

y X y SCE
T
(2.24)
Y reemplazando

por ( ) y X X X
T T
1
:
( ) y X X X X y y y SCE
T T T T

1
(2.25)
La matriz ( )
T T
X X X X H
1
, entonces:
y H y y y SCE
T T
(2.26)
( )y H I y SCE
T

(2.27)
Sea H I M , entonces (2.27) es:
y M y SCE
T
(2.28)

Bajo el supuesto que ( )
n
I N
2
, 0 ~

, las observaciones
n
y y y ,..., ,
2 1

son independientes y distribuidas cono una Normal n-variada con
( )

X y E con matriz de varianzas y covarianzas


n
I
2
.



Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes




Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
En la Regresin Logstica, se estima la probabilidad de que un evento
ocurra; es decir, el valor esperado de y dado las variables regresoras, debe
tomar valores entre 0 y 1. La relacin entre las variables regresoras y la
dependiente no es lineal. Las estimaciones de probabilidad estarn siempre
entre 0 y 1, as, el valor de la variable respuesta se puede definir como una
probabilidad de que ocurra o no un evento sujeto a control.
En la Regresin Logstica, se seleccionan los coeficientes, del modelo, que
hacen que los resultados sean los ms probables. Como el modelo de
Regresin Logstica no es lineal, se requiere de un algoritmo iterativo para
estimar los parmetros.
En las secciones siguientes se detallarn los aspectos tericos y la
aplicacin de la Regresin Logstica.





Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes




Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM

2.5 REGRESIN LOGSTICA SIMPLE

Este modelo tiene la forma:
i i
x
i
y + + + +
1 0
para n i , , 2 , 1 (2.29)
De esto se deduce que:
Si 1 y ,
i
x
i 1 0
1 (2.30)
Si 0 y ,
i
x
i 1 0
(2.31)
Por tanto
i
, no puede tener distribucin normal debido a que toma valores
discretos, el Modelo de Regresin Lineal Simple, no es aplicable para el
caso de variable respuesta de tipo dicotmico.
En el Anlisis de Regresin Lineal simple, el punto inicial del proceso de
estimacin del modelo es un grfico de dispersin de la variable respuesta
versus la regresora, pero este grfico resulta limitado cuando slo hay dos
valores posibles para la variable respuesta, por tanto se debe usar otros
grficos, stos resultan de la suavizacin de los valores de la variable
respuesta, representando despus los valores de la variable respuesta
versus la regresora.
La notacin que se usar en el presente trabajo para la Regresin Logstica
es misma que emplea Hosmer y Lemeshow (2000).
Sea ( ( ) ) ( ( ) ) x y E x (2.32)
Que representa la media condicional de 1 y dado x , donde ( ( ) ) x
representa la probabilidad de que ocurra 1 y , ciertamente no se espera
que (2.32) tenga relacin lineal dentro del rango de la variable regresora.
Qu hay de la relacin entre ( ( ) ) x y x para valores intermedios de x ? Se
espera una relacin curvilnea. Para cualquier valor grande de x , ( ( ) ) x
tomar valores cercanos a 1 y para valores pequeos de x , ( ( ) ) x tomar


Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes




Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
valores cercanos a cero. El grfico que muestra el comportamiento de ( ( ) ) x
versus x es:
FIGURA N 2.1

curva en forma de S o sigmoide que tiene las propiedades requeridas para
( ( ) ) x y que tiene las propiedades de una funcin de distribucin de
probabilidad acumulada, para esta probabilidad se usa la funcin de
distribucin acumulada de la distribucin logstica dada por:
( ( ) )
x
e
x
e
x
1 0
1
1 0

+ +
+ +
+ +
(2.33)

(2.33) tiene un grfico similar a la Figura N 2.1, cuando 0
0
< < y
0
1
> > , adems este model o toma valores en el intervalo [ [ ] ] 1 , 0 .
Cuando , [ [ ] ] 5 . 0 1 y P el valor de x es:
1
0


, que brinda informacin
muy til.
Una transformacin de ( ( ) ) x que es lo central del estudio de la Regresin
Logstica es la transformacin logit, transformacin que se define en
trminos ( ( ) ) x como:



Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes




Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
( ( ) )
( ( ) )
( ( ) )
x
x
x
Ln x g
1 0
1

+ +
1 1
] ]
1 1





(2.34)

Lo importante de esta transformacin es que tiene muchas propiedades
semejantes al Modelo de Regresin Lineal simple, por ejemplo es lineal en
sus parmetros, puede ser continua y puede tomar cualquier valor real
dependiendo de x .
Para el Modelo de Regresin Lineal simple, la variable respuesta, de (2.4) se
expresa como:
( ( ) ) + + x y E y (2.35)
para la variable respuesta dicotmica lo expresamos como:
( ( ) ) + + x y (2.36)
veamos que ocurre con este modelo:
Si 1 y , ( ( ) ) x
i
1 y tiene probabilidad ( ( ) ) x
Si 0 y , ( ( ) ) x
i
y tiene probabilidad ( ( ) ) x 1
Entonces
i
tiene distribucin binomial con media cero y varianza
( ( ) ) ( ( ) ) [ [ ] ] x x 1 . Por tanto la distribucin condicional de la variable
respuesta tiene distribucin de probabilidad binomial con media ( ( ) ) x .

El lado izquierdo de (2.34) se llama tambin logaritmo de ODDS RATIO o
razn de probabilidades de 1 y contra 0 y , especificamente:
( ( ) )
( ( ) ) x
x
RATIO ODDS



1
(2.37)
o tambin llamado razn de ventaja a favor de xito.




Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes




Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
2.6 REGRESIN LOGSTICA MLTIPLE
En esta seccin se generaliza el Modelo de Regresin Logstica Simple
tratado en la seccin anterior, es decir consideraremos ms de una variable
regresora, en donde por lo menos una es de tipo cuantitativo.

2.6.1 MODELO DE REGRESIN LOGSTICA MLTIPLE
Sea el vector de variables regresoras ( ( ) )
k
x x x
T
x ,....,
2
,
1

por el
momento asumiremos que estn medidas por lo menos bajo escala
intervalar. Sea la probabilidad condicional para que la variable respuesta sea
igual a 1, denotado por:
( ( ) ) ( ( ) ) x x y P

1 (2.39)
el logaritmo del Modelo de Regresin Logstica Mltiple est dado por:
( ( ) )
ik
x
k i
x
i
x
i
x g + + + + + + + + ......
2 2 1 1 0

, para i=1, 2, ..., n


(2.40)
entonces el Modelo de Regresin Logstica Mltiple es:

( ( ) )
( ( ) )
( ( ) ) x g
e
x g
e
x

+ +

1
(2.41)
Al igual que en el caso de Regresin Lineal Mltiple si es necesario usar
variables regresoras categricas, por ejemplo si una tiene c niveles ser
necesario incorporar c-1 variables ficticias o llamadas dummy., as entonces
el logit para un modelo con k variables regresoras y una variable categrica,
por ejemplo la j-sima es:
( ( ) )
ik
x
k
c
l
jl
D
jl i
x x g



+ +
+ + + + + +
1
1
......
1 1 0

,
para i=1, 2, ..., n
(2.42)



Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes




Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
2.6.2 AJUSTE DEL MODELO DE REGRESIN LOGSTICA MLTIPLE

El ajuste se efecta a travs del uso de los mtodos de mxima
verosimilitud, los mismos que se encuentran en los softwares estadsticos
que permiten analizar datos mediante este mtodo.
Asumiremos que disponemos de una muestra n observaciones
independientes
( ( ) )
i
y
i
x ,

, i=1,2, ..., n ; donde


i
y toma valores 0 1, para estimar
( )
k
T
, . . . , ,
1 0

que es el vector de parmetros


desconocidos.
Para el Modelo de Regresin Lineal Mltiple se usa el mtodo de Mnimos
Cuadrados para estimar

, el cual minimiza la suma de cuadrados del


error, pero cuando la variable respuesta es binaria aplicar este mtodo no
provee las mismas propiedades cuando es usado en variables respuestas
continuas.
Por ello se usar el mtodo de Mxima Verosimilitud, ya que obtendremos
parmetros estimados que maximizan la probabilidad de obtener un conjunto
de datos observados.
La funcin de verosimilitud expresa la probabilidad de los datos observados
como una funcin de parmetros desconocidos. Los Estimadores de Mxima
Verosimilitud de esos parmetros son aquellos que estn en concordancia
con los datos observados.
Consideremos el Modelo de Regresin Lineal Mltiple con mayor detalle,
supongamos que se dispone de n objetos u observaciones donde para cada
uno de ellos existe una respuesta que puede ser:
1 0
i i
y o y
Sea ( )
n
T
y y y y , . . . , ,
2 1

donde ( )
i i
B y , 1 ~ y sea


Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes




Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
( )
k i i
T
i
x x x ., . . . . , , 1
1

la i-sima observacin para las k variables


explicativas.

As el Modelo de Regresin Logstica est dada por la expresin (2.40):
[ [ ] ] ( ( ) )
( ( ) )
( ( ) )
i
x g
e
i
x g
e
i
x
i
x
i
y P


+ +

1
| 1 (2.43)
equivalentemente
[ [ ] ]



, ,
_ _






+ + + +



, ,
_ _






+ +



k
j
ij
x
j
Exp
k
j
ij
x
j
Exp
i
x
i
y P
1
0
1
1
0
| 1

(2.44)
y la probabilidad de que
i
y sea igual a cero es:
[ [ ] ] [ [ ] ]
[ [ ] ]



, ,
_ _






+ + + +



k
j
ij
x
j
Exp
i
x
i
y P
: entonces
i
x
i
y P
i
x
i
y P
1
0
1
1
0
, 1 1 0


(2.45)
para facilitar la notacin usaremos la variable indicadora
n i x
i
,..., 2 , 1 , 1
0
.
Entonces (2.44) y (2.45) son respectivamente:
[ [ ] ] ( ( ) )
T
i
x
e
T
i
x
e
i
x
i
x
i
y P

+ +

1
| 1 (2.46)


Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes




Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
[ [ ] ] ( ( ) )
T
i
x
e
i
x
i
x
i
y P

+ +

1
1
1 | 0 (2.47)
donde: ( )
ik i i
T
i
x x x x ,...., ,
1 0

, es el vector que contiene los valores de las


variables explicativas
( )
k
T
, . . . , ,
1 0

es el vector de parmetros a ser estimado.


El i-simo logito es:





, ,
_ _






k
j
ij
x
j
i
i
Ln
i
0
1

(2.48)
como vemos, (2.48) es una funcin lineal simple del vector de observaciones
i
x

llamada transformacin logstica de la probabilidad


i
o simplemente
Logit o Logito de la ecuacin, a la expresin (2.48) tambin se le llama
Modelo Logstico Lineal.
A fin de obtener la estimacin mximo verosmil para el vector

,
escribimos la funcin de densidad de probabilidad del vector y

el cual es
proporcional a n funciones ( )
i
B , 1 , esto es:
( ) ( )
( )
( )
( )
1
]
1

,
_

'

'

1
1
]
1

,
_

'

,
_

n
i i
i
i
n
i
i
n
i
i
y
i
i
n
i
i
n
i
i
i
y
i
i
n
i
i
y
i
i
y
i
i i
Ln y Exp
Ln Exp
y f
1 1
1 1
1
1
1
1
1
1
1
1
1
1 ;


(2.49)
Reemplazando (2.48) en (2.49), se obtiene:


Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes




Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
( ( ) ) ( ( ) )
( ( ) )



; ;




' '




, ,
_ _








; ;




' '






; ;




' '





; ;




' '





k
j
j
n
i
ij
x
i
y Exp
n
1 i
i
- 1

n
i
k
0 j
ij
x
j i
y Exp
n
1 i
i
- 1
i i
y f
0 1
1
;


(2.50)


El logaritmo natural de la funcin (2.50), llamado funcin soporte es:


( ) ( )


+
,
_

k
j
n
i
i j
n
i
ij i i i
x y y l
0 1 1
1 ln ;
(2.51)
( ) [ ]
( ) ( ) [ ]
i
T
i
i
T
x Exp Ln
x Exp



+
+

1 - 1 Ln
entonces , 1 - 1 : (2.47) pero
1
i

( )
1
1
]
1

,
_

ij
k
j
j i
x Exp Ln
0
1 - 1 Ln
(2,52)
reemplazando (2.52) en (2.51), se obtiene:
( )


1
]
1

,
_

n
i
k
j
ij j j
k
j
n
i
ij i i
x Exp Ln x y y
1 0 0 1
i
1 ; l (2.53)

como vemos (2.53) es una funcin que ya no depende de
i
sino de
j

solamente, entonces lo denotamos como:
( )


1
]
1

,
_

,
_

n
i
k
j
ij j
k
j
j
n
i
ij i
x Exp Ln x y L
1 0 0 1
1

(2.54)


Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes




Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
es una funcin que depende exclusivamente del vector

.

Definamos como:

n
i
ij i j
x y t
1
(2.55)
entonces reemplazando (2.55) en (2.54) se tiene:
( )


1
]
1

,
_

+
n
i
k
j
ij j
k
j
j j
x Exp Ln t L
1 0 0
1

(2.56)
Como (2.56) es una funcin exclusiva del vector de parmetros

, por el
Teorema de Factorizacin de Fisher-Neyman, Bickel y Doksum (1976), se
tiene que k 0,1,...., j para
j
t son estadsticas suficientes para los
parmetros ,
j
para j = 0,1,...,k.,
La variable aleatoria
j
t dada en la expresin (2.56) es la suma de algunos
de los trminos de la matriz de diseo X , es decir se incluyen en la suma
solamente los elementos que corresponden a una respuesta del tipo 1 y .

Las ecuaciones de verosimilitud, se obtienen derivando (2.54) con respecto
a los elementos de

e igualando a cero:

1
1
1
1
]
1

,
_

,
_

n
i
n
i
k
j
ij j
k
j
ij j
ij ij i
j
x Exp
x Exp
x x y
L
1 1
0
0
1

(2.57)
las ecuaciones de verosimilitud de (2.57) son:
k j x x y
n
i
i ij
n
i
ij i
....., 2 , 1 , 0 0
1 1



(2.58)
siendo 1
0

i
x , equivalentemente (2.58) es:


Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes




Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
( ) k j y x
n
i
i i ij
....., 2 , 1 , 0 0
1

(2.59)
donde:

0
0

,
_

,
_

k
j
ij j
k
j
ij j
i
x Exp
x Exp

; para i=1,2,...,n
es el estimador mximo verosmil de
i
y se obtiene mediante
j

y el
vector
i
x


La expresin (2.58) en su forma matricial es:
( ) 0


S X y X
T
(2.60)
Estas ecuaciones son parecidas a las ecuaciones normales obtenidas para
estimar el Modelo de Regresin Lineal Mltiple, pero son no lineales en

,
lo cual hace que se use un mtodo iterativo para determinar los valores del
vector

.
La obtencin de
j

mediante mtodos iterativos; para k j , . . . , 1 , 0 se


tratar en la siguiente seccin, ahora obtendremos la varianza y covarianza
de

.
Sea
) (nxp
X
la matriz de diseo, con p=k+1, con elementos:


Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes




Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
1
1
1
1
1
1
]
1

nk n n
k
k
x x x
x x x
x x x
X
. . 1
. . . . . . . .
. . . . . . . .
. . . . 1
. . . . 1
2 1
2 22 21
1 12 11

Las ecuaciones de verosimilitud en su forma matricial, de la expresin (2.60):

X y X
T T

(2.61)
donde ( )
n
, . . . , ,

2 1
T


( ) 0
1

n
i
i i ij
y x (2.62)
El mtodo de estimacin de las varianzas y covarianzas lo obtendremos de
la matriz de segunda derivada parcial de (2.62): y tiene la forma:
( )
i i
n
i
ij
j
x
L

1
1
2
2
2
(2.63)
para j=0, 1, 2, ....., k
reemplazando: la ecuacin para
i
en (2.63)
k ., . . . 0,1, para
1
1
2
0
0
2
2
2

1
1
]
1

,
_

,
_

j
x Exp
x Exp x
L
n
i
k
j
ij j
k
j
ij j ij
j

(2.64)


Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes




Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
( )
k , 0,1,2,.... l j, para
1
1
2

n
i
i i il ij
l j
x x
L

(2.65)
reemplazando:

1
]
1

,
_

,
_

n
i
k
j
ij j
k
j
ij j
il ij
l j
x Exp
x Exp
x x
L
1
2
0
0
2
1


(2.66)
Tanto (2.64) como (2.65) no son funciones de
i
y , entonces la matriz de
observacin y la matriz de segunda derivada esperada son idnticas.
Ahora bien la matriz que contiene el negativo de las ecuaciones (2.64) y
(2.66) se denota con ( )

, llamada Matriz de Informacin; las varianzas y


covarianzas de
j

se obtienen tomando la inversa de esta matriz, esto es:


( ) ( )

1
Cov (2.67)
ver Cordeiro (1992).

Los estimadores de la varianza y covarianza, denotada por ,


,
_

ov C se
obtiene evaluando

Entonces la matriz de informacin estimada, matricialmente tiene la forma:
VX X'

,
_

(2.68)
V es una matriz diagonal, esto es:
( ( ) ) [ [ ] ]
i i
Diag V 1
( ) .

en

Cov


Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes




Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM

de tamao nxn, adems (2.68) es:
( ) ( )
1
'


VX X ov C

(2.69)

y es de tamao (k+1)(k+1)
escribiremos los elementos de la matriz (2.69)

( )
( ) ( ) ( )
( ) ( )
( )
1
1
1
1
1
1
1
]
1

k
k
k
ov C


. . . . . . .
. . . . . . . .
. . . . . . . .

. . . . . .

. . . . .

2
1 1
0 1 0 0
2



donde:
( )
j

2
es la varianza estimada de
j


( )
l

j
es la covarianza estimada de
j

y
l


( )
j

es el error estandar de
j


La matriz (2.69) ser muy til cuando se discuta el ajuste y la evaluacin del
Modelo de Regresin Logstica.

2.6.3 MTODO DE NEWTON RAPHSON PARA ESTIMAR LOS
PARMETROS DEL MODELO DE REGRESIN LOGSTICA.

Este es un mtodo para resolver ecuaciones no lineales, como las obtenidas
en (2.57) o equivalentemente en (2.58), y requieren una solucin mediante
mtodos iterativos para hallar la estimacin de los parmetros que es el
mximo de la funcin (2.54).


Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes




Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM

Uno de los mtodos ms usados para resolver ecuaciones de este tipo, es el
de Newton-Raphson, porque converge rpidamente. En la figura
N 2.2 se ilustra el mtodo.
Tomando como estimacin inicial
1
x , se prolonga la tangente a la curva en
este punto hasta interceptar con el eje de las abscisas al cual llamaremos
punto
2
x , entonces se toma a
2
x como la siguiente aproximacin.
Este proceso continua hasta que un valor de
2
x haga que la funcin sea
nula o suficientemente cercana a cero.
Para la estimacin del vector

se quiere hallar el mximo de una funcin;


entonces usa la primera derivada, porque se anula en el punto mximo y la
segunda derivada para calcular las tangentes. En nuestro caso es necesario
hallar la segunda derivada para obtener la matriz de varianzas y covarianzas
de los parmetros estimados.


















Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes




Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
Figura N 2.2 Interpretacin Geomtrica del Mtodo Iterativo de Newton
Raphson.



F(x)


Entonces se usa el siguiente esquema iterativo:

( ) ( ) ( )
( ) [ ]
( )
( )
t t t t
S

1
1

+
+ (2.70)

donde:
( )

S y ( )

son las funciones de Score y de Informacin


respectivamente.
La funcin Score es un vector de tamao k+1, donde el j -simo elemento de
acuerdo a (2.57) es:
f(x
2
)
f(x
1
)
x
2
x
1
x


Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes




Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
( )
( )

n
i
ij
t
i
i
j
x y
L
1

(2.71)
La cual es similar a la expresin (2.59):
( ) k j y x
i
i i ij
..., , 2 , 1 0


La Funcin de informacin es una matriz de tamao (k+1)(k+1) donde el i -j
simo elemento (l,j) es:
( )
1
]
1

n
i
i i ij
l l j
y x
l
1
2



1
1
1
]
1




n
i
i
x
T
i
x
T
n
i
ij i ij
l
e
e
x y x
1 1
1


1
1
1
1
1
]
1

,
_

,
_

2
1
1
1
i
x
T
i
x
T
il
i
x
T
i
x
T
il
i
x
T
n
i
ij
e
e x e e x e
x

,
_

n
i
i
x
T
i
x
T
il ij
e
e x x
1
2
1


( )


n
i
i i il ij
x x
1
1 j=0,1,....,k ; l =0,1,....,k
(2.72)


Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes




Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
donde
( ) t

, es la t-sima aproximacin para

, obtenida de
( ) t


mediante:
( )
( )
( )
1
1
]
1

,
_

,
_

ij
k
j
t
j
ij
k
j
t
j
t
i
x Exp
x Exp
0
0
1

(2.73)

Entonces el prximo valor reemplazando en (2.70) es:

( ) ( ) ( )
{ }
( )
( )
t T t T t t
y X X V X




+
1
1
(2.74)
donde
( ) ( ) ( )
( ) [ ]
t
i
t
i
t
Diag V 1

La expresin (2.70) se usa para obtener
( ) 1 + t

y as sucesivamente.
Despus de dar un valor inicial
( ) 0

, se usa (2.70) para obtener


( ) 0

y
para t>0 las iteraciones siguientes se efectan usando (2.70) y (2.71).
En el lmite,
( ) t

y
( ) t

converge a los EMV de

y converge en general
en 5 o 6 iteraciones.
Existen software estadsticos como el SAS y el SPSS con programas para
estimar una regresin logstica usando el mtodo descrito. Una ventaja de
este mtodo es que en el paso final del proceso iterativo se obtiene la
inversa de la funcin de informacin, que es asintticamente la matriz de
varianzas y covarianzas del vector

y permiten efectuar inferencias sobre


los parmetros basado en la teora normal. Para mayor informacin se
recomienda a Affifi y Clark (1998).


Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes




Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
2.6.4 INTERPRETACIN DE LOS COEFICIENTES DEL MODELO
ESTIMADO
Recordamos del modelo de regresin mltiple que el valor de un coeficiente
significaba el cambio en unidades de la variable dependiente por cada
unidad de la variable independiente a que se refiere el coeficiente,
permaneciendo invariantes los valores del resto de variables independientes
del modelo.
A nivel de coeficientes estimados exponencialmente la interpretacin es muy
similar y la diferencia estriba en que en este caso no se trata del cambio
(incremento o disminucin) de la probabilidad de la variable dependiente por
cada unidad de cambio en las independientes, sino del incremento o
disminucin que se produce en el cociente entre P(Y=1) / P(Y=0), expresado
por:
e
K
X
K
B BX X B B
Y P
Y P
+ + + +

. . . . .
2 1 1 0
) 0 (
) 1 (
(2.75)
Ms an, estn expresados en logaritmos, por lo que sera necesario
transformarlos (tomando los valores del antilogaritmo) de tal forma que se
evale ms fcilmente su efecto sobre la probabilidad. Los programas de
computador lo hacen automticamente calculando tanto el coeficiente real
como el transformado. Utilizar este procedimiento no cambia en modo
alguno la forma de interpretar el signo del coeficiente. Un coeficiente
positivo aumenta la probabilidad, mientras que un valor negativo disminuye
la probabilidad. As pues si es positivo, su transformacin (antilog) ser
mayor a 1, y el odds ratio aumentar. Este aumento se produce cuando la
probabilidad prevista de ocurrencia de un suceso aumenta y la probabilidad
prevista de su no ocurrencia disminuye. Por lo tanto, el modelo tiene una
elevada probabilidad de ocurrencia. De la misma forma, si es negativo, el
antilogaritmo es menor que 1 y el odds ratio disminuye. Un valor de cero
equivale a un valor de 1, lo que no produce cambio en el odds. Hair (1999)


Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes




Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
2.6.4 PRUEBA DE HIPTESIS PARA LOS COEFICIENTES DEL
MODELO DE REGRESIN LOGSTICA.

Usualmente en la estimacin del Modelo de Regresin Logstica, como en el
Modelo de Regresin Lineal Mltiple se efectan pruebas con objetivos
diferentes, siendo estos:
1. Determinar si una variable explicativa tiene coeficiente igual a cero.
2. Determinar si un conjunto de variables explicativas tienen coeficientes
igual a cero.
3. Determinar la calidad del ajuste global del modelo.
Veamos para cada objetivo, como se efecta el anlisis.

2.6.5.1 PRUEBA DE WALD
Wald(1943) estudio una prueba asinttica para estimaciones mximos
verosmiles, y asever que los parmetros estimados en los modelos
logsticos tiene una Distribucin Normal para muestras grandes.
Esta prueba se usa para evaluar la significancia estadstica de cada variable
explicativa o regresora.
Sea
( ) t

que converge a los EMV de

y.
n
y y y , ,......... ,
2 1
variables
respuesta binaria independientes cuyas probabilidades satisfacen.
( )

T
i i
x Logit
donde [ ]
i i i
x y P

1
Siendo
i
x

una observacin que contiene los valores de las k variables


explicativas con
( )
ik i i
T
i
x x x x ,......, , , 1
2 1

.
Sin perdida de generalidad, seleccionaremos
j
como el parmetro de
inters.
Supngase que las hiptesis son:


Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes




Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
0 1
0 0
:
:
j j
j j
H
H

(2.76)
sea
j

un EMV de
j
y sea:
( )
1
1

VX X I
T
la inversa de la matriz de informacin muestral,
entonces la estadstica de Wald para dcimar (2.75) es:

( )
( )
j
j j
W

2
2
0

(2.77)

donde ( )
j

es la estimacin del error estndar de


j

.
Bajo
0
H ,
( )
2
1
~ W y para n suficientemente grande se tiene que:
( ) ( )

,
_

,
_


1 ,

0 0
j
j j
j
j j
N z




(2.78)
por tanto:
( )
2
1 ,
2
~

z , es
2
con parmetro de no centralizacin:
( )
( )
j
j j

2
0

(2.79)
ver Hanck y Donner (1977)
Pero la estadstica W, tiene la propiedad que cuando el valor absoluto del
coeficiente de Regresin es grande, el error estndar tambin lo es; esta
situacin hace que la estadstica W sea pequea y por tanto se puede
rechazar
j
igual a cero, cuando en realidad no debera rechazarse.


Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes




Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
Por tanto, cuando se encuentra que un coeficiente es grande, es preferible
no usar la estadstica de Wald para efectuar dcima individual. Sino se
recomienda construir un modelo con y sin esa variable y basarse en la
prueba de hiptesis de la diferencia entre los dos modelos, ver Hanck y
Donner (1977).
Para las hiptesis estadsticas:
0 :
0 :
1
0

j
j
H
H

(2.80)
La estadstica (2.77) es:
( )
( )
j
j
W

2
2
(2.81)
Bajo
( )
2
1
0
~ , W H y para n suficientemente grande se tiene que:
( ) ( )

,
_

1 ,

j
j
j
j
N z

(2.82)
por tanto:
( )
2
1 ,
2
~

z
2
z se distribuye como una
2
) 1 , (
con parmetro de no centralizacin:
( )
( )
j
j

2
2
(2.83)
si la variable explicativa es categrica, los grados de libertad es igual al
nmero de categoras o niveles de la variable menos uno.




Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes




Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
2.6.5.2 PRUEBA CHI-CUADRADO
Esta prueba sirve para lograr el segundo objetivo propuesto al iniciarse la
seccin 2.6.4 y sirve para docimar los coeficientes del modelo logstico.
Para elegir un modelo, se usa la prueba de razn de verosimilitud, Bickel y
Docksum (1977), para probar la hiptesis de que los coeficientes
j

correspondientes a las variables explicativas retiradas, digamos q variables
explicativas, del modelo son iguales a cero, siendo la hiptesis estadsticas:
q j un menos lo por para H
H
j
q
,..., 2 , 1 , 0 :
0 .... :
1
2 1 0



.Esta prueba se basa en la siguiente estadstica:
[ ]
p q p q
L Ln L Ln

2
2
(2.84)
Bajo la hiptesis de que los coeficientes de las variables retiradas son
iguales a cero, la estadstica (2.84) tiene una distribucin asinttica
( )
2
q
.
Valores altos para esta estadstica indican que una o ms de las q variables
retiradas tienen coeficiente de regresin distinto de cero.
La estadstica
2
q
se usa tambin para probar si una variable explicativa
determinada, por ejemplo
k
x , muestra una asociacin significativa (como
factor de riesgo cuando se aplica a casos de enfermedades) para con la
variable respuesta en la presencia de las dems variables
1 2 1
,..., ,
k
x x x .

2.6.5.3 ESTADISTICA CHI-CUADRADA DE PEARSON
Esta estadstica sirve para lograr el objetivo nmero 3, es decir evaluar el
modelo ajustado en forma global. La estadstica se basa en la comparacin
de los valores observados,
i
y ; y sus respectivas probabilidades estimadas,
i
.
Las hiptesis estadsticas para usar esta estadstica son:


Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes




Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM

k j un menos lo por para H
H
j
k o
,..., 2 ,., 1 , 0 , 0 :
0 .... :
1
1 0



esta prueba se basa en la estadstica Chi-cuadrado de Pearson, que est
dada por:
( )
( )

n
i
i i
i i
y
1
2
2

(2.85)
o equivalentemente

n
i ii
i
v
r
1
2
2
(2.86)
donde:
( )
( ) ( )
i i ii
i i i
V Diag v
y r




como observamos la estadstica (2.86) es igual a (1.52).
Bajo la hiptesis nula, de que el modelo se ajusta bien a los valores
observados, la
estadstica (2.86) tiene distribucin asinttica Chi-cuadrado
( ) ( )
2
1 + k n
.
Valores altos de la estadstica Chi-cuadrado de Pearson indican
discrepancias con el modelo terico, Cordeiro (1992).
La estadstica (2.86) es inestable cuando
i
toma valores cercanos a cero o
uno, por ello tomar en cuenta esta observacin, cuando se realiza el anlisis.

2.6.5.4 DESVIANZA
Otra forma de probar el ajuste global del modelo, es mediante la estadstica
llamada Desvianza, propuesta por Nelder y Wederburn (1982), es anlogo a
la suma de cuadrados de los residuales del Modelo de Regresin Lineal
Mltiple.


Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes




Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
Las hiptesis estadsticas son:

k j un menos lo por para H
H
j
k
,..., 2 ,., 1 , 0 :
0 .... :
1
1 0



Esta estadstica se usa para evitar la inestabilidad de la estadstica Chi-
cuadrado de Pearson. La Desvianza esta dada por:

n
i
i p
d D
1
2
(2.87)
donde :
n j
y si p
y si p
d
i i
i i
i
,..., 2 , 1 ;
0 ) 1 log( 2
1 log 2

'


La Desvianza bajo la hiptesis nula, asintticamente, es la misma que la
distribucin Chi-cuadrado de Pearson, es decir se distribuye
( ) ( )
2
1 + k n
y
mide la discrepancia o el desvio entre el modelo bajo investigacin o actual y
el modelo saturado.
La estadstica (2.87) para el modelo de regresin logstica eta dada por:
( ) ( ) ( ) ( )

+
i i i i
y y D
1 log 1 log 2 (2.88)
Cuando el modelo bajo investigacin es verdadero se compara el valor D
con el valor crtico
2
) ( p n
de una distribucin
2
a un nivel de
significacin igual a , por tanto :
Si
2
) ( p n
D

> el modelo se rechaza y


Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes




Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
Si
2
) ( p n
D

el modelo no se rechaza.
donde 1 + k p

2.6.5.5 TABLA DE CLASIFICACION
Tambin llamada Matriz de Confusin, es una forma sencilla de evaluar el
ajuste del Modelo de Regresin Logstica, no es tan objetiva pero se usa
como indicador de bondad de ajuste.
Es una tabla sencilla de 2x2, en el cual se muestra la distribucin de los
objetos que pertenecen a las categoras 1 y 2, es decir cuando 0 y y
cuando 1 y , conjuntamente con la clasificacin a cualquiera de las 2
categoras de acuerdo a la probabilidad estimada.
Para interpretar se hace mediante el porcentaje de objetos bien clasificados,
esto es, aquellos que mediante la probabilidad estimada permanecen en su
respectiva categora. Tambin se interpreta mediante el porcentaje de
objetos mal clasificados, esto es, aquellos que mediante la probabilidad
estimada se asignan a categoras diferentes del cual fueron observados.

TABLA DE CLASIFICACION

GRUPO ESTIMADO GRUPO
ACTUAL
0
1
TOTAL
MARGINAL
0
11
n

12
n

12 11
n n +
1
21
n

22
n

22 21
n n +
TOTAL
MAGINAL
21 11
n n +
22 12
n n +
n




Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes




Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM

% 100
22 11
x
n
n n +
es el porcentaje de objetos bien clasificados
mediante el Modelo de Regresin Logstica estimado.
Por tanto, lo que se debe esperar es que este porcentaje sea lo ms alto
posible, a fin de concluir que el modelo obtenido clasifica bien a los objetos o
individuos.


2.6.5.6 CONTRASTE DE BONDAD DE AJUSTE DE HOSMER
LEMESHOW
Este contraste evala la bondad de ajuste del modelo, es decir el grado en
que la probabilidad predicha coincide con la observada, construyendo una
tabla de contingencia a la que aplica un contraste
2
. Para ello calcula los
deciles de las probabilidades estimadas ( n i p
i
,... 2 , 1 ; ) , D
1
,D
2
,....D
9
y
divide los datos observados en 10 categoras dadas por :
10 ,.., 2 , 1 ; } } ,..., 2 , 1 { / ) [ {
, 1


j n i D D p A
j j i j
donde D
0
= 0 , D
10
= 1.
Sean:
n
J
= nmero de casos en Aj ; j=1,2,...,10
o
j
= nmero de y
i
=1 en A
j
; j=1,2,...,10
10 ,... 2 , 1 ;
1

j p
n
p
j
A i
i
j
j

El estadstico del contraste viene dado por :

10
1
2
) 1 (
) (
j
j j j
j j j
p p n
p n o
T
(2.89)
y el p-valor del contraste es
[ ]
obs
T P
2
8

.z


Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes




Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
2.6.6 DIAGNOSTICO DEL MODELO
Es la evaluacin de la bondad de ajuste caso por caso mediante el anlisis
de los residuos del modelo y de su influencia en la estimacin del vector de
parmetros del mismo, se realiza usando:
2.6.6.1 RESIDUOS DEL MODELO
Los residuos ms utilizados son los siguientes:
Residuos estandarizados.- Son el cociente entre los residuales y una
estimacin de la desviacin estndar.

n i
p p
p y
z
i i
i i
i
,..., 2 , 1 ;
) 1 (

(2.90)

Residuos studentizados.- Son el cambio en el valor de la desvianza del
modelo si el caso es excludo.
( )
( ) ( )
n i
p p
p y
st
i i
i i
i
,..., 2 , 1 ;
) 1 (

(2.91)
donde ( ) i
p
es la estimacin de
i
p
obtenida eliminando la observacin i
de la muestra.
Residuos Desvianza.- Para cada observacin la desvianza se calcula :
n j
y si p
y si p
d
i i
i i
i
,..., 2 , 1 ;
0 ) 1 log( 2
1 log 2

'

(2.92)

Todos estos residuos se distribuyen aproximadamente como una N(0,1), si
el modelo ajustado es correcto.

2.6.6.2 MEDIDAS DE INFLUENCIA


Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes




Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
Cuantifican la influencia que cada observacin ejerce sobre la estimacin del
vector de parmetros o sobre las predicciones hechas a partir del mismo, de
modo que, cuanto ms grande son, mayor es la influencia que ejerce una
observacin en la estimacin del modelo.
Medida de Apalancamiento (Leverage)
Se utiliza para detectar observaciones que tienen un gran impacto en los
valores predichos por el modelo.
Se calcula a partir de la matriz
2 / 1 1 2 / 1
' ) ' ( W X WX X X W H

donde
) 1 (
i i
p p diag W . El apalancamiento para la observacin i-sima viene
dado por el elemento i-simo de la diagonal principal de H, hi i , y toma
valores entre 0 y 1 con un valor medio de p/n.
Las dos medidas siguientes miden el impacto que tiene una observacin en
la estimacin de .
Distancia de Cook.- Mide la influencia en la estimacin de .
( ) ( )
) (
'
) (

'

1
i i i
WX X
p
COOK
(2.93)
DFBETA.- Mide la influencia en la estimacin de una componente de ,
i

)

1
1
) ( 1 1
std
Dfbeta
i
i

(2.94)
donde
) ( 1 1

i
denotan las estimaciones del mdelo logstico de y
1,
eliminando la i-sima observacin de la muestra y )

(
1
std el error estndar
en la estimacin de 1.

2.6.7 VARIABLES EXPLICATIVAS CATEGORICAS VARIABLES
DUMMY
Si una de las variables explicativas es categrica, con c valores posibles, se
crean c-1 variables dicotmicas como variables explicativas tambin


Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes




Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
llamadas variables dummy. Estas variables cuantifican el efecto de un valor
de dichas variables con respecto a un valor de referencia.
Estas variables se usan cuando los datos se muestran como categoras, las
categoras pueden ser:
Nominales: La variable simplemente indica diferentes categorias, las
categoras no pueden ser ordenadas en un orden particular. Ejemplo : Sexo
(hombre,mujer).
Ordinales: La variable adems de estar agrupada en categoras puede ser
ordenada. El que una categora este en un orden superior que otra implica
que su medida representa algo mayor que la otra. Ejemplo: Clase social
(baja, media, alta).
Intervalares: La variables no solo puede ser ordenada, sino que su valor
mide la distancia entre categoras. Estas tienen estndares de unidades de
medida.
Ejemplo: Altura, temperatura, presin sangunea.
Cuando se tiene variables de este tipo se crean las llamadas variables
dummy, si la variable tiene c categorias se usan c-1 variables ficticias o
dummy. La variable indica si un dato corresponde a una categora o no.
Veamos un ejemplo de cmo se hace esto:
Supongamos que tenemos una variable clase social, codificada 1: Baja,
2:Media, y 3:Alta, entonces creamos dos variables dummy :
Clase1 : 1 si el dato corresponde a la clase social Baja, 0 si el dato no
pertenece a la clase Baja.
Clase2 : 1 si el dato corresponde a la clase social Media, 0 si el dato no
pertenece a la clase Media.
Como se puede ver estas nos permiten clasificar cualquier dato en una de
las categorias existentes.
Supongamos que creamos las variables dummy Ind1 e Ind2 para una
variable X1 de tres categoras, como sigue:

X1 Ind1 Ind2


Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes




Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
1 1 0
2 0 1
3 0 0

En este caso la ecuacin del modelo ajustado viene dada por:
2 1
) ; 2 , 1 ( 1
) ; 2 , 1 (
log
2 1 0
Ind Ind
Ind Ind p
INd Ind p

+ +

,
_

(2.95)
Sea p
i
= p[y=1/X1=i]; i=1,2,3. Se tiene:
0 2 0 1 0
3
3
2
2
1
1
1
,
1
,
1

e
p
p
e
p
p
e
p
p

+ +

Se sigue que:
2 1
3
3
2
2
3
3
1
1
1 1
,
1 1

e
p
p
p
p
e
p
p
p
p



Por lo tanto, 2 , 1 , i e
i

compara los odds ratio correspondientes a X1=1,2,


frente al de la categora de referencia X1=3.

También podría gustarte