Documentos de Académico
Documentos de Profesional
Documentos de Cultura
,
para i=1, 2, ..., n
(2.2)
siendo ( )
in i i i
T
i
x x x x x ,..., , ,
2 1 0
T
i i i
x x y E | (2.3)
donde ( )
k
T
,..., , ,
2 1 0
es el vector de parmetros.
Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes
Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
Pero en (2.3) hay otras variables regresoras que pueden influir linealmente
sobre
i
y , por tanto cada valor de
i
y est variando alrededor de ( )
i
y E a
esa variacin lo denotamos con
i
, esto es:
( )
T
i i
i i i i
x y
x y E y
|
(2.4)
de (2.4):
i
T
i i
x y +
(2.5)
i ik k i i i
x x x y + + + + + ......
2 2 1 1 0
,
para i=1, 2, ..., n
(2.6)
llamado Modelo de Regresin Lineal Mltiple poblacional, a
i
se le llama
error aleatorio y tiene las siguientes propiedades:
( ( ) )
( ( ) )
( ( ) )
( ( ) ) 0 ,
0 ,
2
0
j
X
i
Cov
j i
j i
Cov
i
V
i
E
(2.7)
las variables regresoras no son variables aleatorias y el comportamiento de
y es la respuestas a aquellas, as mismo
i
es una variable aleatoria no
observable.
Generalizando el Modelo de Regresin Lineal Mltiple, (2.6), mediante el
lgebra matricial est dada por:
+ X y (2.8)
donde:
( )
n
T
y y y y ,...., ,
2 1
( )
k
T
,....., ,
1 0
( )
n
T
,...., ,
2 1
as mismo (2.1) en forma matricial es:
( )
X y E (2.9)
el objetivo es estimar los parmetros del modelo (2.6), los mismos que son
estimados mediante el mtodo de mnimos cuadrados.
Sea
i
y la estimacin de
i
y , entonces:
ik k i i i
x x x y
......
2 2 1 1 0
+ + + + ,
para i=1, 2, ..., n (2.10)
o equivalentemente:
T
i i
x y (2.11)
siendo:
( )
k
T
,.....,
1 0
X y (2.12)
los residuos ordinarios
i
r es la contraparte muestral de
i
y est dado por:
i i i
y y r
(2.14)
El estimador de
con respecto a
X y X y
T
(2.15)
al minimizarlo se obtiene que:
( ) y X X X
T T
(2.16)
llamada ecuaciones normales.
Como ( ) X X
T
es invertible, por que es simtrica de tamao (k+1)x(k+1) y
de rango completo, entonces la solucin del sistema lineal es:
( ) y X X X
T T
(2.17)
que es sensible a observaciones pobremente ajustados y a los puntos
extremos de X , Montgomery y Peck (1992).
El vector (2.12) de valores estimados para el vector de variables respuesta
es:
X y
( ) y X X X X y
T T
1
(2.18)
a la matriz ( ) y X X X X
T T
1
, se le llama matriz de cambio o de
proyeccin denotada por H, entonces (2.18) es:
y H y
(2.19)
El vector de residuos es:
y y r
y H y r
(2.20)
( )y H I r
(2.21)
Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes
Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
y M r
(2.22)
El vector r
.
El vector residual es importante para detectar puntos extraos. A la matriz
H se le llama matriz sombrero o de proyeccin, ver Cook y Weisberg
(1982). Ahora veamos como queda expresado la suma de cuadrados de los
residuos, denotada por SCE:
( ) ( ) y y y y SCE
T
(2.23)
Reemplazando y
por
X : (2.23) es:
( ) ( )
y X y SCE
T
(2.24)
Y reemplazando
por ( ) y X X X
T T
1
:
( ) y X X X X y y y SCE
T T T T
1
(2.25)
La matriz ( )
T T
X X X X H
1
, entonces:
y H y y y SCE
T T
(2.26)
( )y H I y SCE
T
(2.27)
Sea H I M , entonces (2.27) es:
y M y SCE
T
(2.28)
Bajo el supuesto que ( )
n
I N
2
, 0 ~
, las observaciones
n
y y y ,..., ,
2 1
son independientes y distribuidas cono una Normal n-variada con
( )
+ +
+ +
+ +
(2.33)
(2.33) tiene un grfico similar a la Figura N 2.1, cuando 0
0
< < y
0
1
> > , adems este model o toma valores en el intervalo [ [ ] ] 1 , 0 .
Cuando , [ [ ] ] 5 . 0 1 y P el valor de x es:
1
0
, que brinda informacin
muy til.
Una transformacin de ( ( ) ) x que es lo central del estudio de la Regresin
Logstica es la transformacin logit, transformacin que se define en
trminos ( ( ) ) x como:
Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes
Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
( ( ) )
( ( ) )
( ( ) )
x
x
x
Ln x g
1 0
1
+ +
1 1
] ]
1 1
(2.34)
Lo importante de esta transformacin es que tiene muchas propiedades
semejantes al Modelo de Regresin Lineal simple, por ejemplo es lineal en
sus parmetros, puede ser continua y puede tomar cualquier valor real
dependiendo de x .
Para el Modelo de Regresin Lineal simple, la variable respuesta, de (2.4) se
expresa como:
( ( ) ) + + x y E y (2.35)
para la variable respuesta dicotmica lo expresamos como:
( ( ) ) + + x y (2.36)
veamos que ocurre con este modelo:
Si 1 y , ( ( ) ) x
i
1 y tiene probabilidad ( ( ) ) x
Si 0 y , ( ( ) ) x
i
y tiene probabilidad ( ( ) ) x 1
Entonces
i
tiene distribucin binomial con media cero y varianza
( ( ) ) ( ( ) ) [ [ ] ] x x 1 . Por tanto la distribucin condicional de la variable
respuesta tiene distribucin de probabilidad binomial con media ( ( ) ) x .
El lado izquierdo de (2.34) se llama tambin logaritmo de ODDS RATIO o
razn de probabilidades de 1 y contra 0 y , especificamente:
( ( ) )
( ( ) ) x
x
RATIO ODDS
1
(2.37)
o tambin llamado razn de ventaja a favor de xito.
Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes
Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
2.6 REGRESIN LOGSTICA MLTIPLE
En esta seccin se generaliza el Modelo de Regresin Logstica Simple
tratado en la seccin anterior, es decir consideraremos ms de una variable
regresora, en donde por lo menos una es de tipo cuantitativo.
2.6.1 MODELO DE REGRESIN LOGSTICA MLTIPLE
Sea el vector de variables regresoras ( ( ) )
k
x x x
T
x ,....,
2
,
1
por el
momento asumiremos que estn medidas por lo menos bajo escala
intervalar. Sea la probabilidad condicional para que la variable respuesta sea
igual a 1, denotado por:
( ( ) ) ( ( ) ) x x y P
1 (2.39)
el logaritmo del Modelo de Regresin Logstica Mltiple est dado por:
( ( ) )
ik
x
k i
x
i
x
i
x g + + + + + + + + ......
2 2 1 1 0
+ +
1
(2.41)
Al igual que en el caso de Regresin Lineal Mltiple si es necesario usar
variables regresoras categricas, por ejemplo si una tiene c niveles ser
necesario incorporar c-1 variables ficticias o llamadas dummy., as entonces
el logit para un modelo con k variables regresoras y una variable categrica,
por ejemplo la j-sima es:
( ( ) )
ik
x
k
c
l
jl
D
jl i
x x g
+ +
+ + + + + +
1
1
......
1 1 0
,
para i=1, 2, ..., n
(2.42)
Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes
Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
2.6.2 AJUSTE DEL MODELO DE REGRESIN LOGSTICA MLTIPLE
El ajuste se efecta a travs del uso de los mtodos de mxima
verosimilitud, los mismos que se encuentran en los softwares estadsticos
que permiten analizar datos mediante este mtodo.
Asumiremos que disponemos de una muestra n observaciones
independientes
( ( ) )
i
y
i
x ,
donde ( )
i i
B y , 1 ~ y sea
Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes
Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
( )
k i i
T
i
x x x ., . . . . , , 1
1
+ +
1
| 1 (2.43)
equivalentemente
[ [ ] ]
, ,
_ _
+ + + +
, ,
_ _
+ +
k
j
ij
x
j
Exp
k
j
ij
x
j
Exp
i
x
i
y P
1
0
1
1
0
| 1
(2.44)
y la probabilidad de que
i
y sea igual a cero es:
[ [ ] ] [ [ ] ]
[ [ ] ]
, ,
_ _
+ + + +
k
j
ij
x
j
Exp
i
x
i
y P
: entonces
i
x
i
y P
i
x
i
y P
1
0
1
1
0
, 1 1 0
(2.45)
para facilitar la notacin usaremos la variable indicadora
n i x
i
,..., 2 , 1 , 1
0
.
Entonces (2.44) y (2.45) son respectivamente:
[ [ ] ] ( ( ) )
T
i
x
e
T
i
x
e
i
x
i
x
i
y P
+ +
1
| 1 (2.46)
Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes
Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
[ [ ] ] ( ( ) )
T
i
x
e
i
x
i
x
i
y P
+ +
1
1
1 | 0 (2.47)
donde: ( )
ik i i
T
i
x x x x ,...., ,
1 0
(2.48)
como vemos, (2.48) es una funcin lineal simple del vector de observaciones
i
x
,
escribimos la funcin de densidad de probabilidad del vector y
el cual es
proporcional a n funciones ( )
i
B , 1 , esto es:
( ) ( )
( )
( )
( )
1
]
1
,
_
'
'
1
1
]
1
,
_
'
,
_
n
i i
i
i
n
i
i
n
i
i
y
i
i
n
i
i
n
i
i
i
y
i
i
n
i
i
y
i
i
y
i
i i
Ln y Exp
Ln Exp
y f
1 1
1 1
1
1
1
1
1
1
1
1
1
1 ;
(2.49)
Reemplazando (2.48) en (2.49), se obtiene:
Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes
Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
( ( ) ) ( ( ) )
( ( ) )
; ;
' '
, ,
_ _
; ;
' '
; ;
' '
; ;
' '
k
j
j
n
i
ij
x
i
y Exp
n
1 i
i
- 1
n
i
k
0 j
ij
x
j i
y Exp
n
1 i
i
- 1
i i
y f
0 1
1
;
(2.50)
El logaritmo natural de la funcin (2.50), llamado funcin soporte es:
( ) ( )
+
,
_
k
j
n
i
i j
n
i
ij i i i
x y y l
0 1 1
1 ln ;
(2.51)
( ) [ ]
( ) ( ) [ ]
i
T
i
i
T
x Exp Ln
x Exp
+
+
1 - 1 Ln
entonces , 1 - 1 : (2.47) pero
1
i
( )
1
1
]
1
,
_
ij
k
j
j i
x Exp Ln
0
1 - 1 Ln
(2,52)
reemplazando (2.52) en (2.51), se obtiene:
( )
1
]
1
,
_
n
i
k
j
ij j j
k
j
n
i
ij i i
x Exp Ln x y y
1 0 0 1
i
1 ; l (2.53)
como vemos (2.53) es una funcin que ya no depende de
i
sino de
j
solamente, entonces lo denotamos como:
( )
1
]
1
,
_
,
_
n
i
k
j
ij j
k
j
j
n
i
ij i
x Exp Ln x y L
1 0 0 1
1
(2.54)
Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes
Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
es una funcin que depende exclusivamente del vector
.
Definamos como:
n
i
ij i j
x y t
1
(2.55)
entonces reemplazando (2.55) en (2.54) se tiene:
( )
1
]
1
,
_
+
n
i
k
j
ij j
k
j
j j
x Exp Ln t L
1 0 0
1
(2.56)
Como (2.56) es una funcin exclusiva del vector de parmetros
, por el
Teorema de Factorizacin de Fisher-Neyman, Bickel y Doksum (1976), se
tiene que k 0,1,...., j para
j
t son estadsticas suficientes para los
parmetros ,
j
para j = 0,1,...,k.,
La variable aleatoria
j
t dada en la expresin (2.56) es la suma de algunos
de los trminos de la matriz de diseo X , es decir se incluyen en la suma
solamente los elementos que corresponden a una respuesta del tipo 1 y .
Las ecuaciones de verosimilitud, se obtienen derivando (2.54) con respecto
a los elementos de
e igualando a cero:
1
1
1
1
]
1
,
_
,
_
n
i
n
i
k
j
ij j
k
j
ij j
ij ij i
j
x Exp
x Exp
x x y
L
1 1
0
0
1
(2.57)
las ecuaciones de verosimilitud de (2.57) son:
k j x x y
n
i
i ij
n
i
ij i
....., 2 , 1 , 0 0
1 1
(2.58)
siendo 1
0
i
x , equivalentemente (2.58) es:
Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes
Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
( ) k j y x
n
i
i i ij
....., 2 , 1 , 0 0
1
(2.59)
donde:
0
0
,
_
,
_
k
j
ij j
k
j
ij j
i
x Exp
x Exp
; para i=1,2,...,n
es el estimador mximo verosmil de
i
y se obtiene mediante
j
y el
vector
i
x
La expresin (2.58) en su forma matricial es:
( ) 0
S X y X
T
(2.60)
Estas ecuaciones son parecidas a las ecuaciones normales obtenidas para
estimar el Modelo de Regresin Lineal Mltiple, pero son no lineales en
,
lo cual hace que se use un mtodo iterativo para determinar los valores del
vector
.
La obtencin de
j
.
Sea
) (nxp
X
la matriz de diseo, con p=k+1, con elementos:
Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes
Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
1
1
1
1
1
1
]
1
nk n n
k
k
x x x
x x x
x x x
X
. . 1
. . . . . . . .
. . . . . . . .
. . . . 1
. . . . 1
2 1
2 22 21
1 12 11
Las ecuaciones de verosimilitud en su forma matricial, de la expresin (2.60):
X y X
T T
(2.61)
donde ( )
n
, . . . , ,
2 1
T
( ) 0
1
n
i
i i ij
y x (2.62)
El mtodo de estimacin de las varianzas y covarianzas lo obtendremos de
la matriz de segunda derivada parcial de (2.62): y tiene la forma:
( )
i i
n
i
ij
j
x
L
1
1
2
2
2
(2.63)
para j=0, 1, 2, ....., k
reemplazando: la ecuacin para
i
en (2.63)
k ., . . . 0,1, para
1
1
2
0
0
2
2
2
1
1
]
1
,
_
,
_
j
x Exp
x Exp x
L
n
i
k
j
ij j
k
j
ij j ij
j
(2.64)
Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes
Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
( )
k , 0,1,2,.... l j, para
1
1
2
n
i
i i il ij
l j
x x
L
(2.65)
reemplazando:
1
]
1
,
_
,
_
n
i
k
j
ij j
k
j
ij j
il ij
l j
x Exp
x Exp
x x
L
1
2
0
0
2
1
(2.66)
Tanto (2.64) como (2.65) no son funciones de
i
y , entonces la matriz de
observacin y la matriz de segunda derivada esperada son idnticas.
Ahora bien la matriz que contiene el negativo de las ecuaciones (2.64) y
(2.66) se denota con ( )
,
_
ov C se
obtiene evaluando
Entonces la matriz de informacin estimada, matricialmente tiene la forma:
VX X'
,
_
(2.68)
V es una matriz diagonal, esto es:
( ( ) ) [ [ ] ]
i i
Diag V 1
( ) .
en
Cov
Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes
Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
de tamao nxn, adems (2.68) es:
( ) ( )
1
'
VX X ov C
(2.69)
y es de tamao (k+1)(k+1)
escribiremos los elementos de la matriz (2.69)
( )
( ) ( ) ( )
( ) ( )
( )
1
1
1
1
1
1
1
]
1
k
k
k
ov C
. . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . .
. . . . .
2
1 1
0 1 0 0
2
donde:
( )
j
2
es la varianza estimada de
j
( )
l
j
es la covarianza estimada de
j
y
l
( )
j
es el error estandar de
j
La matriz (2.69) ser muy til cuando se discuta el ajuste y la evaluacin del
Modelo de Regresin Logstica.
2.6.3 MTODO DE NEWTON RAPHSON PARA ESTIMAR LOS
PARMETROS DEL MODELO DE REGRESIN LOGSTICA.
Este es un mtodo para resolver ecuaciones no lineales, como las obtenidas
en (2.57) o equivalentemente en (2.58), y requieren una solucin mediante
mtodos iterativos para hallar la estimacin de los parmetros que es el
mximo de la funcin (2.54).
Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes
Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
Uno de los mtodos ms usados para resolver ecuaciones de este tipo, es el
de Newton-Raphson, porque converge rpidamente. En la figura
N 2.2 se ilustra el mtodo.
Tomando como estimacin inicial
1
x , se prolonga la tangente a la curva en
este punto hasta interceptar con el eje de las abscisas al cual llamaremos
punto
2
x , entonces se toma a
2
x como la siguiente aproximacin.
Este proceso continua hasta que un valor de
2
x haga que la funcin sea
nula o suficientemente cercana a cero.
Para la estimacin del vector
S y ( )
n
i
ij
t
i
i
j
x y
L
1
(2.71)
La cual es similar a la expresin (2.59):
( ) k j y x
i
i i ij
..., , 2 , 1 0
La Funcin de informacin es una matriz de tamao (k+1)(k+1) donde el i -j
simo elemento (l,j) es:
( )
1
]
1
n
i
i i ij
l l j
y x
l
1
2
1
1
1
]
1
n
i
i
x
T
i
x
T
n
i
ij i ij
l
e
e
x y x
1 1
1
1
1
1
1
1
]
1
,
_
,
_
2
1
1
1
i
x
T
i
x
T
il
i
x
T
i
x
T
il
i
x
T
n
i
ij
e
e x e e x e
x
,
_
n
i
i
x
T
i
x
T
il ij
e
e x x
1
2
1
( )
n
i
i i il ij
x x
1
1 j=0,1,....,k ; l =0,1,....,k
(2.72)
Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes
Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
donde
( ) t
, obtenida de
( ) t
mediante:
( )
( )
( )
1
1
]
1
,
_
,
_
ij
k
j
t
j
ij
k
j
t
j
t
i
x Exp
x Exp
0
0
1
(2.73)
Entonces el prximo valor reemplazando en (2.70) es:
( ) ( ) ( )
{ }
( )
( )
t T t T t t
y X X V X
+
1
1
(2.74)
donde
( ) ( ) ( )
( ) [ ]
t
i
t
i
t
Diag V 1
La expresin (2.70) se usa para obtener
( ) 1 + t
y as sucesivamente.
Despus de dar un valor inicial
( ) 0
y
para t>0 las iteraciones siguientes se efectan usando (2.70) y (2.71).
En el lmite,
( ) t
y
( ) t
y converge en general
en 5 o 6 iteraciones.
Existen software estadsticos como el SAS y el SPSS con programas para
estimar una regresin logstica usando el mtodo descrito. Una ventaja de
este mtodo es que en el paso final del proceso iterativo se obtiene la
inversa de la funcin de informacin, que es asintticamente la matriz de
varianzas y covarianzas del vector
. . . . .
2 1 1 0
) 0 (
) 1 (
(2.75)
Ms an, estn expresados en logaritmos, por lo que sera necesario
transformarlos (tomando los valores del antilogaritmo) de tal forma que se
evale ms fcilmente su efecto sobre la probabilidad. Los programas de
computador lo hacen automticamente calculando tanto el coeficiente real
como el transformado. Utilizar este procedimiento no cambia en modo
alguno la forma de interpretar el signo del coeficiente. Un coeficiente
positivo aumenta la probabilidad, mientras que un valor negativo disminuye
la probabilidad. As pues si es positivo, su transformacin (antilog) ser
mayor a 1, y el odds ratio aumentar. Este aumento se produce cuando la
probabilidad prevista de ocurrencia de un suceso aumenta y la probabilidad
prevista de su no ocurrencia disminuye. Por lo tanto, el modelo tiene una
elevada probabilidad de ocurrencia. De la misma forma, si es negativo, el
antilogaritmo es menor que 1 y el odds ratio disminuye. Un valor de cero
equivale a un valor de 1, lo que no produce cambio en el odds. Hair (1999)
Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes
Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
2.6.4 PRUEBA DE HIPTESIS PARA LOS COEFICIENTES DEL
MODELO DE REGRESIN LOGSTICA.
Usualmente en la estimacin del Modelo de Regresin Logstica, como en el
Modelo de Regresin Lineal Mltiple se efectan pruebas con objetivos
diferentes, siendo estos:
1. Determinar si una variable explicativa tiene coeficiente igual a cero.
2. Determinar si un conjunto de variables explicativas tienen coeficientes
igual a cero.
3. Determinar la calidad del ajuste global del modelo.
Veamos para cada objetivo, como se efecta el anlisis.
2.6.5.1 PRUEBA DE WALD
Wald(1943) estudio una prueba asinttica para estimaciones mximos
verosmiles, y asever que los parmetros estimados en los modelos
logsticos tiene una Distribucin Normal para muestras grandes.
Esta prueba se usa para evaluar la significancia estadstica de cada variable
explicativa o regresora.
Sea
( ) t
y.
n
y y y , ,......... ,
2 1
variables
respuesta binaria independientes cuyas probabilidades satisfacen.
( )
T
i i
x Logit
donde [ ]
i i i
x y P
1
Siendo
i
x
.
Sin perdida de generalidad, seleccionaremos
j
como el parmetro de
inters.
Supngase que las hiptesis son:
Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes
Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
0 1
0 0
:
:
j j
j j
H
H
(2.76)
sea
j
un EMV de
j
y sea:
( )
1
1
VX X I
T
la inversa de la matriz de informacin muestral,
entonces la estadstica de Wald para dcimar (2.75) es:
( )
( )
j
j j
W
2
2
0
(2.77)
donde ( )
j
.
Bajo
0
H ,
( )
2
1
~ W y para n suficientemente grande se tiene que:
( ) ( )
,
_
,
_
1 ,
0 0
j
j j
j
j j
N z
(2.78)
por tanto:
( )
2
1 ,
2
~
z , es
2
con parmetro de no centralizacin:
( )
( )
j
j j
2
0
(2.79)
ver Hanck y Donner (1977)
Pero la estadstica W, tiene la propiedad que cuando el valor absoluto del
coeficiente de Regresin es grande, el error estndar tambin lo es; esta
situacin hace que la estadstica W sea pequea y por tanto se puede
rechazar
j
igual a cero, cuando en realidad no debera rechazarse.
Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes
Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
Por tanto, cuando se encuentra que un coeficiente es grande, es preferible
no usar la estadstica de Wald para efectuar dcima individual. Sino se
recomienda construir un modelo con y sin esa variable y basarse en la
prueba de hiptesis de la diferencia entre los dos modelos, ver Hanck y
Donner (1977).
Para las hiptesis estadsticas:
0 :
0 :
1
0
j
j
H
H
(2.80)
La estadstica (2.77) es:
( )
( )
j
j
W
2
2
(2.81)
Bajo
( )
2
1
0
~ , W H y para n suficientemente grande se tiene que:
( ) ( )
,
_
1 ,
j
j
j
j
N z
(2.82)
por tanto:
( )
2
1 ,
2
~
z
2
z se distribuye como una
2
) 1 , (
con parmetro de no centralizacin:
( )
( )
j
j
2
2
(2.83)
si la variable explicativa es categrica, los grados de libertad es igual al
nmero de categoras o niveles de la variable menos uno.
Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes
Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
2.6.5.2 PRUEBA CHI-CUADRADO
Esta prueba sirve para lograr el segundo objetivo propuesto al iniciarse la
seccin 2.6.4 y sirve para docimar los coeficientes del modelo logstico.
Para elegir un modelo, se usa la prueba de razn de verosimilitud, Bickel y
Docksum (1977), para probar la hiptesis de que los coeficientes
j
correspondientes a las variables explicativas retiradas, digamos q variables
explicativas, del modelo son iguales a cero, siendo la hiptesis estadsticas:
q j un menos lo por para H
H
j
q
,..., 2 , 1 , 0 :
0 .... :
1
2 1 0
.Esta prueba se basa en la siguiente estadstica:
[ ]
p q p q
L Ln L Ln
2
2
(2.84)
Bajo la hiptesis de que los coeficientes de las variables retiradas son
iguales a cero, la estadstica (2.84) tiene una distribucin asinttica
( )
2
q
.
Valores altos para esta estadstica indican que una o ms de las q variables
retiradas tienen coeficiente de regresin distinto de cero.
La estadstica
2
q
se usa tambin para probar si una variable explicativa
determinada, por ejemplo
k
x , muestra una asociacin significativa (como
factor de riesgo cuando se aplica a casos de enfermedades) para con la
variable respuesta en la presencia de las dems variables
1 2 1
,..., ,
k
x x x .
2.6.5.3 ESTADISTICA CHI-CUADRADA DE PEARSON
Esta estadstica sirve para lograr el objetivo nmero 3, es decir evaluar el
modelo ajustado en forma global. La estadstica se basa en la comparacin
de los valores observados,
i
y ; y sus respectivas probabilidades estimadas,
i
.
Las hiptesis estadsticas para usar esta estadstica son:
Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes
Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
k j un menos lo por para H
H
j
k o
,..., 2 ,., 1 , 0 , 0 :
0 .... :
1
1 0
esta prueba se basa en la estadstica Chi-cuadrado de Pearson, que est
dada por:
( )
( )
n
i
i i
i i
y
1
2
2
(2.85)
o equivalentemente
n
i ii
i
v
r
1
2
2
(2.86)
donde:
( )
( ) ( )
i i ii
i i i
V Diag v
y r
como observamos la estadstica (2.86) es igual a (1.52).
Bajo la hiptesis nula, de que el modelo se ajusta bien a los valores
observados, la
estadstica (2.86) tiene distribucin asinttica Chi-cuadrado
( ) ( )
2
1 + k n
.
Valores altos de la estadstica Chi-cuadrado de Pearson indican
discrepancias con el modelo terico, Cordeiro (1992).
La estadstica (2.86) es inestable cuando
i
toma valores cercanos a cero o
uno, por ello tomar en cuenta esta observacin, cuando se realiza el anlisis.
2.6.5.4 DESVIANZA
Otra forma de probar el ajuste global del modelo, es mediante la estadstica
llamada Desvianza, propuesta por Nelder y Wederburn (1982), es anlogo a
la suma de cuadrados de los residuales del Modelo de Regresin Lineal
Mltiple.
Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes
Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
Las hiptesis estadsticas son:
k j un menos lo por para H
H
j
k
,..., 2 ,., 1 , 0 :
0 .... :
1
1 0
Esta estadstica se usa para evitar la inestabilidad de la estadstica Chi-
cuadrado de Pearson. La Desvianza esta dada por:
n
i
i p
d D
1
2
(2.87)
donde :
n j
y si p
y si p
d
i i
i i
i
,..., 2 , 1 ;
0 ) 1 log( 2
1 log 2
'
La Desvianza bajo la hiptesis nula, asintticamente, es la misma que la
distribucin Chi-cuadrado de Pearson, es decir se distribuye
( ) ( )
2
1 + k n
y
mide la discrepancia o el desvio entre el modelo bajo investigacin o actual y
el modelo saturado.
La estadstica (2.87) para el modelo de regresin logstica eta dada por:
( ) ( ) ( ) ( )
+
i i i i
y y D
1 log 1 log 2 (2.88)
Cuando el modelo bajo investigacin es verdadero se compara el valor D
con el valor crtico
2
) ( p n
de una distribucin
2
a un nivel de
significacin igual a , por tanto :
Si
2
) ( p n
D
> el modelo se rechaza y
Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes
Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
Si
2
) ( p n
D
el modelo no se rechaza.
donde 1 + k p
2.6.5.5 TABLA DE CLASIFICACION
Tambin llamada Matriz de Confusin, es una forma sencilla de evaluar el
ajuste del Modelo de Regresin Logstica, no es tan objetiva pero se usa
como indicador de bondad de ajuste.
Es una tabla sencilla de 2x2, en el cual se muestra la distribucin de los
objetos que pertenecen a las categoras 1 y 2, es decir cuando 0 y y
cuando 1 y , conjuntamente con la clasificacin a cualquiera de las 2
categoras de acuerdo a la probabilidad estimada.
Para interpretar se hace mediante el porcentaje de objetos bien clasificados,
esto es, aquellos que mediante la probabilidad estimada permanecen en su
respectiva categora. Tambin se interpreta mediante el porcentaje de
objetos mal clasificados, esto es, aquellos que mediante la probabilidad
estimada se asignan a categoras diferentes del cual fueron observados.
TABLA DE CLASIFICACION
GRUPO ESTIMADO GRUPO
ACTUAL
0
1
TOTAL
MARGINAL
0
11
n
12
n
12 11
n n +
1
21
n
22
n
22 21
n n +
TOTAL
MAGINAL
21 11
n n +
22 12
n n +
n
Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes
Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
% 100
22 11
x
n
n n +
es el porcentaje de objetos bien clasificados
mediante el Modelo de Regresin Logstica estimado.
Por tanto, lo que se debe esperar es que este porcentaje sea lo ms alto
posible, a fin de concluir que el modelo obtenido clasifica bien a los objetos o
individuos.
2.6.5.6 CONTRASTE DE BONDAD DE AJUSTE DE HOSMER
LEMESHOW
Este contraste evala la bondad de ajuste del modelo, es decir el grado en
que la probabilidad predicha coincide con la observada, construyendo una
tabla de contingencia a la que aplica un contraste
2
. Para ello calcula los
deciles de las probabilidades estimadas ( n i p
i
,... 2 , 1 ; ) , D
1
,D
2
,....D
9
y
divide los datos observados en 10 categoras dadas por :
10 ,.., 2 , 1 ; } } ,..., 2 , 1 { / ) [ {
, 1
j n i D D p A
j j i j
donde D
0
= 0 , D
10
= 1.
Sean:
n
J
= nmero de casos en Aj ; j=1,2,...,10
o
j
= nmero de y
i
=1 en A
j
; j=1,2,...,10
10 ,... 2 , 1 ;
1
j p
n
p
j
A i
i
j
j
El estadstico del contraste viene dado por :
10
1
2
) 1 (
) (
j
j j j
j j j
p p n
p n o
T
(2.89)
y el p-valor del contraste es
[ ]
obs
T P
2
8
.z
Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes
Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
2.6.6 DIAGNOSTICO DEL MODELO
Es la evaluacin de la bondad de ajuste caso por caso mediante el anlisis
de los residuos del modelo y de su influencia en la estimacin del vector de
parmetros del mismo, se realiza usando:
2.6.6.1 RESIDUOS DEL MODELO
Los residuos ms utilizados son los siguientes:
Residuos estandarizados.- Son el cociente entre los residuales y una
estimacin de la desviacin estndar.
n i
p p
p y
z
i i
i i
i
,..., 2 , 1 ;
) 1 (
(2.90)
Residuos studentizados.- Son el cambio en el valor de la desvianza del
modelo si el caso es excludo.
( )
( ) ( )
n i
p p
p y
st
i i
i i
i
,..., 2 , 1 ;
) 1 (
(2.91)
donde ( ) i
p
es la estimacin de
i
p
obtenida eliminando la observacin i
de la muestra.
Residuos Desvianza.- Para cada observacin la desvianza se calcula :
n j
y si p
y si p
d
i i
i i
i
,..., 2 , 1 ;
0 ) 1 log( 2
1 log 2
'
(2.92)
Todos estos residuos se distribuyen aproximadamente como una N(0,1), si
el modelo ajustado es correcto.
2.6.6.2 MEDIDAS DE INFLUENCIA
Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes
Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
Cuantifican la influencia que cada observacin ejerce sobre la estimacin del
vector de parmetros o sobre las predicciones hechas a partir del mismo, de
modo que, cuanto ms grande son, mayor es la influencia que ejerce una
observacin en la estimacin del modelo.
Medida de Apalancamiento (Leverage)
Se utiliza para detectar observaciones que tienen un gran impacto en los
valores predichos por el modelo.
Se calcula a partir de la matriz
2 / 1 1 2 / 1
' ) ' ( W X WX X X W H
donde
) 1 (
i i
p p diag W . El apalancamiento para la observacin i-sima viene
dado por el elemento i-simo de la diagonal principal de H, hi i , y toma
valores entre 0 y 1 con un valor medio de p/n.
Las dos medidas siguientes miden el impacto que tiene una observacin en
la estimacin de .
Distancia de Cook.- Mide la influencia en la estimacin de .
( ) ( )
) (
'
) (
'
1
i i i
WX X
p
COOK
(2.93)
DFBETA.- Mide la influencia en la estimacin de una componente de ,
i
)
1
1
) ( 1 1
std
Dfbeta
i
i
(2.94)
donde
) ( 1 1
i
denotan las estimaciones del mdelo logstico de y
1,
eliminando la i-sima observacin de la muestra y )
(
1
std el error estndar
en la estimacin de 1.
2.6.7 VARIABLES EXPLICATIVAS CATEGORICAS VARIABLES
DUMMY
Si una de las variables explicativas es categrica, con c valores posibles, se
crean c-1 variables dicotmicas como variables explicativas tambin
Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes
Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
llamadas variables dummy. Estas variables cuantifican el efecto de un valor
de dichas variables con respecto a un valor de referencia.
Estas variables se usan cuando los datos se muestran como categoras, las
categoras pueden ser:
Nominales: La variable simplemente indica diferentes categorias, las
categoras no pueden ser ordenadas en un orden particular. Ejemplo : Sexo
(hombre,mujer).
Ordinales: La variable adems de estar agrupada en categoras puede ser
ordenada. El que una categora este en un orden superior que otra implica
que su medida representa algo mayor que la otra. Ejemplo: Clase social
(baja, media, alta).
Intervalares: La variables no solo puede ser ordenada, sino que su valor
mide la distancia entre categoras. Estas tienen estndares de unidades de
medida.
Ejemplo: Altura, temperatura, presin sangunea.
Cuando se tiene variables de este tipo se crean las llamadas variables
dummy, si la variable tiene c categorias se usan c-1 variables ficticias o
dummy. La variable indica si un dato corresponde a una categora o no.
Veamos un ejemplo de cmo se hace esto:
Supongamos que tenemos una variable clase social, codificada 1: Baja,
2:Media, y 3:Alta, entonces creamos dos variables dummy :
Clase1 : 1 si el dato corresponde a la clase social Baja, 0 si el dato no
pertenece a la clase Baja.
Clase2 : 1 si el dato corresponde a la clase social Media, 0 si el dato no
pertenece a la clase Media.
Como se puede ver estas nos permiten clasificar cualquier dato en una de
las categorias existentes.
Supongamos que creamos las variables dummy Ind1 e Ind2 para una
variable X1 de tres categoras, como sigue:
X1 Ind1 Ind2
Estimacin de la ocurrencia de incidencias en declaraciones de
plizas de importacin. Salcedo Poma, Celia Mercedes
Elaboracin y diseo en formato PDF, por la Oficina General del Sistema de Bibliotecas y
Biblioteca Central UNMSM
1 1 0
2 0 1
3 0 0
En este caso la ecuacin del modelo ajustado viene dada por:
2 1
) ; 2 , 1 ( 1
) ; 2 , 1 (
log
2 1 0
Ind Ind
Ind Ind p
INd Ind p
+ +
,
_
(2.95)
Sea p
i
= p[y=1/X1=i]; i=1,2,3. Se tiene:
0 2 0 1 0
3
3
2
2
1
1
1
,
1
,
1
e
p
p
e
p
p
e
p
p
+ +
Se sigue que:
2 1
3
3
2
2
3
3
1
1
1 1
,
1 1
e
p
p
p
p
e
p
p
p
p
Por lo tanto, 2 , 1 , i e
i