Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1 Introducci
on
1.1 Antecedentes . . . . . . . . . . . . . . . . . . . . . .
1.2 Alcance . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Notacion . . . . . . . . . . . . . . . . . . . . . . . . .
1.4 Distribuciones relacionadas con la distribucion normal
1.4.1 Distribuciones Normales . . . . . . . . . . . .
1.4.2 Distribucion Chi-cuadrada . . . . . . . . . . .
1.4.3 Distribucion-t . . . . . . . . . . . . . . . . . .
1.4.4 Distribucion F . . . . . . . . . . . . . . . . . .
1.5 Formas cuadraticas . . . . . . . . . . . . . . . . . . .
1.6 Estimacion . . . . . . . . . . . . . . . . . . . . . . . .
1.6.1 Estimacion de maxima verosimilitud . . . . .
1.6.2 Ejemplo: Distribucion Poisson . . . . . . . .
1.6.3 Estimacion por mnimos cuadrados . . . . . .
1.6.4 Comentarios sobre estimacion . . . . . . . . .
1.6.5 Ejemplo: Ciclones tropicales . . . . . . . . . .
1.7 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5
5
5
9
10
10
11
12
12
13
14
14
15
15
16
17
18
21
21
21
21
25
34
34
34
35
35
37
37
38
39
39
39
40
41
INDICE GENERAL
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
45
45
46
46
47
48
48
51
52
52
52
53
55
4 Estimaci
on
4.1 Introduccion . . . . . . . . . . . . . . . . . . . . . .
4.2 Ejemplo: Tiempos de fallo de recipientes de presion
4.3 Estimacion de Maxima Verosimilitud . . . . . . . .
4.4 Ejemplo de regresion de Poisson . . . . . . . . . . .
4.5 Ejercicios . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
58
58
58
63
66
68
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5 Inferencia
5.1 Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2 Distribuciones muestrales para estadsticos de puntuacion . . . . . . . .
5.2.1 Ejemplo: Estadstico de puntuacion para la distribucion Normal
5.2.2 Ejemplo: Estadstico de puntuacion para la distribucion Binomial
5.3 Aproximaciones por series de Taylor . . . . . . . . . . . . . . . . . . . .
5.4 Distribucion muestral para estimadores de maxima verosimilitud . . . .
5.4.1 Ejemplo: Estimadores de maxima verosimilitud para el modelo
lineal Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.5 Estadstico de razon de Log-verosimilitud . . . . . . . . . . . . . . . . .
5.6 Distribucion muestral para la desvianza . . . . . . . . . . . . . . . . . .
5.6.1 Ejemplo: Desvianza para un modelo binomial . . . . . . . . . .
5.6.2 Ejemplo: Desvianza para un modelo lineal Normal . . . . . . . .
5.6.3 Ejemplo: Desvianza para un modelo Poisson . . . . . . . . . . .
5.7 Prueba de hipotesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.7.1 Ejemplo: Prueba de hipotesis para un modelo lineal Normal . .
5.8 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
70
70
71
72
73
73
74
85
85
85
85
86
86
87
88
89
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
75
76
77
78
78
80
81
82
83
INDICE GENERAL
6.3
6.4
6.5
6.6
6.7
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
89
90
90
93
94
95
95
100
105
108
109
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
114
114
115
115
118
120
122
123
126
127
128
129
8 Regresi
on Logstica Nominal y Ordinal
8.1 Introduccion . . . . . . . . . . . . . . . . . . .
8.2 Distribucion Multinomial . . . . . . . . . . . .
8.3 Regresion logstica nominal . . . . . . . . . .
8.3.1 Ejemplo: preferencias de autos . . . . .
8.4 Regresion logstica ordinal . . . . . . . . . . .
8.4.1 Modelo logit acumulado . . . . . . . .
8.4.2 Modelo de momios proporcional . . . .
8.4.3 Modelo logit con categoras adyacentes
8.4.4 Modelo logit con razon continua . . . .
8.4.5 Comentarios . . . . . . . . . . . . . . .
8.4.6 Ejemplo: preferencias de carros . . . .
8.5 Comentarios generales . . . . . . . . . . . . .
8.6 Ejercicios . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
134
134
134
136
138
142
143
143
144
145
145
145
146
147
.
.
.
.
.
.
.
.
.
.
.
149
149
150
152
154
155
INDICE GENERAL
9.3.2
9.4
9.5
9.6
9.7
9.8
9.9
10 An
alisis de Supervivencia
10.1 Introduccion . . . . . . . . . . . . . . . . . . . . . .
10.2 Funciones de Supervivencia y funciones de riesgo . .
10.2.1 Distribucion Exponencial . . . . . . . . . . .
10.2.2 Modelos de riesgos proporcionales . . . . . .
10.2.3 Distribucion Weibull . . . . . . . . . . . . .
10.3 Funcion de supervivencia emprica . . . . . . . . . .
10.3.1 Ejemplo:Tiempos de remision . . . . . . . .
10.4 Estimacion . . . . . . . . . . . . . . . . . . . . . . .
10.4.1 Ejemplo: modelo exponencial simple . . . .
10.4.2 Ejemplo: Modelo Proporcional de Riesgos de
10.5 Inferencia . . . . . . . . . . . . . . . . . . . . . . .
10.6 Comprobacion del modelo . . . . . . . . . . . . . .
10.7 Ejemplo: Tiempo de remision . . . . . . . . . . . .
10.8 Ejercicios . . . . . . . . . . . . . . . . . . . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
Weibull
. . . . .
. . . . .
. . . . .
. . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
156
157
159
159
159
160
160
162
162
162
163
165
166
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
169
169
171
172
173
173
175
175
178
179
180
180
181
183
183
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
188
188
190
194
198
200
202
203
205
Captulo 1
Introducci
on
1.1.
Antecedentes
1.2.
Alcance
Todos los metodos estadsticos considerados en este libro implican el analisis de las
relaciones entre las medidas realizadas en grupos de sujetos u objetos. Por ejemplo, las
mediciones podran ser las alturas o los pesos y las edades de los ni
nos y las ni
nas,
o el rendimiento de las plantas bajo diferentes condiciones de cultivo. Utilizamos los
terminos de respuesta, resultado o variable dependiente para las mediciones que
estan libres para variar en respuesta a otras variables llamadas variables explicativas
o variables predictoras o variables independientes- aunque este u
ltimo termino
a veces puede ser enga
nosa. Las respuestas son considerados como variables aleato5
CAPITULO 1. INTRODUCCION
rias. Las variables explicativas son tratadas normalmente como si fueran medidas u
observaciones no aleatorias; por ejemplo, pueden ser fijados por el dise
no experimental.
Las variables respuestas y explicatorias se miden en una de las siguientes escalas.
1. Clasificacion Nominal: e.g., rojo, verde, azul; si, no, no lo se, no aplicable. En
particular, para variables binarias, dicotomicas o binomiales solo hay dos
categoras: masculino, femenino; muerto, vivo; hojas lisas, hojas aserradas. Si
hay mas de dos categoras la variable se llama policot
omico, polit
omico o
multinomial.
2. Clasificacion Ordinal en el que hay alg
un de orden natural o clasificacion entre las
categoras: e.g.,joven, de mediana edad, viejo; presion arterial diastolica agrupadas
como 70, 71-90, 91-110, 111-130, 131mm Hg.
3. Las mediciones continuas donde las observaciones pueden, al menos en teora,
caer en cualquier parte de un continuo: e.g., el peso, la longitud o el tiempo.
Esta escala incluye tanto a la escala de intervalo como a mediciones en escala
de razon -Estos u
ltimos tienen un cero bien definido. Un ejemplo particular de
una medicion continua es el tiempo hasta que se produce un evento especfico,
tal como el fallo de un componente electronico; la duracion de tiempo desde un
punto inicial conocido se denomina tiempo de fallo.
Los datos nominales y ordinales a veces se llaman variables categ
oricas o discretas y por lo general se registran el n
umero de observaciones, conteos o frecuencias
en cada categora. Para los datos continuos se registran las mediciones individuales . El
termino cuantitativo se utiliza a menudo para una variable medida en una escala continua y el termino de cualitativa para nominal y, a veces para mediciones ordinales.
Una variable cualitativa, explicativa se llama factor y sus categoras se denominan
niveles del factor. Una variable explicativa cuantitativa a veces se llama covariable.
Los metodos de analisis estadstico dependen de las escalas de medicion de las
variables respuesta y explicatorias.
Este libro se ocupa principalmente de los metodos estadsticos que son pertinentes
cuando solo hay u
na variable respuesta, aunque normalmente habra varias variables explicatorias. Las respuestas medidas en los diferentes sujetos se supone generalmente como variables aleatorias estadsticamente independientes, aunque este requisito se elimina en el u
ltimo captulo que trata de datos correlacionados. El Cuadro 1.1 muestra los
principales metodos de analisis estadstico para diversas combinaciones de las variables
respuesta y explicatorias y los captulos en los que estos se describen.
En el presente captulo resume algo de la teora estadstica utilizada en todo el libro.
Los Captulos 2 al 5 cubren el marco teorico que es com
un a los captulos posteriores.
Los u
ltimos captulos se centran en metodos de analisis de determinados tipos de datos.
Captulo 2 desarrolla las ideas principales de modelos estadsticos. El proceso de
modelado consta de cuatro pasos:
1. Especificacion de modelos en dos partes: ecuaciones que vinculan la respuesta y las
variables explicativas, y la distribucion de probabilidad de la variable respuesta.
2. Estimacion de los parametros utilizados en los modelos.
3. Comprobacion de lo bien que los modelos se ajustan los datos reales.
CAPITULO 1. INTRODUCCION
Cuadro 1.1: Los principales metodos de analisis estadstico para la respuesta y las variables explicativas medidos en varias escalas y referencias de los captulos de este libro.
Respuesta (Captulo)
Continua(Captulo 6)
Binaria (Captulo 7)
Variable Explicatoria
Binaria
Metodos
Prueba t
Analisis de varianza
Ordinal
Analisis de varianza
Continua
Regresion Multiple
Nominal y algunas
continuas
Categoricas y continuas
Categoricas
Analisis de covarianza
Continua
Logstico,
probit
y
otros modelos de dosisrespuesta
Regresion Multiple
Tablas de Contingencias,
Regresion logstica
Categoricas y continuas
Nominal con > 2
Nominal
categoricas (Captulo 8 y Categoricas y continuas
9)
Regresion logstica
Tablas de Contingencias
Regresion Logstica Nominal
Ordinal (Captulo 8)
Conteos (Captulo 9)
Categoricas y continuas
Categoricas
Categoricas y continuas
Categoricas y continuas
Regresion Poisson
Analisis de Supervivencia
(parametrico)
Ecuaciones
de
Estimacion Generalizadas y
Modelos Multinivel
Los tres captulos siguientes proporcionan los antecedentes teoricos. Captulo 3 es acerca de la familia de distribuciones exponenciales, que incluye la Normal, Poisson
y distribuciones binomiales. Tambien cubre los modelos lineales generalizados (como se
define por Nelder y Wedderburn, 1972). La regresion lineal y muchos otros modelos son
CAPITULO 1. INTRODUCCION
CAPITULO 1. INTRODUCCION
lagh y Nelder (1989), Aitkin et al. (1989) y Healy (1988). Tambien hay muchos libros
sobre los modelos lineales generalizados especficos como Hosmer y Lemeshow (2000),
Agresti (1990, 1996), Collett (1991, 1994), Diggle, Liang y Zeger (1994), y Goldstein
(1995).
1.3.
Notaci
on
Y1
..
.
Yn
denota un vector de parametros y X en una matriz. El exponente T es usada para
una transposicion de matriz o cuando un vector columna se escribe como renglon, e.g.,
y = [Y1 , . . . , Yn ]T .
La funcion de densidad de probabilidad de una variable aleatoria continua Y (o el
funcion de masa de probabilidad si Y es discreta) se denomina simplemente como una
distribuci
on de probabilidad y denotado por
f (y; )
donde representa los parametros de la distribucion. Utilizamos punto () como subndices
para la suma y barras () para medias, as
N
1
1X
yi = y .
y =
n i=1
N
El valor esperado y la varianza de una variable aleatoria Y se denotan por E(Y ) y
var(Y ) respectivamente. Suponga que variables aleatorias Y1 , . . . , YN son independientes con E(Yi ) = i y var(Yi ) = i2 para i = 1, . . . , n. Sea W una variable aleatoria
que es combinaci
on lineal de las Yi s
W = a1 Y1 + a2 Y2 + . . . + an Yn ,
(1.1)
CAPITULO 1. INTRODUCCION
10
(1.2)
(1.3)
y la varianza es
1.4.
1.4.1.
Distribuciones Normales
1
exp
.
f (y; , 2 ) =
2
2 2
Denotamos esto por Y N (, 2 ).
2. La distribucion Normal con = 0 y 2 = 1, Y N (0, 1), es llamada Distribuci
on Normal Estandard.
3. Sean Y1 , . . . , Yn que denotan variables aleatorias normalmente distribuidas con
Yi N (i , i2 ) para i = 1, . . . , n y sean las covarianzas de Yi y Yj denotadas por
cov (Yi , Yj ) = ij i j ,
donde ij es el coeficiente de correlacion para Yi y Yj . Entonces la distribucion
conjunta de las Yi s es la Distribuci
on Normal Multivariada con media el
vector = [1 , . . . , n ]T y la matriz de varianza-covarianza V con elementos de
la diagonal i2 y fuera de la diagonal los elementos ij i j para i 6= j. Escribimos
esto como y N(, V), donde y = [Y1 , . . . , Yn ]T .
4. Supongamos que las variables aleatorias Y1 , . . . , Yn son independientes e identicamente distribuidas con distribuciones Yi N (i , i2 ) para i = 1, . . . , n. Si
W = a1 Y 1 + a2 Y 2 + . . . + an Y n ,
donde las ai s son constantes. Entonces W tambien esta distribuida normalmente,
de modo que
!
n
n
n
X
X
X
W =
ai Y i N
ai i ,
a2i i2
i=1
i=1
i=1
CAPITULO 1. INTRODUCCION
1.4.2.
11
Distribuci
on Chi-cuadrada
1. La distribuci
on chi-cuadrada central con n grados de libertad se define como
la suma de los cuadrados de n variables aleatorias independientes Z1 , . . . , Zn cada
una con la distribucion Normal estandar. Se denota por
2
X =
n
X
Zi2 2 (n).
i=1
Pn
i=1
i
i=1
porque cada una de la variables Zi = (Yi i ) /i tienen distribucion Normal
estandard N (0, 1).
4. Sean Z1 , . . . , Zn variables aleatorias independientes cada una con distribucion
N (0, 1) y sea Yi = Zi + i , donde al menos una de las i s es no cero. Entonces
la distribucion de
X
X
X
X
X
Yi2 =
(Zi + i )2 =
Zi2 + 2
Z i i +
2i
P 2
tiene media mayor n + y variamza mayor 2n + 4 que 2 (n) donde =
i .
Esto se conoce como la distribuci
on chi-cuadrada no central con n grados de
libertad y el par
ametro de no centralidad . Esta es denotada por 2 (n, ).
5. Supongase que las Yi s no necesariamente son independientes y el vector y =
[Y1 , . . . , Yn ]T tienes distribucion Normal Multivariada y N(, V) donde la matriz de varianza-covarianza es no singular y su inversa es V1 . Entonces
X 2 = (y )T (y ) 2 (n)
(1.5)
i=1
i=1
CAPITULO 1. INTRODUCCION
12
8. Sea y N(, V), donde y tiene n elementos, pero las Yi no son independientes
tal que V es singular con rango k < n y la inversa de V no esta definida de
manera u
nica. Sea V que denota la inversa generalizada de V. Entonces la
variable aleatoria yT V y tiene distribucion chi-cuadrada no central con k grados
de libertad y parametro de no centralidad = T V .
Para mas detalles acerca de las propiedades de la distribucion chi cuadrado ver
Rao (1973, Capitulo 3).
1.4.3.
Distribuci
on-t
La distribuci
on-t con n grados de libertad se define como el coeficiente entre dos
variables aleatorias independientes. El numerador tiene distribucion Normal estandar
y el denominador es la raz cuadrada de una variable aleatoria chi-cuadrada central
dividido por sus grados de libertad; es decir,
T =
Z
(X 2 /n)1/2
(1.6)
1.4.4.
Distribuci
on F
La distribuci
on F central con n y m grados de libertad se define como el cociente
de dos variables aleatorias chi-cuadrada centrales independientes, cada una dividida por
sus grados de libertad,
X12 X22
/
(1.7)
n m
donde X12 2 (n), X22 2 (m) y X12 y X22 son independientes. Esta es denotada por
F F (n, m).
2. La relacion entre la distribucion-t y la distribucion-F puede ser derivada al elevar al
cuadrado los terminos de la ecuacion (1.6) y el uso de la definicion (1.7) para obtener
F =
T2 =
Z2 X2
/
F (1, n),
1 n
(1.8)
que es, el cuadrado de una variable aleatoria con distribucion-t, t(n), que tiene distribucion-F, F (1, n).
3. La distribuci
on-F no central se define como la razon de dos variables aleatorias
independientes, cada una dividida por sus grados de libertad, donde el numerador tiene
una distribucion Chi cuadrada no central y el denominador tiene una distribucion Chi
cuadrada central, es decir,
X2 X2
F = 1/ 2
(1.9)
n m
donde X12 2 (n, ) con = T V1 , X22 2 (m) y X12 y X22 son independientes.
La media de una distribucion-F no central es mas grande que la media de una distribucion-F central con los mismos grados de libertad.
CAPITULO 1. INTRODUCCION
1.5.
13
Formas cuadr
aticas
..
. . . ..
.
.
an1 an2 . . . ann
P P
donde aij = aji , entonces la expresion yT Ay =
i
j aij yi yj es una forma
T
1
cuadratica en las yi s. La expresion (y ) V (y ) es una forma cuadratica
en terminos de (yi i ) pero no de las yi s.
3. La forma cuadratica yT Ay y la matriz A se dice que son definidas positivas
si yT Ay > 0 siempre que los elementos de y no son todos cero. Una condicion
necesaria y suficiente para definitud positiva
es que todos
los determinantes
a11 a12 a13
a
a
|A1 | = a11 , |A2 | = 11 12 , |A3 | = a21 a22 a23 , . . . , y
a21 a22
a31 a32 a33
|An | = det A son todas positivas.
4. El rango de la matriz A es tambien llamado los grados de libertad de la forma
cuadratica Q = yT Ay.
5. Supongamos que Y1 , . . . , Yn son variables
independientes cada una con
Pnaleatorias
2
2
distribucion normal N (0, ). Sea Q = i=1 Yi y sea Q1 , . . . , Qk formas cuadraticas
de las yi s tales que
Q = Q1 + . . . + Qk
donde Qi tiene mi grados de libertad (i = 1, . . . , k). Entonces Q1 , . . . , Qk son
variables aleatorias independientes y Q1 / 2 2 (m1 ), Q2 / 2 2 (m2 ), . . . y
Qk / 2 2 (mk ), si y solo si,
m1 + m2 + . . . + mk = n.
Este es el teorema de Cochran; para una prueba vemos, por ejemplo, Hogg y
Craig (1995). Un resultado similar se cumple para distribuciones no centrales; ver
Captulo 3 de Rao (1973).
6. Una consecuencia del teorema de Cochran es que la diferencia de dos variables
aleatorias independientes, X12 2 (m) y X22 2 (k), tambien tiene una distribucion Chi cuadrada
X 2 = X12 X22 2 (m k)
siempre que X 2 0 y m > k.
CAPITULO 1. INTRODUCCION
1.6.
1.6.1.
14
Estimaci
on
Estimaci
on de m
axima verosimilitud
para todo en .
para todo en .
Con frecuencia es mas facil trabajar con la funcion de log-verosimilitud que con la funcion de verosimilitud misma.
Por lo general el estimador es obtenido diferenciando la funcion de log-verosimilitud
con respecto a cada elemento j de y resolviendo las ecuaciones simultaneas
l(; y)
= 0 para j = 1, . . . , p.
j
(1.10)
y) verificando
Es necesario checar que las soluciones corresponden al maximo de l(;
que la matriz de segundas derivadas
2 l(; y)
j k
evaluada en = es definida negativa. Por ejemplo, si solo tiene un elemento esto
significa que es necesario verificar que
2
l(, y)
< 0.
2
=
Tambien es necesario comprobar si hay algunos valores de en los lmites del espacio
parametrico que da el maximo local de l(; y). Cuando todos los maximos locales
han sido identificados, el valor de correspondiente al mas grande es el estimador de
maxima verosimilitud. (Para la mayora de los modelos considerados en este libro hay
solo un maximo y corresponde a la solucion de las ecuaciones l/j = 0, j = 1, . . . , p).
Una propiedad importante de los estimadores de maxima verosimilitud es que si g() es
alguna funcion de los parametros , entonces el estimador de maxima verosimilitud de
CAPITULO 1. INTRODUCCION
15
1.6.2.
Ejemplo: Distribuci
on Poisson
yi e
,
yi !
yi = 0, 1, 2, . . .
n
Y
f (yi ; ) =
i=1
P
y1 e y2 e
yn e
...
y1 !
y2 !
yn !
y1 en
y1 !y2 ! . . . yn !
1.6.3.
Estimaci
on por mnimos cuadrados
Sean Y1 , . . . , Yn variables aleatorias independientes con medias 1 , . . . , n respectivamente. Suponiendo que las i s son funciones del vector de parametros que queremos
CAPITULO 1. INTRODUCCION
16
estimar,
= [1 , . . . , p ]T , p < n. As
E(Yi ) = i ().
La forma mas simple del metodo de mnimos cuadrados consiste en encontrar el estimador que minimiza la suma de cuadrados de la diferencia entre Yi s y su valor
esperado
X
S=
[Yi i ()]2 .
Usualmente es obtenido diferenciando S con respecto a cada elemento j de y
resolviendo las ecuaciones simultaneas
S
= 0,
j
j = 1, . . . , p.
Por supuesto es necesario verificar que las soluciones corresponden al mnimo (es decir,
la matriz de segundas derivadas es definida positiva) y para identificar el mnimo global
de entre las soluciones alg
un mnimo local en la frontera del espacio parametrico.
Ahora suponemos que las Yi s tienen varianza i2 que no son todas iguales. Entonces
puede ser deseable para mnimizar la suma ponderada de las diferencias al cuadrado
X
S=
wi [Yi i ()]2
donde las ponderaciones son wi = (i2 )1 . De esta manera, las observaciones que son
menos fiables (que es, las Yi s con varianzas mas grandes) tendra menos influencia en
las estimaciones.
Mas generalmente, sea y = [Y1 , . . . , Yn ]T un vector aleatorio con el vector media
= [1 , . . . , n ]T y la matriz V de varianza-covarianza. Entonces el estimador de
mnimos cuadrado ponderado es obtenido minimizando
S = (y )T V1 (y ).
1.6.4.
CAPITULO 1. INTRODUCCION
17
Cuadro 1.2: N
umero de ciclones tropicales en 13 temporadas sucesivas.
T emporada :
1 2 3 4 5 6 7 8 9 10 11 12 13
N o. de Ciclones 6
1.6.5.
12
Figura 1.1 Grafica que muestra la ubicacion del estimador de maxima verosimilitud
para los datos de la Tabla 1.2 en ciclones tropicales.
con parametro . Del ejemplo 1.6.2 = y = 72/13 = 5.538. Una alternativa aproximada
sera encontrar numericamente el valor de que maximiza la funcion log-verosimilitud.
La componente de la funcion log-verosimilitud debido a yi es
li = yi log log yi !.
La funcion log-verosimilitud es la suma de estos terminos
l=
13
X
i=1
13
X
li =
(yi log log yi !).
i=1
de
P , calcula (yi log ) para cada yi y agrega los resultados para obtener l =
(yi log ). La figura 1.1 muestra l graficada contra .
Claramente el valor maximo esta entre = 5 y = 6. Esto puede proporcionar un
Los resultados de un
punto de partida para un procedimiento iterativo para obtener .
CAPITULO 1. INTRODUCCION
18
simple calculo de biseccion son mostrados en la tabla 1.3. la funcion l es primero calculada por aproximaciones (1) = 5 y (2) = 6. Luego las aproximaciones subsecuentes
(k) para k = 3, 4, . . . son los valores promedio de dos estimaciones previas de con
valores mas grandes de l (por ejemplo,
(6) = 12 ((5) + (3) )). Despues de 7 pasos este proceso da ' 5.54 el cual es correcto
para 2 decimales.
1.7.
Ejercicios
(k)
1
2
3
4
5
6
7
8
9
5
6
5.5
5.75
5.625
5.5625
5.5313
5.5469
5.5391
50.878
51.007
51.242
51.192
51.235
51.243
51.24354
51.24352
51.24360
10
5.5352
51.24359
CAPITULO 1. INTRODUCCION
19
Y
?
S/ n
Femeninos
Masculinos
1
2
2
4
5
6
7
8
9
10
11
12
13
14
15
18
31
34
33
27
33
28
23
33
12
19
25
14
4
22
11
22
27
29
24
29
25
26
38
14
23
31
20
6
34
16
12
CAPITULO 1. INTRODUCCION
20
Captulo 2
Ajuste del Modelo
2.1.
Introducci
on
El proceso de ajuste del modelo descrito en este libro consta de cuatro pasos:
1. Especificacion del modelo - un modelo se especifica en dos partes: una ecuacion
que relacione la variable respuesta y las explicatorias y la distribucion de probabilidad de la variable de respuesta.
2. Estimacion de los parametros del modelo.
3. Verificacion de la adecuacion del modelo - que tan bien ajusta o resumen los
datos.
4. Inferencia - calcular los intervalos de confianza y pruebas de hipotesis sobre los
parametros en el modelo y la interpretacion de los resultados.
En este captulo estos pasos primero son ilustrados usando dos peque
nos ejemplos.
Discuten luego algunos principios generales. Finalmente hay secciones sobre notacion y
la codificacion de las variables explicatorias que se necesitan en los captulos siguientes.
2.2.
2.2.1.
Ejemplos
Condiciones m
edicas cr
onicas
Los datos del Estudio Longitudinal Australiano de Salud de la Mujer (Brown et al.,
1996) muestran que las mujeres que viven en zonas rurales tienden a tener un menor
n
umero de consultas con medicos generales (medicos de familia) que las mujeres que
viven cerca de una rango mas amplio de servicios de salud. No esta claro si esto se
debe a que son mas saludables o por factores estructurales, como la escasez de medicos,
los mayores costos de las visitas y las distancias mas largas para viajar, act
uan como
barreras para el uso de los servicios de medicina general (MG). El Cuadro 2.1 muestra
el n
umero de condiciones medicas cronicas (por ejemplo, presion arterial alta o artritis)
reportado por las muestras de mujeres que viven en los grandes pueblos (grupo de
pueblo) o en las zonas mas rurales (grupos de rurales) en New South Wales, Australia.
Todas las mujeres tenan entre 70 y 75 a
nos, tena el mismo estatus socioeconomico y
tenan tres o menos visitas al MG durante 1996. La pregunta de interes es: tienen las
21
22
Cuadro 2.1: El n
umero de condiciones medicas cronicas de 26 mujeres de pueblo y 23
mujeres de zona rural con un uso similar de los servicios de medicina general.
0
1
1
3
2
1
0
1
Pueblo
0 1 1 1 1 2 0 1 3 0 1 2
2 0
n = 26, media =1.423,
desviacion estandar =1.172, varianza =1.374
Rural
3 0 0 1 1 1 1 0 0 2 2 0 1 2 0 0
1 0 2
n = 23, media =0.913,
desviacion estandar =0.900, varianza =0.810
1
3
0
4
2
1
3
3
mujeres que tienen niveles similares de uso de los servicios de MG en los dos grupos la
misma necesidad que indica su n
umero de condiciones medicas cronicas?
La distribucion de Poisson proporciona una forma plausible de modelar estos datos
ya que son frecuencias y en cada grupo la media y la varianza muestral son aproximadamente iguales. Sea Yjk la variable aleatoria que representa el n
umero de condiciones para
la mujer k -esimo en el grupo j -esimo, donde j = 1 para el grupo de pueblo y j = 2
para el grupo rural y k = 1, . . . , Kj con K1 = 26 y K2 = 23.
Sopongase que las Yjk s son todas independientes y tienen la distribucion de Poisson
con parametro j que representa el n
umero esperado de condiciones.
La cuestion de interes puede ser formulada como una prueba de hipotesis nula
H0 = 1 = 2 = contra la hipotesis alternativa H1 = 1 6= 2 . El enfoque de ajuste
del modelo para probar H0 es ajustar dos modelos, uno que asume que H0 es cierta, es
decir
E(Yjk ) = ;
Yjk Poisson()
(2.1)
y el otro asumiendo que no es asi, de modo que
E(Yjk ) = j ;
Yjk Poisson(j ),
(2.2)
(2.3)
j=1 k=1
23
P
donde N = j Kj . Para estos datos la estimacion es b = 1.184 y el valor maximo de
la funcion de log-verosimilitud, es obtenido mediante la sustitucion de este valor b y de
los valores de los datos yjk en (2.3), es b
l = 68.3868.
Si H1 es cierta, entonces la funcion la de log-verosimilitud es
K1
K2
X
X
l1 = l(1 , 2 ; y) =
(y1k log 1 1 log y1k !) +
(y1k log 2 2 log y2k !). (2.4)
k=1
k=1
(Los subndices en l0 y l1 en (2.3) y (2.4) son usados para enfatizar las relaciones con
las hipotesis H0 y H1 , respectivamente). Apartir de (2.4) los estimadores de maxima
P
verosimilitud son bj = k yjk /Kj para j = 1 o 2. En este caso b1 =1.423, b2 =0.913
y el valor maximo de la funcion de log-verosimilitud, obtenido mediante la sustitucion
de estos valores y los datos en (2.4), es b
l = 67.0230.
El valor maximo de la funcion de log-verosimilitud l1 siempre sera mayor o igual
a la de l0 porque un parametro mas ha sido ajustado. Para decidir si la diferencia es
estadsticamente significativa necesitamos saber la distribucion muestral de la funcion
de log-verosimilitud. Esto se discute en el Captulo 4.
Si Y P oisson() entonces E(Y ) = var(Y ) = . El estimador b de E(Y ) llamado
el valor ajustado de Y . La diferencia Y b es llamada residual (otras definiciones
de residuales tambien son posibles, vease la Seccion 2.3.4). Los residuales constituyen
la base de muchos metodos para examinar la adecuacion de un modelo. Un residual es
generalmente se estandariza dividiendo por su error estandar. Para la distribucion de
Poisson un residual estandarizado aproximado es
Y b
r= p .
b
Los residuos estandarizados para modelos (2.1) y (2.2) se muestran en el cuadro
2.2 y la Figura 2.1. El examen de los residuos individuales es u
til para evaluar ciertas
caractersticas de un modelo tal como la adecuacion de la distribucion de probabilidad
utilizada para la variable respuesta o la inclusion de variables explicatorias especficas.
Por ejemplo, los residuos del Cuadro 2.2 y la Figura 2.1 muestran cierta asimetra,
como se podra esperar para la distribucion Poisson.
Los residuos tambien pueden ser agregados para producir estadsticos de resumen
que miden la adecuacion general de el modelo. Por ejemplo, para los datos de la Poisson denotados por las variables aleatorias independientes Yi , siempre que los valores
q
b
esperados i no son demasiado peque
nos, los residuos estandarizados ri = (Yi i )/ bi
aproximadamente tiene la distribucion Normal estandar N (0, 1), aunque no suelen ser
independiente. Un argumento intuitivo es que, aproximadamente, ri N (0, 1) de modo
que ri2 2 (1) y por lo tanto
X
.
ri2
X (Yi bi )2
bi
2 (m)
(2.5)
24
Cuadro 2.2: Valores observados y residuos estandarizados para los datos sobre las condiciones medicas cronicas (Cuadro 2.1), con estimaciones obtenidas a partir de modelos
(2,1) y (2,2).
valor de Y
Frecuencia
0
1
2
3
4
6
10
4
5
1
0
1
2
3
9
8
5
1
Residuos estandarizados
de (2.1); b = 1.184
Pueblo
-1.088
-0.169
0.750
1.669
2.589
Rural
-1.088
-0.169
0.750
1.669
Figura 2.1: Los graficos de residuales para modelos (2.1) y (2.2) de los datos de la Tabla
2.2 sobre las condiciones medicas cronicas.
De hecho, se puede mostrar que para muestras grandes, (2.5) es una buena aproximacion con m igual al n
umero de observaciones menos el n
umero de parametros estimados para calcular los valores ajustados bi (por ejemplo, vease Agresti, 1990, pagina
479). La expresion (2.5) es, de hecho, el estadistico chi-cuadrada de bondad de ajuste
para el datos de conteo que a menudo se escribe como
X (oi ei )2
X2 =
2 (m)
ei
donde oi denota la frecuencia observada y ei denota la frecuencia esperada correspon-
25
P 2
diente. En eses caso oi = Yi , ei = bi y
ri = X 2 .
Para los datos sobre las condiciones medicas cronicas, del modelo (2.1)
X
ri2 = 6 (1.088)2 + 10 (0.169)2 + + 1 (1.669)2 = 46.759
P
Este valor es consistente con ri2 iendo una observacion de la distribucion chi-cuadrada
central con m = 23 + 26 1 = 48 grados de libertad. (Recuerde que en la SeccioP
n 1.4.2,
2
2
2
2
que si X (m) entonces E(X ) = m y observe que el valor calculado X =
ri2 =
46.759 se encuentra cerca del valor esperado de 48). Del mismo modo, para el modelo
(2.2)
X
ri2 = 6 (1.193)2 + . . . + 1 (2.184)2 = 43.659.
cual es consistente con la distribucion chi-cuadrada
con m = 49 2 = 47 grados
P central
2
de libertad. La diferencia entre los valores de
ri de los modelos (2.1) y (2.2) es
peque
na: 46.759 43.659 = 3.10. Esto sugiere que el modelo (2.2) con dos parametros,
puede o no describir los datos mucho mejor que el modelo mas simple (2.1). Si esto es
as, entonces los datos proporcionan evidencia que apoya la hipotesis nula H0 = 1 = 2 .
Una Prueba de hipotesis mas formale se discute en el Captulo 4.
El siguiente ejemplo ilustra pasos del proceso de ajuste del modelo con los datos
continuos.
2.2.2.
Los datos del Cuadro 2.3 son los pesos al nacer (en gramos) y edad gestacional
estimada (en semanas) de 12 bebes mujeres y hombres nacidos en un determinado
hospital. El promedio de edad es casi la misma para ambos sexos, pero el peso promedio
al nacer para los varones es mayor que el peso medio al nacer de las ni
nas. Los datos
se muestran en el diagrama de dispersion en la Figura 2.2. Hay una tendencia lineal de
que peso al nacer aumenta con la edad gestacional y las ni
nas tienden a pesar menos
que los varones de la misma edad gestacional. La cuestion de interes es si la tasa de
aumento de peso al nacer con la edad gestacional es la misma para ni
nos y ni
nas.
Sea Yjk la variable aleatoria que representa el peso al nacer de el bebe k-esimo en
el grupo j donde j = 1 para ni
nos y j = 2 para ni
nas y k = 1, . . . , 12. Suponga que
las Yjk s son todas independientes y normalmente distribuida con medias jk = E(Yjk )
que pueden diferir entre los bebes, y la varianza 2 que es la misma para todos ellos.
Un modelo bastante general que relaciona el peso al nacer para la edad gestacional
es
E(Yjk ) = jk = j + j xjk
donde xjk es la edad gestacional del k-esimo bebe en el grupo j. Los parametros de intercepto 1 y 2 son probablemente diferentes, ya que, en promedio, los varones fueron
mas pesados que las ni
nas. Los parametros de pendiente 1 y 2 representan los incrementos promedio en el peso al nacer de cada semana adicional de la edad gestacional.
La cuestion de interes puede ser formulada en terminos de probar la hipotesis nula
H0 : 1 = 2 = (es decir, las tasas de crecimiento son iguales, por lo que las rectas
son paralelas) contra la hipotesis alternativa H1 : 1 6= 2 .
Podemos probar H0 contra H1 ajustando dos modelos
E(Yjk ) = jk = j + xjk ;
Yjk N (jk , 2 ),
(2.6)
E(Yjk ) = jk = j + j xjk ;
Yjk N (jk , 2 ).
(2.7)
26
Ni
nas
Edad Peso al nacer
40
3317
36
2729
40
2935
38
2754
42
3210
39
2817
40
3126
37
2539
36
2412
38
2991
39
2875
40
3231
38.75
2911.33
27
(2.8)
donde j = 1 o 2.
Una alternativa a la estimacion de maxima verosimilitud es la estimacion por mnimos cuadrados. Para el modelo (2.7), se trata de reducir al mnimo la expresion
S1 =
J X
K
X
(yjk jk ) =
J X
K
X
(yjk j j xjk )2 .
(2.9)
j=1 k=1
j=1 k=1
(2.10)
Las ecuaciones a resolver en (2.8) y (2.10) son las mismas y as maximizar l1 es equivalente a minimizar S1 . Para el resto de este ejemplo usaremos el enfoque de mnimos
cuadrados.
Las ecuaciones de estimacion (2.10) se puede simplificar a
K
X
yjk Kj j
k=1
K
X
k=1
xjk yjk j
K
X
xjk = 0
k=1
K
X
k=1
xjk j
K
X
x2jk = 0
k=1
28
aj = yj bj xj ,
donde aj es la estimacion de j y bj es la estimacion de j , para j = 1 o 2. Al tener en
cuenta las segundas derivadas de (2.9) se puede verificar que la solucion de las ecuaciones
(2.10) corresponde al mnimo de S1 . El valor numerico para el valor mnimo para S1
para un conjunto de datos en particular se puede obtener mediante la sustitucion de
las estimaciones para j y j y los valores de datos para yjk y xjk en (2,9).
Para probar H0 : 1 = 2 = contra la hipotesis alternativa mas general H1
el procedimiento de estimacion descrito anteriormente para el modelo (2.7) se repite,
pero con la expresion en (2.6) usada para jk . En este caso hay tres parametros, 1 , 2
y , en lugar de cuatro a estimar. La expresion de mnimos cuadrados para minimizar
es
J X
K
X
S0 =
(yjk j xjk )2
(2.11)
j=1 k=1
A partir de (2.11) los estimadores de mnimos cuadrados son dados por la solucion de
las ecuaciones simultaneas
K
X
S0
(yjk j xjk ) = 0,
= 2
j
k=1
J X
K
X
S0
= 2
xjk (yjk j xjk ) = 0
j
j=1 k=1
(2.12)
Cuadro 2.4: Resumen de los datos sobre el peso al nacer y la edad gestacional en el
Cuadro 2.3 (suma se extiende a k = 1, . . . , K, donde K = 12).
Ni
no (j = 1)
460
36288
17672
110623496
1395370
P
Px
P y2
P x2
Py
xy
Ni
nas (j = 2)
465
34936
18055
102575468
1358497
para j = 1 y 2. La solucion es
K
b=
P P
P P
k xjk yjk
j xjk
k yjk
P P 2
P P 2
,
K j k xjk
k xjk
aj = y j bxj .
Estas estimaciones y el valor mnimo de S0 se pueden calcular a partir de los datos.
Para el ejemplo del peso al nacer y la edad gestacional, los datos se resumen en el
Cuadro 2.4 y las estimaciones de mnimos cuadrados y los valores mnimos para S0 y S1
se dan en el Cuadro 2.5. Los valores ajustados ybjk se muestran en el Cuadro 2.6. Para el
modelo (2.6), ybjk = aj + bxjk se calcula a partir de las estimaciones en la parte superior
29
J X
K
X
(Yjk aj bj xjk )2
j=1 k=1
y
Sb0 =
J X
K
X
(Yjk aj bxjk )2 .
j=1 k=1
Sb1 =
J X
K
X
[Yjk (j + j xjk )] K
j=1 k=1
2
X
J
X
Y j j j xj
2
j=1
(bj j )2
j=1
K
X
!
x2jk Kx2j
k=1
y que las variables aleatorias Yjk , Ybj y bj son todas independientes y tienen las siguientes
distribuciones:
Yjk N (j + j xjk , 2 ),
Y j N (j + j xj , 2 /K),
bj N
j , 2 /
K
X
k=1
!!
x2jk Kx2j
30
Cuadro 2.5: Analisis de los datos sobre el peso al nacer y la edad gestacional en el
Cuadro 2.3.
Modelo
(2.6)
(2.7)
Pendientes
b = 120.894
a1
a2
b1 = 111.983 a1
b2 = 130.400 a2
Intersepto
= 1610.283
= 1773.322
= 1268.672
= 2141.667
Cuadro 2.6: Los valores observados y los valores ajustados bajo el modelo (2.6) y el
modelo (2.7) para los datos de el Cuadro 2.3.
Sexo
Ni
nos
Ni
nas
Edad
Peso al
gestacional nacer
40
2968
38
2795
40
3163
35
2925
36
2625
37
2847
41
3292
40
3473
37
2628
38
3176
40
3421
38
2975
40
36
40
38
42
39
40
37
36
38
39
40
3317
2729
2935
2754
3210
2817
3126
2539
2412
2991
2875
3231
Valor ajustado
bajo (2.6)
3225.5
2983.7
3225.5
2621.0
2741.9
2862.8
3346.4
3225.5
2862.8
2983.7
3225.5
2983.7
Valor ajustado
bajo (2.7)
3210.6
2986.7
3210.6
2650.7
2762.7
2874.7
3322.6
3210.6
2874.7
2986.7
3210.6
2986.7
3062.5
2578.9
3062.5
2820.7
3304.2
2941.6
3062.5
2699.8
2578.9
2820.7
2941.6
3062.5
3074.3
2552.7
3074.3
2813.5
3335.1
2943.9
3074.3
2683.1
2552.7
2813.5
2943.9
3074.3
31
Figura 2.3: Los graficos de residuos estandarizados para el modelo (2.6) para los datos
sobre el peso al nacer y la edad gestacional (Cuadro 2.3); para los graficos superiores
y medios, crculos abiertos corresponden a los datos de los ni
nos y los crculos solidos
corresponden a los datos de las ni
nas.
32
Figura 2.4: Los graficos de residuos estandarizados para el modelo (2.7) para los datos
sobre el peso al nacer y la edad gestacional (Cuadro 2.3); para los graficos superiores
y medios, crculos abiertos corresponden a los datos de los ni
nos y los crculos solidos
corresponden a los datos de las ni
nas.
33
Por lo tanto Sb1 / 2 es una combinacion lineal de las sumas de los cuadrados de
variables aleatorias con distribuciones normales estandars. En general, hay JK variables
aleatorias (Yjk j j xjk )2P
/ 2 , J variables
(Y j j j xjk )2 K/ 2 y J
aleatorias
2
2
2
2
variables aleatorias (bj j )
k xjk Kxj / . Ellas son todos independientes y cada
uno tiene distribucion 2 (1). De las propiedades de la distribucion chi-cuadrado en la
Seccion 1.5, se deduce que Sb1 / 2 2 (JK 2J). Del mismo modo si H0 es correcto
entonces Sb0 / 2 2 [JK (J + 1)]. En este ejemplo J = 2 asi que Sb1 / 2 2 (2K 4)
y Sb0 / 2 2 (2K 3). En cada caso el valor para los grados de libertad es el n
umero
de observaciones menos el n
umero de parametros estimados.
Si 1 y 2 no son iguales (correspondiete a H1 ), entonces Sb0 / 2 tendra una distribucion chi-cuadrada no central con JK (J +1) grados de libertad. Por otro lado, siempre
que el modelo (2.7) describe bien los datos, Sb1 / 2 tendra una distribucion chi-cuadrada
central con JK 2J grados de libertad. El estadstico Sb0 Sb1 representa la mejora en
el ajuste de (2.7) en comparacion con (2.6). Si H0 es correcta, entonces
1 b
S0 Sb1 2 (J 1).
2
chi-cuadrada
directamente
utilizando la
chi-cuadrada
(Sb0 Sb1 )/ 2
Sb1 / 2
(Sb0 Sb1 )/(J 1)
/
=
.
(J 1)
(JK 2J)
Sb1 (JK 2J)
34
2.3.
2.3.1.
Cualquier analisis de datos debe comenzar con un examen de cada variable por
separado, tanto para comprobar la calidad de datos (por ejemplo, son los valores
plausibles?) y para ayudar con la formulacion del modelo.
1. Cual es la escala de medicion? Si es continua o categorica cuantas categoras
tienen y son ellas nominal u ordinal?.
2. Cual es la forma de la distribucion? Esto puede ser examinada usando tablas de
frecuencia, graficas de puntos, histogramas y otros metodos graficos.
3. Como se asocia con otras variables? Las tabulaciones cruzadas para las variables
categoricas, graficas de dispersion para las variables continuas, graficas de caja
adyacentes para mediciones de escala continuas agrupadas de acuerdo con los
niveles de los factores de una variable categorica, y otras resumenes que puede
ayudar a identificar patrones de asociacion. Por ejemplo, los puntos en una grafica de dispersion sugieren relaciones lineales o no lineales? Las medias del grupo
aumentan o disminuyen consistentemente con una variable ordinal definiendo los
grupos?.
2.3.2.
Formulaci
on del modelo
Los modelos descritos en este libro involucran una sola variable respuesta Y y por
lo general varias variables explicatorias. El conocimiento del contexto en el que se
obtuvieron los datos, incluyendo las cuestiones sustantivas de interes, relaciones teoricas
entre las variables, el dise
no del estudio y los resultados del analisis exploratorio de datos
se pueden usar para ayudar a formular un modelo. El modelo tiene dos componentes:
1. La distribucion de probabilidad de Y , por ejemplo, Y N (, 2 ).
2. La ecuacion que une el valor esperado de Y con una combinacion lineal de las
variables explicatorias, por ejemplo, E(Y ) = + x o ln[E(Y )] = 0 + 1 sin(x).
35
Para los modelos lineales generalizados las distribuciones de probabilidad todas pertenecen
a la familia exponencial de distribuciones, que incluye la Normal, binomial, Poisson y
muchas otras distribuciones. Esta familia de distribuciones se discute en el Captulo 3.
La ecuacion en la segunda parte del modelo tiene la forma general
g [E (Y )] = 0 + 1 x1 + . . . + m xm
donde la parte 0 + 1 x1 + . . . + m xm es llamado el componente lineal. La notacion
para el componente lineal se discute en la Seccion 2.4.
2.3.3.
La estimaci
on de par
ametros
2.3.4.
Residuales y evaluaci
on del modelo
Yi N (i , 2 ).
bi y
b que fueron calculados a partir de las mismas observaciones. Ademas, no estan
exactamente Normalmente distribuidas porque se ha estimado por
b. Sin embargo,
son aproximadamente una distribucion normal y la adecuacion de la aproximacion se
puede comprobar utilizando metodos graficos apropiados (vease mas adelante).
Los parametros i son funciones de variables explicatorias. Si el modelo es una buena
descripcion de la relacion entre la respuesta y las variables explicatorias, esto debera ser
as bien capturado o explicado por las
bi s. Por lo tanto debe haber poca informacion
restante en los residuos yi
bi . Esto tambien se puede comprobar
graficamente (ver
P
mas abajo). Ademas, la suma de cuadrados de los residuos (yi
bi )2 proporciona un
estadstico general para evaluar la adecuacion del modelo; de hecho, es el componente
de la expresion de la funcion de log-verosimilitud o mnimos cuadrados que se optimiza
en el proceso de estimacion.
En segundo lugar, considerar los residuos de un modelo de Poisson. Recordemos el
modelo para enfermedades cronicas
E(Yi ) = i ;
Yi Poisson(i ).
36
Estos pueden ser considerados como races cuadradas con signo de las contribuciones a
la bondad del ajuste estadstico de Pearson.
X (oi ei )2
i
ei
37
Finalmente, se debe hacer una grafica secuencial de los residuos utilizando el orden
en el los valores yi fueron medidos. Esto podra ser en orden del tiempo, orden espacial
o cualquier otro efecto secuencial que podran causar falta de independencia entre
las observaciones. Si los residuales son independientes los puntos deben fluctuar al
azar sin ning
un patron sistematico, como alternando arriba y abajo o el aumento o
decremento. Si hay evidencia de asociacion entre los residuos, esto se puede comprobar
mediante el calculo de coeficientes de correlacion en serie entre ellos. Si los residuos
estan correlacionados, se necesitan metodos de modelado especiales - estos se describen
en el Captulo 11.
2.3.5.
Inferencia e interpretaci
on
A veces es u
til pensar en los datos cientficos como las mediciones compuestas de
un mensaje o se
nal, que es distorsionado por un ruido. Por ejemplo, en el ejemplo
sobre el peso al nacer la se
nal es la tasa de crecimiento habitual de los bebes y
el ruido proviene de todos los factores geneticos y ambientales que conducen a la
variacion individual. Uno de los objetivos de la modelizacion estadstica es extraer la
mayor cantidad de informacion posible sobre la se
nal. En la practica, esto tiene que
equilibrarse con otros criterios, como la simplicidad. El Diccionario Oxford describe la
ley de parsimonia (tambien conocido como la Navaja de Occam) como el principio de
que no mas causas deben ser asumido que tome en cuenta el efecto. En consecuencia
un modelo mas simple o mas parsimonioso que describe los datos de forma adecuada es
preferible que uno mas complicado que deja poco de la variabilidad sin explicar. Para
determinar un modelo parsimonioso consistente con los datos, comprobamos hipotesis
sobre los parametros.
La prueba de hipotesis se realiza en el contexto de ajuste del modelo mediante la
definicion de una serie de modelos anidados correspondientes a diferentes hipotesis.
Entonces la pregunta acerca de si los datos apoyan una hipotesis particular puede formularse en terminos de la adecuacion del ajuste del modelo correspondiente en relacion
con otros modelos mas complicados. Esta logica fue ilustrada en los ejemplos anteriores
en este captulo. El captulo 5 ofrece una explicacion mas detallada de los conceptos
y metodos utilizados, incluyendo las distribuciones de muestreo para las estadsticos
utilizados para describir la bondad de ajuste.
Si bien la prueba de hipotesis es u
til para identificar un buen modelo, resulta mucho
menos u
til para interpretarlo. Siempre que sea posible, los parametros en un modelo
deben tener alguna interpretacion natural; por ejemplo, la tasa de crecimiento de los
bebes, el riesgo relativo de adquirir una enfermedad o la diferencia media en las ganancias a partir de dos estrategias de marketing. La magnitud estimada del parametro y
la fiabilidad de la estimacion seg
un lo indicado por su error estandar o un intervalo
de confianza son mucho mas informativos que los niveles de significancia o p-valores.
Estos hacen posible responder a preguntas tales como: esta estimado con suficiente
precision como para ser u
til?, o es el efecto suficientemente grande como para ser de
importancia practica, social o biologica?
2.3.6.
lecturas complementarias
38
es destacado por Kleinbaum et al. (1998). Las diversas etapas del modelo de eleccion,
la crtica y la validacion se describen por Krzanowski (1998). El uso de residuos se
describe en Neter et al. (1996), Draper y Smith (1998), Belsley et al. (1980) y Cook y
Weisberg (1999).
2.4.
Notaci
on y codificaci
on para las variables explicatorias
Para los modelos en este libro la ecuacion que une cada variable respuesta Y y un
conjunto de variables explicatorias x1 , x2 , . . . , xm tiene la forma
g [E (Y )] = 0 + 1 x1 + . . . + m xm .
Para las respuestas Y1 , . . . , YN esto puede escribirse en notacion matricial como
g [E(y)] = X
donde
(2.13)
Y1
y = ...
YN
es el vector de respuestas,
g [E (Y1 )]
..
g [E (y)] =
.
g [E (YN )]
denota un vector de funciones de los terminos E(Yi ) (con el mismo g para cada elemento),
1
..
= .
N
es el vector de parametros, y X es una matriz cuyos elementos son constantes que
representan los niveles de las variables explicatorias categoricas o valores medidos de
las variables explicatorias continuas.
Para una variable explicatoria continua x (como la edad gestacional en el ejemplo
de peso al nacer) el modelo contiene un termino x donde el parametro representa
el cambio en la respuesta correspondiente a un cambio de una unidad en x.
Para las variables explicatorias categoricas hay parametros para los diferentes niveles
de un factor. Los elementos correspondientes de X son eligidos para excluir o incluir
los parametros adecuados para cada nivel de factor; se les llama variables ficticias.
Si son solo ceros y unos, el termino de variable indicadora es usado.
Si hay p parametros en el modelo y N observaciones, entonces y es un vector aleatorio de N 1, es el vector de paremetros p 1 y X es una matriz N p de constantes
conocidas. X es a menudo llamada la matriz dise
no y X es el componente lineal
del modelo. Varias maneras de definir los elementos de X se ilustran en los siguientes
ejemplos.
2.4.1.
39
Para los datos sobre las condiciones medicas cronicas la ecuacion en el modelo
E(Yik ) = j ;
Yik Poisson(j ), j = 1, 2.
Y1,1
1 0
Y1,2
1 0
.
. .
.
. .
.
. .
y = Y1,26 ,
= 1 ,
y
X = 1 0
2
Y2,1
0 1
.
. .
..
.. ..
Y2,23
0 1
La parte superior de X toma los terminos 1 correspondiente a E(Y1K ) y la parte
inferior escoge 2 para E(Y2K ). Con este modelo, el grupo de medias 1 y 2 puede
estimarse y compararse.
2.4.2.
Ejemplo: regresi
on lineal simple para dos grupos
El modelo mas general de los datos sobre el peso al nacer y la edad gestacional es
E(Yjk ) = jk = j + j xjk ;
Yjk N (jk , 2 ).
Y11
1 0
Y12
1 0
. .
.
1
.
. .
.
. .
y = Y1K ,
=
,
y
X
=
1 0
1
Y21
0 1
2
.
. .
..
.. ..
Y2K
0 1
2.4.3.
identidad
x11
x12
..
.
x1K
0
..
.
0
0
0
..
.
x21
..
.
x2K
40
en este caso =
y las filas de X son
Grupo 1 : 1 1
Grupo 2 : 1 1 .
2.4.4.
Sea Yjk que denotan una medicion continua de la calidad de vida. Los datos se
recogen para tres grupos de pacientes con enfermedad leve, moderada o grave. Los
grupos pueden ser descritos por los niveles de una variable ordinal. Esto puede ser
especificado por la definicion del modelo usando
E(Y1k ) =
41
E(Y2k ) = + 1
E(Y3k ) = + 1 + 2
2.4.5.
Ejercicios
2.1 Semillas geneticamente similares son asignados al azar para ser criado en un
entorno con condiciones nutricionalmente enriquecido (grupo de tratamiento) o
condiciones estandar (grupo control) usando un dise
no experimental completamente al azar. Despues de un tiempo predeterminado todas las plantas se recogen,
se secan y se pesan. Los resultados, expresados en gramos, de 20 plantas en cada
grupo se muestran en el Cuadro 2.7.
Cuadro 2.7: Peso de las plantas secas cultivadas bajo dos condiciones.
Grupo de tratamiento
4.81
5.36
4.17
3.48
4.41
4.69
3.59
4.44
5.87
4.89
3.83
4.17
6.03
5.48
4.98
4.32
4.90
5.15
5.75
6.34
Grupo de control
4.17
4.66
3.05
5.58
5.18
3.66
4.10
4.50
6.11
3.90
4.10
4.61
5.17
5.62
3.57
4.53
5.33
6.05
5.59
5.14
42
Yjk N (, 2 ),
H1 : E(Yjk ) = : j;
Yjk N (j , 2 ),
Sb0 =
XX
(Yjk Y )2
donde Y =
2 X
K
X
Yjk /40,
j=1 k=1
para H1 ,
Sb1 =
XX
(Yjk Y j )2
donde Y j =
K
X
Yjk /20,
k=1
para j = 1, 2.
(e) Usando los resultados del ejercicio 1.4 muestra que
2
20
2
20 X
1 b
1 XX
2
(Y
S
=
(Y j )2
jk
j
1
2
2 j=1 k=1
2 j=1
(Y )2
0
jk
2
2
2
j=1 k=1
y si H0 es cierta entonces
1 b
S0 2 (39).
2
(f) Usando un argumento similar al del Ejemplo 2.2.2 y los resultados de (e)
deducir que el estadstico
Sb0 Sb1
F =
Sb1 /38
tiene distribucion F central F (1, 38), di H0 es cierta y no central si H0 no es
cierta.
43
Antes
100.8
102.0
105.9
108.0
92.0
116.7
110.2
135.0
123.5
95.0
Despues
97.0
107.5
97.0
108.0
84.0
111.5
102.5
127.5
118.5
94.2
Hombre
11
12
13
14
15
16
17
18
19
20
Antes
105.0
85.0
107.2
80.0
115.1
103.5
82.0
101.5
103.5
93.0
Despues
105.0
82.4
98.2
83.6
115.0
103.0
80.0
101.5
102.6
93.0
Sea Yjk denota el peso del k-esimo hombre en el momento j-esimo donde j = 1
es antes del programa y j = 2 doce meses despues. Suponga que las Yjk s son
variables aleatorias con Yjk N (j , 2 ) para j = 1, 2 y k = 1, . . . , 20.
(a) Utilce una prueba t no aparejada para la prueba de hipotesis
H0 : 1 = 2
contra
H1 : 1 6= 2 .
(b) Sea Dk = Y1k Y2k , para k = 1, . . . , 20. Formule modelos para la prueba
H0 contra H1 usando las Dk s. Usando metodos analogos al Ejercicio 2.1
anterior, suponiendo 2 es una constante conocida, probar H0 contra H1
(c) El analisis en (b) es una prueba t aparejada que utiliza la relacion natural
entre los pesos de la misma persona antes y despues del programa.Son las
mismas conclusiones las de (a) y (b)?
(d) Enumera los supuestos hechos para (a) y (b). Que analisis es mas apropiado
para estos datos?
44
2.3 Para el modelo (2.7) de los datos sobre el peso al nacer y la edad gestacional,
usando metodos similares a los de Ejercicio 1.4, Mostrar que
Sb1 =
J X
K
X
(Yjk aj bj xjk )2
j=1 k=1
J X
K
X
[Yjk (j j xjk )] K
j=1 k=1
J
X
(Y j j j xj )2
j=1
J
X
K
X
j=1
k=1
(bj j )2
!
x2jk Kx2j
y que las variables aleatorias Yjk , Y j y bj son independientes y tienen las siguientes
distribuciones
Yjk N (j + j xjk , 2 ),
Y j N (j + j xj , 2 /K),
bj N
j , 2 /
K
X
!!
x2jk Kx2j
k=1
1.0
3.15
1.2
4.85
1.4
6.50
1.6
7.20
1.8
8.25
2.0
16.50
Yjk N (jk , 2 )
Captulo 3
Familia Exponencial y Modelos
Lineales Generalizados
3.1.
Introducci
on
Yi N (i , 2 )
(3.1)
donde las variables aleatorias Yi son independientes son la base de la mayora de los
analisis de datos continuos. El vector transpuesto xTi representa el renglon ith de la
matriz dise
no X. El ejemplo de la relacion entre el peso al nacer y la edad gestacional es
de esta forma, ver Seccion 2.2.2. Tambien es el ejercicio sobre el crecimiento de plantas
donde Yi es el peso seco de las plantas, y X tiene elementos para identificar los grupos, tratamiento y control de los grupos (Ejercicio 2.1). Las generalizaciones de estos
ejemplos para la relacion entre una respuesta continua y varias variables explicatorias
(regresion m
ultiple) y la comparacion de mas de dos medias (analisis de varianza) tambien son de esta forma.
Los avances en la teora estadstica y software nos permiten utilizar metodos analogos
a los desarrollados para modelos lineales en las siguientes situaciones mas generales:
1. Las variables de respuesta tienen distribuciones distintas de la distribucion normal
-ellas pueden incluso puede ser categoricas en lugar de continuas.
2. La relacion entre las variables de respuesta y explicatorias no necesariamente
tienen que ser de la forma lineal simple en (3.1).
Uno de estos avances ha sido el reconocimiento de que muchas de las propiedades
agradablesde la distribucion normal son compartidas por una clase mas amplia de
las distribuciones llamada la familia exponencial de distribuciones. Estas distribuciones y sus propiedades se describen en la siguiente seccion.
Un segundo avance es la extension de los metodos numericos para estimar el parametro
desde el modelo lineal descrito en (3.1) a la situacion en la que hay alguna funcion
no lineal que relaciona E(Yi ) = i con la componente lineal xTi , esto es
g(i ) = xTi
45
3.2.
(3.3)
3.2.1.
Distribucion
Parametro natural
Poisson
Normal
log
Binomial
log( 1
)
c
2
2
2
log(2 2 )
1
2
n log(1 )
Distribuci
on Poisson
d
log y!
y2
2
2
n
log y
3.2.2.
Distribuci
on Normal
2
2
Esta
esta en la forma canonica. El parametro natural es b() = / 2 y los otros terminos
en (3.3) son
2
1
y2
c() = 2 log(2 2 ) y d(y) = 2
2
2
2
1
2
(Alternativamente, el termino 2 log(2 ) podra ser incluido en d(y)).
La distribucion normal se utiliza para modelar los datos continuos que tienen una distribucion simetrica. Es ampliamente utilizado por tres razones principales. En primer
lugar, muchos fenomenos naturales estan bien descritos por la distribucion normal; por
ejemplo, la altura o la presion arterial de las personas. En segundo lugar, a
un si los
datos no estan distribuidos normalmente (por ejemplo, si su distribucion es sesgada) de
el promedio o total de muestra aleatoria de valores estaran distribuidos aproximadamente normal; este resultado se demostro en el teorema del lmite central. En tercer
lugar, hay una gran cantidad de la teora estadstica desarrollada para la distribucion
normal, incluyendo distribuciones muestrales derivadas del mismo y aproximaciones a
otras distribuciones. Por estas razones, si los datos continuos y no se distribuyen normalmente esto a menudo valioso trata de identificar una transformacion, como y 0 = log y
3.2.3.
Distribuci
on Binomial
3.3.
df (y; )
= [a(y)b0 () + c0 ()]f (y; ).
d
por (3.6)
Z
(3.8)
R
R
porque a(y)f (y; )dy = E[a(y)] por la definicion de valor esperado y c0 ()f (y; )dy =
c0 () por (3.4) reorganizando (3.8) resulta
E[a(y)] = c0 ()/b0 ().
(3.9)
(3.10)
el segundo termino del lado derecho de (3.10) puede ser reescrito como
[b0 ()]2 {a(y) E[a(Y )]}2 f (y; )
usando (3.8). Luego por (3.7)
Z 2
d f (y; )
dy = b00 ()E[a(Y )] + c00 () + [b0 ()]2 var[a(Y )] = 0
2
d
R
porque {a(y) E[a(Y )]}2 f (y; )dy =var[a(Y )] por definicion.
Reorganizando (3.11) y sustituyendo (3.9) resulta
var[a(Y )] =
(3.11)
(3.12)
Las ecuaciones (3.9) y (3.12) facilmente pueden ser verificadas para las distribuciones
Poisson, Normal y Binomial (ver el ejercicio 3.4) y usadas para obtener el valor esperado
y la varianza para otras distribuciones en la familia exponencial.
Tambien necesitamos expresiones para el valor esperado y la varianza de las derivadas
de la funcion de log-verosimilitud. De (3.3), la funcion de log-verosimilitud para una
distribucion en la familia exponencial es
l(; y) = a(y)b() + c() + d(y).
dl(; y)
= a(y)b0 () + c0 ().
d
(3.13)
su valor esperado es
E(U ) = b0 ()E[a(Y )] + c0 ().
de (3.9)
c0 ()
E(U ) = b () 0
+ c0 () = 0.
b ()
0
(3.14)
b00 ()c0 ()
c00 ().
b0 ()
(3.15)
(3.16)
dU
= a(Y )b00 () + c00 ().
d
(3.17)
3.4.
N
Y
(3.18)
i=1
"
= exp
N
X
i=1
yi b(i ) +
N
X
c(i ) +
i=1
N
X
#
d(yi ) .
(3.19)
i=1
Los parametros i no son tpicamente de interes directo (ya que no pueden ser uno para
cada observacion). Para la especificacion del modelo estamos generalmente interesados
en un peque
no conjunto de parametros 1 , . . . , p (donde p < N ). Supongamos que
E(Yi ) = i donde i es alguna funcion de i . Para un modelo lineal generalizado hay
una transformacion de i tal que
g(i ) = xTi .
en esta ecuacion g es una funcion monotona, diferenciable llamada la funci
on de liga;
xi es un vector p 1 de variables explicatorias (covariables y variables ficticias para
niveles de factores),
xi1
..
xi = . asi, xTi = xi1 xip
xip
1
..
y es el vector p 1 de parametros = . . El vector xi es la ith columna de la
p
matriz dise
no X.
As un modelo lineal generalizado tiene tres componentes:
1. Las variables respuesta Y1 , . . . , YN que se supone que comparten la misma distribucion de la familia exponencial;
xT1
x11 . . . x1p
.. ;
X = ... = ...
.
T
xN
xN 1 . . . xN p
3. Una funcion de liga g monotona tal que
g(i ) = xTi
donde i = E(Yi ). Este captulo concluye con tres ejemplos de modelos lineales
generalizados.
3.5.
3.5.1.
Ejemplos
Modelo Lineal Normal
Yi N (i , 2 )
e1
donde e = ... y las ei s son variables aleatorias independientes e identicamente diseN
tribuidas con ei N (0, 2 ) para i = 1, . . . , N .
De esta forma, el componente lineal = X representa la se
nal y e representa el
ruido, variacion aleatoria o error. La regresion m
ultiple, analisis de la varianza y
analisis de covarianza son todas de esta forma. Estos modelos son considerados en el
Captulo 6.
3.5.2.
Ling
ustica hist
orica
1
0
Entonces
P (Yi = 1) = et
y
P (Yi = 0) = 1 et .
Este es un caso especial de la distribucion binomial(n,) con n = 1 y E(Yi ) = = et .
En este caso la funcion de liga g es tomada como logartmica
g() = log = t
De modo que g[E(Y )] es lineal en el parametro . En la notacion utilizada anteriormente, xi = [t] (el mismo para todos los i) y = [].
3.5.3.
Tasas de mortalidad
Para una poblacion grande la probabilidad de que un individuo elegido al azar muera en
un momento determinado es peque
na. Si suponemos que las muertes de una enfermedad
no infecciosa son eventos independientes, entonces el n
umero de muertes Y en una
poblacion puede ser modelada por una distribucion Poisson
f (y; ) =
y e
y!
N
umero de
Tama
no de
log Tasa de
(a
nos)
muertes, yi
poblacion, ni
por a
no, yi /ni 100, 000
muertes
30-34
35-39
40-44
45-49
50-54
55-59
60-64
1
5
5
12
25
38
54
17,742
16,554
16,059
13,083
10,784
9,645
10,706
5.6
30.2
31.1
91.7
231.8
394.0
504.4
1.7228
3.4078
3.4372
4.5185
5.4459
5.9764
6.2234
65-69
65
9,933
654.4
6.4837
Figura 3.2 Tasa de mortalidad por 100,000 hombres (en una escala logartmica)
graficada contra la edad.
donde n es el tama
no de la poblacion y (xT ) es la tasa por cada 100,000 personas
por a
no (que depende de las caractersticas de la poblacion descritos por la componente
lineal xT ).
Los cambios en la mortalidad con la edad se pueden modelar mediante la adopcion
de las variables aleatorias independientes Y1 , . . . , YN que es el n
umero de muertes que
ocurren en sucesivos grupos de edad. Por ejemplo, el Cuadro 3.2 muestra los datos
especficos de la edad de las muertes por enfermedad coronaria.
La figura 3.2 muestra como la tasa de mortalidad yi /ni 100, 000 aumenta con la edad.
Tenga en cuenta que una escala logartmica se ha usado en el eje vertical. En esta escala
el grafico de dispersion es aproximadamente lineal, lo que sugiere que la relacion entre
yi /ni y el grupo de edad i es aproximadamente exponencial. Por lo tanto un posible
modelo es
E(Yi ) = i = ni ei ; Yi P oisson(i ),
3.6.
Ejercicios
3.1 Las siguientes relaciones se pueden describir por modelos lineales generalizados.
Para cada uno, identifica la variable respuesta y las variables explicatorias, seleccione una distribucion de probabilidad para la respuesta (justificando su eleccion)
y anota el componente lineal.
(a) El efecto de la edad, el sexo, la altura, la ingesta media diaria de alimentos y
la media diaria del gasto de energa en el peso de una persona.
(b) Las proporciones de los ratones de laboratorio que se infectaron despues de
la exposicion a las bacterias cuando se utilizan cinco niveles de exposicion
diferentes y 20 ratones son expuestos en cada nivel.
(c) La relacion entre el n
umero de viajes por semana al supermercado para un
hogar y el n
umero de personas en el hogar, los ingresos del hogar y de la
distancia al supermercado.
3.2 Si la variable aleatoria Y tiene la distribuci
on Gamma con un parametro de
escala , que es el parametro de interes, y un parametro de forma conocido ,
entonces su funcion de densidad de probabilidad es
f (y; ) =
y 1 ey
.
()
y+r1 r
(1 )y
r1
3.4 Usa los resultados (3.9) y (3.12) para verificar los siguientes resultados:
(a) Para Y P oisson(), E(Y ) =var(Y ) = .
P (Yi = 0) = 1 i .
= xT
ex
=
1 + exT
(e) En el caso paricular donde xT = 1 + 2 x, esto da
=
e1 +2 x
1 + e1 +2 x
la cual es la funci
on logstica.
(f) Dibuje la grafica de contra x en este caso, teniendo 1 y 2 como constantes.
Como interpretas este grafico si x es la dosis de un insecticida y es la
probabilidad de que muera un insecto?
Yi N (, 2 )
Captulo 4
Estimaci
on
4.1.
Introducci
on
Este captulo trata de la estimacion puntual y por intervalo de parametros para los
modelos lineales generalizados utilizando metodos basados en la maxima verosimilitud.
Aunque las expresiones matematicas explcitas se pueden encontrar para estimadores en
algunos casos especiales, por lo general se necesitan metodos numericos. Tpicamente,
estos metodos son iterativos y se basan en el algoritmo de Newton-Raphson. Para
ilustrar este principio, el captulo comienza con un ejemplo numerico. Luego la teora
de la estimacion de los modelos lineales generalizados se desarrolla. Finalmente hay
otro ejemplo numerico para demostrar los metodos en detalle.
4.2.
Los datos del Cuadro 4.1 son los tiempos de vida (tiempos hasta la falla en horas)
de recipientes de presion de Kevlar y filamentos epoxi en nivel de tension del 70 %.
Estos se dan en el Cuadro 29.1 del libro de conjuntos de datos de Andrews y Herzberg
(1985). La Figura 4.1 muestra la forma de su distribucion. Un modelo de uso com
un
para los tiempos de falla (o tiempos de supervivencia) es la distribuci
on de Weibull
que tiene la funcion de densidad de probabilidad
y
y 1
exp
(4.1)
f (t; , ) =
58
CAPITULO 4. ESTIMACION
59
4921
5445
5620
5817
5905
5956
6068
6121
6473
7501
7886
8108
8546
8666
8831
9106
9711
9806
10205
10396
10861
11026
11214
11362
11604
11608
11745
11762
11895
12044
13520
13670
14110
14496
15395
16179
17092
17568
17568
d(y) = ( 1) log y
(4.2)
CAPITULO 4. ESTIMACION
60
Figura 4.2: Grafica de probabilidad de los datos sobre los tiempos de vida de los recipientes de presion comparados con la distribucion de Weibull con parametro de forma
= 2.
Sea Y1 , . . . , YN que denotan los datos, con N = 49. Si los datos son de una muestra
aleatoria de los recipientes a presion, suponemos que las Yi s son variables aleatorias
independientes. Si todas tienen la distribucion de Weibull con los mismos parametros,
su distribucion de probabilidad conjunta es
N
Y
yi1
y
f (y1 , . . . , yN ; , ) =
exp
.
i=1
La funcion de log-verosimilitud es
l(; y1 , . . . , yN , ) =
N
X
i=1
y
i
(4.3)
Para maximizar esta funcion se requiere la derivada con respecto a . Esta es la funcion
de puntuacion
N
X
yi
dl
=U =
+ +1
(4.4)
d
i=1
El estimador de maxima verosimilitud b es la solucion de la ecuacion U () = 0. En
este caso, es facil encontrar una expresion explcita para b si es una constante conocida, pero para fines ilustrativos, vamos a obtener una solucion numerica utilizando la
aproximacion Newton-Raphson. La Figura 4.3 muestra el principio del algoritmo de
Newton-Raphson. Queremos encontrar el valor de x en la que la funcion t cruza el eje
x, es decir, donde t(x) = 0. La pendiente de t en un valor xm1 esta dada por
t(x(m) ) t(x(m1) )
dt
= t0 (x(m1) ) =
(4.5)
dx x=xm1
x(m) x(m1)
donde la distancia xm xm1 es peque
na. Si xm es la solucion requerida para que
m
t(x ) = 0, entonces (4.5) puede ser reorganizada para dar
x(m) = x(m1)
t(x(m1) )
.
t0 (x(m1) )
(4.6)
CAPITULO 4. ESTIMACION
61
U (m1)
.
U 0(m1)
(4.7)
(4.8)
que se eval
ua en las estimaciones sucesivas (m) . La derivada de U, obtenida mediante
la diferenciacion de (4,4), es
N
X
dU
( + 1)yi
0
=U =
d
2
+2
i=1
P
2N
2 3 yi2
= 2 +
(4.9)
4
Para la estimacion de maxima verosimilitud, es com
un para aproximar U 0 por su valor
esperado E(U 0 ). Para distribuciones en la familia exponencial, esto se obtiene facilmente
CAPITULO 4. ESTIMACION
62
N 00
X
b ()c0 ()
i=1
2
b0 ()
i=1
00
c ()
N
2
(4.10)
U (m1)
(m1)
(4.11)
U 106
U 0 106
E(U 0 ) 106
U/U 0
U/E(U 0 )
1
8805.9
2915.10
-3.52
-2.53
-827.98
-1152.21
2
3
9633.9 9876.4
552.80 31.78
-2.28
-2.02
-2.11
-2.01
-242.46 -15.73
-261.99 -15.81
4
9892.1
0.21
-2.00
-2.00
-0.105
-0.105
El Cuadro 4.2 muestra los resultados usando la ecuacion (4.7), teniendo iterativamente la media de los datos en el Cuadro 4.1, y = 8805.9, como el valor inicial (1) ;
este y las aproximaciones sucesivas se muestran en la fila superior del Cuadro 4.2. Los
n
umeros en la segunda fila se obtuvieron mediante la evaluacion de (4.8) en (m) y los
valores de los datos se aproximan a cero rapidamente. Las tercera y cuarta renglones,
U 0 y E(U 0 ) = , tienen valores similares ilustrando que puede usarse bien; esto se
muestra por la mayor similitud de los n
umeros en la quinta y sexta filas. La estimacion
final es (5) = 9892.1(0.105) = 9892.2- este es el estimador de maxima verosimilitud
b para estos datos. Con este valor la funcion de log-verosimilitud, calculada a partir de
(4.3), es l = 480.850.
La Figura 4.4 muestra que la funcion de log-verosimilitud para estos datos y la
distribucion de Weibull con = 2. El valor maximo es en b = 9892.2. La curvatura
b La curvatura
de la funcion en una el entorno del maximo determina la fiabilidad de .
0
0
de l se define por la tasa de cambio de U , esto es, por U . Si U , o E(U 0 ), es peque
na
entonces l es plana y que U es aproximadamente cero para un amplio intervalo de
valores de . En este caso b no esta bien determinada y su error estandar es grande. De
CAPITULO 4. ESTIMACION
63
b = 1/ 0.000002 =
Para este ejemplo, b = 9892.2, = E(U 0 ) = 2.00 106 asi s.e.()
707. Si la distribucion muestral de b es aproximadamente Normal, un intervalo de
confianza del 95 % para esta dado aproximadamente por
9892 1.96 707,
o (8506, 11278).
Los metodos ilustrados en este ejemplo ahora se desarrollan para los modelos lineales
generalizados.
4.3.
Estimaci
on de M
axima Verosimilitud
Considere las variables aleatorias independientes Y1 , . . . .YN que satisfacen las propiedades
de los modelos lineales generalizados. Deseamos estimar los parametros que estan
relacionados con las Yi s a traves de E(Yi ) = i y g(i ) = xTi . Para cada Yi , la funcion
de log-verosimilitud es
li = yi b(i ) + c(i ) + d(yi )
(4.13)
donde las funciones b, c y d son definidas en (3.3). Tambien
E(Yi ) = i = c0 (i )/b0 (i )
var(Yi ) = [b00 (i )c0 (i ) c00 (i )b0 (i )]/[b0 (i )]3
(4.14)
(4.15)
y g(i ) = xTi = i
(4.16)
CAPITULO 4. ESTIMACION
64
N
X
li =
yi b(i ) +
c(i ) +
d(yi ).
i=1
(4.17)
j
j
i
i
j
i=1
i=1
usando la regla de la cadena para la diferenciacion. Consideraremos cada termino del
lado derecho de (4.17) separadamente. Primero
li
= yi b0 (i ) + c0 (i ) = b0 (i )(yi i )
i
por diferenciacion de (4.13) y sustituyendo en (4.14). Despues
i
i
= 1/
.
i
i
La diferenciacion de (4.14) da
c00 (i ) c0 (i )b00 (i )
i
= 0
+
i
b (i )
[b0 (i )]2
= b0 (i )var(Yi )
de (4.15). Finalmente de (4.16)
i
i i
i
=
=
xij
j
i i
i
Por lo tanto la puntuacion, dada en (4.17), es
N
X
(yi i )
i
Uj =
xij
.
var(Yi )
i
i=1
(4.18)
(4.19)
i
i
i=1
CAPITULO 4. ESTIMACION
65
(4.23)
var(Yi )
i
i
i
i=1
k=1 i=1
evaluado en b(m1) ; esto se sigue de las ecuaciones (4.20) y (4.18). As, el lado derecho
de la ecuacion (4.22) se puede escribir como
XT Wz
donde z tiene los elementos
zi =
p
X
(m1)
xik bk
+ (yi i )
k=1
i
i
(4.24)
(4.25)
Esta es la misma forma que las ecuaciones normales para un modelo lineal obtenidos por
mnimos cuadrados ponderados, excepto que tiene que ser resuelto de forma iterativa
porque, en general, z y W depende de b. Por lo tanto para los modelos lineales generalizados, los estimadores de maxima verosimilitud se obtienen por un procedimiento
iterativo de mnimos cuadrados ponderados (Charnes et al., 1976). La mayora de los
paquetes estadsticos que incluyen procedimientos para los modelos lineales generalizados de ajuste tienen un algoritmo eficiente, basado en (4.25). Comienzan con alguna
aproximacion inicial b(0) para evaluar z y W, entonces (4.25) se resuelve para dar b(1)
que a su vez se utiliza para obtener mejores aproximaciones para z y W, y as sucesivamente hasta que se alcanza la convergencia adecuada. Cuando la diferencia entre
aproximaciones sucesivas b(m1) y b(m) es suficientemente peque
no, b(m) se toma como la estimacion de maxima verosimilitud. El siguiente ejemplo ilustra el uso de este
procedimiento de estimacion.
CAPITULO 4. ESTIMACION
4.4.
66
Ejemplo de regresi
on de Poisson
Los datos artificiales del Cuadro 4.3 son conteos y observados en varios valores de
una covariable x. Estos se representan graficamente en Figura 4.5.
Supongamos que las respuestas Yi son variables aleatorias Poisson . En la practica,
tal supuesto se hara ya sea por motivos sustantivos o de darse cuenta de que en la
figura 4.5 los variabilidad incrementa con Y .
Cuadro 4.3: Los datos de ejemplo de regresion de Poisson.
yi
xi
2
-1
3
-1
6 7 8 9 10
0 0 0 0 1
12
1
15
1
(4.26)
CAPITULO 4. ESTIMACION
67
PN
1
i=1 b1 +b2 xi
PN
= XT WX =
PN
xi
i=1 b1 +b2 xi
PN
xi
i=1 b1 +b2 xi
i=1
x2i
b1 +b2 xi
y
PN
yi
i=1 b1 +b2 xi
XT Wz =
PN
yi xi
i=1 b1 +b2 xi
2
1 1
3
1 1
6
1 0
x1
7
1 0
x2
y X=
8
1
0
y=z=
=
.
9
1 0
x9
10
1 1
12
1 1
15
1 1
(m1)
(1)
(1)
CAPITULO 4. ESTIMACION
68
4.5.
1
7
5
2
7.45139
4.93750
3
7.45163
4.93531
4
7.45163
4.93530
Ejercicios
A
no
1984
1985
1986
1987
1988
Trimestre
1
2
3
4
1
6
16 23
27 39 31 30
43 51 63 70
88 97 91 104
110 113 149 159
(a) Grafica el n
umero de casos yi contra el perodo de tiempo i (i = 1, . . . , 20).
(b) Un modelo posible es la distribucion de Poisson con parametro i = i , o
equivalentemente
log i = log i.
Grafica log yi contra log i para examinar este modelo.
(c) Ajusta un modelo lineal generalizado a estos datos mediante la distribucion
de Poisson, la funcion liga log y la ecuacion
g(i ) = log i = 1 + 2 xi ,
donde xi = logi . Primero, hacerlo desde el principio, trabajando con las
expresiones para la matriz de pesos W y otros terminos necesarios para la
ecuacion iterativa
XT WXb(m) = XT Wz
CAPITULO 4. ESTIMACION
69
65
3.36
156
2.88
100
3.63
134
3.41
16
3.78
108 121
4.02 4.00
4
4.23
xi
yi
143
3.85
56
3.97
26
4.51
22
4.54
1
5.00
1
5
5.00 4.72
65
5.00
39
3.73
4.2 Los datos del Cuadro 4.6 son tiempos de muerte, yi , en semanas desde el diagnostico y el log10 (recuento inicial de globulos blancos), xi , diecisiete pacientes
que sufren de leucemia. (Este es el Ejemplo U de Cox y Snell, 1981).
(a) Grafica yi contra xi . Los datos muestran una tendencia?
(b) Una posible especificacion para E(Yi ) es
E(Yi ) = exp(1 + 2 xi )
que asegurara que E(Yi ) es no negativa para todos los valores de los parametros y todos los valores de x. Que funcion de enlace es apropiado en este
caso?
(c) La distribucion exponencial se utiliza a menudo para describir los tiempos
de supervivencia. La distribucion de probabilidades f (y; ) = ey . Este es
un caso especial de la distribucion gama con parametro de forma = 1.
Muestra que E(Yi ) = y var(Y ) = 2 . Ajustar un modelo con la ecuacion
para E(Yi ) dado en (b) y la distribucion exponencial utilizando el software
estadstico apropiado.
(d) Para el modelo ajustado en (c) comparar los valores observados yi y los
valores ajustados ybi = exp(b1 + b2 xi ) y usa los residuos estandarizados ri =
(yi ybi )/b
yi para investigar la adecuacion del modelo.(Nota:b
yi es usado como
el denominador de ri porque es una estimacion de la desviacion estandar de
Yi - vease (c) arriba.)
4.3 Sea Y1 , . . . , YN una muestra aleatoria de la distribucion Normal Yi N (log , 2 )
donde 2 es conocida. Encontrar el estimador de maxima verosimilitud de del
principio. Tambien verifica las ecuaciones (4.18) y (4.25) en este caso.
Captulo 5
Inferencia
5.1.
Introducci
on
Las dos herramientas principales de la inferencia estadstica son intervalos de confianza y pruebas de hipotesis. Su derivacion y uso para modelos lineales generalizados se
cubren en este captulo.
Los intervalos de confianza, tambien conocidos como estimaci
on por intervalos,
son cada vez considerados mas u
tiles que las pruebas de hipotesis porque el ancho de un
intervalo de confianza proporciona una medida de la precision con la cual las inferencias
pueden ser hechas. Esto se hace de una manera que es conceptualmente mas simple que
la potencia de una prueba estadstica (Altman et al., 2000).
Las pruebas de hip
otesis en un escenario de modelacion estadstica son realizadas
para comparar que tan bien dos modelos relacionados ajustan los datos (ver los ejemplos en el Captulo 2). Para modelos lineales generalizados, los dos modelos deberan
tener la misma distribucion de probabilidad y la misma funcion de liga pero la componente lineal de un modelo tiene mas parametros que el otro. El modelo mas simple,
que corresponde a la hipotesis nula H0 , debe ser un caso especial, del otro modelo mas
general. Si el modelo mas simple ajusta a los datos, tambien como el mas general los
modela, entonces este es preferido por razones de parsimonia y H0 es retenido. Si el
modelo mas general ajusta significativamente mejor, entonces se rechaza H0 a favor de
una hipotesis alternativa H1 la cual corresponde al modelo mas general. Para hacer
estas comparaciones, utilizamos resumenes estadsticos para describir que tan bien los
modelos ajustan los datos. Estos estadsticos de bondad de ajuste pueden estar
basados en el valor maximo de la funcion de verosimilitud, el valor maximo de la funcion de log-verosimilitud, el valor mnimo del criterio de la suma de cuadrados o una
composicion estadstica basada en los residuales. El proceso y la logica puede ser resumido como sigue:
1. Especificar un modelo M0 correspondiente a H0 . Especificar un modelo mas general M1 (con M0 como un caso especial de M1 ).
2. Ajustar M0 y calcular el estadstico de bondad de ajuste G0 . Ajustar M1 y calcular
el estadstico de bondad de ajuste G1 .
3. Calcular la mejora en el ajuste, por lo general G1 G0 pero G1 /G0 es otra
posibilidad.
70
CAPITULO 5. INFERENCIA
71
(5.1)
5.2.
CAPITULO 5. INFERENCIA
72
i
i
i=1
Como E(Yi ) = i para todo i,
E(Uj ) = 0 para j = 1, . . . , p.
(5.2)
(5.3)
5.2.1.
1 X
(yi )2 N log( 2).
2
2 i=1
el estadstico de puntuacion es
U=
dl
1 X
N
(Yi ) = 2 (Y )
= 2
d
1 X
[E(Yi ) ]
2
CAPITULO 5. INFERENCIA
73
De acuerdo al resultado (5.1) esta tiene distribucion asintotica N (0, 1). De hecho el
resultado es exacto porque Y N (, 2 /N ) (ver ejercicio 1.4(a)). Similarmente
(Y )2
U2
=
2 (1)
U U=
2
/N
T 1
es un resultado exacto.
La distribucion muestral de U puede ser usada para hacer inferencias
acerca de .
Por ejemplo, un intervalo de confianza del 95 % para es y 1.96/ N , donde es
supuesto conocido.
5.2.2.
Y
nY
Y n
dl
=
=
.
d
1
(1 )
2 (1
1
n
var(Y ) =
2
)
(1 )
y as
U
Y n
=p
N (0, 1)
n(1 )
aproximadamente. Esta es la aproximacion Normal a la distribucion binomial (sin alguna correccion de continuidad). Esta es usada para encontrar intervalos de confianza
y pruebas de hipotesis acerca de .
5.3.
Para obtener las distribuciones de muestreo asintoticas para otros varios estadsticos
u
tiles se usan las aproximaciones de series de Taylor. La aproximacion de series de
Taylor para una funcion f (x) de una sola variable x alrededor de un valor t es
2
df
1
2 d f
f (x) = f (t) + (x t)
+ (x t)
+ ...
dx x=t 2
dx2 x=t
CAPITULO 5. INFERENCIA
74
(5.4)
5.4.
(5.5)
Distribuci
on muestral para estimadores de m
axima verosimilitud
La ecuacion (5.5) puede ser usada para obtener la distribucion muestral del estimador
b Por definicion, b es el estimador el cual maximiza l(b)
de maxima verosimilitud b = .
y as U(b) = 0. Por lo tanto
U() = (b)( b)
o equivalentemente,
(b ) = 1 U
dado que es no singular. Si es considerada como constante entonces E(b ) = 0
porque E(U) = 0 por la ecuacion (5.2). Por lo tanto E(b) = , al menos asintoticamente, as b es un estimador consistente de . La matriz de varianza-covarianza
para b es
E (b )(b )T = 1 E(UUT )1 = 1
(5.6)
CAPITULO 5. INFERENCIA
75
(5.7)
Este es el Estadstico de Wald. Para el caso uniparametrico, la forma mas comunmente usada es
b N (, 1 ).
(5.8)
Si las variables respuesta en el modelo lineal generalizado estan Normalmente distribuidas entonces (5.7) y (5.8) son resultados exactos (ver ejemplo 5.4.1 enseguida).
5.4.1.
Ejemplo: Estimadores de m
axima verosimilitud para el
modelo lineal Normal
Considera el modelo
E(Yi ) = i = xTi ; Yi N (i , 2 )
(5.9)
donde las Yi s son N variables aleatorias independientes y es un vector de p parametros (p < N ). Este es un modelo lineal generalizado con la funcion identidad como
funcion de liga. Este modelo es discutido con mas detalle en el Captulo 6.
Como la funcion de liga es la identidad, en la ecuacion (4.16) i = i y as i /i = 1.
Los elementos de la matriz de informacion, dados en la ecuacion (4.20), tienen la forma
mas simple
N
X
xij xik
jk =
2
i=1
porque var(Yi ) = 2 . Por lo tanto la matriz de informacion puede ser escrita como
=
1 T
X X.
2
(5.10)
p
X
(m1)
xik bk
+ (yi i ).
k=1
Pp
k=1
(m1)
xik bk
1 T
1
X Xb = 2 XT y
2
(5.11)
El modelo (5.9) puede ser escrito en notacion vectorial como y N (X, 2 I) donde I
es la matriz unitaria de N N con unos en la diagonal y ceros fuera de ella. De (5.11)
E(b) = (XT X)1 (XT X) =
CAPITULO 5. INFERENCIA
76
as b es un estimador insesgado de .
Para obtener la matriz de varianza-covarianza para b usamos
b = (XT X)1 XT y
= (XT X)1 XT (y X).
As
E (b )(b )T = (XT X)1 XT E (y X)(y X)T X(XT X)1
= (XT X)1 XT [var(y)]X(XT X)1
= 2 (XT X)1
Pero 2 (XT X)1 = 1 de (5.10) as la matriz de varianza-covarianza para b es 1
como en (5.6).
El estimador de maxima verosimilitud b es una combinacion lineal de los elementos
Yi de y, de (5.11). Como las Yi s estan distribuidas Normalmente, de los resultados en
la seccion 1.4.1, los elementos de b estan tambien distribuidos Normalmente. As la
distribucion de muestreo exacta de b, en este caso, es
b N (, 1 )
o
(b )T (b ) 2 (p).
5.5.
Estadstico de raz
on de Log-verosimilitud
L(bmax ; y)
L(b; y)
CAPITULO 5. INFERENCIA
77
5.6.
Distribuci
on muestral para la desvianza
(5.12)
CAPITULO 5. INFERENCIA
78
5.6.1.
5.6.2.
Considera el modelo
E(Yi ) = i = xTi ; Yi N (i , 2 ), i = 1, . . . , N
donde las Yi s son independientes. La funcion de log-verosimilitud es
N
1 X
1
l(; y) = 2
(yi i )2 N log(2 2 ).
2 i=1
2
Para un modelo saturado todas las i s pueden ser diferentes, as que tiene N elementos 1 , . . . , N . Diferenciando la funcion de log-verosimilitud con respescto a cada i y
resolviendo las ecuaciones estimantes, obtenemos bi = yi . Por lo que el valor maximo
de la funcion de log-verosimilitud para el modelo saturado es
1
l(bmax ; y) = N log(2 2 ).
2
CAPITULO 5. INFERENCIA
79
Para alg
un otro modelo con p < N parametros, sea
b = (XT X)1 XT y
es el estimador de maxima verosimilitud (de la ecuacion 5.11). El correspondiente valor
maximo para la funcion de log-verosimilitud es
l(b; y) =
1 X
1
(yi xTi b)2 N log(2 2 ).
2
2
2
N
1 X
(yi bi )2
2 i=1
(5.13)
(5.14)
N
1 X
(yi y)2 .
2 i=1
2D
1 X
.
S =
(yi y)2 =
N 1 i=1
N 1
2
1
= 2 (y Xb)T (y Xb)
D=
CAPITULO 5. INFERENCIA
80
=
N p
Algunos programas estadsticos, tales como Glim, produce la desvianza a escalar para
un modelo lineal Normal y se llama parametro de escala
2.
La desvianza tambien se relaciona con la suma de cuadrados de los residuales estandarizados (ver Seccion 2.3.4)
N
X
i=1
ri2
N
1 X
(yi bi )2
= 2
b i=1
donde
b2 es una estimacion de 2 . Esto proporciona una regla emprica para la magnitud
2
global de los residuos
P 2estandarizados. Si el modelo se ajusta bien D (N p),
podriamos esperar
ri = N p, aproximadamente.
5.6.3.
CAPITULO 5. INFERENCIA
81
yi =
5.7.
xi
yi
ybi
1
1
0
0
0
0
1
1
2 2.51633
3 2.51633
6 7.45163
7 7.45163
8 7.45163
9 7.45163
10 12.38693
12 12.38693
yi log(yi /b
yi )
0.45931
0.52743
1.30004
0.43766
0.56807
1.69913
2.14057
0.38082
15
12.38693
2.87112
Total
72
72
0.94735
Prueba de hip
otesis
CAPITULO 5. INFERENCIA
82
5.7.1.
N
1 X
(yi
bi )2 ,
2 i=1
CAPITULO 5. INFERENCIA
83
N
1 X
[yi
bi (0)]2
2 i=1
y
N
1 X
D1 = 2
[yi
bi (1)]2 .
i=1
Es usual suponer que M1 ajusta bien los datos (y as H1 es correcta), por lo que
D1 2 (N p). Si M0 tambien se ajusta bien, entonces D0 2 (N q) y as D =
D0 D1 2 (p q). Si M0 no se ajusta bien (es decir, H0 no es correcta) entonces D
tendra una distribucion no central 2 . Para eliminar el termino 2 usamos la relacion
D0 D1 D1
/
pq N p
P
P
{ [yi
bi (0)]2 [yi
bi (1)]2 }/(p q)
P
=
[yi
bi (1)]2 /(N p)
F =
Por lo tanto
F =
(658770.8 652424.5)/1
= 0.19
652424.5/20
5.8.
Ejercicios
CAPITULO 5. INFERENCIA
84
Captulo 6
Modelos Lineales Normales
6.1.
Introducci
on
Yi N (i , 2 )
(6.1)
(6.2)
1
e1
Y1
xT1
..
..
..
..
y = . ,X = . , = . ,e = .
p
eN
xTN
YN
6.2.
6.2.1.
Resultados B
asicos
Estimador de m
axima verosimilitud
85
(6.3)
86
b2 =
1
(y Xb)T (y Xb)
N p
(6.4)
es un estimador insesgado de 2 , y esto puede ser usado para estimar y por lo tanto
hacer inferencias sobre b.
6.2.2.
Estimaci
on de mnimos cuadrados
Sw
= 2XT V1 (y Xb) = 0
es
e = (XT V1 X)1 XT V1 y,
siempre existan las matrices inversas. En particular, para el modelo (6.1), donde los
elementos de (y) son independientes y tienen varianzas comun entonces
e = (XT X)1 XT y.
6.2.3.
Desvianza
De la Seccion 5.6.1
1
(y Xb)T (y Xb)
2
1
= 2 (yT y 2bT XT + bT XT Xb)
1
= 2 (yT y bT XT y)
D=
(6.5)
6.2.4.
87
Prueba de Hip
otesis
1 T
T
T
T
y)
y)
(y
y
b
X
(y
y
b
X
1
0
1
0
2
1
(b1 XT1 y b0 XT0 y)
2
por (6.5).
Cuadro 6.1: Cuadro de Analisis de Varianza.
Origen de
la varianza
Modelo con 0
Mejora debido al
modelo con 1
Grados
de libertad
q
Suma de cuadrados
pq
Residual
Total
N p
N
yT y bT1 XT1 y
yT y
Cuadrados Medios
bT0 XT0 y
T T
T
bT
1 X1 yb0 X0 y
pq
T
yT ybT
1 X1 y
N p
D0 D1 D1
bT XT y bT1 XT1 y yT y bT1 XT1 y
/
= 0 0
/
pq N p
pq
N p
6.2.5.
88
Ortogonalidad
Por lo general, las inferencias acerca de un parametro para una variable explicatoria
depende de que otras variables explicatorias estan incluidas en el modelo. Una excepcion es cuando la matriz de dise
no se puede particionar en componentes X1 , . . . , Xm
correspondiente a submodelos de interes,
X = [X1 , . . . , Xm ] para m p,
donde XTj Xk = O, una matriz de ceros, para cada j 6= k. En este caso, X es llamada
ortogonal. Sea que tiene de componentes 1 , . . . , m de modo que
E(y) = X = X1 1 + X2 2 + . . . + Xm m .
Tpicamente, los componentes corresponden a las covariables o individuales grupos
de variables explicatorias asociadas , tales como variables dummy que denotan los
niveles de un factor. Si X puede ser particionada de esta manera entonces XT X es una
matriz diagonal por bloques.
Cuadro 6.2: Pruebas de Hipotesis multiples cuando la matriz dise
no X es ortogonal .
Origen de
la varianza
Modelo correspondiente a H1
..
.
Grados
de libertad
p1
..
.
Suma de Cuadrados
Modelo correspondiente a Hm
Residual
Total
pm
P
m
bTm XTm y
y y bT XT y
yT y
j=1
pj
bT1 XT1 y
..
.
T
XT1 y
O
XT1 X1
.
..
XX =
. T ambien Xy = .. .
.
XTm y
O
XTm Xm
Por lo tanto las estimaciones bj = (XTj Xj )1 XTj y no se alteran por la inclusion de
otros elementos en el modelo y tambien
bT XT y = bT1 XT1 y + . . . + bTm XTm y
Consecuentemente la hipotesis
H1 : 1 = 0, . . . , Hm : m = 0
puede ser probado de forma independiente como se muestra en el Cuadro 6.2.
En la practica, a excepcion de algunos experimentos bien dise
nados, la matriz de
dise
no X casi nunca es ortogonal. Por lo tanto las inferencias sobre cualquier subconjunto de parametros, digamos j , dependen del orden en el que otros terminos se
incluyen en el modelo. Para superar esta ambig
uedad muchos programas estadsticos
proporcionan pruebas en funcion de todos los demas terminos que se incluyen antes
de a
nadir Xj j . Las sumas resultantes de cuadrados y pruebas de hipotesis a veces se
llaman pruebas de Tipo III(si las pruebas dependen del orden secuencial del ajuste
del termino son llamados tipo I).
6.2.6.
89
Residuales
En correspondencia con la formulacion del modelo (6.2), los residuos se definen como
ebi = yi xT b = yi
bi
donde
b1 es el valor ajustado. La matriz de varianza-covarianza deel vector de residuales
b
e es
E(b
eb
eT ) = E (y Xb)(y Xb)T
= E(yyT ) XE(bbT )XT
= 2 I X(XT X)1 XT
donde I es la matriz identidad. As que los residuos estandarizados son
ri =
b
e
6.2.7.
Otros diagnosticos
Ademas de los residuos, hay muchos otros metodos para evaluar la adecuacion de
un modelo y para identificar observaciones inusuales o influyentes.
Un valor atpico es una observacion que no esta bien ajustado por el modelo. Una
observacion influyente es una que tiene un efecto relativamente grande en las inferencias
basadas en el modelo. Observaciones influyentes pueden o no ser valores atpicos y
viceversa.
El valor hii , el i-esimo elemento de en la diagonal de la matriz sombrero, es llamada
la leverage de la i-esima observacion. Una observacion con un alto leverage puede
hacer una diferencia sustancial en el ajuste del modelo. Como regla general, si hii , es
mayor que dos o tres veces p/N puede ser una preocupacion (donde p es el n
umero de
parametros y N el n
umero de observaciones).
Las medidas que combinen residuos estandarizados y leverage incluyen
1/2
hii
DF IT Si = ri
1 hii
y la distancia de Cook
hii
1
Di =
r2 .
p 1 hii i
Los grandes valores de estos estadsticos indican que la observacion i-esima es influyente.
Se dan detalles de las pruebas de hipotesis para estos y otros estadsticos, por ejemplo,
por Cook y Weisberg (1999).
90
6.3.
Regresi
on Lineal Multiple
6.3.1.
dieta de carbohidrato
Los datos del Cuadro 6.3 muestra respuestas, porcentajes de caloras totales obtenidos
a partir de los carbohidratos complejos, de veinte diabeticos insulino-dependientes masculinos que haban estado en una dieta alta en carbohidratos durante seis meses. Se
penso que el cumplimiento del regimen estar relacionada con la edad (en a
nos), el peso
91
corporal (en relacion con el peso dealpara la altura) y otros componentes de la dieta,
tales como el porcentaje de caloras como protenas. Estas otras variables son tratadas
como variables explicatorias.
Cuadro 6.3: Carbohidratos, la edad, el peso y la protena relativa para los diabeticos
insulinodependiente de veinte hombres; para las unidades, ver texto (datos de K. Webb,
comunicacion personal).
Carbohidratos
y
33
40
37
27
30
43
34
48
30
38
50
51
30
36
41
42
46
24
35
37
Edad
x1
33
47
49
35
46
52
62
23
32
42
31
61
63
40
50
64
56
61
48
28
Peso
x2
100
92
135
144
140
101
95
101
98
105
108
85
130
127
109
107
117
100
118
102
Proteinas
x1
14
15
18
12
15
15
14
17
15
14
17
19
19
20
15
16
18
13
18
14
Yi N (i , 2 )
(6.6)
en la cual los carbohidratos Y esta linealmente relacionados con la edad x1 , peso relativo
x2 y protenas x3 (i = 1, . . . , N = 20). En este caso
Y1
1 x11 x12 x13
0
..
..
.
.
.
..
..
.. , y = ...
y = . , X = .
YN
Para estos datos
1 xN 1 xN 2 x N 3
752
34596
XT y =
82270
12105
92
20
923
2214
318
923 45697 102003 14780
XT X =
2214 102003 250346 35306
318 14780 35306 5150
Por lo tanto la solucion de XT Xb = XT y es
36.9601
0.1137
b=
0.2280
1.9577
y
(XT X)1
=
0.0188 0.0000
0.0002 0.0002
0.1362 0.0004 0.0002 0.0114
(6.7)
752
20
2214
318
XT y = 82270 , XT X = 2214 250346 3530
12105
318 35306 5150
y por lo tanto
33.130
b = 0.222 .
1.824
93
Grados de
libertad
3
1
16
20
Suma de Cuadrado
cuadrados
medio
28761.978
38.659
38.36
567.663
29368.000
35.48
Tenga en cuenta que las estimaciones de los parametros de los modelos (6.6) y (6.7)
son diferentes; por ejemplo, el coeficiente de protenas es de 1.958 para el modelo que
incluye un termino para la edad, pero 1.824 cuando se omite el termino edad. Este es
un ejemplo de la falta de ortogonalidad. Se ilustra ademas en el Ejercicio 6.3 (c) como
la tabla de ANOVA para probar la hipotesis de que el coeficiente para la edad es cero
cuando tanto el peso y la protena estan en el modelo, el Cuadro 6.5, difiere de la tabla
de ANOVA cuando no esta incluido peso.
6.3.2.
Coeficiente de determinaci
on, R2
N
X
e2i = eT e = (Y X)T (Y X)
i=1
Sb0 Sb bT XT y N y 2
= T
y y N y 2
Sb0
94
6.3.3.
La selecci
on del modelo
1
2
1 R(j)
2
donde R(j)
es el coeficiente de determinacion obtenido de la regresion de la j-esima
variable explicatoria contra todas las demas variables explicatorias. Si no esta correlacionado con todos los demas, entonces V IF = 1. V IF aumenta a medida que
aumenta la correlacion. Es sugerido, por Montgomery y Peck (1992), por ejemplo, que
uno debe preocuparse si V IF > 5. Si estan muy correlacionadas varias variables explicatorias puede ser imposible, por motivos estadsticos solamente, determinar cual debe
ser incluida en el modelo. En este caso la informacion adicional del area sustantiva de
95
procedencia de los datos, puede ser necesaria una especificacion alternativa del modelo
o alg
un otro enfoque noncomputational.
6.4.
An
alisis de varianza
6.4.1.
An
alisis de varianza de un factor
Los datos del Cuadro 6.6 son similares a los datos de peso en plantas en el ejercicio
2.1. Un experimento fue realizado para comparar los rendimientos Yi ( medidos en peso
seco de las plantas) bajo una condicion de control y dos condiciones de tratamiento
diferentes. Por lo tanto la respuesta, peso seco, depende de un factor, condicion de
crecimiento, con tres niveles. Estamos interesados en saber si las medias de la respuesta
difieren entre los grupos.
Mas en general, si las unidades experimentales se asignan aleatoriamente a los grupos
correspondientes a J niveles de un factor, esto es llamado un experimento completamente al azar. Los datos pueden ser establecidos como se muestra en el Cuadro
6.7.
Las respuestas al nivel j, Yj1 , . . . , Yjnj , todas tienen el mismo valor esperado y son
llamadas r
eplicas. En general puede haber diferentes n
umeros de nj observaciones en
cada nivel.
Para simplificar la discusion supongamos que todos los grupos tienen el mismo tama
no
de muestra, as nj = K para j = 1, . . . , J. La respuesta y es el vector columna de todas
las N = JK mediciones
y = [Y11 , Y12 , . . . , Y1K , Y21 , . . . , Y2K , . . . , YJ1 , . . . , YJK ]T .
Consideramos tres especificaciones diferentes de un modelo para probar la hipotesis de
que las medias de respuesta difieren entre los niveles de los factores.
a) La especificacion mas simple es
E(Yjk ) = j para j = 1, . . . , K.
(6.8)
96
Control
Tratamiento A
Tratamiento B
4.17
5.58
5.18
6.11
4.50
4.61
5.17
4.53
5.33
4.81
4.17
4.41
3.59
5.87
3.83
6.03
4.89
4.32
6.31
5.12
5.54
5.50
5.37
5.29
4.92
6.15
5.80
5.14
4.69
5.26
yi
50.32
46.61
55.26
yi2
256.27
222.92
307.13
Total
A1
A2
...
AJ
Y11
Y12
..
.
Y21
Y22
YJ1
YJ2
..
.
Y1n1
Y2n2
YJnJ
Y1 .
Y2 .
...
YJ .
J
X
xij j ,
i = 1, . . . , N
j=1
1
2
= ..
.
J
1 0 ...
0 1
X = ... . O
O .
0
0
..
.
0
1
K
...
T
K
X X=
..
.
O
97
Y1.
Y2.
T
X y = .. .
.
YJ.
As de la ecuacion (6.3)
b=
1
K
Y1
Y1.
Y2.
Y2
.. = ..
.
.
YJ.
YJ
y
J
1 X 2
b X y=
Y .
K j=1 j.
T
j = 1, . . . , J
1 1 0 ... 0
1 0 1
.
O
X=
.. O
1
1
1
= .. ,
.
J
Y..
Y1.
XT y = .. ,
.
YJ.
N
K ... K
K
K
.
O
XT X = ..
.. O
K
K
b1
b = .. =
.
98
1
K
bJ
0
1
Y1 .
1
.. ..
.
.
YJ .
1
as
J
1 X
Yj. J = 0
K j=1
y por tanto
J
Y..
1 X
Yj. = .
=
JK j=1
N
esto da la solucion
b=
Y..
Yj. Y..
y
bj =
para j = 1, . . . , J.
N
K
N
por lo tanto
J
Y2 X
b X y = .. +
Yj.
N
j=1
T
Yj. Y..
K
N
J
1 X 2
=
Y
K j=1 j.
que es el mismo que para la primera version del modelo y los valores ajustados
b = [y 1 , y 1 , . . . , y J ]T son tambien lo mismo. Las restricciones Suma-a-cero son usadas
y
en la mayora de softwares estadsticos estandares.
c) Una tercera version del modelo es E(Yjk ) = + j con la restriccion de que 1 = 0.
As representa el efecto del primer nivel y j mide la diferencia entre el primer nivel
del factor de nivel y el jth nivel de factor. Esto es llamado una parametrizaci
on
punto en la esquina. Para esta version hay J parametros
2
= .. .
.
J
Y..
Y2.
as XT y = ..
.
YJ.
tambien
1 0 ...
1 1
.
..
.
X = ..
.
.. O
1
N K
...
K
K K
..
. O
XT X = ..
.
.
..
O
K
K
99
Y1.
1 Y2. Y1.
b=
..
K
.
YJ. Y1.
P
P
Tambien bT XT y = K1 [Y.. Y1. + Jj=2 Yj. (Yj. Y1. )] = K1 Jj=1 Yj.2 y los valores ajusb = [y 1 , y 1 , . . . , y J ]T son los mismos como antes.
tados y
As, aunque las tres especificaciones del modelo difieren, el valor de bT XT y y por
lo tanto
" J K
#
J
XX
X
1 T
1
1
D1 = 2 (y y bT XT y) = 2
Y2
Y2
Y..2
= 772.0599,
N
J
1 X 2
Y = 775.8262
K j=1 j.
as
D0 D1 = 3.7663/ 2
y
J X
K
X
Yjk2 = 786.3183
j=1 k=1
2
100
Cuadro 6.8 Cuadro ANOVA para datos de pesos de plantas en el Cuadro 6.6.
Fuente de
Grados de
Suma de
Cuadrados
variacion
libertad
cuadrados
medios
Media
Entre tratamiento
1
2
772.0599
3.7663
1.883
Residual
27
10.4921
0.389
Total
30
786.3183
4.85
b1
5.032
b2 = 4.661 .
b =
b3
5.526
si usamos el estimador
b2 =
1
1
(y Xb)T (y Xb) =
(yT y bT XT y)
N J
N J
10 0 0
XT X = 0 10 0 ,
0 0 10
p
as el error estandar de cada elemento de b es 0.389/10 = 0.197. Ahora puede
verse que el efecto significativo se debe a la media para el tratamiento B,
b3 = 5.526,
siendo significativamente (mas de dos desviaciones estandar) de mayor tama
no que
las otras dos medias. Tenga en cuenta que si se realizan varias comparaciones por
parejas entre los elementos de b, los errores estandar deberan ser ajustados para
tomar en cuenta comparaciones m
ultiples - vease, por ejemplo, Neter et al.(1996).
6.4.2.
An
alisis de varianza de dos factores
101
factor A
B1
B2
Total
A1
A2
6.8,6.6
7.5,7.4
5.3,6.1
7.2,6.5
24.8
28.6
A3
7.8,9.1
8.8,9.1
34.8
Total
45.2
43.0
88.2
(6.9)
(6.10)
(6.11)
(6.12)
1 + 2 = 0,
()21 + ()22 = 0,
()11 + ()21 + ()31 = 0
()31 + ()32 = 0,
102
100000
100000
100100
100100
88.2
Y
...
110000
2
Y2.. 28.6
110000 T
3
Y3.. 34.8
=
2 , X = 110110 , X y = Y12. = 43.0 ,
110110
()22
Y22. 13.7
101000
Y32.
17.9
()32
101000
101101
101101
12 4 4 6 2 2
6.7
4 4 0 2 2 0
0.75
1.75
4 0 4 2 0 2
T
X X=
, b = 1.0
6
2
2
6
2
2
2 2 0 2 2 0
0.4
2 0 2 2 0 2
1.5
y bT XT y = 662.62.
Para el modelo aditivo (6.10) con las restricciones 1 = 1 = 0 la matriz dise
no es
obtenida por omitir las u
ltimas dos columnas de la matriz dise
no para el modelo saturado. As
12 4 4 6
88.2
2 T
, X X = 4 4 0 2 , XT y = 28.6
=
3
4 0 4 2
34.8
2
6 2 2 6
43.0
103
y por tanto
6.383
0.950
b=
2.500
0.367
tal que bT XT y = 661.4133.
Para el modelo (6.11) omitiendo los efectos de los niveles del factor B y usando la
restriccion 1 = 0, la matriz dise
no es obtenida por omitir las u
ltimas tres columnas
de la matriz dise
no para el modelo saturado. Por lo tanto
12 4 4
88.2
= 2 , XT X = 4 4 0 , XT y = 28.6
3
4 0 4
34.8
y por tanto
6.20
b = 0.95
2.50
tal que bT XT y = 661.01.
La matriz dise
no para el modelo (6.12) con restricciones 1 = 0 comprende la primera
y la cuarta columnas de la matriz dise
no para el modelo saturado. Por lo tanto
12 6
88.2
T
T
=
,X X =
,X y =
2
6 6
43.0
y as
7.533
b=
0.367
As que bT XT y = 648.6733.
Finalmente para el modelo con solo un efecto medio E(Yjkl ) = , la estimacion es
b = [b
] = 7.35 y por tanto bT XT y = 648.27.
Los resultados de esos calculos son resumidos en el Cuadro 6.10. los subndices S, I, A, B
y M se refieren al modelo saturado, los modelos correspondientes a HI , HA y HB y el
modelo con u
nicamente la media global, respectivamente. Las desvianzas escaladas son
los terminos 2 D = yT y bT XT y. Los grados de libertad, d.f., estan dados por N
menos el n
umero de parametros en el modelo.
Cuadro 6.10 Resumen de los calculos para los datos en el Cuadro 6.9.
Modelo
+ j + k + ()jk
+ j + k
+ j
+ k
d.f.
6
8
9
10
11
bT XT y Desvianza escalada
662.6200
2 DS = 1.4800
661.4133
2 DI = 2.6867
661.0100
2 DB = 3.0900
648.6733
2 DA = 15.4267
648.2700
2 DM = 15.8300
DI DS DS
/
F (2, 6).
2
6
104
El valor de
F =
la cual no es significativa comparada con la distribucion F (1, 6), lo que sugiere que no
hay diferencias debidas a los niveles del factor B. La prueba correspondiente para HA da
F = 25.82, que es significativa en comparacion con la distribucion F (2, 6). As llegamos
a la conclusion de que las medias de la respuesta son afectadas solo por diferencias
en los niveles del factor A. La opcion mas apropiada para el denominador de la razon
F , DS o DI , es discutible. DS viene de un modelo mas complejo y es mas probable
que corresponda a una distribucion central chi-cuadrada, pero tiene menos grados de
libertad.
El Cuadro ANOVA para estos datos se muestran en el Cuadro 6.11. El primer n
umero
T T
en la columna de la suma de cuadrados es el valor de b X y y correspondiente al
modelo mas simple E(Yjkl ) = .
Una caracterstica de estos datos es que las pruebas de hipotesis son independientes en
el sentido de que los resultados no se ven afectados por cuales terminos - distintos de
los relativos a la hipotesis en cuestion - estan tambien en el modelo.
Cuadro 6.6: Cuadro ANOVA para los datos en el Cuadro 6.8..
Fuente de
variacion
Media
Niveles de A
Niveles de B
Interacciones
Residuales
Total
Grados de
libertad
1
2
1
2
6
12
Suma de
cuadrados
648.2700
12.7400
0.4033
1.2067
1.4800
664.1000
Cuadrados
medios
6.3700
0.4033
0.6033
0.2467
25.82
1.63
2.45
E(Yjkl ) =
y por tanto
2 DM 2 DA = 15.8300 15.4267 = 0.4033.
105
b+
b3 + b2 = 6.383 + 2.5 0.367 = 8.516.
Esto demuestra la importancia de decidir que modelo utilizar para resumir los datos.
Para evaluar la adecuacion de un modelo AN OV A, los residuales deberan ser calculados y examinados para determinar si hay patrones inusuales, normalidad, independencia, y as sucesivamente, como se describe en la Seccion 6.2.6.
6.5.
An
alisis de covarianza
Analisis de covarianza es el termino utilizado para los modelos en los que algunas de
las variables explicatorias son variables dummy que representan los niveles de factores
y otros son mediciones continuas, llamadas covariables. Al igual que con ANOVA,
estamos interesados en la comparacion de medias de subgrupos definidas por niveles de
factores, pero, reconociendo que las covariables tambien pueden afectar a las respuestas, comparamos las medias despues de ajustarpara efectos de covarianza.
Un ejemplo tpico es proporcionado por los datos en el Cuadro 6.12. Las respuestas Yjk son medidas con los puntajes de rendimiento en tres niveles de un factor que
representa tres diferentes metodos de entrenamiento, y las covariables xjk son puntajes
de aptitud medidos antes de que el entrenamiento comenzara. Queremos comparar los
metodos de entrenamiento, teniendo en cuenta las diferencias en la aptitud inicial entre
los tres grupos de sujetos.
Los datos se representan graficamente en la Figura 6.1. Hay evidencia de que los
puntajes de rendimiento y incrementan linealmente con la aptitud x y que los valores
de y son generalmente mas grandes para los grupos de entrenamiento B y C que para
A.
Cuadro 6.12 Puntajes de rendimiento (datos de Winer, 1971, p.776.)
106
Metodo de entrenamiento
A
Sumas totales
de
cuadrados
P
xy
y
6
4
5
3
4
3
6
31
x
3
1
3
1
2
1
4
15
y
8
9
7
9
8
5
7
53
x
4
5
5
4
3
1
2
24
y
6
7
7
7
8
5
7
47
x
3
2
2
3
4
1
4
19
147
41
413
96
321
59
75
191
132
(6.13)
E(Yjk ) = + xjk
(6.14)
Yj1
yj = ...
Yj7
xj1
..
xj = .
xj7
1
y1
1 0 0 x1
2
y = y2 , =
y
X = 0 1 0 x2
3
y3
0 0 1 x3
107
7 0 0 15
31
0 7 0 24 T
53
XT X =
,
X
y
=
0 0 7 19
47
15 24 19 196
398
y as
2.837
5.024
b=
4.698 .
0.743
tambien yT y = 881 y bT XT y = 870.698 para el modelo saturado (6.13)
2 D1 = yT y bT XT y = 10.302.
Para el modelo reducido (6.14)
1 x1
=
, X = 1 x2
1 x3
y
as
21 58
X X=
58 196
T
131
X y=
.
398
T
por lo tanto
3.447 T T
b=
,b X y = 853.766 y as 2 D0 = 27.234.
1.011
Si suponemos que el modelo saturado (6.13) es correcto, entonces D1 2 (17). Si la
hipotesis nula correspondiente al modelo (6.14) es cierta, entonces D0 2 (19), as
F =
D0 D1 D1
/
F (2, 17).
2 2
17 2
16.932 10.302
/
= 13.97
2
17
lo que indica una diferencia significativa en los puntajes de rendimiento de los metodos de entrenamiento, despues del ajuste de las diferencias iniciales en aptitud. La
presentacion habitual de este analisis se da en la Cuadro 6.13.
F =
Grados de
libertad
2
2
17
21
Suma de Cuadrados
cuadrados
medios
F
853.766
16.932
8.466
13.97
10.302
0.606
881.000
6.6.
108
El termino modelo lineal general es usado para los modelos lineales Normales con
cualquier combinacion de variables explicatorias categoricas y variables explicatorias
continuas. Los factores pueden ser cruzados, como en la Seccion 6.4.2., por lo que
hay observaciones para cada combinacion de niveles de los factores. Alternativamente,
pueden ser anidados como se ilustra en el siguiente ejemplo.
El cuadro 6.14 muestra un dise
no anidado de dos factores los cuales representan un
experimento para comparar dos farmacos (A1 y A2 ), una de las cuales es probada en
tres hospitales (B1 , B2 y B3 ) y el otro en dos hospitales diferentes (B4 y B5 ). Queremos comparar los efectos de dos farmacos y las posibles diferencias entre hospitales
utilizando el mismo medicamento. En este caso, el modelo saturado sera
E(Yjkl ) = + 1 + 2 + ()11 + ()12 + ()13 + ()24 + ()25
sujeto a algunas restricciones (las restricciones de punto esquina son 1 = 0, ()11 = 0
y ()24 = 0). Los hospitales B1 , B2 y B3 solo pueden ser comparados dentro de la
medicina A1 y los hospitales B4 y B5 con A2 .
B1
Y111
..
.
Droga A1
B2
Y121
..
.
B3
Y131
..
.
Droga A2
B4
Y241
..
.
B5
Y251
..
.
Y11n1
Y12n2
Y13n3
Y24n4
Y25n5
y =
log y,
=0
proporciona una familia de transformaciones. Por ejemplo, excepto para un cambio de
ubicacion, = 1 deja a y sin cambios; = 12 corresponde a tomar la raz cuadrada;
= 1 Corresponde al recproco; y = 0 corresponde a la transformacion logartmica.
El valor de el cual produce la distribucion mas normalpuede ser estimado por el
metodo de maxima verosimilitud.
Similarmente, la transformacion de variables explicatorias continuas puede mejorar la
linealidad de relaciones con la respuesta.
6.7.
109
Ejercicios
Az
ucar
refinada
32.0
31.2
27.0
21.0
14.9
8.8
Az
ucar en
comida manufacturada
16.3
23.1
23.6
27.7
34.6
33.9
110
Edad
52
46
51
44
70
33
21
63
56
54
44
71
39
58
58
BMI
20.7
21.3
25.4
22.7
23.9
24.3
22.2
26.2
23.3
29.2
22.7
21.9
22.4
20.2
24.4
CHOL
6.48
8.83
5.1
5.81
4.65
6.82
6.28
5.15
2.92
9.27
5.57
4.92
6.72
5.57
6.25
111
Edad
65
76
47
43
30
58
78
49
36
67
42
29
33
42
66
BMI
26.3
22.7
21.5
20.7
18.9
23.9
24.3
23.8
19.6
24.3
22
22.5
24.1
22.7
27.3
Obesos
Controles
no-hiperinsulinemico
3.0
3.0
4.1
2.6
3.9
3.1
3.1
2.2
3.3
2.1
2.9
2.4
3.3
2.8
3.9
3.4
2.9
2.6
3.1
3.2
(c) Usando un modelo apropiado examina los residuales estandarizados para todas
las observaciones para buscar efectos sistematicos y para comprobar el Supuesto
de normalidad.
6.6 Los pesos (en gramos) de componentes de la maquina de un tama
no estandar hecha
por cuatro trabajadores diferentes en dos das diferentes se muestran en el Cuadro
6.19; cinco componentes fueron escogidos al azar de la salida de cada trabajador
en cada da. Realiza un analisis de varianza para probar las diferencias entre los
trabajadores, entre los das, y los posibles efectos de interaccion. Cuales son sus
conclusiones?
Cuadro 6.19 Pesos de componentes de maquina hechos por los trabajadores en
diferentes das.
1
Da 1 35.7
37.1
36.7
37.7
35.3
Da 2
34.7
35.2
34.6
36.4
35.2
112
Trabajadores
2
38.4
37.2
38.1
36.9
37.2
3
34.9
34.3
34.5
33.7
36.2
4
37.1
35.5
36.5
36.0
33.8
36.9
38.5
36.4
37.8
36.1
32
35.2
33.5
32.9
33.3
35.8
32.9
35.7
38.0
36.1
6.7 Para los datos equilibrados en el Cuadro 6.9, los analisis en la Seccion 6.4.2 mostrados que las pruebas de hipotesis eran independientes. Una especificacion alternativa
de la matriz dise
no para el modelo saturado (6.9) con las restricciones punto esquina
1 = 1 = ()11 = ()12 = ()21 = ()31 = 0 de manera que
1 1 1 1 1
1
1 1 1 1 1
1
1 1 1 1 1 1
1 1 1 1 1 1
2
1 1
0 1 1 0
3
1 1
0
1
1
0
=
es
X
=
2
1 1
0
1
1
0
1 1
()22
0
1
1
0
1 0
()32
1 1 0 1
1 0
1
1
0
1
1 0
1
1
0
1
1 0
1
1
0
1
donde las columnas de X correspondientes a los terminos ()jk son los productos
de columnas correspondientes a los terminos j y k .
(a) Muestra que XT X tiene la forma de diagonal por bloque descrita en la seccion
6.2.5. Ajusta el modelo (6.9) y tambien los modelos (6.10) a (6.12) y verifica
que los resultados en la Cuadro 6.9 son los mismos para esta especificacion de
X.
(b) Mostrar que las estimaciones de la media del subgrupo con tratamientos A3 y
B2 para dos modelos diferentes son los mismos que los valores dados en el final
de la Seccion 6.4.2.
6.8 El Cuadro 6.20 muestra los datos de un experimento de dos factores ficticios.
(a) Prueba la hipotesis de que no hay efectos de interaccion.
(b) Prueba la hipotesis de que no hay efectos debido al factor A
(i) mediante la comparacion de los modelos
E(Yjkl ) = + j + k
E(Yjkl ) = + k
113
E(Yjkl ) = .
datos desequilibrados
B2
3,4
4,3
6,8
Captulo 7
Variables Binarias y Regresi
on
Logstica
7.1.
Distribuciones de probabilidad
1 si el resultado es un exito
Z=
0 si el resultado es un fracaso
con probabilidades P r(Z = 1) = y P r(Z = 0) = 1 . Si hay n variables aleatorias
Z1 , . . . , Zn que son independientes con P r(Zj = 1) = j , entonces su probabilidad
conjunta es
" n
#
X
n
n
Y
X
zj
j
zj log
j (1 )1zj = exp
+
log(1 j )
(7.1)
1 j
j=1
j=1
j=1
que es un miembro de la familia exponencial (ver ecuacion (3.3)).
A continuacion, para el caso donde j s son iguales, definimos
Y =
n
X
Zj
j=1
por lo que Y es el n
umero de exitos en n ensayos. La variable aleatoria Y tiene distribucion binomial(n, ):
n y
P r(Y = y) =
(1 )ny , y = 0, 1, . . . , n
(7.2)
y
Finalmente, consideramos el caso general de N variables aleatorias independientes
Y1 , Y2 , . . . , YN correspondiente a el n
umero de exitos en N diferentes subgrupos o estratos (Cuadro 7.1). Si Yi binomial(ni , i ) la funcion de log-verosimilitud es
" N
#
X
i
ni
+ ni log(1 i ) + log
. (7.3)
l(1 , . . . , N ; y1 , . . . , yN ) =
yi log
yi
1
i
i=1
114
LOGISTICA
CAPITULO 7. VARIABLES BINARIAS Y REGRESION
115
Exitos
Fracasos
Totales
7.2.
1
Y1
n1 Y 1
n1
Subgrupos
2
...
Y2
...
n2 Y 2 . . .
n 2 ...
N
YN
nN YN
nN
Queremos describir la proporcion de exitos, Pi = Yi /ni , en cada subgrupo en terminos de niveles de factores y otras variables explicatorias que caracterizan el subgrupo.
Como E(Yi ) = ni i entonces E(Pi ) = i , modelamos las probabilidades i como
g(i ) = xTi .
donde xi es un vector de variables explicatorias (variables dummy para los niveles de
factor y valores medidos para covariables), es un vector de parametros y g es una
funcion liga.
El caso mas simple es el modelo lineal
= xTi
Esto se utiliza en algunas aplicaciones practicas, pero tiene la desventaja de que aunque
es una probabilidad, los valores ajustados xTi b pueden ser menor que cero o mayor
que uno.
Para asegurarse de que esta restringida al intervalo [0,1] es a menudo modelada
usando una distribucion de probabilidad acumulada
Z t
=
f (s)ds
7.3.
Historicamente, uno de los primeros usos de los modelos de regresion para datos
binomiales fueron para los resultados de bioensayo (Finney, 1973). Las respuestas fueron
las proporciones o porcentajes de exitos; por ejemplo, la proporcion de animales
experimentales muertos por diversos niveles de dosis de una sustancia toxica. Estos
datos se denominan a veces respuestas cuantales. El objetivo es describir la probabilidad de exito, , como una funcion de la dosis, x; por ejemplo, g() = 1 + 2 x.
Si el distribucion de tolerancia f (s) de es la distribucion uniforme en el intervalo
[c1 , c2 ]
LOGISTICA
CAPITULO 7. VARIABLES BINARIAS Y REGRESION
116
f (s) =
entonces
1
c2 c1
0 en otro caso
f (s)ds =
c1
si c1 s c2 ,
x c1
,
c2 c1
para c1 x c2
c1
c2 c1
2 =
1
c2 c1
2
x
=
donde denota la funcion de probabilidad acumulada de la distribucion Normal estandar N (0, 1). As
1 = 1 + 2 x
donde 1 = / y 2 = 1/ y la funcion liga es la inversa de la funcion de probabilidad
acumulada Normal estandar 1 . Los modelos probit son utilizados en diversas areas de
las ciencias biologicas y sociales en las que hay interpretaciones naturales del modelo;
por ejemplo, x = es llamada la dosis letal media LD(50) porque corresponde a la
dosis que se puede esperar para matar a la mitad de los animales.
LOGISTICA
CAPITULO 7. VARIABLES BINARIAS Y REGRESION
117
f (s)ds =
exp(1 + 2 x)
.
1 + exp(1 + 2 x)
= 1 + 2 x.
LOGISTICA
CAPITULO 7. VARIABLES BINARIAS Y REGRESION
118
Figura 7.3: Los datos de mortalidad del escarabajo del Cuadro 7.2: proporcion de
muertes, pi = yi /ni , graficada contra la dosis, xi (log10 CS2 mgl1 ).
7.3.1.
N
umero de
escarabajos,ni
59
60
62
56
63
59
62
60
N
umero de
muertes, yi
6
13
18
28
52
53
61
60
log
exp(1 + 2 xi )
1 + exp(1 + 2 xi )
i
1 i
= 1 + 2 xi .
y
log(1 i ) = log[1 + exp(1 + 2 xi )].
LOGISTICA
CAPITULO 7. VARIABLES BINARIAS Y REGRESION
119
N
X
i=1
ni
yi (1 + 2 xi ) ni log[1 + exp(1 + 2 xi )] + log
yi
P
ni i (1 i )
ni xi i (1 i )
.
= P
P
2
ni xi i (1 i )
ni xi i (1 i )
El Estimador de Maxima verosimilitud es obtenido resolviendo la ecuacion iterativa
(m1) b(m) = (m1) b(m1) + U (m1)
(de (4.22)) donde el superindice (m) indica la m-esima aproximacion y b es el vector
(0)
(0)
de estimaciones. Comenzando con b1 = 0 y b2 = 0. aproximaciones sucesivas se
muestran en el Cuadro 7.3. Las estimaciones convergen por la sexta iteracion. La cuadro
tambien muestra el aumento en los
de la funcion de log-verosimilitud (7.3)
valores
ni
omitiendo el termino constantes log
. Los valores ajustados son ybi = ni bi , calculado
yi
en cada etapa (inicialmente bi = 12 para todo i ).
Para la aproximacion final, la matriz de varianza-covarianza estimada para b, [(b)]1 ,
se muestra en la parte inferior del Cuadro 7.3 junto con la desvianza
D=2
N
X
i=1
yi
n yi
yi log
+ (ni yi ) log
ybi
n ybi
LOGISTICA
CAPITULO 7. VARIABLES BINARIAS Y REGRESION
120
Cuadro 7.3: Ajuste de un modelo logstico lineal a los datos de mortalidad del escarabajo.
estimacion
inicial
1
0
2
0
log-verosimilitud -333.404
observaciones
y1
6
y2
13
y3
18
y4
28
y5
52
y6
53
y7
61
y8
60
1
[(b)]
29.5
30.0
31.0
28.0
31.5
29.5
31.0
30.0
Aproximaciones
primera
segunda
sexta
-37.856
-53.853
-60.717
21.337
30.384
34.270
-200.010
-187.274
-186.235
Valores ajustados
8.505
4.543
15.366
11.254
24.808
23.058
30.983
32.947
43.362
48.197
46.741
51.705
53.595
58.061
54.734 58.0366 58.743
3.458
9.842
22.451
33.898
50.096
53.291
59.222
26.840 15.082
=
, D = 11.23
15.082 8.481
Varios modelos alternativos fueron ajustados a los datos. Los resultados se muestran
en la Tabla 7.4. Entre estos modelos el modelo de valor extremo parece encajar mejor
los datos.
7.4.
Modelo de regresi
on logstica general
(7.4)
LOGISTICA
CAPITULO 7. VARIABLES BINARIAS Y REGRESION
121
Modelo Modelo
Modelo
Logstico Probit de valores
extremos
3.46
3.36
5.59
9.84
10.72
11.28
22.45
23.48
20.95
33.90
33.82
30.37
50.10
49.62
47.78
53.29
53.32
54.14
59.22
59.66
61.11
58.74
59.23
59.95
11.23
10.12
3.45
y
b
i
i
i
i=1
Esto tiene la forma
o
e
donde o denota las frecuencias observadas y (ni yi ) de las celdas del Cuadro 7.1
y e denota las correspondientes frecuencias estimadas esperada o valores ajustados
ybi = ni bi y (ni ybi ) = (ni ni
bi ). La suma es sobre todas las 2 N celdas del cuadro.
Observe que D no implica ning
un parametro de ruido (como 2 de datos de respuesta
normal), as la bondad de ajuste se puede evaluar y las hipotesis se puede probar
directamente utilizando la aproximacion
D=2
o log
D = 2 (N p)
donde p es el n
umero de parametros estimados y N el n
umero de patrones de covariable.
Los metodos de estimacion y distribuciones de muestreo utilizados para la inferencia
dependen de resultados asintoticos. Para los estudios peque
nos o situaciones en las
que hay pocas observaciones para cada patron de covariable, los resultados asintoticos
pueden ser aproximaciones pobres. Sin embargo software, como StatXact y Log Xact,
ha sido desarrollado utilizando metodos exactos de manera que los metodos descritos
en este captulo se pueden utilizar incluso cuando los tama
nos de muestra son peque
nos.
LOGISTICA
CAPITULO 7. VARIABLES BINARIAS Y REGRESION
7.4.1.
122
Los datos del Cuadro 7.5, cited by Wood (1978), se han tomado de Sangwan-Norrell
(1977). Son n
umeros yjk de anteras embriogenicas de las especies de plantas Datura
innoxia Mill. Obtenidos cuando los n
umeros njk de anteras se prepararon bajo varias
condiciones diferentes. Hay un factor cualitativo con dos niveles, un tratamiento que
consiste en el almacenamiento a 3 C durante 48 horas o una condicion de control de
almacenamiento, y una variable explicatoria continua representados por tres valores
de fuerza de centrifugacion. Vamos a comparar los efectos del tratamiento y de control
sobre las proporciones despues del ajuste (si es necesario) para fuerza de centrifugacion.
Cuadro 7.5: Datos de antera Embriogenicas .
condiciones de almacenamiento
Control
Tratamiento
y1k
n1k
y2k
n2k
55
76
50
81
50
90
La proporcion pjk = yjk /njk en los grupos de control y tratamiento se grafican contra
xk , el logaritmo de la fuerza de centrifugacion, en la Figura 7.4. Las proporciones de
respuesta parecen ser mas altas en el grupo de tratamiento que en el grupo de control y,
al menos para el grupo tratado, la respuesta disminuye con la fuerza de centrifugacion.
Vamos a comparar los tres modelos logsticos para jk , la probabilidad de que las
anteras sean embriogenicos donde j = 1 para grupo de control y j = 2 para el grupo
de tratamiento x1 = log 40 = 3.689, x2 = log 150 = 5.011 y x3 = log 350 = 5.858.
Modelo 1: logit jk = j + j xk (es decir, diferentes interceptos y pendientes)
Modelo 2: logit jk = j + xk (es decir, diferentes interceptos pero misma pendientes)
Modelo 3: logit jk = + xk (es decir, mismo intercepto y pendientes)
LOGISTICA
CAPITULO 7. VARIABLES BINARIAS Y REGRESION
123
Figura 7.4: Datos de Antera del Cuadro 7.5: proporcion de germinaron pik = yik /nik
graficados contra el log (fuerza de centrifugacion); los puntos representan la condici
on
de tratamiento y los diamantes representan la condicion de control.
Estos modelos se ajustaron mediante el metodo de maxima verosimilitud. Los resultados se resumen en el Cuadro 7.6. Para probar la hipotesis nula de que la pendiente
es la misma para los grupos de tratamiento y de control, utilizamos D2 D1 = 2.591.
De las tablas para la distribucion 2 (1), el nivel de significancia es de entre 0,1 y 0,2
y as podramos concluir que los datos proporcionan poca evidencia en contra de la
hipotesis nula de igualdad de pendientes. Por otro lado, el poder de esta prueba es muy
baja y ambos Figura 7.4 y las estimaciones de Modelo 1 sugieren que, aunque la pendiente para el grupo control puede ser cero, la pendiente para el grupo de tratamiento
es negativo. La comparacion de las desvianzas de los modelos 2 y 3 da una prueba para
la igualdad de los efectos de control y tratamiento despues de un ajuste com
un para la
fuerza de centrifugacion: D3 D2 = 0.5.472, lo cual es consistente con la hipotesis de
que los efectos de almacenamiento no son diferentes. Las proporciones observados y los
valores ajustados correspondientes para los modelos 1 y 2 se muestran en la Tabla 7.7.
Obviamente, el modelo 1 ajusta a los datos muy bien, pero esto no es sorprendente,
ya que cuatro parametros se han utilizado para describir seis puntos de datos - tal
sobre-ajusteno es recomendable!.
7.5.
N
X
(yi ni i )2
ni i (1 i )
i=1
LOGISTICA
CAPITULO 7. VARIABLES BINARIAS Y REGRESION
124
Cuadro 7.6: Estimaciones de maxima verosimilitud y desvianzas para los modelos logsticos para los datos de anteras embriogenicas (errores estandar de las estimaciones entre
parentesis) .
Modelo 1
a1 = 0.234(0.628)
a2 - a1 = 1.977(0.998)
b1 = -0.023(0.127)
b2 - b1 = -0.319(0.199)
D1 = 0.028
Modelo 2
a1 = 0.877(0.487)
a2 - a1 = 0.407(0.175)
b = -0.155(0.097)
Modelo 3
a = 1.021(0.481)
b = -0.148(0.096)
D2 = 2.619
D3 = 8.0916
Cuadro 7.7: Frecuencias observadas y esperadas para los datos de anteras embriogenicas
para varios modelos.
Condicion
Valor de
Frecuencia
almacenamiento
Control
covarianza
x1
x2
x3
x1
x2
x3
observada
55
52
57
55
50
50
Tratamiento
Modelo 1
54.82
52.47
56.72
54.83
50.43
49.74
Frecuencias
esperadas
Modelo 2
58.75
52.03
53.22
51.01
50.59
53.40
Modelo 3
62.91
56.40
58.18
46.88
46.14
48.49
X (o e)2
e
donde o representa las frecuencias observadas in el Cuadro 7.1, e representa las frecuencias esperadas y la sumatoria es sobre todas las 2 N celdas del Cuadro. La razon es
que
X2 =
N
X
(yi ni i )2
i=1
N
X
i=1
ni i
N
X
[(ni yi ) ni (1 i )]2
i=1
ni (1 i )
(yi ni i )2
(1 i + i ) = Sw .
ni i (1 i )
(7.6)
LOGISTICA
CAPITULO 7. VARIABLES BINARIAS Y REGRESION
125
s
1 (s t)2
= (s t) +
+ ...
t
2
t
As
D=2
N
X
i=1
{(yi ni
bi ) +
1 (yi ni
bi )2
+ [(ni yi ) (ni ni
bi )]
2
ni
bi
bi )]2
1 [(ni yi ) (ni ni
+ . . .}
2
ni ni
bi
N
X
(yi ni
bi )2
= X 2.
=
n
b
(1
b
)
i
i
i
i=1
LOGISTICA
CAPITULO 7. VARIABLES BINARIAS Y REGRESION
126
y) l(b
l(;
; y)
y)
l(;
7.6.
Residuales
, k = 1, . . . , m.
(7.7)
P
2
2
stico de bondad de ajuste Chi-cuadrado de Pearson.
De (7.6), m
k=1 Xk = X , el estad
Los residuales de Pearson estandarizados son
Xk
rP k =
1 hk
donde hk es el leverach, el cual es obtenido de la matriz sombrero (ver seccion 6.2.6).
Los residuales de desvianza pueden ser definidos similarmente,
1/2
yk
nk yk
dk = sign(yk nk
bk ) 2 yk log
+ (nk yk ) log
(7.8)
nk
bk
nk nk
bk
donde el termino sign(y
bk ) asegura que dk tiene el mismo signo que Xk .
P k n2k
De la ecuacion (7.5), m
d
=
D, es la desvianza. Tambien los residuales estandarizak=1 k
dos de la desvianza estan definidos por
dk
rDk =
.
1 hk
LOGISTICA
CAPITULO 7. VARIABLES BINARIAS Y REGRESION
127
Estos residuales pueden ser usados para verificar la adecuacion de un modelo, como
se describio en la Seccion 2.3.4. Por ejemplo, deben ser graficados contra cada variable explicatoria contnua en el modelo para comprobar si el supuesto de linealidad
es apropiado y contra otras posibles variables explicatorias no includas en el modelo.
Ellas deberan ser graficadas en el orden de las mediciones, en su caso, para verificar
si hay correlacion seria. Los Graficos de probabilidad Normal tambien se puede usadas
debido a que los residuos estandarizados deben tener, aproximadamente, distribucion
Normal estandar N (0, 1), proporcionados los n
umeros de observaciones para cada patron de covarianza no son demasiado peque
nos.
Si los datos son binarios, o si ni es peque
no para la mayora de los patrones de covarianza, entonces hay pocos valores distintos de los residuales y las graficas pueden ser
relativamente no informativas. En este caso, puede ser necesario confiar en la bondad
de ajuste estadstica agregada X 2 y D y otros diagnosticos (ver seccion 7.7).
Para mas detalles sobre el uso de residuales de datos binomiales y binarios ver el
Captulo 5 de Collett (1991), por ejemplo.
7.7.
Otros diagn
osticos
Por analoga con los estadsticos utilizados para detectar observaciones influenciales
en regresion lineal m
ultiple, los estadsticos delta-beta, delta-chi cuadrado y deltadesvianza estan tambien disponibles para regresion logstica (ver Seccion 6.2.7).
Para datos binarios o binomiales hay cuestiones adicionales a considerar. La primera
es comprobar la eleccion de la funcion liga. Brown (1982) desarrollo una prueba para
la liga logit la cual es implementada en algunos programas. El enfoque sugerido por
Aranda-Ordaz (1981) es considerar una familia mas general de funciones liga
(1 ) 1
.
g(, ) = log
Si = 1, entonces g() = log[/(1 )], es la funcion liga logit. Cuando, 0, entonces g() log[ log(1)], es la funcion liga log-log complementaria. En principio,
un valor optimo de puede ser estimado de los datos, pero el proceso requiere varios
pasos. En ausencia de un software adecuado para identificar la mejor funcion liga es
recomendable experimentar con varias funciones liga alternativas.
La segunda cuestion en la evaluacion de la adecuacion de modelos para datos binarios
o binomiales es la sobredispersi
on. Las observaciones Yi , que se podra esperar que
corresponden a la distribucion binomial pueden tener varianza mayor que ni pi (1 ).
Hay un indicador de este problema si la desvianza D es mucho mayor que el valor
esperado de N p. Esto podra deberse a la especificacion inadecuada del modelo (por
ejemplo, variables explicatorias relevantes han sido omitidas o la funcion liga es incorrecta) o a una estructura mas compleja. una aproximacion es incluir un parametro
extra en el modelo tal que var(Yi ) = ni i (1 i ).
Esto se implementa de diversas maneras en softwares estadsticos. Otra posible explicacion de sobredispersion es que las Yi no son independientes. Metodos para la modelacion de datos correlacionados se describe en el Captulo 11. Para una detallada
discusion de sobredispersion para datos binomiales, ver Collett (1991), Captulo 6.
LOGISTICA
CAPITULO 7. VARIABLES BINARIAS Y REGRESION
7.8.
128
Una muestra de personas de edad avanzada fue dada para examinacion a un psiquiatra
para determinar si los sntomas de la senilidad estaban presentes. Otras medidas tomadas
en el mismo tiempo incluidas la puntuacion en un subconjunto de escala de inteligencia
de adultos de Wechsler (WAIS). Los datos se muestran en el Cuadro 7.8.
Cuadro 7.8: Sntomas de senilidad (s = 1 si los sntomas estan presentes y s = 0 en
otro caso) y WAIS puntuacion (x) para N = 54 personas.
x
9
13
6
8
10
4
14
8
11
7
9
s
1
1
1
1
1
1
1
1
1
1
1
x
7
5
14
13
16
10
12
11
14
15
18
s
1
1
1
0
0
0
0
0
0
0
0
x
7
16
9
9
11
13
15
13
10
11
6
s
0
0
0
0
0
0
0
0
0
0
0
x
17
14
19
9
11
14
10
16
10
16
14
s
0
0
0
0
0
0
0
0
0
0
0
x
13
13
9
15
10
11
12
4
14
20
s
0
0
0
0
0
0
0
0
0
0
Los datos del Cuadro 7.8 son binarios aunque algunas personas tienen el mismo
puntaje WAIS y as hay m = 17 diferentes patrones de covarianza (ver Cuadro 7.9).
Sea Yi que denota el n
umero de personas con sntomas entre las ni personas con el
patron de covarianza i-esimo. El modelo de regresion logstica
i
log
= 1 + 2 xi ;
Yi binomial(ni , i )
i = 1, . . . , m,
1 i
fue ajustado con los siguientes resultados:
b1 = 2.404, error estandar (b1 ) = 1.192,
b2 = 0.3235,
P 2 error estandarP(b22) = 0.1140,
2
X = Xi = 8.803 y D = di = 9.419.
Como hay m = 17 patrones de covarianza y p = 2 parametros, X 2 y D pueden ser
comparados con 2 (15) - por estos criterios el modelo parece ajustar bien. Para el
modelo minimal, sin x, el valor maximo de la funcion log-verosimilitud es l(
, y) =
30.9032. Para el modelo con x, el valor correspondiente es l(b
, y) = 25.5087. Por lo
tanto, de la Seccion 7.5, C = 10.789 el cual es altamente significativo comparado con
2 (1), mostrando que el parametro de pendiente es distinto de cero. Tambien el pseudo
R2 = 0.17 el cual sugiere que el modelo no es particularmente bueno.
LOGISTICA
CAPITULO 7. VARIABLES BINARIAS Y REGRESION
129
Figura 7.5: Relacion entre la presencia de sntomas y puntajes WAIS de los datos en el
Cuadro 7.8 y 7.9; los puntos representan probabilidades estimadas y los diamantes las
proporciones observadas.
La figura 7.5 muestra las frecuencias relativas observadas yi /ni para cada patron de
covariable y las probabilidades ajustadas
bi graficadas contra la puntuacion WAIS, x
(para i = 1, . . . , m). El modelo parece ajustarse mejor a los valores mas altos de x.
El Cuadro 7.9 muestra los patrones de covarianza, las estimaciones
bi y los correspondientes residuales chi-cuadrado y de desvianza calculados usando las ecuaciones (7.7)
y (7.8) respectivamente.
Los residuales y las graficas de residuales asociados (no mostrados) no sugieren que
hay observaciones inusuales pero el peque
no n
umero de observaciones para cada valor
de covarianza hace que los residuales sean difciles de evaluar. La aproximacion de
Hosmer Lemeshow ofrece cierta simplificacion; El Cuadro 7.10 muestra los datos en las
categoras definidas por la agrupacion de valores de
bi de manera que el n
umero total
de observaciones por categora son aproximadamente iguales. Para esta ilustracion, se
seleccionaron g = 3P
categoras. Las frecuencias
esperadas son obtenidas de los valores
P
del Cuadro 7.9; hay ni
bi con sntomas y ni (1b
i ) sin sntomas para cada
a.
P categor
2
2
2
El estadstico de Hosmer Lemeshow XHL es obtenido por calcular X = [(o e) /e]
donde las frecuencias observadas, e, son dadas en el Cuadro 7.10 y la suma es sobre
2
todas las 6 celdas del Cuadro; XHL
= 1.15 que no es significativo cuando es comparado
2
con la distribucion (1).
7.9.
Ejercicios
7.1 El n
umero de muertes por leucemia y otros tipos de cancer entre los sobrevivientes
de la bomba atomica de Hiroshima se muestran en el Cuadro 7.11, clasificado
por la dosis de radiacion recibida. Los datos se refieren a las muertes durante el
perodo 1950- 1959 entre los sobrevivientes que fueron de 25 a 64 a
nos en 1950 (del
conjunto de datos 13 de Cox y Snell, 1981, atribuido a Otake, 1979). Obten un
modelo adecuado para describir la relacion dosis-respuesta entre la radiacion y la
LOGISTICA
CAPITULO 7. VARIABLES BINARIAS Y REGRESION
130
y
1
0
1
1
0
4
5
5
2
5
5
3
4
1
1
1
1
40
b
X
d
2
0.751
-0.826
-0.766
1
0.687
0.675
0.866
2
0.614
-0.330
-0.326
3
0.535
0.458
0.464
2
0.454
1.551
1.777
6
0.376
-0.214
-0.216
6
0.303
-0.728
-0.771
6
0.240
-0.419
-0.436
2
0.186
-0.675
-0.906
6
0.142
0.176
0.172
7
0.107
1.535
1.306
3
0.080
-0.509
-0.705
4
0.059
-0.500
-0.696
1
0.043
-0.213
-0.297
1
0.032
-0.181
-0.254
1
0.023
-0.154
-0.216
1
0.017
-0.131
-0.184
54
Suma
de
8.084
9.418
cuadrados
*Las sumas de cuadrados difieren ligeramente de la bondad de ajuste estadsticos
X 2 y D mencionados en el texto debido a errores de redondeo.
1 (1 2 )
O1
=
O2
2 (1 1 )
LOGISTICA
CAPITULO 7. VARIABLES BINARIAS Y REGRESION
131
Cuadro 7.10: Prueba de Hosmer-Lemeshow para los datos en el Cuadro 7.9: frecuencias
observadas (o) y frecuencias esperadas (e) para n
umeros de personas con o sin sntomas,
agrupados por los valores de
b.
0.107
0.108 - 0.303
> 0.303
Valores correspondientes de x
N
umero de personas
o
con sntomas
e
14 - 20
2
1.335
10 - 13
3
4.479
4-9
9
8.186
N
umero de personas
sin sntomas
Total del n
umero de personas
16
16.665
18
17
15.521
20
7
7.814
16
Valores de
b
o
e
Cuadro 7.11: Muertes por leucemia y otros canceres clasificados por dosis de radiaci
on
recibidas por la bomba atomica de Hiroshima.
Muertes
Leucemia
Otros canceres
Total de canceres
Dosis de radiacion(rads)
0
1-9 10-49
50-99
100-199
13
5
5
3
4
378 200 151
47
31
391 205 156
50
35
200+
18
33
51
Expuesto
No expuesto
Enfermo
1
2
No enfermo
1 1
1 2
exp(i + i xj )
,
1 + exp(i + i xj )
i = 1, 2,
j = 1, . . . , J.
LOGISTICA
CAPITULO 7. VARIABLES BINARIAS Y REGRESION
132
Medicina
S
T
18 22
16 23
7
17
12 25
24 50
16 21
22 32
12 14
22 34
28 37
177 275
Facultad
Artes
S
T
16 30
13 22
11 25
12 14
8 12
11 20
4 10
4 12
13 23
92 168
Ciencia Ingeniera
S
T
S
T
9
14 10
16
9
12
7
11
12 19 12
15
12 15
8
9
20 28
5
7
16 21
1
2
25 31 16
22
32 38 19
25
4
5
25 31 25
35
164 214 100 139
Facultad
Artes
Ciencia
S
T
S
T
14 19 1
1
11 16 4
4
15 18 6
7
15 21 3
3
8
9
4
4
13 13 8
9
18 22 5
5
18 22 16 17
1
1
1
1
13 16 10 10
126 157 58 61
LOGISTICA
CAPITULO 7. VARIABLES BINARIAS Y REGRESION
133
Ciencia?
7.4 Sea l(bmin ) el valor maximo de la funcion de log-verosimilitud para el modelo
minimal con predictor lineal XT = 1 y sea l(b) el valor correspondiente para un
modelo mas general XT = 1 + 2 x1 + . . . + p xp1 .
(a) Muestra que la razon de verosimilitud del estadstico Chi-cuadrado es
C = 2[l(b) l(bmin )] = D0 D1
donde D0 es la desvianza para el modelo minimal y D1 es la desvianza para el
modelo mas general.
(b) Deduce que si 2 = . . . = p = 0 entonces C tiene distribucion Chi-cuadrada
central con (p 1) grados de libertad.
Captulo 8
Regresi
on Logstica Nominal y
Ordinal
8.1.
Introducci
on
8.2.
Distribuci
on Multinomial
J
X
135
yj = n
j=1
La distribucion Multinomial es
f (y | n) =
n!
y1 y2 . . . JyJ .
y1 !y2 ! . . . yJ ! 1 2
(8.1)
y
J
Y
j j ej
j=1
donde
(8.2)
yj !
y1
y2
y = ..
.
yJ
K
k=1
P1
k
y1
...
PJ
k
yJ
n!
y1 ! . . . yJ !
(8.3)
si j = j
k , para j = 1, . . . , J, entonces (8.3) es la misma que (8.1) y la
PJ
on multinomial puede ser
j=1 j = 1, como se requiere. Por lo tanto la distribuci
considerada como la distribucion conjunta de las variables aleatorias de Poisson, condicionada a su suma n. Este resultado proporciona una justificacion para el uso de modelos
lineales generalizados.
Para la distribucion multinomial (8.1) se puede demostrar que E(Yj ) = nj , var(Yj ) =
nj (1 j ) y cov(Yj , Yk ) = nj k (ver, por ejemplo, Agresti,1990, pag 44).
En este captulo los modelos basados en la distribucion binomial se consideran,
debido a pares de respuesta categoras se comparan, en lugar de todas las categoras J
simultaneamente.
8.3.
136
Regresi
on logstica nominal
bj =
b1 exp(xTj bj ),
para j = 2, . . . , J
Pero
b1 +
b2 + . . . +
bj = 1 entonces
b1 =
1
1+
PJ
j=2
exp(xTj bj )
y
exp(xTj bj )
bj =
,
P
1 + Jj=2 exp(xTj bj )
para j = 2, . . . , J.
(8.5)
X =
N
X
ri2 ;
(8.6)
i=1
(ii) Desvianza se define en terminos de los valores maximos de la funcion de logverosimilitud para el modelo ajustado, l(b), y para el modelo maximal, l(bmax ),
D = 2[l(bmax ) l(b)];
(8.7)
137
(iv)
Pseudo R2 =
l(bmin ) l(b)
l(bmin )
(8.9)
8.3.1.
138
En un estudio de seguridad de los vehculos a motor, hombres y mujeres que conducen autos de tama
no peque
nos, medianos y grandes fueron entrevistados acerca de
la seguridad de sus vehiculos, y sus preferencias para los autos, y varias mediciones se
hicieron de lo cerca que estaban sentados al volante (McFadden et al., 2000). Hubo 50
sujetos en cada una de las seis categoras (dos sexos y tres tama
nos de automoviles). Se
les pidio que calificaran que caracteristicas fueron importantes para ellos cuando estaban comprando un auto. En el Cuadro 8.1 muestra las votaciones para el aire acondicionado y la direccion hidraulica, seg
un el sexo y la edad del sujeto(las categoras no
importantes y de poca importancia se han combinado).
Cuadro 8.1: Importancia del aire acondicinado y la direccion hidraulica en autos (porcentages por fila en parentesis*).
Sex
Mujeres
Hombres
Total
Respuesta
No o poco Importante
Edad importante
18-23 26 (58 %)
12 (27 %)
24-40
9 (20 %)
21 (47 %)
> 40
5 (8 %)
14 (23 %)
18-30
24-40
> 40
Muy
importante Total
7 (16 %)
45
15 (33 %)
45
41 (68 %)
60
40 (62 %)
17 (39 %)
8 (20 %)
17 (26 %)
15 (34 %)
15 (37 %)
8 (12 %)
12 (27 %)
18 (44 %)
65
44
41
105
94
101
300
(
1, para hombres
x1 =
,
0, para mujeres
(
1, para edad 24-40 a
nos
x2 =
0, en otro caso
y
(
1, para edad > 40 a
nos
x3 =
0, en otro caso
139
Figura 8.1: Preferencias para el aire acondicionado y la direccion hidraulica: proporciones de respuestas en cada categora por edad y sexo de los encuestados (lneas continuas denotan no / poca importancia, lneas discontinuas denotan importante y
las lneas punteadas denotan muy importante).
140
Cuadro 8.2: Resultados del ajuste de la regresion logstica nominal del modelo (8.10)
para los datos del Cuadro 8.1.
Parametro
Estimacion de b
Razon de momios,OR = eb
b2
b2
= 0.591 as
= e0.591 = 0.5539,
log
b1
1
b3
b3
log
= 1.039 as
= e1.039 = 0.3538
b1
b1
Pero
b1 +b
2 +b
3 = 1 as
b1 (1+0.5539+0.3538) = 1, por lo tanto
b1 = 1/1.9077 = 0.524
por lo tanto
b2 = 0.290 y
b3 = 0.186. Ahora considere los hombres (x1 = 1) con edad
mayor a 40 (as x2 = 0, pero x3 = 1), de modo que log(b
2 /b
1 ) = 0.5910.388+1.588 =
0.609, log(b
3 /b
1 ) = 1.065 y por tanto
b1 = 0.174,
b2 = 0.320 y
b3 = 0.505 (correcto a
3 decimales).
141
Cuadro 8.3: Resultados del ajuste de la regresion logstica nominal del modelo (8.10)
para los datos del Cuadro 8.1.
Sexo
Mujeres
Hombres
Edad
Calificacion de
Importancia*
18-23
1
2
3
24-40
1
2
3
>40
1
2
3
18-23
24-40
>40
Total
1
2
3
1
2
3
1
2
3
Frec.
Obs.
26
12
7
9
21
15
5
14
41
40
17
8
17
15
12
8
15
18
300
Probabilidad
Valor
estimada
ajustado
0.524
23.59
0.290
13.07
0.186
8.35
0.234
10.56
0.402
18.07
0.364
16.37
0.098
5.85
0.264
15.87
0.638
38.28
0.652
0.245
0.102
0.351
0.408
0.241
0.174
0.320
0.505
Residual de
Pearson
0.496
-0.295
-0.466
-0.479
0.690
-0.340
-0.353
-0.468
0.440
42.41
15.93
6.65
15.44
17.93
10.63
7.15
13.13
20.72
-0.370
0.267
0.522
0.396
-0.692
0.422
0.320
0.515
-0.600
300
Suma de cuadrados
3.931
142
Este modelo ajusta a los datos casi tan bien como (8.10), pero con dos parametros
menos. El valor maximal de la funcion de log-verosimilitud es -291.05 por lo que la
diferencia en la desvianza a partir del modelo (8.10) es
D = 2 (290.35 + 291.05) = 1.4
que no es significativo en comparado con la distribucion 2 (2). As que por motivos de
parsimonia el modelo (8.11) es preferible.
8.4.
Regresi
on logstica ordinal
Si hay un orden natural obvio entre las categoras de respuesta, entonces esto puede
ser tomado en cuenta en la especificacion del modelo. El ejemplo en las preferencias
de carros (Seccion 8.3.1) proporciona un ejemplo como los participantes estudian la
importancia del aire acondicionado y la direccion hidraulica en cuatro categoras desde
no importante a muy importante. Las respuestas ordinales como esta son comunes
en areas como la investigacion de mercado, encuestas de opinion y campos como la
psiquiatra donde las medidas suavesson comunes (Ashby et al., 1989).
En algunas situaciones puede, haber conceptualmente, una variable continua z la cual es
difcil de medir, tal como la gravedad de la enfermedad. Esto es evaluado por algunos
metodos crudos que equivalen a identificar puntos de corte, Cj , para la variable
latente de modo que, por ejemplo, pacientes con valores peque
nos son clasificados
como no enfermedad, los que tienen valores mas grandes de z son clasificados como
143
Figura 8.2: Distribucion de variable latente continua y puntos de corte que definen una
variable respuesta ordinal.
8.4.1.
8.4.2.
1 + . . . + j
= xTj j .
j+1 + . . . + J
(8.12)
144
8.4.3.
Una alternativa para el modelo de momios acumulado es considerar razones de probabilidad para categoras sucesivas, por ejemplo
J1
1 2
, ,...,
.
2 3
J
El modelo logit con categoras adyacentes es
j
= xTj j .
log
j+1
(8.14)
Si este es simplificado a
log
j
j+1
= 0j + 1 x1 + . . . + p1 xp1 .
el efecto de cada variable explicatoria se supone que es el mismo para todos los pares
adyacentes de categoras. Los parametros k son usualmente interpretados como razones
de momios usando OR = exp(k ).
8.4.4.
145
1
2
J1
,
,...,
.
2 + . . . + J 3 + . . . + J
J
La ecuacion
log
j
j+1 + . . . + J
= xTj j .
(8.15)
modela el momio que la respuesta esta en la categora j, es decir, Cj1 < z Cj condicionado en z Cj1 . Por ejemplo, para los datos de preferencias de carros (Seccion
8.3.1), uno podra estimar los momios de los encuestados respecto al aire acondicionado y direccion hidra
ulica como poco importantevs. importante y los momios de
estas caractersticas de ser muy importantedado que son importante o muy importante, usando
2
1
y
log
.
log
2 + 3
3
Este modelo puede ser mas facil de interpretar que el modelo de momio proporcional si
las probabilidades para categoras individuales j son de interes (Agresti, 1996, seccion
8.3.4).
8.4.5.
Comentarios
Las pruebas de hipotesis para los modelos de regresion logstica ordinal pueden ser
realizadas comparando el ajuste de modelos anidados o usando el estadstico de Wald
(o, menos com
unmente, con estadsticos de puntuacion) basados en estimaciones de los
parametros. Los residuales y estadsticos de bondad de ajuste son analogos a los de
regresion logstica nominal (Seccion 8.3).
La eleccion del modelo para datos ordinales depende principalmente en el problema
practico que esta siendo investigado. Las comparaciones de los modelos descritos en este
captulo y algunos otros modelos han sido publicados por Holtbrugger y Schumacher
(1991) y Ananth y Kleinbaum (1997), por ejemplo.
8.4.6.
La variable de respuesta para los datos de preferencias de carros es, por supuesto,
ordinal (Cuadro 8.1). El siguiente modelo de momios proporcional fue ajustado para
estos datos:
1
= 01 + 1 x1 + 2 x2 + 3 x3
log
2 + 3
1 + 2
= 02 + 1 x1 + 2 x2 + 3 x3
(8.16)
log
3
donde x1 ,x2 y x3 son como se definen para el modelo (8.10).
Los resultados son mostrados en el Cuadro 8.4. Para el modelo (8.16), el valor maximo de la funcion de verosimilitud es l(b) = 290.648. Para el modelo minimal, con
146
8.5.
Comentarios generales
Aunque los modelos descritos en este captulo son desarrolldos del modelo de regresion
logstica para datos binarios, otras funciones de liga, como la probit o funciones loglog complementarias tambien pueden ser usadas. Si las categoras de respuesta son
consideradas como medidas crudas de alguna variable latente subyacente, z (como en
la Figura 8.2), entonces la eleccion optima de la funcion de liga puede depender de
la forma de la distribucion de z (McCullagh, 1980). Las funciones logits y probits son
apropiadas si la distribucion es simetrica pero la funcion log-log complementaria puede
ser mejor si la distribucion es muy sesgada.
Cuadro 8.4: Resultados del modelo de regresion ordinal (8.16) de momios proporcional
para los datos en el cuadro 8.1.
Parametro
Estimacion
b
01
-1.655
02
-0.044
1 :hombres
-0.576
2 : 24-40
1.147
3 : > 40
2.232
Error
estandar, s.e.(b)
0.256
0.232
0.226
0.278
0.291
Razon de Momios OR
(intervalo de confianza 95 %
0.56(0.36,0.88)
3.15(1.83,5.42)
9.32(5.28,16.47)
Si hay duda acerca del orden de las categoras entonces la regresion logstica nominal por lo general sera un modelo mas apropiado que alguno de los modelos basados
147
en supuestos que las categoras de respuesta son ordinales. Aunque el modelo resultante tendra mas parametros y, por tanto, pocos grados de libertad y menos potencia
estadstica, esto puede dar resultados muy similares a los modelos ordinales (Como en
el ejemplo de preferencia de carros).
Los metodos de estimacion y distribuciones de muestreo usados para la inferencia dependen de resultados asintoticos. Para estudios peque
nos o numerosos patrones de
covariables, cada uno con pocas observaciones, los resultados asintoticos pueden ser
aproximaciones pobres.
Modelos logsticos multicategoricos solo han estado disponibles en softwares estadsticos desde los 90s. Su uso ha crecido porque los resultados son relativamente faciles
de interpretar siempre que una variable pueda claramente ser considerada como una
respuesta y los demas como variables explicatorias. Si esta distincion no esta clara, por
ejemplo, si los datos de un estudio cruzado-seccional, entonces los modelos log-lineales
pueden ser mas apropiados. Estos son discutidos en el Captulo 9.
8.6.
Ejercicios
8.1 Si son solo J = 2 respuestas categoricas, muestra que los modelos (8.4),(8.12),(8.14)
y (8.15) todos se reducen al modelo logstico para datos binarios.
8.2 Los datos del Cuadro 8.5 son de una investigacion en satisfaccion con las condiciones
de vivienda en Copenhague (derivados del Ejemplo W en Cox y Snell, 1981, a partir
de datos originales de Madsen, 1971). Los residentes en areas seleccionadas viven
en casas rentadas construidos entre 1960 y 1968 fueron interrogados acerca de su
satisfaccion y el grado de contacto con otros residentes. Los datos fueron tabulados
por tipo de vivienda.
(a) Resume los datos utilizando Cuadros apropiados de porcentajes para mostrar
las asociaciones entre los niveles de satisfaccion y el contacto con otros residentes, los niveles de satisfaccion y tipo de vivienda, y contacto y tipo de
vivienda.
Cuadro 8.5: Satisfaccion con condiciones de vivienda.
Baja
Contacto con
otros residentes
Torre
Apartamento
Casa
bajo
65
130
67
alto
34
141
130
Satisfaccion
Media
bajo
54
76
48
Alta
alto
47
116
105
bajo
100
111
62
alto
100
191
104
(b) Usa regresion logstica nominal para modelar asociaciones entre el nivel de
satisfaccion y otras dos variables. Obten un modelo parsimonioso que resume
los patrones en los datos.
(c) Cree usted que un modelo ordinal sera apropiado para las asociaciones entre
los niveles de satisfaccion y las otras variables? Justifica tu respuesta. Si tomas
148
en cuenta un modelo para ser apropiado, ajusta uno adecuado y compara los
resultados con los de (b).
(d) Del mejor modelo que obtuviste en (c), calcula los residuales estandarizados y
usalos para encontrar donde las discrepancias mas grandes entre las frecuencias
observadas y las frecuencias estimadas esperadas a partir del modelo.
8.3 Los datos del Cuadro 8.6 muestran respuestas tumorales de pacientes masculinos
y femeninos recibiendo tratamiento para el cancer de pulmon de celulas peque
nas.
Hubo dos regmenes de tratamientos. Para el tratamiento secuencial, la misma combinacion de agentes quimioterapeuticos se administro a cada ciclo de tratamiento.
Para el tratamiento alternativo, diferentes combinaciones se alternaron de ciclo a
ciclo (datos de Holtbrugger y Schumacher, 1991).
Cuadro 8.6: Respuestas de tumores de dos tratamientos diferentes: n
umero de pacientes
en cada categora.
Tratamiento
Secuencial
Alternativo
Sexo
Maculino
Femenino
Maculino
Femenino
Enfermedad
No
progresiva cambio
28
45
4
12
41
44
12
7
Remision
parcial
29
5
20
3
Remision
completa
26
2
20
1
(a) Ajusta un modelo de momios proporcional para estimar las probabilidades para
cada respuesta categorica tomando en cuenta los efectos del tratamiento y sexo.
(b) Examina la adecuacion del modelo ajustado en (a) usando residuales y estadsticos de bondad de ajuste.
(c) Usa un estadstico de Wald para probar la hipotesis de que no hay diferencia
en respuestas de los dos regmenes de tratamiento.
(d) Ajusta dos modelos de momios proporcionales para probar la hipotesis de que
no hay diferencias en los tratamientos. Comparar los resultados con los de (c).
(e) Ajusta modelos de categoras adyacentes y modelos de razon contnua utilizando funciones de liga logit, probit y log-log complementarias. Como los modelos
diferentes afectan la interpretacion de los resultados?
8.4 Considera Respuestas categoras ordinales que pueden interpretarse en terminos
de variables latentes continuas como se muestra en la Figura 8.2. Suponga que la
distribucion de esta variable subyacente es Normal. Muestra que la funcion de liga
probit es la funcion de liga natural en esta situacion (Sugerencia: vease la seccion
7.3).
Captulo 9
Datos de Conteo, Modelos de
Regresi
on Poisson y Log-Lineal
9.1.
Introducci
on
El n
umero de veces que un evento se produce es una forma com
un de datos. Como
ejemplos de datos de conteo o de frecuencia incluyen el n
umero de ciclones tropicales
que cruzan la costa norte de Queensland (Seccion 1.6.5) o el n
umero de personas en
cada celda de una tabla de contingencia que resume las respuestas de una encuesta (por
ejemplo, los ndices de satisfaccion de las condiciones de vivienda, Ejercicio 8.2).
La distribuci
on de Poisson se utiliza a menudo para modelar datos de conteo. Si
Y es el n
umero de ocurrencias, su distribucion de probabilidad se puede escribir como
f (y) =
y e
,
y!
y = 0, 1, 2, . . .
donde es el n
umero promedio de ocurrencias. Se puede demostrar que E(Y ) = y
V ar(Y ) = (ver Ejercicio 3.4).
El parametro requiere una definicion cuidadosa. A menudo necesita ser descrito
como una tasa; por ejemplo, el n
umero promedio de clientes que compran un producto
en particular de cada 100 clientes que entran en la tienda. Para el parametro, tasa de
accidentes de vehiculos de motor puede ser definido de distintas maneras: choques por
cada 1.000 habitantes, choques por cada 1,000 conductores con licencia, accidentes por
cada 1.000 vehculos de motor, o accidentes por cada 100.000 kms recorridos por los
vehculos de motor. La escala de tiempo debe ser incluida en la definicion; por ejemplo,
la tasa de accidentes de vehculos de motor por lo general se especifica como la tasa
por a
no (por ejemplo, los accidentes por cada 100.000 kms por a
no), mientras que la
tasa de los ciclones tropicales se refiere a la temporada de ciclones de noviembre a abril
en el noreste de Australia. Generalmente, la tasa se especifica en terminos de unidades
de exposicion; por ejemplo, los clientes que entran en una tienda estan expuestos
a la oportunidad de comprar el producto de interes. Para accidentes de trabajo, cada
trabajador esta expuesto durante el periodo que el o ella esta en el trabajo, por lo que
la tasa puede ser definido en terminos de a
nos-persona en riesgo.
El efecto de las variables explicatorias sobre la respuesta Y se modela mediante el
parametro . Este captulo describe los modelos para dos situaciones.
En la primera situacion, los eventos se refieren a cantidades variables de exposicion que deben tenerse en cuenta cuando se modela la tasa de eventos. La Regresi
on
149
POISSON Y LOG-LINEAL1
CAPITULO 9. DATOS DE CONTEO, MODELOS DE REGRESION
de Poisson se utiliza en este caso. Las otras variables explicatorias (ademas de exposicion) pueden ser continuas o categoricas.
En la segunda situacion, exposicion es constante (y por lo tanto no es relevante
para el modelo) y las variables explicatorias son usualmente categorica. Si solo hay unas
pocas variables explicatorias los datos se resumen en una tabla de clasificacion cruzada.
La variable de respuesta es la frecuencia o el recuento en cada celda de la tabla. Las
variables utilizadas para definir la tabla son tratadas como variables explicatorias. El
dise
no del estudio puede significar que hay algunas restricciones en las frecuencias de las
celdas (por ejemplo, los totales de cada fila de la tabla pueden ser iguales) y estas deben
ser tomadas en cuenta en el modelado. El termino modelo log-lineal que basicamente
describe el papel de la funcion liga, se utiliza para los modelos lineales generalizados
adecuado para esta situacion.
La siguiente seccion describe la regresion de Poisson. Un ejemplo numerico se utiliza
para ilustrar los conceptos y metodos, incluyendo la comprobacion de modelo y de
inferencia. Las secciones siguientes describen las relaciones entre las distribuciones de
probabilidad para los datos de conteo, restringidos de varias maneras, y los modelos
log-lineales que pueden ser utilizados para analizar los datos.
9.2.
Regresi
on Poisson
E(Yi ) = i = ni exi ;
Yi Poisson(i ).
(9.2)
(9.3)
POISSON Y LOG-LINEAL1
CAPITULO 9. DATOS DE CONTEO, MODELOS DE REGRESION
contra ausente es
RR =
E(Yi | presente)
= ej
E(Yi | ausente)
(9.4)
i = 1, . . . , N
estos son a menudo denotados por ei porque son las estimaciones de los valores esperados
E(Yi ) = i . Como la var(Yi ) = E(Yi ) para la distribucion Poisson el error estandar de
(9.5)
donde oi denota los valores observados de Yi . Como se indica en la Seccion 6.26, estos
residuales puede ser mas refinados a
oi ei
rpi =
ei 1 hi
donde el leverage, hi , es el i-esimo elemento de la diagonal de la matriz sombrero.
Para la distribucion Poisson, los residuales dados por (9.5) y el estadstico de bondad
de ajuste chi-cuadrado estan relacionados por
X2 =
ri2 =
X (oi ei )2
ei
POISSON Y LOG-LINEAL1
CAPITULO 9. DATOS DE CONTEO, MODELOS DE REGRESION
Los residuales de desvianza son los componentes de D en (9.6),
p
di = sign(oi ei ) 2[oi log(oi /ei ) (oi ei )], i = 1, . . . , N
(9.8)
P
as que D = d2i .
Los estadsticos de bondas de ajuste X 2 y D estan estrechamente relacionados.
Usando la expancion de las series de Taylor dado en la Seccion 7.5,
o log
o
e
= (o e) +
1 (o e)2
+ ...
2
e
9.2.1.
Ejemplo de Regresi
on Poisson: medicos brit
anicos muertes
por fumar y enfermedad coronaria
Los datos en el Cuadro 9.1 son de un famoso estudio realizado por Sir Richard Doll
y sus colegas. En 1951, a todos los medicos britanicos se les envio un breve cuestionario
sobre si fumaban tabaco. Desde entonces la informacion acerca de sus muertes ha sido
registradas. El Cuadro 9.1 muestra el n
umero de muertes por la enfermedad del corazon
coronari entre los medicos varones 10 a
nos despues de la encuesta. Tambien muestra
el numero total de personas-a
nos en el momento del analisis (Breslow y Day, 1987:
Apendice 1A y la pag. 112).
Las preguntas de interes son:
1. Es la tasa de mortalidad mas alta para los fumadores que para los no fumadores?
POISSON Y LOG-LINEAL1
CAPITULO 9. DATOS DE CONTEO, MODELOS DE REGRESION
2. Si es as, Por cuanto ?
3. Esta relacionado el efecto diferencial con la edad?
Fumadores
Muertes Personas-a
nos
32
52407
104
43248
206
28612
186
12663
102
5317
No fumadores
Muertes Personas-a
nos
2
18790
12
10673
28
5710
28
2585
31
1462
(9.9)
POISSON Y LOG-LINEAL1
CAPITULO 9. DATOS DE CONTEO, MODELOS DE REGRESION
donde el subindice i denota el i-esimo grupo definido por el grupo de edad y el tabaquismo(i =
1, . . . , 5 para edades 35 44, . . . , 75 84 para fumadores i = 6, . . . , 10 para los correspondientes grupos de edades para los no fumadores). El termino deathsi denota el
n
umero esperado de muertes y populationi denota el n
umero de doctores en riesgo
en el grupo i. Para los demas terminos, smokei es igual uno de los fumadores y cero
de los no fumadores; agecati toma los valores i = 1, . . . , 5 para los grupos de edad
35 44, . . . , 75 84; agesqi es el cuadrado agecati para tener en cuenta la no linealidad
de la tasa de incremento; y smkagei es igual a agecati para fumadores y cero para los
no fumadores, esto describe una tasa difenrencial de crecimiento con la edad.
El Cuadro 9.2 muestra las estimaciones de los parametros en la forma de razones de
b
tasa ej . El estadstico de Wald (9.4) para la prueba j = 0 todos tienen un valor p muy
peque
no y el intervalo de confianza de 95 % para ej no contiene a la unidad, mostrando
que todos los terminos son necesarios en el modelo. Las estimaciones muestran que
el riesgo de muerte por coronaria fue, en promedio, acerca de 4 veces mayor para
los fumadores que para los no fumadores (basados en las razon de tasa para smoke)
despues el efecto de la edad se tienen en cuenta. Sin embargo, el efecto es atenuado
mientras la edad incrementa(coeficiente de smkage). El Cuadro 9.3 muestra que el
modelo se ajusta muy bien a los datos; el n
umero esperado de muertes estimado de
(9.9) son bastantes similares a los n
umeros de muertes observadas y as los Residuales
de Pearson calculdados de (9.5) y la desvianza de (9.8) son muy peque
nos.
Para el modelo minimal, con solo el paremetro 1 , el valor maximo para la funcion
de verosimilitud es l(bmin ) = 495.067. El correspondiente valor para el modelo (9.9)
es l(b) = 28.352. Por lo tanto, un prueba global del modelo (las pruebas j = 0
para j = 2, . . . , 5) es C = 2[l(b) l(bmin )] = 933.43 que es estadsticamente muy
significante comparado con la distribucion chi-cuadrado con 4 grados de libertad. El
valor del pseudo R2 es 0.94, o 94 %,lo que sugiere un buen ajuste. Pruebas mas formales
de bondad de ajuste son proporcionados por los estadsticos X 2 = 1.550 y D = 1.635
que son peque
nos comparados con la distribucion chi-cuadrado con N p = 10 5 = 5
grados de libertad.
Cuadro 9.2: Estimaciones de los parametros obtenidos por el ajuste del modelo (9.9)
para los datos en el Cuadro 9.1.
Termino
b
b
s.e.()
Estadstico de Wald
p-valor
Razon de tasas
Intervalo de confianza de 95 %
9.3.
agecat
2.376
0.208
11.43
<0.001
10.77
7.2, 16.2
agesq
-0.198
0.027
-7.22
<0.001
0.82
0.78, 0.87
smoke
1.441
0.372
3.87
<0.001
4.22
2.04, 8.76
smkage
-0.308
0.097
-3.17
0.002
0.74
0.61, 0.89
Antes de la espesificacion de los modelos log-lineal para datos de frecuencias resumidas en tablas de contingencia es importante considerar como el dise
no de estudio
POISSON Y LOG-LINEAL1
CAPITULO 9. DATOS DE CONTEO, MODELOS DE REGRESION
puede determinar las limitaciones de los datos. El estudio del dise
no tambien afecta
la eleccion de modelos de probabilidad para describir los datos. Estas questiones son
ilustradas en los siguientes tres ejemplos.
Cuadro 9.3: N
umeros de muertes observadas y esperadas y residuos para el modelo
descrito en el Cuadro 9.2.
Categoria
Edad
1
2
3
4
5
1
2
3
4
5
Suma de cuadrados *
9.3.1.
Categoria
Muertes
Fumador Observados
1
32
1
104
1
206
1
186
1
102
0
2
0
12
0
28
0
28
0
31
Muertes Residual de
Esperados
Pearson
29.58
0.444
106.81
-0.272
208.20
-0.152
182.83
0.235
102.58
-0.057
3.41
-0.766
11.54
0.135
27.74
0.655
30.23
-0.405
31.07
-0.013
1.550
Desvianza
Residual
0.438
-0.273
-0.153
0.234
-0.057
-0.830
0.134
0.641
-0.411
-0.013
1.635
Cabeza
y cuello
22
16
19
11
68
Tronco
2
54
33
17
106
Sitio
extremidades
10
115
73
28
226
Total
34
185
125
56
400
La cuestion de interes es si existe alguna asociacion entre el tipo del tumor y sitio.
El Cuadro 9.5 muestra los datos que se muestran como porcentajes de fila y columnas
totales. Parece que peca melanotico de Hutchinson es mas com
un en la cabeza y el
cuello, pero hay poca evidencia de asociacion entre otros tipos de tumores y los sitios.
POISSON Y LOG-LINEAL1
CAPITULO 9. DATOS DE CONTEO, MODELOS DE REGRESION
Cuadro 9.5: El melanoma maligno: porcentajes de fila y columna para el tipo de tumor
y el sitio.
Sitio
extremidades
Cabeza
y cuello
Tronco
Total
64.7
8.6
15.2
19.6
17.0
5.9
29.2
26.4
30.4
26.5
29.4
62.2
58.4
50.0
56.5
100
100
100
100
100
32.4
23.5
27.9
16.2
100.0
1.9
50.9
31.1
16.0
99.9
4.4
50.9
32.3
12.4
100.0
8.50
46.25
31.25
14.00
100.0
Sea Yjk que denota la frecuencia para la (j, k)-esima celda con j = 1, . . . , J y
k = 1,P
. . . , K. En este ejemplo hay J = 4 filas, K = 3 columnas y la restriccion de que
P
J
K
no del estudio. Si las Yjk s son varij=1
k=1 Yjk = n, donde n = 400 es fija por el dise
ables aleatorias independientes con Distribucion Poisson con parametros E(Yjk
= jk ,
P) P
entonces su suma tiene la distribucion Poisson con parametros E(n) = =
jk .
De ah que la distribucion de probabilidad conjunta de las Yjk s , condicionada a su
suma n, es la distribucion multinomial.
f (y | n) = n!
J Y
K
Y
jkjk /yjk !
j=1 k=1
donde jk = jk /. Este P
resultado
es derivado de la Seccion 8.2. La suma de los terminos
P
jk es la unidad porque
jk = ; tambien 0 < k < 1. As jk puede interpretarse
como la probabilidad de una observacion en la (j, k)-esima celda del la tabla.
Tambien el valor esperado de Yjk es
E(Yjk ) = jk = njk .
La funcion liga usual para un modelo de Poisson da
log jk = log n + log jk
que es como la ecuacion (9.3), excepto que el termino log n es el mismo para todo las
Yjk s.
9.3.2.
POISSON Y LOG-LINEAL1
CAPITULO 9. DATOS DE CONTEO, MODELOS DE REGRESION
se le dio la nueva vacuna y el otro un placebo solucion salina. Las respuestas fueron
tres niveles de inhibicion de hemaglutinina anticuerpo que se encuentra en la sangre
seis semanas despues de la vacunacion; que se clasificaron como peque
no, medio
o grande. Las frecuencias de las celdas en los renglones del el Cuadro 9.6 estan
restringidos a asumir al n
umero de sujetos en cada grupo de tratamiento (35 y 38
respectivamente). Queremos saber si el patron de respuestas es el mismo para cada
grupo de tratamiento.
Cuadro 9.6: Ensayo de vacuna contra la gripe
Placebo
Vaccine
Peque
na
25
6
Respuesta
Moderada Grande
8
5
18
11
Total
38
35
K
Y
jkjk /yjk !
k=1
PK
P
que la distribucion de
donde yj. = K
k=1 jk = 1. As
k=1 yjk es el total de el renglon y
probabilidad conjunta para todas las celdas de la tabla es la producto de distribuci
on
multinomiales
J
K
Y
Y
y
f (y | y1 ., y2 ., . . . , yJ .) =
yj. !
jkjk /yjk !
j=1
donde
PK
k=1 jk
k=1
9.3.3.
POISSON Y LOG-LINEAL1
CAPITULO 9. DATOS DE CONTEO, MODELOS DE REGRESION
Cuadro 9.7: Las u
lceras gastricas y duodenales y uso de aspirina : frecuencias (Duggan
et al,. 1986).
Uso de Aspirina
No usa
Usa
Total
Ulcera Gastrica
Control
Casos
Ulcera Duedal
Control
Casos
62
39
6
25
68
64
53
49
8
8
61
57
l=1
POISSON Y LOG-LINEAL1
CAPITULO 9. DATOS DE CONTEO, MODELOS DE REGRESION
Cuadro 9.8: Las u
lceras gastricas y duodenales y uso de aspirina : porcentanje por
renglon para los datos del Cuadro 9.7.
Uso de Aspirina
No usa
Usa
Total
Ulcera Gastrica
Control
Casos
Ulcera Duedal
Control
Casos
9.4.
91
61
9
39
100
100
87
86
13
14
100
100
Los ejemplos en la seccion 9.3 ilustran los modelos de probabilidad principales para
datos en tablas de contingencia. En general, sea el vector y las frecuencias Yi en N
celdas de una Tabla de clasificacion cruzada.
9.4.1.
Modelo Poisson
Si no hay restricciones en los Yi s podran ser modeladas como variables aleatorias independientes con los parametros E(Yi ) = i y la distribucion de probabilidad conjunta
f (y; ) =
N
Y
yi i ei yi !
i=1
donde es un vector de i s.
9.4.2.
Modelo Multinomial
Si la u
nica restriccion es la suma de las Yi s es n, entonces las siguiente distribucion
multinomial puede ser usada
f (y; |n) = n!
N
Y
iyi yi !
i=1
P
PN
donde N
i=1 i = 1 y
i=1 yi = n. En este caso, E(Yi ) = ni .
Para una tabla de contingencia de dos dimensiones (como el Cuadro 9.4 para datos de
melanoma), si j y k son los renglones y columnas entonces la hipotesis mas com
unmente
considerado es que los renglones y columnas de las variables son independientes de modo
que
jk = j. .k
P
P
donde j. y .k son las probabilidades marginales con j j. = 1 y k .k = 1. Esta hipotesis puede ser probada comparando el ajuste de dos modelos lineales para el
POISSON Y LOG-LINEAL1
CAPITULO 9. DATOS DE CONTEO, MODELOS DE REGRESION
logaritmo de jk = E(Yjk ); a saber
log jk = log n + log jk
y
log jk = log n + log j. + log .k .
9.4.3.
Si hay mas marginales totales fijas que solo el total general n, entonces los productos
apropiados de distribuciones multinomiales pueden ser usadas para modelar los datos.
Por ejemplo, para una tabla de tres dimensiones con J renglones, K columnas y L
capas, si el total de renglones son fijados en cada capa la probabilidad conjunta para
las Yjkl s es
f (y|yj.l , j = 1, . . . , J, l = 1, . . . , L) =
J Y
L
Y
yj.l !
j=1 l=1
K
Y
jkl
yjkl !
jkl
k=1
P
donde k jkl = 1 para cada combinacion de j y l. En este caso, E(Yjkl ) = yj.l jkl .
Si u
nicamente los totales de capas son fijos, entonces
f (y|y..l , l = 1, . . . , L) =
L
Y
l=1
con
P P
9.5.
y..l !
J Y
K
Y
jkl
jkl
yjkl !
j=1 k=1
Modelos Log-lineales
Todos los modelos de probabilidad dados en la seccion 9.4 estan basados en la distribucion Poisson y en todos los casos E(Yi ) puede ser escrita como un producto de
parametros y otros terminos. As la funcion de liga natural para la distribucion Poisson,
la funcion logartmica, produce una componente lineal
log E(Yi ) = constante + xTi .
El termino del Modelo log-lineal es usado para describir todos estos modelos lineales
generalizados.
Para el ejemplo 9.3.1 del melanoma, si no hay asociaciones entre sitio y tipo de tumor,
as estas dos variables son independientes, su probabilidad conjunta jk es el producto
de las probabilidades marginales
jk = j. .k ,
j = 1, . . . , J
k = 1, . . . , K.
(9.11)
POISSON Y LOG-LINEAL1
CAPITULO 9. DATOS DE CONTEO, MODELOS DE REGRESION
Esto es el analogo al analisis de varianza para un experimento de dos factores sin replica
(ver seccion 6.4.2). La ecuacion (9.11) puede ser escrita como el modelo saturado
log E(Yjk ) = + j + k + ()jk
y la ecuacion (9.10) puede ser escrita como el modelo aditivo
log E(Yjk ) = + j + k .
Dado que el termino log n tiene que estar en todos los modelos, el modelo minimal es
log E(Yjk ) = .
Para el experimento de la vacuna contra la gripe, el ejemplo 9.3.2, E(Yjk ) = yj. jk si la
distribucion de la respuesta descrita por los jk s difieren para los j grupos, o E(Yjk ) =
yj. .k si es le mismo para todos los grupos. As la hipotesis de homogeneidad de las
distribuciones de respuesta pueden ser probadas para comparar el modelo
log E(Yjk ) = + j + k + ()jk ,
correspondiente a E(Yjk ) = yj. jk , y el modelo
log E(Yjk ) = + j + k
correspondiente a E(Yjk ) = yj. .k . El modelo minimal para estos datos es
log E(Yjk ) = + j
porque el total de renglones, correspondientes al subndice j, son fijos por el dise
no del
estudio.
Mas generalmente, la especificacion de las componentes lineales de modelos log-lineales
tiene mucha semejanza a la especificacion para modelos ANOVA. Los modelos son
jer
arquicos, significa que si un termino de orden mayor (interaccion) es includo en el
modelo entonces todos los terminos de orden menor son tambien includos. Asi, si la
interaccion doble de primer orden ()jk es incluida entonces tambien lo son los efectos principales j y k y la constante . Similarmente, si las interacciones de segundo
orden ()jkl son incluidas entonces lo son tambien las interacciones de primer orden
()jk , ()jl y ()kl .
Si se especifican los modelos log-lineales de forma analoga a los modelos de ANOVA,
que incluyen demasiados parametros as la restriccion suma-cero o punto-esquina son
necesarias. La Interpretacion de los parametros es generalmente mas simple si la referencia o las categoras punto-esquina son identificadas de modo que las estimaciones
de los parametros describen efectos para otras categoras relativas a las categoras de
referencia.
Para las tablas de contingencia las principales preguntas casi siempre se relacionan con
las asociaciones entre variables. Por lo tanto, en modelos log-lineales, los terminos de
interes primordial son las interacciones que involucran dos o mas variables.
POISSON Y LOG-LINEAL1
CAPITULO 9. DATOS DE CONTEO, MODELOS DE REGRESION
9.6.
Aunque tres tipos de distribuciones de probabilidad son usadas para describir datos de
tabla de contingencia (ver seccion 9.4), Birch (1963) mostro que para cualquier modelo
log-lineal los estimadores de maxima verosimilitud son los mismos para todas estas
distribuciones siempre que los parametros que corresponden a los totales marginales
fijos son siempre includas en el modelo. Esto significa que para el proposito de estimacion, la distribucion Poisson puede siempre ser supuesta. Como la distribucion
Poisson pertenece a la familia exponencial y las restricciones de los parametros pueden
ser incorporados en la componente lineal, todos los metodos estandar para modelos
lineales generalizados pueden ser usados.
La adecuacion de un modelo puede ser evaluada usando los estadsticos de bondad de
ajuste X 2 o D (y aveces C y pseudo R2 ) resumido en la Seccion 9.2 para Regresion
Poisson. Mas conocimiento en la adecuacion del modelo a menudo puede ser obtenido
mediante la examinacion de los residuales de Pearson o de desvianza dados por las
ecuaciones (9.5) y (9.8) respectivamente. Las Pruebas de hipotesis pueden ser realizadas mediante la comparacion de la diferencia en los estadsticos de bondad de ajuste
entre un modelo general correspondiente a una hipotesis alternativa y una anidada, el
modelo mas simple correspondiente a una hipotesis nula.
Estos metodos son ilustrados en los siguientes ejemplos.
9.7.
9.7.1.
Ejemplos num
ericos
Estudio transversal de melanoma maligno
Para los datos en el Cuadro 9.4 la pregunta de interes es de que si hay una asociacion
entre el tipo de tumor y el sitio. Esto puede ser examinado probando la hipotesis nula
de que las variables son independientes.
La prueba Chi-cuadrada convencional de independencia para una tabla de dos dimensiones es realizada calculando las frecuencias esperadas para cada celda basada en P
las P
marginales totales, ejk = yj. y.k /n, calculando el estadstico chi-cuadrado
X 2 = j k (yjk ejk )2 /ejk y comparando este con la distribucion chi-cuadrada central con (J 1)(K 1) grados de libertad. Las frecuencias observadas y esperadas son
mostradas en el cuadro 9.9. Esto da
X2 =
(28 31.64)2
(22 5.78)2
+ ... +
= 65.8.
5.78
31.64
El valor X 2 = 65.8 es muy significativo comparado con la distribucion 2 (6). El examen de frecuencias observadas yjk y frecuencias esperadas ejk muestra que la peca
melanootica de Hutchinson es mas com
un en la cabeza y cuello que se esperara si el
sitio y tipo fueran independientes.
El analisis correspondiente usando modelos log-lineales involucra el ajuste del modelos aditivo (9.10) correspondiente a la hipotesis de independencia. El modelo saturado
(9.11) y el modelo minimal con solo un termino para el efecto de la media son tambien
ajustados para propositos ilustrativos. Los resultados para todos los tres modelos son
mostrados en el Cuadro 9.10.
POISSON Y LOG-LINEAL1
CAPITULO 9. DATOS DE CONTEO, MODELOS DE REGRESION
Cuadro 9.9: Prueba Chi-cuadrada convencional de independencia para datos de
melanoma in el cuadro 9.4; frecuencias esperadas son mostradas en parentesis.
Tipo de tumor
freckle melanotico
de Hutchinson
Esparcimiento superficial
de melanoma
Nodular
indeterminado
Total
Cabeza
y Cuello
22 (5.78)
16 (31.45)
Sitio
Extemidades
2 (9.01)
10 (19.21)
Tronco
54 (49.03)
19 (21.25) 33 (33.13)
11 (9.52) 17 (14.84)
68
106
Total
34
115 (104.52)
185
73 (70.62)
28 (31.64)
226
125
56
400
9.7.2.
POISSON Y LOG-LINEAL1
CAPITULO 9. DATOS DE CONTEO, MODELOS DE REGRESION
uso de aspirina (AP). La comparacion del uso de aspirina entre casos y controles se
Cuadro 9.10: Modelos log-lineales para datos de melanoma en el cuadro 9.4; los coeficientes, b, con errores estandar en parentesis.
Termino*
Constante
SSM
NOD
IND
TNK
EXT
SSMTNK
SSMEXT
NODTNK
NODEXT
INDTNK
INDEXT
log-verosimilitud
X2
D
Modelo
Modelo
Saturado(9.10) Aditivo(9.9)
3.091 (0.213) 1.754 (0.204)
-0.318 (0.329) 1.694 (0.187)
-0.147 (0.313) 1.302 (0.193)
-0.693 (0.369) 0.499 (0.217)
-2.398 (0.739) 0.444 (0.155)
-0.788 (0.381) 1.201 (0.138)
3.614 (0.792)
2.761 (0.465)
2.950 (0.793)
2.134 (0.460)
2.833 (0.834)
1.723 (0.522)
-29.556
0.0
0.0
-55.453
65.813
51.795
Modelo
Minimal
3.507 (0.05)
-177.16
puede resumir por la diferencia de la desvianza para el segundo y tercer renglones del
Cuadro 9.11.
D = 2[25.08 (30.70)] = 11.24.
Este valor es estadsticamente significante comparado con la distribucion 2 (1), sugiriendo que la aspirina es un factor de riesgo para la u
lcera. La comparacion entre el
tercer y cuarto renglones del cuadro, D = 2[22.95 (25.08)] = 4.26, proporciona
solo poca evidencia de una diferencia entre sitios de u
lcera, posiblemente debido a la
falta de potencia estadstica (p-valor=0.04 de la distribucion 2 (1)).
El ajuste del modelo con las tres interacciones dobles es mostrada en el cuadro 9.12.
Los estadsticos de bondad de ajuste para esta cuadro son X 2 = 6.49 y D = 6.28 lo
que sugiere que el modelo no es particularmente bueno ( comparado con la distribucion
2 (1)) a pesar de que p = 7 parametros se han utilizado para describir N = 8 puntos
de datos.
POISSON Y LOG-LINEAL1
CAPITULO 9. DATOS DE CONTEO, MODELOS DE REGRESION
Cuadro 9.11: Resultados de la modelacion log-lineal de datos en el cuadro 9.7.
Terminos en el modelo
d.f.*
GD+CC+GDCC
GD+CC+GDCC+AP
GD+CC+GDCC+AP+APCC
GD+CC+GDCC+AP+APCC+APGD
4
3
2
1
logverosimilitud**
-83.16
-30.70
-25.08
-22.95
Ulcera
gastrica
Controles
Casos
Ulcera Duodenal
Controles
Casos
9.8.
Total
62 (58.53)
39 (42.47)
6 (9.47)
25 (21.53)
68
64
53 (56.47)
49 (45.53)
8 (4.53)
8 (11.47)
61
57
Observaciones
POISSON Y LOG-LINEAL1
CAPITULO 9. DATOS DE CONTEO, MODELOS DE REGRESION
9.9.
Ejercicios
9.1 Sean P
Yi , . . . , YN variables aleatorias independientes con Yi Poisson(i ) y log i =
1 + Jj=2 xij j ,
i = 1, . . . , N.
(a) Muestra que el estadstico de puntuacion para 1 es U1 =
PN
i=1 (Yi
i ).
(b) P
Por lo tanto
muestra que para la estimacion de maxima verosimilitud
bi ,
P
bi = yi .
(c) Deduce que la expresion para la desvianza in (9.6) se simplifica a (9.7) en este
caso.
9.2 Los datos en el cuadro 9.13 son n
umeros de policias asegurados, n, y n
umeros
de reclamaciones, y, para carros en varias categorias de seguros, CAR, tabulado
por edad de titular de poliza, AGE, y distrito donde viva el titular de la poliza
(DIST=1, para Londres y otras ciudades mayores y DIST=0, en otro caso).El
cuadro es derivado del connjunto de datos CLAIMS en Aitkin et al. (1989) obtenido
de un artculo de Baxter, Coutts y Ross (1980).
(a) Calcula la tasa de reclamaciones y/n para cada categora y grafica las tasas
por AGE, CAR y DIST para lograr una idea de los efectos principales de estos
factores.
(b) Usa regresion Poisson para estimar los efectos principales (cada una tratada
como categorica y modelada utilizando variables indicadoras) y terminos de
interaccion.
(c) Basado en la modelacion en (b), Aitkin et al. (1989) determino que todas las
interacciones fueron sin importancia y decidio que AGE y CAR podran ser
tratadas aunque fuesen variables continuas. Ajusta un modelo incorporando
estas caractersticas y compara esto con el mejor modelo obtenido en (b). a
que conclusiones se llega?
9.3 (a) Usando la prueba chi-cuadrada convencional y un modelo log-lineal apropiado,
prueba las hipotesis de que la distribucion de la respuesta es la misma para grupos
de placebo y vacunas para los datos de los ensayos de vacunas contra la gripe en
el cuadro 9.6.
(b) Para el modelo correspondiente para la hipotesis de homogeneidad de distribuciones de respuesta, calcula los valores ajustados, los residuales de Pearson y la
desvianza y los estadsticos de bondad de ajuste X 2 y D. Cual de las celdas
del cuadro contribuyen mas a X 2 (o D)? Explica e interpreta los resultados.
(b) Re analiza estos datos usando regresion logstica ordinal para estimar puntos
de corte para una variable respuesta continua latente y para estimar un cambio
de localizacion entre los dos grupos de tratamiento. Dibuja un diagrama aspero
para ilustrar el modelo que forma la base conceptual para este analisis (vease
el ejercicio 8.4).
9.4 Para tablas de contingencia de 2 2, el modelo log-lineal maximal puede ser escrito
como
11 = + + + (),
12 = + (),
POISSON Y LOG-LINEAL1
CAPITULO 9. DATOS DE CONTEO, MODELOS DE REGRESION
21 = + (),
donde jk
22 = + (),
PP
= log E(Yjk ) = log(njk ) y n =
Yjk . Muestra que los terminos de
CAR
1
1
1
1
2
2
2
2
3
3
3
3
4
4
4
4
AGE
1
2
3
4
1
2
3
4
1
2
3
4
1
2
3
4
DIST=0
y
n
65 317
65 476
52 486
310 3259
98 486
159 1004
175 1355
877 7660
41 223
117 539
137 697
477 3442
11
40
35 148
39 214
167 1019
DIST=1
y
n
2
20
5
33
4
40
36 316
7
31
10 81
22 122
102 724
5
18
7
39
16 68
63 344
0
3
6
16
8
25
33 114
1
log
4
POISSON Y LOG-LINEAL1
CAPITULO 9. DATOS DE CONTEO, MODELOS DE REGRESION
(a) Muestra que el producto de distribuciones multinomiales apra esta tabla se
reduce a
K
X
nk zk
f (z1 , . . . , zK /n1 , . . . , nK ) =
k (1 k )nk zk
z
k
k=1
Exitos
Fracasos
Total
1
y11
y21
y.1
...
k
y1k
y2k
y.k
...
K
y1K
y2K
y.K
Captulo 10
An
alisis de Supervivencia
10.1.
Introducci
on
Un tipo importante de los datos es el tiempo desde un punto de inicio bien definido
hasta alg
un evento, llamado falla, se produce. En la ingeniera, este puede ser el
tiempo del uso inicial un componente hasta que deja de funcionar correctamente. En
medicina, puede ser el tiempo desde que un paciente es diagnosticado con una enfermedad hasta que el o ella muere. El analisis de estos datos se centra en resumir las
principales caractersticas de la distribucion, como la mediana u otros percentiles de
tiempo hasta el fallo, y examinar los efectos de las variables explicatorias. Los datos
sobre los tiempos hasta el fallo, o mas optimista, la duracion de la supervivencia o
tiempos de supervivencia, tienen dos caractersticas importantes:
(a) los tiempos son no negativos y suelen tener distribuciones asimetricas con largas
colas;
(b) algunos sujetos puede sobrevivir mas alla del perodo de estudiode manera que
sus tiempos de fallo reales no pueden ser conocidos; en este caso, y otros casos
en los que los tiempos de fallo no se conocen por completo, se dice que los datos
estan censurados .
Los ejemplos de diversas formas de censura se muestran en la Figura 10.1. Las lneas
horizontales representan los tiempos de supervivencia de los sujetos. TO y TC son el
principio y el final del perodo de estudio, respectivamente. D representa muerte o
fallo y A denota vivo al final del estudio. L indica que el sujeto era conocido vivo al
tiempo indicado pero luego se perdio del estudio por lo que el curso de vida subsecuente
es desconocido.
Para los sujetos 1 y 2, todo el perodo de supervivencia (por ejemplo, desde el
diagnostico hasta la muerte, o de la instalacion de una maquina hasta el fallo) se
produjeron en el perodo de estudio. Para el sujeto 3, la muerte se produjo despues
de que el final del estudio de modo que solo la parte solida de la lnea se registra y el
tiempo se dice que esta censurado por la derecha al TC el tiempo.
Para el sujeto 4, el tiempo de supervivencia observada fue censurado derecha debido
a la perdida de seguimiento en el tiempo TL . Para el sujeto 5, el tiempo de supervivencia
inicio antes que el estudio comenzara por lo que el perodo antes de T0 (es decir, la lnea
de puntos) no se graba y el tiempo de supervivencia registrada se dice que esta censurado
por la izquierda en tiempo T0 .
169
CAPITULO 10. ANALISIS
DE SUPERVIVENCIA
170
CAPITULO 10. ANALISIS
DE SUPERVIVENCIA
171
10.2.
La funci
on de supervivencia es la probabilidad de supervivencia mas alla del tiempo
y. Esta dada por
S(y) = P r(Y y) = 1 F (y)
(10.1)
La funci
on de riesgo es la probabilidad de muerte en un tiempo infinitamente peque
no
entre y y (y + y), dado que ha sobrevivido hasta el tiempo y,
P r(y Y < y + y | Y > y)
y0
y
F (y + y) F (y)
1
= lm
.
y0
y
S(y)
h(y) = lm
Pero
F (y + y) F (y)
= f (y)
y0
y
lm
f (y)
S(y)
(10.2)
d
[log[S(y)]]
dy
Por lo tanto
(10.3)
Z
S(y) = exp[H(y)] donde H(y) =
h(t)dt
0
o
H(y) = log[S(y)].
(10.4)
CAPITULO 10. ANALISIS
DE SUPERVIVENCIA
172
10.2.1.
Distribuci
on Exponencial
y 0, > 0
(10.5)
As la funcion de superviviencia es
S(y; ) = ey
(10.6)
la funcion de riesgo es
h(y; ) =
y la funcion de riesgo acumulada es
H(y; ) = y.
La funcion de riesgo no depende de y por lo que la probabilidad de fallo en el
intervalo de tiempo [y, y + y] no esta relacionada con el tiempo que el sujeto ya ha
sobrevivido. Esta propiedad de falta de memoria puede ser una limitacion porque,
en la practica, la probabilidad de fallo a menudo aumenta con el tiempo. En tales
situaciones, un modelo de tiempo de fallo acelerado, tal como la distribucion de Weibull,
puede ser mas apropiado . Una forma de examinar si los datos satisfacen la propiedad
de riesgo constante es estimar la funcion de riesgo acumulada H(y) (vease la seccion
10.3) y graficarla contra el tiempo de supervivencia y. Si la grafica es casi lineal entonces
la distribucion exponencial puede proporcionar un modelo u
til para los datos.
La mediana tiempo de supervivencia esta dado por la solucion de la ecuacion
F (y; ) =
1
2
que es y(50) =
1
log 2
Esta es una descripcion mas apropiada del promedio de tiempo de supervivencia que
E(Y ) = 1/ debido a la asimetra de la distribucion exponencial.
CAPITULO 10. ANALISIS
DE SUPERVIVENCIA
10.2.2.
173
Para una distribucion exponencial, la dependencia de Y sobre las variables explicatorias podra ser modelado como E(Y ) = xT . En este caso la identidad se usaria
como funcion liga. Para garantizar que > 0, sin embargo, es mas comun el uso de
T
= ex .
En este caso la funcion de riesgo tiene la forma multiplicativa
!
p
X
T
h(y; ) = = ex = exp
xi i .
i=1
Para una variable explicatoria binaria con valores xk = 0 si la exposicion esta ausente
y xk = 1 si la exposicion esta presente, la razon de riesgo o riesgo relativo de presencia
vs. ausencia de exposicion es
h1 (y; )
(10.7)
= ek
h0 (y; )
P
siempre que i6=k xi i sea constante. Un cambio unitario en un variable explicatoria
continua xk tambien dara lugar a la razon de riesgo dada en (10.7).
Generalmente, los modelos de la forma
h1 (y) = h0 (y)ex
(10.8)
h0 (t)ex dt = H0 (y)ex
h1 (t)dt =
H1 (y) =
as
log H1 (y) = log H0 (y) +
p
X
xi i .
i=1
Por lo tanto, para dos grupos de sujetos que difieren solo con respecto a la presencia
(denotado por P) o ausencia (denotado por A) de una cierta exposicion, de (10.7)
log HP (y) = log HA (y) + k
(10.9)
por lo que el logaritmo de las funciones de riesgo acumuladas difieren por una constante.
10.2.3.
Distribuci
on Weibull
, y 0, > 0, > 0
CAPITULO 10. ANALISIS
DE SUPERVIVENCIA
174
(10.10)
= exp(y ),
(10.11)
la funcion de riesgo es
h(y; , ) = y
(10.12)
(10.13)
=
donde (u) =
R
0
(1 + 1/)
1
2
es
y(50) = 1/ (log 2)1/ .
Estas estadsticos sugieren que la relacion entre Y y las variables explicatorias debe ser
modelada en terminos de y debe ser multiplicativo. En particular, si
= ex
CAPITULO 10. ANALISIS
DE SUPERVIVENCIA
175
h(y; , ) = y 1 ex .
(10.14)
10.3.
Funci
on de supervivencia emprica
10.3.1.
Ejemplo:Tiempos de remisi
on
b
El calculo de S(y)
se ilustra usando un viejo conjunto de datos de tiempos de
remision de los pacientes con leucemia (Gehan, 1965). Hay dos grupos cada uno de n =
21 pacientes. En el grupo control que fueron tratados con un placebo no hubo censura,
mientras que en el grupo de tratamiento activo, que recibieron 6 mercaptopurina, mas
de la mitad de las observaciones fueron censuradas. Los datos para ambos grupos se
CAPITULO 10. ANALISIS
DE SUPERVIVENCIA
176
b
dan en el Cuadro 10.1. Los detalles del calculo de S(y)
para el grupo de tratamiento se
muestran en el Cuadro 10.2.
Cuadro 10.1: Remision tiempos de pacientes con leucemia; datos de Gehan (1965).
Controles
1
1
2
2 3
8
8
11 11 12
Tratamiento
6
6
6 6* 7
17* 19* 20* 22 23
*indica la censura
4
12
4
15
5
17
5
22
8
23
9*
25*
10 10* 11* 13
32* 32* 34* 35*
16
No. de muertes
al tiempo yj , dj
06
67
710
1013
1316
1622
2223
23
21
21
17
15
12
11
7
6
0
3
1
1
1
1
1
1
Q
b
S(y)
=
nj dj
nj
1
0.857
0.807
0.753
0.690
0.627
0.538
0.448
La Figura 10.2 muestra la grafica de puntos de los tiempos no censurados (puntos) y los tiempos censurados (cuadrados) para cada grupo. Debido al alto nivel de
censura en el grupo de tratamiento, las distribuciones no son realmente comparables.
Sin embargo,los graficos muestran las distribuciones son asimetricas y sugieren que los
tiempos de supervivencia eran mas largos en el grupo de tratamiento. La Figura 10.3
muestra las estimaciones de Kaplan Meier de las funciones de supervivencia para los
dos grupos. La lnea continua representa el grupo de control y la lnea de punteada
representa el grupo de tratamiento. La supervivencia fue obviamente mejor en el grupo
de tratamiento. Figura 10.4 muestra el logaritmo de la funcion de riesgo acumulada
graficada contra log y. Las dos lneas son bastante rectas que sugiere que la distribucion de Weibull es apropiado, a partir de (10.13). Ademas, las lneas son paralelas que
sugiere que el modelo de riesgos proporcionales es apropiado, a partir de (10.9). Las
pendientes de las lneas estan cerca de la unidad lo que sugiere que la distribucion exponencial simple puede proporcionar un buen modelo como la distribucion de Weibull.
La distancia entre las lneas es de aproximadamente 1.4 lo que indica que la relacion
de riesgo es de aproximadamente exp(1.4)
= 4, a partir de (10.9).
CAPITULO 10. ANALISIS
DE SUPERVIVENCIA
177
Figura 10.2: Grafica de puntos de los tiempos de remision de los datos en el Cuadro
10.1: los puntos representan tiempos sin censura y los cuadros tiempo censurados.
CAPITULO 10. ANALISIS
DE SUPERVIVENCIA
178
10.4.
Estimaci
on
f (yj ).
j=1
S(yj ).
j=r+1
La verosimilitud completa
L=
n
Y
j=1
(10.15)
CAPITULO 10. ANALISIS
DE SUPERVIVENCIA
179
as la funcion de log-verosimilitud es
l=
=
n
X
j=1
n
X
(10.16)
j=1
10.4.1.
n
X
j log +
j=1
n
X
(10.17)
j=1
n
X
yj
j=1
La solucion de la ecuacion
U=
r X
dl(, y)
=
yj = 0
d
CAPITULO 10. ANALISIS
DE SUPERVIVENCIA
180
1
1
=
E((U 0 ))
donde
d2 l
r
= 2.
2
d
b = 2 /r que puede ser estimada por b2 /r. Por tanto, por ejemplo, un intervalo
As var()
b r.
de confianza del 95 % aproximado para es b 1.96/
U0 =
10.4.2.
Si los datos para los sujetos j son (yj , j y xj ) y se piensa que la distribucion
de Weibull proporcionar un modelo adecuado (por ejemplo, sobre la base de analisis
exploratorio inicial), entonces la funcion de log-verosimilitud es
l=
n h
i
X
T
j log(yj1 ) (yj ex )
j=1
de las ecuaciones (10.14) y (10.16). Esta funcion puede ser maximizada numericamente
b
b
para obtener las estimaciones de ,
b, y .
10.5.
Inferencia
CAPITULO 10. ANALISIS
DE SUPERVIVENCIA
10.6.
181
Comprobaci
on del modelo
donde h0 es el riesgo de basal. Considere una variable explicatoria binaria xk con valores
xk = 0 si una caracteristica esta ausente y xk = 1 si esta presente. El logaritmo de las
funciones de riesgos acumulados estan relacionados por
log HP = log HA + k ;
b
ver (10.9). Por lo tanto, si las funciones de riesgo empricas S(y)
son calculadas por
separado para los sujetos con y sin la caracterstica y el logaritmo de las funciones de
b
riesgo acumulada log[ log[S(y)]]
son graficadas contra log y, las lneas deben tener la
misma pendiente pero estar separado por una distancia k .
Generalmente, lneas paralelas de la graficas del el logaritmo de las funciones de riesgo acumulada apoyan el supuesto de riesgos proporcionales. Para un n
umero bastante
reducido de variables explicatorias categoricas, el supuesto de riesgos proporcionales se
puede examinar de esta manera. Si las lneas no son paralelas esto puede sugerir que
hay efectos de interaccion entre las variables explicatorias. Si se curvan las lneas pero
a
un as paralela, esto apoya la supuesto de riesgos proporcionales, pero sugiere que el
modelo de tiempo de fallo acelerado es inadecuado. Para situaciones mas complejas
puede ser necesario contar con diagnosticos generales basados en los residuos, aunque
estos no son especficos para la investigacion de la propiedad de riesgos proporcionales.
Los residuos mas simples para los datos de tiempo de supervivencia son los residuos
de Cox-Snell. Si el tiempo de supervivencia del sujetos j es no censurado entonces el
residuo de Cox-Snell es
b j = log[Sbj (yj )]
rCj = H
(10.18)
b j y Sbj son las funciones de supervivencia y riesgos acumulada estimadas para
donde H
el sujeto j al tiempo yj . Para los modelos de riesgos proporcionales (10.18) pueden
escribirse como
b 0 (yj )
rCj = exp(xT )H
b 0 (yj ) es la funcion de de riesgo de basal evaluada en yj .
donde H
Se puede demostrar que si el modelo se ajusta bien a los datos entonces estos residuos
tienen una distribucion exponencial con un parametro de uno. En particular, su media
CAPITULO 10. ANALISIS
DE SUPERVIVENCIA
182
y la varianza debe ser aproximadamente igual a uno. Para las observaciones censuradas,
rCj sera demasiado peque
no y se han propuesto diversas modificaciones de la forma
(
rCj ,
para observaciones no censuradas
0
rCj
= Yi =
rCj + , para observaciones censuradas
0
donde = 1 o = log 2 (Crowley y Hu, 1977). La distribucion de los rCj
s se puede
comparar con la distribucion exponencial con media de uno usando las graficas de probabilidad exponencial (analogos graficos de probabilidad normal) que estan disponibles
en varios softwares estadsticos. Una grafica de probabilidad exponencial del residuales
0
rCj
se puede ser usadas para identificar valores atpicos y desvianzas sistematicas de la
distribucion supuesta.
Los Residuos martingala proporcionan un enfoque alternativo. Para el sujeto
j-esimo el residual martingala es
rMj = j rCj
donde j = 1 si el tiempo de supervivencia es no censurado y j = 0 si son censurados.
Estos residuos tienen un valor esperado de cero, pero una distribucion con sesgo
negativo.
residuos de desvianza (que son algo mal llamada porque la suma de sus cuadrados
no es, de hecho, igual a la desvianza mencionado en la Seccion 10.5) son definidos por
rDj = sign(rM j ){2[rM j + j log(rCj )]}1/2 .
Los rDj s estan aproximadamente distribuidos simetricamente alrededor de cero y valores altos pueden indicar observaciones atipicas.
Cuadro 10.3: Los resultados del ajustede de los modelos de riesgos proporcionales basados en las distribuciones exponencial y Weibull a los datos de la Tabla 10.1.
Modelo
Exponencial
Grupo 1
1.53(0.40)
Intercepto 0
0.63(0.55)
Forma
1.00*
*parametro de forma es la unidad para la
Modelo
Weibull
1.27(0.31)
0.98(0.43)
1.37(0.20)
distribucion exponencial
En principio, cualquiera de los residuos rCj , rM j o rDj son adecuados para la secuencia de graficas en contra de la orden en el que se midieron los tiempos de supervivencia,
o de cualquier otro orden relevante (para detectar la falta de independencia entre las
observaciones) y para graficas contra las variables explicatorias que se han incluido en
el modelo (y que no los tiene) para detectar cualquier patron sistematicos que indicaria que no se ha especificado el modelo correctamente. Sin embargo en la practica, la
asimetra de la distribucion de los rCj y rM j los hace menos u
tiles que rDj .
El diagnostico para identificar observaciones influyentes puede ser definido para los
datos de tiempo de supervivencia, por analoga con estadsticos similares para la regresion lineal m
ultiple y otros modelos lineales generalizados. Por ejemplo, para cualquier
CAPITULO 10. ANALISIS
DE SUPERVIVENCIA
183
parametro k delta-betas j j uno para cada sujeto j, muestrar el efecto sobre la estimacion de k causada por omitir los datos para sujetos j de los calculos. Graficando
las j k s contra el orden de las obsrvaciones o contra los tiempo de supervivencia yj
puede indicar efectos sistematicos u observaciones particularmente influyentes.
10.7.
Figura 10.4 sugiere que un modelo proporcional de riesgos con una distribucion
Weibull, o incluso una exponencial, deben proporcionar un buen modelo para los datos
de tiempo de remision en la Tabla 10.1. Los modelos son
h(y) = exp(0 + 1 x),
h(y) = y
y Exponencial
exp(0 + 1 x),
(10.19)
y Weibull,
10.8.
Ejercicios
10.1 Los datos del Cuadro 10.4 son los tiempos de supervivencia, en semanas, para los
pacientes de leucemia. No hay ninguna censura. Hay dos covariables, recuento de
globulos blancos (WBC) y la prueba de resultados OFA (AG positivo y negativo
AG). El conjunto de datos es de Feigl y Zelen (1965) y los datos de los 17 pacientes
con AG resultados de la prueba positiva se describen en el Ejercicio 4.2.
b
a) Obtener las funciones de supervivencia empricos S(y)
para cada grupo (AG
positivo y negativo AG), omitiendo del WMB.
b
b) Utilice graficadas adecuadas de las estimaciones S(y)
para seleccionar una
distribucion de probabilidad apropiada para modelar los datos.
CAPITULO 10. ANALISIS
DE SUPERVIVENCIA
184
Figura 10.5: Graficas de cajas de Cox Snell y residuales de Desvianza para el modelo
exponencial (10.19) de los datos en el Cuadro 10.1.
CAPITULO 10. ANALISIS
DE SUPERVIVENCIA
185
AG Negativo
Tiempo de
Recuento de
supervivencia globulos blancos
56
4.40
65
3.00
17
4.00
7
1.50
16
9.00
22
5.30
3
10.00
4
19.00
2
27.00
3
28.00
8
31.00
4
26.00
3
21.00
30
79.00
4
100.00
43
100.00
10.2 La distribuci
on log-logistica con la funcion de densidad de probabilidad
f (y) =
e y 1
(1 + e y )2
CAPITULO 10. ANALISIS
DE SUPERVIVENCIA
186
(10.20)
S(y)
.
1 S(y)
CAPITULO 10. ANALISIS
DE SUPERVIVENCIA
187
en cada grupo. Un paciente se perdio durante el seguimiento y varios en cada grupo todava estaban vivos al final del ensayo. Los datos son de Altman y
Bland, (1998)
Cuadro 10.5: Los tiempos de supervivencia en meses de los pacientes con hepatitis cronica activa en un ensayo controlado aleatorio de prednisolona versus ning
un
tratamiento; datos de Altman y Bland, (1998.
prednisolona
2
6
12
54 56**
96 125* 128* 131* 140*
146 148* 162* 168 173*
Sin tratamiento
2
3
4
7
10
32
37
40
41
54
127* 140* 146* 158* 167*
*indica la censura, ** indica una
68
89
141* 143
181*
96
145*
22
28
29
61
63
71
182*
perdida durante el seguimiento
Captulo 11
Datos agrupados y longitudinales
11.1.
Introducci
on
188
189
190
11.2.
Ejemplo: recuperaci
on de un accidente cerebrovascular
(11.1)
191
Sujeto
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
Grupo 1
A
45
A
20
A
50
A
25
A
100
A
20
A
30
A
30
B
40
B
65
B
30
B
25
B
45
B
15
B
35
B
40
C
20
C
35
C
35
C
45
C
45
C
25
C
25
C
15
2
45
25
50
25
100
20
35
35
55
65
30
35
45
15
35
40
20
35
35
65
65
30
25
35
3
45
25
55
35
100
30
35
45
60
70
40
35
80
10
35
40
30
35
35
65
70
30
30
35
Semana
4
5
45 80
25 30
70 70
40 60
100 100
50 50
40 50
50 55
70 80
70 80
45 65
35 40
80 80
10 10
45 45
55 55
30 30
40 40
40 40
65 80
90 90
35 40
30 30
35 40
6
80
35
75
60
100
60
60
65
85
80
85
45
80
20
45
55
30
40
40
85
95
40
30
50
7
8
80 90
30 50
90 90
70 80
100 100
85 95
75 85
65 70
90 90
80 80
85 85
45 45
80 80
20 20
50 50
60 65
30 30
40 40
45 45
95 100
95 100
40 40
35 40
65 65
192
Semana
Semana
Semana
Semana
Semana
Semana
Semana
2
3
4
5
6
7
8
1
0.93
0.88
0.83
0.79
0.71
0.62
0.55
2
0.92
0.88
0.85
0.79
0.7
0.64
Semana
3
4
0.95
0.91 0.92
0.85 0.88 0.97
0.77 0.83 0.92 0.96
0.7 0.77 0.88 0.93
0.98
Figura 11.3: Promedio de las puntuaciones en la recuperacion de un accidente cerebrovascular para grupos de pacientes: la lnea discontinua larga corresponde al grupo A;
la lnea continua al grupo B; la lnea corta discontinua al grupo C.
193
194
Modelo (11.2)
1
2 1
3 1
1
2 1
3 1
Estimacion
Error estandar
36.842
-5.625
-12.109
4.764
3.971
3.715
3.715
0.662
29.821
3.348
-0.022
6.324
-1.994
-2.686
5.774
8.166
8.166
1.143
1.617
1.617
11.3.
Suponga que hay N unidades de estudio o sujetos con ni mediciones para sujetos i
(por ejemplo, ni observaciones longitudinales para i personas o ni observaciones para
i agrupaciones). Sea yi el vector de respuestas para el sujeto i y sea y el vector de
respuestas para todos los sujetos
y1
N
X
..
y = . , as y tiene longitud
ni .
i=1
yN
Un modelo lineal Normal para y es
E(y) = X = ;
y N(, V),
(11.2)
195
Intercepto
30.000
15.536
39.821
11.607
100.000
0.893
15.357
25.357
38.571
61.964
14.464
26.071
48.750
10.179
31.250
34.107
21.071
34.107
32.143
42.321
48.571
24.821
22.321
13.036
(error estandar)
(7.289)
(4.099)
(3.209)
(3.387)
(0.000)
(5.304)
(4.669)
(1.971)
(3.522)
(2.236)
(5.893)
(2.147)
(8.927)
(3.209)
(1.948)
(2.809)
(2.551)
(1.164)
(1.164)
(3.698)
(6.140)
(1.885)
(1.709)
(4.492)
donde
Fuente
Grupos
Error
g.l.
2
21
Media cuadrada
F
30
0.07
459
Parametro
1
2 1
3 1
Estimacion
29.821
3.348
-0.018
Error estandar
7.572
10.709
10.709
X1
X2
X = .. ,
.
XN
1
..
= . ,
p
p-valor
0.94
196
g.l.
2
21
Parametro
1
2 1
3 1
Estimacion
6.324
-1.994
-2.686
Media cuadrada
F
15.56
1.67
9.34
p-valor
0.21
Error estandar
1.080
1.528
1.528
Xi es la matriz de dise
no ni p para el sujeto i y es un vector de parametros de
longitud p. La matriz de varianza-covarianza para mediciones para el sujeto i es
.
i21
Vi = .
.
..
..
in1
ini ni
y la matriz de varianza-covarianza total
V1
O
V=
O
O
V2
O
..
.
O
VN
suponiendo que las respuestas para sujetos diferentes son independientes (donde O es
una matriz de ceros). Usualmente las matrices Vi son supuestas por tener la misma
forma para todos los sujetos.
Si los elementos de V son constantes conocidas entonces puede ser estimado de la
funcion de verosimilitud para el modelo (11.3) o por el metodo de mnimos cuadrados. El
estimador de maxima verosimilitud, obtendio de resolver las ecuaciones de puntuacion
N
U() =
X
l
= XT V1 (y X) =
XTi Vi1 (yi Xi ) = 0
i=1
(11.3)
con
(11.4)
i=1
N
X
T
1
1
b
var() = (X V X) = (
XTi Vi1 Xi )1
(11.5)
i=1
197
por un proceso iterativo. Esto involucra enpezar con un valor inicial V (por ejemplo la
b y as los predictores lineales
b
b = X
matriz identidad), calculando una estimacion
b . Las varianzas y covarianzas de los residuales son usados
y los residuales r = y
b
para calcular V que a su vez se utiliza en (11.5) para obtener una nueva estimacion
b El proceso alternativo entre la estimacion
b y la estimacion V
b hasta convergir es
.
alcanzada.
b es probable
b es sustituda por V en la ecuacion (11.6), la varianza de
Si la estimacion V
de ser sobrestimada. Por lo tanto una alternativa preferible es
b = 1 C1
Vs ()
donde
b 1 X =
=X V
T
N
X
b Xi
XTi V
i
i=1
y
C=
N
X
b i Xi )
b TV
b 1 (yi Xi )(y
b 1 Xi
XTi V
i
i
i=1
b i es la i-esima sub-matriz de V.
b Vs () es llamado el estimador de infordonde V
maci
on sandwich, porque es la matriz de informacion (ver Captulo 5). Esto es
tambien a veces llamado el estimador Huber. Este es un estimador consistente de
b cuando V no es conocido y este es robusto a errores de especificacion de V.
var()
Hay varias formas com
unmente usadas para la matriz Vi .
1. Todos los elementos fuera de la diagonal son iguales asi que
1
1
2
Vi = ..
.. .
.
.
.
. .
1
(11.6)
Esto es apropiado para datos agrupados donde esto es plausible de que todas las
mediciones son igualmente correlacionadas, por ejemplo, para elementos con la
misma unidad de muestreo primario tal como gente que vive en la misma area.
El termino es llamado coeficiente de correlaci
on intra-clase. La matriz de
equicorrelaci
on en (11.7) es llamada cambiable o esf
erica. Si el termino
fuera de la diagonal puede ser escrito en la forma a2 /(a2 + b2 ), la matriz se dice
que tiene simetra compuesta.
2. Los terminos fuera de la diagonal decrecen con la distancia entre observaciones;
por ejemplo, si todos los vectores yi tienen la misma longitud n y
1 12 1n
1
2n
2 21
Vi = ..
(11.7)
.. .
.
.
.
. .
n1 n2 1
donde jk depende de la distancia entre observaciones j y k. Ejemplos incluyen
jk = |tj tk | para mediciones al tiempo tj y tk , o jk = exp(|j k|). Una
198
forma com
unmente usada es el modelo autoregresivo de primer orden con
|jk| donde || < 1 as que
1
2 n1
1
n2
..
1
. .
V i = 2 2
.
..
..
.
n1
(11.8)
1 12 1n
21 1
2n
Vi = 2 ..
.
.
.
. . ..
.
n1 n2
11.4.
Las ecuaciones de puntuacion para modelos Normales (11.4) pueden ser generalizadas
a otra distribuciones usando ideas del captulo 4. Para el modelo lineal generalizado
E(Yi ) = i ,
g(i ) = xTi = i
199
N
X
(yi i )
i=1
var(Yi )
xij
i
i
=
xij .
j
i j
i
Por lo que las ecuaciones de puntuacion para el modelo generalizado (con respuestas
independientes Yi , i = 1, . . . , N ) puede ser escrito como
Uj =
N
X
(yi i ) i
i=1
var(Yi ) j
= 0,
j = 1, . . . , p.
(11.9)
Para medidas repetidas, sea yi el vector de respuestas para el sujeto i con E(Yi ) = i ,
g(i ) = XTi y sea Di la matriz de derivadas i /j . Para simplificar la notacion
suponemos que todos los sujetos tienen el mismo n
umero de mediciones n.
Las escuaciones de estimaci
on generalizadas (GEE0 s) analogas a las ecuaciones
(11.10) son
N
X
U=
DTi Vi1 (yi i ) = 0
(11.10)
i=1
200
datos binarios, la correlacion no es una medida natural de asociacion y las medidas alternativas usando razon de momios han sido propuestas (Lipsitz, Laird y Harrington,
1991).
b que
Para las GEE0 s es a
un mas importante utilizar un estimador sandwich para var()
para el caso Normal (ver seccion 11.3). Esto es dado por
b = 1 C1
Vs ()
donde
=
N
X
b 1 Di
DTi V
i
i=1
es la matriz de informacion y
C=
N
X
b 1 (yi
b 1 Di .
b i )(yi
b i )T V
DTi V
i
i
i=1
b tiene la distribucion N , Vs ()
b y las referencias pueden
Entonces asintoticamente,
ser hechas usando estadsticos de Wald.
11.5.
Modelos multinivel
Una aproximacion alternativa para analizar datos con medidas repetidas es utilizar
modelos jerarquicos basados en el dise
no de estudio. Considere la posibilidad de una
encuesta llevada a cabo mediante un muestreo aleatorio agrupado. Sea Yjk la respuesta
del sujeto k-esimo en el j-esimo grupo. Por ejemplo, suponga que Yjk es el resultado
del k-esimo hogar seleccionado aleatotiamente en el area del concilio j, donde las areas
del concilio, las unidades de muestreo primarias, son seleccionadas aleatoriamente de
todos los concilios de un pas o estado. Si la meta es estimar el promedio del ingreso
de los hogares, entonces un modelo adecuado podra ser
Yjk = + aj + ejk
(11.11)
donde aj es el efecto del area j y ejk es el termino de error aleatorio. Como las areas
fueron seleccionadas aleatoriamente y los efectos de las areas no son de interes primordial, los terminos aj pueden ser definidos como independientes, las variables aleatorias
identicamente distribudas con aj N (0, a2 ). Similarmente, los terminos ejk son independientes, las variables aleatorias identicamente distribudas ejk N (0, e2 ) y las aj s
y ejk s son independientes. En este caso
E(Yjk ) = ,
var(Yjk ) = E (Yjk )2 = E (aj + ejk )2 = a2 + e2 ,
cov(Yjk , Yjm ) = E [(aj + ejk )(aj + ejm )] = a2
para los hogares en la misma zona, y
cov(Yjk , Ylm ) = E [(aj + ejk )(al + elm )] = 0
201
a2 + e2
a2
a2
a2
2
a2
a2
a2 + e2
a
2
2
2
2
a + e
a
Vj =
a
..
.
.
.
.
2
2
2
2
a
a a + e
1
1
2
2 1
= a + e
..
.
.
.
.
1
donde = a2 /(a2 + e2 ) es el coeficiente de correlacion intra-clase. En este caso, es
el coeficiente de intra-grupo y este describe la proporcion de la varianza total debido
al grupo dentro de la varianza. Si las respuestas dentro de un grupo son mucho mas
no
parecidas que las respuestas de los diferentes grupos, entonces e2 es mucho mas peque
2
que a as sera proximo a la unidad; as es una medida relativa de agrupacion
similarmente. La matriz Vj es la misma que (11.7), la matriz de equicorrelacion.
En el modelo (11.12), el parametro es un efecto fijo y el termino aj es un efecto
aleatorio. Este es un ejemplo de un modelo mixto con ambos efectos fijos y aleatorios.
Los parametros de interes son , a2 y e2 (y por tanto rho).
Como otro ejemplo, considera datos longitudinales en los cuales Yjk es la medicion al
tiempo tk en el sujeto j quien fue seleccionado al azar de la poblacion de interes. Un
modelo lineal para esta situacion es
Yjk = 0 + aj + (1 + bj )tk + ejk
(11.12)
202
En general, los modelos mezclados para respuestas Normales pueden ser escritos en la
forma
y = X + Zu + e
(11.13)
donde son los efectos fijos, y u y e son efectos aleatorios. Las matrices X y Z son
matrices de dise
no. Ambos u y e son supuestos por estar distribuidos Normalmente.
E(y) = X resume la componente no aleatoria del modelo. Zu describe los efectos
aleatorios entre sujetos y e los efectos aleatorios dentro de los sujetos. Si G y R son
las matrices de varianza-covarianza para u y e respectivamente, entonces la matriz de
varianza-covarianza para y es
V(y) = ZGT Z + R.
(11.14)
Los parametros de interes son los elementos de y los elementos de varianza y covarianza en G y R. Para modelos Normales esto puede ser estimado usando los metodos
de maxima verosimilitud o resuduales de maxima verosimilitud (REML). Los procedimientos computacionales estpan disponibles en muchos programas estadsticos con
proposito general y mas softwares especializados tales como MLn (Rabash et al., 1998;
Bryk y Raudenbush, 1992). Buenas descripciones del uso de modelos mezclados (especialmente usando el software SAS) estan dados por Verbeke y Molenberghs (1997) y
Littell et al. (2000). Los libros Por Longford (1993) y Goldstein (1995) proporcionan
las descripciones detalladas de multinivel, modelos de coeficientes aleatorios o mixtos,
predominantemente para datos Normales.
Los modelos mixtos para datos no Normales son menos implementados aunque fueron
descritos por primera vez por Zeger, Liang y Albert (1988) y han sido el objeto de
mucha investigacion; ver, por ejemplo, Lee y Nelder (1996). Los modelos son especificados como sigue
E(y|u) = ,
var(y|u) = V(),
g() = X + Zu
11.6.
Continuaci
on del ejemplo de accidente cerebrovascular
Los resultados del analisis exploratorios y ajuste de GEE0 s y los modelos mezclados
con diferentes interceptos y pendientes para los datos de recuperacion de accidente
cerebrovascular son mostrados en el cuadro 11.7. Los modelos fueron ajustados usando
Stata. Las estimaciones Sandwich de los errores estandar fueron calculados para todos
los modelos GEE.
203
11.7.
Comentarios
Los an
alisis exploratorios para datos con medidas repetidas deberan seguir los pasos principales exbozados en la seccion 11.2. Para datos longitudinales estos incluyen
el trazado de la evolucion temporal de los sujetos o grupos de sujetos individuales, y
el uso de una forma apropiada de reduccion de datos para producir un resumen de los
estadsticos que pueden ser examinados para identificar patrones de la poblacion en
general o para sub-muestras. Para datos agrupados, merece la pena calcular el resumen
de los estadsticos en cada nivel de un modelo multinivel para examinar tanto los efec-
204
Cuadro 11.7: Comparacion de analisis de los datos de recuperacion de accidente cerebrovascular usando varios modelos diferentes.
b1
Agrupado
29.821
Reduccion de datos
29.821
GEE, independiente
29.821
GEE, equicorrelacionado 29.821
GEE, AR(1)
33.538
GEE, estructurado
30.588
Efectos aleatorios
29.821
Estimaciones
(s.e)
b2
b1
(5.774)
3.348
(5.772)
3.348
(5.774)
3.348
(7.131)
3.348
(7.719) -0.342
(7.462)
2.319
(7.047)
3.348
de intercepto
(s.e)
(8.166)
(10.709)
(8.166)
(10.085)
(10.916)
(10.552)
(9.966)
b3
b1
-0.022
-0.018
-0.022
-0.022
-6.474
-1.195
-0.022
(s.e)
(8.166)
(10.709)
(8.166)
(10.085)
(10.916)
(10.552)
(9.966)
Agrupado
Reduccion de datos
GEE, independiente
GEE, equicorrelacionado
GEE, AR(1)
GEE, estructurado
Efectos aleatorios
(1.143)
(1.080)
(1.143)
(0.496)
(0.714)
(0.941)
(0.463)
Estimaciones
-1.994
-1.994
-1.994
-1.994
-2.142
-3.214
-1.994
de pendiente
(1.617)
(1.528)
(1.617)
(0.701)
(1.009)
(1.331)
(0.655)
-2.686
-2.686
-2.686
-2.686
-2.686
-2.686
-2.686
(1.617)
(1.528)
(1.617)
(0.701)
(1.009)
(1.331)
(0.655)
6.324
6.324
6.324
6.324
6.073
6.926
6.324
205
ducir la eficiencia del estimador. En la practica, la eleccion puede ser afectada por el
n
umero de parametros de correlacion para ser estimados; por ejemplo, el uso de una
gran matriz de correlacion estructurada grande puede producir estimaciones inestables
o los calculos pueden no converger. La seleccion de la matriz de correlacion puede ser
hecha ajustando los modelos con estructuras de covarianza alternativas y comparando el criterio de informaci
on de Akaike,el cual es una funcion de la funcion de
log-verosimilitud ajustada para el n
umero de parametros de covarianza (Cnaan et al.,
1997). La comprobacion del modelo puede ser llevado a cabo con el rango usual de
graficas de residuales.
Para datos multinivel, modelos anidados se pueden comparar usando estadsticos de
razon de verosimilitud. Los residuales usados para comprobar los supuestos del modelo
necesitan ser estandarizados o encogids, para repartir la varianza apropiadamente
en cada nivel del modelo (Goldstein, 1995). Si el interes principal esta en los efectos
aleatorios entonces metodos Bayesianos analizar los datos, por ejemplo, usando BUGS,
pueden ser mas apropiados que la aproximacion frecuentista adoptada aqu (Best y
Speigelhalter, 1996).
Cuadro 11.8: Mediciones de volumen del ventrculo izquierdo y el volumen de la conductancia en paralelo en cinco perros bajo ocho diferentes condiciones de carga: datos
de Boltwood et al. (1989).
Perro
1
2
3
4
5
11.8.
y
x
y
x
y
x
y
x
y
x
1
81.7
54.3
105
81.5
95.5
65
113.1
87.5
99.5
79.4
Condiciones
2
3
4
5
6
84.3 72.8 71.7 76.7 75.8
62
62.3 47.3 53.6
38
113.6 108.7 83.9
89
86.1
80.8 74.5 71.9 79.5
73
95.7
84
85.8 98.8 106.2
68.3 67.9
61
66
81.8
116.5 100.8 101.5 120.8
95
93.6 70.4 66.1 101.4
57
99.2 106.1 85.2 106.3 84.6
82.5 87.9 66.4 68.4 59.5
7
8
77.3 86.3
54.2
54
88.7 117.6
74.7 88.6
106.4 115
71.4
96
91.9
94
82.5 80.9
92.1 101.2
58.5 69.2
Ejercicios
1.1 La medicion del volumen ventricular izquierdo del corazon es importante para los
estudios de fisiologa cardiaca y administracion clnico de los pacientes con enfermedad del corazon. Una manera indirecta de medir el volumen, y, involucra una
medicion llamada volumen de la conductancia en paralelo, x. Boltwood et al. (1989)
encontro una asociacion lineal aproximadamente entre y y x en un estudio de perros bajo diversas condiciones de carga. Los resultados, reportados por Glantz y
Slinker (1990), son mostrados en el cuadro 11.8.
(a) Conduce un analisis exploratorio de estos datos.
206
E(Yjk ) = = + xjk ,
suponiendo que las variables aleatorias Yjk son independientes (es decir, ignorando las mediciones repetidas en los mismos perros). Compara las estimaciones
del intercepto y pendiente y sus errores estandar de este analisis agrupado con los resultados que obtuviste usando una aproximacion de reduccion de
datos.
(c) Ajusta un modelo adecuado con efectos aleatorios.
(d) Ajusta un modelo longitudinal usando un GEE.
(e) Compara los resultados que obtuviste en cada aproximacion. Que metodo(s)
piensas que son mas apropiados? Porque?
2.2 Suponga que (Yjk , xjk ) son observaciones en el k-esimo sujeto en el grupo k (con
j = 1, . . . , J; k = 1, . . . , K) y queremos ajustar un modelo de regresion a traves
del origen
E(Yjk ) = xjk
donde la matriz de varianza-covarianza para las Y s en el mismo grupo es
1
1
Vj = 2 ..
..
.
.
.
. .
1
y las Y s en diferentes grupos son independientes.
(a) De la seccion 11.3, si las Y s estan distribudas Normalmente entonces
J
J
X
X
1
T
1
b
=(
xj Vj xj ) (
xTj Vj1 yj )
j=1
con
J
X
b
var() = (
xTj Vj1 xj )1
j=1
j=1
Vj1
1
1
= c ..
..
.
.
.
. .
1
1
y=
+ (K 1)]
1 + (K 2)
2
[1 + (K 1)]
P
P 2 .
Muestra que var(b) = P P 2
2
j{
k xjk + [(
k xjk )
k xjk ]}
donde c =
2 [1
2
2
var(b ) = / j k xjk .
207
2 [1 + (K 1)]
.
W (1 )
var(b )
1
Deduce el efecto en el error estandar estimado de la estimacion de la pendiente
para este modelo si la agrupacion es ignorada.
Cuadro 11.9: N
umero de odos claros de la otitis media aguda a los 14 das, tabulados
por tratamiento antibiotico y edad del ni
no: datos de Rosner (1989).
Edad
<2
25
>6
Total
CEF
N
umero de claros
0 1 2 Total
8 2 8
18
6 6 10
22
0 1 3
4
14 9 21
44
AMO
N
umero de claros
0 1 2 Total
11 2 2
15
3 1 5
9
1 0 6
7
15 3 13
31
3.3 Los datos de odos u ojos de sujetos son un ejemplo clasico de agrupacion-odos
u ojos del mismo sujeto son improbables por ser independientes. Los datos en el
cuadro 11.9 son las respuestas de dos tratamientos codificados como CEF y AMO
de ni
nos quienes tienen otitis media aguda en ambos odos (datos de Rosner, 1989).
(a) Conduce un analisis exploratorio para comparar los efectos de tratamiento y
edad de los ni
nos en los exitos de los tratamientos, ignorando la agrupacion
con cada ni
no.
(b) Sea Yijkl la respuesta del l-esimo odo del k-esimo ni
no en el grupo de tratamien0
to j y el grupo de edad i. Los Yijkl
s son variables binarias con valores posibles
de 1 denotando curado y 0 no curado. Un posible modelo es
ijkl
= 0 + 1 edad + 2 tratamiento + bk
logit
1 ijkl
donde bk es el efecto aleatorio para el k-esimo ni
no y 0 , 1 y 2 son parametros
fijos. Ajusta este modelo (y posiblemente otros modelos relacionados) para comparar los dos tratamientos. Que tan bien se ajustan los modelos?, Que concluyes acerca de los tratamientos?
208
(c) Una aproximacion alternativa, similar al propuesto por Rosner, es utilizar regresion logstica nominal con categoras de respuesta 0, 1 o 2 para los oidos
curados para cada ni
no. Ajusta un modelo de este tipo y compara los resultados con los obtenidos en (b). Que aproximacion es preferible considerar con
los supuestos hechos, la facilidad del calculo y facilidad de interpretacion?